首页 > 生活常识 >

geo数据库全称的介绍以及数据下载

931次浏览     发布时间:2024-02-26 09:47:03    

1、什么是GEO数据库呢?

GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库

它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。

最重要的是这个数据库里的数据是免费的。

2、GEO提供的数据类型有那些呢?

GEO数据库里的数据是免费的,可以直接在线下载。但是,在下载数据之前你要了解GEO数据库的4个概念和4个数据存放类型:

4个概念的理解:一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,不过GDS本身用的很少。而每个数据集都有着自己对应的芯片平台,就是GPL。

①GPL(GEO platforms):大学高校平台;

②GDS(Datasets):工程技术学院;

③GSE(Series):工程学院的各个教研室,比如GSE数学教研室、GSE计算机教研室、GSE研究生工作室;

④GSM(Samples):比如研究生工作室的每个人是一个样本。

4个数据存放类型:GEO提供了多种数据的下载格式

①根据GDS号来下载数据,下载SOFT格式的数据

②根据GPL号下载的是芯片设计的信息,MINIML格式的数据

③根据GSE号下载数据,下载TXT矩阵形式的数据

④芯片原始数据(cel文件)

以上数据类型,可根据自己的需要进行选择,最常用的是GSE数据集显示格式,也就是_series_matrix.txt.gz矩阵形式的数据。

说明:

① SOFT格式和MINIML格式的数据下载下来之后,是一个压缩包,解压之后里面有各个样本的单独的表达数据,还有平台的注释数据以及样本信息,其中样本信息是XML文件,其他为TXT格式的数据。

② 矩阵格式的数据下载后也是一个压缩包,解压之后是一个TXT文件,可以用Excel打开它,样本信息都包含在里面。

③ 芯片原始数据下载下来也是压缩包。

④GEO国内访问速度比较慢,下载数据时有时经常会断或者下载下来的数据不全,存在数据丢失情况。

3、怎么样进入GEO数据库,GEO检索入口有哪些呢?

了解了GEO数据库的数据类型后,接下来我们要进入数据库,下载想要的数据。进入GEO数据库的方式有两种,其中任何一个都可以:

①GEO数据库主页(网址
https://www.ncbi.nlm.nih.gov/geo/)。打开页面以后,在search框中输入关键词或输入要查询的数据集。

②另外一种方式就是通过pubmed入口(网址
https://www.ncbi.nlm.nih.gov/)进入GEO数据库。有些可以从大学图书馆的官网pubmed里进入,进去以后,选择GEO Datasets,同样在search框中输入关键词或输入要查询的数据集。

4、进入GEO数据库怎么下载数据呢?

通过以上的任意一种方式我们进入GEO数据库,下面我们就可以下载数据啦!

举个例子:进入GEO数据库后,我们选择GEO DataSets,你可以通过阅读文献查找感兴趣的GSE Accession,然后输入数据集的GSE号,比如本例中用的是视网膜母细胞瘤原发性肿瘤的基于表达芯片:GSE24673,输入后,点击search即可。下面是页面的检索结果,我们点进去看看。

点进去之后,可以看到这篇文章的一些信息,比如摘要,数据的整体设计、平台信息、样本量等。

我们看页面的底部,看红色方框框起来的,

第一个是GEO数据库自带的DEG(差异表达基因)分析功能,可以对数据做DEG分析,对于编程弱的同学们来说很方便的;

第二个是前面介绍的数据类型文件。

其中,矩阵文件是GEO分析最常用的格式文件。

虽然,分析矩阵文件最简单,但是因为GEO数据库不负责对数据进行质量监控,我们下载的矩阵文件属于芯片分享的人整理的,可能存在误差,因此在某些时候分析矩阵文件并不是十分的准确。

第三个是芯片原始数据(数据是最精确的)。当然了原始文件整理麻烦,但是质量会比较好!

找到了下载数据的地方,点击Down family下面的三种数据,下载SOFT文件、MINIML文件、TXT矩阵形式以及下载Supplemently file下面的芯片原始数据文件,也就是格式为TAR(OF CEL)的文件,我们点击一下http下载原始文件。这样数据就全部下载完毕了,保存在文件夹里,就可以做下一步分析啦!

推荐文章

网站内容来自网络,如有侵权请联系我们,立即删除!
Copyright © 暖百科 琼ICP备2023010360号-5