为了支持公共使用和散布基因表达数据,NCBI开始了基因表达汇编(GEO)计划。GEO是努力建立一个基因表达数据仓库和在线资源,用于从任何物种或人造的来源检索基因表达数据。来自于microarray,高密度寡核苷酸array(HAD),杂交膜(filter)和SAGE的许多类型的基因表达数据都被接受,登记,和存档,作为一个公共数据集合。一系列预先计算的数据的定义和描述,以及用于交互检索和分析这些表达数据的在线工具即将放入。
数据仓库图解
一个GEO仓库概念图解的顶层视图显示四个基本实体:提交者,平台,系列和样本。
提交者:提交者的联系和登录信息,同许多平台,许多样本和许多系列有关系。
平台:关于用于以高通量方式检查样本的物理试剂的信息。同一个提交者,许多样本有关。
样本:关于被检查的mRNA样本,实验条件,和实验产生的基因表达测量数据信息。同一个提交者,一个平台和许多系列有关。
系列:样本收集,样本是如何相关的,如何排序的,分析是如何进行的,和聚类数据是如何获得的信息。同一个提交者,许多样本有关。
FAQ:
我如何提交我的数据?
为了提交数据,你需要同我们建立你的身份,用登录用户和密码。第一次你登录时,我们将问你联系方式,这些将在别的用户使用你的数据是被检索出来。这些信息仅需要填写一次。你只有在提交数据的时候才登录,检索数据不用登录。在试图提交数据以前,请仔细阅读GEO提交指南。
GEO是否提供“一定日期前保留”服务?
是的。这个特点允许一个提交者提交数据给GEO,并且在数据公布前得到一个GEO登记号。
GEO将接受什么样的数据?
GEO设计成围绕目前常用的大多数高通量和并行基因表达测量技术的特点。这些技术是杂交膜,microarray,高密度寡核苷酸array,和SAGE。但是,事实上,任何的数据只要达到提交的要求都会被接受。GEO实体的分条描述和它们的数据字段给出了更多的信息。
GEO是否存档未加工的数据图?
不。然而,一个参考图将被可选的接受(以JEPG形式,低于一定的大小)。同x,y坐标可选的参考一起,这个图可以提供给数据的查询者一个对数据定性的评估。
有没有任何GEO 要求的QA(质检)测量?
目前没有。这个要求将在将来被加入。
我如何加入QA测量到GEO中去?
QA测量目前是可选的。如果在图像分析阶段进行了QA测量,这些可以被存储在另外的样本数据表栏中。
我如何提交重复实验到GEO?
你必须提交样本数据,然后用提交一系列类型为“重复样本组”关联这些样本。这个在这些样本之间的关联将显示什么时候任一样本被一个查询检索了。Microarray上同一点的重复测量可以在样本数据表的增加栏里出现。
我如何能过提交更正?
如果数据重提交或更正时必须的,请同geo@ncbi.nlm.nih.gov联系。
马上要有的……对一个已经存在的和有效的GEO登录号的数据的重提交(要有恰当的提交者的认证)将引起那些数据元素新的版本被创立。所有各种数据元素的版本都将永远保留被检索。
提交者是如何被认证的?
在第一次提交给GEO,提交者将被要求选择一个用户ID和密码。这个用户ID和密码可以被用来在将来提交附加的数据,而不用再输入联系信息,同时也认证了提交者当对一个存在的GEO登录号更新和重提交数据元素时。
GEO有那些可能的查询和检索?
目前,有两种方法来检索提交。一种是在主页头上的横幅查询框中输入有效的GEO登录号。另外是用平台,样本,系列和提交者浏览器(链接位于左边“Retrieval”下的边条)。
马上要有的……我们还要决定被GEO网络界面支持的全范围查询。有些查询可能包括:表达水平的变化;基因,由UniGene聚类,ORF或LocusLink定义的;MeSH术语;分类术语;被选的提交者字段;被选的平台字段;被选的系列字段;被选的样本字段;对于网络界面不支持的查询,我们将在NCBI FTP站点以XML形式提供整个的GEO数据集合(和可能子集)。这样,不同的基因表达数据库实现(允许更复杂的查询)可能移植GEO的数据。
什么是MeSH?
医学主体标题,MeSH,是一个有限的字汇表等级制度,由国立医学图书馆开发和维护。MeSH提供一个准备好的和实验过的方法来分类GEO样本,系列和平台。NCBI的PubMed组已经建立一个“MeSH浏览器”,用来交互查询MeSH。你可以试一试MeSH浏览器或读更多的关于MeSH系统。
“taxon”这个词指的是什么?
NCBI的分类学组基于最近的信息已经建立和维护了一个分类等级制度。你可以试一试交互分类学浏览器。