GenBank数据库格式的说明

GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。

GenBank数据库格式的详细说明请参考NCBI在线说明:

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

下表分别对比列出EMBL和GenBank数据库格式:

EMBLGenBank含义
IDLOCUS序列名称
DEDEFINITION序列简单说明
ACACCESSION序列编号
SVVERSION序列版本号
KWKEYWORDS与序列相关的关键词
OSSOURCE序列来源的物种名
OCORGANISM序列来源的物种学名和分类学位置
RNREFERENCE相关文献编号,或递交序列的注册信息
RAAUTHORS相关文献作者,或递交序列的作者
RTTITLE相关文献题目
RLJOURNAL相关文献刊物杂志名,或递交序列的作者单位
RXMEDLINE相关文献 Medline引文代码
RCREMARK相关文献注释
RP相关文献其它注释
CCCOMMENT关于序列的注释信息
DR相关数据库交叉引用号
FHFEATURES序列特征表起始
FT序列特征表子项
SQBASE COUNT碱基种类统计数
空格ORIGIN序列

发表评论

匿名网友

拖动滑块以完成验证