GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。
GenBank数据库格式的详细说明请参考NCBI在线说明:
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
下表分别对比列出EMBL和GenBank数据库格式:
EMBL | GenBank | 含义 |
ID | LOCUS | 序列名称 |
DE | DEFINITION | 序列简单说明 |
AC | ACCESSION | 序列编号 |
SV | VERSION | 序列版本号 |
KW | KEYWORDS | 与序列相关的关键词 |
OS | SOURCE | 序列来源的物种名 |
OC | ORGANISM | 序列来源的物种学名和分类学位置 |
RN | REFERENCE | 相关文献编号,或递交序列的注册信息 |
RA | AUTHORS | 相关文献作者,或递交序列的作者 |
RT | TITLE | 相关文献题目 |
RL | JOURNAL | 相关文献刊物杂志名,或递交序列的作者单位 |
RX | MEDLINE | 相关文献 Medline引文代码 |
RC | REMARK | 相关文献注释 |
RP | 相关文献其它注释 | |
CC | COMMENT | 关于序列的注释信息 |
DR | 相关数据库交叉引用号 | |
FH | FEATURES | 序列特征表起始 |
FT | 序列特征表子项 | |
SQ | BASE COUNT | 碱基种类统计数 |
空格 | ORIGIN | 序列 |