1,什么是参考序列RefSeq?
NCBI的参考序列(RefSeq)计划,为多种生物提供序列的数据信息及相关资料,用于医学、基因功能和基因功能比较研究。RefSeq数据库中所有的数据是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、RNA等。
2,RefSeq和genbank的数据有什么区别?
genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。
而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。
3,怎样引用RefSeq的数据?
以NCBI Accession NM_000001.1为例:
可以用下面的方面引用全手册:
The NCBI handbook [Internet]. Bethesda (MD): National Library of Medicine (US), National Center for Biotechnology Information; 2002 Oct. Available from http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Books
如果只引用 RefSeq的章节(Chapter 18):
The NCBI handbook [Internet]. Bethesda (MD): National Library of Medicine (US), National Center for Biotechnology Information; 2002 Oct. Chapter 18, The Reference Sequence (RefSeq) Project. Available from http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Books
4,如何访问RefSeq?
RefSeq记录可以通过各种NCBI资源来访问,包括:
BLAST | Transcript, protein, and 'genomic region' (NG accessions) records are in the nucleotide and protein non-redundant databases (nr). Blast against larger genomic records is provided via organism-specific BLAST pages. |
---|---|
Entrez Gene | Entrez Gene reports provide links to all categories of RefSeq records. The Gene database can be queried with a RefSeq accession number in addition to text terms - see the Gene Help documentation for detailed query tips. |
Entrez Genomes Division | Records representing completed genomes and chromosomes are presented on the Genomes pages. |
FTP | Nucleotide and protein records provided by the Entrez Genomes and RefSeq processes are available from the /refseq directory; Nucleotide and protein records that are provide by the Genome Annotation Pipeline are available in the /genomes/ directory. |
Map Viewer | The NCBI Map Viewer includes links to RefSeq records when the annotated genome assembly information is available. |
Sequence databases | RefSeq records are included in the Entrez nucleotide and protein databases. See the Entrez Query Hints for hints on formatting your query to retrieve RefSeq records. |
5,RefSeq记录的特征是什么?
- 截然不同的Accession号区别于其它的序列,前缀是两个字母加下划线('_')
- 在Comment区域显示来源
- 使用正式命名
- 包括dbxrefs的特征
- 蛋白序列在DBSOURCE区域标示 'REFSEQ'
6,在BLAST结果和在Entrez搜索结果里怎样快速地区分出那些是RefSeq?
一般返回的结果序列开头的格式都如正下面所示:
gi|4557284|ref|NM_000646.1|[4557284]
格式说明:
gi :"GenBank Identifier的缩写", 是序列的ID号,标识符。唯一的。
4557284 就是该序列的gi号
ref :标示该序列是参考序列。
NM_000646.1 该序列的Accession号和版本号
在BLAST结果中,
Score E
Sequences producing significant alignments: (bits) Value
gi|6226959|ref|NM_000014.3| Homo sapiens alpha-2-macroglobu... 9073 0.0
...................................^ ^
....................................| |
.....................................| 参考序列的命名格式
............................| "ref" 标示这是来源于参考序列数据库
7,为什么RefSeq记录中的基因符号(symbol)有时和相关的GenBank中的不一样?
RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库,由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号,但有的作者没有,所以有时会产生别名。GenBank与Pubmed相同,通过display可以选择显示格式,常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析,FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征,并以ATGC4种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。
8,RefSeq NM_xxxxxx和GenBank Afxxxxxx看起来是重复的,哪一个将会删除?
两个都会保留。RefSeq NM_xxxxxx和GenBank Afxxxxxx看起来是重复的,但RefSeq和GenBank是分开的数据库,而且两者都是可以通过在Entrez nucleotide中输入各自的ACCESSION获得。开始时临时的RefSeq记录与GenBank记录非常相似。但是,当RefSeq记录被专家review以后,新增的序列数据、生物学注解、和参考文献常被加入。那时,RefSeq条目(即序列)代表一个来自不同实验室的综合信息,这时二者可以非常不同。
9,一开始的GenBank来源序列是如何选取的?
RefSeq记录通过以下步骤创建:
- 确定代表不同基因的序列
- 建立正确的基因名字到登录号的联系
- 确定完整范围的可以获得的序列数据
- 创建一个新的处于三种状态之一的参考序列(RefSeq)记录
10,预测的,临时的,和检查过的RefSeq记录有什么区别?
RefSeq记录是有三种可以获得的状态:预测的,临时的和检查过的(reviewd)。
检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编。它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM。RefSeq标准为人类基因组的功能注解提供一个基础。
预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区。
临时的RefSeq记录还没有被检查过。它们是有自动的程序产生的。