上传基因组数据到NCBI

1、创建 BioProject 号和 BioSample 号

对某一个物种进行了基因组测序,则申请 BioProject 和 BioSample 号各一个。

2、使用 tbl2asn 准备后缀为 .sqn 的 ASN.1 文件

在 windows 下可以使用 Sequin 来制作 .sqn 文件。该文件是下面所述的 3 个文件的信息的综合体。tbl2asn 是命令行的工具,适合大基因组数据的 .sqn 文件生成。

3、生成包含作者信息的 .sbt 模板文件(Submission Template)

推荐使用网页http://www.ncbi.nlm.nih.gov/WebSub/template.cgi,填入数据生成 template.sbt 文件,并下载到本地。当然,此文件也可以使用 Sequin 生成。
填写信息时,可填入 BioProject 和 BioSample 号。

4、准备后缀为 .fsa 的fasta文件

fasta 文件的的 header 要求如下:

  1. 1. ">" 第一个空格之间的内容是序列名。
  2. 2. header部分可以加入其它因素,比如:
  3. organism [organism=Saccharomyces cerevisiae]
  4. strain [strain=S288C]
  5. isolate [isolate=CWS1] # 代表在什么个体上获得的样品
  6. chromosome [chromosome=XVI]
  7. topology [topology=circular]
  8. location [location=mitochondrion]
  9. molecule [moltype=mRNA] (DNA is the default)
  10. technique [tech=wgs]
  11. protein name [protein=helicase]
  12. genetic code [gcode=4]

5、准备后缀为 .tbl 的表格格式的基因组注释信息文件

此文件有 5 列,每列用 tab 分割,称为 feature table
此文件是最为关键的一步。该文件必须包含:编码基因的结构注释信息、非编码基因的结构注释信息 和 基因的功能注释信息。一旦做不好,NCBI的工作人员就会发email反馈修改意见。

feature table 格式的要点如下:

  1. 1. 对每条序列的所有注释之前,有一行额外的内容,例如:
  2. >Feature scaffold_1
  3. 该行内容后面的所有注释信息属于序列 scaffold_1 ,一定不能遗漏 Feature 这个单词,Feature scaffold_1 用空格分隔。
  4.  
  5.  
  6. 2. 每个 feature 使用 5 行内容进行阐述,并分成 2 个部分。
  7. 1 部分是 feature 在序列上的结构信息。有 3 列,分别为该 feature 的起始位点、结束位点和 feature 名。若 feature 在正义链上,则起始位点 < 结束位点,若在负义链上,则起始位点 > 结束位点。若 feature 为断裂基因的 CDS exon 等信息时,则有多行数据,但仅在其首行的第 3 列上显示 feature 名。
  8. 2 部分是 feature 的功能注释信息。使用第 45 列,前面有 3 tab 键。第 4 列对应 feature qualifier,第 5 列是 qualifier 的值。 qualifier 是对 feature 的描述标签。如果有多个 qualifier 及其值,则用多行进行表示。
  9.  
  10.  
  11. 3. feature qualifier 的具体标签名称参考http://www.insdc.org/documents/feature_table.html。
  12.  
  13.  
  14. 4. 常用的 feature 名称有:gene, mRNA, CDS, exon, 5'UTR, 3'UTR, tRNA, rRNA, ncRNA 等。其中 ncRNA 是指除了 tRNA rRNA 以外的其余 ncRNA
  15.  
  16.  
  17. 5. gene qualifier 标签一般是 gene, 5 列使用基因组系统化的 geneID mRNA CDS qualifier 标签一般使用 product,第 5 列是 Nr 注释的结果。exon qualifier 标签一般使用 number,其值为 1,2,3... UTR qualifier 标签可以使用 note tRNA rRNA qualifier 标签一般使用 product,第 5 列是相应种类的 RNA 名称。ncRNA qualifier 标签中必须有 ncRNA_class,第 5 列则是 ncRNA 的类别,比如 miRNA, siRNA, scRNA 等。此外,可以使用 note 作为 qualifier 的标签,其值可随意标示。
  18.  
  19.  
  20. 6. mRNA CDS product 的取值,使用 Nr 注释的最优结果。最优结果如果包含 "hypothetical protein" "predicted protein" "unknown" "partial" "homolog" 时,则需要取其它注释结果,或采取一定的措施了。

6、tbl2asn 命令生成 .sqn 文件

在当前目录下生成了 3 个文件: species.sbt, species.fsa, specis.tbl 。
运行 tbl2asn 生成目标文件 species.sqn 。

  1. tbl2asn -t C001.sbt -p ./ -a s -V vb
  2. # -a s 一个fasta文件有多条序列时,使用此参数配置。
  3. # -V vb v表示对输入的数据进行验证,生成 2 个 .val 的文件;-b 生成GeneBank格式的文本文件,以 .gbf 为后缀。
  4. # 运行完毕后需要查看 val 文件,其中有很多错误与警示信息。 有些蛋白质序列不是以 M 开头,会在此处提示 ERROR 。尽量排除除此之外的错误和警告。

7、使用 GenomeMacroSend 上传 .sqn 文件

在 GenomeMacroSend 网页http://www.ncbi.nlm.nih.gov/projects/GenomeSubmit/genome_submit.cgi 的最下方的输入框中填写信息上传 .sqn 文件。

8、全网页方法上传数据

基因组数据上传:Genomes(WGS) submission portal

转录组数据上传:TSA submission portal

使用网页方式上传数据和上述方法基本一致。 feature tab 的制作依然需要自己手工制作,再上传。

原文来自:http://www.chenlianfu.com/?p=2171

更多关于如何向NCBI提交数据请阅读PLOB中其他文章:

1、怎样向NCBI提交基因序列

2、如何向NCBI提交序列(在线提交法)

3、RNA-seq拼接结果数据提交NCBI

4、用Sequin向NCBI提交序列

5、利用BankIt向NCBI提交序列方法

 

发表评论

匿名网友

拖动滑块以完成验证
加载失败