RNA-seq拼接结果数据提交NCBI

2012/08/2526,743

RNA-seq的拼接结果也可以向NCBI提交，第一次提交，还是费了不少事，这里简单总结一下。RNA-seq的拼接结果应该提交到TSA库，TSA全称Transcriptome Shotgun Assembly Sequence Database，TSA is an archive of computationally assembled sequences from primary data such as ESTs, traces and Next Generation Sequencing Technologies.

对于注释信息的要求

TSA数据提交前，首先需要将原始的序列提交到SRA数据库，与提交普通核酸、EST类似，TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample；提供拼接信息以及对于拼接过程的描述。

对于序列的要求

必须是原始的测序结果的拼接数据
需要去除载体或者测序引物
序列长度不能少于200bp
序列不能包括太多的N，少于10%或者小于14个N

提交流程

NCBI注册，获取注册账号，登录
注册BioProject，获得一个编号
将Raw reads提交到SRA，在SRA提交页面创建一个SRA提交，创建Sample，创建Experiment、在Experiment中创建RUN，需要提供测序平台、文件名、文件格式（Illumina_native、bam、fastq、srf)以及MD5验证码，创建好后，给NCBI发邮件，他们会提供数据上传的FTP，压缩后上传到FTP
使用Sequin或者tbl2asn准备提交的文件，需要用到的数据包括拼接的序列（fasta格式）、拼接说明、BioProject编号、SRR接收号、单位信息、样本信息等
将注释好的文件压缩通过GenomesMacroSend提交，提交后会获得一个GDSub编号，将这些信息以及数据发布日期email给ncbi
OK，等待回复，有问题解决问题，没有问题收纳接收号。

注意事项

window下TSA的注释
开始在window下（win 7 64bit）使用sequin，总是序列加载后，开始填写注释信息时就没有响应，估计是卡在内存上，因为其需要将所有数据都加载到内存中，结果内存只增加到100多M就不动了，试了几次，每次都挺花时间的，最后还是失败了，sequin的主页上说适合于1万条以内的序列注释，NRS拼接的结果基本都是10万的级别。最后还不得不改用 tbl2asn，虽然是命令行的，NCBI都提供了在线的模板、拼接信息生成CGI，但是序列多在dos下还是很慢，最后改在64位linux，几乎就是瞬间的事情。
tbl2asn的使用注意-y与-Y参数的差别，-y后面可以直接跟注释信息，-Y是指存放注释信息的文件，另外就是在fasta文件中，在序列的defline 部分可以使用[key=value][key=value]的形式给序列添加注释信息，比如[tech=TSA] [SRA=SRRXXXXXX1,SRRXXXXXX2][bioproject=PRJNAXXXX1][moltype=mRNA]下面是命令示例：

tbl2asn -t template.sbt -p. -a s -w assembly.cmt -Y comment -M t

关于序列中的N，序列中的N必须少于14个，或许是NCBI处于质控的角度考虑制定的规则，但是如果使用两端测序，难免序列中有很多N来填补缺位，N的价值是及其有意义的，如果要提交必须将这些序列去掉或者拆开，从文章的角度却又是不妥的，挺为难的。

没了，算是初次提交者的一个快速指南吧。更具体的请阅读NCBI官方说明。

参考

文章来源：博耘生物http://boyun.sh.cn/bio/?p=1922

RNA-seq拼接结果数据提交NCBI

对于注释信息的要求

对于序列的要求

提交流程

注意事项

参考

来自外部的引用

发表评论