【基迪奥】测序，生物信息分析疑问解答（一）

2014/03/21评论3,393

Q1:请问下高通量测序相对基因芯片有何优势？

A:高通量测序有如下优点:

1) 准确性高，可重复性高;

2) 不仅能对已知的基因进行检测，还能对新基因进行寻找;

3) 对基因表达量的检测限更广（对高丰度和低丰度基因的检测更加准确）

4) 直接得到基因序列，原始数据不会受基因组的版本号变化的影响（芯片原始数据为探针信息，可能因为基因组升级导致注释信息变化而失效）。因此，测序更加适合于实验室样本数据的长期累积和分析

Q2:我想对某种海洋生物的育种进行研究，但该海洋生物的基因组数据一直没有公布，请问是否可以通过转录组测序来筛选分子标记？

A:可以，我们通过转录组测序可以对样本个体SSR等分子标记进行检测。同时，也可以建议老师采用RAD测序来进行分子标记的筛选。

Q3:转录组测序的取样时实验室没有液氮了，能否将样品直接至于-80℃冰箱中保存？

A:不能，因为RNA暴露在富含RNA酶的环境中极易降解，需要迅速至于液氮中，并低温保存，而冰箱无速冻功能。

Q4.没有基因组的物种，可以凭借转录组数据做可变剪切的预测么？

不能，预测可变剪切需要有参考基因组。

Q5:我拿到了我的表达谱测序结题报告，显示差异基因有好几千个，请问我怎样才能找到感兴趣的某功能基因？一个一个找吗？

A:如果老师已经锁定感兴趣的代谢通路，可以点开结题报告中kegg富集分析，选择该代谢通路的超链接，打开基因列表，查看该通路中的差异表达基因，如果仍然过多，老师您可以点开路径名的超链接，在路径图中选择位于上游的差异基因。

Q6:差异基因的筛选条件为何是在两个样品中的表达量相差大于二倍？

A:表达量差异倍数的设置是根据老师的研究需要设定的，目的是找到合适数量的差异基因，并无硬性指标。二倍的差异是国际杂志认可的筛选标准。如果老师认为得到的差异基因数过多，可以自行提高差异倍数。具体可以咨询基迪奥的技术人员。

Q7:你们的转录组结题报告为何没有关于mRNA可变剪接的统计结果？

A:对于无参考基因组的物种，转录组测序的结果是无法区分可变剪切和基因家族的，我们不知道两个相似序列是否来自同一个基因，所以转录组测序结果不包含可变剪切的分析。

Q8:如何判断基因表达量测定结果的好坏？

A:有如下方法:一，观察结题报告中的测序及比对结果是否正常；二，正常情况下两样品差异比较得到的上调基因和下调基因的数目应基本在一个数量级；三，可以通过比较两样品中物种组成型表达的基因（看家基因）的表达量，正常情况下应基本一致。我们都会在将结果呈递给老师前对结果进行检验，老师可以放心使用。

Q9:我想在ncbi数据库中下载的某物种转录组测序结果，请问具体方法是什么？

A:在ncbi数据库中，转录组测序的reads信息被压缩为SRA格式，在ncbi搜索物种，可以在搜索的SRA栏目中找到测序信息和下载链接。下载下来的数据需要使用SRA转换工具来转换成分析软件需要的FASTQ格式。

Q10:我研究的物种没有参考基因组，一共六个样品。我准备分别进行混样转录组测序，再进行表达谱测序，你们还有更好的办法吗？

A:老师您的方法是合理的，对混样进行转录组测序，尽可能得到完全的转录组数据，以此为参考序列，进行表达谱测序。但我们有更好的办法。老师可以选择对合样品进行pe100测序，测序量为2G，然后将表达谱测序的结果混合后进行组装，同样可以得到转物种的转录组。

Q11:我在贵公司进行了测序，现在正在进行论文撰写，到关于你们的测序方法与结果不甚了解，请问你们能否提供相关帮助？

A:我们有对我们的各业务线的图表结果及其实验分析方法进行了撰写，并参考在知名sci杂志上发表的论文对文档进行了翻译。老师可以联系我们的销售来获取这些文档。

Q12:在lncRNA分析中，你们是如何分析其对基因的调控的？

A:由于目前对lncRNA的功能机制的研究尚未明确，现在我们一般采用lncRNA顺式调控假说的方法原理，将lncRNA附近10kb的区域中包含的基因作为潜在的lncRNA相关基因，如果同时进行了表达谱测序，我们可以通过这些基因与lncRNA间的共表达关系对之进行筛选，得到更可信的lncRNA与基因调控网络。

Q13.对于一个未知物种而言，如果做转录组denovo项目，一般有多少个unigene比较合适？

A:物种的转录组unigene数目因为物种的不同可能有显著不同，考虑到每个基因有可能产生多个转录本的情况，结合目前的项目经验，一般物种的unigene数目为基因数的2-4X比较合适。

Q14.计划研究一个物种（基因组未发表），想了解一下其基因组的基本信息，请问有哪些途径？

A:可以通过查询相关网站数据获知，例如Animal Genome Size Database，PlantGDB,Plant DNA C-values Database等。

Q15.对于某个物种，做过两次独立的转录组组装，如何知道两次结果中的unigene的对应关系？

A:可以但是一般老师通常关注的是某类基因，而且老师往往已经在一个转录组结果中找到，那么可以建议老师通过本地blast，将所要查询的基因与另一个转录组数据进行匹配，将对应unigene找出。

如果数量巨大，我们将提供大批量blast的个性化分析服务。

Q16.做多个样本的RNA-seq项目，两两比较中有某个样品的基因表达量上调和下调基因数目相差很多（两个数量级），是否正常？

A:理论上讲，一个细胞的RNA总量是比较稳定的，那么通常情况下，上调和下调的基因数一般不应该差别很多，如果差别一个数量级以上，可以考虑查证是否在样品中存在的rRNA或者其他物种RNA污染的影响。

Q17.如果要做一个未知物种的转录组高通量测序项目，应该怎么来选择测序平台及数据量？

B:Illumina测序平台因其稳定的测序质量，优质数据性价比，占领了市场80%以上的份额。数据量我们一般推荐做4-8G（这个也不是固定标准，随着行业发展会变化，而且不同的老师可能有不同的需要）

Q18.目前做高通量测序项目是否必须设置生物学重复？

A:理论上讲，设置生物学重复是比较合理严谨的做法，如果老师的经费允许的话，可以建议老师做适当的生物学重复（至少三个）。但就目前高通量研究领域来看，考虑到成本问题，单独样品的研究亦可得到学界的一定认可，比如IF在5以下的期刊，还是可以接受无重复的样本研究。不过随着时间的推移，做生物重复是必然趋势。

Q19.老师想打开测序结果文件，但是半天没反应，是怎么回事？

A:这是因为某些文件较大，office软件（word，记事本等）通常需要将文件整体读入电脑内存，耗费电脑资源，故速度较慢甚至死机，建议老师可以使用VIM，ultraedit等软件。

Q20.结题报告中某些插件显示不出来，是怎么回事？

A:这些问题是由于浏览器以及java插件的版本兼容问题。但这些东西对于结果的整体解读不会有很大影响，比如热图，这个图一般不能直接用到文章里，后来可根据老师挑取特定的基因，重新绘制热图。

发表评论