随着测序价格不断降低,二代测序的应用现在可以说是如日中天了,Hiseq,Solexa,454等等。测序数据到手之后第一件要做的事情当然是看看数据测得怎么样了?一般测序机构提供测序数据的同时也会提供一份质量报告。但是一般这个报告的分析内容都比较简单。想看一个更完整的二代数据测序质量报告吗?看看FastQC这个软件吧。
下面先预览一下这个软件分析的效果图,再介绍一下这个软件的功能吧。
这是一个基于java的分析程序,可以输入FastQ,BAM,SAM等格式的数据文件,然后程序将进行一系列评估分析。分析完之后提供一系列图表信息,从这个信息您可以知道您的数据质量怎么样,哪里存在问题。
分析的内容包括:
- 测序数据的基本信息
- 每个碱基的质量值
- 每条reads序列的质量值
- 每条序列的ATCG组成
- 每条序列N的含量
- 每条序列的长度分布
- 序列中duplication程度
- K-mer信息
上如图所示,绿色应该表示该项指标正常,如果出现橙色或者红色表示该项指标问题比较大。
更多关于这个软件的信息,请看:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
分析报告结果演示请看:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc/fastqc_report.html
对了该软件的质量评估报告支持多种格式喔!
1F
回复测试
2F
FastQC好是好,不过存在一个问题。就是使用数据量的问题。它使用的不是全部的数据来计算那些指标。所以在精度方面会有所偏差,但是曲线的大致轮廓不会有大的变化
B1
@ sunredrock 嗯,您这点反馈的信息很重要。
我在看到这个软件的时候,猜想计算K-mer这一步,如果数据量很大的话,时间消耗和内存开销估计会很大,所以推断软件里面里面可能采用了抽样的算法。
不过具体还得看看文献,可惜目前还没找到它的文献。如果有回头我再把文献补充上去。
3F
Could you pls introduce NGSQCToolkit_v2.3.3 to us?谢谢