推荐一款二代测序数据质量控制软件FastQC

随着测序价格不断降低,二代测序的应用现在可以说是如日中天了,Hiseq,Solexa,454等等。测序数据到手之后第一件要做的事情当然是看看数据测得怎么样了?一般测序机构提供测序数据的同时也会提供一份质量报告。但是一般这个报告的分析内容都比较简单。想看一个更完整的二代数据测序质量报告吗?看看FastQC这个软件吧。

下面先预览一下这个软件分析的效果图,再介绍一下这个软件的功能吧。

推荐一款二代测序数据质量控制软件FastQC

这是一个基于java的分析程序,可以输入FastQ,BAM,SAM等格式的数据文件,然后程序将进行一系列评估分析。分析完之后提供一系列图表信息,从这个信息您可以知道您的数据质量怎么样,哪里存在问题。

分析的内容包括:

  • 测序数据的基本信息
  • 每个碱基的质量值
  • 每条reads序列的质量值
  • 每条序列的ATCG组成
  • 每条序列N的含量
  • 每条序列的长度分布
  • 序列中duplication程度
  • K-mer信息

上如图所示,绿色应该表示该项指标正常,如果出现橙色或者红色表示该项指标问题比较大。

更多关于这个软件的信息,请看:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

分析报告结果演示请看:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc/fastqc_report.html

对了该软件的质量评估报告支持多种格式喔!

评论  4  访客  2  作者  2
    • ybzhao

      回复测试

      • sunredrock 0

        FastQC好是好,不过存在一个问题。就是使用数据量的问题。它使用的不是全部的数据来计算那些指标。所以在精度方面会有所偏差,但是曲线的大致轮廓不会有大的变化

          • ybzhao

            @ sunredrock 嗯,您这点反馈的信息很重要。

            我在看到这个软件的时候,猜想计算K-mer这一步,如果数据量很大的话,时间消耗和内存开销估计会很大,所以推断软件里面里面可能采用了抽样的算法。

            不过具体还得看看文献,可惜目前还没找到它的文献。如果有回头我再把文献补充上去。

          • zhengyunchao 0

            Could you pls introduce NGSQCToolkit_v2.3.3 to us?谢谢

          发表评论

          匿名网友

          拖动滑块以完成验证