在WGS数据的分析过程中,我们会接触到许多生物信息学/基因组学领域所特有的数据文件和它们特殊的格式,在这一节中将要介绍的FASTA和FASTQ便是其中之一二。这是我们存储核苷酸序列信息(就是DNA序列...
如何从BAM文件中提取fastq
虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq。最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了...
根据Barcode序列拆分fastq文件
扩增子测序不同于其他高通量测序项目,扩增子测序往往样品量较大,但单个样品的数据量要求不高(因为仅仅研究扩增区域的序列)。为了节约成本,研究者们通常会把多个样品混在一个文库,并给不同样品加上一段 Bar...
fasterq-dump使用介绍
之前写过一篇文章Fastq-dump使用, 详细介绍了fastq-dump的用法。 虽然fastq-dump参数很多,而且一直被吐槽参数说明写的太差,但是如果真的要用起来其实也就是一行代码 fastq...
Fastq-dump使用
做生信的基本上都跟NCBI-SRA打过交道,尤其是fastq-dump大家肯定不陌生.NCBI的fastq-dump软件一直被大家归为目前网上文档做的最差的软件之一",而我用默认参数到现在基本也没有出...
生物信息常见文件的格式以及查看方式
生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式。在分析的过程中还会有众多中间文件的生成,如bed、bed12、...
FASTQ格式解释和质量评估
FASTQ文件格式和命名 高通量测序之后用于下游分析的数据一般存储在FASTQ文件中。为了节省空间,又不影响下游使用,也一般用gzip压缩的格式。 单端测序每个文库只返回一个FASTQ文件,双端测序两...
三代测序数据pacbio数据处理
三代测序仪现在逐步投入正式使用之中,目前三代测序例如pacbio数据大的特点之一就是测序得到的reads特别长,最近我开展的一个项目中利用pacbio测序的到的reads中最长的到了23165bp,平...
快速合并多个fastq.gz文件
案例描述: 需要将Sample_test1_R1.fastq.gz和Sample_test2_R2.fastq.gz合并为test.fastq.gz 操作方法1: 先zcat再gzip zcat Sa...
FastQ数据质量值转换
不同的平台测出来的数据采用的质量编码格式一般会有差异。关于FastQ的格式介绍可以阅读《FastQ格式介绍》 譬如sanger的编码采用的是质量值+33,而Soleax采用的是质量值+64。有时候由于...