Bioinformatics

快速入门GATK

GATK,全称是Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。主要功能是寻找变异位点和基因分型,但是实际上功能超多,导致初学者都不知道从何学习GATK。 最近因...
阅读全文
Bioinformatics

Speedseq的安装和使用

1. speedseq的安装 1.1 安装前先需安装好python (建议升级到2.7最新版2.7.13),而且需要安装pysam库(需升级到最新版,这里升级到0.11.2版本),如果没有升级,可能在...
阅读全文
Bioinformatics

根据Barcode序列拆分fastq文件

扩增子测序不同于其他高通量测序项目,扩增子测序往往样品量较大,但单个样品的数据量要求不高(因为仅仅研究扩增区域的序列)。为了节约成本,研究者们通常会把多个样品混在一个文库,并给不同样品加上一段 Bar...
阅读全文
Bioinformatics

如何处理批次效应(batch effect)

在生信分析过程中,尤其是转录组分析中,经常会遇到测得数据不足,需要利用公共数据库中已有的数据,那么能将这些数据直接和测序的数据混合吗?如果贸然混合,会有什么问题? 10年nature有一篇综述,专门讲...
阅读全文