Deeptools 对数据质量控制的命令包含如下 plotCorrelation plotPCA plotFingerprint bamPEFragmentSize computeGCBias plo...
MotifStack: motif 可视化
最近大量跑chip-seq,看到一篇2016Cell的文章《Cistrome and Epicistrome Features Shape the Regulatory DNA Landscape》感...
快速入门GATK
GATK,全称是Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。主要功能是寻找变异位点和基因分型,但是实际上功能超多,导致初学者都不知道从何学习GATK。 最近因...
提取heatmap聚类后行列名称
在画heatmap的时候,往往由于某种数据分析需要,需要获得聚类后的heatmap的col和row的顺序。这里展示如何从pheatmap的聚类结果中提取我们需要的信息。 这里通过产生随机数据来演示。 ...
Speedseq的安装和使用
1. speedseq的安装 1.1 安装前先需安装好python (建议升级到2.7最新版2.7.13),而且需要安装pysam库(需升级到最新版,这里升级到0.11.2版本),如果没有升级,可能在...
根据Barcode序列拆分fastq文件
扩增子测序不同于其他高通量测序项目,扩增子测序往往样品量较大,但单个样品的数据量要求不高(因为仅仅研究扩增区域的序列)。为了节约成本,研究者们通常会把多个样品混在一个文库,并给不同样品加上一段 Bar...
PCA主成分分析原理及分析实践详细介绍
主成分分析简介 主成分分析 (PCA, principal component analysis)是一种数学降维方法, 利用正交变换 (orthogonal transformation)把一系列可能...
如何处理批次效应(batch effect)
在生信分析过程中,尤其是转录组分析中,经常会遇到测得数据不足,需要利用公共数据库中已有的数据,那么能将这些数据直接和测序的数据混合吗?如果贸然混合,会有什么问题? 10年nature有一篇综述,专门讲...
使用SAMR对蛋白组数据表达量进行差异分析
1. SAMR简介 SAM(Significance Analysis of Microarrays)在基因芯片数据时代中被开发出来进行基因表达量差异分析。该算法也能用于进行RNA-Seq数据的基因表...
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。这篇博文简单介绍ROC和AUC的特点,以...