一般基因组文章都会有下面这种酷炫图,用来描述基因组的基因密度分布,转座子的密度分布,和其他物种或者多倍体的多套染色体间的共线性关系,以及其他各种你只要测序就能加上的信息,比如说你要是测了ATAC-se...
OrthoMCL介绍
1. OrthoMCL的用途 基于序列的相似性,OrthoMCL能将一组proteins(比如全基因组的proteins)归类到ortholog groups、in-paralogs groups和c...
用limma对芯片数据做差异分析
用基因芯片的手段来探针基因表达量的技术虽然已经在逐步被RNA-seq技术取代,但毕竟经历了十多年的发展了,在GEO或arrayexpress数据库里面存储的全球研究者数据都已经超过了50PB了!实在是...
从spike-in到DESeq2:文库normalization
最近在处理一批RNA-seq的数据,里面混入了spike-in。利用spike-in矫正之后,样本A的基因表达量普遍比样本B的基因表达量高3-5倍,这和我所熟知的背景知识是一致的。 但是当我使用DES...
对于bootstrap的一些粗浅认识
什么是bootstrap? bootstrap就是从一个原始样本中进行有放回的重复采样,采样大小和原始样本大小相同,采样次数根据计算量而定。从每个重新样的样本中可以计算某个统计量的bootstrap ...
GATK4.0和全基因组数据分析实践(下)
前言 在上一篇文章中我已经用例子仔细跟大家分享了WGS从原始数据到变异数据(Fastq->VCF)的具体执行过程。那么,在这一篇文章里,我们就来好好谈谈后续非常重要的一个环节——也是本次实践分析...
本地Blast2GO安装,及其数据库更新和导入数据中断的解决方案
本文提供改进的本地化Blast2GO自动化安装脚本,以及指导如何更新数据库,并提供导入数据中断的解决方案。对无root权限的用户同样有效,同时指导如何成功运行b2g4pipe和本地Blast2GO图形...
Windows下使用HTSeq计算read count
重新开始更新我的博客。 这一周主要就在纠结怎么用HTSeq计算read count。最初尝试使用linux服务器,最后没安装成功。换过mac,还是不成功。最后只好选择在window下安装的方法。 安装...
NGS分析入门:设置运行环境
首先的问题的是,我们需要什么样的计算机。 关于硬件, 需要至少4G内存,最好可以达到16G以上内存; 至少500G硬盘空间。通常一个RNA-seq的数据量为20G左右,如果再加上分析之后的结果,可能达...
用FastQC检查二代测序原始数据的质量
当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。常用的工具就是fastqc (http://www.bioinformatics.babraham.ac.uk/projec...