这篇文章很长,超过1万字,是本系列中最重要的一篇,因为我并非只是在简单地告诉大家几条硬邦邦的操作命令。对于新手而言不建议碎片时间阅读,对于有一定经验的老手来说,相信依然可以有所收获。在开始之前,我想先...
从零开始完整学习全基因组测序(WGS)数据分析:第3节 数据质控
从这一节开始详细讲述正式流程的搭建,我将结合具体的例子努力争取将这个系列写成比GATK最佳实践更加具体、更具有实践价值的入门指南。整个完整的流程分为以下6部分: 原始测序数据的质控 read比对,排序...
从零开始完整学习全基因组测序(WGS)数据分析:第2节 FASTA和FASTQ
在WGS数据的分析过程中,我们会接触到许多生物信息学/基因组学领域所特有的数据文件和它们特殊的格式,在这一节中将要介绍的FASTA和FASTQ便是其中之一二。这是我们存储核苷酸序列信息(就是DNA序列...
从零开始完整学习全基因组测序(WGS)数据分析:第1节 测序技术
前言 基因测序已是时下热门,目前除了华大基因之外,其他分布于全中国的大型测序平台(HiSeq X 10)还有约10个,每个每年大概能完成1.8万人的高深度全基因组测序,加起来就是18万人,如果加上华大...
利用de Bruijn graph组装基因组的时候,Kmer为什么必须是奇数?
根本原因就是为了避免导致 正反链混淆。 一开始,我并没弄明白,后来仔细想想也终于懂了。 如果kmer是偶数,我们会发现基因组上有些序列(如,CGCGCGCG,kmer=4)的Kmer在反向互补后得到的...
使用Shapeit2对人类基因组数据进行phasing
SHAPEIT(2.0)是专门用于对推断基因组单体型的软件,有牛津大学的团队所开发,并且一直应用与千人基因组计划中。 以下,我将记录如何通过shapeit2对人群的变异数据集(VCF 格式)进行pha...
GATK中如何计算Inbreeding coefficient(近交系数)
关于近交系数是什么的定义,除了英文资料,中文上也给出了清晰的定义,这里引用一下: 近交系数(inbreeding coefficient)是指根据近亲交配的世代数,将基因的纯化程度用百分数来表示即为近...
本体论和功能分析
为什么需要本体论 作为一位大学统计棉花表皮毛的苦逼生物狗,深刻体会什么叫做经验,也就是人类模式识别能力的强大和不精确性。当时的导师教我如何根据表皮毛的长短和浓密进行基因型的判定,但是我一直纠结长和短,...
如何进行变异检测
什么是基因组变异 基因组变异是一个定义比较模糊的概念. 所谓的变异是相对于一个完美的“参考基因组”而言。但是其实完美的“参考基因组”并不存在,因为我们只是选择某一个物种里的其中似乎比较正常的个体进行测...
一个简单进行SNP分析的实战例子
从埃博拉数据中Call SNPs # 从多个样品中Call SNPS # 从埃博拉项目中获取多个数据集。 # Ouch! 数据是以另一个序列作为参考来比对的。 # 那我们准备一个新的参考序列吧,没别的...