2017-2-27 | Public Library of Bioinformatics

从零开始完整学习全基因组测序（WGS）数据分析：第5节理解并操作BAM文件

经过了第四节的长文，我想大家基本上已经知道了一个WGS流程该如何构建起来了吧。但在那一节中限于篇幅有两个很重要的文件我没能展开来讲，分别是：BAM和VCF文件。这篇我们先说BAM文件。什么是BAM ...

02/2713,151评论

这篇文章很长，超过1万字，是本系列中最重要的一篇，因为我并非只是在简单地告诉大家几条硬邦邦的操作命令。对于新手而言不建议碎片时间阅读，对于有一定经验的老手来说，相信依然可以有所收获。在开始之前，我想先...

02/2728,14213

从这一节开始详细讲述正式流程的搭建，我将结合具体的例子努力争取将这个系列写成比GATK最佳实践更加具体、更具有实践价值的入门指南。整个完整的流程分为以下6部分：原始测序数据的质控 read比对，排序...

02/2714,1411

在WGS数据的分析过程中，我们会接触到许多生物信息学/基因组学领域所特有的数据文件和它们特殊的格式，在这一节中将要介绍的FASTA和FASTQ便是其中之一二。这是我们存储核苷酸序列信息（就是DNA序列...

02/2717,7843

前言基因测序已是时下热门，目前除了华大基因之外，其他分布于全中国的大型测序平台（HiSeq X 10）还有约10个，每个每年大概能完成1.8万人的高深度全基因组测序，加起来就是18万人，如果加上华大...

02/2731,3281

根本原因就是为了避免导致正反链混淆。一开始，我并没弄明白，后来仔细想想也终于懂了。如果kmer是偶数，我们会发现基因组上有些序列（如，CGCGCGCG，kmer=4）的Kmer在反向互补后得到的...

02/272,732评论

SHAPEIT(2.0)是专门用于对推断基因组单体型的软件，有牛津大学的团队所开发，并且一直应用与千人基因组计划中。以下，我将记录如何通过shapeit2对人群的变异数据集（VCF 格式）进行pha...

02/273,8541

关于近交系数是什么的定义，除了英文资料，中文上也给出了清晰的定义，这里引用一下：近交系数（inbreeding coefficient）是指根据近亲交配的世代数，将基因的纯化程度用百分数来表示即为近...

02/273,345评论