根本原因就是为了避免导致 正反链混淆。 一开始,我并没弄明白,后来仔细想想也终于懂了。 如果kmer是偶数,我们会发现基因组上有些序列(如,CGCGCGCG,kmer=4)的Kmer在反向互补后得到的...
使用Shapeit2对人类基因组数据进行phasing
SHAPEIT(2.0)是专门用于对推断基因组单体型的软件,有牛津大学的团队所开发,并且一直应用与千人基因组计划中。 以下,我将记录如何通过shapeit2对人群的变异数据集(VCF 格式)进行pha...
GATK中如何计算Inbreeding coefficient(近交系数)
关于近交系数是什么的定义,除了英文资料,中文上也给出了清晰的定义,这里引用一下: 近交系数(inbreeding coefficient)是指根据近亲交配的世代数,将基因的纯化程度用百分数来表示即为近...
转录组入门(8):富集分析
我们统一选择p<0.05而且abs(logFC)大于1的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析。 然后把表达矩阵和分组信息分别作出cls和gct文件,导入...
转录组入门(7):差异表达分析
这个步骤推荐在R里面做,载入表达矩阵,然后设置好分组信息,统一用DEseq2进行差异分析,当然也可以走走edgeR或者limma的voom流程。 基本任务是得到差异分析结果,进阶任务是比较多个差异分析...
转录组入门(6): reads计数
要求 实现这个功能的软件也很多,还是烦请大家先自己搜索几个教程,入门请统一用htseq-count,对每个样本都会输出一个表达量文件。 需要用脚本合并所有的样本为表达矩阵。参考:生信编程直播第四题:多...
转录组入门(5): 序列比对
比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。 直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件...
转录组入门(4):了解参考基因组及基因注释
准备工作 参考基因组 测序得到的是几百bp的短read, 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样...
转录组入门(3):质量控制
需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量! 数据解压 之前下载了所有的数据,但只有样本915才是mRNA-Seq测序结果,...
转录组入门(2):读文章拿到测序数据
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commu...