CHROM 染色体编号 POS 位置 ID 基因ID REF 参考基因组碱基 ALT 样本碱基 QUAL 变异可信度,越高越好 QUAL:Phred格式(Phred_scaled)的质量值,表 示在该...
VCF格式解析
VCF是用于描述SNP,INDEL和SV结果的文件,下面所记录的是以GATK软件结果的VCF文件,与SAMtools的结果有点不同 VCF文件可以分为两部分看,最上面#号注释的的部分是对一些参数的解释...
ROC与AUC的定义与使用详解
分类模型评估: 指标 描述 Scikit-learn函数 Precision 精准度 from sklearn.metrics import precision_score Recall 召回率 fr...
基迪奥生物–招贤纳士
销售代表 招聘人数:10人 岗位职责 1、负责所在区域内高通量测序销售执行、策划及推广,并完成销售任务; 2、市场、客户信息收集、整理及反馈; 3、组织和配合公司进行市场推广、学术讲座等活动。 任职条...
GWAS和Genomic prediction概念、原理及应用
全基因组关联分析GWAS:Genome-Wide Association Study; 基本概念:利用分布于全基因组范围内的分子标记,基于它们与分析性状的连锁不平衡关系,通过各种统计分析方法,以获得与...
配对样本的差值不符合正态分布时不能进行配对t检验,那如何进行统计分析
⼀、问题与数据. 当⼀组配对样本的数据中差值d服从正态分布时,我们可以选⽤配对样本t检验的⽅法进⾏统计检验。但是,如果差值d不符合正态分布时,我们该如何处理呢? 我们知道有些数据并不符合参数检验的要求...
统计BAM文件中的reads数
当完成测序的比对工作之后,我们得到了bam/sam文件。那么,如何得到reads的统计数据呢? 这有很多途径: 1.读取日志文件。对于bowtie的日志,其中会包括如下的描述: 31991083 re...
使用 Gblocks 提取保守序列
1. Gblocks 简介 Gblocks用于从多序列比对结果中提取保守位点,以利于下一步的进化分析。 在线说明文档:http://molevol.cmima.csic.es/castresana/G...
htseq-count使用方法和参数简要说明
htseq-count是一款用于reads计数的轻便软件,作者介绍说可以用于多种mapping软件的输出结果,而我则用于tophat2的输出文件做计数。不过貌似所有能转换为sam格式文件的输出都可以用...
进化树上Bootstrap和Identity区别
Bootstrap,即自展值,是用来检验你所计算的进化树分支可信度的。简单地讲就是把序列的位点都重排,重排后的序列再用相同的办法构树,如果原来树的分枝在重排后构的树中也出现了,就给这个分枝打上一分,如...