在之前的文章中,对motif的几个基本概念进行了简单介绍。一致性序列采用IUPAC碱基表示标准来描述motif的序列信息,sequence logo是结合碱基分布频率和一致性序列的一种直观展示形式。本...
GSEA富集分析 – 界面操作
GSEA定义 Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包...
全面了解ROC曲线
初识ROC曲线 1. ROC的前世今生: ROC的全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,首先是由二战中的电子工程师和雷达工程师发明的,用...
决策曲线分析法(Decision Curve Analysis,DCA)曲线
我们都知道,评价一种诊断方法是否好用,一般是作ROC曲线,计算AUC。但是,ROC只是从该方法的特异性和敏感性考虑,追求的是准确。而临床上,准确就足够了吗?患者就一定受益吗? 比如我通过某个生物标志物...
六大聚类算法快速了解
在机器学习中,无监督学习一直是我们追求的方向,而其中的聚类算法更是发现隐藏数据结构与知识的有效手段。目前如谷歌新闻等很多应用都将聚类算法作为主要的实现手段,它们能利用大量的未标注数据构建强大的主题聚类...
手推公式带你轻松理解L1/L2正则化
前言 L1/L2正则化的目的是为了解决过拟合,因此我们先要明白什么是过拟合、欠拟合。 过拟合:训练出的模型在测试集上Loss很小,在训练集上Loss较大 欠拟合:训练出的模型在测试集上Loss很大,在...
如何做生存分析?
生存分析是医学领域常见的分析方法,也可以拓展到其他专业领域。这篇帖子的目的就是介绍怎么做生存分析,希望能对临床医学的同学提供一定帮助。 简明扼要地讲,生存分析的目的无外乎六个字:描述、比较、关系。 1...
Illumina测序数据的质量控制
我们先来看一下不同平台数据格式: 1. 产出数据格式 Solexa—fastq 2. 产出数据格式 454—fasta 测序读长即每条测序读断的长度,所有平时大家叫的read...
没有root管理员权限安装常用群体遗传学分析软件
由于生物信息的大部分工作都是在没有 root 权限的集群上进行的,本期主要介绍一下非 root 用户怎么安装群体遗传常用的软件。工欲善其事,必先利其器! 准备工作 1、首先我们建一个文件夹,用来存储我...
测序结果中的接头序列来自哪里?
Illumina 测序原理 在进入本期的正题之前,我们需要了解一下 Illumina 的测序原理,在这里用一张图简单的展示一下: 图1 Illumina 测序原理 (图片来自https://www.i...