近来已经习惯使用 Continuum Analytics 公司的Conda产品作为我的主要开发工具箱. Conda提供比隔离环境包 virtualenv 和 python 版本切换包 p...
K-means算法通俗原理及Python与R语言的分别实现
K均值聚类方法是一种划分聚类方法,它是将数据分成互不相交的K类。K均值法先指定聚类数,目标是使每个数据到数据点所属聚类中心的总距离变异平方和最小,规定聚类中心时则是以该类数据点的平均值作为聚类中心。 ...
K-Means聚类算法详解
前言 K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优...
使用SAMR对蛋白组数据表达量进行差异分析
1. SAMR简介 SAM(Significance Analysis of Microarrays)在基因芯片数据时代中被开发出来进行基因表达量差异分析。该算法也能用于进行RNA-Seq数据的基因表...
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。这篇博文简单介绍ROC和AUC的特点,以...
系统学习单细胞转录组测序scRNA-Seq(三)
scRNA的上游处理CellRanger,CellRanger就是基于10X genomics,从fastq生成表达矩阵的工具,然后有了表达矩阵,就可以下游利用Seurat等R包分析 CellRang...
系统学习单细胞转录组测序scRNA-Seq(一)
单细胞测序是目前研究的热点,那么我重新回来探究一下,首先问自己几个问题: 都是转录组测序,有什么不一样? 看到转录组我们都不陌生,有参无参也都做了许多了,但是对一个细胞测序,为什么呢?10X给出了一个...
R语言实现决策曲线分析
大家对ROC曲线都很熟悉,从方法的特异性和灵敏度出发反应一个方法的准确度。但是,在临床的应用中,往往仅通过以上标准得到的准确度是不可靠的。故早在2006年纪念斯隆-凯特琳癌症中心AndrewVicke...
使用cnvkit来对大批量wes样本找cnv
cnvkit被设计来处理同一个批次的多个肿瘤配对样本测序情况,首先对所有的normal数据进行bin处理拿到背景值,然后就这个背景值来处理所有的tumor测序数据计算拷贝数变异情况。 该软件使用比较复...
WGS,WES,RNA-Seq与ChIP-seq之间的异同
全外显子(Whole-exome sequencing)测序是啥?转录组(RNA-seq)测序是啥?ChIP-seq又是啥?它们之间有什么差别么?傻傻分不清,不用怕,多学习下就会了,下面让我们一起来从...