在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关...
Kmeans聚类K值如何选,以及数据重抽样方法Bootstrapping
本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。我的博客写一些自己用得到东西,并分享给大家,如果有问题欢迎留...
SPSS实用教程:决策树预测分类模型
本次使用的数据为银行的信用好坏情况数据。自变量包括了收入水平、信用卡数量、教育水平、贷款次数,年龄。 点击分类,决策树 将相应变量选入应变量以及自变量。点击自变量的类别,进行勾选bad,因为我们只...
Hi-C文库相关性分析
Hi-C分析需要的测序量比较高,1个样本往往需要测序很多的数据量,1个Hi-C文库可测序的数据量有限(一般情况下100-300G PE150,超出这个量,多测的数据可能含有较高的PCR dup),所以...
神经网络训练技巧汇总(Tricks)
前言 神经网络构建好,训练不出好的效果怎么办?明明说好的,拟合任意函数(一般连续)?可以参考:http://neuralnetworksanddeeplearning.com/ 说好的足够多的数据(h...
利用SPSS进行相关性分析
一、相关分析方法的选择及指标体系 (一)两个连续变量的相关分析 1、Pearson 相关系数 最常用的相关系数,又称积差相关系数,取值-1 到 1,绝对值越大,说明相关性越强。该系数的计算和检验为参数...
GEPIA2使用教程
今天跟大家分享的是一个在线TCGA基因表达和生存分析的工具(GEPIA2),2019年发表在NAR上,目前已更新到2.0版本,访问网址是http://gepia2.cancer-pku.cn/#ind...
适应性设计(Adaptive Design)简介
随机对照试验中研究设计比较像八股文,无论平行设计还是交叉设计,个体随机还是整群随机,一般都要求在研究开始就应该确定研究的假设和统计假设,并通过合理的计算确定研究的样本量。但是,临床研究实际往往都比我们...
关于RNA-Seq数据去接头(Adapter)
首先来了解一下三个概念: 1、adapter是一段短的序列已知的核酸链,用于链接序列未知的目标测序片段。 2、barcode,也称为index,是一段很短的寡居核酸链,用于在多个样品混合测序时,标记不...
Hi-C技术到底能做什么?
Hi-C技术是高通量染色体构象捕获技术(High-throughput chromosome conformation capture)。 利用高通量测序技术,结合生物信息学分析方法,研究全基因组范围...