1 前言 聚类常用于数据探索或挖掘前期,在没有做先验经验的背景下做的探索性分析,也适用于样本量较大情况下的数据预处理等方面工作。例如针对企业整体用户特征,在未得到相关知识或经验之前先根据数据本身特点...
聚类算法——k均值和层次聚类
看看下面这张图,有各种各样的虫子和蜗牛,你试试将它们分成不同的组别? 完成了吗?尽管这里并不一定有所谓的「正确答案」,但一般来说我们可以将这些虫子分成四组:蜘蛛、蜗牛、蝴蝶/飞蛾、蜜蜂/黄蜂。 很简单...
聚类分析:k-means和层次聚类
尽管我个人非常不喜欢人们被划分圈子,因为这样就有了歧视、偏见、排挤和矛盾,但“物以类聚,人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。 前面所提到的机器学习算法主要都是分类和回归,这...
使用K-means进行颜色量化
在这篇文章中,我想谈谈颜色量化以及如何使用k-means聚类算法来执行它,以及优化其方法。 这里提供的代码是用python编写的,来自这个项目。 什么是颜色量化? 颜色量化是指一个减少在图像中的颜色数...
给你的“因果”加点料——中间变量和中介效应
前言在临床研究中,我们总想探索真正的因果关系。但每次当我们拍着胸脯说到“因果”的时候,却总被方法学家打脸。的确,“因果”本身就是一个大命题,在万物相生相克的过程中,如何完整的梳理出因果关系永远是一大挑...
两组均数比较非劣效检验的SPSS操作
临床研究中,我们会采用非劣效设计,去探索试验药物是否非劣于对照药物。比如,研究者纳入40名患者,随机分为两组,分别给与试验药物和对照药物,假设疗效指标为连续变量。等数据出来了,研究者惆怅了,到底用什么...
SPSS方差分析应用及结果解读
对于两组独立样本t检验,相信大家都了解。那么如果不是两组样本,而是三组(或以上)的样本,想要比较组间均数时,就要用方差分析了。 下面还是用例子来说话吧~ 一年级开学了,这个班级的小朋友来自三个区县,比...
一文读懂机器学习常用损失函数(Loss Function)
损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风...
检验统计量:编辑让补充的统计量到底是什么呀
您有没有碰到过这样的问题,投稿后,编辑让您提供检验统计量,话说,这五个汉字我都认识,但是连到一起,尴尬了。 检验统计量,是出现在假设检验中的一个概念。当我们需要通过假设检验进行统计推断时,也就是说借...
使用 HiSeq 3000/4000/X Ten 测序注意事项
Sinha, R., et al 近期在 bioRxiv上发布了一篇题为 ‘Index switching causes “spreading-of-signal” among multiplexed...