2015 | Public Library of Bioinformatics

Machine Learning

KMeans中自动K值的确认方法

1 前言聚类常用于数据探索或挖掘前期，在没有做先验经验的背景下做的探索性分析，也适用于样本量较大情况下的数据预处理等方面工作。例如针对企业整体用户特征，在未得到相关知识或经验之前先根据数据本身特点...

03/0910,078评论

阅读全文

Machine Learning

聚类算法——k均值和层次聚类

看看下面这张图，有各种各样的虫子和蜗牛，你试试将它们分成不同的组别？完成了吗？尽管这里并不一定有所谓的「正确答案」，但一般来说我们可以将这些虫子分成四组：蜘蛛、蜗牛、蝴蝶/飞蛾、蜜蜂/黄蜂。很简单...

03/095,003评论

阅读全文

Machine Learning

聚类分析:k-means和层次聚类

尽管我个人非常不喜欢人们被划分圈子，因为这样就有了歧视、偏见、排挤和矛盾，但“物以类聚，人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。前面所提到的机器学习算法主要都是分类和回归，这...

03/0910,992评论

阅读全文

Bioinformatics

使用K-means进行颜色量化

在这篇文章中，我想谈谈颜色量化以及如何使用k-means聚类算法来执行它，以及优化其方法。这里提供的代码是用python编写的，来自这个项目。什么是颜色量化？颜色量化是指一个减少在图像中的颜色数...

03/095,667评论

阅读全文

Statistics

给你的“因果”加点料——中间变量和中介效应

前言在临床研究中，我们总想探索真正的因果关系。但每次当我们拍着胸脯说到“因果”的时候，却总被方法学家打脸。的确，“因果”本身就是一个大命题，在万物相生相克的过程中，如何完整的梳理出因果关系永远是一大挑...

03/091,120评论

阅读全文

Statistics

两组均数比较非劣效检验的SPSS操作

临床研究中，我们会采用非劣效设计，去探索试验药物是否非劣于对照药物。比如，研究者纳入40名患者，随机分为两组，分别给与试验药物和对照药物，假设疗效指标为连续变量。等数据出来了，研究者惆怅了，到底用什么...

03/091,436评论

阅读全文

Bioinformatics

SPSS方差分析应用及结果解读

对于两组独立样本t检验，相信大家都了解。那么如果不是两组样本，而是三组(或以上)的样本，想要比较组间均数时，就要用方差分析了。下面还是用例子来说话吧~ 一年级开学了，这个班级的小朋友来自三个区县，比...

03/081,659评论

阅读全文

Machine Learning

一文读懂机器学习常用损失函数（Loss Function）

损失函数（loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风...

03/08728评论

阅读全文

Statistics

检验统计量：编辑让补充的统计量到底是什么呀

您有没有碰到过这样的问题，投稿后，编辑让您提供检验统计量，话说，这五个汉字我都认识，但是连到一起，尴尬了。‍ 检验统计量，是出现在假设检验中的一个概念。当我们需要通过假设检验进行统计推断时，也就是说借...

03/081,208评论

阅读全文

Genomics

使用 HiSeq 3000/4000/X Ten 测序注意事项

Sinha, R., et al 近期在 bioRxiv上发布了一篇题为 ‘Index switching causes “spreading-of-signal” among multiplexed...

03/082,692评论

阅读全文