2016 | Public Library of Bioinformatics

Bioinformatics

距离计算方法总结

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关...

03/204,279评论

阅读全文

Bioinformatics

Kmeans聚类K值如何选，以及数据重抽样方法Bootstrapping

本文出自Bin的专栏blog.csdn.net/xbinworld。技术交流QQ群：433250724，欢迎对算法、技术感兴趣的同学加入。我的博客写一些自己用得到东西，并分享给大家，如果有问题欢迎留...

03/204,145评论

阅读全文

Statistics

SPSS实用教程：决策树预测分类模型

本次使用的数据为银行的信用好坏情况数据。自变量包括了收入水平、信用卡数量、教育水平、贷款次数，年龄。点击分类，决策树　　将相应变量选入应变量以及自变量。点击自变量的类别，进行勾选bad，因为我们只...

03/186,653评论

阅读全文

Genomics

Hi-C文库相关性分析

Hi-C分析需要的测序量比较高，1个样本往往需要测序很多的数据量，1个Hi-C文库可测序的数据量有限（一般情况下100-300G PE150，超出这个量，多测的数据可能含有较高的PCR dup），所以...

03/161,441评论

阅读全文

Machine Learning

神经网络训练技巧汇总(Tricks)

前言神经网络构建好，训练不出好的效果怎么办？明明说好的，拟合任意函数(一般连续)？可以参考：http://neuralnetworksanddeeplearning.com/ 说好的足够多的数据(h...

03/14502评论

阅读全文

Statistics

利用SPSS进行相关性分析

一、相关分析方法的选择及指标体系 (一)两个连续变量的相关分析 1、Pearson 相关系数最常用的相关系数，又称积差相关系数，取值-1 到 1，绝对值越大，说明相关性越强。该系数的计算和检验为参数...

03/141,650评论

阅读全文

Transcriptomics

GEPIA2使用教程

今天跟大家分享的是一个在线TCGA基因表达和生存分析的工具（GEPIA2），2019年发表在NAR上，目前已更新到2.0版本，访问网址是http://gepia2.cancer-pku.cn/#ind...

03/131,066评论

阅读全文

Statistics

适应性设计（Adaptive Design）简介

随机对照试验中研究设计比较像八股文，无论平行设计还是交叉设计，个体随机还是整群随机，一般都要求在研究开始就应该确定研究的假设和统计假设，并通过合理的计算确定研究的样本量。但是，临床研究实际往往都比我们...

03/111,150评论

阅读全文

Transcriptomics

关于RNA-Seq数据去接头(Adapter)

首先来了解一下三个概念： 1、adapter是一段短的序列已知的核酸链，用于链接序列未知的目标测序片段。 2、barcode，也称为index，是一段很短的寡居核酸链，用于在多个样品混合测序时，标记不...

03/115,522评论

阅读全文

Bioinformatics

Hi-C技术到底能做什么？

Hi-C技术是高通量染色体构象捕获技术（High-throughput chromosome conformation capture）。利用高通量测序技术，结合生物信息学分析方法，研究全基因组范围...

03/118,670评论

阅读全文