在数据进行分析时,我们往往需要先看一下数据的基本信息,比如求和、平均数、标准差、标准误、中位数、四分位数、最小值、最大值、极差、偏度、峰度等。在R中这不是难事,有N多的程序包函数可以实现这些功能,有时...
Box-Cox变换:非正态数据的处理
当资料不满足正态分布时,教科书里常常说可以通过变量变换将原始数据做某种函数的转换,常用的变量变换有对数变换、平方根变换、平方根反正弦变换、倒数变换等,这些变换有各自适用的数据,需要多次尝试来寻找合适的...
ROC与AUC的定义与使用详解
分类模型评估: 指标 描述 Scikit-learn函数 Precision 精准度 from sklearn.metrics import precision_score Recall 召回率 fr...
配对样本的差值不符合正态分布时不能进行配对t检验,那如何进行统计分析
⼀、问题与数据. 当⼀组配对样本的数据中差值d服从正态分布时,我们可以选⽤配对样本t检验的⽅法进⾏统计检验。但是,如果差值d不符合正态分布时,我们该如何处理呢? 我们知道有些数据并不符合参数检验的要求...
交叉验证(Cross-validation)
交叉验证是一种用来评价一个统计分析的结果是否可以推广到一个独立的数据集上的技术。主要用于预测,即,想要估计一个预测模型的实际应用中的准确度。它是一种统计学上将数据样本切割成较小子集的实用方法。于是可以...
重复测量数据的方差分析
重复测量设计是医学研究中十分常见的一种试验设计,最常见的是对同一对象在不同的时间点上指标进行测量,同一个体不同部位的指标测量也属于此类设计。重复测量数据往往不具有独立性,反应变量可以是连续型的计量资料...
因变量二分类资料的logistic回归
个概念:RR和OR 二分类资料的logistic回归SPSS操作示例 几个需要注意的问题:样本量、哑变量、模型拟合效果和拟合优度检验、多重共线 【1】两个概念 RR(Relative Risk):相对...
生存分析
生存分析是分析生存时间的统计学方法,其因变量需要用生存时间和结局状态两个变量来刻画,可以将终点事件是否发生以及发生终点事件所经历的时间相结合起来。生存分析的主要内容有生存时间的分布描述、生存时间分布的...
正态分布与方差齐性的检验方法与SPSS操作
众多的参数检验方法都要求数据呈正态分布和方差齐性,本文介绍正态分布和方差齐性的常用检验方法及SPSS操作,但不涉及多元正态分布和方差-协方差齐同。 (1)数据分析前有没有必要做正态分布检验?大部分的统...
OR与RR值的区别和联系
之前写过一篇博客讨论了OR与RR的概念、区别以及计算。 (参见:SPSS学习笔记之——OR值与RR值) 但仍有一个问题,那就是: 回顾性的病例对照研究不能计算RR,只能计算OR,前瞻性的队列研究可以计...