在医学统计学中,有三个关于比值的概念,分别为相对危险度(relative risk,RR,也称 risk ratio)、风险比(hazard ratio,HR)和优势比(odds ratio,OR)。很多同行一看见这三个概念就容易混绕。在此,笔者拟谈谈如何正确理解这三个概念的区别和联系。
目录
我们以病因学研究为例,先谈谈 OR 与 RR 的区别,因为这两个指标均可以从四格表中衍生出来。我们先来看看两个关于吸烟与肺癌的例子:
RR(Relative Risk) - 相对危险度
RR(Relative Risk) - 相对危险度,是指 2 个人群发病率的比值,通常为暴露人群的发病率和非暴露人群的发病率之比。RR 的计算公式是[RR=暴露组的发病或 死亡率/非暴露组的发病或死亡率]。
例1:为明确吸烟与肺癌的关系,某研究者在 1985 年随机调查了某社区的 10000 名居民,并每年对其进行随访,以观察其肺癌的发生状况在刚刚进行调查的时候,他就发现这 10000 个居民中有 3000 人吸烟,7000 人不吸烟。在本例中,我们假定吸烟和不吸烟居民之间不存在交叉污染,即吸烟的 3000 人永远不会戒烟,而不吸烟的 7000人 也永远不会吸烟。且这 10000 个人不会失访。随访 30 年后,吸烟的 3000 人中有 300 人得了肺癌。相比之下,不吸烟的 7000 人中仅有 70 人患肺癌。如表1所示:
暴露因素 | 肺癌 | 非肺癌 |
吸烟(3000) | a(300) | b(2700) |
不吸烟(7000) | c(70) | d(6930) |
在本案例中,吸烟人群 30 年内发生肺癌的比例为 0.10(300/3000),而不吸烟人群发生肺癌的比例为 0.01(70/7000)。因此,与非吸烟人群相比,吸烟人群发生肺癌的相对危险度(RR)为:0.10/0.01=10,即可以认为吸烟人群 30 年内发生肺癌的风险是非吸烟人群的 10 倍。
RR 在四格表中的计算公式就是:RR=(a/(a+b))/(c/(c+d))。
OR(Odd Ratio) - 比值比
OR(Odd Ratio) - 比值比,用于反映病例与对照在暴露上的差异,从而建立疾病与暴露因素之间的联系。通常为病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。OR 的计算公式是[OR=(病例组暴露人数 / 非暴露人数)/(对照组暴露人数/非暴露人数)]。
例2:某医生怀疑吸烟与肺癌有关,因为他发现自己经手的很多肺癌患者都有吸烟史。于是他在 2015 年找了 100 名肺癌患者和 100 名健康对照,回溯了他们的过去 30 年的吸烟史,结果发现:100 名肺癌患者中 90 名患者有吸烟史,100 名健康个体中仅有20人有吸烟史。如表2所示:
表2
患病吸烟不吸烟
肺癌(100) | a(90) | b(10) |
健康人(100) | c(20) | d(80) |
在本案例中,肺癌组暴露人数与非暴露人数的比值为 9(90/10),而在健康个体中,暴露人数与非暴露人数的比值为 0.25(20/80)。因此,OR 为:9/0.25=36。
格表中的计算公式为:OR=ad/bc。
按理说 RR 的临床解释最为清晰,说得通俗点就是:吸烟个体发生肺癌的风险是非吸烟个体的多少倍。相比之下,OR 的临床解释则要复杂得多。为何表1用 RR 来描述吸烟与肺癌的关联强度,表2则要用 OR 来描述呢?按理说,只要是四格表,都可以计算 RR,为什么流行病学家还搞个 OR 在这里呢?的确,所有的四格表都可以计算 RR,比如我们将表2调整为如表1格式,当然也可以计算 RR:
RR 的计算过程为:吸烟人群中有 110 名个体吸烟,90 例发生了肺癌,肺癌发生风险约为 0.82(90/110);不吸烟的 90 名个体中,仅有 10 人发生肺癌,因此肺癌的发生风险是 0.11(10/90)。因此与不吸烟的个体相比,吸烟个体发生肺癌的风险约为 7.45 倍(0.82/0.11)。
然而,表2绝对不能转化成表1的格式,这是有研究的性质决定的,表1的数据来源于队列研究,表2的数据来源于病例对照研究。
队列研究和病例对照研究有很大的区别,这些区别概括起来就是:队列研究是前瞻性研究,是由因索果的研究;病例对照研究是回顾性研究,是由果索因的研究。前瞻性研究最大的优势在于:“真实世界”尚未发生,因为研究者可以详尽地描述“真实世界”,体现在:抽取的 10000 名研究对象实际上就是来自于“真实世界”的,因为研究者是从普通人群中随机抽取研究对象的;研究对象中吸烟个体的比例为 0.30,也是反映了真实情况,即现实生活中,吸烟个体的比例就是 0.30;随访 30 年后,总共有 370 人发生了肺癌(患病率为 3.7%),这一患病率也是来源于真实世界的结论。由于其得出的 RR 值是来自于真实世界的,因此具有“外推性”,或者说“泛化性”,可以直接地告诉人们吸烟的患者发生肺癌的风险是不吸烟患者的多少倍。
相比之下,病例对照研究就没有那么简单了,因为病例对照研究是先知道结局,再去回溯原因,此时,“真实世界”已经一去不复返了,哪里还能完整地回溯回来?研究者募集了 100 名肺癌患者和 100 名健康个体,实际上就是假定了肺癌的患病率为 0.50,这一数字显然不是来自于真实世界。在真实世界中,过去 30 年肺癌的发生了是多少呢?没有人会知道这个精确的数字。因此,如果强行用 RR 来展示病例对照研究结果的话,没有多大的临床价值,因为这个 RR 不是来自真实世界的,不具备“外推性”。流行病学家不得已,才在这里提出了一个 OR 的概念,用于反映暴露因素与结局事件的关联强度。如前所述,OR 这个指标在四格表中的计算公式:OR=ad/bc,实际上也可以表示为(a/b)/(c/d)。理论上讲,不管实验组样本为多少例,a/b 是不变的(当然可能会有一些小的波动,但属于抽样误差);同理,不管对照组样本量如何变化,c/d 的比例也是固定的。因此,OR 最大的优势的是不受实验组和对照组比例(或者说患病率)的影响。这也就是为什么在病例对照研究中人们喜欢用 OR 来表示暴露因素与结局事件关联强度的原因所在。
我们不妨来做一个根本就不存在的假设。我们假设表1中的队列研究的资料是完全存在的,只是没有发表。后来,有人用病例对照的研究思路来阐述吸烟与肺癌的关系。从表1我们得知,过去三十年,这个社区总共发生了 370 例肺癌,其中 300 个肺癌患者具有吸烟史,70 个不具有吸烟史。因此如果从中抽取 100 例肺癌的话,理论上说就应该是 81 个肺癌患者有吸烟史,19 个肺癌患者没有吸烟史。健康个体一共有 9630 个,其中 2700 个吸烟,6930 个不吸烟,如果从这 9630 个健康个体中抽取 100 人的话,就应该有 28 个人吸烟,72 个人不吸烟。于是可以得出下表(表3):
表3
患病吸烟非吸烟
肺癌(100) | a(81) | b(19) |
健康人(100) | c(28) | d(72) |
根据表3的内容不难算出,与非吸烟个体相比,吸烟患者发生肺癌的 RR 是 3.56(计算过程略),该 RR 值与表1的 RR 值(10)相距甚远。假定我们抽取的健康个体不是 100 人,而是 200 人,则可以算出 RR 为 5.07(计算过程略)。
原因就在于在病例对照研究中,肺癌的“患病率”是由研究者入组的患者数量决 定的。如果入组肺癌患者与健康个体的例数分别为 200 和 200,则患病率为 50%, 如果分别为 100 和 300,则患病率为 25%。那么真正的患病率是多少呢,没有人会知道,因为这是过去的事情。 而反观表 1,由研究性质可知该研究为队列研究,是由因到果的研究。1000 例患者中有 82 例发生肺癌,计算发病率为 8.2%,吸烟与不吸烟者肺癌的发生率分别 为 80/(80+720)和 2/(2+198)。该研究中肺癌的发生是在随访过程中自然发生的, 因此可以反映真实的发病率,由其得出的 RR 值便是可信的。 所以在病例对照研究中,无法计算 RR,因此流行病学家提出了 OR 用于反映暴露因素与结局事件的关联强度。而 OR 的优势也在于不受患病率(即病例组与对照 组的比值)的影响,因此常用于在病例对照研究中替代 RR。 在对结果的解释上,RR 或 OR 是一致的。其值越大,表明暴露的效应越大,暴露与结局关联的强度也就越大。若 RR 或 OR=1,说明暴露因素与疾病之间无关联; 若>1,说明暴露因素与疾病呈正相关;若<1,说明暴露因素与疾病呈负相关(保护因素)。
前述 OR 和 RR 都来源于四格表,即仅仅考虑了一个暴露因素(吸烟)与结局事件(肺癌)的关系。而在现实中,疾病的发生往往不是单一因素作用的结果。比如:假定吸烟的人都不太喜欢吃水果,而水果摄入过少也可以导致肺癌。因此很有可能出现一种极端的情况,其实吸烟与肺癌无关,我们之所以在队列研究或病例对照研究中观察到了吸烟与肺癌的关系,完全是“吃水果”作怪。此时,我们将“吃水果”称为“混杂因素”,即表示他们可能会干扰暴露因素与结局变量之间的关系。为了排除混杂因素的干扰,需要在统计学上做一些校正,比较常用的方法就是 Cox 风险比例模型和 logistic 回归模型。一说到 Cox 风险比例模型和 logistic 回归模型,估计很多读者的脑海里马上闪现两个概念,HR 和 OR。没错,这里的 OR 和四格表里面的 OR 其实就是一个意思,只是二者的计算方法不同。来自于 logistic 回归的 OR 可以校正很多混杂因素,因此是一个多因素校正的 OR,而来自于四格表的 OR 只考虑了单一因素,因此可以简单理解为单因素分析的 OR。在撰写论文的过程中,一般认为多因素校正的 OR 更可靠。实际上,如果把四格表的数据用单因素的 logistic 回归方程计算,得到的 OR 是一样的,有兴趣的读者可以自己算。
HR(Hazard Ratio) - 风险比
搞清楚了 RR 和 OR,再来看 HR。 HR(Hazard Ratio)即风险比,主要用于生存分析。 HR 的解释与 RR 相似,即表示暴露组患病的概率为非暴露组的多少倍。区别在于 RR 只考虑结局是否发生,而 HR 还考虑了结局发生的时间,因此可以认为 HR 是考虑了时间因素的RR。
Cox 模型与 logistic 回归有很多相似之处,都可以用于校正混杂因素。根据 Cox 模型可以计算出 HR 值,HR 值的解释与 RR 几乎一致,即表示暴露组患病的概率为非暴露组的多少倍。但是与 logistic 回归不同的是,Cox 模型除了可以校正混杂因素外,还考虑了结局事件发生的时间。因此,HR 不能简单等同于 RR,只能说 HR 是考虑了时间因素的 RR。说得这里,估计部分读者有点糊,啥叫“考虑了时间因素的 RR”?我们不妨来做这样一个假设:在表1中(队列研究)中,RR 为 10,我们可以理解为:与不吸烟人群相比,吸烟人群在 30 年内患肺癌的风险是不吸烟人群的10倍。注意“30 年内患肺癌的风险”,这是一个很含糊的说法:有人可能在随访开始第二年就发生肺癌,有人可能到随访快结束时(第三十年)才发生肺癌。如果构建四格表,这两个肺癌是同等看待的,但实际上,这两种肺癌的“社会危害性”显然是不能相提并论的!毕竟后者很有可能会多活二十多年。因此,我们在考虑结局事件是否发生的同时,往往还要考虑结局事件发生的时间!这就是 HR 存在的价值!
综上所述,RR 主要用于队列研究,计算需要发病率,表明暴露人群的发病风险是非暴露人 群的多少倍;OR 主要用于回顾性研究,如病例对照研究和横断面研究,不需要知道发病率, 表明病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值; HR 主要用于队列研究,是考虑了时间因素的 RR。
总结一下本文,以研究疾病发生机制的研究为例来谈谈 RR,OR 和 HR 的区别,实际上,研究疾病预后的研究也可以类推。
- RR:主要用于队列研究,可以从四格表衍生出来,表示暴露患者发生疾病的风险是非暴露患者的多少倍。
- OR:主要用于病例对照研究和横断面研究,可以从四格表中衍生出来,也可以由logistic回归计算得来,表示病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。
- HR:主要用于队列研究,主要由 Cox 风险比例模型衍生出来,是考虑了时间因素的 RR。