临床研究中,对于疾病的预后研究的应用非常普遍,最负盛名如Framingham研究,开发了一系列的预测模型。本章我们就什么是医学预测模型、如何开发预测模型、如何做模型的验证,如何应用等问题做一些概要介绍。
“预后(Prognosis)”在医学教材里,通常被理解为疾病发展的预期全过程。不过在医学研究里,预后通常指基于个体的临床以及非临床特征、估计其一段时间后发展为某医学状态或结局的概率。所谓的医学状态或者结局可以是死亡、并发症等特定的医学事件、也可以是定量的测量,如疾病进展、疼痛、生存质量等。
预后研究中,在研究设计和分析时,都需要采用多因素方法去确定所研究结局的重要预测因子、并提供不同预测因子组合下结局的概率、以及概率估计的工具,这些工具就是我们所说的预测模型,英文文献里常用的术语包括:prognosticmodels、prediction models、 prediction rules以及risk scores。
预测模型应用场景与原因多种多样,但其最主要的目的就是告知个体疾病的将来的进展以及出现某结局的概率,以便指导医生、病人共同决定将来的预防、治疗、康复方案。此外,应用预测模型还可以为治疗方案选择适宜的相关病人,例如,我们可以用已经验证过的预测模型筛选高危的癌症病人用于三苯氧胺的预防乳腺癌的临床试验。预测模型还可以用于医院间绩效的评价和比较,例如婴儿临床风险指数(clinicalrisk index for babies,CRIB)就用于新生儿重症监护病房死亡率和效果的评价。
已经有很多文章对如何开展预后研究,如何使用预测模型进行了讨论,比较一致的意见是开展预测研究一般有三个步骤:
开发预测模型
验证预测模型
研究模型临床意义
开发预测模型包括识别重要的预测因子、给每个预测因子分配相对权重、通过校正(calibration)和区分(discrimination)评估模型预测效果、通过内部验证技术优化模型、校正模型的过度拟合。模型的验证主要是指在新的人群中,验证模型的预测性能。新的人群可以狭义的,也可是广义的。狭义的验证人群是指在同一研究机构,由同一研究人员,采用相同的方式,在后期纳入的病人;或者是不用的研究机构,不同的研究人员采用几乎相同的定义和数据采集方法纳入的病人。广义的验证人群则是各种不同机构采用更广泛的入排标准纳入的病人。模型临床意义的研究是指量化评价临床大夫采用预测模型后决策的改善情况以及病人结局的改善情况。
要建立预测模型,采用哪种研究设计的人群是最合适的呢?当然是前瞻性队列研究人群,因为这种研究设计人群可以展现疾病的自然进程,也便于更有计划的测量预测因子和结局。文献里虽然也可以见到用病例对照研究的人群来建立预测模型,但病例对照研究人群的最大的硬伤就是无法计算绝对风险,而且病例和对照的来源的总体人群未知,研究者可以自由的选择病例和对照,导致结果易出现偏倚。
此外,随机对照临床试验的人群,也可以用来建立预测模型。如果干预措施无效,则可以直接合并数据,如果干预措施有效,需要把干预变量当做一个独立的预测因子纳入多因素模型。不过,由于临床试验人群的有严格的入排标准,所以人群的外推性较差。
对于预测模型,最重要的两个方面一是预测因子,二是结局。预测因子可以从病人的社会人口学特征、病史、体格检查、疾病特征、检测结果以及治疗历史中筛选。预测因子应该具有明确定义、标准化、可重复,预测因子的检测方法应该是日常使用的方法。治疗措施也可以当做预测因子,尤其是在随机对照临床试验中,但在观察性研究中,由于治疗措施、适应指征并不是统一规范的,纳入治疗措施作为预测因子可能引入偏倚,故不推荐,而且治疗措施相比年龄、性别、疾病分期来说,预测价值很小。此外,在选择预测因子时,应该考虑到在应用预测模型时,预测因子是否能够测量到,是否容易获得。
关于结局的选择,首选病人最关注的结局,比如疾病的复发、死亡、并发症、肿瘤增生、疼痛、治疗反应以及生存质量。替代指标和中间指标除非同最终结局有明确的因果关联,如CD4细胞计数与AIDS进展和死亡,否则不建议作为结局指标。对于结局指标的测量,应该是不需要知晓预测因子的情况,以免引入偏倚,这一点在结局需要观察者评定时尤为注意。
由于预测模型通常是基于多因素回归的方法,因此样本量的估算并没有简单明确的方法。当预测因子的个数远大于结局事件的个数时,就有可能过度估计模型的效果。理想情况下,建立预测模型至少需要几百个结局事件,有研究文献表明,一个预测因子至少需要10个结局事件是比较保守的估计。