提到这个问题,我就想起被人问过无数次的过往,经常会有人会问我这个问题:“我有2000多研究对象的数据,但是这2000人里只有100个患者,你说我是挑出100个对照呢,还是把剩下的1900名研究对象都作为对照呢?”。对此问题争论所得的“暂定结果”,为考虑内容的完整性增加了基础内容:
1、对照组的选择是有标准的,即我们常说的入选和排除标准。对照的选择与匹配是两个概念,切不可将“成组匹配”泛化成“对照的选择”。
2、匹配有“成组匹配”和“个体匹配”。成组匹配(又称频数匹配),就是要求对照组与实验组某些特征的频数相似(如性别比例等),分析时采用独立样本的检验,如独立样本t检验等。个体匹配,是针对试验组的每一个研究对象,为其找到合适的对照,分析时采用配对样本的检验,如配对t或条件logistic回归。
3、匹配不要求两组样本量一样,成组匹配和个体匹配都不要求。
4、匹配有好处,也有坏处。匹配的好处是提高了试验组和对照组的可比性,即内部真实性;匹配的坏处是降低了对照组的代表性,毕竟你删去了一些对照组人群,即外部真实性。有人提出“这种删除导致的外部真实性的损失是对的”,就该放弃不合适的人群。也有人提出“现实中收集到的患者特征,多少代表了真实世界的情况”,不应该剔除。
5、有人提出:“在探索性研究中,建议不要使用匹配,给研究者留下探索各种可能的机会;在验证性研究中,可以使用匹配,让待验证的效应更为明确”。也有人提出:“探索性研究才应该匹配,这样才能让微弱的待探索效应更为强烈,容易被发现。验证性研究不该匹配,探索真正的存在于真实世界里的效应大小。(当然这要求所选的样本能够很好地代表总体)”
6、匹配的方法有针对单个或多个变量的逐个匹配,也有计算中间变量的匹配(如倾向性评分等)。切记,不可过度匹配。
7、匹配,还是不匹配?敏感性分析很重要。对于研究者来说,发现真实的规律,永远是最大的梦想。所以针对匹配的数据可以计算一个结果,针对不匹配的数据也可以计算一个结果,比一比,找不同。当然你还可以针对不同匹配方法的结果进行比较。
最后再回来,对于上面的例子,我个人建议不用匹配,直接做分析。对于匹配的问题,大家也可能会有不同的观点,欢迎讨论。