受医学伦理或实际环境限制,随机对照试验的开展往往会受到限制。准实验研究通过控制研究的混杂效应,可在非随机化条件下进行因果推断,在某些情况下成为随机对照试验的替代选择。本文从准实验研究设计的基本思想、特点、局限性及在医学中的应用等角度,介绍准实验研究中常用的统计分析方法,包括双重差分模型、工具变量法、断点回归设计、间断时间序列模型等,以期为以后准实验研究提供参考。
引用本文: 罗枭, 何倩, 秦婴逸, 吴骋, 贺佳. 准实验中常用的统计分析方法及其在医学中的应用. 中国循证医学杂志, 2022, 22(9): 1080-1084. doi: 10.7507/1672-2531.202204020 复制
随机对照试验(randomized controlled trial,RCT)是医学研究中因果推断的金标准。RCT通过随机分组平衡了干预组和对照组的已测量和未测量混杂因素,从而达到更好进行因果推断的目的,但其对试验条件、试验对象等均有严格限制,使结果外推存在一定局限。此外,RCT在临床实践中难以实施和高成本也使得一些试验只能在较短时间、用较少的样本量完成,只能采用中间结果、生物标志物或替代结局等,无法正确反映临床实践的实际情况[1]。因此,当难以开展RCT时,研究人员可选择准实验(quasi-experiment),获得真实世界环境中干预对结局的影响,作为RCT的补充证据。
准实验或类实验一般是指因研究条件受限不能进行随机化分组或不能设立平行对照的干预性研究[2]。准实验研究通过处理和控制研究的混杂效应,从而在非随机化情况下进行因果推断。常用控制已测量混杂因素的统计方法,如分层、匹配、回归分析、倾向性评分法等,是通过不同程度地提高混杂因素在组间分布的均衡性来平衡其对效应估计的影响。而准实验中常利用或构建一种接近随机试验的方法如“自然实验(natural experiment)”来控制已测量和未测量的混杂因素,以期获得对干预效应的无偏估计。随着相关研究理论的不断深入,其分析方法也在不断拓展,目前常用的有双重差分模型(difference-in-differences,DID)、工具变量法(instrumental variables,IV)、间断时间序列模型(interrupted time series,ITS)、断点回归设计(regression discontinuity design,RDD)及其衍生的方法等。这些方法已用于基于既有数据对干预效果进行评价的研究。本文介绍不同分析方法的基本思想、特点、局限性和适用场景,以期为国内学者开展相关研究提供参考。
1 方法
1.1 DID
DID来源于20世纪80年代Ashenfelter和Card评估培训计划对收入影响的研究[3],随后被广泛用于经济学领域作为评价政策效果的工具[4]。其基本思想是获得两个相似人群干预前后的同期数据,实施干预的效果可通过比较干预组平均变化与对照组平均变化的差来估计,即所谓的双重差分。DID将组内“前后差异”和组间“有无差异”有效结合,这一定程度上控制了干预以外的混杂因素影响。DID需要满足两个主要假设:① 平行趋势假设,即认为干预组和对照组中观察单位的某些特征分布稳定,不随时间变化;② 干预措施只对干预组有影响[5]。
DID的局限性:① 无论是干预组还是对照组,都需要记录干预前后时间点上的结果数据;② 数据收集过程通常会有延迟,这使得及时评估干预效果变得困难;③ 在实践中干预组与对照组除干预措施外常存在其他差别。
近年来DID在医疗,特别是在公共卫生领域得到越来越多的应用[6-7]。如赵炜等[8]使用DID评价社区跌倒的预防效果;侯艳杰等[9]利用其研究了长期护理保险对中老年人医疗服务利用、医疗负担和健康的影响;Yvonne等[10]评估了乳腺癌对绝经后女性身体机能变化的影响。DID的理论与实践部分可参考相关文献[7]。
1.2 IV
IV最早是由Wright在20世纪20年代研究农贸产品价格问题时提出[11],早期用于在经济学和社会学领域,最近才被引入医学领域因果效应的估计研究中。IV方法的基本思想是找到一个工具变量将处理变量的变异分解成与混杂因素相关和不相关的两部分,利用不相关部分对结局变量进行回归分析,以消除未测量混杂因素造成的偏倚,实现对效应量的无偏估计[12]。该方法需要满足三个基本条件[13]:① 工具变量与所研究的处理因素相关,相关性的强弱代表工具变量的强度;② 工具变量与结局不直接相关;③ 工具变量与已测量和未测量混杂因素无关。
虽然IV可作为因果推断的有力工具,但实际工作中工具变量的选择并不容易,往往需要研究者对所研究问题的背景知识非常了解。IV的局限性在于:① 当工具变量与暴露因素相关性较小时,该方法会导致结局估计值的标准误增加;② 当样本量较小时,使用工具变量估计的结果不准确[14]。
近年来临床研究使用IV方法进行干预评估的研究也越来越多。Markovitz等[15]使用患者状态作为IV评估了额外使用抗高血压药物的增量效果;Chhabra等[16]使用不同地区患者袖状胃切除术历史记录作为IV进行袖状胃切除术和胃旁路术的安全性比较研究;Werner等[17]使用患者到护理机构的距离作为IV研究患者出院后在家护理与在专业护理机构护理对结局的影响。此外,孟德尔随机化以遗传变异作为工具变量[18]进行因果推断近年来也发展迅速,如Hartwig等[19]使用炎性生物标志物遗传变异作为IV评价炎性生物标志物对精神分裂症的影响。IV的理论与实践部分可参考相关文献[20]。
1.3 RDD
RDD由Thistlethwait和Campbell于20世纪60年代研究奖学金对大学绩效的影响时提出[21]。自20世纪90年代末以来,该方法在应用经济研究中变得越来越普遍,目前也被应用到医学相关领域的研究中[22-24]。其基本思想为存在一个干预变量(D)完全依赖于参考变量(X),当参考变量(X)超过某断点(C)时,干预变量(D)发生改变。假设结局变量(Y)与参考变量(X)之间的关系是连续的,协变量(Z)在断点处(C)也是连续的,那么,结局变量(Y)在断点处的改变就可解释为干预变量(D)的影响[25]。通过比较断点两侧差别,RDD可估计干预与结果之间的因果联系[26]。断点回归在不需要依赖强大假设(不存在未测量的混杂因素)和匹配法的前提条件下,也可实现在已测量和未测量变量之间的平衡[24]。
虽然RDD相比于大多数准实验分析方法在使用条件上具有优势,但仍存在一些局限性:① 需满足参考变量在断点C附近是连续的,如果出现不连续,即参考变量的分布不均匀,则存在人为操纵参考变量的可能性;② 协变量需满足在断点C附近是连续的,如果协变量的分布在断点附近存在跳跃情况,则无法判别断点处的干预效应是由参考变量还是协变量导致的[25];③ 因为RDD只能解释那些临近断点处的观测值的因果效应,所以较难推广到整体中。
RDD特别适用于临床、流行病学和公共卫生领域,因为这些领域大量存在影响治疗方案或者决策的截断值。Tennant等[27]使用断点回归来评估空腹血糖和妊娠糖尿病诊断对胎儿出生体重和胎龄过大风险的影响;Scott等[28]探索使用他汀类药物对总胆固醇和不良结局的影响;Xiong等[29]调查了中国双职工夫妇中配偶退休对个体认知健康的影响。RDD的理论与实践部分可参考相关文献[23]。
1.4 ITS
ITS最早于20世纪70年代由Box和Tiao首次提出并应用于经济和环境问题研究[30]。该方法最初运用于经济领域,随着研究深入,其可行性和有效性得到进一步证明,逐渐被运用于医学领域。目前,该方法被认为是准实验设计中最强的评估干预纵向效果的方法[31]。其基本思想为通过连续收集干预实施前后多个时间点上的结局数据,比较结局在干预前后水平和趋势的变化,从而评估干预措施对结局产生的影响[32]。ITS的优势在于即使未设置对照也能通过对干预前后多个观测时间点数据的分析,控制并排除由历史或其他未测量混杂引起的长期趋势变化对结果的影响,从而正确评价干预对结果的真实效果;其次ITS能够使用折线图清晰地表示干预对结局的影响,易于进行分层分析。近年来,两组或受控的ITS方法(controlled interrupted time series,CITS)(即存在对照组的ITS)因其可更好地控制干预前混杂因素的影响越来越受到关注[33]。
ITS的局限性包括[32,34]:① 干预前后数据测量点的数量至少12个;② 在没有干预的情况下,趋势要保持不变,但要注意数据的季节性或周期性变化;③ 由于结果趋势可能会因为混杂因素而随着时间推移而改变,因此使用较早的数据来推断预期结果可能会偏离实际;④ 由群体水平研究得到的干预效果推论,可能不适用于个体水平。
ITS常见于卫生政策干预,但在医学其他领域也有应用。王飞等[35]使用ITS评价了县级公立医院医药价格改革效果;Bridget等[36]评估阿片类药物指南变更对泌尿外科术后患者用药的影响;Clavería等[37]评估了新冠肺炎大流行对欧洲儿童传染性疾病和抗生素使用的影响;Jandoc等[38]的系统评价也表明,ITS正越来越多地被用于药物利用研究中。ITS的理论与实践部分可参考相关文献[39]。
1.5 其他方法
除上述常用方法外,还有一些在医学领域应用不多,但可借鉴其分析思路的准实验设计分析方法。如回归点位移设计[40](regression point displacement design,RPDD)是一种运用于群体层面的准实验设计分析方法,通常涉及一个干预组和多个对照组。干预效应估计是通过比较干预组后测数据与对照组前测数据建立的回归方程差异确定,即在干预无效的情况下,通常认为干预组的结局偏离回归方程较小,而当干预组结局明显偏离回归方程时,则证明干预是有效的。合成控制法[41](synthetic control method,SCM)是将面板数据中多个潜在对照组的信息加权并组合成一个“合成控制单元”,使之与干预组更加匹配,从而控制干预前特征和时间趋势对结果的影响。然后将合成控制单元结局的时间序列与干预组结局进行对比,用以估计干预效应。
2 讨论
本文介绍了目前常用的准实验分析方法的基本思想、特点、局限性及其在医学中的应用。为使准实验达到因果推断的目的,选择合适的分析方法十分重要。准实验分析方法的选择取决于研究的性质,研究者可获得的数据类型,以及可行性和伦理的要求。在应用准实验分析方法之前,应充分理解基本思想,严格把握适用条件。例如,当有干预组和对照组干预实施前后数据时,建议使用DID估计干预对结局的影响;IV需要选择合适的工具变量用来分析;当连续的参考变量导致干预发生变化时,可选择RDD;而ITS模型需要满足数据以时间序列为基础。上述方法的比较见表1。

需要注意的是作为数据驱动的准实验分析方法,会因数据质量问题影响干预有效性得出错误结论,因此,使用准实验分析方法进行因果效应推断的解释必须谨慎。根据Harris的研究[42],很少有研究者能准确定义他们所用的准实验分析方法或证明他们的研究设计是合理的。不仅如此,部分研究者不能明确他们使用准实验研究的局限性,从而得出有偏的结论。因此,研究者增强对准实验相关理论的学习是必要的。
3 展望
某些情况下,准实验可得到比RCT更详细的纵向研究结果,基于真实世界数据也使其具有更强的外部有效性。例如当疫苗投入市场后,因不能进行RCT,但可使用准实验或观察性研究方法分析其在临床试验阶段无法得到的特殊人群和暂未发生的相关事件结局[43](如疫苗接种对卫生服务利用的影响、不良反应事件及发生率等)。此外,也可将准实验的统计分析方法与其他数据科学分析方法联合使用[44],例如与机器学习算法相结合,可有效弥补双方不足并发挥彼此的优势。本文所介绍的分析方法也适用于真实世界研究中对未测量混杂的控制和估计因果效应。当前控制混杂因素的方法并不丰富,选择较少,且不完善[45],而混杂因素在准实验研究中普遍存在,这对相关统计学分析方法提出了新的要求和挑战,有待学者进一步完善和研究。
随机对照试验(randomized controlled trial,RCT)是医学研究中因果推断的金标准。RCT通过随机分组平衡了干预组和对照组的已测量和未测量混杂因素,从而达到更好进行因果推断的目的,但其对试验条件、试验对象等均有严格限制,使结果外推存在一定局限。此外,RCT在临床实践中难以实施和高成本也使得一些试验只能在较短时间、用较少的样本量完成,只能采用中间结果、生物标志物或替代结局等,无法正确反映临床实践的实际情况[1]。因此,当难以开展RCT时,研究人员可选择准实验(quasi-experiment),获得真实世界环境中干预对结局的影响,作为RCT的补充证据。
准实验或类实验一般是指因研究条件受限不能进行随机化分组或不能设立平行对照的干预性研究[2]。准实验研究通过处理和控制研究的混杂效应,从而在非随机化情况下进行因果推断。常用控制已测量混杂因素的统计方法,如分层、匹配、回归分析、倾向性评分法等,是通过不同程度地提高混杂因素在组间分布的均衡性来平衡其对效应估计的影响。而准实验中常利用或构建一种接近随机试验的方法如“自然实验(natural experiment)”来控制已测量和未测量的混杂因素,以期获得对干预效应的无偏估计。随着相关研究理论的不断深入,其分析方法也在不断拓展,目前常用的有双重差分模型(difference-in-differences,DID)、工具变量法(instrumental variables,IV)、间断时间序列模型(interrupted time series,ITS)、断点回归设计(regression discontinuity design,RDD)及其衍生的方法等。这些方法已用于基于既有数据对干预效果进行评价的研究。本文介绍不同分析方法的基本思想、特点、局限性和适用场景,以期为国内学者开展相关研究提供参考。
1 方法
1.1 DID
DID来源于20世纪80年代Ashenfelter和Card评估培训计划对收入影响的研究[3],随后被广泛用于经济学领域作为评价政策效果的工具[4]。其基本思想是获得两个相似人群干预前后的同期数据,实施干预的效果可通过比较干预组平均变化与对照组平均变化的差来估计,即所谓的双重差分。DID将组内“前后差异”和组间“有无差异”有效结合,这一定程度上控制了干预以外的混杂因素影响。DID需要满足两个主要假设:① 平行趋势假设,即认为干预组和对照组中观察单位的某些特征分布稳定,不随时间变化;② 干预措施只对干预组有影响[5]。
DID的局限性:① 无论是干预组还是对照组,都需要记录干预前后时间点上的结果数据;② 数据收集过程通常会有延迟,这使得及时评估干预效果变得困难;③ 在实践中干预组与对照组除干预措施外常存在其他差别。
近年来DID在医疗,特别是在公共卫生领域得到越来越多的应用[6-7]。如赵炜等[8]使用DID评价社区跌倒的预防效果;侯艳杰等[9]利用其研究了长期护理保险对中老年人医疗服务利用、医疗负担和健康的影响;Yvonne等[10]评估了乳腺癌对绝经后女性身体机能变化的影响。DID的理论与实践部分可参考相关文献[7]。
1.2 IV
IV最早是由Wright在20世纪20年代研究农贸产品价格问题时提出[11],早期用于在经济学和社会学领域,最近才被引入医学领域因果效应的估计研究中。IV方法的基本思想是找到一个工具变量将处理变量的变异分解成与混杂因素相关和不相关的两部分,利用不相关部分对结局变量进行回归分析,以消除未测量混杂因素造成的偏倚,实现对效应量的无偏估计[12]。该方法需要满足三个基本条件[13]:① 工具变量与所研究的处理因素相关,相关性的强弱代表工具变量的强度;② 工具变量与结局不直接相关;③ 工具变量与已测量和未测量混杂因素无关。
虽然IV可作为因果推断的有力工具,但实际工作中工具变量的选择并不容易,往往需要研究者对所研究问题的背景知识非常了解。IV的局限性在于:① 当工具变量与暴露因素相关性较小时,该方法会导致结局估计值的标准误增加;② 当样本量较小时,使用工具变量估计的结果不准确[14]。
近年来临床研究使用IV方法进行干预评估的研究也越来越多。Markovitz等[15]使用患者状态作为IV评估了额外使用抗高血压药物的增量效果;Chhabra等[16]使用不同地区患者袖状胃切除术历史记录作为IV进行袖状胃切除术和胃旁路术的安全性比较研究;Werner等[17]使用患者到护理机构的距离作为IV研究患者出院后在家护理与在专业护理机构护理对结局的影响。此外,孟德尔随机化以遗传变异作为工具变量[18]进行因果推断近年来也发展迅速,如Hartwig等[19]使用炎性生物标志物遗传变异作为IV评价炎性生物标志物对精神分裂症的影响。IV的理论与实践部分可参考相关文献[20]。
1.3 RDD
RDD由Thistlethwait和Campbell于20世纪60年代研究奖学金对大学绩效的影响时提出[21]。自20世纪90年代末以来,该方法在应用经济研究中变得越来越普遍,目前也被应用到医学相关领域的研究中[22-24]。其基本思想为存在一个干预变量(D)完全依赖于参考变量(X),当参考变量(X)超过某断点(C)时,干预变量(D)发生改变。假设结局变量(Y)与参考变量(X)之间的关系是连续的,协变量(Z)在断点处(C)也是连续的,那么,结局变量(Y)在断点处的改变就可解释为干预变量(D)的影响[25]。通过比较断点两侧差别,RDD可估计干预与结果之间的因果联系[26]。断点回归在不需要依赖强大假设(不存在未测量的混杂因素)和匹配法的前提条件下,也可实现在已测量和未测量变量之间的平衡[24]。
虽然RDD相比于大多数准实验分析方法在使用条件上具有优势,但仍存在一些局限性:① 需满足参考变量在断点C附近是连续的,如果出现不连续,即参考变量的分布不均匀,则存在人为操纵参考变量的可能性;② 协变量需满足在断点C附近是连续的,如果协变量的分布在断点附近存在跳跃情况,则无法判别断点处的干预效应是由参考变量还是协变量导致的[25];③ 因为RDD只能解释那些临近断点处的观测值的因果效应,所以较难推广到整体中。
RDD特别适用于临床、流行病学和公共卫生领域,因为这些领域大量存在影响治疗方案或者决策的截断值。Tennant等[27]使用断点回归来评估空腹血糖和妊娠糖尿病诊断对胎儿出生体重和胎龄过大风险的影响;Scott等[28]探索使用他汀类药物对总胆固醇和不良结局的影响;Xiong等[29]调查了中国双职工夫妇中配偶退休对个体认知健康的影响。RDD的理论与实践部分可参考相关文献[23]。
1.4 ITS
ITS最早于20世纪70年代由Box和Tiao首次提出并应用于经济和环境问题研究[30]。该方法最初运用于经济领域,随着研究深入,其可行性和有效性得到进一步证明,逐渐被运用于医学领域。目前,该方法被认为是准实验设计中最强的评估干预纵向效果的方法[31]。其基本思想为通过连续收集干预实施前后多个时间点上的结局数据,比较结局在干预前后水平和趋势的变化,从而评估干预措施对结局产生的影响[32]。ITS的优势在于即使未设置对照也能通过对干预前后多个观测时间点数据的分析,控制并排除由历史或其他未测量混杂引起的长期趋势变化对结果的影响,从而正确评价干预对结果的真实效果;其次ITS能够使用折线图清晰地表示干预对结局的影响,易于进行分层分析。近年来,两组或受控的ITS方法(controlled interrupted time series,CITS)(即存在对照组的ITS)因其可更好地控制干预前混杂因素的影响越来越受到关注[33]。
ITS的局限性包括[32,34]:① 干预前后数据测量点的数量至少12个;② 在没有干预的情况下,趋势要保持不变,但要注意数据的季节性或周期性变化;③ 由于结果趋势可能会因为混杂因素而随着时间推移而改变,因此使用较早的数据来推断预期结果可能会偏离实际;④ 由群体水平研究得到的干预效果推论,可能不适用于个体水平。
ITS常见于卫生政策干预,但在医学其他领域也有应用。王飞等[35]使用ITS评价了县级公立医院医药价格改革效果;Bridget等[36]评估阿片类药物指南变更对泌尿外科术后患者用药的影响;Clavería等[37]评估了新冠肺炎大流行对欧洲儿童传染性疾病和抗生素使用的影响;Jandoc等[38]的系统评价也表明,ITS正越来越多地被用于药物利用研究中。ITS的理论与实践部分可参考相关文献[39]。
1.5 其他方法
除上述常用方法外,还有一些在医学领域应用不多,但可借鉴其分析思路的准实验设计分析方法。如回归点位移设计[40](regression point displacement design,RPDD)是一种运用于群体层面的准实验设计分析方法,通常涉及一个干预组和多个对照组。干预效应估计是通过比较干预组后测数据与对照组前测数据建立的回归方程差异确定,即在干预无效的情况下,通常认为干预组的结局偏离回归方程较小,而当干预组结局明显偏离回归方程时,则证明干预是有效的。合成控制法[41](synthetic control method,SCM)是将面板数据中多个潜在对照组的信息加权并组合成一个“合成控制单元”,使之与干预组更加匹配,从而控制干预前特征和时间趋势对结果的影响。然后将合成控制单元结局的时间序列与干预组结局进行对比,用以估计干预效应。
2 讨论
本文介绍了目前常用的准实验分析方法的基本思想、特点、局限性及其在医学中的应用。为使准实验达到因果推断的目的,选择合适的分析方法十分重要。准实验分析方法的选择取决于研究的性质,研究者可获得的数据类型,以及可行性和伦理的要求。在应用准实验分析方法之前,应充分理解基本思想,严格把握适用条件。例如,当有干预组和对照组干预实施前后数据时,建议使用DID估计干预对结局的影响;IV需要选择合适的工具变量用来分析;当连续的参考变量导致干预发生变化时,可选择RDD;而ITS模型需要满足数据以时间序列为基础。上述方法的比较见表1。

需要注意的是作为数据驱动的准实验分析方法,会因数据质量问题影响干预有效性得出错误结论,因此,使用准实验分析方法进行因果效应推断的解释必须谨慎。根据Harris的研究[42],很少有研究者能准确定义他们所用的准实验分析方法或证明他们的研究设计是合理的。不仅如此,部分研究者不能明确他们使用准实验研究的局限性,从而得出有偏的结论。因此,研究者增强对准实验相关理论的学习是必要的。
3 展望
某些情况下,准实验可得到比RCT更详细的纵向研究结果,基于真实世界数据也使其具有更强的外部有效性。例如当疫苗投入市场后,因不能进行RCT,但可使用准实验或观察性研究方法分析其在临床试验阶段无法得到的特殊人群和暂未发生的相关事件结局[43](如疫苗接种对卫生服务利用的影响、不良反应事件及发生率等)。此外,也可将准实验的统计分析方法与其他数据科学分析方法联合使用[44],例如与机器学习算法相结合,可有效弥补双方不足并发挥彼此的优势。本文所介绍的分析方法也适用于真实世界研究中对未测量混杂的控制和估计因果效应。当前控制混杂因素的方法并不丰富,选择较少,且不完善[45],而混杂因素在准实验研究中普遍存在,这对相关统计学分析方法提出了新的要求和挑战,有待学者进一步完善和研究。