人类正努力向精准医学时代迈进,其目标是根据个体患者独特的临床特征,找到正确治疗方法,迈向个性化精准医疗的重要一步是通过开发预测模型来估计个体效应[1]。临床医生常使用预后模型对患者进行风险预测,将风险增加或降低的患者分别给予新兴或保守诊疗方案。但这不总是正确的,出于研究设计的限制,预后模型只识别出了基线风险较高的患者,并未准确识别出接受治疗后受益的特定人群[2]。换句话说,并非所有新兴疗法都能较好地适用于预后模型预测的未来结局事件风险高的患者,需要直接指导临床治疗决策的模型出现。
个体处理效应(individual treatment effect,ITE)模型是以随机对照试验(randomized controlled trial,RCT)为基础,估计个体在不同处理下结局发生概率,概率差异用于确定最适合患者的治疗决策[3]。ITE模型将RCT反映的试验组和对照组间平均治疗效果转变为个体治疗效果[4],并提供接受其他治疗方案的比较风险和潜在获益信息[5],有望解决个体治疗效果异质性的临床难题。但ITE模型建立原则和方法受到关注有限,缺少针对性评价工具,模型开发的统计学方法研究仍处于起步阶段。因此,本文旨在回顾基于RCT开发的ITE模型,通过模型整理与描述,系统总结模型开发现状,评价偏倚风险,以期为未来预测模型开发、评价与临床实际应用提供参考。
1 资料与方法
1.1 文献检索
计算机检索PubMed和Embase数据库,检索时限为1990年1月1日至2024年6月14日。检索词包括:(“randomized controlled trial” OR “randomized clinical trial” OR “clinical trial” OR “RCT”) AND (“predict” OR “prediction model” OR “individual treatment effect” OR “ITE” OR “calibration” OR “AUC” OR “area under the curve” OR “C statistic”) NOT (“prognostic model”)。
1.2 纳入与排除标准
纳入标准:基于RCT的ITE模型开发或验证;排除标准:① 会议、评论或综述等非原创性研究;② 评估新预测因子对现有模型的增量价值研究;③ 试验组为生活方式等非治疗干预;④ 预印本或无法获取全文等。
1.3 资料提取
两名研究者平行检索文章标题和摘要,对筛选到的文章进行全文检索,提取数据。提取项目清单是基于CHARMS预测模型研究系统回顾数据提取和关键评估指南[6]。提取的项目包括研究设计、人群、国家、结果、预测范围、建模方法、内部验证方法、研究参与者和结局事件的数量、预测因子数量和类型、模型表示和预测性能测量。如果一篇文章描述了多个模型,则对每个模型分别进行数据提取。
采用个体预后模型透明报告[7](transparent reporting of prediction model for individual prognosis or diagnosis,TRIPOD)中建议的评估预测模型性能的方法来系统回顾建模效果,包括区分度、校准度和临床有效性三方面。模型验证形式分两类:内部验证(引导验证、交叉验证和随机分割等)和外部验证(在独立数据库中评估)。有些研究开发了多个模型,有些模型在多个研究中进行了验证,除非另有说明,分析单位是研究中的主开发模型。考虑到ITE模型与预后模型不同的建模场景,资料提取与评价时也重点关注ITE模型的独有特点,以弥补工具的不足。
1.4 偏倚风险评价
采用PROBAST[8]工具评估预测模型的偏倚风险,涉及研究对象、预测因子、结局和统计分析4个领域。预测模型整体偏倚风险分3类:“高风险”“低风险”和“不清楚”。只要有1个领域认定为“高风险”,模型整体评价结果为“高风险”。
1.5 统计学分析
结果分析采用描述性统计方法,以频数和构成比呈现。系统评价报告时考虑PRISMA[9]和TRIPOD指南建议的各方面。使用Zotero 6.0软件管理文献,R 4.2.0软件统计分析。
2 结果
2.1 文献筛选情况
初检出相关文献10 579篇,经逐层筛选后,最终纳入11篇文献[1,10–19]。文献筛选流程及结果见附件图1。
2.2 预测模型构建情况
2.2.1 研究概述
11篇文章共描述了19个ITE模型的开发(每篇文章模型数量为1~5个不等)。9个(47.4%)ITE模型属于国际多中心RCT研究,未发现使用来自中、低收入国家人群数据开发的模型。研究领域涉及心脑血管疾病(n=10,52.6%)和精神疾病(n=7,36.8%)等。模型开发的参与者数量在107~14 963例之间,事件数在47~7 923件之间(表1)。

2.2.2 预测因子与结局
模型包含预测因子数为3~14个,最常见的预测因子是年龄、性别、吸烟、收缩压和糖尿病史。模型间预测结局有较大差别,10个(52.6%)预测模型以疾病进展为结局,4个(21.1%)模型以全因死亡为结局。模型预测范围为3小时至4年,心血管或癌症模型预测时间偏长,精神疾病模型偏短。
2.2.3 建模方法
ITE模型建模方式归纳为3类:含交互作用项的回归模型(n=8,42.1%),是指通过识别治疗与预测因子的交互项(即调节因子),再将预测因子与调节因子一起纳入多变量方程,如logistic回归、Cox比例风险回归、基于Weibull分布的加速失效时间模型等,最终组合成ITE模型;机器学习(n=6,31.6%),是指基于树或神经网络的算法考虑多变量间复杂关系,识别导致异质性处理效应的变量,再组合成模型,如随机森林、LASSO回归和神经网络分析等;双方程模型(n=5,26.3%),是指试验组和对照组分别建模,个体处理效应估计为组间预测概率差异,如Cox比例风险回归(n=3)和Logistic回归(n=2)。
2.2.4 模型评价与验证
15个(78.9%)模型报告了区分度,如C统计量或AUC。11个(57.9%)模型报告了校准度,2个(10.5%)模型评价了临床有效性。9个(47.4%)模型同时报告了区分度和校准度,仅1个(5.3%)模型报告了区分度、校准度和临床有效性,未见其ITE模型评价指标报告(表2)。

18个(94.7)模型进行了内部验证,13个(68.4%)模型进行了外部验证,12个(63.2%)模型同时进行了内、外部验证。内部验证方法为自举重采样(n=8)、交叉验证(n=7)和随机分割(n=3)。
2.3 偏倚风险评估
PROBAST提示,大多数新开发模型偏倚风险较高(n=14,73.7%),仅4个ITE模型为低风险偏倚,表明实际使用时模型的预测性能可能低于报道的结果,见附件图2。
1个(5.3%)ITE模型在研究对象纳入领域具有高偏倚风险,表明建模样本可能不代表模型目标人群。7个(36.8%)预测模型未明确参与者纳入,偏倚风险评价不明确。预测因子领域偏倚风险评估表明模型在预测窗内可用,因子定义较明确,受结果测量影响较小。多数研究使用了易于评估的结果(如死亡),因此11个(57.9%)模型的结局领域被评为低风险。5个ITE模型的结果则包含了预测因子,判为高偏倚风险,值得关注。
统计分析是最具偏倚风险的领域,14个(73.7%)ITE模型在该领域存在高偏倚风险。ITE模型最常见的统计分析问题是缺失数据处理不正确(n=15,78.9%)及不恰当考虑模型过度拟合、欠拟合和最优拟合(n=5,26.3%);来自这些模型的性能数据可能是乐观的,临床应用需谨慎。
综上,对基于RCT的ITE模型进行了特征总结,并与预后模型相比较区分(表3)。

3 讨论
本篇基于RCT的ITE预测模型系统评价中,确定并严格评估了11项研究中描述的19个模型。本研究发现构建交互项、双方程理论和机器学习是ITE模型开发的常用方法。目前,ITE模型数量较少,质量较差,其预测因子筛选与纳入、建模方法选择和模型表现评价的方法复杂,且需要更新,缺失数据处理、拟合优度考虑等统计分析细节需要关注。
含交互作用项的ITE模型通过允许构建协变量交互作用项来包含治疗这一干预措施,这对于确定治疗效果、优化治疗选择非常重要[20]。受试者特征与治疗分配的相互作用既可以用来定义具有相似预期治疗效果的患者亚组,也可以用来预测未来患者个体化治疗效果[21]。但每个交互项所需的事件数量是单个预测因子的多倍,使用传统回归方法选择“统计学显著”交互作用项,可能会对层内效应估计产生夸大或误导性估计[20]。通过P值选择相对效应修饰因子,在许多方面都与单变量亚组分析相同,而且有许多相似弱点,如理论薄弱和噪声数据,增加“假阳性”风险。一种折中的方法是在先验临床知识基础上选择一组预期成为相对效果修饰因子的变量,再通过Omnibus检验判断交互作用显著性。如果这个整体检验结果统计学显著,所有交互作用都包括在模型中;否则,都不是[20]。此外,含交互作用项的ITE模型容易过拟合,PATH声明建议应避免使用不考虑模型复杂性的回归方法来估计系数[21]。可考虑惩罚回归方法(如弹性网正则化回归等),缩小模型系数。系统评价发现,部分含交互项的ITE模型未明确报告如何通过惩罚方法收缩预测因子系数,其可能产生的偏倚有待进一步研究。
双方程模型是分别建立试验组和对照组方程来模拟各自条件下的结局风险,两组风险差值即为ITE。它的优点是适用性强,缺点是对研究样本量、事件发生率要求较高。含交互作用项的回归模型和双方程模型应用范围相似,适用于处理效应具有线性或非线性关系,并且处理效应可能受个体特征影响的情况。除了系统评价提及的方法,越来越多机器学习方法应用在ITE模型中被报道,如随机森林[22]、因果森林[23]、增益随机森林[24]等,但这些建模方法更需要严格审视偏倚风险,并进行全面验证。机器学习方法可自动捕捉数据中的复杂关系,包括非线性关系和交互作用,适应于处理效应可能受到多个因素的复杂影响,或不确定处理效应函数形式的情况。
ITE模型用于预测不同临床干预下患者个体治疗效果,即根据个体患者特征预测不同治疗下的结局差异,进而决定一种治疗是否可能比另一种治疗更有益(或有害)[25]。例如,基于交互的单方程ITE模型,构建SYNTAX评分Ⅱ,指导冠状动脉旁路移植术和经皮冠状动脉介入治疗的决策[13];基于双方程ITE模型,构建PRECISE-DAPT评分,解决了双联抗血小板治疗出血或缺血的风险-获益难题[17];基于机器学习ITE模型,提供个体化抗抑郁药物选择方案,改善抑郁症患者预后[12]。在临床实践中,ITE模型常用于解决治疗效果大小和方向上存在非随机变异的临床问题,且该问题在RCT传统亚组分析中常常无法解决。在未来,很多迫切解决的临床问题,如强化降压适应症人群选择;阿司匹林一级预防人群定位;双联降压的个体化方案;激素治疗患者减停策略等,ITE模型或许能给出新方案。
ITE模型的区分度、校准度和临床有效性评价需引起关注。区分度告知研究者发生或不发生结局事件患者个人风险如何区分,校准度告知研究者模型给出的预测风险是否准确。因无法观察到个体反事实替代干预下的结局,传统C指数衡量ITE模型获益预测的判别能力受限,可能会高估模型性能。Steyerberg提出使用C-for-benefit克服该问题[26],匹配试验组与对照组具有相似ITE的患者,比较对子内实际结局发生的一致性,进而将观察到的获益分为三类:获益、无获益或伤害,C-for-benefit反映ITE模型在此三元结果基础上区分配对患者的程度。此外,系统评价显示只有极少数模型采取有效性评价,这提示研究者应从追求预测准确性向以模型的临床效用为目标转变。
需采用完整报告和合适的统计学方法,降低预测模型的风险偏倚。超半数预测模型被评估为具有较高或不确定的偏倚风险,这意味着模型在新样本中的表现可能会比研究人员报告的更差[27]。超三分之二的模型在统计分析领域存在高偏倚风险,表明数据收集和研究设计充分,采取更优的统计分析可避免这些问题。导致偏倚的常见原因有:未充分解释缺失数据,忽略模型校准,及不恰当的内、外部验证方法。这些偏倚容易使模型估计结果过于乐观,降低模型的临床适用性,影响临床决策。
本研究局限性如下:由于ITE模型数目较少,本研究没有细分疾病领域进行系统评价。PROBAST更适用于预后模型,未来应针对ITE的场景下扩展评价要素,开发新的评价工具。尽管如此,ITE模型和传统预后模型在开发和验证方面具有相似性,作者在PROBAST工具基础上考虑了ITE模型的特殊性,这可能一定程度上削弱了无特异性ITE模型评价工具造成的偏倚,研究结果可信。
综上所述,以RCT为基础的ITE模型在确定治疗效果和优化治疗选择中起重要作用,特别是在医疗资源有限的中、低收入国家。含交互项、双方程和机器学习等是常见的建模方法,但ITE模型开发数目少、统计学方法复杂与不完善、文章报告不规范等限制了其走向临床实践,建议未来增加ITE模型开发、新型模型评价工具研究。
声明 所有作者声明无利益冲突。
致谢 感谢本次科研及论文协作过程中导师及科室同事的指导和大力支持。
人类正努力向精准医学时代迈进,其目标是根据个体患者独特的临床特征,找到正确治疗方法,迈向个性化精准医疗的重要一步是通过开发预测模型来估计个体效应[1]。临床医生常使用预后模型对患者进行风险预测,将风险增加或降低的患者分别给予新兴或保守诊疗方案。但这不总是正确的,出于研究设计的限制,预后模型只识别出了基线风险较高的患者,并未准确识别出接受治疗后受益的特定人群[2]。换句话说,并非所有新兴疗法都能较好地适用于预后模型预测的未来结局事件风险高的患者,需要直接指导临床治疗决策的模型出现。
个体处理效应(individual treatment effect,ITE)模型是以随机对照试验(randomized controlled trial,RCT)为基础,估计个体在不同处理下结局发生概率,概率差异用于确定最适合患者的治疗决策[3]。ITE模型将RCT反映的试验组和对照组间平均治疗效果转变为个体治疗效果[4],并提供接受其他治疗方案的比较风险和潜在获益信息[5],有望解决个体治疗效果异质性的临床难题。但ITE模型建立原则和方法受到关注有限,缺少针对性评价工具,模型开发的统计学方法研究仍处于起步阶段。因此,本文旨在回顾基于RCT开发的ITE模型,通过模型整理与描述,系统总结模型开发现状,评价偏倚风险,以期为未来预测模型开发、评价与临床实际应用提供参考。
1 资料与方法
1.1 文献检索
计算机检索PubMed和Embase数据库,检索时限为1990年1月1日至2024年6月14日。检索词包括:(“randomized controlled trial” OR “randomized clinical trial” OR “clinical trial” OR “RCT”) AND (“predict” OR “prediction model” OR “individual treatment effect” OR “ITE” OR “calibration” OR “AUC” OR “area under the curve” OR “C statistic”) NOT (“prognostic model”)。
1.2 纳入与排除标准
纳入标准:基于RCT的ITE模型开发或验证;排除标准:① 会议、评论或综述等非原创性研究;② 评估新预测因子对现有模型的增量价值研究;③ 试验组为生活方式等非治疗干预;④ 预印本或无法获取全文等。
1.3 资料提取
两名研究者平行检索文章标题和摘要,对筛选到的文章进行全文检索,提取数据。提取项目清单是基于CHARMS预测模型研究系统回顾数据提取和关键评估指南[6]。提取的项目包括研究设计、人群、国家、结果、预测范围、建模方法、内部验证方法、研究参与者和结局事件的数量、预测因子数量和类型、模型表示和预测性能测量。如果一篇文章描述了多个模型,则对每个模型分别进行数据提取。
采用个体预后模型透明报告[7](transparent reporting of prediction model for individual prognosis or diagnosis,TRIPOD)中建议的评估预测模型性能的方法来系统回顾建模效果,包括区分度、校准度和临床有效性三方面。模型验证形式分两类:内部验证(引导验证、交叉验证和随机分割等)和外部验证(在独立数据库中评估)。有些研究开发了多个模型,有些模型在多个研究中进行了验证,除非另有说明,分析单位是研究中的主开发模型。考虑到ITE模型与预后模型不同的建模场景,资料提取与评价时也重点关注ITE模型的独有特点,以弥补工具的不足。
1.4 偏倚风险评价
采用PROBAST[8]工具评估预测模型的偏倚风险,涉及研究对象、预测因子、结局和统计分析4个领域。预测模型整体偏倚风险分3类:“高风险”“低风险”和“不清楚”。只要有1个领域认定为“高风险”,模型整体评价结果为“高风险”。
1.5 统计学分析
结果分析采用描述性统计方法,以频数和构成比呈现。系统评价报告时考虑PRISMA[9]和TRIPOD指南建议的各方面。使用Zotero 6.0软件管理文献,R 4.2.0软件统计分析。
2 结果
2.1 文献筛选情况
初检出相关文献10 579篇,经逐层筛选后,最终纳入11篇文献[1,10–19]。文献筛选流程及结果见附件图1。
2.2 预测模型构建情况
2.2.1 研究概述
11篇文章共描述了19个ITE模型的开发(每篇文章模型数量为1~5个不等)。9个(47.4%)ITE模型属于国际多中心RCT研究,未发现使用来自中、低收入国家人群数据开发的模型。研究领域涉及心脑血管疾病(n=10,52.6%)和精神疾病(n=7,36.8%)等。模型开发的参与者数量在107~14 963例之间,事件数在47~7 923件之间(表1)。

2.2.2 预测因子与结局
模型包含预测因子数为3~14个,最常见的预测因子是年龄、性别、吸烟、收缩压和糖尿病史。模型间预测结局有较大差别,10个(52.6%)预测模型以疾病进展为结局,4个(21.1%)模型以全因死亡为结局。模型预测范围为3小时至4年,心血管或癌症模型预测时间偏长,精神疾病模型偏短。
2.2.3 建模方法
ITE模型建模方式归纳为3类:含交互作用项的回归模型(n=8,42.1%),是指通过识别治疗与预测因子的交互项(即调节因子),再将预测因子与调节因子一起纳入多变量方程,如logistic回归、Cox比例风险回归、基于Weibull分布的加速失效时间模型等,最终组合成ITE模型;机器学习(n=6,31.6%),是指基于树或神经网络的算法考虑多变量间复杂关系,识别导致异质性处理效应的变量,再组合成模型,如随机森林、LASSO回归和神经网络分析等;双方程模型(n=5,26.3%),是指试验组和对照组分别建模,个体处理效应估计为组间预测概率差异,如Cox比例风险回归(n=3)和Logistic回归(n=2)。
2.2.4 模型评价与验证
15个(78.9%)模型报告了区分度,如C统计量或AUC。11个(57.9%)模型报告了校准度,2个(10.5%)模型评价了临床有效性。9个(47.4%)模型同时报告了区分度和校准度,仅1个(5.3%)模型报告了区分度、校准度和临床有效性,未见其ITE模型评价指标报告(表2)。

18个(94.7)模型进行了内部验证,13个(68.4%)模型进行了外部验证,12个(63.2%)模型同时进行了内、外部验证。内部验证方法为自举重采样(n=8)、交叉验证(n=7)和随机分割(n=3)。
2.3 偏倚风险评估
PROBAST提示,大多数新开发模型偏倚风险较高(n=14,73.7%),仅4个ITE模型为低风险偏倚,表明实际使用时模型的预测性能可能低于报道的结果,见附件图2。
1个(5.3%)ITE模型在研究对象纳入领域具有高偏倚风险,表明建模样本可能不代表模型目标人群。7个(36.8%)预测模型未明确参与者纳入,偏倚风险评价不明确。预测因子领域偏倚风险评估表明模型在预测窗内可用,因子定义较明确,受结果测量影响较小。多数研究使用了易于评估的结果(如死亡),因此11个(57.9%)模型的结局领域被评为低风险。5个ITE模型的结果则包含了预测因子,判为高偏倚风险,值得关注。
统计分析是最具偏倚风险的领域,14个(73.7%)ITE模型在该领域存在高偏倚风险。ITE模型最常见的统计分析问题是缺失数据处理不正确(n=15,78.9%)及不恰当考虑模型过度拟合、欠拟合和最优拟合(n=5,26.3%);来自这些模型的性能数据可能是乐观的,临床应用需谨慎。
综上,对基于RCT的ITE模型进行了特征总结,并与预后模型相比较区分(表3)。

3 讨论
本篇基于RCT的ITE预测模型系统评价中,确定并严格评估了11项研究中描述的19个模型。本研究发现构建交互项、双方程理论和机器学习是ITE模型开发的常用方法。目前,ITE模型数量较少,质量较差,其预测因子筛选与纳入、建模方法选择和模型表现评价的方法复杂,且需要更新,缺失数据处理、拟合优度考虑等统计分析细节需要关注。
含交互作用项的ITE模型通过允许构建协变量交互作用项来包含治疗这一干预措施,这对于确定治疗效果、优化治疗选择非常重要[20]。受试者特征与治疗分配的相互作用既可以用来定义具有相似预期治疗效果的患者亚组,也可以用来预测未来患者个体化治疗效果[21]。但每个交互项所需的事件数量是单个预测因子的多倍,使用传统回归方法选择“统计学显著”交互作用项,可能会对层内效应估计产生夸大或误导性估计[20]。通过P值选择相对效应修饰因子,在许多方面都与单变量亚组分析相同,而且有许多相似弱点,如理论薄弱和噪声数据,增加“假阳性”风险。一种折中的方法是在先验临床知识基础上选择一组预期成为相对效果修饰因子的变量,再通过Omnibus检验判断交互作用显著性。如果这个整体检验结果统计学显著,所有交互作用都包括在模型中;否则,都不是[20]。此外,含交互作用项的ITE模型容易过拟合,PATH声明建议应避免使用不考虑模型复杂性的回归方法来估计系数[21]。可考虑惩罚回归方法(如弹性网正则化回归等),缩小模型系数。系统评价发现,部分含交互项的ITE模型未明确报告如何通过惩罚方法收缩预测因子系数,其可能产生的偏倚有待进一步研究。
双方程模型是分别建立试验组和对照组方程来模拟各自条件下的结局风险,两组风险差值即为ITE。它的优点是适用性强,缺点是对研究样本量、事件发生率要求较高。含交互作用项的回归模型和双方程模型应用范围相似,适用于处理效应具有线性或非线性关系,并且处理效应可能受个体特征影响的情况。除了系统评价提及的方法,越来越多机器学习方法应用在ITE模型中被报道,如随机森林[22]、因果森林[23]、增益随机森林[24]等,但这些建模方法更需要严格审视偏倚风险,并进行全面验证。机器学习方法可自动捕捉数据中的复杂关系,包括非线性关系和交互作用,适应于处理效应可能受到多个因素的复杂影响,或不确定处理效应函数形式的情况。
ITE模型用于预测不同临床干预下患者个体治疗效果,即根据个体患者特征预测不同治疗下的结局差异,进而决定一种治疗是否可能比另一种治疗更有益(或有害)[25]。例如,基于交互的单方程ITE模型,构建SYNTAX评分Ⅱ,指导冠状动脉旁路移植术和经皮冠状动脉介入治疗的决策[13];基于双方程ITE模型,构建PRECISE-DAPT评分,解决了双联抗血小板治疗出血或缺血的风险-获益难题[17];基于机器学习ITE模型,提供个体化抗抑郁药物选择方案,改善抑郁症患者预后[12]。在临床实践中,ITE模型常用于解决治疗效果大小和方向上存在非随机变异的临床问题,且该问题在RCT传统亚组分析中常常无法解决。在未来,很多迫切解决的临床问题,如强化降压适应症人群选择;阿司匹林一级预防人群定位;双联降压的个体化方案;激素治疗患者减停策略等,ITE模型或许能给出新方案。
ITE模型的区分度、校准度和临床有效性评价需引起关注。区分度告知研究者发生或不发生结局事件患者个人风险如何区分,校准度告知研究者模型给出的预测风险是否准确。因无法观察到个体反事实替代干预下的结局,传统C指数衡量ITE模型获益预测的判别能力受限,可能会高估模型性能。Steyerberg提出使用C-for-benefit克服该问题[26],匹配试验组与对照组具有相似ITE的患者,比较对子内实际结局发生的一致性,进而将观察到的获益分为三类:获益、无获益或伤害,C-for-benefit反映ITE模型在此三元结果基础上区分配对患者的程度。此外,系统评价显示只有极少数模型采取有效性评价,这提示研究者应从追求预测准确性向以模型的临床效用为目标转变。
需采用完整报告和合适的统计学方法,降低预测模型的风险偏倚。超半数预测模型被评估为具有较高或不确定的偏倚风险,这意味着模型在新样本中的表现可能会比研究人员报告的更差[27]。超三分之二的模型在统计分析领域存在高偏倚风险,表明数据收集和研究设计充分,采取更优的统计分析可避免这些问题。导致偏倚的常见原因有:未充分解释缺失数据,忽略模型校准,及不恰当的内、外部验证方法。这些偏倚容易使模型估计结果过于乐观,降低模型的临床适用性,影响临床决策。
本研究局限性如下:由于ITE模型数目较少,本研究没有细分疾病领域进行系统评价。PROBAST更适用于预后模型,未来应针对ITE的场景下扩展评价要素,开发新的评价工具。尽管如此,ITE模型和传统预后模型在开发和验证方面具有相似性,作者在PROBAST工具基础上考虑了ITE模型的特殊性,这可能一定程度上削弱了无特异性ITE模型评价工具造成的偏倚,研究结果可信。
综上所述,以RCT为基础的ITE模型在确定治疗效果和优化治疗选择中起重要作用,特别是在医疗资源有限的中、低收入国家。含交互项、双方程和机器学习等是常见的建模方法,但ITE模型开发数目少、统计学方法复杂与不完善、文章报告不规范等限制了其走向临床实践,建议未来增加ITE模型开发、新型模型评价工具研究。
声明 所有作者声明无利益冲突。
致谢 感谢本次科研及论文协作过程中导师及科室同事的指导和大力支持。