实效性随机对照试验可提供高质量的真实世界研究证据。然而,实效性试验由于质控相对没有传统随机试验严格,常存在结局缺失问题。若不对结局缺失进行恰当的处理,则可能产生选择偏倚。因此,根据导致结局缺失的机制和缺失的比例使用恰当的统计方法尤为重要。本文主要从结局缺失问题、缺失可能产生的选择性偏倚结构、缺失机制和处理缺失数据的主要统计方法进行论述,并推荐使用多重插补法或删失逆概率加权法作为主分析中处理结局缺失的方法。本研究旨在为实效性试验的结局缺失问题提供合理选择统计方法的思路。
引用本文: 石清阳, 李玲, 任燕, 姚明宏, 孙鑫. 实效性随机对照试验中的统计方法(Ⅱ):解决结局缺失问题. 中国循证医学杂志, 2021, 21(6): 729-736. doi: 10.7507/1672-2531.202101140 复制
实效性随机对照试验(pragmatic randomized controlled trials,pRCT)是真实世界数据研究非常重要的组成部分,并为临床决策提供重要的循证证据[1]。然而,由于其在真实医疗环境下开展,具有人群多样性、不设盲、随访时间较长等特点[2],pRCT 在实际执行中相比于传统随机试验更难进行质控,则更容易出现受试者结局缺失(missing outcome)的问题[3]。与此同时,结局缺失问题时常与依从性问题混淆[4],且没有被引起足够的重视[5],使得其通常没有被恰当的分析处理[6]。因此,本文首先将结局缺失问题与依从性问题进行区分并指出其中存在的问题,然后论述结局缺失可能产生的偏倚的结构以及缺失机制的分类,最后给出解决结局缺失的统计方案,以期为今后开展相关研究提供思路。
1 结局缺失问题与依从性问题
依从性问题和结局缺失问题是两个完全不同的概念,对研究结果产生的影响也不同。依从性问题(non-compliance)定义为实际干预偏离计划干预(protocol deviation),当偏离因素同时影响干预和结局时,产生随机后混杂(post-randomization confounding)[7]。而结局缺失指的是试验中某些受试者的某些结局数据缺失,通常是由于受试者失访(lost to follow-up)所致,但有时也存在其他原因,如受试者拒绝配合报告结局等。当不对结局缺失进行处理而直接进行分析时,可能产生选择性偏倚(selection bias)。
在临床试验中,依从性问题和结局缺失既可同时发生,也可单独发生。比如某些受试者因干预疗效不佳可能拒绝继续使用原定干预措施,但并未离开试验,其结局数据完整,因此存在依从性问题但没有结局缺失问题。而有些受试者因某些个人原因离开试验地区(即受试者失访),但其并没有潜在拒绝或改变干预的意愿,因此存在结局缺失但没有依从性问题,也被称为无差别失访(non-differential lost to follow-up)。然而,通常受试者失访的原因很可能是因为对试验疗效不满意或其他试验相关因素导致,主观上受试者存在拒绝原有干预或改变干预的意愿,客观上受试者因此失访,此时依从性问题和结局缺失同时存在,并可归为同一个问题,即存在选择偏倚的结局缺失问题,也被称为有差别失访(differential lost to follow-up)。
如前所述,依从性问题和结局缺失问题在临床试验中是两个不同的问题,可能产生的偏倚影响也不同,因此相应的统计方法也应不同。依从性问题的解决方案通常有意向性分析法(intention-to-treat,ITT)、符合方案集分析法、工具变量估计法[7]。其中使用最多的 ITT 法有时会被认为可以同时解决结局缺失问题,然而这是非常错误的认识[4]。比如当出现部分失访受试者时,错误的 ITT 分析会将接受随机分配的全部患者数量计入分母,而将最终出现结局的人数计入分子,而忽略那些失访人数。事实上,这样的处理意味着将失访人群假设为“如果未失访,依然不会出现结局事件”,这通常与事实不符,尤其当失访是由于疗效因素引起。因此,当出现失访时,ITT 分析仅可以处理其中的依从性问题(即不依从但有结局的人群),而对于结局缺失依然需要适当的统计方法进行校正处理。
除此之外,还有一些观点也是完全错误的,例如结局缺失问题可以通过事先增大样本量来解决。事实上,样本量仅和统计推断或估计精确性有关,解决的是随机误差,而结局缺失通常可导致偏倚,此时无论增加多少样本量都无法解决偏倚问题。当出现偏倚时,估计值的准确性无法保证,相应的置信区间也是有偏差的,无论其本身区间范围多窄。所以,结局缺失并不仅是损失一些统计功效的问题,而是整个研究结果是否可信的问题,这个问题不仅出现在观察性研究中,同样也出现在随机试验中,因此需要得到足够的重视。
2 结局缺失中的偏倚结构
在 pRCT 中,基线随机化消除了随机分组前的混杂和选择偏倚,因此在理想情况下两组间结局比较即是因果效应。然而实际情况中,部分受试者可能因为种种原因失访,因此两组比较的不再是原先完整人群的结局,而是相当于限制在结局未缺失的人群中进行比较,如因果图 1 所示。C 表示是否结局缺失(0:未缺失,1:缺失),当干预 A 对 C 有因果效应的同时,结局 Y 对 C 也有因果效应,此时将分析限制在结局未缺失人群中(C=0)相当于对 C 进行分层分析,因而打开后门路径 A→C←Y 产生冲撞变量分层偏倚(collider-stratification bias),即选择偏倚。例如某 pRCT 中,试验组更容易出现不良事件,而出现不良事件的受试者更倾向于离开试验(即失访);同时当结局疗效不佳时,受试者也更倾向于离开试验。因此当试验组出现不良事件的受试者仍然留在试验中时(即结局未缺失),那么必然存在一些其他因素使他留下,即结局疗效不佳的可能性就会更低,则留在试验中试验组的人群相比于结局缺失人群中试验组的疗效更好。

上述针对干预和结局的冲撞变量分层即是产生此类选择偏倚的机制[8]。除此之外,针对冲撞变量的子变量分层同样可以引入选择偏倚,如因果图 2 所示。A 为干预,Y 为结局,L 为某些相关症状,U 为某些引起 L 的潜在预后因素,C 为是否结局缺失。U 可同时引出某些症状 L 和改变结局 Y,干预 A 也可能产生某些症状比如不良反应。当分析限制在未缺失 C=0 时,打开后门路径 A→L←U→Y 产生选择偏倚。

同理,与上述相似的情况是,干预相关的影响与结局相关的影响机制不同,但均会影响缺失,如因果图 3 所示。干预 A 通过 A→L1→C 路径影响缺失,结局通过某些预后因素 U 产生的路径 Y←U→L2→C 影响缺失,当限制 C=0 时,打开后门路径 A→L1→C←L2←U→Y,产生选择偏倚。

前述偏倚均是典型选择偏倚结构[9],即对冲撞变量分层引起的偏倚,这种选择偏倚在零效应(null effect)下依然存在偏倚效应,被称为“bias under the null”,即尽管干预 A 对结果 Y 无因果效应,但仍然可分析出 A 和 Y 之间的相关性(通过后门路径产生)。
除此之外,还有一类在随机试验中经常出现但不被人重视的特殊选择偏倚,其仅在干预和结局之间真正存在因果效应时发生,被称为“bias under the alternative”[10]。这种偏倚的特点在于缺失仅与结局相关,与干预无关,也就是缺失的比例在干预组和对照组之间相同,即通常意义下的无差别失访(nondifferential lost to follow-up)。此时如果将分析限制在结局未缺失的人群中则产生这种特殊选择偏倚,如因果图 4 所示。干预 A 与结局 Y 之间存在因果效应,结局 Y 与缺失 C 之间通过某些预后因素 U 相关联,但干预 A 和缺失 C 之间无任何相关关系(即干预组和对照组之间的缺失比例相同)。当我们将分析限制在结局未缺失人群 C=0 中,此时存在三种情况:① 若 Y-C 的相关性在 A 的不同水平间同质,即干预组中的 Y-C 相关性和对照组中的 Y-C 相关性相同,则不产生偏倚。② 若 Y-C 的相关性在 A 的不同水平间异质,即干预组中的 Y-C 相关性和对照组中的 Y-C 相关性不同,则产生特殊选择偏倚,原因是由于 A-U 之间产生了交互作用。而 Y-C 在 A 的水平中异质是一个很常见的情况,尽管有时我们可认为其在比例尺度(ratio scale)下同质,但此时在差值尺度(difference scale)下必然异质,因此仍然会产生特殊选择偏倚。③ 上述两种情况均在干预 A 和结局 Y 之间有因果效应的前提下存在,若 A 和 Y 之间没有因果效应,则不会产生偏倚,无论是否限制缺失 C。如图 4 中,将 A-Y 关联断开,则无论如何限制 C,均不会影响 A。

上述特殊选择偏倚与典型选择偏倚所产生的影响有很大区别,典型选择偏倚通常是由于对冲撞变量分层或限制在某一水平(如限制在 C=0)而产生的,其无论干预 A 和结果 Y 之间有无因果效应均可产生偏倚,并同时对原总体人群或结局未缺失人群(原总体人群的子集)产生偏倚,也就是无论我们的目标总体(target population)是原总体还是其子集,估计值都是有偏倚的。然而,对于特殊选择偏倚,首先不存在冲撞变量,因为干预组和对照组间缺失比例相同,缺失仅与结局相关联(或通过某些预后因素相关联),其次当结局-缺失关联在干预不同水平间异质时发生偏倚,最后当目标总体是原总体时产生偏倚,若改变推断范围为结局未缺失人群则不产生偏倚。因此,在随机试验中,当出现特殊选择偏倚时,应明确说明目标总体的改变情况,并强调试验外推范围的变化。
综上,上述产生选择偏倚的几种因果图结构均可能在 pRCT 中发生,即在干预 A 随机化的前提下发生,在因果图中表现为没有箭头指向干预 A(即 A 是外生变量)。尽管多数情况下结局缺失会产生偏倚,但也并非所有情况均是,当缺失的发生可以被认定为完全随机事件时,即缺失与干预和结局均不相关时,无论推断的目标总体是原总体或未缺失人群均不会产生选择偏倚。但这样的假设前提非常苛刻,真实情况更多的是我们无法判断缺失是否与干预或结局相关联,因此需要针对结局缺失的机制进行专门论述,探讨其可能带来的影响以及采用什么解决方案。
3 缺失数据机制
缺失数据(missing data)问题是一个非常广泛的领域,任何变量在分析时以任何形式缺失都可以被称为缺失数据,Little 等将其定义为任何未观测但对分析有意义的数据,即缺失值背后隐藏着对分析有帮助的信息[11]。因此,结局缺失问题仅是缺失数据领域的一个组成部分。在随机试验中,结局缺失问题对研究的影响更大,相比于整个缺失数据领域而言对结果影响更大,因而本文单独针对随机试验中的结局缺失问题进行讨论。但是从统计分析的角度,缺失数据领域存在一个统一且成熟的框架,使得其背后的假设非常清晰。因此,本节借助 Rubin 的缺失数据框架来说明处理结局缺失问题所需要满足的条件和假设[12]。
考虑完整数据集 Y 以及缺失值指示变量 M,其中 M=1 代表缺失并对应缺失数据 ,M=0 代表未缺失并对应观测数据
。则缺失机制可以通过给定 Y 时 M 的条件分布表示,即:
,其中
表示未知参数。
此时若缺失机制不取决于任何数据,无论缺失数据或是观测数据,即:
![]() |
则缺失数据被称为完全随机缺失(missing completely at random,MCAR)。相比于 MCAR 更弱的假设是缺失机制仅取决于观测数据 而不依赖缺失数据本身,即:
![]() |
则缺失数据被称为随机缺失(missing at random,MAR)。若缺失机制不仅取决于观测数据,还取决于某些缺失数据本身或未知因素,即上述 MAR 等式不满足,则缺失数据被称为非随机缺失(missing not at random,MNAR)。
无论任何缺失数据,均可归于上述 3 种缺失机制。如果假设数据满足 MCAR,则意味着缺失数据对结果不产生任何影响,即可以直接使用完全数据集分析而不做任何处理。如果数据满足 MAR,则意味着基于已有观测数据足以预测出缺失数据信息,即可通过一些统计方法处理缺失数据。如果数据为 MNAR,则意味着部分缺失数据依赖缺失数据本身,这种缺失非常难以处理,需要对缺失机制本身施加一些强假设并对其进行建模。对于 MAR,可以直接对数据进行建模而不对缺失机制本身施加额外的假设,也是本文主要考虑的场景,其处理机制如下:
考虑结局 Y 存在一些缺失值,M 为 Y 的缺失指示变量,同时存在一系列完全观测的协变量 X 且不存在缺失值。如前 MAR 公式,给定 X 时 M 的条件分布等于给定 X、Y 时 M 的条件分布,因此可以推导出给定 X、M=0 时 Y 的条件分布(即观测数据条件分布)等于给定 X、M=1 时 Y 的条件分布(即缺失数据条件分布),即:
![]() |
此公式意味着可以通过观测到的 及对应 X 的信息,和缺失部分对应 X 的信息,来预测缺失部分的
值,也是本文统计处理方法的核心机制。
4 解决结局缺失问题的主要统计方法
如前所述,缺失数据的机制分为 3 种,通常处理缺失问题的统计方法均基于 MCAR 或 MAR 假设,并可归纳为以下几类:① 完整数据集分析(complete-case analysis):此方法就是直接忽略结局缺失,仅分析被完全观测的数据。当结局缺失比例较小时,此方法简单易行且可能得到一个相对可靠的结果。然而当结局缺失比例较大时,此方法可能会导致严重的偏倚和不精确估计[13],因此不宜使用。② 加权法(weighting procedures):加权法中最重要的方法是删失逆概率加权法(inverse probability of censoring weighting,IPCW)[14, 15],此方法依据个体选择进入未缺失的概率来逆加权至未缺失数据中,从而得到原总体数据,是非常稳健的方法,也是本文重点考虑的方法之一。③ 插补法(imputation):插补法分为很多种类型,最简单是热卡插补(hot deck imputation),其中常见的是末次观测值结转法(last observation carried forward,LOCF)。但 LOCF 方法的问题在于忽略了疾病病程的发展,虽然简单易行但也会产生相应偏倚[16]。除此之外还有均值插补、回归插补等简单插补方法。④ 似然法(likelihood-based approaches):似然法是直接基于全部观测数据进行建模,无论其中有无缺失值。模型通过似然法进行估计,如最大似然法、期望最大化法(expectation–maximization algorithm)等。这个方法的优点在于无需对缺失数据进行任何处理,既不需要将其丢弃也不需要进行插补,直接在完整数据集上建模并进行估计,如直接似然法(direct likelihood)。此方法非常灵活,可以应对任何缺失机制,模型假设可以被直观展现和评估。多重插补法(multiple imputation)的思路来源于贝叶斯法(即广义似然法)并将其公式进行分解,使其非常灵活且简便易行,成为本文主要考虑的处理方法之一。
4.1 删失逆概率加权
结局缺失产生选择偏倚的机制是干预 A 对缺失 C 存在因果效应的同时,结局 Y 对缺失 C 也存在因果效应,此时缺失 C 成为冲撞变量,当分析限制在 C=0 时相当于对冲撞变量分层,因而产生选择偏倚。通常情况下,结局 Y 并不会直接影响缺失 C,而是通过某些可测预后因素 L(如某些基线风险)相关联,或通过某些不可测预后因素 U 导致某些可测因素 L(如某些随访症状)。当我们认为研究中的协变量集 X 足以涵盖所有可测因素 L 时,则可以阻断 Y-C 之间的后门路径从而校正缺失带来的偏倚,此时缺失机制满足 MAR 假设。
当协变量集 X 满足条件后,则可以使用 IPCW 校正缺失。首先计算后门路径中选择进入未缺失 C=0 的概率 ,则结局未缺失人群的逆概率权重为:
![]() |
相应的,缺失人群的逆概率权重 。此时,未缺失结局的因果识别条件为
⫫
,即给定 X 和 A 的联合分布后未缺失人群的反事实结局独立于缺失本身。
其后将逆概率权重加权至每一个未缺失个体的结局中,通过 H-T 估计量(Horvitz-Thompson estimator)可给出被估量的一致估计[17]:
![]() |
即为未缺失个体加权校正后的结局,其后可估计干预组和对照组的因果效应:
![]() |
在实际使用 IPCW 时,通常会采用模型法进行估计:① 首先通过 logistic 回归估计缺失选择概率,此时自变量为全部协变量 X 和干预 A,因变量为缺失变量 C=0。其后用建立好的 logistic 回归模型将缺失选择概率预测出来,则缺失逆概率 WC 等于 1 除以缺失选择概率。② 对干预 A 建立边际结构模型(marginal structural model),并使用加权最小二乘法将缺失逆概率 WC 加权至模型中,则可估计出最终校正缺失后的结果。
此外,还可用稳健逆概率权重(stabilized inverse probability weights)进行加权估计,即:
![]() |
稳健权重的好处是在非饱和模型中可估计出更窄的置信区间,因此统计效率更高。
4.2 多重插补法
多重插补法并不是某一个具体的方法,而是代指一种处理缺失数据的框架或思路,多重插补的意义在于可以校正简单插补带来的估计偏差和推断偏差,即可以解释插补本身带来的不确定性。例如有协变量集 X、观测集 和缺失集
(未观测),当用 X 对 Y 进行回归插补时,缺失集
的值会依据 X 对
回归模型进行预测,当 X 满足 MAR 条件时,这些预测值在期望意义下是最理想的。但事实上,这些预测值是不可能观测到的,因为它忽略了现实中的随机误差。基于这些回归插补值进行估计和推断时也会存在相应偏差。因此,多重插补的最终目的是总体效应参数的无偏估计(unbiased)以及区间的有效估计(confidence valid)[18, 19]。
假设有总体参数 μ,通常可直接通过某一无偏估计量 进行估计,然而
需要依据全部数据 Y 进行估计,此时仅有观测数据
,因此估计量
可表示为给定
时 μ 的后验分布:
,然而这个分布是无法直接估计的,因此需要分解为:
![]() |
其中 即是插补的过程,记插补后数据为
,则
表示为通过插补数据集对总体参数 μ 进行估计的过程。当我们重复这个插补-估计过程,则 μ 的后验分布均值可表示为:
![]() |
即多次重复插补-估计过程后,每次估计量 的均值。同理,可估计参数 μ 的后验方差分布:
![]() |
其中右边第一部分被称为重复插补内方差,即每次插补中参数方差的均值,第二部分被称为重复插补间方差,即每次插补参数均值与总体参数均值间的离均方差。
上述“多次重复插补-估计的过程”被称为多重插补法[20]。
此时可看出多重插补法总是需要一个简单插补模型进行每次的重复插补。然而这个插补模型需要有一定随机性,如果每次插补都是固定的值则无法进行多重插补,例如普通回归、LOCF 或均值中位数等的插补值是固定的,因此不满足要求。通常满足条件的插补模型有随机回归插补(stochastic regression imputation)、预测均值匹配(predictive mean matching,PMM)、贝叶斯插补(Bayesian imputation)、Bootstrap 插补(Bootstrap imputation)、树模型(tree-based model)。
随机回归插补即在普通回归预测值中加入随机扰动。PMM 是通过回归预测值进行匹配,每次会生成一些“待匹配值”,然后对其随机抽样。贝叶斯插补则是直接从参数后验分布中随机抽样。Bootstrap 是从原始数据 中重抽样。树模型与 PMM 相似,只不过回归预测值变为树模型预测节点。这些插补模型中 PMM 和树模型匹配通常更稳健,因为无需服从“无模型指定错误(no model misspecification)”假设,但当缺失数据比例较大或样本量较小时,可能出现重复插补值过多的情况。
除此之外还有一个问题则是多重插补需要重复插补多少次,如果插补次数太少则会引起插补间方差较大,然而次数太多会增加算力及出现效益递减,因此需要进行权衡。Royston 认为如果想估计出更窄的区间则插补数需要至少 20 或更多[21]。Von Hippel 给出了一个经验法则:缺失数据的百分比即为插补次数[22]。事实上,在算力允许的情况下,更多的插补次数总是好的。
4.3 纵向结局缺失问题
在长期随访的 pRCT 中,通常可能出现多时间点测量结局的情况,因此缺失并不仅在某个时间点发生,而是可能发生在结局测量的每一个时间点中,即缺失 C 是一个时变变量(time-varying variable)。更典型的情况是缺失 C 是单调缺失的(monotonic),即如果在 k 时间点上的缺失 Ck=0,那么 C1,C2,C3,…,Ck-1=0。
理论上纵向结局缺失问题同样可通过插补模型解决,即只需将前一时间点的结局 Yk-1 用于 k 时间点的缺失结局 Yk 的插补中。然而需要注意缺失 C 的时变属性可能更容易导致协变量集 X 中存在冲撞变量 L,如图 2 所示。若通过 L 校正缺失,如回归插补,则产生新的选择偏倚,即打开后门路径 A→L←U→Y。此时常规校正方法失效,需要采用 g 方法校正缺失,即逆概率加权法。有别于前述 IPCW 的是此处缺失为时变变量,因此需将逆概率权重拓展为多时间点的权重乘积:
![]() |
同理,在模型估计时,先对每个时间点的缺失 C 进行 logistic 回归算出逆概率权重,然后使用加权最小二乘法构造边际结构模型进行最终效应估计。
此外,当结局为连续性变量时,可采取混合效应模型(mixed effect model),则无需对结局进行插补。在满足 MAR 假设时,模型通过对其他时间点的数据进行联合估计即可得到最终效应。混合效应模型通常采用似然法进行估计,包括最大似然、限制性最大似然、Kackar-Harville 法、Kendward-Roger 法等。
4.4 多重插补和逆概率加权
多重插补和逆概率加权作为处理结局缺失的两个最重要的方法,各有利弊。多重插补直接对缺失数据的分布建模,因此可以同时处理协变量部分缺失的情况,即多元缺失数据问题(multivariate missing data)。此时插补模型通常分为两种:联合模型(joint model,JM)和全条件指定法(fully conditional specification,FCS)。JM 法是直接对多元缺失数据的联合分布进行建模,通常采用多元正态分布。FCS 法则是单独对每一个缺失变量的条件分布进行建模,然后通过迭代的方法进行计算,此方法又被称为链式方程法(chained equations),因此通过链式方程的多重插补被简称为 MICE 法(multivariate imputation by chained equations)[23]。
逆概率加权作为 g 方法的一种,可处理协变量 X 中存在冲撞变量 L 的情形,而其他方法在此情形下失效。逆概率加权还可以进行联合建模,比如通过干预逆概率权重和删失逆概率权重的联合分布同时处理混杂和选择偏倚,并均可拓展至具有时变属性的变量中,有很大的灵活性。
4.5 生存结局缺失
生存结局也被称为时间-事件结局(time to event outcome),其特点在于除了考虑随访期间事件是否发生以外还需要考虑其在多长时间内发生。生存结局中的缺失数据又被称为删失(censoring),其特殊点在于它天然需要考虑两类删失:管理性删失(administrative censoring)和非管理性删失(non-administrative censoring)。非管理性删失即是本文所论述的结局缺失类型,其发生在随访终点之前,由于各种未知原因出现结局缺失,如失访等。管理性删失为因研究者自身的原因而导致的结局删失(而非受试者原因),通常发生在研究结束时研究者中断后续随访以致后续结局无法观测,也被称为右删失(right censoring)。其特点为需要对在随访终点还未发生事件的人群的生存时间进行指定,而这主要是生存分析模型所解决的问题,比如给定生存时间分布(或风险分布)假设。常规处理生存结局的统计方法大体分为非参数法:包括 Kaplan-Meier 估计量、生命表法(life-table method)、Nelson-Aalen 估计量、Aalen-Johansen 估计量;半参数法:包括 Cox 比例风险(proportional hazards,PH)模型、半参数加速失效时间模型(accelerated failure time,AFT);参数法:包括基于威布尔分布(Weibull distribution)的参数 AFT 模型、基于 logistic 回归的平滑时间风险模型(smooth-in-time hazard model)、Gompertz 模型。
然而,正是因为上述模型直接对管理性删失或生存时间建模,一种错误的观点认为它们同时也可以处理非管理性删失。事实上,若统计分析时不做特别处理,比如采用标准 Cox 模型,则非管理性删失同样会被当成管理性删失处理,即默认满足无信息删失(non-informative censoring)假设。而如前所述,非管理性删失通常并非是无信息的,更多的原因是患者因不良事件等试验相关因素而删失,此时如将其当成无信息删失会产生相应偏倚。
因此,在随机试验的生存分析中,需要将管理、非管理性删失分开考虑,对于管理性删失可采用常规生存分析模型处理,而非管理性删失可采用本文推荐的逆概率加权和多重插补法处理。其中逆概率加权方法可以依据前述纵向结局删失中的时变删失变量处理,此处不再赘述。而多重插补法在此处比较特殊,因为需要插补的数据是生存时间这一特殊数据类型。通常有 3 种生存时间的插补策略[24, 25]:① 风险集插补(risk set imputation),即对于每一个删失结局均构造一个风险集,然后随机从中抽取一个生存时间进行插补;② Kaplan–Meier 插补,即在上述构造风险集的基础上,使用其构造 Kaplan–Meier 生存曲线,然后从生存曲线中随机抽取生存时间进行插补;③ 风险值匹配法(risk score matching),即通过拟合参数模型为每一个删失结局计算一个风险值,然后与未删失结局的风险值进行匹配,依近邻原则选出匹配候选集,从中随机抽样。
此外,还有一种特殊的非管理性删失类型,即竞争风险事件(competing event)。例如目标结局为某些疾病(如糖尿病)的发病,此时死亡即是竞争风险事件,发生死亡事件的个体的原目标事件失效时间(failure time)无穷大,导致原结局分析结果发生偏离。在风险模型中,传统上有两种处理方法:指定原因风险模型(cause-specific hazard model)、部分分布风险模型(subdistribution hazard model)。但无论哪种模型均受前述选择偏倚的影响,依然需要进行协变量校正,此时可选用删失逆概率加权的方法。需要注意的是,当出现竞争风险事件时,无论哪一种方法都不能完美回答原目标结局的问题,因此解释结果时应更加谨慎。
5 讨论
对于随机试验而言,质控都是至关重要的;良好质控下随机试验的结果可信度较高,被认为是最佳证据的来源。质控中非常重要的一个环节就是尽可能减少缺失数据的存在,尤其对于重要结局而言。事实上,相应的质控规范已经较为完善,然而无论质控做的再好,也无法避免因各种未知因素而导致的结局缺失,且由于试验相关因素的存在,结局缺失通常伴随着不同偏倚的产生,从而严重影响研究结论[26-28]。
尽管对于随机试验结局缺失是非常重要的问题,大多数研究却缺少针对如何处理缺失数据的论述[6],并默认使用完全数据集分析的方法,或使用一些简单插补的方法如 LOCF、均值插补等,且没有详尽论述为什么选择这些方法。对于大多数试验而言,简单的数据处理方法均可能产生偏倚,除非有强有力的论点说明其背后的假设(MCAR)成立,否则这样的选择并不可取。
逆概率加权和多重插补是目前处理结局缺失的方法中最重要且最灵活的两种方法。逆概率加权是对缺失变量的选择概率建模,通过逆概率权重构造假如未缺失时结局的效应。此方法可应用于各种特定模型,如处理生存数据时可采用逆概率加权 Cox 模型。也可以拓展至时变变量中,通过拟合多时间点逆概率权重的乘积进行建模。
多重插补的思路来源于给定观测数据后总体参数条件分布的贝叶斯分解,非常巧妙地将缺失数据考虑在其中。多重插补的灵活性在于可以使用任意插补模型,包括一些非参数插补法,如 PMM、树模型等,这些方法不受模型函数指定的限制,稳健性更好。除此之外,多重插补可以同时处理多元缺失数据问题,如联合模型、全条件指定,但所需要的假设也更强。
无论采用何种统计处理方法,其背后均需要满足相应假设,如 MAR。在 pRCT 中,基线数据及随访数据通常会收集的更全,更容易满足 MAR 假设。然而,无论数据收集的再多,这些假设依然不可验证,因此,需要结合专业知识对其进行详细论证并在文章中体现,如此可增加研究的透明性,也可让后来的研究者进一步判断或提出质疑,并进行改进。此外,针对不同假设应当做相应的敏感性分析,以确保结果在不同假设下的稳健性。
综上,目前随机试验对结局缺失的处理并不理想,有很大改进的空间,其中除尽可能做好质控以外,恰当的统计分析方法也是至关重要的。当结局缺失比例较低或可以论证缺失机制满足 MCAR 假设时,可以选用完整数据集分析。当结局缺失比例较高且缺失机制不满足 MCAR 时,首先尽可能收集与缺失相关的协变量集,然后对缺失机制的 MAR 假设是否成立进行详细论证说明,最后依据具体情况选择结局缺失的处理方法。若除结局缺失以外还需要解决其他协变量缺失问题,则可以选用多重插补法。若需处理纵向结局中的时变变量缺失,则可以选用逆概率加权法。然而,无论采用任何方法均依赖特定的假设前提,因此,对试验设计和过程详尽的论述是保证研究质量和透明性的关键。
实效性随机对照试验(pragmatic randomized controlled trials,pRCT)是真实世界数据研究非常重要的组成部分,并为临床决策提供重要的循证证据[1]。然而,由于其在真实医疗环境下开展,具有人群多样性、不设盲、随访时间较长等特点[2],pRCT 在实际执行中相比于传统随机试验更难进行质控,则更容易出现受试者结局缺失(missing outcome)的问题[3]。与此同时,结局缺失问题时常与依从性问题混淆[4],且没有被引起足够的重视[5],使得其通常没有被恰当的分析处理[6]。因此,本文首先将结局缺失问题与依从性问题进行区分并指出其中存在的问题,然后论述结局缺失可能产生的偏倚的结构以及缺失机制的分类,最后给出解决结局缺失的统计方案,以期为今后开展相关研究提供思路。
1 结局缺失问题与依从性问题
依从性问题和结局缺失问题是两个完全不同的概念,对研究结果产生的影响也不同。依从性问题(non-compliance)定义为实际干预偏离计划干预(protocol deviation),当偏离因素同时影响干预和结局时,产生随机后混杂(post-randomization confounding)[7]。而结局缺失指的是试验中某些受试者的某些结局数据缺失,通常是由于受试者失访(lost to follow-up)所致,但有时也存在其他原因,如受试者拒绝配合报告结局等。当不对结局缺失进行处理而直接进行分析时,可能产生选择性偏倚(selection bias)。
在临床试验中,依从性问题和结局缺失既可同时发生,也可单独发生。比如某些受试者因干预疗效不佳可能拒绝继续使用原定干预措施,但并未离开试验,其结局数据完整,因此存在依从性问题但没有结局缺失问题。而有些受试者因某些个人原因离开试验地区(即受试者失访),但其并没有潜在拒绝或改变干预的意愿,因此存在结局缺失但没有依从性问题,也被称为无差别失访(non-differential lost to follow-up)。然而,通常受试者失访的原因很可能是因为对试验疗效不满意或其他试验相关因素导致,主观上受试者存在拒绝原有干预或改变干预的意愿,客观上受试者因此失访,此时依从性问题和结局缺失同时存在,并可归为同一个问题,即存在选择偏倚的结局缺失问题,也被称为有差别失访(differential lost to follow-up)。
如前所述,依从性问题和结局缺失问题在临床试验中是两个不同的问题,可能产生的偏倚影响也不同,因此相应的统计方法也应不同。依从性问题的解决方案通常有意向性分析法(intention-to-treat,ITT)、符合方案集分析法、工具变量估计法[7]。其中使用最多的 ITT 法有时会被认为可以同时解决结局缺失问题,然而这是非常错误的认识[4]。比如当出现部分失访受试者时,错误的 ITT 分析会将接受随机分配的全部患者数量计入分母,而将最终出现结局的人数计入分子,而忽略那些失访人数。事实上,这样的处理意味着将失访人群假设为“如果未失访,依然不会出现结局事件”,这通常与事实不符,尤其当失访是由于疗效因素引起。因此,当出现失访时,ITT 分析仅可以处理其中的依从性问题(即不依从但有结局的人群),而对于结局缺失依然需要适当的统计方法进行校正处理。
除此之外,还有一些观点也是完全错误的,例如结局缺失问题可以通过事先增大样本量来解决。事实上,样本量仅和统计推断或估计精确性有关,解决的是随机误差,而结局缺失通常可导致偏倚,此时无论增加多少样本量都无法解决偏倚问题。当出现偏倚时,估计值的准确性无法保证,相应的置信区间也是有偏差的,无论其本身区间范围多窄。所以,结局缺失并不仅是损失一些统计功效的问题,而是整个研究结果是否可信的问题,这个问题不仅出现在观察性研究中,同样也出现在随机试验中,因此需要得到足够的重视。
2 结局缺失中的偏倚结构
在 pRCT 中,基线随机化消除了随机分组前的混杂和选择偏倚,因此在理想情况下两组间结局比较即是因果效应。然而实际情况中,部分受试者可能因为种种原因失访,因此两组比较的不再是原先完整人群的结局,而是相当于限制在结局未缺失的人群中进行比较,如因果图 1 所示。C 表示是否结局缺失(0:未缺失,1:缺失),当干预 A 对 C 有因果效应的同时,结局 Y 对 C 也有因果效应,此时将分析限制在结局未缺失人群中(C=0)相当于对 C 进行分层分析,因而打开后门路径 A→C←Y 产生冲撞变量分层偏倚(collider-stratification bias),即选择偏倚。例如某 pRCT 中,试验组更容易出现不良事件,而出现不良事件的受试者更倾向于离开试验(即失访);同时当结局疗效不佳时,受试者也更倾向于离开试验。因此当试验组出现不良事件的受试者仍然留在试验中时(即结局未缺失),那么必然存在一些其他因素使他留下,即结局疗效不佳的可能性就会更低,则留在试验中试验组的人群相比于结局缺失人群中试验组的疗效更好。

上述针对干预和结局的冲撞变量分层即是产生此类选择偏倚的机制[8]。除此之外,针对冲撞变量的子变量分层同样可以引入选择偏倚,如因果图 2 所示。A 为干预,Y 为结局,L 为某些相关症状,U 为某些引起 L 的潜在预后因素,C 为是否结局缺失。U 可同时引出某些症状 L 和改变结局 Y,干预 A 也可能产生某些症状比如不良反应。当分析限制在未缺失 C=0 时,打开后门路径 A→L←U→Y 产生选择偏倚。

同理,与上述相似的情况是,干预相关的影响与结局相关的影响机制不同,但均会影响缺失,如因果图 3 所示。干预 A 通过 A→L1→C 路径影响缺失,结局通过某些预后因素 U 产生的路径 Y←U→L2→C 影响缺失,当限制 C=0 时,打开后门路径 A→L1→C←L2←U→Y,产生选择偏倚。

前述偏倚均是典型选择偏倚结构[9],即对冲撞变量分层引起的偏倚,这种选择偏倚在零效应(null effect)下依然存在偏倚效应,被称为“bias under the null”,即尽管干预 A 对结果 Y 无因果效应,但仍然可分析出 A 和 Y 之间的相关性(通过后门路径产生)。
除此之外,还有一类在随机试验中经常出现但不被人重视的特殊选择偏倚,其仅在干预和结局之间真正存在因果效应时发生,被称为“bias under the alternative”[10]。这种偏倚的特点在于缺失仅与结局相关,与干预无关,也就是缺失的比例在干预组和对照组之间相同,即通常意义下的无差别失访(nondifferential lost to follow-up)。此时如果将分析限制在结局未缺失的人群中则产生这种特殊选择偏倚,如因果图 4 所示。干预 A 与结局 Y 之间存在因果效应,结局 Y 与缺失 C 之间通过某些预后因素 U 相关联,但干预 A 和缺失 C 之间无任何相关关系(即干预组和对照组之间的缺失比例相同)。当我们将分析限制在结局未缺失人群 C=0 中,此时存在三种情况:① 若 Y-C 的相关性在 A 的不同水平间同质,即干预组中的 Y-C 相关性和对照组中的 Y-C 相关性相同,则不产生偏倚。② 若 Y-C 的相关性在 A 的不同水平间异质,即干预组中的 Y-C 相关性和对照组中的 Y-C 相关性不同,则产生特殊选择偏倚,原因是由于 A-U 之间产生了交互作用。而 Y-C 在 A 的水平中异质是一个很常见的情况,尽管有时我们可认为其在比例尺度(ratio scale)下同质,但此时在差值尺度(difference scale)下必然异质,因此仍然会产生特殊选择偏倚。③ 上述两种情况均在干预 A 和结局 Y 之间有因果效应的前提下存在,若 A 和 Y 之间没有因果效应,则不会产生偏倚,无论是否限制缺失 C。如图 4 中,将 A-Y 关联断开,则无论如何限制 C,均不会影响 A。

上述特殊选择偏倚与典型选择偏倚所产生的影响有很大区别,典型选择偏倚通常是由于对冲撞变量分层或限制在某一水平(如限制在 C=0)而产生的,其无论干预 A 和结果 Y 之间有无因果效应均可产生偏倚,并同时对原总体人群或结局未缺失人群(原总体人群的子集)产生偏倚,也就是无论我们的目标总体(target population)是原总体还是其子集,估计值都是有偏倚的。然而,对于特殊选择偏倚,首先不存在冲撞变量,因为干预组和对照组间缺失比例相同,缺失仅与结局相关联(或通过某些预后因素相关联),其次当结局-缺失关联在干预不同水平间异质时发生偏倚,最后当目标总体是原总体时产生偏倚,若改变推断范围为结局未缺失人群则不产生偏倚。因此,在随机试验中,当出现特殊选择偏倚时,应明确说明目标总体的改变情况,并强调试验外推范围的变化。
综上,上述产生选择偏倚的几种因果图结构均可能在 pRCT 中发生,即在干预 A 随机化的前提下发生,在因果图中表现为没有箭头指向干预 A(即 A 是外生变量)。尽管多数情况下结局缺失会产生偏倚,但也并非所有情况均是,当缺失的发生可以被认定为完全随机事件时,即缺失与干预和结局均不相关时,无论推断的目标总体是原总体或未缺失人群均不会产生选择偏倚。但这样的假设前提非常苛刻,真实情况更多的是我们无法判断缺失是否与干预或结局相关联,因此需要针对结局缺失的机制进行专门论述,探讨其可能带来的影响以及采用什么解决方案。
3 缺失数据机制
缺失数据(missing data)问题是一个非常广泛的领域,任何变量在分析时以任何形式缺失都可以被称为缺失数据,Little 等将其定义为任何未观测但对分析有意义的数据,即缺失值背后隐藏着对分析有帮助的信息[11]。因此,结局缺失问题仅是缺失数据领域的一个组成部分。在随机试验中,结局缺失问题对研究的影响更大,相比于整个缺失数据领域而言对结果影响更大,因而本文单独针对随机试验中的结局缺失问题进行讨论。但是从统计分析的角度,缺失数据领域存在一个统一且成熟的框架,使得其背后的假设非常清晰。因此,本节借助 Rubin 的缺失数据框架来说明处理结局缺失问题所需要满足的条件和假设[12]。
考虑完整数据集 Y 以及缺失值指示变量 M,其中 M=1 代表缺失并对应缺失数据 ,M=0 代表未缺失并对应观测数据
。则缺失机制可以通过给定 Y 时 M 的条件分布表示,即:
,其中
表示未知参数。
此时若缺失机制不取决于任何数据,无论缺失数据或是观测数据,即:
![]() |
则缺失数据被称为完全随机缺失(missing completely at random,MCAR)。相比于 MCAR 更弱的假设是缺失机制仅取决于观测数据 而不依赖缺失数据本身,即:
![]() |
则缺失数据被称为随机缺失(missing at random,MAR)。若缺失机制不仅取决于观测数据,还取决于某些缺失数据本身或未知因素,即上述 MAR 等式不满足,则缺失数据被称为非随机缺失(missing not at random,MNAR)。
无论任何缺失数据,均可归于上述 3 种缺失机制。如果假设数据满足 MCAR,则意味着缺失数据对结果不产生任何影响,即可以直接使用完全数据集分析而不做任何处理。如果数据满足 MAR,则意味着基于已有观测数据足以预测出缺失数据信息,即可通过一些统计方法处理缺失数据。如果数据为 MNAR,则意味着部分缺失数据依赖缺失数据本身,这种缺失非常难以处理,需要对缺失机制本身施加一些强假设并对其进行建模。对于 MAR,可以直接对数据进行建模而不对缺失机制本身施加额外的假设,也是本文主要考虑的场景,其处理机制如下:
考虑结局 Y 存在一些缺失值,M 为 Y 的缺失指示变量,同时存在一系列完全观测的协变量 X 且不存在缺失值。如前 MAR 公式,给定 X 时 M 的条件分布等于给定 X、Y 时 M 的条件分布,因此可以推导出给定 X、M=0 时 Y 的条件分布(即观测数据条件分布)等于给定 X、M=1 时 Y 的条件分布(即缺失数据条件分布),即:
![]() |
此公式意味着可以通过观测到的 及对应 X 的信息,和缺失部分对应 X 的信息,来预测缺失部分的
值,也是本文统计处理方法的核心机制。
4 解决结局缺失问题的主要统计方法
如前所述,缺失数据的机制分为 3 种,通常处理缺失问题的统计方法均基于 MCAR 或 MAR 假设,并可归纳为以下几类:① 完整数据集分析(complete-case analysis):此方法就是直接忽略结局缺失,仅分析被完全观测的数据。当结局缺失比例较小时,此方法简单易行且可能得到一个相对可靠的结果。然而当结局缺失比例较大时,此方法可能会导致严重的偏倚和不精确估计[13],因此不宜使用。② 加权法(weighting procedures):加权法中最重要的方法是删失逆概率加权法(inverse probability of censoring weighting,IPCW)[14, 15],此方法依据个体选择进入未缺失的概率来逆加权至未缺失数据中,从而得到原总体数据,是非常稳健的方法,也是本文重点考虑的方法之一。③ 插补法(imputation):插补法分为很多种类型,最简单是热卡插补(hot deck imputation),其中常见的是末次观测值结转法(last observation carried forward,LOCF)。但 LOCF 方法的问题在于忽略了疾病病程的发展,虽然简单易行但也会产生相应偏倚[16]。除此之外还有均值插补、回归插补等简单插补方法。④ 似然法(likelihood-based approaches):似然法是直接基于全部观测数据进行建模,无论其中有无缺失值。模型通过似然法进行估计,如最大似然法、期望最大化法(expectation–maximization algorithm)等。这个方法的优点在于无需对缺失数据进行任何处理,既不需要将其丢弃也不需要进行插补,直接在完整数据集上建模并进行估计,如直接似然法(direct likelihood)。此方法非常灵活,可以应对任何缺失机制,模型假设可以被直观展现和评估。多重插补法(multiple imputation)的思路来源于贝叶斯法(即广义似然法)并将其公式进行分解,使其非常灵活且简便易行,成为本文主要考虑的处理方法之一。
4.1 删失逆概率加权
结局缺失产生选择偏倚的机制是干预 A 对缺失 C 存在因果效应的同时,结局 Y 对缺失 C 也存在因果效应,此时缺失 C 成为冲撞变量,当分析限制在 C=0 时相当于对冲撞变量分层,因而产生选择偏倚。通常情况下,结局 Y 并不会直接影响缺失 C,而是通过某些可测预后因素 L(如某些基线风险)相关联,或通过某些不可测预后因素 U 导致某些可测因素 L(如某些随访症状)。当我们认为研究中的协变量集 X 足以涵盖所有可测因素 L 时,则可以阻断 Y-C 之间的后门路径从而校正缺失带来的偏倚,此时缺失机制满足 MAR 假设。
当协变量集 X 满足条件后,则可以使用 IPCW 校正缺失。首先计算后门路径中选择进入未缺失 C=0 的概率 ,则结局未缺失人群的逆概率权重为:
![]() |
相应的,缺失人群的逆概率权重 。此时,未缺失结局的因果识别条件为
⫫
,即给定 X 和 A 的联合分布后未缺失人群的反事实结局独立于缺失本身。
其后将逆概率权重加权至每一个未缺失个体的结局中,通过 H-T 估计量(Horvitz-Thompson estimator)可给出被估量的一致估计[17]:
![]() |
即为未缺失个体加权校正后的结局,其后可估计干预组和对照组的因果效应:
![]() |
在实际使用 IPCW 时,通常会采用模型法进行估计:① 首先通过 logistic 回归估计缺失选择概率,此时自变量为全部协变量 X 和干预 A,因变量为缺失变量 C=0。其后用建立好的 logistic 回归模型将缺失选择概率预测出来,则缺失逆概率 WC 等于 1 除以缺失选择概率。② 对干预 A 建立边际结构模型(marginal structural model),并使用加权最小二乘法将缺失逆概率 WC 加权至模型中,则可估计出最终校正缺失后的结果。
此外,还可用稳健逆概率权重(stabilized inverse probability weights)进行加权估计,即:
![]() |
稳健权重的好处是在非饱和模型中可估计出更窄的置信区间,因此统计效率更高。
4.2 多重插补法
多重插补法并不是某一个具体的方法,而是代指一种处理缺失数据的框架或思路,多重插补的意义在于可以校正简单插补带来的估计偏差和推断偏差,即可以解释插补本身带来的不确定性。例如有协变量集 X、观测集 和缺失集
(未观测),当用 X 对 Y 进行回归插补时,缺失集
的值会依据 X 对
回归模型进行预测,当 X 满足 MAR 条件时,这些预测值在期望意义下是最理想的。但事实上,这些预测值是不可能观测到的,因为它忽略了现实中的随机误差。基于这些回归插补值进行估计和推断时也会存在相应偏差。因此,多重插补的最终目的是总体效应参数的无偏估计(unbiased)以及区间的有效估计(confidence valid)[18, 19]。
假设有总体参数 μ,通常可直接通过某一无偏估计量 进行估计,然而
需要依据全部数据 Y 进行估计,此时仅有观测数据
,因此估计量
可表示为给定
时 μ 的后验分布:
,然而这个分布是无法直接估计的,因此需要分解为:
![]() |
其中 即是插补的过程,记插补后数据为
,则
表示为通过插补数据集对总体参数 μ 进行估计的过程。当我们重复这个插补-估计过程,则 μ 的后验分布均值可表示为:
![]() |
即多次重复插补-估计过程后,每次估计量 的均值。同理,可估计参数 μ 的后验方差分布:
![]() |
其中右边第一部分被称为重复插补内方差,即每次插补中参数方差的均值,第二部分被称为重复插补间方差,即每次插补参数均值与总体参数均值间的离均方差。
上述“多次重复插补-估计的过程”被称为多重插补法[20]。
此时可看出多重插补法总是需要一个简单插补模型进行每次的重复插补。然而这个插补模型需要有一定随机性,如果每次插补都是固定的值则无法进行多重插补,例如普通回归、LOCF 或均值中位数等的插补值是固定的,因此不满足要求。通常满足条件的插补模型有随机回归插补(stochastic regression imputation)、预测均值匹配(predictive mean matching,PMM)、贝叶斯插补(Bayesian imputation)、Bootstrap 插补(Bootstrap imputation)、树模型(tree-based model)。
随机回归插补即在普通回归预测值中加入随机扰动。PMM 是通过回归预测值进行匹配,每次会生成一些“待匹配值”,然后对其随机抽样。贝叶斯插补则是直接从参数后验分布中随机抽样。Bootstrap 是从原始数据 中重抽样。树模型与 PMM 相似,只不过回归预测值变为树模型预测节点。这些插补模型中 PMM 和树模型匹配通常更稳健,因为无需服从“无模型指定错误(no model misspecification)”假设,但当缺失数据比例较大或样本量较小时,可能出现重复插补值过多的情况。
除此之外还有一个问题则是多重插补需要重复插补多少次,如果插补次数太少则会引起插补间方差较大,然而次数太多会增加算力及出现效益递减,因此需要进行权衡。Royston 认为如果想估计出更窄的区间则插补数需要至少 20 或更多[21]。Von Hippel 给出了一个经验法则:缺失数据的百分比即为插补次数[22]。事实上,在算力允许的情况下,更多的插补次数总是好的。
4.3 纵向结局缺失问题
在长期随访的 pRCT 中,通常可能出现多时间点测量结局的情况,因此缺失并不仅在某个时间点发生,而是可能发生在结局测量的每一个时间点中,即缺失 C 是一个时变变量(time-varying variable)。更典型的情况是缺失 C 是单调缺失的(monotonic),即如果在 k 时间点上的缺失 Ck=0,那么 C1,C2,C3,…,Ck-1=0。
理论上纵向结局缺失问题同样可通过插补模型解决,即只需将前一时间点的结局 Yk-1 用于 k 时间点的缺失结局 Yk 的插补中。然而需要注意缺失 C 的时变属性可能更容易导致协变量集 X 中存在冲撞变量 L,如图 2 所示。若通过 L 校正缺失,如回归插补,则产生新的选择偏倚,即打开后门路径 A→L←U→Y。此时常规校正方法失效,需要采用 g 方法校正缺失,即逆概率加权法。有别于前述 IPCW 的是此处缺失为时变变量,因此需将逆概率权重拓展为多时间点的权重乘积:
![]() |
同理,在模型估计时,先对每个时间点的缺失 C 进行 logistic 回归算出逆概率权重,然后使用加权最小二乘法构造边际结构模型进行最终效应估计。
此外,当结局为连续性变量时,可采取混合效应模型(mixed effect model),则无需对结局进行插补。在满足 MAR 假设时,模型通过对其他时间点的数据进行联合估计即可得到最终效应。混合效应模型通常采用似然法进行估计,包括最大似然、限制性最大似然、Kackar-Harville 法、Kendward-Roger 法等。
4.4 多重插补和逆概率加权
多重插补和逆概率加权作为处理结局缺失的两个最重要的方法,各有利弊。多重插补直接对缺失数据的分布建模,因此可以同时处理协变量部分缺失的情况,即多元缺失数据问题(multivariate missing data)。此时插补模型通常分为两种:联合模型(joint model,JM)和全条件指定法(fully conditional specification,FCS)。JM 法是直接对多元缺失数据的联合分布进行建模,通常采用多元正态分布。FCS 法则是单独对每一个缺失变量的条件分布进行建模,然后通过迭代的方法进行计算,此方法又被称为链式方程法(chained equations),因此通过链式方程的多重插补被简称为 MICE 法(multivariate imputation by chained equations)[23]。
逆概率加权作为 g 方法的一种,可处理协变量 X 中存在冲撞变量 L 的情形,而其他方法在此情形下失效。逆概率加权还可以进行联合建模,比如通过干预逆概率权重和删失逆概率权重的联合分布同时处理混杂和选择偏倚,并均可拓展至具有时变属性的变量中,有很大的灵活性。
4.5 生存结局缺失
生存结局也被称为时间-事件结局(time to event outcome),其特点在于除了考虑随访期间事件是否发生以外还需要考虑其在多长时间内发生。生存结局中的缺失数据又被称为删失(censoring),其特殊点在于它天然需要考虑两类删失:管理性删失(administrative censoring)和非管理性删失(non-administrative censoring)。非管理性删失即是本文所论述的结局缺失类型,其发生在随访终点之前,由于各种未知原因出现结局缺失,如失访等。管理性删失为因研究者自身的原因而导致的结局删失(而非受试者原因),通常发生在研究结束时研究者中断后续随访以致后续结局无法观测,也被称为右删失(right censoring)。其特点为需要对在随访终点还未发生事件的人群的生存时间进行指定,而这主要是生存分析模型所解决的问题,比如给定生存时间分布(或风险分布)假设。常规处理生存结局的统计方法大体分为非参数法:包括 Kaplan-Meier 估计量、生命表法(life-table method)、Nelson-Aalen 估计量、Aalen-Johansen 估计量;半参数法:包括 Cox 比例风险(proportional hazards,PH)模型、半参数加速失效时间模型(accelerated failure time,AFT);参数法:包括基于威布尔分布(Weibull distribution)的参数 AFT 模型、基于 logistic 回归的平滑时间风险模型(smooth-in-time hazard model)、Gompertz 模型。
然而,正是因为上述模型直接对管理性删失或生存时间建模,一种错误的观点认为它们同时也可以处理非管理性删失。事实上,若统计分析时不做特别处理,比如采用标准 Cox 模型,则非管理性删失同样会被当成管理性删失处理,即默认满足无信息删失(non-informative censoring)假设。而如前所述,非管理性删失通常并非是无信息的,更多的原因是患者因不良事件等试验相关因素而删失,此时如将其当成无信息删失会产生相应偏倚。
因此,在随机试验的生存分析中,需要将管理、非管理性删失分开考虑,对于管理性删失可采用常规生存分析模型处理,而非管理性删失可采用本文推荐的逆概率加权和多重插补法处理。其中逆概率加权方法可以依据前述纵向结局删失中的时变删失变量处理,此处不再赘述。而多重插补法在此处比较特殊,因为需要插补的数据是生存时间这一特殊数据类型。通常有 3 种生存时间的插补策略[24, 25]:① 风险集插补(risk set imputation),即对于每一个删失结局均构造一个风险集,然后随机从中抽取一个生存时间进行插补;② Kaplan–Meier 插补,即在上述构造风险集的基础上,使用其构造 Kaplan–Meier 生存曲线,然后从生存曲线中随机抽取生存时间进行插补;③ 风险值匹配法(risk score matching),即通过拟合参数模型为每一个删失结局计算一个风险值,然后与未删失结局的风险值进行匹配,依近邻原则选出匹配候选集,从中随机抽样。
此外,还有一种特殊的非管理性删失类型,即竞争风险事件(competing event)。例如目标结局为某些疾病(如糖尿病)的发病,此时死亡即是竞争风险事件,发生死亡事件的个体的原目标事件失效时间(failure time)无穷大,导致原结局分析结果发生偏离。在风险模型中,传统上有两种处理方法:指定原因风险模型(cause-specific hazard model)、部分分布风险模型(subdistribution hazard model)。但无论哪种模型均受前述选择偏倚的影响,依然需要进行协变量校正,此时可选用删失逆概率加权的方法。需要注意的是,当出现竞争风险事件时,无论哪一种方法都不能完美回答原目标结局的问题,因此解释结果时应更加谨慎。
5 讨论
对于随机试验而言,质控都是至关重要的;良好质控下随机试验的结果可信度较高,被认为是最佳证据的来源。质控中非常重要的一个环节就是尽可能减少缺失数据的存在,尤其对于重要结局而言。事实上,相应的质控规范已经较为完善,然而无论质控做的再好,也无法避免因各种未知因素而导致的结局缺失,且由于试验相关因素的存在,结局缺失通常伴随着不同偏倚的产生,从而严重影响研究结论[26-28]。
尽管对于随机试验结局缺失是非常重要的问题,大多数研究却缺少针对如何处理缺失数据的论述[6],并默认使用完全数据集分析的方法,或使用一些简单插补的方法如 LOCF、均值插补等,且没有详尽论述为什么选择这些方法。对于大多数试验而言,简单的数据处理方法均可能产生偏倚,除非有强有力的论点说明其背后的假设(MCAR)成立,否则这样的选择并不可取。
逆概率加权和多重插补是目前处理结局缺失的方法中最重要且最灵活的两种方法。逆概率加权是对缺失变量的选择概率建模,通过逆概率权重构造假如未缺失时结局的效应。此方法可应用于各种特定模型,如处理生存数据时可采用逆概率加权 Cox 模型。也可以拓展至时变变量中,通过拟合多时间点逆概率权重的乘积进行建模。
多重插补的思路来源于给定观测数据后总体参数条件分布的贝叶斯分解,非常巧妙地将缺失数据考虑在其中。多重插补的灵活性在于可以使用任意插补模型,包括一些非参数插补法,如 PMM、树模型等,这些方法不受模型函数指定的限制,稳健性更好。除此之外,多重插补可以同时处理多元缺失数据问题,如联合模型、全条件指定,但所需要的假设也更强。
无论采用何种统计处理方法,其背后均需要满足相应假设,如 MAR。在 pRCT 中,基线数据及随访数据通常会收集的更全,更容易满足 MAR 假设。然而,无论数据收集的再多,这些假设依然不可验证,因此,需要结合专业知识对其进行详细论证并在文章中体现,如此可增加研究的透明性,也可让后来的研究者进一步判断或提出质疑,并进行改进。此外,针对不同假设应当做相应的敏感性分析,以确保结果在不同假设下的稳健性。
综上,目前随机试验对结局缺失的处理并不理想,有很大改进的空间,其中除尽可能做好质控以外,恰当的统计分析方法也是至关重要的。当结局缺失比例较低或可以论证缺失机制满足 MCAR 假设时,可以选用完整数据集分析。当结局缺失比例较高且缺失机制不满足 MCAR 时,首先尽可能收集与缺失相关的协变量集,然后对缺失机制的 MAR 假设是否成立进行详细论证说明,最后依据具体情况选择结局缺失的处理方法。若除结局缺失以外还需要解决其他协变量缺失问题,则可以选用多重插补法。若需处理纵向结局中的时变变量缺失,则可以选用逆概率加权法。然而,无论采用任何方法均依赖特定的假设前提,因此,对试验设计和过程详尽的论述是保证研究质量和透明性的关键。