固定效应模型的假设前提是各项研究的真实效应值是相同的,而随机效应模型的假设前提是各项研究的真实效应呈正态分布。随机效应模型下总方差是研究内方差与研究间方差之和,而研究间方差的估算方法有多种,各有优缺点。本文简要介绍随机效应模型试验序贯分析中研究间方差的估算方法,并对其进行比较研究。
引用本文: 翁鸿, 蔡林, 吴开杰, 方程, 曾光, 曾宪涛. 随机效应模型试验序贯分析中研究间方差估算方法的比较研究. 中国循证医学杂志, 2017, 17(3): 369-372. doi: 10.7507/1672-2531.201607063 复制
试验序贯分析(trial sequential analysis,TSA)被用来检验 Meta 分析的结论是否“足够”、“充足”[1]。在 TSA 软件中提供了 DerSimonian-Laird 法(DL 法)、Sidik-Jonkman 法(SJ 法)和 Biggerstaff-Tweedie 法(BT 法)来进行随机效应模型的方差估计[2]。DL 法计算方法较为简便,解释也较为方便,因此最为流行,在众多 Meta 分析软件中被应用,如 Revman、Stata 软件等[3]。这些估算方法各有优缺点,本文主要介绍这些估算方法,并对其进行比较研究。
1 固定效应模型和随机效应模型
1.1 固定效应模型
固定效应模型下,假设所有纳入研究的真实效应值相同,即影响各纳入研究效应值大小的因素相同。假设共有 k 个研究,真实效应值用 θi 表示,观察效应值用 Yi 表示,抽样误差为 ε,i 表示纳入研究(i=1,2,…k),则有:
${{\rm{Y}}_{\rm{i}}} = {{\rm{\theta }}_{\rm{i}}} + {{\rm{\varepsilon }}_{\rm{i}}}$ |
固定效应模型 Meta 分析的权重为 , 为研究 i 的研究内方差,加权均值 M 的计算公式为:
${\rm{M}} = \frac{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {{\rm{W}}_{\rm{i}}}{{\rm{Y}}_{\rm{i}}}}}{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {{\rm{W}}_{\rm{i}}}}}$ |
合并结果的方差为 ,其标准误为 ,合并结果的 95% 可信区间(CI)为 ,推断真实效应值 θ 是否为 0 的假设检验统计量 。
1.2 随机效应模型
随机效应模型下,假设所有纳入研究的真实效应值是正态分布的。假设共有 k 个研究,真实效应值用 θi 表示,给定总均值为 μ,观察效应值用 Yi 表示,抽样误差为 εi,研究的真实效应值与给定的总均值的差值为 ξi,i 表示纳入研究(i=1,2,…k),则有:
${{\rm{Y}}_{\rm{i}}} = {\rm{\mu }} + {{\rm{\xi }}_{\rm{i}}} + {{\rm{\varepsilon }}_{\rm{i}}}$ |
ξi 表示从 μ 到 θi 的距离,其依赖于不同研究真实效应值分布的标准差(即 τ),方差即为 τ2,即研究间方差。在 TSA 分析中估计的样本研究间方差表示为 。εi 为真实效应值(θi)到观察值(Yi)之间的距离。
为了与固定效应模型区别,采用星号(*)表示随机效应模型。在随机效应模型下,每个研究的权重为 , 是研究 i 间的方差 加上研究 i 内的方差( ),加权后的均值 M* 的计算公式为:
${{\rm{M}}^{\rm{*}}} = \frac{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {\rm{W}}_{\rm{i}}^{\rm{*}}{{\rm{Y}}_{\rm{i}}}}}{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {\rm{W}}_{\rm{i}}^{\rm{*}}}}$ |
合并结果的方差为 ,其标准误为 ,其 95%CI 为 ,真实效应值 θ 是否为 0 的假设检验统计量 。权重的计算与总方差有关,而在随机效应模型下,总方差等于研究间方差与研究内方差之和,因此,研究间方差的不同估算可以影响 Meta 分析的合并结果。
2 估算方法
2.1 DL 法
DL 法由 DerSimonian 和 Laird 于 1986 年提出[4],是目前最为流行的估算方法,其公式为:
${\rm{\hat \tau }}_{{\rm{DL}}}^2 = {\rm{max}}\left\{ {0,\;\frac{{\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_\rm {i}}{{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{Y}}_{\rm{W}}}} \right)}^2} - \left( {{\rm{k}} - 1} \right)}}{{\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}} - \mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}}^2/\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}}}}} \right\}$ |
其中 , 。该方法的优点是计算简便且易于解释。但越来越多的研究表明,DL 法易于低估研究间方差[5-9]。
2.2 SJ 法
SJ 法由 Sidik 和 Jonkman 提出[5,6],也被称为模型误差方差法(model error variance,MV)。该方法较为简单,基于干预措施效应观察值总方差的再参数化,其公式为:
${\rm{\hat \tau }}_{{\rm{SJ}}}^2 = \mathop \sum \nolimits^ {{\rm{v}}_{\rm{i}}}{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{\mu }}_0}} \right)^2}/\left( {{\rm{k}} - 1} \right)$ |
其中 , , 为研究间方差的起始估计值,定义为:
${\rm{\tau }}_0^2 = \sum {{{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{\mu }}_{{\rm{uw}}}}} \right)}^2}/{\rm{k}}} $ |
其中 μuw 为观察效应值的非加权均数,μ0 为采用 作为研究间方差进行加权后的随机效应模型效应值。当纳入研究间有中到高度异质性时,与 DL 法比较,该方法不易于低估研究间方差[10]。基于 DL 法的 95%CI 的覆盖范围常常低于所需的期望水平[5,7,11,12],而基于 SJ 法的 95%CI 的覆盖范围与所需的期望水平接近[6,13]。模拟研究结果发现,基于 DL法的 95%CI 的覆盖范围为 80%~92%,相当于 8%~20% 的假阳性错误率,远大于传统的 5% 水平[6,13]。
2.3 BT 法
由于多数 Meta 分析的纳入研究数量较少,研究间方差的估计容易受到随机误差的影响[14]。因此,随机效应模型下的合并会受到研究间方差的不确定性的影响。Biggerstaff 和 Tweedie 提出了 BT 法[14],衍生出基于 DL 法估算得到的 的概率分布 fDL,定义研究的权重 ,t 为假设 τ2 所有可能值的变量,使用 fDL 和获得的研究权重将估计 τ2 的不确定性考虑进去。相对于 DL 法,BT 法将权重更多地分配到大型研究。此外,Biggerstaff和 Tweedie 还提出了对 Meta 分析干预效应方差的校正公式,TSA 软件使用该方法提供 TSA 校正置信区间[2]。
3 不同方法估算示例
我们采用 15 项关于急性心肌梗死后静脉应用镁离子对病死率影响的临床试验为例,数据格式如表 1 所示。

我们采用 TSA 软件 0.9β 版本进行分析。结果如表 2 所示,WFEM 为固定效应模型下各研究的权重,WDL、WSJ、WBT 分别为随机效应模型 DL 法、SJ 法、BT 法计算的各纳入研究的权重。在固定效应模型下,样本量大的研究所给予的权重较大,如 ISIS-4 的权重为 89.742%、LIMIT-2 的权重为 5.035%,其他研究的权重均小于 1%;而随机效应模型下,基于 DL 法估算的 ISIS-4 的权重为 17.218%,LIMIT-2 的权重 15.806%,其他研究的权重均在 1.7%~9.9% 之间;基于 SJ 法估算的 ISIS-4 的权重为 14.546%,LIMIT-2 的权重 13.728%,其他研究的权重均在 2.1%~9.7% 之间;基于 BT 法估算的 ISIS-4 的权重为 79.084%,LIMIT-2 的权重 7.749%,其他研究的权重均在 0.3%~2.2% 之间。

DL 法、SJ 法、BT 法三种方法估算的 τ2 分别为 0.228、0.343、0.228(表 3)。结果显示,与 DL 法比较,SJ 法估算的 τ2 值较高,而 BT 法与 DL 法结果相近。此外,我们还出给了异质性的指标 I2 以及 TSA 中的差异指标 D2。这三种方法下异质性指标 I2 值相同,但差异指标 D2 不同,DL 法、SJ 法、BT 法下的 D2 分别为 0.976、0.981、0.864,SJ 法下 D2 值最大。而 D2 值与差异校正信息量的计算有关,因此,在 SJ 法下,TSA 的所需信息量也较其他两种方法大。

4 小结
这些估算研究间方差的方法各有优缺点。SJ 法和 BT 法都有相对于 DL 的优点,然而在特定的情况下 SJ 法和 BT 法也有其局限性。当研究间异质性为中度时,SJ 法易高估研究间方差,可能会得出较为宽泛的置信区间;BT 法的结果与 DL 法相似,但当纳入研究的样本量差异较大及受到偏倚影响的情况下,BT 法会给予大型研究较多的权重。因此,在实践中,我们可以将这几种方法进行敏感性分析,如果这些方法的结果相似,说明研究结果较为稳定,可信度较高。如果所得结果不同,如 DL 法与 SJ 法结果有差异,那么可能的原因是:(1)该 Meta 分析具有中到高度异质性,而 DL 法低估了研究间方差,产生的置信区间较窄;(2)该 Meta 分析具有较低异质性,SJ 法高估了研究间方差,产生了较宽泛的置信区间[2]。这种情况下,我们应该同时使用这几种方法,然后进行比较,并讨论其可能的原因,并探索真实的情况。
试验序贯分析(trial sequential analysis,TSA)被用来检验 Meta 分析的结论是否“足够”、“充足”[1]。在 TSA 软件中提供了 DerSimonian-Laird 法(DL 法)、Sidik-Jonkman 法(SJ 法)和 Biggerstaff-Tweedie 法(BT 法)来进行随机效应模型的方差估计[2]。DL 法计算方法较为简便,解释也较为方便,因此最为流行,在众多 Meta 分析软件中被应用,如 Revman、Stata 软件等[3]。这些估算方法各有优缺点,本文主要介绍这些估算方法,并对其进行比较研究。
1 固定效应模型和随机效应模型
1.1 固定效应模型
固定效应模型下,假设所有纳入研究的真实效应值相同,即影响各纳入研究效应值大小的因素相同。假设共有 k 个研究,真实效应值用 θi 表示,观察效应值用 Yi 表示,抽样误差为 ε,i 表示纳入研究(i=1,2,…k),则有:
${{\rm{Y}}_{\rm{i}}} = {{\rm{\theta }}_{\rm{i}}} + {{\rm{\varepsilon }}_{\rm{i}}}$ |
固定效应模型 Meta 分析的权重为 , 为研究 i 的研究内方差,加权均值 M 的计算公式为:
${\rm{M}} = \frac{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {{\rm{W}}_{\rm{i}}}{{\rm{Y}}_{\rm{i}}}}}{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {{\rm{W}}_{\rm{i}}}}}$ |
合并结果的方差为 ,其标准误为 ,合并结果的 95% 可信区间(CI)为 ,推断真实效应值 θ 是否为 0 的假设检验统计量 。
1.2 随机效应模型
随机效应模型下,假设所有纳入研究的真实效应值是正态分布的。假设共有 k 个研究,真实效应值用 θi 表示,给定总均值为 μ,观察效应值用 Yi 表示,抽样误差为 εi,研究的真实效应值与给定的总均值的差值为 ξi,i 表示纳入研究(i=1,2,…k),则有:
${{\rm{Y}}_{\rm{i}}} = {\rm{\mu }} + {{\rm{\xi }}_{\rm{i}}} + {{\rm{\varepsilon }}_{\rm{i}}}$ |
ξi 表示从 μ 到 θi 的距离,其依赖于不同研究真实效应值分布的标准差(即 τ),方差即为 τ2,即研究间方差。在 TSA 分析中估计的样本研究间方差表示为 。εi 为真实效应值(θi)到观察值(Yi)之间的距离。
为了与固定效应模型区别,采用星号(*)表示随机效应模型。在随机效应模型下,每个研究的权重为 , 是研究 i 间的方差 加上研究 i 内的方差( ),加权后的均值 M* 的计算公式为:
${{\rm{M}}^{\rm{*}}} = \frac{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {\rm{W}}_{\rm{i}}^{\rm{*}}{{\rm{Y}}_{\rm{i}}}}}{{\mathop \sum \nolimits_{{\rm{i}} = 1}^{\rm{k}} {\rm{W}}_{\rm{i}}^{\rm{*}}}}$ |
合并结果的方差为 ,其标准误为 ,其 95%CI 为 ,真实效应值 θ 是否为 0 的假设检验统计量 。权重的计算与总方差有关,而在随机效应模型下,总方差等于研究间方差与研究内方差之和,因此,研究间方差的不同估算可以影响 Meta 分析的合并结果。
2 估算方法
2.1 DL 法
DL 法由 DerSimonian 和 Laird 于 1986 年提出[4],是目前最为流行的估算方法,其公式为:
${\rm{\hat \tau }}_{{\rm{DL}}}^2 = {\rm{max}}\left\{ {0,\;\frac{{\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_\rm {i}}{{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{Y}}_{\rm{W}}}} \right)}^2} - \left( {{\rm{k}} - 1} \right)}}{{\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}} - \mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}}^2/\mathop \sum \nolimits_{\rm{i}} {{\rm{W}}_{\rm{i}}}}}} \right\}$ |
其中 , 。该方法的优点是计算简便且易于解释。但越来越多的研究表明,DL 法易于低估研究间方差[5-9]。
2.2 SJ 法
SJ 法由 Sidik 和 Jonkman 提出[5,6],也被称为模型误差方差法(model error variance,MV)。该方法较为简单,基于干预措施效应观察值总方差的再参数化,其公式为:
${\rm{\hat \tau }}_{{\rm{SJ}}}^2 = \mathop \sum \nolimits^ {{\rm{v}}_{\rm{i}}}{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{\mu }}_0}} \right)^2}/\left( {{\rm{k}} - 1} \right)$ |
其中 , , 为研究间方差的起始估计值,定义为:
${\rm{\tau }}_0^2 = \sum {{{\left( {{{\rm{Y}}_{\rm{i}}} - {{\rm{\mu }}_{{\rm{uw}}}}} \right)}^2}/{\rm{k}}} $ |
其中 μuw 为观察效应值的非加权均数,μ0 为采用 作为研究间方差进行加权后的随机效应模型效应值。当纳入研究间有中到高度异质性时,与 DL 法比较,该方法不易于低估研究间方差[10]。基于 DL 法的 95%CI 的覆盖范围常常低于所需的期望水平[5,7,11,12],而基于 SJ 法的 95%CI 的覆盖范围与所需的期望水平接近[6,13]。模拟研究结果发现,基于 DL法的 95%CI 的覆盖范围为 80%~92%,相当于 8%~20% 的假阳性错误率,远大于传统的 5% 水平[6,13]。
2.3 BT 法
由于多数 Meta 分析的纳入研究数量较少,研究间方差的估计容易受到随机误差的影响[14]。因此,随机效应模型下的合并会受到研究间方差的不确定性的影响。Biggerstaff 和 Tweedie 提出了 BT 法[14],衍生出基于 DL 法估算得到的 的概率分布 fDL,定义研究的权重 ,t 为假设 τ2 所有可能值的变量,使用 fDL 和获得的研究权重将估计 τ2 的不确定性考虑进去。相对于 DL 法,BT 法将权重更多地分配到大型研究。此外,Biggerstaff和 Tweedie 还提出了对 Meta 分析干预效应方差的校正公式,TSA 软件使用该方法提供 TSA 校正置信区间[2]。
3 不同方法估算示例
我们采用 15 项关于急性心肌梗死后静脉应用镁离子对病死率影响的临床试验为例,数据格式如表 1 所示。

我们采用 TSA 软件 0.9β 版本进行分析。结果如表 2 所示,WFEM 为固定效应模型下各研究的权重,WDL、WSJ、WBT 分别为随机效应模型 DL 法、SJ 法、BT 法计算的各纳入研究的权重。在固定效应模型下,样本量大的研究所给予的权重较大,如 ISIS-4 的权重为 89.742%、LIMIT-2 的权重为 5.035%,其他研究的权重均小于 1%;而随机效应模型下,基于 DL 法估算的 ISIS-4 的权重为 17.218%,LIMIT-2 的权重 15.806%,其他研究的权重均在 1.7%~9.9% 之间;基于 SJ 法估算的 ISIS-4 的权重为 14.546%,LIMIT-2 的权重 13.728%,其他研究的权重均在 2.1%~9.7% 之间;基于 BT 法估算的 ISIS-4 的权重为 79.084%,LIMIT-2 的权重 7.749%,其他研究的权重均在 0.3%~2.2% 之间。

DL 法、SJ 法、BT 法三种方法估算的 τ2 分别为 0.228、0.343、0.228(表 3)。结果显示,与 DL 法比较,SJ 法估算的 τ2 值较高,而 BT 法与 DL 法结果相近。此外,我们还出给了异质性的指标 I2 以及 TSA 中的差异指标 D2。这三种方法下异质性指标 I2 值相同,但差异指标 D2 不同,DL 法、SJ 法、BT 法下的 D2 分别为 0.976、0.981、0.864,SJ 法下 D2 值最大。而 D2 值与差异校正信息量的计算有关,因此,在 SJ 法下,TSA 的所需信息量也较其他两种方法大。

4 小结
这些估算研究间方差的方法各有优缺点。SJ 法和 BT 法都有相对于 DL 的优点,然而在特定的情况下 SJ 法和 BT 法也有其局限性。当研究间异质性为中度时,SJ 法易高估研究间方差,可能会得出较为宽泛的置信区间;BT 法的结果与 DL 法相似,但当纳入研究的样本量差异较大及受到偏倚影响的情况下,BT 法会给予大型研究较多的权重。因此,在实践中,我们可以将这几种方法进行敏感性分析,如果这些方法的结果相似,说明研究结果较为稳定,可信度较高。如果所得结果不同,如 DL 法与 SJ 法结果有差异,那么可能的原因是:(1)该 Meta 分析具有中到高度异质性,而 DL 法低估了研究间方差,产生的置信区间较窄;(2)该 Meta 分析具有较低异质性,SJ 法高估了研究间方差,产生了较宽泛的置信区间[2]。这种情况下,我们应该同时使用这几种方法,然后进行比较,并讨论其可能的原因,并探索真实的情况。