引用本文: 方晗语, 张洪春, 洪政, 李舍予, 刘建平, 张颖. 敏感性分析的E值应用进展及解读. 中国循证医学杂志, 2022, 22(8): 988-992. doi: 10.7507/1672-2531.202202006 复制
敏感性分析通常用于探索研究结果的稳健性,是一种通过改变方法、模型、未测量的变量值、分布假定等来评价结果的可改变程度,以确定评估方法稳健性的方法。常见的敏感性分析方法,包括基于不同的统计分析数据集(如全分析集、符合方案集等)进行分析、采用不同的数据分布假定、使用不同的统计模型或在模型中纳入不同的协变量探索回归系数的改变量等。相比于随机对照试验,观察性研究(observational study)中的敏感性分析主要用于考虑可能的混杂因素的影响。由于观察性研究并未通过随机化分组等方法实现已观察到的和未观察到的潜在诸多混杂(confounding)因素的组间平衡,因此,观察性研究中的关联关系(association)到因果关系(causation)的推断面临更多的挑战。
1 观察性研究中的因果推断和敏感性分析
在观察性研究中,除暴露因素(如治疗、病史等)与疾病发生的相关程度外,未测量或未校正的混杂因素可能同时与暴露和结局相关,从而为暴露和结局之间的关联引入混杂偏倚,即低估或高估所研究因素与疾病之间的真实联系。目前对混杂偏倚的处理方式,多通过统计分析技术,控制研究中观察到的混杂因素,获得校正后的关联效应,如通过多因素Logistic回归,可获得校正后的OR(odds ratio,比值比);使用多因素Cox回归,得到校正后的HR(hazard ratio,风险比)等。在校正过程中,可尝试纳入不同变量,比较模型之间差异,以确定结果的稳健性。亚组分析或者剔除/纳入离群值也是敏感性分析的常用方法。在研究设计阶段,匹配技术可使得研究者事先对已知的部分混杂因素进行匹配,获得匹配因素上的均衡。然而,以上方法均只实现了对已测量的混杂因素的控制,仍不能排除未测量或者未控制的混杂因素的影响[1]。由于对未测量到的混杂因素的不可获知,当前所得到的关联关系是否充分和完备,依然无法确定。E值是一种新的敏感性分析方法,被认为能够灵活运用于研究中,探索未测量的混杂因素与结局关联关系的影响。既往敏感性分析技术面临假设过于简化的问题[2],而针对未测量混杂因素的控制方法尚在探索阶段,目前常用的方法包括工具变量法(instrumental variable)、双重差分模型(difference-in-differences,DiD)、本底事件率比校正法(prior event rate ratio adjustment,PERR)等,且受限于各方法的应用条件尚未在实际应用中广泛推广[3]。而作为新的敏感性分析方法,E值无需对变量的分布和个数进行限定,应用较为灵活。
2 E值和计算方法
为开发一种简单而直观的工具来满足对强假设的需求,Ding和VanderWeel[2]首次提出了一种新的用于观察性研究的敏感性分析技术—E值,其是以危险比(risk ratio,RR)对假设的未知混杂因素能够将研究结果(即RR值)解释掉的最小关联强度进行预测[3]。换言之,评估暴露因素与结局指标之间关联的稳健程度;也可评估暴露因素与结局指标的关联性因未测量的混杂因素而被低估的关联程度。值得注意的是,E值并没有明确界值,因此,不同研究者和读者需要根据专业判断当前E值的大小是否会对目前测量得到的关联构成“威胁”[1]。
E值计算较为简明。当观察到的RR大于1时,计算公式如下:
![]() |
当RR小于1时,则选择RR的倒数来计算相应的E值,因此其最小值为1。E值越高,则需要未测量的混杂因素和暴露及结局之间具有更强的关联才能解释所观察到的关联效应。根据RR值的置信区间,采用上述公式,也可计算相应E值的置信区间。
E值取决于测量的协变量,并根据分析中使用的风险比等级进行计算。当效应量采用OR且结果相对罕见(人群中患病率低于15%)时,计算公式如下:
![]() |
上述也适用于置信区间(confidence interval,CI)参数。对于CI的下限(LL)低于或等于1的情况,E值被认为是1;否则,E值计算公式如下:
![]() |
对于较大E值,未测量的混杂因素将需要相当大的影响来完全解释效应估计。相反,较小E值表明较小的影响已经能够解释效应估计,表明研究变量之间的因果关系较弱。
以E值评估OR的稳健性为例,Nichols等[6]基于真实世界背景下,进行了一个超过2万例的病例-对照研究,以了解在他汀类药物治疗下,低密度脂蛋白胆固醇(low-density lipoprotein cholesterol,LDL-C)水平得到良好控制的高危患者治疗高甘油三酯的潜在受益,即高甘油三酯是否会影响糖尿病患者心血管疾病(cerebrovascular disease,CVD)的发生风险。在敏感性分析中,研究使用了以对数为连接函数的广义线性模型进行分析,校正了多个已知变量,同时使用了E值评估OR的稳健性,高甘油三酯水平与非致命性心肌梗死、非致命性卒中和血运重建关联的OR对应的E值分别为1.92、1.76和1.71。E值越大越表明不太可能存在未观察到的混杂因素可影响当前的关联。因此,E值也与研究的关联稳健性呈正相关,即E值越大,提示支持存在因果关系的证据更为有力。
考虑到应用的便利性,Mathur等[7]提供了用于计算E值的“R程序包”和在线E值计算器(https://www.evalue-calculator.com),可针对各类结局计算E值,包括RR、OR、风险差异(risk difference,RD)和标准均值差(standardized mean difference,SMD)等,并可同时绘制函数图。
3 E值在各类研究中的应用
通过在PubMed数据库中先后使用“E-value”作为关键词进行标题和摘要检索及关键论文被引检索,筛选了2016—2021年期间使用E值进行敏感性分析的文献,共纳入279篇,各类研究类型的文献数量和构成比见表1。

从结果中可知,E值分析被广泛应用于观察性研究中,其中以队列研究为主,共215个,占总数量的76.8%。在队列研究中,以慢病管理相关疾病居多,通常以心脑血管疾病为代表的慢病观察性研究,因混杂因素更为复杂,E值的应用能为研究结果的稳健性分析提供补充。如Fisher等[8]进行的一个队列研究,旨在探究减肥手术与严重肥胖合并2型糖尿病患者大血管事件(冠状动脉疾病和脑血管疾病)的发生关系。研究者们使用Cox比例风险回归模型,用来研究减肥手术与常规护理(非手术作为对照)和结局之间的关系。结果表明,5年内发生大血管事件的E值的点估计为2.72,说明不太可能存在一个未测量的混杂因素能影响结果稳定性,因为2.72是一个相对较高的关联强度。另一个回顾性队列研究中,Anderson等[9]为评价出院时强化抗高血压治疗方案与出院后临床结局的关系,开展了一个包括4 056例患有高血压的住院老年人的研究,根据其出院时接受的治疗方案,对抗高血压强化治疗组与未接受抗高血压强化组进行平均分配的倾向性匹配队列分析。该研究使用了倾向评分匹配,以控制两组人群的差异和解释已测量的混杂因素,同时针对未测量的混杂因素进行了E值分析,结果显示E值为1.58,即当只有未观察到的混杂和暴露及结局之间的关联达到1.58,才可能完全解释目前观察到的强化抗高血压药物治疗方案和再住院之间的关联。因此,出院时抗高血压方案的强化与再入院和药物相关不良事件的短期风险增加有关,从而验证了结论的稳健性:在老年人因非心脏病住院期间应避免加强门诊抗高血压治疗方案。
在横断面研究中,E值的使用也很多,如Fuertes等[10]研究了血液中C-反应蛋白(全身炎症的常见标志物)在体力活动与1秒用力呼气量(forced expiratory volume in one second,FEV1)和用力肺活量(forced vital capacity,FVC)的关系中的作用。该研究使用了线性回归来估计中介模型和结果模型(the mediator and outcome models),同时计算间接效应、直接效应和总效应的E值,用于估计未测量的混杂因素与暴露(体育活动)和结果(肺功能)之间的最小关联强度,FEV1的E值为1.19,FVC的E值为1.14,这与较弱的风险比加上未知的混杂因素有关。在调整所有观察到的混杂因素后,基于全人群计算的E值为1.30,故认为没有证据表明体力活动对肺功能的影响是通过C-反应蛋白水平的变化来实现的。
此外,我们还检索到有16个Meta分析和4个临床随机对照试验应用了E值。Petridou等[11]在一个关于母亲和父亲的高龄与儿童急性淋巴细胞白血病的危险因素相关的Meta分析中,纳入11个病例-对照研究和5个巢式病例-对照研究。分析结果显示,父亲年龄的增加与儿童期急性淋巴细胞白血病的高风险相关[每增加5岁的合并后OR=1.08,95%CI(1.04,1.11)],E值为1.6。
在随机对照试验中,以Marsden等[12]的一个关于使用记忆聚焦认知治疗(memory-focused cognitive therapy,MFCT)治疗可卡因使用障碍(cocaine use disorder,CUD)的随机对照试验为例。CUD是指使用可卡因上瘾后对人造成深远的心理障碍,因此该人群很难戒断可卡因。该研究采用了一个多元回归分析,包括性别、年龄、基线得分及与主要和次要结局相关的最强混杂因素;作为对模型的敏感性分析,该研究还计算了E值,E值为2.30。可卡因戒断日百分比(percentage days abstinent,PDA)和持续戒断最长时间[longest period(days)of continuous abstinence,LPA]的E值分别为1.57和1.26,这表明可能存在未测量的混杂因素会影响当前观察到的干预和结果之间的关联。
E值作为一种帮助加强因果推论的敏感性分析工具[5],与当前常用的控制未知混杂因素的方法相比,具有明显应用优势。工具变量法(instrumental variable)是Wright在1928年首次提出,工具变量需要满足3个条件:与所研究的干预相关;与结局无关,仅通过干预因素影响结局;独立于混杂因素。但是在实际应用[13-15]中,这3个条件极大限制了工具变量法使用与推广。Ashenfelter[16]于1976年提出DiD模型,该方法将观察组前后差异和对照组前后差异进行比较,从而扣除混杂因素。但使用DiD模型也需要满足3个假设:干预措施对对照组不产生影响;干预之外的因素对观察组和对照组的影响相同;观察组和对照组中观察单位的某些特征不随时间变化。PERR的基本思想和DiD类似,适用于时间-事件(time to event)数据或率。近年来以上方法在观察性研究领域中得到了重视与应用[17-21],但无论是DiD还是PERR,在应用时都需要收集干预前不同分组的信息,对于观察性研究是一个现实挑战[22]。
4 E值的相关争议及其应用价值探讨
目前E值使用仍存在争议。E值使用并不能直接得出研究的稳健性结论,并且在稳健与不稳健的报道中存在一定程度的重合,即不同的研究对相同的E值可能给出不同的解读。其次,E值的使用仍不能忽略研究中未测量混杂。此外,E值的解读应结合特定的研究背景[23]。
因此,应用E值时,需要注意以下问题:① 影响因果关联的估计因素众多,除混杂偏倚之外的偏倚,例如测量误差和选择偏倚,需要在研究设计阶段给予充分考虑,尽量规避。② E值与效应估计值的大小相关。效果差异越大,E值与其相关性越明显[23]。③ E值在不同研究中可有不同的解释。E值必须在具体疾病的研究范围内进行解释,才能便于实现不同研究间结果的比较[2]。④ E值分析可与其他敏感性分析方法同时使用,和多元回归、多种缺失值填补策略及工具变量等分析技术相互补充,完善对统计结果的稳健性的评估[24]。⑤ E值仅能为暴露和结果之间的关系提供稳健性的证据,但不能用于证明暴露对结果没有效果。
在未来观察性研究的设计中,研究者可依据E值大小,判断文献中报道的效应量是否稳健,进而决定是否有必要使用更保守的估计量。在研究结果的报告中,建议在效应值、95%可信区间和P值之外,报告对应E值,以便于研究者对所观察到的暴露(或影响因素)和结局之间关联的稳健性进行评估。在临床研究指南和证据级别判定的过程中,GRADE指南在观察性研究中重要的证据升级因素之一,是较大效应量(例如效应量>2),E值的报告可对效应量所体现的关联强度辅以佐证,为是否对证据进行升级的决策提供支撑[25]。
敏感性分析通常用于探索研究结果的稳健性,是一种通过改变方法、模型、未测量的变量值、分布假定等来评价结果的可改变程度,以确定评估方法稳健性的方法。常见的敏感性分析方法,包括基于不同的统计分析数据集(如全分析集、符合方案集等)进行分析、采用不同的数据分布假定、使用不同的统计模型或在模型中纳入不同的协变量探索回归系数的改变量等。相比于随机对照试验,观察性研究(observational study)中的敏感性分析主要用于考虑可能的混杂因素的影响。由于观察性研究并未通过随机化分组等方法实现已观察到的和未观察到的潜在诸多混杂(confounding)因素的组间平衡,因此,观察性研究中的关联关系(association)到因果关系(causation)的推断面临更多的挑战。
1 观察性研究中的因果推断和敏感性分析
在观察性研究中,除暴露因素(如治疗、病史等)与疾病发生的相关程度外,未测量或未校正的混杂因素可能同时与暴露和结局相关,从而为暴露和结局之间的关联引入混杂偏倚,即低估或高估所研究因素与疾病之间的真实联系。目前对混杂偏倚的处理方式,多通过统计分析技术,控制研究中观察到的混杂因素,获得校正后的关联效应,如通过多因素Logistic回归,可获得校正后的OR(odds ratio,比值比);使用多因素Cox回归,得到校正后的HR(hazard ratio,风险比)等。在校正过程中,可尝试纳入不同变量,比较模型之间差异,以确定结果的稳健性。亚组分析或者剔除/纳入离群值也是敏感性分析的常用方法。在研究设计阶段,匹配技术可使得研究者事先对已知的部分混杂因素进行匹配,获得匹配因素上的均衡。然而,以上方法均只实现了对已测量的混杂因素的控制,仍不能排除未测量或者未控制的混杂因素的影响[1]。由于对未测量到的混杂因素的不可获知,当前所得到的关联关系是否充分和完备,依然无法确定。E值是一种新的敏感性分析方法,被认为能够灵活运用于研究中,探索未测量的混杂因素与结局关联关系的影响。既往敏感性分析技术面临假设过于简化的问题[2],而针对未测量混杂因素的控制方法尚在探索阶段,目前常用的方法包括工具变量法(instrumental variable)、双重差分模型(difference-in-differences,DiD)、本底事件率比校正法(prior event rate ratio adjustment,PERR)等,且受限于各方法的应用条件尚未在实际应用中广泛推广[3]。而作为新的敏感性分析方法,E值无需对变量的分布和个数进行限定,应用较为灵活。
2 E值和计算方法
为开发一种简单而直观的工具来满足对强假设的需求,Ding和VanderWeel[2]首次提出了一种新的用于观察性研究的敏感性分析技术—E值,其是以危险比(risk ratio,RR)对假设的未知混杂因素能够将研究结果(即RR值)解释掉的最小关联强度进行预测[3]。换言之,评估暴露因素与结局指标之间关联的稳健程度;也可评估暴露因素与结局指标的关联性因未测量的混杂因素而被低估的关联程度。值得注意的是,E值并没有明确界值,因此,不同研究者和读者需要根据专业判断当前E值的大小是否会对目前测量得到的关联构成“威胁”[1]。
E值计算较为简明。当观察到的RR大于1时,计算公式如下:
![]() |
当RR小于1时,则选择RR的倒数来计算相应的E值,因此其最小值为1。E值越高,则需要未测量的混杂因素和暴露及结局之间具有更强的关联才能解释所观察到的关联效应。根据RR值的置信区间,采用上述公式,也可计算相应E值的置信区间。
E值取决于测量的协变量,并根据分析中使用的风险比等级进行计算。当效应量采用OR且结果相对罕见(人群中患病率低于15%)时,计算公式如下:
![]() |
上述也适用于置信区间(confidence interval,CI)参数。对于CI的下限(LL)低于或等于1的情况,E值被认为是1;否则,E值计算公式如下:
![]() |
对于较大E值,未测量的混杂因素将需要相当大的影响来完全解释效应估计。相反,较小E值表明较小的影响已经能够解释效应估计,表明研究变量之间的因果关系较弱。
以E值评估OR的稳健性为例,Nichols等[6]基于真实世界背景下,进行了一个超过2万例的病例-对照研究,以了解在他汀类药物治疗下,低密度脂蛋白胆固醇(low-density lipoprotein cholesterol,LDL-C)水平得到良好控制的高危患者治疗高甘油三酯的潜在受益,即高甘油三酯是否会影响糖尿病患者心血管疾病(cerebrovascular disease,CVD)的发生风险。在敏感性分析中,研究使用了以对数为连接函数的广义线性模型进行分析,校正了多个已知变量,同时使用了E值评估OR的稳健性,高甘油三酯水平与非致命性心肌梗死、非致命性卒中和血运重建关联的OR对应的E值分别为1.92、1.76和1.71。E值越大越表明不太可能存在未观察到的混杂因素可影响当前的关联。因此,E值也与研究的关联稳健性呈正相关,即E值越大,提示支持存在因果关系的证据更为有力。
考虑到应用的便利性,Mathur等[7]提供了用于计算E值的“R程序包”和在线E值计算器(https://www.evalue-calculator.com),可针对各类结局计算E值,包括RR、OR、风险差异(risk difference,RD)和标准均值差(standardized mean difference,SMD)等,并可同时绘制函数图。
3 E值在各类研究中的应用
通过在PubMed数据库中先后使用“E-value”作为关键词进行标题和摘要检索及关键论文被引检索,筛选了2016—2021年期间使用E值进行敏感性分析的文献,共纳入279篇,各类研究类型的文献数量和构成比见表1。

从结果中可知,E值分析被广泛应用于观察性研究中,其中以队列研究为主,共215个,占总数量的76.8%。在队列研究中,以慢病管理相关疾病居多,通常以心脑血管疾病为代表的慢病观察性研究,因混杂因素更为复杂,E值的应用能为研究结果的稳健性分析提供补充。如Fisher等[8]进行的一个队列研究,旨在探究减肥手术与严重肥胖合并2型糖尿病患者大血管事件(冠状动脉疾病和脑血管疾病)的发生关系。研究者们使用Cox比例风险回归模型,用来研究减肥手术与常规护理(非手术作为对照)和结局之间的关系。结果表明,5年内发生大血管事件的E值的点估计为2.72,说明不太可能存在一个未测量的混杂因素能影响结果稳定性,因为2.72是一个相对较高的关联强度。另一个回顾性队列研究中,Anderson等[9]为评价出院时强化抗高血压治疗方案与出院后临床结局的关系,开展了一个包括4 056例患有高血压的住院老年人的研究,根据其出院时接受的治疗方案,对抗高血压强化治疗组与未接受抗高血压强化组进行平均分配的倾向性匹配队列分析。该研究使用了倾向评分匹配,以控制两组人群的差异和解释已测量的混杂因素,同时针对未测量的混杂因素进行了E值分析,结果显示E值为1.58,即当只有未观察到的混杂和暴露及结局之间的关联达到1.58,才可能完全解释目前观察到的强化抗高血压药物治疗方案和再住院之间的关联。因此,出院时抗高血压方案的强化与再入院和药物相关不良事件的短期风险增加有关,从而验证了结论的稳健性:在老年人因非心脏病住院期间应避免加强门诊抗高血压治疗方案。
在横断面研究中,E值的使用也很多,如Fuertes等[10]研究了血液中C-反应蛋白(全身炎症的常见标志物)在体力活动与1秒用力呼气量(forced expiratory volume in one second,FEV1)和用力肺活量(forced vital capacity,FVC)的关系中的作用。该研究使用了线性回归来估计中介模型和结果模型(the mediator and outcome models),同时计算间接效应、直接效应和总效应的E值,用于估计未测量的混杂因素与暴露(体育活动)和结果(肺功能)之间的最小关联强度,FEV1的E值为1.19,FVC的E值为1.14,这与较弱的风险比加上未知的混杂因素有关。在调整所有观察到的混杂因素后,基于全人群计算的E值为1.30,故认为没有证据表明体力活动对肺功能的影响是通过C-反应蛋白水平的变化来实现的。
此外,我们还检索到有16个Meta分析和4个临床随机对照试验应用了E值。Petridou等[11]在一个关于母亲和父亲的高龄与儿童急性淋巴细胞白血病的危险因素相关的Meta分析中,纳入11个病例-对照研究和5个巢式病例-对照研究。分析结果显示,父亲年龄的增加与儿童期急性淋巴细胞白血病的高风险相关[每增加5岁的合并后OR=1.08,95%CI(1.04,1.11)],E值为1.6。
在随机对照试验中,以Marsden等[12]的一个关于使用记忆聚焦认知治疗(memory-focused cognitive therapy,MFCT)治疗可卡因使用障碍(cocaine use disorder,CUD)的随机对照试验为例。CUD是指使用可卡因上瘾后对人造成深远的心理障碍,因此该人群很难戒断可卡因。该研究采用了一个多元回归分析,包括性别、年龄、基线得分及与主要和次要结局相关的最强混杂因素;作为对模型的敏感性分析,该研究还计算了E值,E值为2.30。可卡因戒断日百分比(percentage days abstinent,PDA)和持续戒断最长时间[longest period(days)of continuous abstinence,LPA]的E值分别为1.57和1.26,这表明可能存在未测量的混杂因素会影响当前观察到的干预和结果之间的关联。
E值作为一种帮助加强因果推论的敏感性分析工具[5],与当前常用的控制未知混杂因素的方法相比,具有明显应用优势。工具变量法(instrumental variable)是Wright在1928年首次提出,工具变量需要满足3个条件:与所研究的干预相关;与结局无关,仅通过干预因素影响结局;独立于混杂因素。但是在实际应用[13-15]中,这3个条件极大限制了工具变量法使用与推广。Ashenfelter[16]于1976年提出DiD模型,该方法将观察组前后差异和对照组前后差异进行比较,从而扣除混杂因素。但使用DiD模型也需要满足3个假设:干预措施对对照组不产生影响;干预之外的因素对观察组和对照组的影响相同;观察组和对照组中观察单位的某些特征不随时间变化。PERR的基本思想和DiD类似,适用于时间-事件(time to event)数据或率。近年来以上方法在观察性研究领域中得到了重视与应用[17-21],但无论是DiD还是PERR,在应用时都需要收集干预前不同分组的信息,对于观察性研究是一个现实挑战[22]。
4 E值的相关争议及其应用价值探讨
目前E值使用仍存在争议。E值使用并不能直接得出研究的稳健性结论,并且在稳健与不稳健的报道中存在一定程度的重合,即不同的研究对相同的E值可能给出不同的解读。其次,E值的使用仍不能忽略研究中未测量混杂。此外,E值的解读应结合特定的研究背景[23]。
因此,应用E值时,需要注意以下问题:① 影响因果关联的估计因素众多,除混杂偏倚之外的偏倚,例如测量误差和选择偏倚,需要在研究设计阶段给予充分考虑,尽量规避。② E值与效应估计值的大小相关。效果差异越大,E值与其相关性越明显[23]。③ E值在不同研究中可有不同的解释。E值必须在具体疾病的研究范围内进行解释,才能便于实现不同研究间结果的比较[2]。④ E值分析可与其他敏感性分析方法同时使用,和多元回归、多种缺失值填补策略及工具变量等分析技术相互补充,完善对统计结果的稳健性的评估[24]。⑤ E值仅能为暴露和结果之间的关系提供稳健性的证据,但不能用于证明暴露对结果没有效果。
在未来观察性研究的设计中,研究者可依据E值大小,判断文献中报道的效应量是否稳健,进而决定是否有必要使用更保守的估计量。在研究结果的报告中,建议在效应值、95%可信区间和P值之外,报告对应E值,以便于研究者对所观察到的暴露(或影响因素)和结局之间关联的稳健性进行评估。在临床研究指南和证据级别判定的过程中,GRADE指南在观察性研究中重要的证据升级因素之一,是较大效应量(例如效应量>2),E值的报告可对效应量所体现的关联强度辅以佐证,为是否对证据进行升级的决策提供支撑[25]。