引用本文: 陈俊杉, 余金甜, 张爱琴. ICU 患者谵妄风险预测模型的系统评价. 中国循证医学杂志, 2019, 19(9): 1093-1100. doi: 10.7507/1672-2531.201901091 复制
谵妄是以意识障碍为主要特征的一组临床综合征,属于急性脑器质性精神障碍,往往伴有注意力缺损、睡眠-觉醒节律紊乱和不同程度的认知、情感障碍[1]。研究发现,ICU 患者谵妄发生率约为 20%~80%[2-4]。谵妄在延长患者机械通气时间及住院时间的同时,也会使患者在出院后依然遗留较长时间的认知障碍,从而降低患者的日常生活能力,甚至增加患者 6 个月病死率[5, 6]。目前,尚无确切证据证明药物能够预防谵妄或改善谵妄患者的临床结局,主要提倡采取非药物措施预防谵妄[7]。因此,早期识别谵妄发生的高危人群并积极纠正谵妄发生的可逆诱因显得尤为重要。谵妄风险预测模型是以谵妄的多病因为基础,通过建立统计模型,以预测 ICU 患者未来发生谵妄的概率[8]。一方面,它能够帮助医务人员有效筛查发生谵妄的高风险人群,提高谵妄风险预警意识,并根据风险大小采取相对应的预防措施,以减少 ICU 谵妄的发生[9]。另一方面,它也可使患者及其家属清楚地了解患者在 ICU 期间的谵妄发病风险,增进他们对谵妄防治相关工作的认知、配合与理解[8]。迄今为止,国内外已有多位学者采用不同的研究设计类型构建了基于单中心或多国家(多中心)的 ICU 患者谵妄风险预测模型。本研究旨在全面检索国内外有关 ICU 患者谵妄风险预测模型的研究,从预测模型的基本特征及构建方法、方法学质量、预测效能和模型中的预测因子等角度出发进行系统总结与比较,以期更好地为 ICU 患者谵妄风险预测模型的构建与应用以及谵妄预防提供理论依据。
1 资料与方法
1.1 纳入与排除标准
1.1.1 研究类型
队列研究和病例-对照研究。
1.1.2 研究对象
纳入年龄>18 周岁的 ICU 患者,其种族、国籍、病程不限。
1.1.3 研究内容
① 为 ICU 患者谵妄风险预测模型的构建;② 具体地说明了诊断(评估)ICU 谵妄所使用的工具及主要的评估方法、步骤;③ 详细描述了建模、评价及比较的过程及所需的统计学方法;④ 预测模型建立之后经过了内部和/或外部验证。
1.1.4 排除标准
① 只分析了 ICU 患者谵妄的危险因素,但未构建风险预测模型的研究;② 研究未排除进入 ICU 时已发生谵妄的患者或未具体说明纳入患者进入 ICU 时是否发生谵妄;③ 风险预测模型无法和临床实践相联系,模型中的预测因子在 ICU 内无法广泛评估或精确测量;④ 研究中使用的诊断工具未经过信效度检验;⑤ 研究为模型的本土化适用性探究或预测效能的比较性研究;⑥ 研究为自动化预测模型的效果评价;⑦ 重复发表的文献;⑧ 数据不完整无法提取的文献;⑨ 非中、英文文献。
1.2 文献检索策略
计算机检索 The Cochrane Library、PubMed、Web of Science、Ovid、VIP、WanFang Data 和 CNKI 数据库,搜集关于 ICU 患者谵妄风险预测模型的研究,检索时限均为建库至 2018 年 12 月。此外,追溯纳入文献的参考文献,以补充获取相关文献。英文检索词包括:prediction model、prognostic model、risk stratification model、model、risk factor、predictor、ICU、Intensive care unit、critically ill、critical care、delirium、delirium syndrome;中文检索词包括:预测模型、模型、危险因素、预测因子、ICU、重症、危重、重症监护、谵妄、谵妄综合征。以 PubMed 为例,其具体检索策略见框 1。

1.3 文献筛选与资料提取
由 2 名研究者独立筛选文献、提取资料并交叉核对,如遇分歧,则咨询第三方协助判断。缺乏资料尽量与作者联系予以补充。文献筛选首先阅读文题和摘要,在排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。提取资料主要包括:第一作者及发表年份、国家或地区、研究设计类型、研究对象、建模方法及样本量、验模方法及样本量、ICU 谵妄的诊断(评估)工具、谵妄发生率(建模/验模/总发生率)、受试者工作特征曲线下面积(area under receiver operating characteristic curve,AUROC)(建模/验模)、危险因素赋分及风险分层方法、预测因子个数及其名称等。
1.4 纳入研究的偏倚风险评价
由 2 名评价员按照 CHARMS 清单[10]有关临床预测模型的偏倚风险评价工具,从“数据来源”、“参与者”、“预测结局”、“候选因子”、“样本量”、“缺失数据”、“模型建立”、“模型性能”、“模型评价”、“结果”及“解释和讨论”11 个方面评价纳入研究的偏倚风险。
1.5 统计分析
采用描述性分析方法,整理和总结纳入不同预测模型的一般情况、建模方法及模型中的预测因子。
2 结果
2.1 文献筛选流程及结果
初检共获得相关文献 1 313 篇,经逐层筛选后,最终纳入 9 个研究[11-19]。文献筛选流程及结果见图 1。

*所检索的数据库及检出文献数具体如下:The Cochrane Library(
2.2 纳入研究的基本特征与偏倚风险评价结果


2.3 纳入模型的一般情况
共纳入 9 个 ICU 患者谵妄风险预测模型[11-19],其中 6 个[11-16]为英文研究,3 个[17-19]为中文研究。研究设计类型方面,7 个[11-16, 18]为队列研究,2 个[17, 19]为病例-对照研究。最早的 ICU 患者谵妄风险预测模型[11]发表于 1996 年,近五年共发表了 6 个研究[14-19]。6 个研究[13-16, 18, 19]将研究对象定义为进入 ICU 时间≥24 h 的患者,具有较高的同质性。8 个研究[12-19]采用 ICU 意识模糊评估量表(confusion assessment method for the ICU,CAM-ICU)评估患者是否出现谵妄,1 个研究[11]采用《精神疾病诊断与统计手册(第三版)》(DSM-Ⅲ)对谵妄进行诊断,谵妄的总发生率为 17.7%~70.4%。各模型建模样本量为 100~1 962 例,均采用 Logistic 回归建立模型;验模样本量为 81~1 824 例,其中 6 个研究[11, 12, 15-18]运用了内部验证法对建立的预测模型进行验证,1 个研究[14]采用外部验证法对模型进行重新校准,1 个研究[13]采用内部与外部验证结合的方式对预测模型的预测效能进行了评价。9 个研究[11-19]均报告了预测模型的 AUROC 值,其中 4 个研究[11, 13, 15, 17]报告了建模的 AUROC 值,为 0.76~0.87;9 个研究[11-19]均报告了验模的 AUROC 值,为 0.739~0.926。
2.4 纳入模型的建模方法
在建模方法方面,分别有 6 个[11-13, 17-19]、2 个[15, 16]研究将单因素分析具有统计学意义的候选因子和全部候选因子作为自变量进行多因素 Logistic 回归,以遴选出 ICU 谵妄发生的独立预测因子。在预测因子的赋值方法上,5 个研究[13, 15, 16, 18, 19]根据各因子(初始[15, 16, 18, 19]/矫正后[13])回归系数得出计算谵妄发生概率的公式;2 个研究[11, 17]则采用因子赋值法,即将各因子回归系数根据其权重整数化后对因子进行赋值[17]或各因子均赋值 1 分[11],通过计算因子分数之和以预测患者住 ICU 期间的谵妄发生风险,总分越高谵妄发生风险越大。按各因子回归系数得出谵妄发生概率计算公式的研究[13, 15, 16, 18, 19]平均 AUROC 值为 0.82,采用因子赋值法的研究[11, 17]平均 AUROC 值为 0.79,不同赋值方法之间模型平均 AUROC 值差异不大。9 个研究中,5 个研究[13, 15-18]报告了风险分层的具体方法,其中 4 个研究[13, 15, 16, 18]根据模型预测的概率大小将风险值划分为 3~4 个等级,1 个研究[17]根据因子分数之和将谵妄发生风险分为 3 层。
2.5 纳入模型中的预测因子
纳入的 9 个谵妄风险预测模型中,最多纳入了 11 个预测因子[16],最少纳入了 3 个预测因子[11]。进一步将所有预测模型中纳入的预测因子分为易感因素和促发因素两大类。本系统评价中最为常见的 ICU 谵妄易感因素为认知功能储备减少[包括老年痴呆(史)、认知障碍史及谵妄史][20],其次为年龄。在促发因素方面,血尿素水平升高是最为多见的预测因子,其次为机械通气和感染。
3 讨论
本系统评价共纳入 9 个研究,3 个质量较高[13-15],其余 6 个质量中等[11, 12, 16-19]。7 个研究为前瞻性队列研究[11-16, 18],2 个为病例-对照研究[17, 19],选择性偏倚相对较小。仅 3 个研究[13-15]对建模、验模过程中评价结局的研究者施盲,其余研究均未报告是否对结局评价者及分析预测因子的研究者采取盲法,盲法设置率较低。在建模样本量方面,1 个研究建模样本量较小且未采取特殊的统计学方法进行处理[11],一定程度上可能会导致参数估计的准确性受到影响。仅 4 个研究自我报告了预测因子缺失情况[12-15],其中 3 个预测因子缺失比例较高(主要集中在胆红素、APACHE Ⅱ评分、认知功能储备减少)[13-15],并分别采用了平均值填充、回归插补法补齐数据,但平均值填充法一定程度上会使数据的方差和标准差变小、变异程度被低估[21, 22],而回归插补法则人为加大了变量之间的相关关系[23],增加了模型的不确定性。缺失预测因子采用补齐方法的不同一定程度上也成为研究间异质性的来源[24, 25]。
在谵妄的评估(诊断)工具方面,8 个研究[12-19]采用 CAM-ICU 量表对谵妄进行评估,1 个研究[11]采用 DSM-Ⅲ 对谵妄进行诊断。CAM-ICU 是 Ely 等[26]于 2001 年在《精神疾病的诊段和统计手册(第四版)》(DSM-Ⅳ)的基础上所研制的一种谵妄评估工具,可用来评估因机械通气所导致的语言上无法配合者的谵妄发生情况。一个对 ICU 谵妄评估工具进行的系统评价结果表明,CAM-ICU 与谵妄诊断的“金标准”DSM-Ⅳ 相较,其灵敏性、特异性分别为 47%~100%、81%~100%,并且在护士、医生及研究人员等不同人群中有着中等较高水平的测量者信度[27]。与此同时,CAM-ICU 也具有评估简便、易于掌握等优点,最困难的患者也仅需 2~4 分钟即可完成[28],一定程度上提高了 ICU 医务人员谵妄评估的依从性(Van[13]和 Wassenaar[15]在构建模型的同时,分别对 ICU 医务人员使用 CAM-ICU 评估谵妄的依从性展开调查,发现依从性达 90.4%、83%)。考虑到谵妄是一种急性、波动性的精神状态改变,2010 年发布的 CAM-ICU 培训手册中建议,ICU 医务人员应至少每 8~12 h 使用 CAM-ICU 对患者进行一次谵妄筛查。本系统评价纳入的 8 个[12-19] 将 CAM-ICU 作为谵妄评估工具的研究中,虽均每日常规评估谵妄≥2 次,但部分研究[16, 17]并未对每 2 次评估间的时间间隔进行严格、规律的限定,如 Chen[16]将每日评估节点设定为 9:00、17:00,袁荆[17]将每日评估时间设定为 9:00~11:00、15:00~17:00。不规律的评估时间间隔一定程度上降低了 CAM-ICU 的灵敏度与特异度,也降低了研究结果的真实性与可靠性。
本系统评价中的 9 个模型在建模/验模人群中的 AUROC 值均>0.7,表明 9 个模型均能有效地预测 ICU 患者未来发生谵妄的情况。袁荆[17]和祝晓迎[18]等研究中,通过 AUROC 检验模型区分谵妄和非谵妄患者能力的同时,还采用了 Hosmer-Lemeshow 卡方检验对模型预测率与实际谵妄发生率的一致程度进行检验,发现两者之间一致性较好,提高了构建 ICU 谵妄风险预测模型的科学性。Wassenaar 等[15]研究中还通过展开亚组研究,探讨了模型对不同时间发生的谵妄(0~1 d、2 d、3~6 d、>6 d)的预测能力,发现构建的模型无论对于早发性谵妄还是晚发性谵妄均有较好的预测价值(对应的 AUROC 值分别为 0.70、0.76、0.77、0.81)。同样,纳入的模型亦存在不足之处,主要表现为部分模型[13, 15, 16]在低危人群中的阴性似然比值处于较为中等的水平(3 个模型在低危人群中的阴性似然比值分别为 0.26、0.40、0.37),一定程度上增加了谵妄发生的中、高危人群被误判为低危人群的风险。
目前,国内外常用的 ICU 患者谵妄风险预测模型主要包括 Van 等[13]构建的 PRE-DELIRIC 模型、 Wassenaar 等[15]构建的 E-PRE-DELIRIC 模型和 Chen 等[16, 29]构建的 Lanzhou 模型。相较于 PRE-DELIRIC 模型仅能对患者入 ICU 24 h 后的谵妄发生风险进行预测,E-PRE-DELIRIC 模型在患者入 ICU 时即可对其住 ICU 期间的谵妄发生风险进行评定,因此能够有效识别入 ICU 24 h 内可能发生谵妄的高风险人群(研究[2, 30]报道患者入 ICU 0~1d 内的谵妄发生率约为 25%)。但部分国内外学者[31, 32]将 E-PRE-DELIRIC 模型及 PRE-DELIRIC 模型对于 ICU 谵妄的预测价值进行比较分析时发现,虽然 E-PRE-DELIRIC 模型和 PRE-DELIRIC 模型在预测 ICU 患者的谵妄发生风险方面均具有良好的表现,但 PRE-DELIRIC 模型的预测效能更为优越。鉴于此,Wassenaar 等[31]结合 E-PRE-DELIRIC 模型和 PRE-DELIRIC 模型的优点与不足之处,创新性地采用“两阶梯法”对患者住 ICU 期间的谵妄发生风险进行预测。即患者在入 ICU 时运用 E-PRE-DELIRIC 模型对其谵妄发生风险进行评估后,识别为低谵妄发生风险的人群于 24 h 后重新应用 PRE-DELIRIC 模型进行风险评估。结果证明“两阶梯法”使 PRE-DELIRIC 模型及 E-PRE-DELIRIC 模型对于低谵妄发生风险人群的敏感性分别提升了 10%、14%,一定程度上降低了谵妄发生高风险人群被误判为低风险人群的可能性,使真正的高风险人群得到更加及时、充分合理的谵妄预防资源配置。而对于 Lanzhou 模型,Green 等[33]在对上述三种模型进行比较时指出,虽然 Lanzhou 模型亦能在患者入 ICU 时即对其住 ICU 期间的谵妄发生风险进行评定且整体预测效能高于 E-PRE-DELIRIC 模型(但低于 PRE-DELIRIC 模型),但模型中的预测因子多为患者的既往病史,数据采集时的难度较大、对采集者和资料精准性的要求较高,一定程度上限制了模型的推广与应用。
认知功能储备减少和血尿素水平升高分别是纳入的 9 个预测模型中最为常见的谵妄易感因素及促发因素。认知功能储备减少时,机体对应激的代偿能力下降。当机体应对 ICU 中强烈而持续的应激源时更易出现神经递质失调、脑细胞能量代谢障碍及炎性细胞因子释放增多,从而引发大脑功能紊乱,导致谵妄的发生[34]。除认知功能储备减少外,年龄也是较为常见的易感因素。但年龄是否为 ICU 谵妄的独立预测因子尚存一定的争议。本系统评价纳入的 2 个以老年 ICU 患者作为观察(研究)对象所构建的预测模型[11, 12]中,年龄并非老年 ICU 患者谵妄发生的独立预测因子。一方面这可能与研究对象年龄段比较集中、个体间年龄差异较小有关;另一方面,对于老年 ICU 患者,相较于年龄,机体衰老所引起的其他身心改变,如:认知功能障碍、重要脏器功能不全、应激防御功能减退等,可能在老年患者谵妄的发生、发展过程中起到了更加显著的作用。但也有研究[35]指出,年龄是老年 ICU 患者谵妄发生的独立预测因子,尤其是高龄患者。未来还有待针对老年 ICU 患者这一特定人群展开大样本的原始研究,进一步探讨年龄在老年 ICU 患者谵妄发生、发展过程中所发挥的作用。
在促发因素方面,除血尿素水平升高外,常见的促发因素还包括机械通气和感染。血尿素水平升高时,体内蓄积的多余尿素透过血脑屏障后易引起神经系统的病变而诱发谵妄[36];感染增加 ICU 谵妄发生风险可能与全身炎症反应导致的弥漫性中枢神经系统功能紊乱有关[37];而机械通气在挽救患者生命的同时,也一定程度上改变了患者正常的呼吸、血流动力学生理,使呼吸道感染及低氧血症的风险大大增加[38],并且使患者暴露在更多的镇静、镇痛药物之下,增强并延长了中枢神经的抑制效应,扰乱了神经递质正常传递[39],最终促进谵妄发生。
本研究的不足之处:① 本系统评价仅纳入了中、英文文献,可能存在发表偏倚。② 本系统评价纳入研究在模型验证方面,多仅进行了内部验证,缺乏大样本、多中心的外部验证结果。虽然模型具有较好的预测效能,但模型的广泛适用性及稳定性还有待验证。③ 部分模型构建时间较早(如 O'Keeffe 的模型构建于 1996 年、Pisani 的模型构建于 2007 年),并且未得到校准与更新,模型及模型中的预测因子是否适用于当下的临床实践应进一步探究。
综上所述,本研究共纳入 9 个谵妄风险预测模型,预测性能良好,有利于 ICU 医护人员早期筛查 ICU 谵妄发生的高风险人群。下一步,医务工作者可结合自身实际,慎重选择已有模型并需对其进行验证后用于临床实践,也可在结合 TRIPOD 声明的基础上通过展开大样本的前瞻性队列研究,构建一个扎根于本土的 ICU 患者谵妄风险预测模型,并通过拟定和实施分层预防策略,将谵妄预防落到实处的同时,使谵妄预防相关的医疗资源得到更加合理的配置,以达到最佳的风险获益比。其次,本系统评价所纳入的大部分模型在建模时将进入 ICU<24 h 的患者作为研究的排除对象。但在临床工作中,患者入 ICU 时医护人员并不能精准判断患者在 ICU 内的停留时间,均采用统一的模型预测患者发生谵妄的风险。而对于进入 ICU<24 h 的患者与进入 ICU≥24 h 的患者而言,同一模型对两者的预测性能是否存在差异还有待研究者们进一步探讨。未来,可针对进入 ICU<24 h 患者这一特定人群展开研究,或不考虑患者在 ICU 时间长短,设定研究对象为全体 ICU 患者,以提高模型的整体适用性及预测的精准性。值得注意的是,随着医药技术的发展,特别是镇静、镇痛理念的转变、新型镇痛及镇静药物的出现,现有模型的预测效能也在不断承受着冲击。因此,在运用预测模型的同时,医务人员也应定期重新校准模型,调整模型因子,使其更加符合当下的医学时代背景。最后,研究者在注重模型预测效能的基础上,还应积极关注模型对使用者工作负担的影响。建议研制界面友好、自动化的 ICU 谵妄风险预测电子平台或模块/组件,提高计算精准度的同时减少预测耗时,提升临床医务工作者使用风险预测工具时的依从性与满意度。
谵妄是以意识障碍为主要特征的一组临床综合征,属于急性脑器质性精神障碍,往往伴有注意力缺损、睡眠-觉醒节律紊乱和不同程度的认知、情感障碍[1]。研究发现,ICU 患者谵妄发生率约为 20%~80%[2-4]。谵妄在延长患者机械通气时间及住院时间的同时,也会使患者在出院后依然遗留较长时间的认知障碍,从而降低患者的日常生活能力,甚至增加患者 6 个月病死率[5, 6]。目前,尚无确切证据证明药物能够预防谵妄或改善谵妄患者的临床结局,主要提倡采取非药物措施预防谵妄[7]。因此,早期识别谵妄发生的高危人群并积极纠正谵妄发生的可逆诱因显得尤为重要。谵妄风险预测模型是以谵妄的多病因为基础,通过建立统计模型,以预测 ICU 患者未来发生谵妄的概率[8]。一方面,它能够帮助医务人员有效筛查发生谵妄的高风险人群,提高谵妄风险预警意识,并根据风险大小采取相对应的预防措施,以减少 ICU 谵妄的发生[9]。另一方面,它也可使患者及其家属清楚地了解患者在 ICU 期间的谵妄发病风险,增进他们对谵妄防治相关工作的认知、配合与理解[8]。迄今为止,国内外已有多位学者采用不同的研究设计类型构建了基于单中心或多国家(多中心)的 ICU 患者谵妄风险预测模型。本研究旨在全面检索国内外有关 ICU 患者谵妄风险预测模型的研究,从预测模型的基本特征及构建方法、方法学质量、预测效能和模型中的预测因子等角度出发进行系统总结与比较,以期更好地为 ICU 患者谵妄风险预测模型的构建与应用以及谵妄预防提供理论依据。
1 资料与方法
1.1 纳入与排除标准
1.1.1 研究类型
队列研究和病例-对照研究。
1.1.2 研究对象
纳入年龄>18 周岁的 ICU 患者,其种族、国籍、病程不限。
1.1.3 研究内容
① 为 ICU 患者谵妄风险预测模型的构建;② 具体地说明了诊断(评估)ICU 谵妄所使用的工具及主要的评估方法、步骤;③ 详细描述了建模、评价及比较的过程及所需的统计学方法;④ 预测模型建立之后经过了内部和/或外部验证。
1.1.4 排除标准
① 只分析了 ICU 患者谵妄的危险因素,但未构建风险预测模型的研究;② 研究未排除进入 ICU 时已发生谵妄的患者或未具体说明纳入患者进入 ICU 时是否发生谵妄;③ 风险预测模型无法和临床实践相联系,模型中的预测因子在 ICU 内无法广泛评估或精确测量;④ 研究中使用的诊断工具未经过信效度检验;⑤ 研究为模型的本土化适用性探究或预测效能的比较性研究;⑥ 研究为自动化预测模型的效果评价;⑦ 重复发表的文献;⑧ 数据不完整无法提取的文献;⑨ 非中、英文文献。
1.2 文献检索策略
计算机检索 The Cochrane Library、PubMed、Web of Science、Ovid、VIP、WanFang Data 和 CNKI 数据库,搜集关于 ICU 患者谵妄风险预测模型的研究,检索时限均为建库至 2018 年 12 月。此外,追溯纳入文献的参考文献,以补充获取相关文献。英文检索词包括:prediction model、prognostic model、risk stratification model、model、risk factor、predictor、ICU、Intensive care unit、critically ill、critical care、delirium、delirium syndrome;中文检索词包括:预测模型、模型、危险因素、预测因子、ICU、重症、危重、重症监护、谵妄、谵妄综合征。以 PubMed 为例,其具体检索策略见框 1。

1.3 文献筛选与资料提取
由 2 名研究者独立筛选文献、提取资料并交叉核对,如遇分歧,则咨询第三方协助判断。缺乏资料尽量与作者联系予以补充。文献筛选首先阅读文题和摘要,在排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。提取资料主要包括:第一作者及发表年份、国家或地区、研究设计类型、研究对象、建模方法及样本量、验模方法及样本量、ICU 谵妄的诊断(评估)工具、谵妄发生率(建模/验模/总发生率)、受试者工作特征曲线下面积(area under receiver operating characteristic curve,AUROC)(建模/验模)、危险因素赋分及风险分层方法、预测因子个数及其名称等。
1.4 纳入研究的偏倚风险评价
由 2 名评价员按照 CHARMS 清单[10]有关临床预测模型的偏倚风险评价工具,从“数据来源”、“参与者”、“预测结局”、“候选因子”、“样本量”、“缺失数据”、“模型建立”、“模型性能”、“模型评价”、“结果”及“解释和讨论”11 个方面评价纳入研究的偏倚风险。
1.5 统计分析
采用描述性分析方法,整理和总结纳入不同预测模型的一般情况、建模方法及模型中的预测因子。
2 结果
2.1 文献筛选流程及结果
初检共获得相关文献 1 313 篇,经逐层筛选后,最终纳入 9 个研究[11-19]。文献筛选流程及结果见图 1。

*所检索的数据库及检出文献数具体如下:The Cochrane Library(
2.2 纳入研究的基本特征与偏倚风险评价结果


2.3 纳入模型的一般情况
共纳入 9 个 ICU 患者谵妄风险预测模型[11-19],其中 6 个[11-16]为英文研究,3 个[17-19]为中文研究。研究设计类型方面,7 个[11-16, 18]为队列研究,2 个[17, 19]为病例-对照研究。最早的 ICU 患者谵妄风险预测模型[11]发表于 1996 年,近五年共发表了 6 个研究[14-19]。6 个研究[13-16, 18, 19]将研究对象定义为进入 ICU 时间≥24 h 的患者,具有较高的同质性。8 个研究[12-19]采用 ICU 意识模糊评估量表(confusion assessment method for the ICU,CAM-ICU)评估患者是否出现谵妄,1 个研究[11]采用《精神疾病诊断与统计手册(第三版)》(DSM-Ⅲ)对谵妄进行诊断,谵妄的总发生率为 17.7%~70.4%。各模型建模样本量为 100~1 962 例,均采用 Logistic 回归建立模型;验模样本量为 81~1 824 例,其中 6 个研究[11, 12, 15-18]运用了内部验证法对建立的预测模型进行验证,1 个研究[14]采用外部验证法对模型进行重新校准,1 个研究[13]采用内部与外部验证结合的方式对预测模型的预测效能进行了评价。9 个研究[11-19]均报告了预测模型的 AUROC 值,其中 4 个研究[11, 13, 15, 17]报告了建模的 AUROC 值,为 0.76~0.87;9 个研究[11-19]均报告了验模的 AUROC 值,为 0.739~0.926。
2.4 纳入模型的建模方法
在建模方法方面,分别有 6 个[11-13, 17-19]、2 个[15, 16]研究将单因素分析具有统计学意义的候选因子和全部候选因子作为自变量进行多因素 Logistic 回归,以遴选出 ICU 谵妄发生的独立预测因子。在预测因子的赋值方法上,5 个研究[13, 15, 16, 18, 19]根据各因子(初始[15, 16, 18, 19]/矫正后[13])回归系数得出计算谵妄发生概率的公式;2 个研究[11, 17]则采用因子赋值法,即将各因子回归系数根据其权重整数化后对因子进行赋值[17]或各因子均赋值 1 分[11],通过计算因子分数之和以预测患者住 ICU 期间的谵妄发生风险,总分越高谵妄发生风险越大。按各因子回归系数得出谵妄发生概率计算公式的研究[13, 15, 16, 18, 19]平均 AUROC 值为 0.82,采用因子赋值法的研究[11, 17]平均 AUROC 值为 0.79,不同赋值方法之间模型平均 AUROC 值差异不大。9 个研究中,5 个研究[13, 15-18]报告了风险分层的具体方法,其中 4 个研究[13, 15, 16, 18]根据模型预测的概率大小将风险值划分为 3~4 个等级,1 个研究[17]根据因子分数之和将谵妄发生风险分为 3 层。
2.5 纳入模型中的预测因子
纳入的 9 个谵妄风险预测模型中,最多纳入了 11 个预测因子[16],最少纳入了 3 个预测因子[11]。进一步将所有预测模型中纳入的预测因子分为易感因素和促发因素两大类。本系统评价中最为常见的 ICU 谵妄易感因素为认知功能储备减少[包括老年痴呆(史)、认知障碍史及谵妄史][20],其次为年龄。在促发因素方面,血尿素水平升高是最为多见的预测因子,其次为机械通气和感染。
3 讨论
本系统评价共纳入 9 个研究,3 个质量较高[13-15],其余 6 个质量中等[11, 12, 16-19]。7 个研究为前瞻性队列研究[11-16, 18],2 个为病例-对照研究[17, 19],选择性偏倚相对较小。仅 3 个研究[13-15]对建模、验模过程中评价结局的研究者施盲,其余研究均未报告是否对结局评价者及分析预测因子的研究者采取盲法,盲法设置率较低。在建模样本量方面,1 个研究建模样本量较小且未采取特殊的统计学方法进行处理[11],一定程度上可能会导致参数估计的准确性受到影响。仅 4 个研究自我报告了预测因子缺失情况[12-15],其中 3 个预测因子缺失比例较高(主要集中在胆红素、APACHE Ⅱ评分、认知功能储备减少)[13-15],并分别采用了平均值填充、回归插补法补齐数据,但平均值填充法一定程度上会使数据的方差和标准差变小、变异程度被低估[21, 22],而回归插补法则人为加大了变量之间的相关关系[23],增加了模型的不确定性。缺失预测因子采用补齐方法的不同一定程度上也成为研究间异质性的来源[24, 25]。
在谵妄的评估(诊断)工具方面,8 个研究[12-19]采用 CAM-ICU 量表对谵妄进行评估,1 个研究[11]采用 DSM-Ⅲ 对谵妄进行诊断。CAM-ICU 是 Ely 等[26]于 2001 年在《精神疾病的诊段和统计手册(第四版)》(DSM-Ⅳ)的基础上所研制的一种谵妄评估工具,可用来评估因机械通气所导致的语言上无法配合者的谵妄发生情况。一个对 ICU 谵妄评估工具进行的系统评价结果表明,CAM-ICU 与谵妄诊断的“金标准”DSM-Ⅳ 相较,其灵敏性、特异性分别为 47%~100%、81%~100%,并且在护士、医生及研究人员等不同人群中有着中等较高水平的测量者信度[27]。与此同时,CAM-ICU 也具有评估简便、易于掌握等优点,最困难的患者也仅需 2~4 分钟即可完成[28],一定程度上提高了 ICU 医务人员谵妄评估的依从性(Van[13]和 Wassenaar[15]在构建模型的同时,分别对 ICU 医务人员使用 CAM-ICU 评估谵妄的依从性展开调查,发现依从性达 90.4%、83%)。考虑到谵妄是一种急性、波动性的精神状态改变,2010 年发布的 CAM-ICU 培训手册中建议,ICU 医务人员应至少每 8~12 h 使用 CAM-ICU 对患者进行一次谵妄筛查。本系统评价纳入的 8 个[12-19] 将 CAM-ICU 作为谵妄评估工具的研究中,虽均每日常规评估谵妄≥2 次,但部分研究[16, 17]并未对每 2 次评估间的时间间隔进行严格、规律的限定,如 Chen[16]将每日评估节点设定为 9:00、17:00,袁荆[17]将每日评估时间设定为 9:00~11:00、15:00~17:00。不规律的评估时间间隔一定程度上降低了 CAM-ICU 的灵敏度与特异度,也降低了研究结果的真实性与可靠性。
本系统评价中的 9 个模型在建模/验模人群中的 AUROC 值均>0.7,表明 9 个模型均能有效地预测 ICU 患者未来发生谵妄的情况。袁荆[17]和祝晓迎[18]等研究中,通过 AUROC 检验模型区分谵妄和非谵妄患者能力的同时,还采用了 Hosmer-Lemeshow 卡方检验对模型预测率与实际谵妄发生率的一致程度进行检验,发现两者之间一致性较好,提高了构建 ICU 谵妄风险预测模型的科学性。Wassenaar 等[15]研究中还通过展开亚组研究,探讨了模型对不同时间发生的谵妄(0~1 d、2 d、3~6 d、>6 d)的预测能力,发现构建的模型无论对于早发性谵妄还是晚发性谵妄均有较好的预测价值(对应的 AUROC 值分别为 0.70、0.76、0.77、0.81)。同样,纳入的模型亦存在不足之处,主要表现为部分模型[13, 15, 16]在低危人群中的阴性似然比值处于较为中等的水平(3 个模型在低危人群中的阴性似然比值分别为 0.26、0.40、0.37),一定程度上增加了谵妄发生的中、高危人群被误判为低危人群的风险。
目前,国内外常用的 ICU 患者谵妄风险预测模型主要包括 Van 等[13]构建的 PRE-DELIRIC 模型、 Wassenaar 等[15]构建的 E-PRE-DELIRIC 模型和 Chen 等[16, 29]构建的 Lanzhou 模型。相较于 PRE-DELIRIC 模型仅能对患者入 ICU 24 h 后的谵妄发生风险进行预测,E-PRE-DELIRIC 模型在患者入 ICU 时即可对其住 ICU 期间的谵妄发生风险进行评定,因此能够有效识别入 ICU 24 h 内可能发生谵妄的高风险人群(研究[2, 30]报道患者入 ICU 0~1d 内的谵妄发生率约为 25%)。但部分国内外学者[31, 32]将 E-PRE-DELIRIC 模型及 PRE-DELIRIC 模型对于 ICU 谵妄的预测价值进行比较分析时发现,虽然 E-PRE-DELIRIC 模型和 PRE-DELIRIC 模型在预测 ICU 患者的谵妄发生风险方面均具有良好的表现,但 PRE-DELIRIC 模型的预测效能更为优越。鉴于此,Wassenaar 等[31]结合 E-PRE-DELIRIC 模型和 PRE-DELIRIC 模型的优点与不足之处,创新性地采用“两阶梯法”对患者住 ICU 期间的谵妄发生风险进行预测。即患者在入 ICU 时运用 E-PRE-DELIRIC 模型对其谵妄发生风险进行评估后,识别为低谵妄发生风险的人群于 24 h 后重新应用 PRE-DELIRIC 模型进行风险评估。结果证明“两阶梯法”使 PRE-DELIRIC 模型及 E-PRE-DELIRIC 模型对于低谵妄发生风险人群的敏感性分别提升了 10%、14%,一定程度上降低了谵妄发生高风险人群被误判为低风险人群的可能性,使真正的高风险人群得到更加及时、充分合理的谵妄预防资源配置。而对于 Lanzhou 模型,Green 等[33]在对上述三种模型进行比较时指出,虽然 Lanzhou 模型亦能在患者入 ICU 时即对其住 ICU 期间的谵妄发生风险进行评定且整体预测效能高于 E-PRE-DELIRIC 模型(但低于 PRE-DELIRIC 模型),但模型中的预测因子多为患者的既往病史,数据采集时的难度较大、对采集者和资料精准性的要求较高,一定程度上限制了模型的推广与应用。
认知功能储备减少和血尿素水平升高分别是纳入的 9 个预测模型中最为常见的谵妄易感因素及促发因素。认知功能储备减少时,机体对应激的代偿能力下降。当机体应对 ICU 中强烈而持续的应激源时更易出现神经递质失调、脑细胞能量代谢障碍及炎性细胞因子释放增多,从而引发大脑功能紊乱,导致谵妄的发生[34]。除认知功能储备减少外,年龄也是较为常见的易感因素。但年龄是否为 ICU 谵妄的独立预测因子尚存一定的争议。本系统评价纳入的 2 个以老年 ICU 患者作为观察(研究)对象所构建的预测模型[11, 12]中,年龄并非老年 ICU 患者谵妄发生的独立预测因子。一方面这可能与研究对象年龄段比较集中、个体间年龄差异较小有关;另一方面,对于老年 ICU 患者,相较于年龄,机体衰老所引起的其他身心改变,如:认知功能障碍、重要脏器功能不全、应激防御功能减退等,可能在老年患者谵妄的发生、发展过程中起到了更加显著的作用。但也有研究[35]指出,年龄是老年 ICU 患者谵妄发生的独立预测因子,尤其是高龄患者。未来还有待针对老年 ICU 患者这一特定人群展开大样本的原始研究,进一步探讨年龄在老年 ICU 患者谵妄发生、发展过程中所发挥的作用。
在促发因素方面,除血尿素水平升高外,常见的促发因素还包括机械通气和感染。血尿素水平升高时,体内蓄积的多余尿素透过血脑屏障后易引起神经系统的病变而诱发谵妄[36];感染增加 ICU 谵妄发生风险可能与全身炎症反应导致的弥漫性中枢神经系统功能紊乱有关[37];而机械通气在挽救患者生命的同时,也一定程度上改变了患者正常的呼吸、血流动力学生理,使呼吸道感染及低氧血症的风险大大增加[38],并且使患者暴露在更多的镇静、镇痛药物之下,增强并延长了中枢神经的抑制效应,扰乱了神经递质正常传递[39],最终促进谵妄发生。
本研究的不足之处:① 本系统评价仅纳入了中、英文文献,可能存在发表偏倚。② 本系统评价纳入研究在模型验证方面,多仅进行了内部验证,缺乏大样本、多中心的外部验证结果。虽然模型具有较好的预测效能,但模型的广泛适用性及稳定性还有待验证。③ 部分模型构建时间较早(如 O'Keeffe 的模型构建于 1996 年、Pisani 的模型构建于 2007 年),并且未得到校准与更新,模型及模型中的预测因子是否适用于当下的临床实践应进一步探究。
综上所述,本研究共纳入 9 个谵妄风险预测模型,预测性能良好,有利于 ICU 医护人员早期筛查 ICU 谵妄发生的高风险人群。下一步,医务工作者可结合自身实际,慎重选择已有模型并需对其进行验证后用于临床实践,也可在结合 TRIPOD 声明的基础上通过展开大样本的前瞻性队列研究,构建一个扎根于本土的 ICU 患者谵妄风险预测模型,并通过拟定和实施分层预防策略,将谵妄预防落到实处的同时,使谵妄预防相关的医疗资源得到更加合理的配置,以达到最佳的风险获益比。其次,本系统评价所纳入的大部分模型在建模时将进入 ICU<24 h 的患者作为研究的排除对象。但在临床工作中,患者入 ICU 时医护人员并不能精准判断患者在 ICU 内的停留时间,均采用统一的模型预测患者发生谵妄的风险。而对于进入 ICU<24 h 的患者与进入 ICU≥24 h 的患者而言,同一模型对两者的预测性能是否存在差异还有待研究者们进一步探讨。未来,可针对进入 ICU<24 h 患者这一特定人群展开研究,或不考虑患者在 ICU 时间长短,设定研究对象为全体 ICU 患者,以提高模型的整体适用性及预测的精准性。值得注意的是,随着医药技术的发展,特别是镇静、镇痛理念的转变、新型镇痛及镇静药物的出现,现有模型的预测效能也在不断承受着冲击。因此,在运用预测模型的同时,医务人员也应定期重新校准模型,调整模型因子,使其更加符合当下的医学时代背景。最后,研究者在注重模型预测效能的基础上,还应积极关注模型对使用者工作负担的影响。建议研制界面友好、自动化的 ICU 谵妄风险预测电子平台或模块/组件,提高计算精准度的同时减少预测耗时,提升临床医务工作者使用风险预测工具时的依从性与满意度。