引用本文: 刘凌, 李惠菁, 张治, 胡笑燊, 马云. 膝骨关节炎风险预测模型的系统评价. 中国循证医学杂志, 2024, 24(9): 1038-1043. doi: 10.7507/1672-2531.202405081 复制
膝骨关节炎(knee osteoarthritis,KOA)是一种以关节软骨进行性破坏为主要特征的慢性退行性疾病,通常会引起关节持续性疼痛和活动受限,可累及整个关节,包括骨骼、滑膜和关节囊[1]。流行病学调查显示,在全球40岁及以上人群中的患病率为22.9%[2],我国55岁以上的人群中60%有KOA影像学改变,65岁以上的老年人KOA的发病率达85%,KOA总患病率为18%,且随着人口老龄化加剧,该病的发病率也在逐年升高[3]。目前,早期KOA的治疗方式主要是口服非甾体抗炎药、晚期可行关节置换以及其他手术干预,但治疗效果不太理想,口服药会产生耐受性,手术具有一定的手术风险和植入物松动的可能性[4]。因此,预防和早期识别KOA至关重要。目前已有相关研究对KOA发病的危险因素进行探讨,并建立预测模型,预测KOA的发病风险,以助于筛选高危人群,实现早期干预[5]。该领域存在多种方法和变量,模型的构建方法不同,纳入的预测因子不同,结果也存在一定的异质性。因此,本文对KOA发病风险预测模型进行系统评价,识别、评估和综合这些预测模型的质量和性能,以期为未来KOA预测模型的研究提供建议和参考。
1 资料和方法
1.1 纳入与排除标准
1.1.1 研究类型
队列研究、病例-对照研究和横断面研究。
1.1.2 研究对象
年龄≥18岁人群。
1.1.3 研究内容
KOA发病风险预测模型的开发或验证研究。
1.1.4 排除标准
① 仅探讨KOA危险因素,并未建立预测模型的研究;② 非中、英文文献;③ 无法获得全文或信息不全。
1.2 文献检索策略
计算机检索CNKI、WanFang Data、VIP、PubMed、Embase、Web of Science 和Cochrane Library数据库,搜集KOA发病风险预测模型的相关文献,检索时限均为建库至2024年4月。检索采用主题词与自由词相结合的方式进行,并根据各数据库特点进行调整。同时检索纳入研究的参考文献,以补充获取相关资料。中文检索词包括:膝关节骨性关节炎、膝骨关节炎、膝关节骨关节炎、风险评分、预测风险因素评分、筛查模型、筛查工具、危险因素评分等;英文检索词包括:knee osteoarthriti*、osteoarthritis of knee、osteoarthritis of the knee、prediction model、prognostic model、risk prediction、risk score、risk assessment等。
1.3 文献筛选与资料提取
由2名研究者独立筛选文献、提取资料并交叉核对。如有分歧,则通过讨论或与第三方协商解决。根据预测模型研究系统评价的关键评估和数据提取清单(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)[6],提取数据并制定表格。资料提取内容包括:第一作者、国家、研究类型、候选变量、样本量、缺失数据、建立模型方法、变量选择、模型性能、模型呈现形式和最终包含的预测因子等。
1.4 纳入研究的偏倚风险和适用性评估
由2名研究者采用预测模型研究的偏倚风险评估工具(prediction model risk of bias assessment tool,PROBAST)[7,8]对纳入研究的偏倚风险和适用性独立进行评价。
1.5 统计分析
对纳入预测模型的建立情况、性能及验证、偏倚风险与适用性评价结果进行描述性分析。
2 结果
2.1 文献检索结果
初检共获得相关文献1 877篇,包括CNKI(n=262)、WanFang Data(n=1 078)、VIP(n=87)、PubMed(n=123)、Web of Science(n=94)、Embase(n=179)和Cochrane Library(n=54),经逐层筛选后,最终纳入12篇文献[9-20]。文献筛选流程及结果见附件图1。
2.2 纳入研究的基本特征
纳入研究的基本特征见表1。

2.3 预测模型的建立情况
共纳入12项研究,包含21个模型,模型建立情况的基本特征见表2。

2.4 预测模型性能及验证
纳入研究的预测模型性能及验证见表3。

2.5 偏倚风险与适用性评价结果
纳入研究的偏倚风险与适用性评价结果见表4。

3 讨论
本文共纳入12项研究,包含21个模型。纳入模型大多报告具有良好的区分度,部分研究缺少校准方法,且多数研究缺少外部验证。纳入研究的总体偏倚风险偏高,问题主要集中于预测因子领域,大多由于评估预测因子时未采用盲法。因限定了研究对象,大部分研究的总体适用性高。
纳入研究的预测因子主要包括年龄、性别和BMI。有研究[21]表明,KOA的发病率随年龄的增长而上升。在老年人群中,与衰老相关的各种因素都可导致KOA的发展。线粒体功能障碍、氧化应激和自噬减少会改变软骨细胞功能,促进合成代谢过程中的分解代谢过程和细胞死亡[22],衰老细胞的积累可诱导KOA的进展[23]。老年人长期积累关节使用和损伤,从而发生关节软骨的磨损、关节结构的退行性变化以及肌肉和韧带的退化,随着年龄的增长,股四头肌肌肉萎缩,肌力减弱,使步态和压力产生变化[24],影响KOA的发生发展。Novin等[25]发现,相比于男性,女性患有KOA或具有KOA影像学特征(如外侧关节间隙狭窄、胫骨内侧骨赘)的概率高出50%,且发病年龄也早于男性。在运动学中,Nishino等[26]研究发现,男性和女性的膝关节存在显著差异,男性的轴向旋转范围较小,而女性的外翻旋转范围较宽,由于生理特征,女性的膝关节更容易受伤。Culvenor等[27]指出,肌肉无力会导致KOA进展,肌肉力量偏低的女性疾病进展的风险大大增加。此外,雌激素可以维持关节稳态,缺乏雌激素会引起骨质疏松,并成为关节炎的危险因素之一,因此绝经后女性更容易发生KOA[28]。Huang等[29]在研究中指出BMI对KOA具有潜在的正因果效应。一项Meta分析[30]发现肥胖和超重与KOA风险显著相关。BMI增加导致KOA风险增加的一个重要因素是体重过重会使膝盖承受主要的负荷[31]。实验表明,体重负荷到软骨上可以诱导软骨变形和病变[32]。一项临床研究[33]证实,异常的负荷会导致关节软骨的组成、结构和机械性能发生变化。此外,膝关节损伤也是常见的危险因素。一项Meta分析[34]表明,既往膝关节损伤史是发生KOA的重要危险因素,交叉韧带和半月板损伤可提高KOA的发生率[35]。Yoo的研究[14]纳入了高血压作为预测因素,发现高血压与KOA有关,分析其原因可能是高血压相关的动脉硬化引起关节下软骨丢失和局部代谢性炎症因素[36]。另外生物标志物、影像学特征也是重要的预测因子,未来研究可从临床数据中挖掘KOA发病的预测因子,增强模型的说服力。
纳入模型中,建模受试者工作特征曲线下面积(area under curve,AUC)的范围为0.554~0.948之间,验模AUC的范围为0.6~0.94,建模AUC有4个效果一般,2个效果良好,验模AUC有10个效果一般,4个效果良好,说明现有模型总体的预测性能效果一般,具有较大的提升空间[37]。Takahashi的研究[17]将易感因子纳入预测因子,建立了三个模型,但AUC值(0.554~0.678)较低,通过结合临床数据和调整年龄后进一步改进模型,获得的平均AUC为0.867。Yoo等[14]使用人工神经网络为建模方法构建了放射学KOA和症状性KOA模型,在内部验证中,症状性KOA的AUC高达0.948,说明有良好的鉴别能力。有5项研究采用了外部验证,外部验证可以检验模型的推广性和泛化能力,为临床应用做准备[38]。Kerkhof等[15]的研究外部验证的AUC高达0.86,模型中纳入了KL评分。KL评分是通过站立位的膝关节X光片评估KOA严重程度的分级方法,一般认为KL≥2为患有KOA,该研究首次证明了这一风险因素的预测价值,意味着可疑的轻度退行性改变(如KL评分1所示)是未来KOA事件的重要预测因素。
12项纳入研究总体偏倚风险均呈高风险。本研究使用的工具是PROBAST,为评估预测模型研究提供了一种标准化的评估框架[8]。8项研究在评估预测因子均未采用盲法,结果的信息可能会对预测因子的评估过程产生影响,导致偏倚。为了精确地评价一个预测模型的预测能力,需评估研究中模型的区分度和校准度,区分度是能够有效区分不同风险水平的能力,校准度是预测实际发生的概率[37,39]。4项研究未报告校准度的信息,仅报告区分度,可能会导致预测模型出现一致性偏倚。为了提高风险预测模型的准确性和临床应用价值,在模型开发完成后,需要对模型的区分度和校准度进行细致地评估,有助于提升模型的预测性能和促进向临床应用的转化。在设计研究方法时,可以参考CHARMS和PROBAST的指导原则[6,7],以利于构建出低偏倚风险和适用性高的预测模型。
现有模型的数据来源大都是来自OAI数据库,其是一项针对KOA的多中心、前瞻性观察研究;预测因子以人口统计学、临床因素、影像学因素为主;部分模型的结果包含预测因子,可能会增加模型与实际结果的关联性;在统计分析方面,部分文章没有对模型的预测性能进行全面评估。在未来研究中,可考虑纳入多中心研究,扩大样本量,有利于识别模型在不同人群中的表现,并为模型的调整提供依据。目前建模方法以Logistic回归为主,优点是易于解释且在医学领域应用广泛;贝叶斯网络可以呈现不确定性和因果关系;人工神经网络能够处理数据中的大量输入特征和非线性关系[11]。除此之外还有随机森林、决策树等建模方法,具有训练速度快,功能强大等优点[40]。未来研究可结合不同建模方法的优点,以探索多种方法的组合,从而得出最有效的预测模型。此外,目前大部分研究缺少外部验证,而外部验证是评估预测模型泛化能力的重要步骤,其结果可以识别模型的不足,指导模型的进一步改进,避免发生欠拟合和过拟合的情况,从而增加该模型的适用性。后续研究应选择在不同时间段或地理区域收集的数据集对模型进行验证,必要时根据外部验证的结果对模型进行必要的更新和维护。
本研究存在一定的局限性:① 仅纳入中、英文文献,可能存在发表偏倚;② 纳入的KOA风险预测模型偏倚风险较高;③ 由于纳入的研究对象存在异质性,只进行了定性分析,评价结果相对局限。
综上所述,本研究对KOA发病风险预测模型研究进行系统评价,模型总体预测性能一般,且整体偏倚风险高,超过一半的模型未进行外部验证。建议未来建模可遵循CHARMS和PROBAST降低偏倚风险,增加具有理论基础和临床意义的预测因子,并加强对模型的验证,以提高预测模型的临床应用。
膝骨关节炎(knee osteoarthritis,KOA)是一种以关节软骨进行性破坏为主要特征的慢性退行性疾病,通常会引起关节持续性疼痛和活动受限,可累及整个关节,包括骨骼、滑膜和关节囊[1]。流行病学调查显示,在全球40岁及以上人群中的患病率为22.9%[2],我国55岁以上的人群中60%有KOA影像学改变,65岁以上的老年人KOA的发病率达85%,KOA总患病率为18%,且随着人口老龄化加剧,该病的发病率也在逐年升高[3]。目前,早期KOA的治疗方式主要是口服非甾体抗炎药、晚期可行关节置换以及其他手术干预,但治疗效果不太理想,口服药会产生耐受性,手术具有一定的手术风险和植入物松动的可能性[4]。因此,预防和早期识别KOA至关重要。目前已有相关研究对KOA发病的危险因素进行探讨,并建立预测模型,预测KOA的发病风险,以助于筛选高危人群,实现早期干预[5]。该领域存在多种方法和变量,模型的构建方法不同,纳入的预测因子不同,结果也存在一定的异质性。因此,本文对KOA发病风险预测模型进行系统评价,识别、评估和综合这些预测模型的质量和性能,以期为未来KOA预测模型的研究提供建议和参考。
1 资料和方法
1.1 纳入与排除标准
1.1.1 研究类型
队列研究、病例-对照研究和横断面研究。
1.1.2 研究对象
年龄≥18岁人群。
1.1.3 研究内容
KOA发病风险预测模型的开发或验证研究。
1.1.4 排除标准
① 仅探讨KOA危险因素,并未建立预测模型的研究;② 非中、英文文献;③ 无法获得全文或信息不全。
1.2 文献检索策略
计算机检索CNKI、WanFang Data、VIP、PubMed、Embase、Web of Science 和Cochrane Library数据库,搜集KOA发病风险预测模型的相关文献,检索时限均为建库至2024年4月。检索采用主题词与自由词相结合的方式进行,并根据各数据库特点进行调整。同时检索纳入研究的参考文献,以补充获取相关资料。中文检索词包括:膝关节骨性关节炎、膝骨关节炎、膝关节骨关节炎、风险评分、预测风险因素评分、筛查模型、筛查工具、危险因素评分等;英文检索词包括:knee osteoarthriti*、osteoarthritis of knee、osteoarthritis of the knee、prediction model、prognostic model、risk prediction、risk score、risk assessment等。
1.3 文献筛选与资料提取
由2名研究者独立筛选文献、提取资料并交叉核对。如有分歧,则通过讨论或与第三方协商解决。根据预测模型研究系统评价的关键评估和数据提取清单(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)[6],提取数据并制定表格。资料提取内容包括:第一作者、国家、研究类型、候选变量、样本量、缺失数据、建立模型方法、变量选择、模型性能、模型呈现形式和最终包含的预测因子等。
1.4 纳入研究的偏倚风险和适用性评估
由2名研究者采用预测模型研究的偏倚风险评估工具(prediction model risk of bias assessment tool,PROBAST)[7,8]对纳入研究的偏倚风险和适用性独立进行评价。
1.5 统计分析
对纳入预测模型的建立情况、性能及验证、偏倚风险与适用性评价结果进行描述性分析。
2 结果
2.1 文献检索结果
初检共获得相关文献1 877篇,包括CNKI(n=262)、WanFang Data(n=1 078)、VIP(n=87)、PubMed(n=123)、Web of Science(n=94)、Embase(n=179)和Cochrane Library(n=54),经逐层筛选后,最终纳入12篇文献[9-20]。文献筛选流程及结果见附件图1。
2.2 纳入研究的基本特征
纳入研究的基本特征见表1。

2.3 预测模型的建立情况
共纳入12项研究,包含21个模型,模型建立情况的基本特征见表2。

2.4 预测模型性能及验证
纳入研究的预测模型性能及验证见表3。

2.5 偏倚风险与适用性评价结果
纳入研究的偏倚风险与适用性评价结果见表4。

3 讨论
本文共纳入12项研究,包含21个模型。纳入模型大多报告具有良好的区分度,部分研究缺少校准方法,且多数研究缺少外部验证。纳入研究的总体偏倚风险偏高,问题主要集中于预测因子领域,大多由于评估预测因子时未采用盲法。因限定了研究对象,大部分研究的总体适用性高。
纳入研究的预测因子主要包括年龄、性别和BMI。有研究[21]表明,KOA的发病率随年龄的增长而上升。在老年人群中,与衰老相关的各种因素都可导致KOA的发展。线粒体功能障碍、氧化应激和自噬减少会改变软骨细胞功能,促进合成代谢过程中的分解代谢过程和细胞死亡[22],衰老细胞的积累可诱导KOA的进展[23]。老年人长期积累关节使用和损伤,从而发生关节软骨的磨损、关节结构的退行性变化以及肌肉和韧带的退化,随着年龄的增长,股四头肌肌肉萎缩,肌力减弱,使步态和压力产生变化[24],影响KOA的发生发展。Novin等[25]发现,相比于男性,女性患有KOA或具有KOA影像学特征(如外侧关节间隙狭窄、胫骨内侧骨赘)的概率高出50%,且发病年龄也早于男性。在运动学中,Nishino等[26]研究发现,男性和女性的膝关节存在显著差异,男性的轴向旋转范围较小,而女性的外翻旋转范围较宽,由于生理特征,女性的膝关节更容易受伤。Culvenor等[27]指出,肌肉无力会导致KOA进展,肌肉力量偏低的女性疾病进展的风险大大增加。此外,雌激素可以维持关节稳态,缺乏雌激素会引起骨质疏松,并成为关节炎的危险因素之一,因此绝经后女性更容易发生KOA[28]。Huang等[29]在研究中指出BMI对KOA具有潜在的正因果效应。一项Meta分析[30]发现肥胖和超重与KOA风险显著相关。BMI增加导致KOA风险增加的一个重要因素是体重过重会使膝盖承受主要的负荷[31]。实验表明,体重负荷到软骨上可以诱导软骨变形和病变[32]。一项临床研究[33]证实,异常的负荷会导致关节软骨的组成、结构和机械性能发生变化。此外,膝关节损伤也是常见的危险因素。一项Meta分析[34]表明,既往膝关节损伤史是发生KOA的重要危险因素,交叉韧带和半月板损伤可提高KOA的发生率[35]。Yoo的研究[14]纳入了高血压作为预测因素,发现高血压与KOA有关,分析其原因可能是高血压相关的动脉硬化引起关节下软骨丢失和局部代谢性炎症因素[36]。另外生物标志物、影像学特征也是重要的预测因子,未来研究可从临床数据中挖掘KOA发病的预测因子,增强模型的说服力。
纳入模型中,建模受试者工作特征曲线下面积(area under curve,AUC)的范围为0.554~0.948之间,验模AUC的范围为0.6~0.94,建模AUC有4个效果一般,2个效果良好,验模AUC有10个效果一般,4个效果良好,说明现有模型总体的预测性能效果一般,具有较大的提升空间[37]。Takahashi的研究[17]将易感因子纳入预测因子,建立了三个模型,但AUC值(0.554~0.678)较低,通过结合临床数据和调整年龄后进一步改进模型,获得的平均AUC为0.867。Yoo等[14]使用人工神经网络为建模方法构建了放射学KOA和症状性KOA模型,在内部验证中,症状性KOA的AUC高达0.948,说明有良好的鉴别能力。有5项研究采用了外部验证,外部验证可以检验模型的推广性和泛化能力,为临床应用做准备[38]。Kerkhof等[15]的研究外部验证的AUC高达0.86,模型中纳入了KL评分。KL评分是通过站立位的膝关节X光片评估KOA严重程度的分级方法,一般认为KL≥2为患有KOA,该研究首次证明了这一风险因素的预测价值,意味着可疑的轻度退行性改变(如KL评分1所示)是未来KOA事件的重要预测因素。
12项纳入研究总体偏倚风险均呈高风险。本研究使用的工具是PROBAST,为评估预测模型研究提供了一种标准化的评估框架[8]。8项研究在评估预测因子均未采用盲法,结果的信息可能会对预测因子的评估过程产生影响,导致偏倚。为了精确地评价一个预测模型的预测能力,需评估研究中模型的区分度和校准度,区分度是能够有效区分不同风险水平的能力,校准度是预测实际发生的概率[37,39]。4项研究未报告校准度的信息,仅报告区分度,可能会导致预测模型出现一致性偏倚。为了提高风险预测模型的准确性和临床应用价值,在模型开发完成后,需要对模型的区分度和校准度进行细致地评估,有助于提升模型的预测性能和促进向临床应用的转化。在设计研究方法时,可以参考CHARMS和PROBAST的指导原则[6,7],以利于构建出低偏倚风险和适用性高的预测模型。
现有模型的数据来源大都是来自OAI数据库,其是一项针对KOA的多中心、前瞻性观察研究;预测因子以人口统计学、临床因素、影像学因素为主;部分模型的结果包含预测因子,可能会增加模型与实际结果的关联性;在统计分析方面,部分文章没有对模型的预测性能进行全面评估。在未来研究中,可考虑纳入多中心研究,扩大样本量,有利于识别模型在不同人群中的表现,并为模型的调整提供依据。目前建模方法以Logistic回归为主,优点是易于解释且在医学领域应用广泛;贝叶斯网络可以呈现不确定性和因果关系;人工神经网络能够处理数据中的大量输入特征和非线性关系[11]。除此之外还有随机森林、决策树等建模方法,具有训练速度快,功能强大等优点[40]。未来研究可结合不同建模方法的优点,以探索多种方法的组合,从而得出最有效的预测模型。此外,目前大部分研究缺少外部验证,而外部验证是评估预测模型泛化能力的重要步骤,其结果可以识别模型的不足,指导模型的进一步改进,避免发生欠拟合和过拟合的情况,从而增加该模型的适用性。后续研究应选择在不同时间段或地理区域收集的数据集对模型进行验证,必要时根据外部验证的结果对模型进行必要的更新和维护。
本研究存在一定的局限性:① 仅纳入中、英文文献,可能存在发表偏倚;② 纳入的KOA风险预测模型偏倚风险较高;③ 由于纳入的研究对象存在异质性,只进行了定性分析,评价结果相对局限。
综上所述,本研究对KOA发病风险预测模型研究进行系统评价,模型总体预测性能一般,且整体偏倚风险高,超过一半的模型未进行外部验证。建议未来建模可遵循CHARMS和PROBAST降低偏倚风险,增加具有理论基础和临床意义的预测因子,并加强对模型的验证,以提高预测模型的临床应用。