引用本文: 田园, 林志浩, 李瑞, 汪贯龙, 李红霞, 何磊. 基于组合优化的机器学习模型预测胃癌术后感染性并发症的诊断性研究. 中国循证医学杂志, 2024, 24(9): 993-1003. doi: 10.7507/1672-2531.202310069 复制
目前全球范围内胃癌的发病率及死亡率在各类恶性肿瘤中排名高居第五位及第四位[1]。尽早行根治性手术是治疗胃癌最主要的方法[2]。由于手术切除的范围广及时间长、机体免疫力降低、淋巴结清扫难度大等因素常导致胃癌术后感染性并发症发生。研究表明术后感染性并发症是胃癌患者的独立预后因素[3],由于长期的炎症会影响宿主的免疫抑制,导致微转移灶的增长以及其他原因从而导致死亡[4]。同时术后感染会延长患者的住院时间,推迟辅助治疗开始时机,严重影响手术效果。目前感染通常根据患者的临床症状来怀疑,常导致诊断延迟。而常规的影像学检查性价比较低,且有辐射的缺点。因此有必要确定特异性的生物标志物进行早期诊断,以便及时干预治疗,改善患者的预后。研究表明持续的炎症环境会促进癌细胞的增殖、侵袭和肿瘤血管生成等[5]。因此近年来,越来越多的研究集中在术前预后营养指数(prognostic nutritional index,PNI)、外周血中性粒细胞与外周血淋巴细胞比值(peripheral blood neutrophil/peripheral blood lymphocyte,NLR)、淋巴细胞绝对数与C-反应蛋白比值(lymphocyte/C-reactive protein,LCR)等综合性炎症指标作为预后生物标志物[6-8],他们计算简单方便更易进行临床指导。有研究表明以上指标有作为术后感染性疾病的生物标志物的潜力,甚至比单独的C-反应蛋白(C-reactive protein,CRP)和白细胞表现出更好的预测能力[9,10]。
目前随着人工智能的发展越来越多的应用于医学,机器学习作为一种根据给定数据自动构建的数学人工智能算法,能够捕捉大数据中复杂的非线性关系,更深入的挖掘临床数据中隐藏的关系。研究表明,机器学习相比传统的统计方法可以显著提高疾病发生和术后预后预测的准确性[11]。但是大部分现有研究中的机器学习常常无法避免过拟合的问题,造成模型预测精度较低。本文提出一种组合预测方法,基于适度贪心算法(greedy algorithm,GA)改进优化XGBoost算法,以期改善过拟合问题提高预测模型精度。因此,本研究旨在探究以上炎症指标是否是胃癌术后感染早期诊断的可靠生物标志物,并利用传统与改进的机器学习构建一个准确性较高的模型来评估胃癌术后感染的风险。
1 资料和方法
1.1 资料收集
回顾性收集2018年5月至2023年4月安徽医科大学第三附属医院胃肠外科为胃恶性肿瘤,行根治性手术的患者为研究对象。纳入标准:① 术后病理学检查诊断为原发性胃癌;② 美国麻醉师协会(American Society of Aneshesiologists,ASA)手术危险性分级1~3级;③ 术后病理分期为Ⅰ、Ⅱ和Ⅲ期。排除标准:① 术前合并急性、慢性感染性疾病、长期服用免疫抑制剂者;② 因出血或穿孔行急症手术;③ 术前接受过放疗、化疗或免疫治疗等辅助治疗或伴远端转移;④ 合并其他恶性肿瘤。收集符合研究标准的胃癌根治性手术患者的基本信息:性别、年龄、体重指数、ASA分级、既往共病(高血压、贫血、慢性肺部疾病、糖尿病)、手术方式、围手术期输血、手术范围、联合切除;实验室检查资料:术前7天内的淋巴细胞、中性粒细胞、CRP、血小板、单核细胞、癌胚抗原、前白蛋白、胆固醇、血清白蛋白、白细胞;肿瘤信息:术前TNM分期、细胞分化、肿瘤大小;手术信息:术中失血量、手术时间。本研究通过安徽医科大学第三附属医院伦理委员会批准(批准号:2023-45号),本研究中使用数据不包含个人身份信息。
1.2 诊断标准
术后感染并发症定义为:在术后30天内发生的手术导致的相关感染,包括:肺部感染、切口感染、吻合口漏、腹腔脓肿、泌尿系感染、十二指肠残端瘘等,感染的诊断标准参照相应指南[12]。简述如下:① 切口感染:皮肤和皮下组织术后30天内的感染,手术切口出现红、肿、热、痛,局部切口引流出血性或脓性的渗出物;② 吻合口瘘:临床出现压痛、反跳痛、肌紧张等腹膜炎体征,上消化道造影可见造影剂外溢,彩超提示吻合口周围出现气体、液体;③ 腹腔脓肿:术后30天内出现腹部症状,表现为腹痛、持续发热等症状,经穿刺或影像学检查证实,经手术引流或抗感染治疗后好转;④ 泌尿系感染:术后30天内出现的膀胱炎和尿道炎,临床出现尿频、尿急、尿痛等膀胱刺激症状,尿常规检查可有脓尿和血尿,尿液培养出致病菌;⑤ 肺部感染:患者体温大于38.5℃,白细胞计数升高,伴随呼吸道症状或痰液培养阳性,在肺部闻及干、湿啰音,胸片提示新的浸润性病变;⑥ 十二指肠残端瘘表现为上腹部压痛及肌紧张,引流管引流出浑浊样或胆汁样液体,并经影像学检查证实。采用Clavien-Dindo标准评估其严重程度并以此进行分级,将Ⅱ级及以上的感染性并发症作为本研究的感染性并发症组。在同一名患者发生两种或以上不同感染性并发症时,采用更高级别的并发症。并以此将纳入患者分为感染性并发症组及无感染性并发症组。
1.3 模型构建
1.3.1 传统机器学习模型构建
本文利用python 3.9构建各种机器学习模型:linear regression、random forest、支持向量机(support vector machine,SVM)、梯度反向传播(back propagation,BP)、LGBM、XGBoost,预测胃癌术后感染性并发症的发生情况。除XGBoost外其余5种模型通过python 3.9安装scikit-learn包构建。将患者的完整数据按照分层随机化分组法分为70%训练集和30%验证集。训练集数据用于预测模型的开发,验证集数据用于验证模型的性能。通过受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)、准确率、召回率、F1分数、精确率来评估模型性能。
1.3.2 组合优化机器学习模型构建
XGBoost模型使用中面临两个问题:① 模型进行预测时调参较多,调参过程繁琐,最优参数的选取难;② 模型应用gradient boosting思想,存在过拟合风险。因此本文采用GA来进行调参;然而使用GA算法当上一次迭代结果直接影响下一次迭代结果且出现谬误时,会对最终结果造成较大误差。故本文提出一种适度贪心(modified greedy algorithm,MGA)算法来进行归正。通过约束贪心幅度,避免过度贪心而导致误差累积,造成最终结果误差较大的情况。最终得到最优结果,并引入加权集成学习的方法来增加模型稳健性。
本文采用MGA算法对参数进行分组后分步调优,并且每次并不是只依赖于最优的参数子集,而是选取若干个最优的参数子集,主要调整XGBoost中的max_depth、min_child_weight、gamma、subsample、colsample_bytree、reg_alpha、reg_lambda参数。见表1。参数调整的取值范围见表2。


基于GA思想,本文将XGBoost的调参过程分为6个步骤,在每一步调参后取得的局部最优参数条件下,再对其他参数调优;以此类推,直至调整完所有参数。
尽管XGBoost表现一直很优越,但由于boosting算法的思想是追求“低偏差”而接受“高偏差”的特点,所以如果用单一的XGBoost将在建模上表现不好。为了避免因“数据分布不一致”“数据样本量小”和过拟合的风险较大的问题。本文利用XGBoost的集成来增加模型的稳健性。在调参的过程中采用不是仅仅选取最优的一组参数,而是选取较优的几组参数模型。调参步骤是:① 先调整max_depth和min_child_weight两组参数,选择得分最优的2组参数;② 其次再调整gamma参数,保留最优的2组数据;③ 然后调整subsample和colsample_bytree这两组参数,选择最优的2组数据;④ 接着对两组正则系数reg_alpha,reg_lambda进行参数调整,选取最优一组数据;⑤ 因此现在共有2×2×2×1=8组数据;⑥ 调整learning_rate和num_boost_round的参数,选取最优的一组参数。
将调参过程随机分为不同的几个步骤,并且在每一次的步骤中调整一个或者两个参数,例如上面的六步调整可以作为一种步骤组:① max_depth;② min_child_weight;③ gamma;④ subsample,colsample_bytree;⑤ reg_alpha,reg_lambda;⑥ learning_rate,num_boost_round。综上所述,最终本文得到共8组最靠前的XGBoost参数模型见表3。

通过以上方法调参后得到的8组XGBoost参数模型,根据调参时参数的最优和次优进行比较排序从而加权集成学习。最优的分配权重2/3,次优的分配权重1/3。迭代次数设置为500次。故所获得的8组参数模型比重分别为:0.296、0.148、0.148、0.074、0.148、0.074、0.074、0.038。
因此最终MGA-XGBoost模型为:Model=0.296×model 1+0.148×model 2+0.148×model 3+0.074×model 4+0.148×model 5+0.074×model 6+0.074×model 7+0.038×model 8。
1.4 统计分析
采用SPSS 24.0软件对数据进行处理与特征分析,通过ROC计算NLR、外周血血小板与外周血淋巴细胞比值(peripheral blood platelet/peripheral blood lymphocyte,PLR)、PNI、LCR及外周血淋巴细胞与单核细胞比值(peripheral blood lymphocyte/peripheral monocytes,LMR)的最佳截断值,见表4。在单因素分析中,连续变量[体重指数、手术时间、术中失血量、术前白细胞、术前中性粒细胞、术前淋巴细胞、术前CRP、癌胚抗原(carcinoembryonic antigen,CEA)、术前白蛋白、术前前白蛋白、术前胆固醇、肿瘤大小]以±s表示,并使用U检验进行分析,以评估感染组与非感染组之间的显著性水平。单因素分析中的计数资料(性别、年龄、ASA分级、高血压、糖尿病、慢性肺部疾病、贫血、手术方式、手术范围、围手术期输血、联合切除、细胞分化、分期、NLR、PLR、PNI、LCR、LMR)以病例数表示,组间采用χ2检验。根据训练集的均值和标准差对连续变量进行归一化。分类变量被编码为二分类变量,1表示有事件,0表示没有事件;性别也被编码,1代表男性,0代表女性。P<0.05为差异有统计学意义。

2 结果
2.1 患者基本特征
2018年5月至2023年4月期间有452例患者在我院胃肠外科行胃癌根治术。根据纳入与排除标准,最终纳入420例患者,其中男性172例(41%);女性248例(59%);年龄≥65岁237例(56%);<65岁183例(44%);纳入的420例患者中术后感染性并发症共84例,发生率20%。分层随机化分组后训练组占70%(n=294),测试组占30%(n=126)。为了更好地了解模型的数据特征,将患者依据训练集和验证集分为感染组和非感染两组。其中主要指标术前LCR、PNI、LMR、年龄、手术时间、术前白蛋白数据分布情况见图1。差异无统计学意义(P>0.05)。

2.2 胃癌术后感染性并发症的单因素分析结果
单因素分析结果显示:年龄、手术时间、糖尿病、手术切除范围、联合切除、分期、术前白蛋白、围手术期输血、术前PNI、LCR及LMR等方面差异有统计学意义(P<0.05),见表5。

2.3 机器学习模型效能预测
相关性分析展示了年龄、手术时间、糖尿病、手术切除范围、联合切除、分期、术前白蛋白、围手术期输血、术前PNI、LCR及LMR之间的关联性,同时展示术后感染性并发症与各个预测因素之间的关系。其中术后感染性并发症与年龄(0.51)、糖尿病(0.31)表现出强关联性,与LMR、LCR、术前白蛋白以及手术切除范围呈现出负相关。此外PNI和LMR(0.42)之间具有相关性。见图2。

图3展示了linear regression、random forest、SVM、BP、LGBM、XGBoost及改进后的MGA-XGBoost七个机器学习模型对胃癌术后感染性并发症的预测性能。结果表明MGA-XGBoost预测模型的AUC值最高(0.936),random forest、SVM和BP均表现出一般的预测能力(AUC范围为0.76~0.79)。

除了AUC外,本文还引入了准确率、召回率、F1分数、精确率来评估各种预测模型性能,见表6。可以看出MGA-XGBoost(准确率为0.889,精确率为0.79)、XGBoost(准确率为0.881,精确率为0.75)、LGBM(准确率为0.881,精确率为0.778)都表现出较好的精确率和准确率。BP的召回率(0.48)、F1分数(0.522)、精确率(0.571)均不理想。

同时本研究对准确性最高的MGA-XGBoost预测模型内部特征重要性进行可视化显示,结果见图4。糖尿病、PNI和LCR分别排名第一、第二和第三。结合与术后感染性并发症的相关性分析以及其在MGA-XGBoost算法中重要性分析的结果,将糖尿病和PNI视为重要的预测因素。

3 讨论
目前机器学习在外科领域的研究中仍处于初级阶段,但过往的研究表明其在风险预测方面有巨大潜力[13]。不同的研究之间存在着较大的异质性,主要表现为不同模型的选择及样本量的差异。目前存在着成千上万的机器学习算法,对待不同的问题采用哪种算法最合适是需要深思熟虑的。因此本研究比较了六种常规机器学习算法,其中XGBoost的表现最优,AUC值为0.895。XGBoost是通过迭代构建、测试和调整一系列决策模型以校正结果,最终产生针对分类任务优化的决策树算法[14]。因此在处理结构化数据和非结构化数据方面表现出色,通常可以获得比其他算法更高的准确性。研究者为了开发机器学习模型通常会使用大量的样本进行训练。如,Tey等[15]的研究包括21 892多名患者和17个不同的变量。在他们的研究中,人工神经网络在预测肺炎患者14天再次入院的早期检测方面优于卷积神经网络。然而,Ma等[16]利用XGBoost成功构建急性呼吸衰竭的预测模型中仅纳入312名患者,与本研究样本量类似。目前不同研究中的样本量从73例[17]到111 888例[18]不等,也表明样本量不是成功的机器学习模型的唯一因素。但是数据不足及模型复杂度过高,常常会导致机器学习中最常见的过拟合问题。因此针对这个问题本文进行组合优化。在本研究中,改进过的MGA-XGBoost在感染性术后并发症风险预测方面表现最好。与其他六个模型相比, AUC、准确率和召回率在测试数据集中最高,对预测胃癌患者的术后感染性并发症展现出巨大的优越性。
本研究通过单因素回归分析的方法探索了胃癌根治术后感染性并发症的危险因素,包括:年龄、手术时间、糖尿病、手术切除范围、联合切除、分期、术前白蛋白、围手术期输血、术前PNI、LCR及LMR。以上危险因素都在既往不同文献中报道过与术后感染性并发症有关[19,20]。Kunisaki等[21]研究显示,术中联合脏器切除是胃癌根治术后发生腹腔感染的影响因素,可能由于联合脏器切除扩大了手术切除范围,延长了手术时间,从而发生术后感染的风险增大。本研究中手术时间也是术后感染的独立危险因素,手术时间越长则反映了手术的复杂性,不仅会导致增加切口暴露的污染风险,同时对患者造成的创伤也会增大[22]。本研究的创新在于纳入更多以往模型构建研究中未包括的综合性炎症指标,如PNI、LCR、LMR。此外术前NLR、PLR在本研究中都不是胃癌术后感染的独立风险因素。
虽然XGBoost、LGBM和随机森林等复杂算法在预测建模中展现出强大的性能,但它们是基于“黑盒”设计的,不透明性使得其很难在临床环境中解释和应用。其次临床工作中大部分医生都能识别出导致术后并发症的因素,但难以判断如何优先考虑这些特征。因此本研究探索了MGA-XGBoost预测模型通过结构分数的增益情况计算出选择特征作为分割点,并通过weight、gain、cover联合判断重要性。这种方法改进了既往大部分研究发布的不透明的机器学习模型,同时我们还提出了简洁实用的临床建议。在本研究中排名前三的主要危险因素包括:糖尿病、PNI和LCR,提示医生在临床工作中优先对这三个因素给予重点关注。然而值得注意的是,在本研究的相关性分析中LCR与术后感染性并发症呈负相关,表明在常规分析中往往可能会遗漏某些重要因素。
本研究结果显示,术前合并糖尿病的患者术后发生感染性并发症的风险显著高于无糖尿病史的患者。罹患糖尿病的患者固有免疫和获得性免疫功能均不同程度受损,对病原体的侵袭抵抗能力不足[23]。同时合并糖尿病的患者手术应激反应更明显,剧烈的应激反应会使血糖迅速升高且不易控制[24]。有研究表明糖尿病并不是术后感染的绝对危险因素,术后血糖控制不良才是引起术后感染的高危险因素[25]。高血糖水平为细菌繁殖创造了有利环境,而医院聚集各种病原菌,因此患者的住院时间越长,术后感染的发生概率越高。对于合并糖尿病患者,在术前、术后应严格控制血糖水平,及时调整降糖药物用量和使用频率,加强术后护理,尽早出院。
PNI最初用于评估胃肠道肿瘤患者的营养、免疫状况及手术风险,根据血清白蛋白和淋巴细胞计数而得来。低白蛋白提示机体营养状态较差,会导致负氮平衡使得体内堆积大量代谢物,更容易发生术后感染[26]。本研究中低蛋白血症也是导致患者术后感染发生的独立危险因素。淋巴细胞值是反映机体免疫状态的指标,通过介导细胞毒性死亡与肿瘤细胞的发展和凋亡密切相关[27]。而感染和炎症反应程度是否进一步加重是由机体的营养和免疫状态决定。研究表明PNI对多种肿瘤的短期并发症和长期预后有一定的预测价值[28,29]。Matsuda等[30]研究发现各种术前免疫营养指数中PNI为严重并发症提供最高的预测值,其中与高PNI组相比,低PNI组表现出更高的两种主要并发症发生率(27.0% vs. 13.4%)和感染性并发症(14.9% vs. 3.5%)。Lee等[31]研究中提示低PNI是胃切除术后总体并发症的独立危险因素。与本研究结果一致,结果提示低PNI患者术后发生感染性并发症风险较高。因此对于术前低PNI患者可以给予以营养制剂干预,从而提高总淋巴细胞计数和免疫功能,降低术后感染的发生。
CRP水平可以反映全身炎症反应的水平,其升高早于中性粒细胞增多或淋巴细胞减少,在炎症过程中其血液水平更稳定[32]。基于以上因素LCR在早期炎症及反应中可能会更加敏感。Okugawa等[8]分析术前九种血液炎症指标的预后价值时,首次将LCR确定为结直肠癌的预后生物标志物。同时他们的另一项研究[33]表明术前低LCR水平是胃癌患者术后手术感染总生存率和无病生存期的独立预测因素。Cheng等[34]研究也表明LCR可有效预测胃癌根治术后胃癌患者的术后并发症和长期预后,且其预测值明显优于其他基于炎症的评分。与这些研究一致,本研究结果表明,术前低LCR患者表明癌症患者的免疫反应受损和全身炎症反应增强,易发生术后感染。
本研究中建立的MGA-XGBoost模型有助于临床医生对术后感染进行早期预测,从而尽早进行最佳干预和治疗,并最终改善患者的护理。对高风险患者预防性应用广谱抗生素以减少术后感染的发生率,根据抗生素的药代动力学特点和用药途径判断应用抗生素的时机。同时近年来过度使用抗生素,院内感染的发生率越来越高,导致多药耐药菌的高患病率。因此本模型可以避免低风险患者不必要或过度使用抗生素;同时指导医生采取术前干预措施纠正或改善并发症的预测因素(如低白蛋白和合并糖尿病)。如术前积极控制患者血糖,加强对老年患者管理,予以营养制剂提高患者免疫力。同时,对于高危患者的术后护理应加强管理,例如积极鼓励患者活动,促进排痰咳嗽等。此外,模型中所有预测指标都是在临床工作中简单易得的,以便减少患者的治疗费用和额外的检查操作。
本研究的局限性:① 样本量较小,因为所有数据都是从一个中心获得的。未来需要进行多中心研究进行训练和验证。② 机器学习算法的性能和可推广性取决于分析的数据质量,本研究是回顾性研究,存在不可避免的选择偏差。例如,在我们的中心,很少有患者患有吻合口瘘。此外本研究涉及的变量可能不足。当前算法中未测量的其他术前术中因素可能是患者风险的更重要的预测因素。未来的研究需评估引入新的预测因子是否可以提高模型的预测准确性。③ 本研究中术后感染性并发症的总体发生率为20%,这被认为是相对较低的。由于术后感染性并发症的发生率较低,未来应该进行包括大量胃癌患者在内的研究来克服这一限制。
综上所述,本研究证明了具有11个风险因素的MGA-XGBoost模型可用于预测胃癌患者术后感染性并发症,具有较高的准确性。同时,将风险预测与特征重要性分析相结合,帮助临床医生掌握术前干预相关指标,从而降低术后感染的风险。
目前全球范围内胃癌的发病率及死亡率在各类恶性肿瘤中排名高居第五位及第四位[1]。尽早行根治性手术是治疗胃癌最主要的方法[2]。由于手术切除的范围广及时间长、机体免疫力降低、淋巴结清扫难度大等因素常导致胃癌术后感染性并发症发生。研究表明术后感染性并发症是胃癌患者的独立预后因素[3],由于长期的炎症会影响宿主的免疫抑制,导致微转移灶的增长以及其他原因从而导致死亡[4]。同时术后感染会延长患者的住院时间,推迟辅助治疗开始时机,严重影响手术效果。目前感染通常根据患者的临床症状来怀疑,常导致诊断延迟。而常规的影像学检查性价比较低,且有辐射的缺点。因此有必要确定特异性的生物标志物进行早期诊断,以便及时干预治疗,改善患者的预后。研究表明持续的炎症环境会促进癌细胞的增殖、侵袭和肿瘤血管生成等[5]。因此近年来,越来越多的研究集中在术前预后营养指数(prognostic nutritional index,PNI)、外周血中性粒细胞与外周血淋巴细胞比值(peripheral blood neutrophil/peripheral blood lymphocyte,NLR)、淋巴细胞绝对数与C-反应蛋白比值(lymphocyte/C-reactive protein,LCR)等综合性炎症指标作为预后生物标志物[6-8],他们计算简单方便更易进行临床指导。有研究表明以上指标有作为术后感染性疾病的生物标志物的潜力,甚至比单独的C-反应蛋白(C-reactive protein,CRP)和白细胞表现出更好的预测能力[9,10]。
目前随着人工智能的发展越来越多的应用于医学,机器学习作为一种根据给定数据自动构建的数学人工智能算法,能够捕捉大数据中复杂的非线性关系,更深入的挖掘临床数据中隐藏的关系。研究表明,机器学习相比传统的统计方法可以显著提高疾病发生和术后预后预测的准确性[11]。但是大部分现有研究中的机器学习常常无法避免过拟合的问题,造成模型预测精度较低。本文提出一种组合预测方法,基于适度贪心算法(greedy algorithm,GA)改进优化XGBoost算法,以期改善过拟合问题提高预测模型精度。因此,本研究旨在探究以上炎症指标是否是胃癌术后感染早期诊断的可靠生物标志物,并利用传统与改进的机器学习构建一个准确性较高的模型来评估胃癌术后感染的风险。
1 资料和方法
1.1 资料收集
回顾性收集2018年5月至2023年4月安徽医科大学第三附属医院胃肠外科为胃恶性肿瘤,行根治性手术的患者为研究对象。纳入标准:① 术后病理学检查诊断为原发性胃癌;② 美国麻醉师协会(American Society of Aneshesiologists,ASA)手术危险性分级1~3级;③ 术后病理分期为Ⅰ、Ⅱ和Ⅲ期。排除标准:① 术前合并急性、慢性感染性疾病、长期服用免疫抑制剂者;② 因出血或穿孔行急症手术;③ 术前接受过放疗、化疗或免疫治疗等辅助治疗或伴远端转移;④ 合并其他恶性肿瘤。收集符合研究标准的胃癌根治性手术患者的基本信息:性别、年龄、体重指数、ASA分级、既往共病(高血压、贫血、慢性肺部疾病、糖尿病)、手术方式、围手术期输血、手术范围、联合切除;实验室检查资料:术前7天内的淋巴细胞、中性粒细胞、CRP、血小板、单核细胞、癌胚抗原、前白蛋白、胆固醇、血清白蛋白、白细胞;肿瘤信息:术前TNM分期、细胞分化、肿瘤大小;手术信息:术中失血量、手术时间。本研究通过安徽医科大学第三附属医院伦理委员会批准(批准号:2023-45号),本研究中使用数据不包含个人身份信息。
1.2 诊断标准
术后感染并发症定义为:在术后30天内发生的手术导致的相关感染,包括:肺部感染、切口感染、吻合口漏、腹腔脓肿、泌尿系感染、十二指肠残端瘘等,感染的诊断标准参照相应指南[12]。简述如下:① 切口感染:皮肤和皮下组织术后30天内的感染,手术切口出现红、肿、热、痛,局部切口引流出血性或脓性的渗出物;② 吻合口瘘:临床出现压痛、反跳痛、肌紧张等腹膜炎体征,上消化道造影可见造影剂外溢,彩超提示吻合口周围出现气体、液体;③ 腹腔脓肿:术后30天内出现腹部症状,表现为腹痛、持续发热等症状,经穿刺或影像学检查证实,经手术引流或抗感染治疗后好转;④ 泌尿系感染:术后30天内出现的膀胱炎和尿道炎,临床出现尿频、尿急、尿痛等膀胱刺激症状,尿常规检查可有脓尿和血尿,尿液培养出致病菌;⑤ 肺部感染:患者体温大于38.5℃,白细胞计数升高,伴随呼吸道症状或痰液培养阳性,在肺部闻及干、湿啰音,胸片提示新的浸润性病变;⑥ 十二指肠残端瘘表现为上腹部压痛及肌紧张,引流管引流出浑浊样或胆汁样液体,并经影像学检查证实。采用Clavien-Dindo标准评估其严重程度并以此进行分级,将Ⅱ级及以上的感染性并发症作为本研究的感染性并发症组。在同一名患者发生两种或以上不同感染性并发症时,采用更高级别的并发症。并以此将纳入患者分为感染性并发症组及无感染性并发症组。
1.3 模型构建
1.3.1 传统机器学习模型构建
本文利用python 3.9构建各种机器学习模型:linear regression、random forest、支持向量机(support vector machine,SVM)、梯度反向传播(back propagation,BP)、LGBM、XGBoost,预测胃癌术后感染性并发症的发生情况。除XGBoost外其余5种模型通过python 3.9安装scikit-learn包构建。将患者的完整数据按照分层随机化分组法分为70%训练集和30%验证集。训练集数据用于预测模型的开发,验证集数据用于验证模型的性能。通过受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)、准确率、召回率、F1分数、精确率来评估模型性能。
1.3.2 组合优化机器学习模型构建
XGBoost模型使用中面临两个问题:① 模型进行预测时调参较多,调参过程繁琐,最优参数的选取难;② 模型应用gradient boosting思想,存在过拟合风险。因此本文采用GA来进行调参;然而使用GA算法当上一次迭代结果直接影响下一次迭代结果且出现谬误时,会对最终结果造成较大误差。故本文提出一种适度贪心(modified greedy algorithm,MGA)算法来进行归正。通过约束贪心幅度,避免过度贪心而导致误差累积,造成最终结果误差较大的情况。最终得到最优结果,并引入加权集成学习的方法来增加模型稳健性。
本文采用MGA算法对参数进行分组后分步调优,并且每次并不是只依赖于最优的参数子集,而是选取若干个最优的参数子集,主要调整XGBoost中的max_depth、min_child_weight、gamma、subsample、colsample_bytree、reg_alpha、reg_lambda参数。见表1。参数调整的取值范围见表2。


基于GA思想,本文将XGBoost的调参过程分为6个步骤,在每一步调参后取得的局部最优参数条件下,再对其他参数调优;以此类推,直至调整完所有参数。
尽管XGBoost表现一直很优越,但由于boosting算法的思想是追求“低偏差”而接受“高偏差”的特点,所以如果用单一的XGBoost将在建模上表现不好。为了避免因“数据分布不一致”“数据样本量小”和过拟合的风险较大的问题。本文利用XGBoost的集成来增加模型的稳健性。在调参的过程中采用不是仅仅选取最优的一组参数,而是选取较优的几组参数模型。调参步骤是:① 先调整max_depth和min_child_weight两组参数,选择得分最优的2组参数;② 其次再调整gamma参数,保留最优的2组数据;③ 然后调整subsample和colsample_bytree这两组参数,选择最优的2组数据;④ 接着对两组正则系数reg_alpha,reg_lambda进行参数调整,选取最优一组数据;⑤ 因此现在共有2×2×2×1=8组数据;⑥ 调整learning_rate和num_boost_round的参数,选取最优的一组参数。
将调参过程随机分为不同的几个步骤,并且在每一次的步骤中调整一个或者两个参数,例如上面的六步调整可以作为一种步骤组:① max_depth;② min_child_weight;③ gamma;④ subsample,colsample_bytree;⑤ reg_alpha,reg_lambda;⑥ learning_rate,num_boost_round。综上所述,最终本文得到共8组最靠前的XGBoost参数模型见表3。

通过以上方法调参后得到的8组XGBoost参数模型,根据调参时参数的最优和次优进行比较排序从而加权集成学习。最优的分配权重2/3,次优的分配权重1/3。迭代次数设置为500次。故所获得的8组参数模型比重分别为:0.296、0.148、0.148、0.074、0.148、0.074、0.074、0.038。
因此最终MGA-XGBoost模型为:Model=0.296×model 1+0.148×model 2+0.148×model 3+0.074×model 4+0.148×model 5+0.074×model 6+0.074×model 7+0.038×model 8。
1.4 统计分析
采用SPSS 24.0软件对数据进行处理与特征分析,通过ROC计算NLR、外周血血小板与外周血淋巴细胞比值(peripheral blood platelet/peripheral blood lymphocyte,PLR)、PNI、LCR及外周血淋巴细胞与单核细胞比值(peripheral blood lymphocyte/peripheral monocytes,LMR)的最佳截断值,见表4。在单因素分析中,连续变量[体重指数、手术时间、术中失血量、术前白细胞、术前中性粒细胞、术前淋巴细胞、术前CRP、癌胚抗原(carcinoembryonic antigen,CEA)、术前白蛋白、术前前白蛋白、术前胆固醇、肿瘤大小]以±s表示,并使用U检验进行分析,以评估感染组与非感染组之间的显著性水平。单因素分析中的计数资料(性别、年龄、ASA分级、高血压、糖尿病、慢性肺部疾病、贫血、手术方式、手术范围、围手术期输血、联合切除、细胞分化、分期、NLR、PLR、PNI、LCR、LMR)以病例数表示,组间采用χ2检验。根据训练集的均值和标准差对连续变量进行归一化。分类变量被编码为二分类变量,1表示有事件,0表示没有事件;性别也被编码,1代表男性,0代表女性。P<0.05为差异有统计学意义。

2 结果
2.1 患者基本特征
2018年5月至2023年4月期间有452例患者在我院胃肠外科行胃癌根治术。根据纳入与排除标准,最终纳入420例患者,其中男性172例(41%);女性248例(59%);年龄≥65岁237例(56%);<65岁183例(44%);纳入的420例患者中术后感染性并发症共84例,发生率20%。分层随机化分组后训练组占70%(n=294),测试组占30%(n=126)。为了更好地了解模型的数据特征,将患者依据训练集和验证集分为感染组和非感染两组。其中主要指标术前LCR、PNI、LMR、年龄、手术时间、术前白蛋白数据分布情况见图1。差异无统计学意义(P>0.05)。

2.2 胃癌术后感染性并发症的单因素分析结果
单因素分析结果显示:年龄、手术时间、糖尿病、手术切除范围、联合切除、分期、术前白蛋白、围手术期输血、术前PNI、LCR及LMR等方面差异有统计学意义(P<0.05),见表5。

2.3 机器学习模型效能预测
相关性分析展示了年龄、手术时间、糖尿病、手术切除范围、联合切除、分期、术前白蛋白、围手术期输血、术前PNI、LCR及LMR之间的关联性,同时展示术后感染性并发症与各个预测因素之间的关系。其中术后感染性并发症与年龄(0.51)、糖尿病(0.31)表现出强关联性,与LMR、LCR、术前白蛋白以及手术切除范围呈现出负相关。此外PNI和LMR(0.42)之间具有相关性。见图2。

图3展示了linear regression、random forest、SVM、BP、LGBM、XGBoost及改进后的MGA-XGBoost七个机器学习模型对胃癌术后感染性并发症的预测性能。结果表明MGA-XGBoost预测模型的AUC值最高(0.936),random forest、SVM和BP均表现出一般的预测能力(AUC范围为0.76~0.79)。

除了AUC外,本文还引入了准确率、召回率、F1分数、精确率来评估各种预测模型性能,见表6。可以看出MGA-XGBoost(准确率为0.889,精确率为0.79)、XGBoost(准确率为0.881,精确率为0.75)、LGBM(准确率为0.881,精确率为0.778)都表现出较好的精确率和准确率。BP的召回率(0.48)、F1分数(0.522)、精确率(0.571)均不理想。

同时本研究对准确性最高的MGA-XGBoost预测模型内部特征重要性进行可视化显示,结果见图4。糖尿病、PNI和LCR分别排名第一、第二和第三。结合与术后感染性并发症的相关性分析以及其在MGA-XGBoost算法中重要性分析的结果,将糖尿病和PNI视为重要的预测因素。

3 讨论
目前机器学习在外科领域的研究中仍处于初级阶段,但过往的研究表明其在风险预测方面有巨大潜力[13]。不同的研究之间存在着较大的异质性,主要表现为不同模型的选择及样本量的差异。目前存在着成千上万的机器学习算法,对待不同的问题采用哪种算法最合适是需要深思熟虑的。因此本研究比较了六种常规机器学习算法,其中XGBoost的表现最优,AUC值为0.895。XGBoost是通过迭代构建、测试和调整一系列决策模型以校正结果,最终产生针对分类任务优化的决策树算法[14]。因此在处理结构化数据和非结构化数据方面表现出色,通常可以获得比其他算法更高的准确性。研究者为了开发机器学习模型通常会使用大量的样本进行训练。如,Tey等[15]的研究包括21 892多名患者和17个不同的变量。在他们的研究中,人工神经网络在预测肺炎患者14天再次入院的早期检测方面优于卷积神经网络。然而,Ma等[16]利用XGBoost成功构建急性呼吸衰竭的预测模型中仅纳入312名患者,与本研究样本量类似。目前不同研究中的样本量从73例[17]到111 888例[18]不等,也表明样本量不是成功的机器学习模型的唯一因素。但是数据不足及模型复杂度过高,常常会导致机器学习中最常见的过拟合问题。因此针对这个问题本文进行组合优化。在本研究中,改进过的MGA-XGBoost在感染性术后并发症风险预测方面表现最好。与其他六个模型相比, AUC、准确率和召回率在测试数据集中最高,对预测胃癌患者的术后感染性并发症展现出巨大的优越性。
本研究通过单因素回归分析的方法探索了胃癌根治术后感染性并发症的危险因素,包括:年龄、手术时间、糖尿病、手术切除范围、联合切除、分期、术前白蛋白、围手术期输血、术前PNI、LCR及LMR。以上危险因素都在既往不同文献中报道过与术后感染性并发症有关[19,20]。Kunisaki等[21]研究显示,术中联合脏器切除是胃癌根治术后发生腹腔感染的影响因素,可能由于联合脏器切除扩大了手术切除范围,延长了手术时间,从而发生术后感染的风险增大。本研究中手术时间也是术后感染的独立危险因素,手术时间越长则反映了手术的复杂性,不仅会导致增加切口暴露的污染风险,同时对患者造成的创伤也会增大[22]。本研究的创新在于纳入更多以往模型构建研究中未包括的综合性炎症指标,如PNI、LCR、LMR。此外术前NLR、PLR在本研究中都不是胃癌术后感染的独立风险因素。
虽然XGBoost、LGBM和随机森林等复杂算法在预测建模中展现出强大的性能,但它们是基于“黑盒”设计的,不透明性使得其很难在临床环境中解释和应用。其次临床工作中大部分医生都能识别出导致术后并发症的因素,但难以判断如何优先考虑这些特征。因此本研究探索了MGA-XGBoost预测模型通过结构分数的增益情况计算出选择特征作为分割点,并通过weight、gain、cover联合判断重要性。这种方法改进了既往大部分研究发布的不透明的机器学习模型,同时我们还提出了简洁实用的临床建议。在本研究中排名前三的主要危险因素包括:糖尿病、PNI和LCR,提示医生在临床工作中优先对这三个因素给予重点关注。然而值得注意的是,在本研究的相关性分析中LCR与术后感染性并发症呈负相关,表明在常规分析中往往可能会遗漏某些重要因素。
本研究结果显示,术前合并糖尿病的患者术后发生感染性并发症的风险显著高于无糖尿病史的患者。罹患糖尿病的患者固有免疫和获得性免疫功能均不同程度受损,对病原体的侵袭抵抗能力不足[23]。同时合并糖尿病的患者手术应激反应更明显,剧烈的应激反应会使血糖迅速升高且不易控制[24]。有研究表明糖尿病并不是术后感染的绝对危险因素,术后血糖控制不良才是引起术后感染的高危险因素[25]。高血糖水平为细菌繁殖创造了有利环境,而医院聚集各种病原菌,因此患者的住院时间越长,术后感染的发生概率越高。对于合并糖尿病患者,在术前、术后应严格控制血糖水平,及时调整降糖药物用量和使用频率,加强术后护理,尽早出院。
PNI最初用于评估胃肠道肿瘤患者的营养、免疫状况及手术风险,根据血清白蛋白和淋巴细胞计数而得来。低白蛋白提示机体营养状态较差,会导致负氮平衡使得体内堆积大量代谢物,更容易发生术后感染[26]。本研究中低蛋白血症也是导致患者术后感染发生的独立危险因素。淋巴细胞值是反映机体免疫状态的指标,通过介导细胞毒性死亡与肿瘤细胞的发展和凋亡密切相关[27]。而感染和炎症反应程度是否进一步加重是由机体的营养和免疫状态决定。研究表明PNI对多种肿瘤的短期并发症和长期预后有一定的预测价值[28,29]。Matsuda等[30]研究发现各种术前免疫营养指数中PNI为严重并发症提供最高的预测值,其中与高PNI组相比,低PNI组表现出更高的两种主要并发症发生率(27.0% vs. 13.4%)和感染性并发症(14.9% vs. 3.5%)。Lee等[31]研究中提示低PNI是胃切除术后总体并发症的独立危险因素。与本研究结果一致,结果提示低PNI患者术后发生感染性并发症风险较高。因此对于术前低PNI患者可以给予以营养制剂干预,从而提高总淋巴细胞计数和免疫功能,降低术后感染的发生。
CRP水平可以反映全身炎症反应的水平,其升高早于中性粒细胞增多或淋巴细胞减少,在炎症过程中其血液水平更稳定[32]。基于以上因素LCR在早期炎症及反应中可能会更加敏感。Okugawa等[8]分析术前九种血液炎症指标的预后价值时,首次将LCR确定为结直肠癌的预后生物标志物。同时他们的另一项研究[33]表明术前低LCR水平是胃癌患者术后手术感染总生存率和无病生存期的独立预测因素。Cheng等[34]研究也表明LCR可有效预测胃癌根治术后胃癌患者的术后并发症和长期预后,且其预测值明显优于其他基于炎症的评分。与这些研究一致,本研究结果表明,术前低LCR患者表明癌症患者的免疫反应受损和全身炎症反应增强,易发生术后感染。
本研究中建立的MGA-XGBoost模型有助于临床医生对术后感染进行早期预测,从而尽早进行最佳干预和治疗,并最终改善患者的护理。对高风险患者预防性应用广谱抗生素以减少术后感染的发生率,根据抗生素的药代动力学特点和用药途径判断应用抗生素的时机。同时近年来过度使用抗生素,院内感染的发生率越来越高,导致多药耐药菌的高患病率。因此本模型可以避免低风险患者不必要或过度使用抗生素;同时指导医生采取术前干预措施纠正或改善并发症的预测因素(如低白蛋白和合并糖尿病)。如术前积极控制患者血糖,加强对老年患者管理,予以营养制剂提高患者免疫力。同时,对于高危患者的术后护理应加强管理,例如积极鼓励患者活动,促进排痰咳嗽等。此外,模型中所有预测指标都是在临床工作中简单易得的,以便减少患者的治疗费用和额外的检查操作。
本研究的局限性:① 样本量较小,因为所有数据都是从一个中心获得的。未来需要进行多中心研究进行训练和验证。② 机器学习算法的性能和可推广性取决于分析的数据质量,本研究是回顾性研究,存在不可避免的选择偏差。例如,在我们的中心,很少有患者患有吻合口瘘。此外本研究涉及的变量可能不足。当前算法中未测量的其他术前术中因素可能是患者风险的更重要的预测因素。未来的研究需评估引入新的预测因子是否可以提高模型的预测准确性。③ 本研究中术后感染性并发症的总体发生率为20%,这被认为是相对较低的。由于术后感染性并发症的发生率较低,未来应该进行包括大量胃癌患者在内的研究来克服这一限制。
综上所述,本研究证明了具有11个风险因素的MGA-XGBoost模型可用于预测胃癌患者术后感染性并发症,具有较高的准确性。同时,将风险预测与特征重要性分析相结合,帮助临床医生掌握术前干预相关指标,从而降低术后感染的风险。