基于真实世界场景构建的华西肠癌数据库(Database from Colorectal Cancer,DACCA)为结直肠癌(colorectal cancer,CRC)数据的一系列结构化应用创造了条件。在本系列以往报道中,四川大学华西医院团队已针对数据库构建方式与基本数据状态完成了第一板块“数据构建”和第二板块“数据研究”的阐述。在此之后,四川大学华西医院团队会在第三板块“数据库解读”和第四板块“数据库决策”对于如何运用DACCA来解答CRC全生命周期流程中的诸多临床问题进行系列报道。本研究属于数据库解读第一章人群特征的职业相关系列研究。职业作为CRC相关的危险因素[1],有必要进行更加深入的研究。目前有研究[2]发现,CRC患者的职业与5年生存率有关,体力劳动者较非体力劳动者死亡风险更高。但是关于患者职业与长期预后的关系还缺乏相关报道。笔者选取DACCA数据库中职业与预后的相关数据,进一步分析在真实世界场景下职业对患者长期预后的影响。
1 资料与方法
1.1 数据库版本
本研究使用截至2022年6月29日更新的DACCA数据库数据。
1.2 分析目标
本研究分析不同职业患者长期预后的差异,以探究CRC患者职业与长期预后的关系。根据随访数据特征,选择1、3、5及10年时间点用于预后分析,同时以肿瘤病理学TNM(pathological TNM,pTNM)分期进行亚组分析。
1.3 变量的选择及定义
人口学变量,包括性别、年龄及职业;肿瘤学变量,包括pTNM分期、肿瘤部位(本研究进行归类后分为直肠和结肠)、肿瘤病理学性质、分化程度;结局变量,包括总生存和疾病特异性生存。上述变量的具体定义及分类方法详见《数据库建设第一部分:个人数据的标签与结构化》[3]、《数据库建设第五部分:结直肠癌的肿瘤特征—模块的设计(二)》[4]、《数据库建设第六部分:结直肠癌分期的标签与结构化》[5]及《数据库建设第十一部分:结直肠癌随访的标签与结构化》[6]。目前最新版《职业分类与代码》继续将我国职业归为8大类,仍然是依据在业人口本人所从事的工作性质的同一性进行职业分类[7]。本研究根据8大类再分为脑力劳动者和体力劳动者进行职类分析[7-8]。DACCA中的生存时间(月)是指从患者手术日期到术后随访终期/死亡日期的经过时间,分析总生存和疾病特异性生存情况。
1.4 数据筛选方案
根据本研究需要和每条数据的各项目情况,对此版本数据进行如下步骤筛选:① 剔除“首次住院号”项目出现缺失或重复的数据条目;② 剔除“手术日期”项目出现缺失的数据条目;③ 剔除“随访终期”项目出现缺失的数据条目;④ 剔除“生存状态”项目视为无效及可疑的数据条目;⑤ 剔除“职业”项目出现缺失或视为无效的数据条目;⑥ 剔除非原发癌患者的数据条目;⑦ 剔除“pTNM分期”项目出现缺失的数据条目;⑧ 剔除因项目信息的真实性可疑的数据条目。
1.5 统计学方法
利用SPSS 26.0统计软件进行数据分析。定性资料按频数和百分率(%)进行统计描述,无序分类变量采用配对行×列的列联表皮尔逊卡方(χ2)检验或Fisher精确检验,有序分类变量采用Mann-Whitney U检验。定量资料经Kolmogorov-Smirnov检验后符合正态分布者按均数±标准差(±s)进行统计描述并采用独立样本比较的t检验,不符合正态分布的定量资料按中位数(median,M)和上下四分位数(P25,P75)进行统计描述并采用Mann-Whitney U检验。采用Kaplan-Meier 法绘制生存曲线,采用log-rank检验进行比较。检验水准α=0.05。
2 结果
截至2022年6月29日,从数据库中筛选出符合本次研究条件的数据1 974条(例),其具体筛选流程与结果见图1。1 974例患者中女768例(38.9%)、男1 206例(61.1%);年龄17~95岁、M(P25,P75)为57(48,65)岁;脑力劳动职业349例(17.7%),体力劳动职业1 625例(82.3%);pTNM分期0期19例、Ⅰ期176例、Ⅱ期757例、Ⅲ期710例、Ⅳ期312例;肿瘤部位:结肠382例、直肠1 592例;肿瘤性质:恶性黑色素瘤7例,恶性淋巴瘤1例,神经内分泌癌22例,腺癌1 472例,印戒细胞癌57例,黏液腺癌404例,鳞状细胞癌11例;肿瘤分化程度:高分化50例,中分化1 304例,低分化620例。脑力劳动职业组(简称“脑力组”)和体力劳动职业组(简称“体力组”)基线资料比较结果见表1,2组在年龄、性别、肿瘤部位、肿瘤性质方面比较差异无统计学意义(P>0.05),但发现体力组和脑力组在肿瘤分化程度方面比较差异有统计学意义(P=0.047),体力组低分化程度患者占比较脑力组更高。


2.1 脑力组和体力组CRC患者的总生存和疾病特异性生存情况比较
结果见图2图2a、2b和表1。脑力组和体力组的生存曲线比较,脑力组CRC患者的总生存和疾病特异性生存情况均优于体力组(χ2=13.810,P<0.01;χ2=9.870,P<0.01),尤其是脑力组相较于体力组患者的5及10年累积总生存率和疾病特异性生存率均更高(P<0.05),1及3年累积总生存率和疾病特异性生存率比较差异无统计学意义(P>0.05),见表1。

2.2 不同pTNM分期下脑力和体力CRC患者的总生存和疾病特异性生存情况比较
本研究随访期内中pTNM为0期的研究亚组(n=19)未出现结局事件,故该亚组不纳入进一步分析。结果见图1c~1j和表2、3。在pTNM分期Ⅱ期和Ⅲ期患者中均发现,脑力组CRC患者的总生存和疾病特异性生存情况均优于体力组(总生存曲线:Ⅱ期χ2=8.478、P<0.05,Ⅲ期χ2=6.907、P<0.05;疾病特异性生存曲线:Ⅱ期χ2=7.195、 P<0.05, Ⅲ期χ2=5.824、P<0.05),尤其pTNM分期Ⅲ期患者的5及10年累积总生存率和疾病特异性生存率在脑力组均高于体力组(P<0.05)。在pTNM分期Ⅰ期和Ⅳ期患者中,脑力组和体力组CRC患者的总生存和疾病特异性生存情况比较差异均无统计学意义(总生存曲线:Ⅰ期χ2=1.419、P=0.234,Ⅳ期χ2=1.113、P=0.291;疾病特异性生存曲线:Ⅰ期χ2=0.167、P=0.683,Ⅳ期χ2=0.813、P=0.367)。


3 讨论
职业与CRC的关系尚无定论。有研究提示,体力劳动职业者似乎更易罹患CRC且其长期预后较差。Rasouli等[9]研究显示,CRC工人患者的死亡率较失业者更高[HR=2.09,95%CI(1.22,3.58)];还有研究[2, 10]显示,蓝领(体力劳动职业)相较于白领(脑力劳动职业)CRC患者癌症死亡风险更高;Eloranta等[11]的研究显示,体力劳动职业者相较于非体力劳动职业者超额死亡率更高。此外,有研究者报道脑力劳动职业者在CRC长期预后上更好。Kato等[12]的研究显示,专业人员和管理人员(属脑力劳动职业者)较其他职业者5年生存率更高。然而也有少数研究并不支持体力劳动者在CRC患病率和长期预后方面表现更差。Reynolds等[13]研究显示,宇航员(属体力劳动职业者)结肠癌发病率和死亡率较普通人更低。另外的观点是,身体活动似乎是CRC的保护因素。有研究[14-15]显示,在工作场所增加身体活动可能会降低患病风险。在本研究中得出,相较于体力劳动职业CRC患者,脑力劳动职业CRC患者的总生存和疾病特异性生存情况均更好(P<0.05),尤其体现在脑力劳动职业组5、10年累积总生存率和疾病特异性生存率均更高(P<0.05),未发现二者在1、3年累积总生存和疾病特异性生存情况方面比较差异有统计学意义(P>0.05)。到目前为止,多数研究结论倾向于体力劳动职业者相比脑力劳动职业者在CRC长期预后方面表现更好这一结论,但这些研究结论值得推敲。不同职业CRC患者预后的差异,可能不仅仅受到不同职业属性带来的劳动性质差异的影响,还受到不同职业属性所赋予的其他因素差异的影响。我国职业与健康关系的研究[16-17]显示,高强度工作负荷尤其是高体力要求影响健康,脑力劳动者相较于体力劳动者整体健康水平更优,而更优的健康水平可能有利于预后。值得一提的是,有研究者[18]试图总结身体活动与CRC的关联,但并未得到确切结论。以往研究中[14-15]涉及的身体活动多为娱乐休闲性质的活动和专门的体育锻炼,笔者认为这些身体活动并不能完全等同于职业活动中的体力劳动,考虑到活动的强度、形式、环境等因素的差异性。因此,一些研究发现“身体活动”对于CRC患者的益处,可能无法完全适用于体力劳动职业的CRC患者。体力劳动职业往往面临更多职业暴露,这或许不利于其预后[19-25]。此外,体力劳动职业者往往社会经济地位低,通常也意味着接受医疗条件更差,这可能也不利于其预后[26-27]。因此,对于CRC患者而言,职业与术前、术后治疗是否存在关联或许值得研究。
鉴于pTNM分期往往是重要的预后影响因子,本研究还对CRC患者按pTNM分期进行了亚组分析,本研究结果显示,不同 pTNM 分期中职业对生存的预测呈现出的预后特点不同,似乎pTNM Ⅱ期和pTNM Ⅲ期的脑力组CRC患者长期预后优势更明显,而未在pTNM Ⅰ和Ⅳ期患者中发现这种差异,或许可以从几个方面解释:本研究中纳入pTNM Ⅰ期患者样本量较少,可能影响该期2个职业组生存率比较结果而未能出现有统计学意义的差异;晚期(pTNM Ⅳ期)CRC患者本身预后可能就非常差,这或许掩盖了本研究pTNM Ⅳ期中职业对生存率的影响。对于不同TNM分期的患者而言,早期患者往往预后更好,晚期患者往往预后更差;然而,中期患者的预后分歧较大,不太适合通过分期的早晚来预测[28]。有研究[29]显示,同一pTNM分期患者的临床结果和预后存在相当大的差异,尤其对于中间分期(Ⅱ期和Ⅲ期)患者。本研究中恰好仅pTNM Ⅱ期和pTNM Ⅲ期2个职业组5年或10年生存情况方面差异有统计学意义。考虑到中期患者长期预后可能存在的显著异质性会影响研究结果,本研究在不同pTNM分期亚组分析中的结果可能需要谨慎考虑。
本研究依托DACCA数据库进行分析,从整体分析看,脑力劳动职业患者相较于体力劳动职业患者长期预后更好,而这种差异在pTNM Ⅱ期和pTNM Ⅲ期患者当中可能相对突出。本研究的结论应理性对待,因为其受到研究局限性的影响。本研究对职业的分类相对粗略,仅脑力劳动和体力劳动两类。部分职业脑力劳动和体力劳动程度相当或者劳动性质难以明确,如《职业分类与代码》中的第三大类(办事人员和有关人员)、第八大类(不便分类的其他从业人员),难以用二分法界定劳动性质。鉴于此,本研究并未将这些类型职业的CRC患者纳入研究。因此,更好的职业分类方式有待探讨。本研究样本主要为中国西南地区CRC患者,所以仍需要今后其他中心、更多样本的研究来验证本研究结论。从基线资料比较上看,本研究中不同职业组之间肿瘤分化程度存在统计学差异,其对于研究结果的潜在影响并未通过匹配等方式进行消除,也并未进行进一步的评估。因此,多因素分析可能是今后CRC患者长期预后研究的一种重要方法。
重要声明
利益冲突声明:本文全体作者阅读并理解了《中国普外基础与临床杂志》的政策声明,我们没有相互竞争的利益。
作者贡献声明:廖伟豪主要负责研究设计、数据分析及文章撰写;李澔、吴桂儀及周凡琳主要负责数据清洗;汪晓东主要负责提供数据源及文章修改;李立主要负责文章指导。
伦理声明:本研究通过了四川大学华西医院生物医学伦理委员会审批[2019年审(140)号]。
基于真实世界场景构建的华西肠癌数据库(Database from Colorectal Cancer,DACCA)为结直肠癌(colorectal cancer,CRC)数据的一系列结构化应用创造了条件。在本系列以往报道中,四川大学华西医院团队已针对数据库构建方式与基本数据状态完成了第一板块“数据构建”和第二板块“数据研究”的阐述。在此之后,四川大学华西医院团队会在第三板块“数据库解读”和第四板块“数据库决策”对于如何运用DACCA来解答CRC全生命周期流程中的诸多临床问题进行系列报道。本研究属于数据库解读第一章人群特征的职业相关系列研究。职业作为CRC相关的危险因素[1],有必要进行更加深入的研究。目前有研究[2]发现,CRC患者的职业与5年生存率有关,体力劳动者较非体力劳动者死亡风险更高。但是关于患者职业与长期预后的关系还缺乏相关报道。笔者选取DACCA数据库中职业与预后的相关数据,进一步分析在真实世界场景下职业对患者长期预后的影响。
1 资料与方法
1.1 数据库版本
本研究使用截至2022年6月29日更新的DACCA数据库数据。
1.2 分析目标
本研究分析不同职业患者长期预后的差异,以探究CRC患者职业与长期预后的关系。根据随访数据特征,选择1、3、5及10年时间点用于预后分析,同时以肿瘤病理学TNM(pathological TNM,pTNM)分期进行亚组分析。
1.3 变量的选择及定义
人口学变量,包括性别、年龄及职业;肿瘤学变量,包括pTNM分期、肿瘤部位(本研究进行归类后分为直肠和结肠)、肿瘤病理学性质、分化程度;结局变量,包括总生存和疾病特异性生存。上述变量的具体定义及分类方法详见《数据库建设第一部分:个人数据的标签与结构化》[3]、《数据库建设第五部分:结直肠癌的肿瘤特征—模块的设计(二)》[4]、《数据库建设第六部分:结直肠癌分期的标签与结构化》[5]及《数据库建设第十一部分:结直肠癌随访的标签与结构化》[6]。目前最新版《职业分类与代码》继续将我国职业归为8大类,仍然是依据在业人口本人所从事的工作性质的同一性进行职业分类[7]。本研究根据8大类再分为脑力劳动者和体力劳动者进行职类分析[7-8]。DACCA中的生存时间(月)是指从患者手术日期到术后随访终期/死亡日期的经过时间,分析总生存和疾病特异性生存情况。
1.4 数据筛选方案
根据本研究需要和每条数据的各项目情况,对此版本数据进行如下步骤筛选:① 剔除“首次住院号”项目出现缺失或重复的数据条目;② 剔除“手术日期”项目出现缺失的数据条目;③ 剔除“随访终期”项目出现缺失的数据条目;④ 剔除“生存状态”项目视为无效及可疑的数据条目;⑤ 剔除“职业”项目出现缺失或视为无效的数据条目;⑥ 剔除非原发癌患者的数据条目;⑦ 剔除“pTNM分期”项目出现缺失的数据条目;⑧ 剔除因项目信息的真实性可疑的数据条目。
1.5 统计学方法
利用SPSS 26.0统计软件进行数据分析。定性资料按频数和百分率(%)进行统计描述,无序分类变量采用配对行×列的列联表皮尔逊卡方(χ2)检验或Fisher精确检验,有序分类变量采用Mann-Whitney U检验。定量资料经Kolmogorov-Smirnov检验后符合正态分布者按均数±标准差(±s)进行统计描述并采用独立样本比较的t检验,不符合正态分布的定量资料按中位数(median,M)和上下四分位数(P25,P75)进行统计描述并采用Mann-Whitney U检验。采用Kaplan-Meier 法绘制生存曲线,采用log-rank检验进行比较。检验水准α=0.05。
2 结果
截至2022年6月29日,从数据库中筛选出符合本次研究条件的数据1 974条(例),其具体筛选流程与结果见图1。1 974例患者中女768例(38.9%)、男1 206例(61.1%);年龄17~95岁、M(P25,P75)为57(48,65)岁;脑力劳动职业349例(17.7%),体力劳动职业1 625例(82.3%);pTNM分期0期19例、Ⅰ期176例、Ⅱ期757例、Ⅲ期710例、Ⅳ期312例;肿瘤部位:结肠382例、直肠1 592例;肿瘤性质:恶性黑色素瘤7例,恶性淋巴瘤1例,神经内分泌癌22例,腺癌1 472例,印戒细胞癌57例,黏液腺癌404例,鳞状细胞癌11例;肿瘤分化程度:高分化50例,中分化1 304例,低分化620例。脑力劳动职业组(简称“脑力组”)和体力劳动职业组(简称“体力组”)基线资料比较结果见表1,2组在年龄、性别、肿瘤部位、肿瘤性质方面比较差异无统计学意义(P>0.05),但发现体力组和脑力组在肿瘤分化程度方面比较差异有统计学意义(P=0.047),体力组低分化程度患者占比较脑力组更高。


2.1 脑力组和体力组CRC患者的总生存和疾病特异性生存情况比较
结果见图2图2a、2b和表1。脑力组和体力组的生存曲线比较,脑力组CRC患者的总生存和疾病特异性生存情况均优于体力组(χ2=13.810,P<0.01;χ2=9.870,P<0.01),尤其是脑力组相较于体力组患者的5及10年累积总生存率和疾病特异性生存率均更高(P<0.05),1及3年累积总生存率和疾病特异性生存率比较差异无统计学意义(P>0.05),见表1。

2.2 不同pTNM分期下脑力和体力CRC患者的总生存和疾病特异性生存情况比较
本研究随访期内中pTNM为0期的研究亚组(n=19)未出现结局事件,故该亚组不纳入进一步分析。结果见图1c~1j和表2、3。在pTNM分期Ⅱ期和Ⅲ期患者中均发现,脑力组CRC患者的总生存和疾病特异性生存情况均优于体力组(总生存曲线:Ⅱ期χ2=8.478、P<0.05,Ⅲ期χ2=6.907、P<0.05;疾病特异性生存曲线:Ⅱ期χ2=7.195、 P<0.05, Ⅲ期χ2=5.824、P<0.05),尤其pTNM分期Ⅲ期患者的5及10年累积总生存率和疾病特异性生存率在脑力组均高于体力组(P<0.05)。在pTNM分期Ⅰ期和Ⅳ期患者中,脑力组和体力组CRC患者的总生存和疾病特异性生存情况比较差异均无统计学意义(总生存曲线:Ⅰ期χ2=1.419、P=0.234,Ⅳ期χ2=1.113、P=0.291;疾病特异性生存曲线:Ⅰ期χ2=0.167、P=0.683,Ⅳ期χ2=0.813、P=0.367)。


3 讨论
职业与CRC的关系尚无定论。有研究提示,体力劳动职业者似乎更易罹患CRC且其长期预后较差。Rasouli等[9]研究显示,CRC工人患者的死亡率较失业者更高[HR=2.09,95%CI(1.22,3.58)];还有研究[2, 10]显示,蓝领(体力劳动职业)相较于白领(脑力劳动职业)CRC患者癌症死亡风险更高;Eloranta等[11]的研究显示,体力劳动职业者相较于非体力劳动职业者超额死亡率更高。此外,有研究者报道脑力劳动职业者在CRC长期预后上更好。Kato等[12]的研究显示,专业人员和管理人员(属脑力劳动职业者)较其他职业者5年生存率更高。然而也有少数研究并不支持体力劳动者在CRC患病率和长期预后方面表现更差。Reynolds等[13]研究显示,宇航员(属体力劳动职业者)结肠癌发病率和死亡率较普通人更低。另外的观点是,身体活动似乎是CRC的保护因素。有研究[14-15]显示,在工作场所增加身体活动可能会降低患病风险。在本研究中得出,相较于体力劳动职业CRC患者,脑力劳动职业CRC患者的总生存和疾病特异性生存情况均更好(P<0.05),尤其体现在脑力劳动职业组5、10年累积总生存率和疾病特异性生存率均更高(P<0.05),未发现二者在1、3年累积总生存和疾病特异性生存情况方面比较差异有统计学意义(P>0.05)。到目前为止,多数研究结论倾向于体力劳动职业者相比脑力劳动职业者在CRC长期预后方面表现更好这一结论,但这些研究结论值得推敲。不同职业CRC患者预后的差异,可能不仅仅受到不同职业属性带来的劳动性质差异的影响,还受到不同职业属性所赋予的其他因素差异的影响。我国职业与健康关系的研究[16-17]显示,高强度工作负荷尤其是高体力要求影响健康,脑力劳动者相较于体力劳动者整体健康水平更优,而更优的健康水平可能有利于预后。值得一提的是,有研究者[18]试图总结身体活动与CRC的关联,但并未得到确切结论。以往研究中[14-15]涉及的身体活动多为娱乐休闲性质的活动和专门的体育锻炼,笔者认为这些身体活动并不能完全等同于职业活动中的体力劳动,考虑到活动的强度、形式、环境等因素的差异性。因此,一些研究发现“身体活动”对于CRC患者的益处,可能无法完全适用于体力劳动职业的CRC患者。体力劳动职业往往面临更多职业暴露,这或许不利于其预后[19-25]。此外,体力劳动职业者往往社会经济地位低,通常也意味着接受医疗条件更差,这可能也不利于其预后[26-27]。因此,对于CRC患者而言,职业与术前、术后治疗是否存在关联或许值得研究。
鉴于pTNM分期往往是重要的预后影响因子,本研究还对CRC患者按pTNM分期进行了亚组分析,本研究结果显示,不同 pTNM 分期中职业对生存的预测呈现出的预后特点不同,似乎pTNM Ⅱ期和pTNM Ⅲ期的脑力组CRC患者长期预后优势更明显,而未在pTNM Ⅰ和Ⅳ期患者中发现这种差异,或许可以从几个方面解释:本研究中纳入pTNM Ⅰ期患者样本量较少,可能影响该期2个职业组生存率比较结果而未能出现有统计学意义的差异;晚期(pTNM Ⅳ期)CRC患者本身预后可能就非常差,这或许掩盖了本研究pTNM Ⅳ期中职业对生存率的影响。对于不同TNM分期的患者而言,早期患者往往预后更好,晚期患者往往预后更差;然而,中期患者的预后分歧较大,不太适合通过分期的早晚来预测[28]。有研究[29]显示,同一pTNM分期患者的临床结果和预后存在相当大的差异,尤其对于中间分期(Ⅱ期和Ⅲ期)患者。本研究中恰好仅pTNM Ⅱ期和pTNM Ⅲ期2个职业组5年或10年生存情况方面差异有统计学意义。考虑到中期患者长期预后可能存在的显著异质性会影响研究结果,本研究在不同pTNM分期亚组分析中的结果可能需要谨慎考虑。
本研究依托DACCA数据库进行分析,从整体分析看,脑力劳动职业患者相较于体力劳动职业患者长期预后更好,而这种差异在pTNM Ⅱ期和pTNM Ⅲ期患者当中可能相对突出。本研究的结论应理性对待,因为其受到研究局限性的影响。本研究对职业的分类相对粗略,仅脑力劳动和体力劳动两类。部分职业脑力劳动和体力劳动程度相当或者劳动性质难以明确,如《职业分类与代码》中的第三大类(办事人员和有关人员)、第八大类(不便分类的其他从业人员),难以用二分法界定劳动性质。鉴于此,本研究并未将这些类型职业的CRC患者纳入研究。因此,更好的职业分类方式有待探讨。本研究样本主要为中国西南地区CRC患者,所以仍需要今后其他中心、更多样本的研究来验证本研究结论。从基线资料比较上看,本研究中不同职业组之间肿瘤分化程度存在统计学差异,其对于研究结果的潜在影响并未通过匹配等方式进行消除,也并未进行进一步的评估。因此,多因素分析可能是今后CRC患者长期预后研究的一种重要方法。
重要声明
利益冲突声明:本文全体作者阅读并理解了《中国普外基础与临床杂志》的政策声明,我们没有相互竞争的利益。
作者贡献声明:廖伟豪主要负责研究设计、数据分析及文章撰写;李澔、吴桂儀及周凡琳主要负责数据清洗;汪晓东主要负责提供数据源及文章修改;李立主要负责文章指导。
伦理声明:本研究通过了四川大学华西医院生物医学伦理委员会审批[2019年审(140)号]。