=0.016 1x+26.54,R2=3.42×105,P=0.601 108);身高为 138~192 cm、(161±7)cm,线性预测结果显示随身高变化的线性稳定(
=0.110 5 x–60.911,R2=0.002 6,P=0.000 272);体质量为 27.5~80.5 kg、(59.38±10.27)kg,线性预测结果显示随体质量变化的线性升高(
=0.296 5x–537.24,R2=0.010 625,P=2.37×1014)。DACCA 数据库提供的地理源显示,华西医院服务地区与我国西部地区的定义存在差异。结直肠癌主要发生在直肠(68.64%),其中结肠癌主要发生在乙状结肠(27.06%),直肠癌主要发生在直肠肛管(13.34%)。
引用本文: 汪晓东, 李希, 何欣林, 李立. 数据库研究第一部分:区域性医疗中心的结直肠癌与人群特征. 中国普外基础与临床杂志, 2019, 26(2): 212-220. doi: 10.7507/1007-9424.201901052 复制
华西肠癌数据库(Database from Colorectal Cancer,DACCA)是华西医院历时 10 余年的数据建设结晶[1-2]。如前文[3]所述,现有的华西 DACCA 数据库仍在持续更新。在真实世界研究(real world study,RWS)的思路下,笔者团队将推出系列数据库报道,包括:数据库研究、数据库建设、数据库解读、数据库决策等。
根据我国公开数据[4]显示,2014 年统计的结直肠癌发病率为 27.08/10 万(其中男性为 30.55/10 万,女性为 23.43/10 万),位于恶性肿瘤的前 5 位(男性中为第 4 位,女性中为第 3 位);病死率为 7.25/10 万(其中男性为 8.19/10 万,女性为 6.26/10 万;城市为 9.78/10 万,农村为 5.96/10 万),位于恶性肿瘤的第 5 位,是目前我国民众最主要的疾病负担之一[5]。2018 年,世界卫生组织下属的癌症统计机构—全球癌症观察(Global Cancer Observatory,GLOBALCAN)对于全球癌症的公开数据见图 1a 和图 1b,从数据上看,我国近年来结直肠癌的发病率处于相对较高的水平[6]。与此同时,自改革开放以来,公开数据[5]显示,我国结直肠癌的死亡率在逐渐攀升(图 1c)。
华西医院是国家级区域性医疗中心,且华西 DACCA 数据库主要反映该中心服务覆盖地区的结直肠癌信息,其中病患群体的构成主体是来自四川省内。作为西部地区的代表省份之一,相对于东部和沿海地区,结直肠癌患者的分布特点可能更为分散,从而导致就医难度更大;经济基础相对较差,从而导致就医的费用负担更大。
通过对华西 DACCA 数据库的人群特征信息的分析,笔者团队旨在更为准确地展示该区域性中心医院服务于哪些地区的结直肠癌患者,其流行病学特点是否有一定规律。这对于未来在该区域就诊的结直肠癌患者的整体管理具有重要的指导作用。
1 资料和方法
1.1 数据库版本
本次数据分析选取的 DACCA 版本为 2018 年 12 月 12 日更新版。
1.2 收集的 DACCA 数据库的应用参数
选取数据项目(items)的基础定义,将在“数据库建设”系列报道中详细说明,本次分析选择了部分数据项目,包括以下几个方面。① 个体(personal)数据:包括性别、年龄、血型、身高、体质量及体质量指数(BMI)。② 地理(location)数据:包括省份、市级及成都下设区市县(不提供具体街道,无任何隐私地址数据)。③ 职业(occupation)与教育(education)数据:包括职业类型和文化程度。职业信息按照《中华人民共和国职业分类大典》分类,并将“学生”和“自由职业”单列提出[7];文化程度分类中,将“研究生”细分为“硕士”和“博士”[8]。④ 医保(medical insurance)数据:即医保类型,以四川省医保类型作为参照[9],省外医疗信息且支付形式非“自费”或“商业(指单纯商业保险)”,则标记为“跨省”。⑤ 主诊断(main diagnosis)数据:包括肿瘤部位(针对直肠进一步划分部位和距离齿状线距离)。DACCA 数据库按照肿瘤部位划分为:回盲部(包含阑尾)、升结肠、结肠肝曲、横结肠、结肠脾曲、降结肠和直肠。其中,直肠癌的位置按照华西医院“结直肠癌手术基础规范与创新”的定义[10-12]分为:直乙交接部、直肠上段、直肠中段、直肠腹膜反折部、直肠低位、直肠超低位、直肠肛管及肛管。由于结直肠可能存在多原发癌的分类信息,因此将整个部位的主要分类界定为:结肠、直肠及多原发 3 类。
1.3 DACCA 数据库的筛选方案
由于 DACCA 数据库的数据项目众多,根据每次数据库研究的需要,遴选需要分析的部分项目作为报道的基础。根据本研究的需要,数据库筛选以“时间轴”为核心条件,依次进行:① 总数据库的信息筛选;② 选取有“手术日期”的数据项;③ 剔除数据条目可疑或查实重复的数据。具体筛选过程见图 2。本次数据库筛选的完成时间为 2018 年 12 月 13 日。

1.4 统计学方法
DACCA 数据库分析方案:本次 DACCA 数据库分析的核心词汇为“变迁”,遂选择以“年”(时间)为变量单位,截取数据库中每一单位“年”的数据集作为分析的横段面信息。用“年份“作为分组条件,其他数据项目作为变量单位,利用经典统计学技术完成数据项目变化的分析。本次 DACCA 数据库分析的应用工具为 Excel(Office 365,Microsoft,Redmond,WA,USA)。经典的统计学描述主要由 Excel 统计图表工具完成,经典统计学推论由 Excel 统计工具包完成,独立样本比较的t检验由 SPSS 20.0(SPSS,IBM,Armonk,New York,USA)完成;大数据分析(稳定性和趋势的线性分析)由 Excel 数据工具包完成。大数据图层分析(地理特征)由 Excel PowerMap 工具完成,图层展示由地图慧(
2 结果
截至 2018 年 12 月 12 日,数据库叠加后,符合“手术日期”筛选条件的数据病案总量为 9 633 条。
2.1 患者的就诊时间分布
根据 1995–2018 年连续 24 年的数据库信息分拆每“年度”的数据病案,以探索每“年度”对数据库含量的贡献数值,结果见图 3a。由图 3a 可见,以 2005–2006 年为数据库建设的前后时间节点,2005 年以前(包括 2005 年)对数据库含量的贡献数值为 1 358 条;2005 年以后(不包括 2005 年)为 8 275 条。2005 年后的贡献率(贡献数值/年数)高于 2005 年以前 [1 358/11 比 8 275/13,95% CI为(–625.337,–400.831),P<0.001]。

2.2 患者的性别分布
DACCA 数据库中的性别分为男、女和未核定信息(未核定的指数据核查没有完成)3 类。本次数据库研究结果显示,1995–2018 年期间总的男性数据 4 669 条,女性数据 3 340 条,未核定数据1 624 条。1995–2018 年期间各年 DACCA 数据库病例的性别构成见图 3b。
2.3 患者的年龄分布
DACCA 数据库提供的年龄信息显示(年龄待核查数据为 1 631 条,有年龄数据 8 002 条):患者的年龄为 13~104 岁、(59±13)岁,其各年龄段分布见图 3c。采用线性预测(linear prediction),对以“年”为时间轴的年龄分布进行预测,结果显示随年龄变化的线性预测(=0.016 1x+26.54,R2=3.42×105,P=0.601 108),见图 3d。
2.4 患者的血型分布
DACCA 数据库提供的血型信息,以“ABO 血型”系统进行分类。其中有 4 493 条尚未核查完成的信息,呈现血型信息病例的血型分布见图 4,由图 4 可见,A 型最多,其次为 O 型,AB 型最少。

2.5 患者的身高分布
DACCA 数据库提供的身高信息中,未核实身高信息 4 605 条,有身高信息 5 028 条,结果显示,病例的身高为 138~192 cm、(161±7)cm,其分布见图 5a。采用线性预测对以“年”为时间轴的身高分布进行预测,结果显示随身高变化的线性稳定(=0.110 5 x–60.911,R2=0.002 6,P=0.000 272),见图 5b。

a:身高分布;b:身高分布趋势;c:体质量分布;d:体质量分布趋势;e:BMI 分布;f:BMI 分布趋势
2.6 患者的体质量分布
DACCA 数据库提供的体质量信息中,未核实体质量信息 4 181 条,有体质量信息 5 452 条,结果显示,病例的体质量为 27.5~80.5 kg、(59.38±10.27)kg,其分布见图 5c。采用线性预测对以“年”为时间轴的体质量分布进行预测,结果显示随体质量变化的线性升高(=0.296 5x–537.24,R2=0.010 625,P=2.37×1014),见图 5d。
2.7 患者的 BMI 分布
DACCA 数据库提供的 BMI 信息中,未核实 BMI 信息 4 613 条,有 BMI 信息 5 020 条,结果显示,病例的 BMI 为 11.02~39.67 kg/m2、(22.77±3.30)kg/m2,其具体分布见图 5e。采用线性预测对以“年”为时间轴的 BMI 分布进行预测,结果显示了随 BMI 变化的线性升高(=0.086 1x–150.59,R2=0.008 44,P=6.99×1011),见图 5f。
2.8 患者的来源地区分布
2.8.1 省份分布
DACCA 数据库提供的地理源,涵盖了我国行政区划的省(市/直辖市/港澳台地区)、市及县的信息。本研究的数据分析按照 3 级进行,利用图层表现来源地的特点。根据省级图层,核实可用数据 6 884 条(其中辽宁省、台湾省及澳门特别行政区的数据为 0),病例主要来自四川、重庆、云南和贵州,具体见表 1。

DACCA 数据库主要覆盖的省份差异图解见图 6a:我国的西部地区包括了 12 个省份,黄色虚线所示为模拟的东/西部划分线,而 DACCA 数据库提供的地理特征信息显示,华西医院服务的结直肠癌病患主要集中在西部的 8 个省份,紫色虚线所示为主要/次要服务区域划分线,绿色虚圈则为核心服务区域。

a:省级覆盖区域分界线与我国东/西部划分的分界线有所区别;b:四川省病例的市级行政区域化分布热度及数据来源热度的变化圈;c:成都市病例的县/区级级行政区域化分布热度及其数据来源热度的变化圈;d:职业构成;e:文化程度构成;f:医保构成;g:结直肠癌的部位分布;h:结肠癌的部位分布;i:直肠癌的部位分布
2.8.2 四川省病例的市级分布
四川省内的核实可用数据为 4 693 条,根据市级(因数据主要来源为四川省的病例,故提供四川省内数据作为“市级”分布展示)图层显示来源数据的分布强度信息,可见病例主要来自成都、眉山、乐山和南充。省内市一级热度图层显示的特征,可以初步拟合在一定的辐射圈内。省内辐射圈层按照 200 条(蓝色虚线)、100 条(绿色虚线)及 50 条(紫色虚线)为界划分。具体见图 6b。
2.8.3 成都市病例的县级分布
成都市的核实可用数据为 2 970 条,根据县级(因数据主要来源为成都市的病例,故提供成都市内数据作为“县级”分布展示)图层显示来源数据的分布强度信息(由于图层工具的功能限制,本次行政区划中“高新区”暂划归在“武侯区”内标记,“天府新区”暂划在“双流区”内标记),可见病例主要来自武侯区、金牛区、成华区和青羊区。成都市辖区一级的热度图层显示的特征,可以初步拟合在一定的辐射圈内。市辖区辐射圈层,按照 200 条以上(蓝色虚线)、100~200 条(绿色虚线)为界划分辐射圈。具体见图 6c。
2.9 患者的职业和文化程度分布
DACCA 数据库提供的职业信息中,未核实职业信息 3 288 条,有职业信息 6 345 条,其职业分布见图 6d。由图 6d 可见,职业类型以退休、农/林/牧/渔/水利业为主。DACCA 数据库提供的文化程度信息中,未核实文化程度信息 3 316 条,有文化程度信息 6 317 条,其文化程度分布见图 6e。由图 6e 可见,文化程度以小学、初中及高中为主。
2.10 患者的医保类型分布
DACCA 数据库提供的医保类型信息中,未核实医保类型信息 4 456 条,有医保类型信息 5 177 条,其医保类型分布见图 6f。由图 6f 可见,医保类型中以城镇职工医疗保险占比最高。
2.11 患者疾病主诊断的变化
DACCA 数据库提供的疾病主诊断信息中,未核实疾病主诊断信息 424 条,有疾病主诊断信息 9 209 条。结直肠癌的发生部位见图 6g,结肠癌的发生部位见图 6h,直肠癌的发生部位见图 6i。由图 6g–6i 可知,结直肠癌主要发生在直肠,其中结肠癌主要发生在乙状结肠,直肠癌主要发生在直肠肛管。
3 讨论
3.1 DACCA 数据库的容量特征
DACCA 数据库提供了结直肠癌信息的完整数据仓库,本次数据库研究选定的核心筛选条件为“手术日期”,是便于在确定有“手术治疗”的病患信息群中进行分析,仅代表部分数据信息随时间变化的特征。
从数据库的“年”单位分布图来看,能明显看出数据呈现出 2 个阶段:2005 年前(含 2005 年)与 2005 年后。这正是华西医院数据库建设的开始时间点[3]。由于规范化的数据库建设,使得近 10 年的数据信息量更为全面,有效信息的容量明显高于前 1 个 10 年。这表明,DACCA 数据库的规范化建设,有利于数据的筹备与完善,这是所有数据库未来发展的基础。
对于 DACCA 数据库的容量特征,未来还会有更多研究内容,特别是运用大数据技术,分析区域中心医院专科疾病的容量以及关联因素,这才是数据库容量分析的价值。与传统大容量的临床研究比较[13-14],未来还需要回答:何为大数据定义下的高容量性专科?高容量性专科与专业技术的迭代演变是否有关系?这些随时间演进的大数据分析,是未来区域中心医院专科疾病病房设置和临床运转的基础。
3.2 人群体质特征
本次 DACCA 数据库研究选取的个体数据包括:性别、年龄、血型、身高、体质量以及 BMI。其中对于身高、体质量和 BMI 则更进一步分析了时间演变的特征。
3.2.1 性别
目前,全球性的数据报道[15]表明,结直肠癌的男/女好发比例为 45.9∶34.8(约 1.32∶1)。本研究中显示男女比大约为 1.4∶1,与前两者的数据表现几乎一致,并没有提示结直肠癌更容易偏向于某一性别的特征。
3.2.2 年龄
从年龄上看,DACCA 数据库提供的信息基本符合经典统计学的正态分布特征。患者的平均年龄为 59 岁,其中>60 岁者有 4 170/8 002(约 52.11%),与国际公开的数据报道[16]比较更为年轻。笔者团队进一步对数据库随“年”为时间单位的年龄分布动态进行描述和线性分析,结果发现,1995–2018 年期间 DACCA 数据库病例的年龄分布的数据稳定性良好,趋势表现极为缓慢的上升且逐步向 60 岁观察线靠近。这一方面说明,结直肠癌的年龄特征仍旧以中年(我国定义 45~65 岁为中年)为主;另一方面说明,结直肠癌并没有出现“年轻化”表现[17-18]。
3.2.3 ABO 血型
从血型上看,DACCA 数据库提供的“ABO 型”血型信息显示,A 型和 O 型占比高于 B 型,而 AB 型最少。既往有研究[19]关注了血型和结直肠癌的关系,实际上这是遗传学的一个命题。若需要进一步探究血型与结直肠癌的关系,单纯的数据构成是不够的,更多还需要结合遗传学信息与数据信息,进行大数据相关性分析从而进一步论证。
3.2.4 身高、体质量和 BMI
身高、体质量和 BMI 是人群体质的最基本指标。从 DACCA 数据库的数据分析结果来看,1995–2018 年期间,病患的体质指标基本符合传统统计学的正态分布的特征;而对以“年”为时间演变指标进行分析,可发现一些能解释的趋势。
1995–2018 年期间结直肠癌人群的身高趋势线性稳定,升高变化的趋势并不明显;而体质量的变化趋势则显得更为明显,不仅线性稳定,而且有上升趋势;与此伴随的 BMI 指标,也有上升趋势。这说明,结直肠癌患病群体的体质状态在逐步提升,未来可能以超重人群为主(我国标准定义 BMI≥24.0 kg/m2为超重)。从结直肠癌的溯因上看,既往研究[20-21]都提示,肥胖是结直肠癌的高危因素(high-risk factor),未来的大数据可能会进一步印证体质量对于结直肠癌的发生率的影响;同时从结直肠癌的治疗干扰因素(influent factor)上看,结直肠癌的外科医生将会面对更多超重甚至肥胖的病患。从大数据预测上分析,这一初步判断,有利于寻找结直肠癌长期预后(prognosis)的关联因素。
3.3 地理特征
DACCA 数据库提供信息来自华西医院所服务地区,地理特征主要反映的是医疗覆盖区域具有的特点。通过对于医疗服务覆盖的主要地区进行热度显示,可以看出,华西医院的结直肠癌服务范围主要集中在西部地区,但范围和我国大西部地区的区域划定上还有一定的差异。这初步显示的特征,可以为大数据模型研究结直肠癌病患省级区域流转的特点,提供重要的依据。同样,数据库呈现的市级和县级热度图辐射圈变化特点,又为结直肠癌在更小范围的区域内流转特点,提供了有价值的证据。
回顾以上的信息,笔者认为,地理特征是一项极具有关联可能的特征。本次数据库研究对地理位置特征的描述,只是病患就医“行为模型”的一小部分。这种“行为模型”就是真实场景研究中,“行为-结果”核心研究的组成部分。
本次研究所呈现的“行为”特点,可能是多种就医因素共同所致的。为什么出现这样的特点,正是大数据研究需要回答的问题。
3.4 职业、文化程度和医保特征
本次 DACCA 数据库研究提取了职业、文化程度和医保的信息,并提供了有价值的线索。如前所述,DACCA 数据库的年龄特征集中在 58 岁上下,再结合四川地区发展的产业特点,比较容易理解,“退休”和“第一产业(农业为主)”的结直肠病患占据了超过半数以上的数据贡献量(分别达到>30% 的占有率);同时文化程度相对较低的人群也占有较高的比例。从大数据“行为-结果”模型来看,这些信息需要与国内生产总值(gross domestic product,GDP)、教育资源等数据相结合,提供未来对于结直肠癌“知识水平”为基础的预警模型,将大数据模型应用在结直肠癌的治疗前预防中。
目前,我国的大数据发展已经覆盖了人群的经济学数据。因此,对 DACCA 数据库初步的医保特征分析,只是“大数据+医疗+经济”模型的探索。未来“大数据+医疗+经济”模型会是重点突破口,笔者团队会逐步将结直肠癌病患就医行为与真实场景下的经济学相关联。这将会为未来医保支付系统提供更有价值的模型,可能会优化甚至改变现今主流的基于诊断相关疾病分类(diagnosis related groups,DRGs)付费模型[22]。
3.5 结直肠癌的主诊断特征
DACCA 数据库提供了以结直肠部位为基础的主诊断,与现今 ICD-10 的定义不冲突,而还可能进一步作为优化条件。本次数据库分析是基于主诊断的系列数据库研究的起篇。
结直肠癌的就诊比例,在公开数据[23]中为 3∶7。本次 DACCA 数据库研究呈现的比例也基本一致(结肠癌占 29.54%,直肠癌占 68.64%)。而直肠癌的数据贡献量比例,可能更多反映了华西医院的服务特点:腹膜反折部以下(距离肛缘 9 cm 以内)的直肠癌病患在华西医院接受治疗的比例很高 [(腹膜返折部 10.00%+低位 10.68%+超低位 13.30%+直肠肛管 13.34%+肛管 1.85%+肛门 0.24%=49.41%)∶(中段 9.35%+上段 5.92%+直交界部 1.31%=16.58%)约为 2.98∶1]。这与本系列开篇论述的“结直肠癌极限保肛技术”有相当的关系[3, 24-27]。
从大数据分析的角度上看,未来完善“行为-结果”模型的关键环节之一,就是需要解读更低位置的直肠癌患者在“行为-结果”模型中到底获得了怎样长期效果收益(long term outcomes)?华西医院在 1995–2018 年期间,数据库含量稳步提高的过程中,持续容纳了更多低位及以下的直肠癌病患,数据量的增加与极低位直肠癌病患的治疗比例是否具有关联关系?能否提出更符合真实场景、更为有效的极低位直肠癌管理方案,以解决未来结直肠外科“大幅提高远期生存率”和“保住所有可以保住的肛门功能”这两大核心问题。
(未完待续)
华西肠癌数据库(Database from Colorectal Cancer,DACCA)是华西医院历时 10 余年的数据建设结晶[1-2]。如前文[3]所述,现有的华西 DACCA 数据库仍在持续更新。在真实世界研究(real world study,RWS)的思路下,笔者团队将推出系列数据库报道,包括:数据库研究、数据库建设、数据库解读、数据库决策等。
根据我国公开数据[4]显示,2014 年统计的结直肠癌发病率为 27.08/10 万(其中男性为 30.55/10 万,女性为 23.43/10 万),位于恶性肿瘤的前 5 位(男性中为第 4 位,女性中为第 3 位);病死率为 7.25/10 万(其中男性为 8.19/10 万,女性为 6.26/10 万;城市为 9.78/10 万,农村为 5.96/10 万),位于恶性肿瘤的第 5 位,是目前我国民众最主要的疾病负担之一[5]。2018 年,世界卫生组织下属的癌症统计机构—全球癌症观察(Global Cancer Observatory,GLOBALCAN)对于全球癌症的公开数据见图 1a 和图 1b,从数据上看,我国近年来结直肠癌的发病率处于相对较高的水平[6]。与此同时,自改革开放以来,公开数据[5]显示,我国结直肠癌的死亡率在逐渐攀升(图 1c)。
华西医院是国家级区域性医疗中心,且华西 DACCA 数据库主要反映该中心服务覆盖地区的结直肠癌信息,其中病患群体的构成主体是来自四川省内。作为西部地区的代表省份之一,相对于东部和沿海地区,结直肠癌患者的分布特点可能更为分散,从而导致就医难度更大;经济基础相对较差,从而导致就医的费用负担更大。
通过对华西 DACCA 数据库的人群特征信息的分析,笔者团队旨在更为准确地展示该区域性中心医院服务于哪些地区的结直肠癌患者,其流行病学特点是否有一定规律。这对于未来在该区域就诊的结直肠癌患者的整体管理具有重要的指导作用。
1 资料和方法
1.1 数据库版本
本次数据分析选取的 DACCA 版本为 2018 年 12 月 12 日更新版。
1.2 收集的 DACCA 数据库的应用参数
选取数据项目(items)的基础定义,将在“数据库建设”系列报道中详细说明,本次分析选择了部分数据项目,包括以下几个方面。① 个体(personal)数据:包括性别、年龄、血型、身高、体质量及体质量指数(BMI)。② 地理(location)数据:包括省份、市级及成都下设区市县(不提供具体街道,无任何隐私地址数据)。③ 职业(occupation)与教育(education)数据:包括职业类型和文化程度。职业信息按照《中华人民共和国职业分类大典》分类,并将“学生”和“自由职业”单列提出[7];文化程度分类中,将“研究生”细分为“硕士”和“博士”[8]。④ 医保(medical insurance)数据:即医保类型,以四川省医保类型作为参照[9],省外医疗信息且支付形式非“自费”或“商业(指单纯商业保险)”,则标记为“跨省”。⑤ 主诊断(main diagnosis)数据:包括肿瘤部位(针对直肠进一步划分部位和距离齿状线距离)。DACCA 数据库按照肿瘤部位划分为:回盲部(包含阑尾)、升结肠、结肠肝曲、横结肠、结肠脾曲、降结肠和直肠。其中,直肠癌的位置按照华西医院“结直肠癌手术基础规范与创新”的定义[10-12]分为:直乙交接部、直肠上段、直肠中段、直肠腹膜反折部、直肠低位、直肠超低位、直肠肛管及肛管。由于结直肠可能存在多原发癌的分类信息,因此将整个部位的主要分类界定为:结肠、直肠及多原发 3 类。
1.3 DACCA 数据库的筛选方案
由于 DACCA 数据库的数据项目众多,根据每次数据库研究的需要,遴选需要分析的部分项目作为报道的基础。根据本研究的需要,数据库筛选以“时间轴”为核心条件,依次进行:① 总数据库的信息筛选;② 选取有“手术日期”的数据项;③ 剔除数据条目可疑或查实重复的数据。具体筛选过程见图 2。本次数据库筛选的完成时间为 2018 年 12 月 13 日。

1.4 统计学方法
DACCA 数据库分析方案:本次 DACCA 数据库分析的核心词汇为“变迁”,遂选择以“年”(时间)为变量单位,截取数据库中每一单位“年”的数据集作为分析的横段面信息。用“年份“作为分组条件,其他数据项目作为变量单位,利用经典统计学技术完成数据项目变化的分析。本次 DACCA 数据库分析的应用工具为 Excel(Office 365,Microsoft,Redmond,WA,USA)。经典的统计学描述主要由 Excel 统计图表工具完成,经典统计学推论由 Excel 统计工具包完成,独立样本比较的t检验由 SPSS 20.0(SPSS,IBM,Armonk,New York,USA)完成;大数据分析(稳定性和趋势的线性分析)由 Excel 数据工具包完成。大数据图层分析(地理特征)由 Excel PowerMap 工具完成,图层展示由地图慧(
2 结果
截至 2018 年 12 月 12 日,数据库叠加后,符合“手术日期”筛选条件的数据病案总量为 9 633 条。
2.1 患者的就诊时间分布
根据 1995–2018 年连续 24 年的数据库信息分拆每“年度”的数据病案,以探索每“年度”对数据库含量的贡献数值,结果见图 3a。由图 3a 可见,以 2005–2006 年为数据库建设的前后时间节点,2005 年以前(包括 2005 年)对数据库含量的贡献数值为 1 358 条;2005 年以后(不包括 2005 年)为 8 275 条。2005 年后的贡献率(贡献数值/年数)高于 2005 年以前 [1 358/11 比 8 275/13,95% CI为(–625.337,–400.831),P<0.001]。

2.2 患者的性别分布
DACCA 数据库中的性别分为男、女和未核定信息(未核定的指数据核查没有完成)3 类。本次数据库研究结果显示,1995–2018 年期间总的男性数据 4 669 条,女性数据 3 340 条,未核定数据1 624 条。1995–2018 年期间各年 DACCA 数据库病例的性别构成见图 3b。
2.3 患者的年龄分布
DACCA 数据库提供的年龄信息显示(年龄待核查数据为 1 631 条,有年龄数据 8 002 条):患者的年龄为 13~104 岁、(59±13)岁,其各年龄段分布见图 3c。采用线性预测(linear prediction),对以“年”为时间轴的年龄分布进行预测,结果显示随年龄变化的线性预测(=0.016 1x+26.54,R2=3.42×105,P=0.601 108),见图 3d。
2.4 患者的血型分布
DACCA 数据库提供的血型信息,以“ABO 血型”系统进行分类。其中有 4 493 条尚未核查完成的信息,呈现血型信息病例的血型分布见图 4,由图 4 可见,A 型最多,其次为 O 型,AB 型最少。

2.5 患者的身高分布
DACCA 数据库提供的身高信息中,未核实身高信息 4 605 条,有身高信息 5 028 条,结果显示,病例的身高为 138~192 cm、(161±7)cm,其分布见图 5a。采用线性预测对以“年”为时间轴的身高分布进行预测,结果显示随身高变化的线性稳定(=0.110 5 x–60.911,R2=0.002 6,P=0.000 272),见图 5b。

a:身高分布;b:身高分布趋势;c:体质量分布;d:体质量分布趋势;e:BMI 分布;f:BMI 分布趋势
2.6 患者的体质量分布
DACCA 数据库提供的体质量信息中,未核实体质量信息 4 181 条,有体质量信息 5 452 条,结果显示,病例的体质量为 27.5~80.5 kg、(59.38±10.27)kg,其分布见图 5c。采用线性预测对以“年”为时间轴的体质量分布进行预测,结果显示随体质量变化的线性升高(=0.296 5x–537.24,R2=0.010 625,P=2.37×1014),见图 5d。
2.7 患者的 BMI 分布
DACCA 数据库提供的 BMI 信息中,未核实 BMI 信息 4 613 条,有 BMI 信息 5 020 条,结果显示,病例的 BMI 为 11.02~39.67 kg/m2、(22.77±3.30)kg/m2,其具体分布见图 5e。采用线性预测对以“年”为时间轴的 BMI 分布进行预测,结果显示了随 BMI 变化的线性升高(=0.086 1x–150.59,R2=0.008 44,P=6.99×1011),见图 5f。
2.8 患者的来源地区分布
2.8.1 省份分布
DACCA 数据库提供的地理源,涵盖了我国行政区划的省(市/直辖市/港澳台地区)、市及县的信息。本研究的数据分析按照 3 级进行,利用图层表现来源地的特点。根据省级图层,核实可用数据 6 884 条(其中辽宁省、台湾省及澳门特别行政区的数据为 0),病例主要来自四川、重庆、云南和贵州,具体见表 1。

DACCA 数据库主要覆盖的省份差异图解见图 6a:我国的西部地区包括了 12 个省份,黄色虚线所示为模拟的东/西部划分线,而 DACCA 数据库提供的地理特征信息显示,华西医院服务的结直肠癌病患主要集中在西部的 8 个省份,紫色虚线所示为主要/次要服务区域划分线,绿色虚圈则为核心服务区域。

a:省级覆盖区域分界线与我国东/西部划分的分界线有所区别;b:四川省病例的市级行政区域化分布热度及数据来源热度的变化圈;c:成都市病例的县/区级级行政区域化分布热度及其数据来源热度的变化圈;d:职业构成;e:文化程度构成;f:医保构成;g:结直肠癌的部位分布;h:结肠癌的部位分布;i:直肠癌的部位分布
2.8.2 四川省病例的市级分布
四川省内的核实可用数据为 4 693 条,根据市级(因数据主要来源为四川省的病例,故提供四川省内数据作为“市级”分布展示)图层显示来源数据的分布强度信息,可见病例主要来自成都、眉山、乐山和南充。省内市一级热度图层显示的特征,可以初步拟合在一定的辐射圈内。省内辐射圈层按照 200 条(蓝色虚线)、100 条(绿色虚线)及 50 条(紫色虚线)为界划分。具体见图 6b。
2.8.3 成都市病例的县级分布
成都市的核实可用数据为 2 970 条,根据县级(因数据主要来源为成都市的病例,故提供成都市内数据作为“县级”分布展示)图层显示来源数据的分布强度信息(由于图层工具的功能限制,本次行政区划中“高新区”暂划归在“武侯区”内标记,“天府新区”暂划在“双流区”内标记),可见病例主要来自武侯区、金牛区、成华区和青羊区。成都市辖区一级的热度图层显示的特征,可以初步拟合在一定的辐射圈内。市辖区辐射圈层,按照 200 条以上(蓝色虚线)、100~200 条(绿色虚线)为界划分辐射圈。具体见图 6c。
2.9 患者的职业和文化程度分布
DACCA 数据库提供的职业信息中,未核实职业信息 3 288 条,有职业信息 6 345 条,其职业分布见图 6d。由图 6d 可见,职业类型以退休、农/林/牧/渔/水利业为主。DACCA 数据库提供的文化程度信息中,未核实文化程度信息 3 316 条,有文化程度信息 6 317 条,其文化程度分布见图 6e。由图 6e 可见,文化程度以小学、初中及高中为主。
2.10 患者的医保类型分布
DACCA 数据库提供的医保类型信息中,未核实医保类型信息 4 456 条,有医保类型信息 5 177 条,其医保类型分布见图 6f。由图 6f 可见,医保类型中以城镇职工医疗保险占比最高。
2.11 患者疾病主诊断的变化
DACCA 数据库提供的疾病主诊断信息中,未核实疾病主诊断信息 424 条,有疾病主诊断信息 9 209 条。结直肠癌的发生部位见图 6g,结肠癌的发生部位见图 6h,直肠癌的发生部位见图 6i。由图 6g–6i 可知,结直肠癌主要发生在直肠,其中结肠癌主要发生在乙状结肠,直肠癌主要发生在直肠肛管。
3 讨论
3.1 DACCA 数据库的容量特征
DACCA 数据库提供了结直肠癌信息的完整数据仓库,本次数据库研究选定的核心筛选条件为“手术日期”,是便于在确定有“手术治疗”的病患信息群中进行分析,仅代表部分数据信息随时间变化的特征。
从数据库的“年”单位分布图来看,能明显看出数据呈现出 2 个阶段:2005 年前(含 2005 年)与 2005 年后。这正是华西医院数据库建设的开始时间点[3]。由于规范化的数据库建设,使得近 10 年的数据信息量更为全面,有效信息的容量明显高于前 1 个 10 年。这表明,DACCA 数据库的规范化建设,有利于数据的筹备与完善,这是所有数据库未来发展的基础。
对于 DACCA 数据库的容量特征,未来还会有更多研究内容,特别是运用大数据技术,分析区域中心医院专科疾病的容量以及关联因素,这才是数据库容量分析的价值。与传统大容量的临床研究比较[13-14],未来还需要回答:何为大数据定义下的高容量性专科?高容量性专科与专业技术的迭代演变是否有关系?这些随时间演进的大数据分析,是未来区域中心医院专科疾病病房设置和临床运转的基础。
3.2 人群体质特征
本次 DACCA 数据库研究选取的个体数据包括:性别、年龄、血型、身高、体质量以及 BMI。其中对于身高、体质量和 BMI 则更进一步分析了时间演变的特征。
3.2.1 性别
目前,全球性的数据报道[15]表明,结直肠癌的男/女好发比例为 45.9∶34.8(约 1.32∶1)。本研究中显示男女比大约为 1.4∶1,与前两者的数据表现几乎一致,并没有提示结直肠癌更容易偏向于某一性别的特征。
3.2.2 年龄
从年龄上看,DACCA 数据库提供的信息基本符合经典统计学的正态分布特征。患者的平均年龄为 59 岁,其中>60 岁者有 4 170/8 002(约 52.11%),与国际公开的数据报道[16]比较更为年轻。笔者团队进一步对数据库随“年”为时间单位的年龄分布动态进行描述和线性分析,结果发现,1995–2018 年期间 DACCA 数据库病例的年龄分布的数据稳定性良好,趋势表现极为缓慢的上升且逐步向 60 岁观察线靠近。这一方面说明,结直肠癌的年龄特征仍旧以中年(我国定义 45~65 岁为中年)为主;另一方面说明,结直肠癌并没有出现“年轻化”表现[17-18]。
3.2.3 ABO 血型
从血型上看,DACCA 数据库提供的“ABO 型”血型信息显示,A 型和 O 型占比高于 B 型,而 AB 型最少。既往有研究[19]关注了血型和结直肠癌的关系,实际上这是遗传学的一个命题。若需要进一步探究血型与结直肠癌的关系,单纯的数据构成是不够的,更多还需要结合遗传学信息与数据信息,进行大数据相关性分析从而进一步论证。
3.2.4 身高、体质量和 BMI
身高、体质量和 BMI 是人群体质的最基本指标。从 DACCA 数据库的数据分析结果来看,1995–2018 年期间,病患的体质指标基本符合传统统计学的正态分布的特征;而对以“年”为时间演变指标进行分析,可发现一些能解释的趋势。
1995–2018 年期间结直肠癌人群的身高趋势线性稳定,升高变化的趋势并不明显;而体质量的变化趋势则显得更为明显,不仅线性稳定,而且有上升趋势;与此伴随的 BMI 指标,也有上升趋势。这说明,结直肠癌患病群体的体质状态在逐步提升,未来可能以超重人群为主(我国标准定义 BMI≥24.0 kg/m2为超重)。从结直肠癌的溯因上看,既往研究[20-21]都提示,肥胖是结直肠癌的高危因素(high-risk factor),未来的大数据可能会进一步印证体质量对于结直肠癌的发生率的影响;同时从结直肠癌的治疗干扰因素(influent factor)上看,结直肠癌的外科医生将会面对更多超重甚至肥胖的病患。从大数据预测上分析,这一初步判断,有利于寻找结直肠癌长期预后(prognosis)的关联因素。
3.3 地理特征
DACCA 数据库提供信息来自华西医院所服务地区,地理特征主要反映的是医疗覆盖区域具有的特点。通过对于医疗服务覆盖的主要地区进行热度显示,可以看出,华西医院的结直肠癌服务范围主要集中在西部地区,但范围和我国大西部地区的区域划定上还有一定的差异。这初步显示的特征,可以为大数据模型研究结直肠癌病患省级区域流转的特点,提供重要的依据。同样,数据库呈现的市级和县级热度图辐射圈变化特点,又为结直肠癌在更小范围的区域内流转特点,提供了有价值的证据。
回顾以上的信息,笔者认为,地理特征是一项极具有关联可能的特征。本次数据库研究对地理位置特征的描述,只是病患就医“行为模型”的一小部分。这种“行为模型”就是真实场景研究中,“行为-结果”核心研究的组成部分。
本次研究所呈现的“行为”特点,可能是多种就医因素共同所致的。为什么出现这样的特点,正是大数据研究需要回答的问题。
3.4 职业、文化程度和医保特征
本次 DACCA 数据库研究提取了职业、文化程度和医保的信息,并提供了有价值的线索。如前所述,DACCA 数据库的年龄特征集中在 58 岁上下,再结合四川地区发展的产业特点,比较容易理解,“退休”和“第一产业(农业为主)”的结直肠病患占据了超过半数以上的数据贡献量(分别达到>30% 的占有率);同时文化程度相对较低的人群也占有较高的比例。从大数据“行为-结果”模型来看,这些信息需要与国内生产总值(gross domestic product,GDP)、教育资源等数据相结合,提供未来对于结直肠癌“知识水平”为基础的预警模型,将大数据模型应用在结直肠癌的治疗前预防中。
目前,我国的大数据发展已经覆盖了人群的经济学数据。因此,对 DACCA 数据库初步的医保特征分析,只是“大数据+医疗+经济”模型的探索。未来“大数据+医疗+经济”模型会是重点突破口,笔者团队会逐步将结直肠癌病患就医行为与真实场景下的经济学相关联。这将会为未来医保支付系统提供更有价值的模型,可能会优化甚至改变现今主流的基于诊断相关疾病分类(diagnosis related groups,DRGs)付费模型[22]。
3.5 结直肠癌的主诊断特征
DACCA 数据库提供了以结直肠部位为基础的主诊断,与现今 ICD-10 的定义不冲突,而还可能进一步作为优化条件。本次数据库分析是基于主诊断的系列数据库研究的起篇。
结直肠癌的就诊比例,在公开数据[23]中为 3∶7。本次 DACCA 数据库研究呈现的比例也基本一致(结肠癌占 29.54%,直肠癌占 68.64%)。而直肠癌的数据贡献量比例,可能更多反映了华西医院的服务特点:腹膜反折部以下(距离肛缘 9 cm 以内)的直肠癌病患在华西医院接受治疗的比例很高 [(腹膜返折部 10.00%+低位 10.68%+超低位 13.30%+直肠肛管 13.34%+肛管 1.85%+肛门 0.24%=49.41%)∶(中段 9.35%+上段 5.92%+直交界部 1.31%=16.58%)约为 2.98∶1]。这与本系列开篇论述的“结直肠癌极限保肛技术”有相当的关系[3, 24-27]。
从大数据分析的角度上看,未来完善“行为-结果”模型的关键环节之一,就是需要解读更低位置的直肠癌患者在“行为-结果”模型中到底获得了怎样长期效果收益(long term outcomes)?华西医院在 1995–2018 年期间,数据库含量稳步提高的过程中,持续容纳了更多低位及以下的直肠癌病患,数据量的增加与极低位直肠癌病患的治疗比例是否具有关联关系?能否提出更符合真实场景、更为有效的极低位直肠癌管理方案,以解决未来结直肠外科“大幅提高远期生存率”和“保住所有可以保住的肛门功能”这两大核心问题。
(未完待续)