引用本文: 段一凡, 唐明坤, 孙海霞, 郝洁, 王嘉阳, 周佳茵, 李姣, 钱庆. 面向疾病风险智能预测研究过程的电子病历数据质量需求模型构建. 中国循证医学杂志, 2023, 23(9): 1072-1080. doi: 10.7507/1672-2531.202301076 复制
“健康中国2030”战略与行动强调卫生保健预防为主、关口前移。要求在防治疾病的过程中必须掌握疾病的发生、发展规律及其转变途径,而疾病风险智能预测则为早期诊断、治疗的相关研究提供了研究思路[1]。疾病风险智能预测是指利用数学模型智能评估特定个体当前患某病或将来发生某结局的概率[2],并在当前健康预测与预警[3]、精准医学[4]等方面都取得了一定的研究进展。疾病风险智能预测相关研究多基于真实世界数据。电子病历数据作为真实世界数据的重要组成部分[5],已成为临床疾病风险智能预测研究的重要数据来源。电子病历数据涵盖了丰富的临床数据和经验,在真实世界研究的多个领域具有一定的应用潜力[6],为获得准确可靠的真实世界研究结果,作为应用基础,电子病历数据不仅需要完成“量”的积累,还要在一定程度上达到“质”的标准[7]。而目前的电子病历数据存在数据不完整[8]、数据不完全[9]等问题。数据质量问题成为电子病历数据支撑真实世界研究的一个短板[10]。
如何评估电子病历的数据质量,完善并保障电子病历数据质量符合真实世界研究要求成为了目前研究者们关注的热点问题。Johnson等[7]通过文献调研法开发了医疗数据质量本体,从而实现了对电子病历数据质量的自动化评估。吕旭东团队[11]在文献调研的基础上,不仅对电子病历数据质量指标定性,还进行了量化计算,构建了量化的临床数据质量评价体系。Weiskopf等[12]构建的电子病历数据质量评价体系则是在文献调研定性和量化计算的基础上,进一步参考了临床专家的审查意见。然而目前电子病历数据质量评价研究大多以结果为导向,忽视了应用任务过程中各阶段数据活动对电子病历数据质量需求的差异性[13]。
对此,本文基于机器学习的疾病风险智能预测模型构建研究过程视角,归纳疾病风险智能预测研究全生命周期各阶段任务所需要执行的数据活动及其质量目标,并据此反推其对电子病历数据的质量需求,构建了该类智能技术研究任务的电子病历数据质量需求模型。
1 资料与方法
1.1 研究基础
1.1.1 机器学习全生命周期管理模型
机器学习全生命周期管理模型可以帮助研发人员更好地管理数据和模型的全部工作流[14]。从产品化角度来看,机器学习全生命周期模型大致可以分为4个核心步骤:数据、模型、评估和生产[15]。在现实情况下,数据、模型与评估这3个步骤在生产之前会一直循环,使用模型结果与评估结论不断优化数据集,而高质量的数据集也是训练高质量模型的保障。从研发角度看,机器学习全生命周期模型是一个建立高效机器学习项目的循环过程[16],包含7个核心步骤:收集数据、数据准备、数据整理、分析数据、训练模型、测试模型和部署。
在我国,对人工智能相关的政策和标准中已经提出机器学习全生命周期管理的理念要求。如国家药监局在2022年3月初发布的《人工智能医疗器械注册审查指导原则》[17]中提到人工智能医疗器械生存周期过程,并以当前人工智能医疗器械主流算法的监督学习为例,提出对有监督学习的人工智能器械生存周期过程质控要求,包括需求分析、数据收集、算法设计、验证与确认、更新控制5个阶段。国家药品监督管理局制定的《深度学习辅助决策医疗器械软件审评要点》[18]中指出基于风险的全生命周期管理类软件设计开发过程通常应分为需求分析、数据收集、算法设计、验证与确认等阶段。
尽管机器学习全生命周期管理模型还不成熟,但现有研究与实践开始涉足兼顾数据和模型两个方面,能够为从疾病智能预测研究过程视角进行电子病历数据质量需求分析提供理论基础和思路。
1.1.2 电子病历数据质量评价
当前电子病历数据质量评价研究主要集中于两个研究场景。一是侧重于电子病历数据生产与后处理阶段的质量控制,主要解决的是电子病历录入或处理阶段可能出现的质量问题,如完整性、准确性(如异常值或者错误值等)、标准化与互操作等问题[19-21]。二是侧重于电子病历数据使用阶段的质量评估,主要解决的是电子病历数据可用性或重用性问题[19]。本研究属于第二类研究场景。
在电子病历数据使用阶段的质量评估体系的研究中,虽然不同学者所提出的评价维度名称和定义稍有不同,但整体集中在完整性、准确性、一致性、合理性、时效性等维度 [11,21-22]。就研究方法而言,质量评估体系主要采取文献调研[11,21]和专家咨询[22-23]等方法建立,研究成果具有一定的权威性和可用性。然而不足的是,现有评估体系主要是结果导向,并未与特定应用过程关联。具体到疾病智能预测研究,现有电子病历数据质量评估指标体系难以对模型构建研究全周期、全阶段覆盖。
1.2 纳入与排除标准
纳入标准:① 研究主题为疾病风险预测;② 研究数据为电子病历;③ 预测方法为机器学习范畴。
排除标准:① 综述类研究;② 重复发表的文献;③ 无法获取全文的文献。
1.3 文献检索策略
计算机检索PubMed和CNKI数据库,检索时限为建库至2021年9月27日。检索采用主题词与自由词相结合的方式,英文检索词包括:machine learning、electronic medical record、disease prediction等;中文检索词包括:疾病预测、电子病历等。
1.4 需求模型构建过程
首先,根据以研发为导向的机器学习全生命周期管理模型,确定基于电子病历的机器学习疾病风险预测研究过程的任务阶段。其次,通过文献调研,分析各任务阶段包含的子任务和涉及的主要数据活动。选取有代表性的文献,主要围绕各子任务的处理目标、处理操作和处理对象开展数据活动分析,其中处理目标是关于子任务处理数据活动的实施目的;处理操作是为达成处理目标所需要的处理流程;处理对象关注处理操作过程面向的数据对象。再次,将通过文献分析得到的数据活动映射到电子病历数据质量的具体需求,并对具体需求进行聚类,形成最终的质量需求维度。最后,基于分析得出的质量需求维度与各任务阶段对应的具体质量需求,确立面向疾病智能预测过程的电子病历数据质量需求模型。详见图1。

2 结果
2.1 文献筛选流程及结果
初检共获得549篇文献,其中PubMed(n=509),CNKI(n=40)篇。经逐层筛选后,最终纳入260篇文献。
2.2 各任务阶段及其主要涉及的数据活动
本文根据以研发为导向的机器学习全生命周期管理模型,结合利用电子病历的疾病智能风险预测文献,确定基于电子病历的机器学习疾病风险预测研究过程可分为7个阶段:数据采集、数据预处理、特征表示、特征选择与提取、模型训练、模型评估与优化、模型应用。通过分析纳入文献,特别是归纳有代表性的研究中所涉及的数据活动,7个阶段可以拆解为数个子任务,每个子任务围绕处理目标、处理操作、处理对象进行数据活动的归纳,并且体现每项数据活动的关键文献出处。
2.2.1 数据采集
可以分解为选取数据采集内容和采集数据2个子任务阶段。由于电子病历涵盖的内容庞大,数据存在形式多样,根据疾病风险预测的目标不同,研究者设计的数据采集方案不尽相同。表1对选取数据采集内容和采集数据2个子任务阶段的通用处理目标、操作和对象进行了概括[24-31]。

选取数据采集内容任务有4个处理目标,分别是确定结构化数据采集内容、确定非结构化数据采集内容、确定样本抽取方案以及确定数据初筛方案。结构化数据主要包括患者基本信息、既往病史、诊断记录、实验室检查报告等。非结构化数据包括自由文本格式的诊断记录、图表形式的检验报告、医学影像等内容。确定样本抽取方案是为了确定数据代表人群与源人群一致,使得样本具有代表性,增强模型泛化能力。由于电子病历数据内容庞大,特征变量数量巨大,同时一些电子病历质量较低,因此需要对电子病历数据进行初筛,将符合要求的电子病历数据记录纳入到模型构建数据集中。
采集数据分为3个子任务,分别是链接读取合并电子病历数据、整合其他来源的数据、数据脱敏。整合其他来源的数据是研究设计中的特定处理步骤,尤其是对于一些慢性疾病,需要补充长期的数据记录,因此需要与社区健康记录等其他来源的数据进行合并,才能获得较为全面的数据集。
2.2.2 数据预处理
直接采集的电子病历数据可能存在不完整、冗余和模糊等问题,难以直接满足疾病风险智能预测训练模型的要求。此外,大量已存在的数据中无意义的成分很多,这也严重影响了预测模型的执行效率,特别是数据中的噪音干扰还可能会造成数据挖掘结果的偏倚。因此,对粗糙的原始数据进行有效的预处理,已经成为疾病风险预测实现过程中的关键问题。
数据预处理可以分解为数据清洗、数据集成、数据转换、数据缩减、处理工具和环境配置以及数据标注6个子任务,详见表2,其中前4个任务为主要任务[25,27,29,31-39]。经调研内容分析,数据清洗有4个处理目标,分别是缺失值填补、异常值处理、去除重复数据、检验数据一致性。数据集成有3个处理目标,分别是基线特征选取、数据纳入排除、数据集成。数据转换有3个处理目标,分别是归一化、数据聚合、数据泛化。数据缩减是指经过数据清洗、数据转换和数据集成等操作之后,为了降维减少建模成本而进行的删除冗余记录和变量。学习模型的构建需要建立在一定的系统环境中进行,某些类型的机器学习模型,尤其是深度学习模型,需要较强的环境算力。数据处理和清洗应当明确选用软件工具的名称、型号规格、完整版本、运行环境、确认等要求,同时考虑数据处理选用方法对软件的影响及其风险,同时基于有监督的机器学习方法的疾病风险智能预测研究需要保证电子病历是已经具有特征标签的数据,因此往往需要人工进行数据标注。

2.2.3 特征表示
是指选择合适的特征表示方法为预测建模奠定基础。可以用于疾病风险预测的电子病历数据类型多样,包含了文字、表格、图形、影像等类型的数据,但是不同类型的数据原始特征的空间不同,例如1张图像(像素的数量为n)的特征空间为[0,255]n,1个自然语言句子(长度为L)的特征空间为|V|L,其中V为词表集合,然而很多算法要求输入的特征是数学上可计算的,因此在机器学习之前通常需要将这些不同类型的数据转换为向量表示[29]。也就是说,根据输入数据和训练模型的类型不同,需要把数据转化为机器可以在原始特征空间或不同维度特征空间做矩阵运算的特征表示[28,34]。详见表3。

2.2.4 特征选择与提取
特征选择是选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高,而特征提取是构造一个新的特征空间,并将原始特征投影在新的空间中。特征选择和提取都可以用较少的特征来表示电子病历原始特征中的大部分相关信息,去掉噪声信息,进而提高计算效率。
最常用的特征选择操作为子集搜索,如前向搜索:由空集合开始,每一轮添加该轮最优的特征;反向搜索:从原始特征集合开始,每次删除最无用的特征,选择一个最优的候选子集。特征抽取则可分为有监督和无监督的两种方法,前者目标是抽取对预测目标最有用的特征,常用的方法有线性判别式等;后者目标是减少冗余信息和噪声,常用的方法为主成分分析等[29,32]。见表4。

2.2.5 模型训练
针对疾病风险预测的目标,需要选择某种或某些合适算法构建机器学习模型,疾病智能预测研究作为常见的分类问题,其模型选择性很广。训练模型的整个周期大多需要进行多次迭代,同时要跟踪不同版本的模型以及适时调整训练的超参数,例如神经网络中的权重w和偏置b,支持向量机中的支持向量,线性回归或逻辑回归中的系数等。
2.2.6 模型评估与优化
模型构建之后往往并不能一步到位得到最好的性能,还需要对模型进行评估和优化从而提高模型的性能。疾病风险预测模型的评估指标一般以性能指标和分类指标为主,包括曲线下面积(area under curve,AUC)值、F1分数(F1 score)、精确度(precision)、召回率(recall)等。根据疾病风险预测目标不同,需要选择最适合支持决策的评估指标对模型进行评估。模型优化的方法包括异常值分析、模型集成等。在不同的研究中,研究者根据研究设计采取不同的模型优化方案。
2.2.7 模型应用
将训练好的模型应用于新的电子病历数据集,此时新的数据集也需要经过数据采集、数据预处理等过程。要获得一个准确的疾病风险预测结果,不仅需要一个性能良好的模型,还需要保证新的数据集质量能达到同样的质量要求。
2.3 面向疾病风险智能预测研究的电子病历数据质量需求模型
根据上述数据活动可映射出7个任务阶段对电子病历数据的具体质量需求,如“数据无前后矛盾的表述”、“时间信息完整”、“数据表达符合专业预期”等,完整结果如表5所示。

基于数据的具体质量需求,可进一步提炼4类高层次质量需求维度:可操作性、完整性、准确性和时效性。可操作性定义为数据是否可以进行顺利构建和应用预测模型。完整性定义为数据的完整程度,包括数据元、数据元取值、数据状态信息等的完整。准确性是指数据是否准确反映所记录的临床事实。时效性是指数据时间信息是否完整及数据的实时、及时的程度。同一具体需求可能以不同的形式表现在各个阶段的数据处理活动当中,但都体现了同一类的质量需求维度。
图2是对表5的简化,展示一个环形的面向疾病风险智能预测研究过程的电子病历数据质量需求模型;模型内核为数据采集、数据预处理、特征表示、特征选择与提取、模型训练、模型评估与优化、模型应用7个核心任务阶段;中间为各阶段的主要数据活动的具体需求;外围为可操作性、完整性、准确性、时效性4个核心质量需求维度。

3 讨论
本研究目标是归纳满足基于机器学习的疾病风险预测研究活动需要的电子病历数据应具备的质量特征或达到的质量要求。整个分析在疾病风险预测研究框架下进行,且面向机器学习全生命周期。
相较于现有机器学习全生命周期管理模型没有详细阐述每一阶段具体对应的数据操作和数据质量需求,本研究对基于机器学习的疾病风险预测研究整个过程所涉及的主要任务阶段逐一进行数据活动和数据具体质量需求分析。基于电子病历的机器学习疾病风险预测整个过程所涉及的主要任务阶段最终归纳为数据采集、数据预处理、特征表示、特征选择与提取、模型训练、模型评估与优化、模型应用7个任务阶段,其中大部分临床决策支持研究主要涉及前面4个任务阶段,也是本研究关注的焦点。本研究在数据采集阶段下归纳出7个数据活动和27个数据需求;在数据预处理阶段归纳了13个数据活动和29个数据需求;特征表示、特征选择与提取、模型训练、模型评估与优化、模型应用的关键需求是保障电子病历数据可随时调用,从而保障学习算法的流程可以正常进行。
需要说明的是,图2是一个简化版环形的面向疾病风险智能预测研究过程的电子病历数据质量需求模型,重点是想凸显过程的重要性。此外,该模型是可扩展的,可以根据疾病智能预测研究阶段细化需要在内环增加子阶段,在中间增加对应的具体质量需求,在外围增加高层级质量需求维度。
本文提出的需求模型根据电子病历数据在机器学习全生命周期的活动过程,概括了4类质量需求维度,分别为可操作性、完整性、准确性和时效性。在该需求模型中,可操作性是指数据是否可以进行顺利操作构建和应用预测模型,专门针对人工智能相关模型的电子病历数据质量需求。可操作性不仅体现在模型阶段,在数据采集阶段也有体现,如在链接读取电子病历数据活动时,环境配置是否满足要求;以及在整合其他来源数据活动中,保证电子病历数据和外源数据可获取,两者都属于数据可操作性需求。
除了可操作性,完整性、准确性和时效性这3个质量需求维度与Johnson提出的电子病历数据质量本体4个高级数据质量维度正确性、一致性、完整性和时效性基本一致[7],与Weiskopf在2012年所发表的文献中提出的5个数据质量维度完整性、正确性、一致性、合理性和时效性相对应[22],也基本引证了Kahn提出的电子病历数据质量评价维度,一致性、完整性以及合理性[23],与国内学者袁莎在2020年的研究成果中提出的数据的准确性、完整性、一致性和时效性相符合[40],从而侧面论证了需求模型是数据质量评价指标体系确立的基础。
需求模型也是数据质量评价指标体系的指导方向。如在本文提出的需求模型中,定义结局变量的特征完整、数据量和特征充足是保证机器学习疾病风险预测模型构建的重要需求,应纳入完整性的指标分类中去评价,与吕旭东等[11]对电子病历数据质量评价体系中关于完整性的定义整体一致,是对Weiskopf等[22]完整性定义的进一步具化。
本文提出的质量需求模型是对现今电子病历数据质量评价较少考虑人工智能技术的个性化应用特性需求的补充。同时,该需求模型也有一些局限性:首先本文仅检索PubMed和CNKI数据库,可能并未覆盖所有符合纳入标准的文献;其次本文提出的模型聚焦算法需求,在模型的架构上并未过多考虑临床视角以及电子病历系统的现状;该模型聚焦数据的逻辑结构,并没有考虑物理存储的结构需求等。未来拟在现有基础上,结合现有电子病历数据治理、人工智能软件产品等相关政策与标准规范,构建电子病历数据实用性评估指标体系以及后续相关实证研究。
本文详细介绍了面向疾病风险智能预测研究过程的电子病历数据质量需求模型分析过程,以机器学习全生命周期模型为基础并运用了文献分析法,从机器学习疾病预测流程出发,疾病风险预测为结果,归纳出7个任务阶段和4个质量需求维度,最终形成面向疾病风险智能预测研究过程的电子病历数据质量需求模型。这不仅丰富了现有电子病历数据质量框架研究成果,也为后续据此构建的适用性指标体系的业务相关性提供了基础。
“健康中国2030”战略与行动强调卫生保健预防为主、关口前移。要求在防治疾病的过程中必须掌握疾病的发生、发展规律及其转变途径,而疾病风险智能预测则为早期诊断、治疗的相关研究提供了研究思路[1]。疾病风险智能预测是指利用数学模型智能评估特定个体当前患某病或将来发生某结局的概率[2],并在当前健康预测与预警[3]、精准医学[4]等方面都取得了一定的研究进展。疾病风险智能预测相关研究多基于真实世界数据。电子病历数据作为真实世界数据的重要组成部分[5],已成为临床疾病风险智能预测研究的重要数据来源。电子病历数据涵盖了丰富的临床数据和经验,在真实世界研究的多个领域具有一定的应用潜力[6],为获得准确可靠的真实世界研究结果,作为应用基础,电子病历数据不仅需要完成“量”的积累,还要在一定程度上达到“质”的标准[7]。而目前的电子病历数据存在数据不完整[8]、数据不完全[9]等问题。数据质量问题成为电子病历数据支撑真实世界研究的一个短板[10]。
如何评估电子病历的数据质量,完善并保障电子病历数据质量符合真实世界研究要求成为了目前研究者们关注的热点问题。Johnson等[7]通过文献调研法开发了医疗数据质量本体,从而实现了对电子病历数据质量的自动化评估。吕旭东团队[11]在文献调研的基础上,不仅对电子病历数据质量指标定性,还进行了量化计算,构建了量化的临床数据质量评价体系。Weiskopf等[12]构建的电子病历数据质量评价体系则是在文献调研定性和量化计算的基础上,进一步参考了临床专家的审查意见。然而目前电子病历数据质量评价研究大多以结果为导向,忽视了应用任务过程中各阶段数据活动对电子病历数据质量需求的差异性[13]。
对此,本文基于机器学习的疾病风险智能预测模型构建研究过程视角,归纳疾病风险智能预测研究全生命周期各阶段任务所需要执行的数据活动及其质量目标,并据此反推其对电子病历数据的质量需求,构建了该类智能技术研究任务的电子病历数据质量需求模型。
1 资料与方法
1.1 研究基础
1.1.1 机器学习全生命周期管理模型
机器学习全生命周期管理模型可以帮助研发人员更好地管理数据和模型的全部工作流[14]。从产品化角度来看,机器学习全生命周期模型大致可以分为4个核心步骤:数据、模型、评估和生产[15]。在现实情况下,数据、模型与评估这3个步骤在生产之前会一直循环,使用模型结果与评估结论不断优化数据集,而高质量的数据集也是训练高质量模型的保障。从研发角度看,机器学习全生命周期模型是一个建立高效机器学习项目的循环过程[16],包含7个核心步骤:收集数据、数据准备、数据整理、分析数据、训练模型、测试模型和部署。
在我国,对人工智能相关的政策和标准中已经提出机器学习全生命周期管理的理念要求。如国家药监局在2022年3月初发布的《人工智能医疗器械注册审查指导原则》[17]中提到人工智能医疗器械生存周期过程,并以当前人工智能医疗器械主流算法的监督学习为例,提出对有监督学习的人工智能器械生存周期过程质控要求,包括需求分析、数据收集、算法设计、验证与确认、更新控制5个阶段。国家药品监督管理局制定的《深度学习辅助决策医疗器械软件审评要点》[18]中指出基于风险的全生命周期管理类软件设计开发过程通常应分为需求分析、数据收集、算法设计、验证与确认等阶段。
尽管机器学习全生命周期管理模型还不成熟,但现有研究与实践开始涉足兼顾数据和模型两个方面,能够为从疾病智能预测研究过程视角进行电子病历数据质量需求分析提供理论基础和思路。
1.1.2 电子病历数据质量评价
当前电子病历数据质量评价研究主要集中于两个研究场景。一是侧重于电子病历数据生产与后处理阶段的质量控制,主要解决的是电子病历录入或处理阶段可能出现的质量问题,如完整性、准确性(如异常值或者错误值等)、标准化与互操作等问题[19-21]。二是侧重于电子病历数据使用阶段的质量评估,主要解决的是电子病历数据可用性或重用性问题[19]。本研究属于第二类研究场景。
在电子病历数据使用阶段的质量评估体系的研究中,虽然不同学者所提出的评价维度名称和定义稍有不同,但整体集中在完整性、准确性、一致性、合理性、时效性等维度 [11,21-22]。就研究方法而言,质量评估体系主要采取文献调研[11,21]和专家咨询[22-23]等方法建立,研究成果具有一定的权威性和可用性。然而不足的是,现有评估体系主要是结果导向,并未与特定应用过程关联。具体到疾病智能预测研究,现有电子病历数据质量评估指标体系难以对模型构建研究全周期、全阶段覆盖。
1.2 纳入与排除标准
纳入标准:① 研究主题为疾病风险预测;② 研究数据为电子病历;③ 预测方法为机器学习范畴。
排除标准:① 综述类研究;② 重复发表的文献;③ 无法获取全文的文献。
1.3 文献检索策略
计算机检索PubMed和CNKI数据库,检索时限为建库至2021年9月27日。检索采用主题词与自由词相结合的方式,英文检索词包括:machine learning、electronic medical record、disease prediction等;中文检索词包括:疾病预测、电子病历等。
1.4 需求模型构建过程
首先,根据以研发为导向的机器学习全生命周期管理模型,确定基于电子病历的机器学习疾病风险预测研究过程的任务阶段。其次,通过文献调研,分析各任务阶段包含的子任务和涉及的主要数据活动。选取有代表性的文献,主要围绕各子任务的处理目标、处理操作和处理对象开展数据活动分析,其中处理目标是关于子任务处理数据活动的实施目的;处理操作是为达成处理目标所需要的处理流程;处理对象关注处理操作过程面向的数据对象。再次,将通过文献分析得到的数据活动映射到电子病历数据质量的具体需求,并对具体需求进行聚类,形成最终的质量需求维度。最后,基于分析得出的质量需求维度与各任务阶段对应的具体质量需求,确立面向疾病智能预测过程的电子病历数据质量需求模型。详见图1。

2 结果
2.1 文献筛选流程及结果
初检共获得549篇文献,其中PubMed(n=509),CNKI(n=40)篇。经逐层筛选后,最终纳入260篇文献。
2.2 各任务阶段及其主要涉及的数据活动
本文根据以研发为导向的机器学习全生命周期管理模型,结合利用电子病历的疾病智能风险预测文献,确定基于电子病历的机器学习疾病风险预测研究过程可分为7个阶段:数据采集、数据预处理、特征表示、特征选择与提取、模型训练、模型评估与优化、模型应用。通过分析纳入文献,特别是归纳有代表性的研究中所涉及的数据活动,7个阶段可以拆解为数个子任务,每个子任务围绕处理目标、处理操作、处理对象进行数据活动的归纳,并且体现每项数据活动的关键文献出处。
2.2.1 数据采集
可以分解为选取数据采集内容和采集数据2个子任务阶段。由于电子病历涵盖的内容庞大,数据存在形式多样,根据疾病风险预测的目标不同,研究者设计的数据采集方案不尽相同。表1对选取数据采集内容和采集数据2个子任务阶段的通用处理目标、操作和对象进行了概括[24-31]。

选取数据采集内容任务有4个处理目标,分别是确定结构化数据采集内容、确定非结构化数据采集内容、确定样本抽取方案以及确定数据初筛方案。结构化数据主要包括患者基本信息、既往病史、诊断记录、实验室检查报告等。非结构化数据包括自由文本格式的诊断记录、图表形式的检验报告、医学影像等内容。确定样本抽取方案是为了确定数据代表人群与源人群一致,使得样本具有代表性,增强模型泛化能力。由于电子病历数据内容庞大,特征变量数量巨大,同时一些电子病历质量较低,因此需要对电子病历数据进行初筛,将符合要求的电子病历数据记录纳入到模型构建数据集中。
采集数据分为3个子任务,分别是链接读取合并电子病历数据、整合其他来源的数据、数据脱敏。整合其他来源的数据是研究设计中的特定处理步骤,尤其是对于一些慢性疾病,需要补充长期的数据记录,因此需要与社区健康记录等其他来源的数据进行合并,才能获得较为全面的数据集。
2.2.2 数据预处理
直接采集的电子病历数据可能存在不完整、冗余和模糊等问题,难以直接满足疾病风险智能预测训练模型的要求。此外,大量已存在的数据中无意义的成分很多,这也严重影响了预测模型的执行效率,特别是数据中的噪音干扰还可能会造成数据挖掘结果的偏倚。因此,对粗糙的原始数据进行有效的预处理,已经成为疾病风险预测实现过程中的关键问题。
数据预处理可以分解为数据清洗、数据集成、数据转换、数据缩减、处理工具和环境配置以及数据标注6个子任务,详见表2,其中前4个任务为主要任务[25,27,29,31-39]。经调研内容分析,数据清洗有4个处理目标,分别是缺失值填补、异常值处理、去除重复数据、检验数据一致性。数据集成有3个处理目标,分别是基线特征选取、数据纳入排除、数据集成。数据转换有3个处理目标,分别是归一化、数据聚合、数据泛化。数据缩减是指经过数据清洗、数据转换和数据集成等操作之后,为了降维减少建模成本而进行的删除冗余记录和变量。学习模型的构建需要建立在一定的系统环境中进行,某些类型的机器学习模型,尤其是深度学习模型,需要较强的环境算力。数据处理和清洗应当明确选用软件工具的名称、型号规格、完整版本、运行环境、确认等要求,同时考虑数据处理选用方法对软件的影响及其风险,同时基于有监督的机器学习方法的疾病风险智能预测研究需要保证电子病历是已经具有特征标签的数据,因此往往需要人工进行数据标注。

2.2.3 特征表示
是指选择合适的特征表示方法为预测建模奠定基础。可以用于疾病风险预测的电子病历数据类型多样,包含了文字、表格、图形、影像等类型的数据,但是不同类型的数据原始特征的空间不同,例如1张图像(像素的数量为n)的特征空间为[0,255]n,1个自然语言句子(长度为L)的特征空间为|V|L,其中V为词表集合,然而很多算法要求输入的特征是数学上可计算的,因此在机器学习之前通常需要将这些不同类型的数据转换为向量表示[29]。也就是说,根据输入数据和训练模型的类型不同,需要把数据转化为机器可以在原始特征空间或不同维度特征空间做矩阵运算的特征表示[28,34]。详见表3。

2.2.4 特征选择与提取
特征选择是选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高,而特征提取是构造一个新的特征空间,并将原始特征投影在新的空间中。特征选择和提取都可以用较少的特征来表示电子病历原始特征中的大部分相关信息,去掉噪声信息,进而提高计算效率。
最常用的特征选择操作为子集搜索,如前向搜索:由空集合开始,每一轮添加该轮最优的特征;反向搜索:从原始特征集合开始,每次删除最无用的特征,选择一个最优的候选子集。特征抽取则可分为有监督和无监督的两种方法,前者目标是抽取对预测目标最有用的特征,常用的方法有线性判别式等;后者目标是减少冗余信息和噪声,常用的方法为主成分分析等[29,32]。见表4。

2.2.5 模型训练
针对疾病风险预测的目标,需要选择某种或某些合适算法构建机器学习模型,疾病智能预测研究作为常见的分类问题,其模型选择性很广。训练模型的整个周期大多需要进行多次迭代,同时要跟踪不同版本的模型以及适时调整训练的超参数,例如神经网络中的权重w和偏置b,支持向量机中的支持向量,线性回归或逻辑回归中的系数等。
2.2.6 模型评估与优化
模型构建之后往往并不能一步到位得到最好的性能,还需要对模型进行评估和优化从而提高模型的性能。疾病风险预测模型的评估指标一般以性能指标和分类指标为主,包括曲线下面积(area under curve,AUC)值、F1分数(F1 score)、精确度(precision)、召回率(recall)等。根据疾病风险预测目标不同,需要选择最适合支持决策的评估指标对模型进行评估。模型优化的方法包括异常值分析、模型集成等。在不同的研究中,研究者根据研究设计采取不同的模型优化方案。
2.2.7 模型应用
将训练好的模型应用于新的电子病历数据集,此时新的数据集也需要经过数据采集、数据预处理等过程。要获得一个准确的疾病风险预测结果,不仅需要一个性能良好的模型,还需要保证新的数据集质量能达到同样的质量要求。
2.3 面向疾病风险智能预测研究的电子病历数据质量需求模型
根据上述数据活动可映射出7个任务阶段对电子病历数据的具体质量需求,如“数据无前后矛盾的表述”、“时间信息完整”、“数据表达符合专业预期”等,完整结果如表5所示。

基于数据的具体质量需求,可进一步提炼4类高层次质量需求维度:可操作性、完整性、准确性和时效性。可操作性定义为数据是否可以进行顺利构建和应用预测模型。完整性定义为数据的完整程度,包括数据元、数据元取值、数据状态信息等的完整。准确性是指数据是否准确反映所记录的临床事实。时效性是指数据时间信息是否完整及数据的实时、及时的程度。同一具体需求可能以不同的形式表现在各个阶段的数据处理活动当中,但都体现了同一类的质量需求维度。
图2是对表5的简化,展示一个环形的面向疾病风险智能预测研究过程的电子病历数据质量需求模型;模型内核为数据采集、数据预处理、特征表示、特征选择与提取、模型训练、模型评估与优化、模型应用7个核心任务阶段;中间为各阶段的主要数据活动的具体需求;外围为可操作性、完整性、准确性、时效性4个核心质量需求维度。

3 讨论
本研究目标是归纳满足基于机器学习的疾病风险预测研究活动需要的电子病历数据应具备的质量特征或达到的质量要求。整个分析在疾病风险预测研究框架下进行,且面向机器学习全生命周期。
相较于现有机器学习全生命周期管理模型没有详细阐述每一阶段具体对应的数据操作和数据质量需求,本研究对基于机器学习的疾病风险预测研究整个过程所涉及的主要任务阶段逐一进行数据活动和数据具体质量需求分析。基于电子病历的机器学习疾病风险预测整个过程所涉及的主要任务阶段最终归纳为数据采集、数据预处理、特征表示、特征选择与提取、模型训练、模型评估与优化、模型应用7个任务阶段,其中大部分临床决策支持研究主要涉及前面4个任务阶段,也是本研究关注的焦点。本研究在数据采集阶段下归纳出7个数据活动和27个数据需求;在数据预处理阶段归纳了13个数据活动和29个数据需求;特征表示、特征选择与提取、模型训练、模型评估与优化、模型应用的关键需求是保障电子病历数据可随时调用,从而保障学习算法的流程可以正常进行。
需要说明的是,图2是一个简化版环形的面向疾病风险智能预测研究过程的电子病历数据质量需求模型,重点是想凸显过程的重要性。此外,该模型是可扩展的,可以根据疾病智能预测研究阶段细化需要在内环增加子阶段,在中间增加对应的具体质量需求,在外围增加高层级质量需求维度。
本文提出的需求模型根据电子病历数据在机器学习全生命周期的活动过程,概括了4类质量需求维度,分别为可操作性、完整性、准确性和时效性。在该需求模型中,可操作性是指数据是否可以进行顺利操作构建和应用预测模型,专门针对人工智能相关模型的电子病历数据质量需求。可操作性不仅体现在模型阶段,在数据采集阶段也有体现,如在链接读取电子病历数据活动时,环境配置是否满足要求;以及在整合其他来源数据活动中,保证电子病历数据和外源数据可获取,两者都属于数据可操作性需求。
除了可操作性,完整性、准确性和时效性这3个质量需求维度与Johnson提出的电子病历数据质量本体4个高级数据质量维度正确性、一致性、完整性和时效性基本一致[7],与Weiskopf在2012年所发表的文献中提出的5个数据质量维度完整性、正确性、一致性、合理性和时效性相对应[22],也基本引证了Kahn提出的电子病历数据质量评价维度,一致性、完整性以及合理性[23],与国内学者袁莎在2020年的研究成果中提出的数据的准确性、完整性、一致性和时效性相符合[40],从而侧面论证了需求模型是数据质量评价指标体系确立的基础。
需求模型也是数据质量评价指标体系的指导方向。如在本文提出的需求模型中,定义结局变量的特征完整、数据量和特征充足是保证机器学习疾病风险预测模型构建的重要需求,应纳入完整性的指标分类中去评价,与吕旭东等[11]对电子病历数据质量评价体系中关于完整性的定义整体一致,是对Weiskopf等[22]完整性定义的进一步具化。
本文提出的质量需求模型是对现今电子病历数据质量评价较少考虑人工智能技术的个性化应用特性需求的补充。同时,该需求模型也有一些局限性:首先本文仅检索PubMed和CNKI数据库,可能并未覆盖所有符合纳入标准的文献;其次本文提出的模型聚焦算法需求,在模型的架构上并未过多考虑临床视角以及电子病历系统的现状;该模型聚焦数据的逻辑结构,并没有考虑物理存储的结构需求等。未来拟在现有基础上,结合现有电子病历数据治理、人工智能软件产品等相关政策与标准规范,构建电子病历数据实用性评估指标体系以及后续相关实证研究。
本文详细介绍了面向疾病风险智能预测研究过程的电子病历数据质量需求模型分析过程,以机器学习全生命周期模型为基础并运用了文献分析法,从机器学习疾病预测流程出发,疾病风险预测为结果,归纳出7个任务阶段和4个质量需求维度,最终形成面向疾病风险智能预测研究过程的电子病历数据质量需求模型。这不仅丰富了现有电子病历数据质量框架研究成果,也为后续据此构建的适用性指标体系的业务相关性提供了基础。