研究数据真实、准确、可追溯是高质量临床研究的核心要素,也是目前临床研究透明化理念宣传较为薄弱的环节。如何提高我国临床研究数据质量是各方关注的重要问题。本文梳理和剖析临床研究数据收集过程,认为提高研究数据质量的核心环节是促进临床研究源数据的电子化,尤其是需打通临床诊疗数据与临床研究系统的壁垒;同时总结了现有国内外的经验及不足,提出适用于提高我国临床研究数据质量的解决方案,即建立医院临床研究源数据平台,构建临床研究源数据通用管理流程,加强医院临床研究源数据管理。
引用本文: 董冲亚, 姚晨, 高嵩, 阎小妍, 晋菲斐, 朱赛楠. 加强医院临床研究源数据管理,提高我国临床研究数据质量. 中国循证医学杂志, 2019, 19(11): 1255-1261. doi: 10.7507/1672-2531.201908047 复制
临床研究是推动医学进步的重要环节,其研究结果在很大程度上影响对疾病的预防、诊断和治疗[1]。因此临床研究在其医学科学研究的本质上多了一重公众健康层面的伦理意义。正因临床研究的这一本质,提高研究质量、确保研究结论的可靠性成了研究者和公众共同关注的核心问题。促进临床研究的透明化,使得临床研究的利益相关方,如受试者、研究者、伦理审查者、研究监管者、期刊杂志编辑和审稿人等,能够全面地获得所需的研究相关信息重构或重现研究,是评估研究质量、提高研究结论可靠性的重要手段[2]。当前,临床研究透明化往往集中在研究的开头和结尾:即研究的注册及报告发表两个环节。而研究过程类似“黑箱子”,只看到大体轮廓,看不到实际内容。研究者也缺乏对研究过程的重视,导致研究数据可溯源性差而影响了对研究真实性和准确性的评估,引发了一些研究结果不可重现、甚至是科研诚信问题[3, 4]。医院作为临床研究的重要实施场所,应担负起对在其开展的临床研究的监管义务,同时为研究者创造提高研究数据质量的便利条件。本文将从梳理临床研究数据采集的过程出发,凝练出提高研究数据质量的核心,总结现有经验及不足,并提出适用于我国医院环境的解决方案,以提高我国临床研究数据质量。
1 临床研究数据产生、采集过程梳理
尽管临床研究涉及到多种研究设计类型,而不同研究设计所解决的问题及研究方法存在较大差异,但临床研究数据的形成过程存在较强共性:① 源数据的产生:记录患者健康、诊疗行为或以特定研究为目的的日常记录或专门产生原始数据;② 研究数据的采集:研究者通过数据采集手段采集临床研究相关数据至病历报告表(case report form,CRF)、收集患者自报结局数据(electronic patient reported outcomes,ePRO)系统、研究数据库等研究数据收集媒介。
1.1 源数据的产生
临床研究数据的产生来源可以是人(如:研究者、患者本人)、设备(如:体重计、心电图机)、系统[如:存储院内诊疗记录的电子病历(electronic medical records,EMR)、在医疗机构间互联互通的电子健康档案(electronic health records,EHR)的各类医疗信息系统、医保系统]等[5]。这些数据构成了临床研究的源数据,而体现这些源数据的产生者、产生时间、数值及其他信息的资料就是临床研究的原始记录[5, 6]。原始记录的载体可以是纸质书写形式也可以是电子化记录形式。源数据、原始记录是体现研究过程、重现研究的重要信息。确保研究原始资料的保存、研究数据与源数据的可追溯是临床研究质量控制的核心环节。
欧洲药品管理局在其国际人用药品注册技术协调会指导原则《ICH E8(R1):临床研究的一般考虑》中指出,按照数据产生的目的可以将临床研究的数据来源分为两大类:① 研究以外来源的数据;② 为研究专门产生的数据[7]。其中研究以外来源的数据不以研究目的而产生,主要为记录患者健康、诊疗行为而常规收集的健康数据。例如:EMR/EHR、医保、可穿戴健康设备等,也是目前广受临床研究领域所重视的真实世界数据(real-world data,RWD)[8, 9]。
相同的研究数据,可以通过多个来源获得,例如患者病史可能在研究过程中通过研究者对患者的问询采集,也可以在患者的既往 EMR 记录中获得。同样,在不同的情境下,产生相同的数据也可以基于不同的目的,例如患者就诊时做的血生化检查是常规收集的数据,而患者参加临床试验做的血生化检查就是为研究特定目的而产生的数据。研究者应对研究数据的来源特征进行深入了解。常见的临床研究数据及其来源特征示例见表 1。

1.2 从源数据采集研究数据
将产生的源数据提取、收集至 CRF 中的过程为数据采集过程。源数据采集的载体是 CRF,可为纸质数据采集(如纸质 CRF)或电子化数据采集(electronic data capture,EDC)[如电子化 CRF(eCRF)、研究数据库]两种形式。其中纸质形式仍需要进行数据转录最终形成电子化的数据库,而利用 eCRF 则可实现 EDC。数据采集的方式分为人工录入和数据传输两种。人工录入的方式主要发生在以下两种情形中:① 在不借助设备、系统时,研究者对患者进行问询、评估或患者自我报告数据,需要将数据人工填写在纸质 CRF 或 eCRF 中;② 当源数据与 CRF 无法互通时,如:使用纸质 CRF,或使用 eCRF 但数据无法电子化交换,即使源数据是以电子化形式采集的,研究数据仍需要以人工录入的方式采集至 eCRF 中。只有 EDC 系统和产生源数据的设备或系统能直接形成数据交换时,直接的数据传输才可以实现[5, 10]。
数据采集时间方向按数据是否已在研究启动前产生分为回顾性采集和前瞻性采集。回顾性采集一般在回顾性研究中使用,对既有数据进行回顾和收集。前瞻性采集一般用于前瞻性研究及所有研究中为研究专门产生的新数据。由于前瞻性数据采集可在研究启动前根据研究目的对数据采集进行规划,在源数据产生时及时采集,还可在数据收集过程中把控质量,因此相对于回顾性采集,可以有效降低数据不准确、数据缺失等问题的发生。常见的各类型临床研究收集数据模式见图 1。

2 临床研究数据质量标准和提高研究数据质量的核心
2.1 临床研究数据质量标准
ALCOA+CCEA 标准在多个监管机构的指导原则[5, 11, 12]及行业规范[6, 13]中作为临床试验数据质量的通用标准,旨在降低在收集研究数据过程中产生的误差及信息偏倚。该标准被认为是高质量临床研究应具备的数据标准。具体内容及解析见表 2。

以新药、医疗器械注册为目的的临床试验,监管机构对数据质量、可溯源性,研究的完整记录有着最高要求[12]。而其他类型的临床研究也在期刊杂志对研究透明化及严格质量要求下,向注册临床试验的高标准看齐[14, 15]。加拿大卫生部在其发布的《真实世界数据/证据质量核心要点》中提及真实世界研究中对于前瞻性收集的 RWD,应参照传统随机对照试验的数据质量标准,需要具备清晰定义的流程及完全的透明化(即满足 ALCOA+CCEA 标准)。对于回顾性采集数据,尽管部分标准难以达到前瞻性数据收集的标准,但所有数据均具备可溯源性,且源数据应在需要时可用于审阅[16]。我国国家药品监督管理局在《真实世界证据支持药物研发的基本考虑(征求意见稿)》也提及数据完整性、准确性及数据质量保证、质量控制措施对于真实世界研究数据质量的重要意义[17]。
2.2 提高研究数据质量的核心
参与研究的各方不断投入人力、物力,并改进流程使得研究数据达到 ALCOA+CCEA 标准。以目前注册临床试验为例,除研究者外,还需监查团队进行现场质控,确保研究数据记录完整、准确,研究数据与原始资料记录一致。同时,数据管理团队在后台全面对数据进行质量控制,及时发现错误数据、疑问数据并与研究团队反馈,修正错误,确保最终研究数据达到完整准确。尽管投入了大量人力物力成本,但当前研究数据质控的效率较为低下,大部分数据仍需要人工誊录、核对,无法保证数据的完整性和准确性。而对于研究者发起的临床研究,很多情况下研究者没有相应充足的人力物力来确保研究数据质量控制;对于真实世界研究而言(如图 1 中除传统临床试验的其他类型研究),大量数据来自于常规采集的数据。如仍采用人工誊录,人工核对数据将更加耗时费力,甚至不具备可操作性。因此有必要改进目前临床研究数据采集的工具和流程,而核心环节就是推动源数据的电子化,促进研究的透明化[18]。
EDC 相比人工誊录数据有诸多优势。人工誊录数据容易产生填写和录入错误(不论是有意造假还是无意出错),数据的准确性无法完全保证。其次人工誊录需消耗大量的人力和资源进行源数据核查。而 EDC 在源数据产生时进行电子化记录,如有数据格式化和清理的过程,电子化系统仍可以自动保留数据产生和修改过程中的所有痕迹[5, 13]。
源数据的电子化分为两个层次,首先是利用电子化设备和系统实现数据产生及采集的电子化。此技术目前已基本成熟,例如,医院与诊疗相关的病历、处方、各项检查结果都以电子化形式产生并储存于 EMR 中,电子血压计、体重计、可穿戴设备,以及电子日记卡、ePRO、手机等也逐渐取代传统纸质记录产生源数据。同时数据采集方式也由纸质数据采集方式逐渐被 EDC(电子数据库、EDC 系统、eCRF)取代。第二个层次是在实现源数据产生和采集电子化的基础上,实现各设备、系统间可以实现数据交换,从而具备互操作性[10],即实现数据的直接传输,避免电子化产生的数据再进行人工二次转录。这才是实现源数据电子化的核心意义。
3 推动源数据电子化的现有经验及不足
各国药监机构、工业界、医学信息领域在近年来不断推动临床研究源数据的电子化进程。美国 FDA 接连发布相关指南倡导利用计算机信息技术开展研究并在不同指导文件中强调电子化源数据的优势[10]。在技术的进步和各方的推动下,电子化的数据采集及 EDC 系统与电子设备,电子随访系统、ePRO 等设备及系统的数据交换已基本实现并成熟应用。但作为临床研究数据来源最重要的组成部分,如何将存储在医院信息系统中的 EMR、EHR 数据直接与临床研究数据采集系统实现数据互通仍未有广泛应用的解决方案。由于诊疗医疗数据的高度敏感性,业务系统一般为封闭管理,导致利用 EMR/EHR 数据开展研究、导出或传输 EMR/EHR 数据均存在较大障碍。同时数据分散于各业务系统,存在大量非结构化数据难以利用、数据质量差等问题,这是当前阻碍源数据电子化的最大障碍。
3.1 推动源数据电子化的现有经验
美国国家卫生信息技术协调办公室(the Office of the National Coordinator for Health Information Technology,ONC)于 2010 年启动卫生信息技术认证项目,旨在提高 EHR 系统的标准化,促进 EHR 系统的互操作性[19]。美国 FDA 也针对利用 EHR 数据开展临床研究发布了指南文件,其强调了通过 ONC 认证对于 EHR 系统与临床研究数据采集系统实现数据交换的优势[20]。目前在美国开展的临床试验,部分医院已实现了将实验室检查结果等结构化数据直接传输至 eCRF。在欧盟委员会的支持下,欧洲范围内于 2011 年启动了电子健康记录应用于临床研究项目(Electronic Health Records for Clinical Research,EHR4CR),在 35 家机构范围内探索直接将 EHR 数据应用于研究的技术方案,并于 2016 年完成项目结题[21]。同时在 EHR4CR 项目基础上开启项目的第二阶段,连接电子健康记录和电子数据采集系统(From Electronic Health Records to Electronic Data Capture systems,EHR2EDC),旨在实现 EHR 系统与临床研究 EDC 系统的互联互通[22]。随着我国医院信息化建设的推进,医院对于临床科研重视程度的加强,许多医院都在积极搭建科研数据平台,通过信息技术公司的服务,对院内 EMR 数据进行整合、清理,对非结构化数据通过自然语言技术进行结构化处理并标准化,从而方便院内临床医生利用 EMR 数据开展临床科研[23]。我国在国家层面也在积极促进健康医疗大数据的治理,也在区域范围内对上述院内的电子数据治理工作进行试点,形成区域医疗大数据[24],未来可能成为临床研究的数据来源。
3.2 推动源数据电子化现有经验的不足之处
在上述尝试中,美国的经验更偏重于改进、标准化现有的 EHR,使其较为统一化。欧洲的经验更偏重于打通 EHR 与临床试验系统互通的技术屏障。而中国相对于美国、欧洲而言,尚未形成医院间互联互通的 EHR 模式,因此患者的诊疗信息仍多封闭存储在各医院的 EMR 中,且中国的存储 EMR 数据的医院信息系统供应商繁多、标准不统一的现象更加严重,这个状态在短时间内较难改善。在我国源数据电子化的阻力更多的是管理阻力而不仅是技术障碍:出于数据敏感性及数据安全的顾虑,医院管理层及信息管理部门对于操作导出 EMR 数据的顾虑较大。因此,美国、欧洲的经验模式难以解决我国的问题。
我国目前的尝试方向偏重于对院内既有 EMR 数据的治理,形成独立的科研数据平台。这种模式更适用于医疗大数据挖掘这种研究方式,偏重于以数据为导向而不是研究目的为导向的研究模式。但 EMR 数据本身存在质量和内容缺陷,在数据处理过程中往往丧失了数据的可追溯性,研究者较难去发现问题、核对及修正,导致研究数据质量远不能达到 ALCOA+CCEA 的标准。高质量的临床研究需要事先的设计,仅靠日常诊疗数据能够解决的研究问题有限,需要为不同研究目的专门采集不同的重要信息。另一方面,尽管目前科研平台的建立充分考虑到了医院对诊疗数据敏感性的顾虑,平台一般建立在院内,由医院独立管理运营,但独立、封闭的系统也导致其无法整合外部来源数据,更无法和外部临床研究数据采集系统实现数据交换,达不到实现源数据电子化的目的。
4 适合我国的解决方案—构建医院临床研究源数据管理平台
基于上述讨论,参考国外经验,以实现 EMR 数据与研究数据互联互通,实现临床研究源数据电子化为目的,同时兼顾我国医院对诊疗数据敏感性的顾虑,并针对诊疗系统供应商繁多、标准不一的现况,现提出在我国实现源数据电子化较为通用的解决方案:由医院主导构建临床研究源数据管理平台,与诊疗系统相对独立但保持可控的数据传输,整合院内、院外所有来源的临床研究电子化源数据,实现研究源数据的电子化采集、管理以及与传统临床研究数据采集系统实现电子化数据传输。同时,构建并采用源数据通用管理流程,实现医院内开展临床研究的全流程管理。对于 EMR 数据的使用(包括患者的范围、使用的数据范围)等进行审批和监管,打消管理者对数据安全、敏感数据使用的顾虑。将技术顶层设计和管理顶层设计两方面结合,以源数据管理平台作为诊疗数据与目前常用临床研究数据采集系统之间互通的桥梁,实现源数据的电子化。
4.1 构建源数据管理平台的核心考虑
构建源数据管理平台需参考以下几方面问题:① 源数据管理平台应由医院主导建设管理,且应与诊疗系统相对独立。② 平台功能定位以服务临床科研为核心,一方面服务医生,成为其开展临床研究管理研究数据的便利工具。另一方面服务医院管理部门,集中一体化管理院内医生临床科研的全流程,确保研究质量及科研诚信。同时确保医生在开展研究时合理、可控地使用 EMR 数据。③ 平台具备集中化管理不同来源的院内及院外临床研究源数据的功能,包括与其他数据源的数据交换(从 EMR 或从其他设备、系统产生的常规来源数据)和直接记录、收集为研究专门产生的源数据(如在研究过程中直接记录研究者对患者的问询、评价、随访)。④ 平台具备与诊疗业务系统进行数据交换功能,针对诊疗业务系统中的 EMR 数据进行同步备份产生核证副本数据库。同时对核证部分数据进行一定程度的预处理(数据汇集、标准化、非结构数据的结构化)供具体研究提取使用。⑤ 应以研究问题为导向(明确研究人群及研究目的)申请 EMR 数据的使用,经过伦理审查和信息科批准可使用的 EMR 数据范围(特定患者的特定数据)。通过智能化手段自动提取配合人工对 EMR 数据核对、重新判读,完成 EMR 数据的收集。数据处理、提取、转换的过程完整记录、可控,确保数据的可追溯性。⑥ 平台具备访问权限管理,研究涉及的源数据可以经授权被研究相关的院外研究团队访问。⑦ 存储在平台的源数据具备统一的数据标准,具备与外部系统(如 eCRF)进行数据直接传输的接口,供多中心研究和数据共享。
4.2 基于该平台的临床研究源数据通用管理流程
平台对于源数据的通用管理流程体现在两个层面,第一个是研究源数据产生、研究数据采集的数据层面,另一个是对研究全过程监督、控制的监管层面。
数据层面,应对研究中不同来源的数据加以区分,并分别处理。研究中来自于 EMR 的数据是研究数据的重要组成部分。在研究前应明确需使用的 EMR 范围(特定患者的特定数据),经过批准使用后,这部分 EMR 数据可以核证副本的形式同步至源数据平台中。经平台处理,数据转化为标准化的、结构化的源数据,通过智能化手段配合人工核对,完成研究数据的匹配与提取。相同流程也用于其他来源的源数据,平台与其他设备、系统完成数据交换后,经相同处理方式完成研究数据采集。为研究特定采集的数据,研究者可通过平台直接在数据产生时进行采集,此时平台的功能相当于电子化的数据采集系统或 eCRF。在此过程中,所有数据的产生、处理、修改均以电子化的形式自动记录留痕,并可追溯至原始资料,保证数据的可溯源性。所有汇集的研究源数据采用相同的数据标准进行存储(如临床试验通用的 CDSIC 标准),在标准化、去隐私化后可以导出形成研究数据(单中心研究),也可以与外部系统实现数据传输,汇集到传统多中心临床研究数据采集系统或数据库中(多中心研究)。如图 2 上部分所示。

监管层面,对研究的各个环节实行集中化、电子化的管理,贯穿从研究项目的立项、数据准备、研究进行、研究结束的各个阶段。其中监管环节重视研究的伦理审查、EMR 数据使用的审查,同时由于研究者的研究行为均在平台上产生,因此系统可以完整、自动地记录研究者临床研究过程源数据产生情况,同时可以对研究数据与源数据进行相互核对、稽查,填补了医院对于研究过程监管缺乏合理手段的空白。如图 2 下部分所示。
5 展望
医院在构建科研平台时,可参照上述模式建立临床研究源数据管理平台。平台的建立将成为研究者开展临床研究的便利工具,借助诊疗系统数据与临床研究平台的互联互通,将大大提高研究者收集数据的效率。从前研究者在电脑前一边查电子病历或翻阅纸质病历,一边人工誊录数据的情形将会成为历史。临床研究源数据管理平台的建立也将成为医院管理者促进研究者开展研究,并对研究进行质量监管的有效手段。研究过程的留痕记录清晰体现研究者对于研究的贡献,可以作为医院进行科研绩效评价的重要参考。借助平台实现源数据的电子化,将解决当前注册临床试验的“痛点”即将大量的人力物力成本耗费在低效的现场监查、数据管理环节。借助此平台,电子化的源数据可实现直接的数据传输,降低人工转录过程的错误,同时源数据的集中管理也将大幅提高试验质量控制的效率,甚至可以实现远程质控。而对于真实世界研究而言,由于常规收集的电子化数据是真实世界研究的核心研究数据来源,利用平台助力研究者高效开展高质量真实世界研究的潜力更大。
目前,国内多个医院已启动相关工作,联合医院信息领域专家、临床研究领域专家、临床医生、相关信息技术公司共同以该理念建设临床研究源数据管理平台。期望该模式可以作为其他医院在构建临床研究平台时的参考范本。尽管医院采用不同的诊疗系统供应商,构建平台采用不同的技术团队,但按照共同的透明化理念,相同的数据标准去做顶层设计,可以产生高质量的、可溯源的、标准相同的研究数据,最终实现提高我国整体临床研究数据质量的愿景。
临床研究是推动医学进步的重要环节,其研究结果在很大程度上影响对疾病的预防、诊断和治疗[1]。因此临床研究在其医学科学研究的本质上多了一重公众健康层面的伦理意义。正因临床研究的这一本质,提高研究质量、确保研究结论的可靠性成了研究者和公众共同关注的核心问题。促进临床研究的透明化,使得临床研究的利益相关方,如受试者、研究者、伦理审查者、研究监管者、期刊杂志编辑和审稿人等,能够全面地获得所需的研究相关信息重构或重现研究,是评估研究质量、提高研究结论可靠性的重要手段[2]。当前,临床研究透明化往往集中在研究的开头和结尾:即研究的注册及报告发表两个环节。而研究过程类似“黑箱子”,只看到大体轮廓,看不到实际内容。研究者也缺乏对研究过程的重视,导致研究数据可溯源性差而影响了对研究真实性和准确性的评估,引发了一些研究结果不可重现、甚至是科研诚信问题[3, 4]。医院作为临床研究的重要实施场所,应担负起对在其开展的临床研究的监管义务,同时为研究者创造提高研究数据质量的便利条件。本文将从梳理临床研究数据采集的过程出发,凝练出提高研究数据质量的核心,总结现有经验及不足,并提出适用于我国医院环境的解决方案,以提高我国临床研究数据质量。
1 临床研究数据产生、采集过程梳理
尽管临床研究涉及到多种研究设计类型,而不同研究设计所解决的问题及研究方法存在较大差异,但临床研究数据的形成过程存在较强共性:① 源数据的产生:记录患者健康、诊疗行为或以特定研究为目的的日常记录或专门产生原始数据;② 研究数据的采集:研究者通过数据采集手段采集临床研究相关数据至病历报告表(case report form,CRF)、收集患者自报结局数据(electronic patient reported outcomes,ePRO)系统、研究数据库等研究数据收集媒介。
1.1 源数据的产生
临床研究数据的产生来源可以是人(如:研究者、患者本人)、设备(如:体重计、心电图机)、系统[如:存储院内诊疗记录的电子病历(electronic medical records,EMR)、在医疗机构间互联互通的电子健康档案(electronic health records,EHR)的各类医疗信息系统、医保系统]等[5]。这些数据构成了临床研究的源数据,而体现这些源数据的产生者、产生时间、数值及其他信息的资料就是临床研究的原始记录[5, 6]。原始记录的载体可以是纸质书写形式也可以是电子化记录形式。源数据、原始记录是体现研究过程、重现研究的重要信息。确保研究原始资料的保存、研究数据与源数据的可追溯是临床研究质量控制的核心环节。
欧洲药品管理局在其国际人用药品注册技术协调会指导原则《ICH E8(R1):临床研究的一般考虑》中指出,按照数据产生的目的可以将临床研究的数据来源分为两大类:① 研究以外来源的数据;② 为研究专门产生的数据[7]。其中研究以外来源的数据不以研究目的而产生,主要为记录患者健康、诊疗行为而常规收集的健康数据。例如:EMR/EHR、医保、可穿戴健康设备等,也是目前广受临床研究领域所重视的真实世界数据(real-world data,RWD)[8, 9]。
相同的研究数据,可以通过多个来源获得,例如患者病史可能在研究过程中通过研究者对患者的问询采集,也可以在患者的既往 EMR 记录中获得。同样,在不同的情境下,产生相同的数据也可以基于不同的目的,例如患者就诊时做的血生化检查是常规收集的数据,而患者参加临床试验做的血生化检查就是为研究特定目的而产生的数据。研究者应对研究数据的来源特征进行深入了解。常见的临床研究数据及其来源特征示例见表 1。

1.2 从源数据采集研究数据
将产生的源数据提取、收集至 CRF 中的过程为数据采集过程。源数据采集的载体是 CRF,可为纸质数据采集(如纸质 CRF)或电子化数据采集(electronic data capture,EDC)[如电子化 CRF(eCRF)、研究数据库]两种形式。其中纸质形式仍需要进行数据转录最终形成电子化的数据库,而利用 eCRF 则可实现 EDC。数据采集的方式分为人工录入和数据传输两种。人工录入的方式主要发生在以下两种情形中:① 在不借助设备、系统时,研究者对患者进行问询、评估或患者自我报告数据,需要将数据人工填写在纸质 CRF 或 eCRF 中;② 当源数据与 CRF 无法互通时,如:使用纸质 CRF,或使用 eCRF 但数据无法电子化交换,即使源数据是以电子化形式采集的,研究数据仍需要以人工录入的方式采集至 eCRF 中。只有 EDC 系统和产生源数据的设备或系统能直接形成数据交换时,直接的数据传输才可以实现[5, 10]。
数据采集时间方向按数据是否已在研究启动前产生分为回顾性采集和前瞻性采集。回顾性采集一般在回顾性研究中使用,对既有数据进行回顾和收集。前瞻性采集一般用于前瞻性研究及所有研究中为研究专门产生的新数据。由于前瞻性数据采集可在研究启动前根据研究目的对数据采集进行规划,在源数据产生时及时采集,还可在数据收集过程中把控质量,因此相对于回顾性采集,可以有效降低数据不准确、数据缺失等问题的发生。常见的各类型临床研究收集数据模式见图 1。

2 临床研究数据质量标准和提高研究数据质量的核心
2.1 临床研究数据质量标准
ALCOA+CCEA 标准在多个监管机构的指导原则[5, 11, 12]及行业规范[6, 13]中作为临床试验数据质量的通用标准,旨在降低在收集研究数据过程中产生的误差及信息偏倚。该标准被认为是高质量临床研究应具备的数据标准。具体内容及解析见表 2。

以新药、医疗器械注册为目的的临床试验,监管机构对数据质量、可溯源性,研究的完整记录有着最高要求[12]。而其他类型的临床研究也在期刊杂志对研究透明化及严格质量要求下,向注册临床试验的高标准看齐[14, 15]。加拿大卫生部在其发布的《真实世界数据/证据质量核心要点》中提及真实世界研究中对于前瞻性收集的 RWD,应参照传统随机对照试验的数据质量标准,需要具备清晰定义的流程及完全的透明化(即满足 ALCOA+CCEA 标准)。对于回顾性采集数据,尽管部分标准难以达到前瞻性数据收集的标准,但所有数据均具备可溯源性,且源数据应在需要时可用于审阅[16]。我国国家药品监督管理局在《真实世界证据支持药物研发的基本考虑(征求意见稿)》也提及数据完整性、准确性及数据质量保证、质量控制措施对于真实世界研究数据质量的重要意义[17]。
2.2 提高研究数据质量的核心
参与研究的各方不断投入人力、物力,并改进流程使得研究数据达到 ALCOA+CCEA 标准。以目前注册临床试验为例,除研究者外,还需监查团队进行现场质控,确保研究数据记录完整、准确,研究数据与原始资料记录一致。同时,数据管理团队在后台全面对数据进行质量控制,及时发现错误数据、疑问数据并与研究团队反馈,修正错误,确保最终研究数据达到完整准确。尽管投入了大量人力物力成本,但当前研究数据质控的效率较为低下,大部分数据仍需要人工誊录、核对,无法保证数据的完整性和准确性。而对于研究者发起的临床研究,很多情况下研究者没有相应充足的人力物力来确保研究数据质量控制;对于真实世界研究而言(如图 1 中除传统临床试验的其他类型研究),大量数据来自于常规采集的数据。如仍采用人工誊录,人工核对数据将更加耗时费力,甚至不具备可操作性。因此有必要改进目前临床研究数据采集的工具和流程,而核心环节就是推动源数据的电子化,促进研究的透明化[18]。
EDC 相比人工誊录数据有诸多优势。人工誊录数据容易产生填写和录入错误(不论是有意造假还是无意出错),数据的准确性无法完全保证。其次人工誊录需消耗大量的人力和资源进行源数据核查。而 EDC 在源数据产生时进行电子化记录,如有数据格式化和清理的过程,电子化系统仍可以自动保留数据产生和修改过程中的所有痕迹[5, 13]。
源数据的电子化分为两个层次,首先是利用电子化设备和系统实现数据产生及采集的电子化。此技术目前已基本成熟,例如,医院与诊疗相关的病历、处方、各项检查结果都以电子化形式产生并储存于 EMR 中,电子血压计、体重计、可穿戴设备,以及电子日记卡、ePRO、手机等也逐渐取代传统纸质记录产生源数据。同时数据采集方式也由纸质数据采集方式逐渐被 EDC(电子数据库、EDC 系统、eCRF)取代。第二个层次是在实现源数据产生和采集电子化的基础上,实现各设备、系统间可以实现数据交换,从而具备互操作性[10],即实现数据的直接传输,避免电子化产生的数据再进行人工二次转录。这才是实现源数据电子化的核心意义。
3 推动源数据电子化的现有经验及不足
各国药监机构、工业界、医学信息领域在近年来不断推动临床研究源数据的电子化进程。美国 FDA 接连发布相关指南倡导利用计算机信息技术开展研究并在不同指导文件中强调电子化源数据的优势[10]。在技术的进步和各方的推动下,电子化的数据采集及 EDC 系统与电子设备,电子随访系统、ePRO 等设备及系统的数据交换已基本实现并成熟应用。但作为临床研究数据来源最重要的组成部分,如何将存储在医院信息系统中的 EMR、EHR 数据直接与临床研究数据采集系统实现数据互通仍未有广泛应用的解决方案。由于诊疗医疗数据的高度敏感性,业务系统一般为封闭管理,导致利用 EMR/EHR 数据开展研究、导出或传输 EMR/EHR 数据均存在较大障碍。同时数据分散于各业务系统,存在大量非结构化数据难以利用、数据质量差等问题,这是当前阻碍源数据电子化的最大障碍。
3.1 推动源数据电子化的现有经验
美国国家卫生信息技术协调办公室(the Office of the National Coordinator for Health Information Technology,ONC)于 2010 年启动卫生信息技术认证项目,旨在提高 EHR 系统的标准化,促进 EHR 系统的互操作性[19]。美国 FDA 也针对利用 EHR 数据开展临床研究发布了指南文件,其强调了通过 ONC 认证对于 EHR 系统与临床研究数据采集系统实现数据交换的优势[20]。目前在美国开展的临床试验,部分医院已实现了将实验室检查结果等结构化数据直接传输至 eCRF。在欧盟委员会的支持下,欧洲范围内于 2011 年启动了电子健康记录应用于临床研究项目(Electronic Health Records for Clinical Research,EHR4CR),在 35 家机构范围内探索直接将 EHR 数据应用于研究的技术方案,并于 2016 年完成项目结题[21]。同时在 EHR4CR 项目基础上开启项目的第二阶段,连接电子健康记录和电子数据采集系统(From Electronic Health Records to Electronic Data Capture systems,EHR2EDC),旨在实现 EHR 系统与临床研究 EDC 系统的互联互通[22]。随着我国医院信息化建设的推进,医院对于临床科研重视程度的加强,许多医院都在积极搭建科研数据平台,通过信息技术公司的服务,对院内 EMR 数据进行整合、清理,对非结构化数据通过自然语言技术进行结构化处理并标准化,从而方便院内临床医生利用 EMR 数据开展临床科研[23]。我国在国家层面也在积极促进健康医疗大数据的治理,也在区域范围内对上述院内的电子数据治理工作进行试点,形成区域医疗大数据[24],未来可能成为临床研究的数据来源。
3.2 推动源数据电子化现有经验的不足之处
在上述尝试中,美国的经验更偏重于改进、标准化现有的 EHR,使其较为统一化。欧洲的经验更偏重于打通 EHR 与临床试验系统互通的技术屏障。而中国相对于美国、欧洲而言,尚未形成医院间互联互通的 EHR 模式,因此患者的诊疗信息仍多封闭存储在各医院的 EMR 中,且中国的存储 EMR 数据的医院信息系统供应商繁多、标准不统一的现象更加严重,这个状态在短时间内较难改善。在我国源数据电子化的阻力更多的是管理阻力而不仅是技术障碍:出于数据敏感性及数据安全的顾虑,医院管理层及信息管理部门对于操作导出 EMR 数据的顾虑较大。因此,美国、欧洲的经验模式难以解决我国的问题。
我国目前的尝试方向偏重于对院内既有 EMR 数据的治理,形成独立的科研数据平台。这种模式更适用于医疗大数据挖掘这种研究方式,偏重于以数据为导向而不是研究目的为导向的研究模式。但 EMR 数据本身存在质量和内容缺陷,在数据处理过程中往往丧失了数据的可追溯性,研究者较难去发现问题、核对及修正,导致研究数据质量远不能达到 ALCOA+CCEA 的标准。高质量的临床研究需要事先的设计,仅靠日常诊疗数据能够解决的研究问题有限,需要为不同研究目的专门采集不同的重要信息。另一方面,尽管目前科研平台的建立充分考虑到了医院对诊疗数据敏感性的顾虑,平台一般建立在院内,由医院独立管理运营,但独立、封闭的系统也导致其无法整合外部来源数据,更无法和外部临床研究数据采集系统实现数据交换,达不到实现源数据电子化的目的。
4 适合我国的解决方案—构建医院临床研究源数据管理平台
基于上述讨论,参考国外经验,以实现 EMR 数据与研究数据互联互通,实现临床研究源数据电子化为目的,同时兼顾我国医院对诊疗数据敏感性的顾虑,并针对诊疗系统供应商繁多、标准不一的现况,现提出在我国实现源数据电子化较为通用的解决方案:由医院主导构建临床研究源数据管理平台,与诊疗系统相对独立但保持可控的数据传输,整合院内、院外所有来源的临床研究电子化源数据,实现研究源数据的电子化采集、管理以及与传统临床研究数据采集系统实现电子化数据传输。同时,构建并采用源数据通用管理流程,实现医院内开展临床研究的全流程管理。对于 EMR 数据的使用(包括患者的范围、使用的数据范围)等进行审批和监管,打消管理者对数据安全、敏感数据使用的顾虑。将技术顶层设计和管理顶层设计两方面结合,以源数据管理平台作为诊疗数据与目前常用临床研究数据采集系统之间互通的桥梁,实现源数据的电子化。
4.1 构建源数据管理平台的核心考虑
构建源数据管理平台需参考以下几方面问题:① 源数据管理平台应由医院主导建设管理,且应与诊疗系统相对独立。② 平台功能定位以服务临床科研为核心,一方面服务医生,成为其开展临床研究管理研究数据的便利工具。另一方面服务医院管理部门,集中一体化管理院内医生临床科研的全流程,确保研究质量及科研诚信。同时确保医生在开展研究时合理、可控地使用 EMR 数据。③ 平台具备集中化管理不同来源的院内及院外临床研究源数据的功能,包括与其他数据源的数据交换(从 EMR 或从其他设备、系统产生的常规来源数据)和直接记录、收集为研究专门产生的源数据(如在研究过程中直接记录研究者对患者的问询、评价、随访)。④ 平台具备与诊疗业务系统进行数据交换功能,针对诊疗业务系统中的 EMR 数据进行同步备份产生核证副本数据库。同时对核证部分数据进行一定程度的预处理(数据汇集、标准化、非结构数据的结构化)供具体研究提取使用。⑤ 应以研究问题为导向(明确研究人群及研究目的)申请 EMR 数据的使用,经过伦理审查和信息科批准可使用的 EMR 数据范围(特定患者的特定数据)。通过智能化手段自动提取配合人工对 EMR 数据核对、重新判读,完成 EMR 数据的收集。数据处理、提取、转换的过程完整记录、可控,确保数据的可追溯性。⑥ 平台具备访问权限管理,研究涉及的源数据可以经授权被研究相关的院外研究团队访问。⑦ 存储在平台的源数据具备统一的数据标准,具备与外部系统(如 eCRF)进行数据直接传输的接口,供多中心研究和数据共享。
4.2 基于该平台的临床研究源数据通用管理流程
平台对于源数据的通用管理流程体现在两个层面,第一个是研究源数据产生、研究数据采集的数据层面,另一个是对研究全过程监督、控制的监管层面。
数据层面,应对研究中不同来源的数据加以区分,并分别处理。研究中来自于 EMR 的数据是研究数据的重要组成部分。在研究前应明确需使用的 EMR 范围(特定患者的特定数据),经过批准使用后,这部分 EMR 数据可以核证副本的形式同步至源数据平台中。经平台处理,数据转化为标准化的、结构化的源数据,通过智能化手段配合人工核对,完成研究数据的匹配与提取。相同流程也用于其他来源的源数据,平台与其他设备、系统完成数据交换后,经相同处理方式完成研究数据采集。为研究特定采集的数据,研究者可通过平台直接在数据产生时进行采集,此时平台的功能相当于电子化的数据采集系统或 eCRF。在此过程中,所有数据的产生、处理、修改均以电子化的形式自动记录留痕,并可追溯至原始资料,保证数据的可溯源性。所有汇集的研究源数据采用相同的数据标准进行存储(如临床试验通用的 CDSIC 标准),在标准化、去隐私化后可以导出形成研究数据(单中心研究),也可以与外部系统实现数据传输,汇集到传统多中心临床研究数据采集系统或数据库中(多中心研究)。如图 2 上部分所示。

监管层面,对研究的各个环节实行集中化、电子化的管理,贯穿从研究项目的立项、数据准备、研究进行、研究结束的各个阶段。其中监管环节重视研究的伦理审查、EMR 数据使用的审查,同时由于研究者的研究行为均在平台上产生,因此系统可以完整、自动地记录研究者临床研究过程源数据产生情况,同时可以对研究数据与源数据进行相互核对、稽查,填补了医院对于研究过程监管缺乏合理手段的空白。如图 2 下部分所示。
5 展望
医院在构建科研平台时,可参照上述模式建立临床研究源数据管理平台。平台的建立将成为研究者开展临床研究的便利工具,借助诊疗系统数据与临床研究平台的互联互通,将大大提高研究者收集数据的效率。从前研究者在电脑前一边查电子病历或翻阅纸质病历,一边人工誊录数据的情形将会成为历史。临床研究源数据管理平台的建立也将成为医院管理者促进研究者开展研究,并对研究进行质量监管的有效手段。研究过程的留痕记录清晰体现研究者对于研究的贡献,可以作为医院进行科研绩效评价的重要参考。借助平台实现源数据的电子化,将解决当前注册临床试验的“痛点”即将大量的人力物力成本耗费在低效的现场监查、数据管理环节。借助此平台,电子化的源数据可实现直接的数据传输,降低人工转录过程的错误,同时源数据的集中管理也将大幅提高试验质量控制的效率,甚至可以实现远程质控。而对于真实世界研究而言,由于常规收集的电子化数据是真实世界研究的核心研究数据来源,利用平台助力研究者高效开展高质量真实世界研究的潜力更大。
目前,国内多个医院已启动相关工作,联合医院信息领域专家、临床研究领域专家、临床医生、相关信息技术公司共同以该理念建设临床研究源数据管理平台。期望该模式可以作为其他医院在构建临床研究平台时的参考范本。尽管医院采用不同的诊疗系统供应商,构建平台采用不同的技术团队,但按照共同的透明化理念,相同的数据标准去做顶层设计,可以产生高质量的、可溯源的、标准相同的研究数据,最终实现提高我国整体临床研究数据质量的愿景。