随着真实世界证据作为临床急需药械产品上市前注册和上市后监管决策证据支撑的研究体系和技术指导规范的日趋完善,如何生产高质量的真实世界数据以满足药械临床评价要求,日益受到学术界、工业界和监管部门关注。本文基于博鳌乐城真实世界数据研究模式和眼科数据平台建设经验,从数据多源异构、研究设计多元及监管要求规范化等特殊性和必要性出发,对真实世界研究中的“源数据-数据库-证据链”产生流程、数据管理和数据治理环节进行总结分析,为进一步构建综合研究型数据平台提供参考。
引用本文: 贾玉龙, 姚明宏, 刘艳梅, 任燕, 邹康, 李耀华, 孙鑫. 特许医疗政策下真实世界数据治理的模式探索. 中国循证医学杂志, 2021, 21(12): 1373-1380. doi: 10.7507/1672-2531.202108147 复制
近年,真实世界研究(real-world study,RWS)[1]日益受到监管部门、工业界和学术界的重视。国家药品监督管理局相继制定多个指导原则和技术规范,旨在进一步推广和优化国内上市前真实世界数据(real-world data,RWD)研究范式和理论体系,促进高质量真实世界证据(real-world evidence,RWE)的产生。在根本上,真实可靠的RWD[1,2]是高质量RWE的基础,而系统严格的数据管理和治理流程是产生高质量RWD的保证,亦是完善RWS框架及证据产出的关键技术,可有效解决数据准确性和完整性的难题。2021年4月,国家药品监督管理局药品审评中心最新发布《用于产生真实世界证据的真实世界数据指导原则(试行)》[3],阐述了RWD相关数据治理的主要流程和关键考虑,在保证数据准确完整的同时,提高数据利用。
博鳌乐城国际医疗旅游先行区(以下简称“博鳌乐城”)是全国唯一的RWD试点地区,在相关特许医疗政策的支持下[4],允许国外已上市而国内未上市的特许药械产品在博鳌乐城医疗机构先行先试,积累真实诊疗环境下的临床数据,用于支持或否定该产品在国内的上市申请。四川大学华西医院中国循证医学中心与博鳌超级医院眼科团队搭建了博鳌乐城眼病RWD平台,该平台是博鳌乐城首个也是当前唯一一个可汇集主动收集和常规收集数据并支持多种科学研究目的的专病RWD平台。本文结合前期RWS数据平台搭建经验、国内外相关学术研究成果及各国监管部门的指导原则和技术规范,总结博鳌乐城RWS综合研究型数据平台数据管/治理的基本流程和特殊考量,为进一步实施和开展博鳌乐城RWS提供技术参考。
1 博鳌乐城真实世界眼科数据平台建设概要
博鳌乐城真实世界眼科数据平台的搭建主要分为两个阶段:① 单一研究型眼科患者登记数据库搭建;② 综合研究型眼科专病数据平台搭建。目前,单一研究型眼科患者登记数据库因研究目的明确、周期短、效率高等优势已在博鳌乐城落地实施并取得实践成效,“青光眼引流管”和“氟氰松植入剂”分别为医疗器械前瞻性患者登记数据库和药品“前瞻+回顾”双向性患者登记数据库的成功代表。但随着博鳌乐城RWS模式的不断优化和创新,单一研究型患者登记数据库因拓展性差、覆盖面窄及对照人群招募困难等不足,已无法满足更为复杂的临床研究需要,故未来以其为基础的综合研究型眼科专病数据平台将会成为博鳌乐城眼科RWS的主流平台,在满足单一医疗产品临床研究设计的同时,可纵向延伸医疗产品全生命周期的跟踪随访,亦可同时横向开展多个不同目的的临床研究。
综合研究型眼科专病数据平台将链接博鳌乐城内多家医疗机构电子病历(electronic medical record,EMR)数据、电子健康档案(electronic health record,EHR)数据、医保数据和不良反应监测数据等多个常规收集医疗数据库,以及患者自报系统、智能可穿戴设备等因研究需要额外产生的数据,形成多源数据聚合终端,便于研究者进行数据挖掘、数据提取、数据整合和统计分析,因此需要高标准的数据管理和数据治理流程,以保证多机构全生命周期数据的有效整合、运行和管理。
2 综合研究型眼科专病数据平台数据管/治理的必要性
2.1 数据来源多样性
基于特殊的医疗政策,国外已上市而国内未上市的特许创新药械产品可在博鳌乐城医疗机构进行先行先试,全国各地的患者需前往博鳌乐城使用特许创新药械,随即可在博鳌乐城和/或原居住地医疗机构进行后期随访,形成纵向数据。同时,综合研究型眼科专病数据平台将链接其他登记数据库(医保数据库和不良反应监测数据库等)形成横向数据。因此,博鳌乐城综合研究型眼科专病数据平台将汇集“跨地域、跨领域、跨系统、跨层级”的海量多源异构数据,其数据来源的空间分布、时间分布、载体种类及获取方式均可根据研究目的或研究设计的不同而存在差异[3,5,6]。
2.2 研究设计多元化
目前适用于博鳌乐城RWS的模式主要包括前瞻性研究、回顾性研究和双向性研究[6,7]。在此基础之上,使用比较多的研究设计为实用临床试验(pragmatic clinical trial/pragmatic trial,PCT)、使用RWD作为外部对照的单臂试验和观察性研究等[7,8]。通过构建综合研究型眼科专病数据平台,我们可对疾病性质、患者群体、现有诊疗措施,患者疾病状态,是否存在既有数据及数据质量是否满足监管要求等方面进行适用性评价,进而灵活组合上述多种RWS设计方法,形成RWS框架[9]。但因此带来的是数据类型多源异构,混杂偏倚参差多样,随访时间长短各异等挑战,这些都将影响源数据的完整性、准确性和一致性,进而影响结果的可靠性。
2.3 监管要求规范化
随着电子信息数字化技术的迅猛发展,医疗信息化日趋完善,使得临床研究数据具有体量巨大、来源广泛、产生迅速、平台多样和系统繁杂等特点,对数据准确可靠和科学可信提出了挑战。因此,各国监管部门相继出台相关指导原则以规范化数据管理/治理流程,并提出相关数据质量标准:CDISC(clinical data interchange standards consortium)标准[10]、ALCOA原则(包括:可归因性、易读性、同时性、原始性及准确性)[11]和ALCOA+CCEA原则(在ALCOA原始基础上扩展了:完整性、一致性、持久性和可用性)[12];近年,国家药品监督管理局也发布系列技术指南,明确指出要进一步加强药械领域RWD质量管理和评价,从相关性和可靠性两大方面提高源数据适用性评价标准[3,8,10,13-15]。可见在RWE产生过程中,数据管理/治理日益受到重视。除以上三个方面,健全的数据管理/治理流程也是加快研究进展,避免信息浪费,减少资源消耗,保证临床急需进口医疗药械产品尽快上市并应用于广大患者的先决条件。
3 RWD管/治理基本流程
博鳌乐城眼病RWD平台旨在建立和完善以“治理-管理-决策-创新”为一体的眼科专病数据协同平台,需科学严谨的数据管/治理流程,确保满足CDISC及ALCOA+CCEA等标准要求的同时产生RWE支持药械研发和监管决策,实现全景式RWD呈现和监管科学的决策转化。
RWD管/治理贯穿于RWS的整个过程,主要包括“数据收集、质量评估、多源整合”三个环节。根据前瞻性和/或回顾性数据采集方式,可选择性使用数据管理和/或数据治理对数据进行处理(思路框架见图1),在构建综合研究型眼科专病数据平台过程中,回顾性数据的数据治理和前瞻性数据的数据管理往往同时存在,应兼顾治理后数据库与前瞻性主动收集数据库的内部一致性[3]。

CRF:病例报告表;EDC:电子数据采集。
3.1 数据管理的基本流程
在RWS中,数据管理主要适用于前瞻性数据收集过程,针对研究目的和主要指标进行患者诊疗信息的主动收集,其核心为保证数据质量、提高研究效率和控制研究成本。目前较为系统的数据管理流程主要分为“研究前-研究中-研究后”三个阶段,包括但不限于:① 数据管理计划撰写:详细规范的记录数据收集和处理的工作流程及团队分工,以期满足RWD适用性评价标准;② 病例报告表(case report form,CRF)设计:根据研究方案设计CRF,明确研究指标、字段类型及编码标准,以期达到数据准确一致,清晰可读,简化电子数据采集(electronic data capture,EDC)设计和统计分析的目的;③ EDC系统建立:根据CRF设计EDC系统,兼备数据采集录入、数据核查质疑、数据导出传输等数据管理模块,可提高研究效率,节省经费并保证数据准确可溯源;④ 数据采集和录入:根据电子病例报告表(electronic case report form,eCRF)进行研究数据采集录入,并在采集录入过程中实现数据标准化和医学编码,以期提高数据互通,实现数据共享可交换;⑤ 数据核查、数据质疑和盲态审核:贯穿于数据采集和存储传输整个流程,以期保证RWD的准确性和可靠性;⑥ 数据传输递交,遵循数据递交标准,提高数据可读性,保证数据安全可溯源。其中有些流程可根据具体实施环境贯穿整体研究过程[13,16,17](图2)。

CRF:病例报告表;EDC:电子数据采集;eCRF:电子病例报告表。
3.2 数据治理的基本流程
数据治理,主要适用于回顾性研究设计,针对经数据质量评估后满足研究目的和要求的常规健康医疗数据(routinely collected health data,RCD)[1],以“ALCOA+CCEA”标准为基础架构,通过多个数据源的数据提取和标准化归一,实现数据资源整合利用的目的,其基本流程包括但不限于:① 撰写数据治理计划:明确数据治理方案,综合考虑数据来源(包括可链接数据库及数据库结构)、数据提取、数据清洗等关键治理流程和团队分工,保证数据治理工作的顺利进行;② 数据脱敏:通过数据加密技术及访问控制等医疗隐私保护技术[18],从源头开始进行数据脱敏,防止信息泄露、遗失和被篡改,提高患者信息安全性;③ 数据集成提取:根据源数据格式和类型,制定相应数据链接方案,根据患者唯一识别码提取关键信息,保证数据可溯源和高效率提取;④ 数据清洗和质量控制:合理运用数据核查和变量描述,去除重复值、异常值及极端值等,提高数据准确性和完整性;⑤ 数据结构化与标准化:针对已提取数据,进行标准化和结构化转化,便于和前瞻性登记数据库进行整合。部分流程可根据具体实施环境贯穿于整体研究过程(图3)。

4 博鳌乐城综合研究型数据体系模式下RWD管/治理关键考虑
在博鳌乐城特殊的医疗政策及诊疗环境下,其RWS研究模式已由最初探索阶段的单一研究型数据体系模式(如药械产品注册登记),逐步向综合研究型数据体系模式(如博鳌乐城眼病RWD平台)转化,实现以短周期药械产品安全有效性快速评价为基础,患者全疾病周期管理及政策探索为目标的综合研究型专病数据平台搭建。通过整合多源异构数据资源,有效衔接常规收集和主动收集数据,根据具体研究设计,构建围绕综合研究型专病数据库为主体,数据管理和数据治理相结合的“一体两翼”综合研究平台管治模式,真正形成以多源诊疗平台数据为依托,产生RWE优化诊疗场景并进一步丰富数据来源的价值闭环。
4.1 明确数据来源和处理机制
在研究准备阶段,需根据特定的研究问题及设计,结合综合研究型专病数据平台现有数据类型,规模和质量[19],系统考虑所需研究数据的来源、类型和形式,明确数据采集模式(主动收集和/或常规收集)和数据处理方式(数据管理和/或数据治理)。其中主动收集数据对应数据管理,常规收集数据对应数据治理。在实际操作中,在保证信息安全脱敏的情况下,二者可根据具体情况联合实施。
基于博鳌乐城“一地就医,异地随访”的常态化诊疗模式及数字化医疗智能设备的不断推广,其随访数据的载体和类型更加复杂碎片化,对数据管理技术提出了挑战。目前,博鳌乐城眼病RWD平台的前瞻性数据来源主要集中在“智能可穿戴设备、医疗相关微型传感器、健康医疗小程序及电子化患者报告结局(electronic patient-report outcome,ePRO)采集系统”等数字信息化驱动的实时数据采集系统的联合应用[20],可通过网络载体镜像同步[21]至综合研究型数据库以保证数据的真实性和可溯源性,亦可通过集合自然语言处理、机器学习及区块链等技术的“黑匣子”方案,实时转换提取关键变量数据,形成互联互通的物联网医疗数据链接平台,最终达到“实时采集-标准化处理-有效存储-安全传输”等[22]系统化流程和数据管理为一体,满足安全性、准确性、完整性和可读性等相关RWD标准,并有效实现各随访数据之间、随访数据与综合研究型专病数据平台之间的标准化链接。
随着综合研究型眼科专病数据平台的完善和研究设计的多元化,未来将考虑对博鳌乐城现有的EMR数据、EHR数据、医保理赔数据、不良反应监测数据和国外临床试验外对照数据等数据库进行互联互通。用于上述主动收集过程的“黑匣子”方案亦可用于该过程,同时目前国外较为成熟的HL7(health level seven)规范[23,24]亦可实现不同医疗机构及数据库之间的互联互通,提高不同标准下信息交换传输的便利性,进而满足目标药械全生命周期研究数据的“提取-转化-整合-分析”,但由此带来的将是数据规模庞大、链接平台多样、数据类型复杂繁多、历史数据和实时数据并存等挑战,不仅需要人工智能数据采集技术,还需要对采集数据进行数据抽取转换、字段映射替换、智能语音识别和影像资料提取等复杂的数据治理和计算机信息处理流程[25]。
4.2 数据管理平台可操作共享
基于博鳌乐城特殊的诊疗随访模式,在提高数据代表性和临床实践真实性的同时,数据的完整性、可覆盖性、可交换性均存在一定的挑战。综合研究型专病数据平台需链接和映射多机构日常监测数据以提高数据覆盖范围,以满足更加宏观多维的研究问题,同时需进一步提高各电子信息系统和数据库之间的可共享互操作性(包括EMR数据、EHR数据、医保理赔数据和不良反应监测数据等),优化链接数据库访问权限和中央化监查体系,在数据库链接的同时,加强数据库运行维护和安全监测的技术支撑[26],实现各链接数据库监管部门之间以自身权限为支撑的共享可操作性,以期达到平台开放应用,多部门共建共享的协同发展理念。在提高互操作性方面,传统的数据备份和定制开发接口等方案普遍存在成本高,过程繁杂,效率低,数据可及性和可解读性差等缺陷,可使用openEHR规范[27,28]以提高EHR框架下的互操作及开放共享的能力,亦可结合HL7形成集数据存储和信息互换为一体的综合研究型专病数据平台,构建以患者为中心的全生命周期医疗健康记录。此外,仍需组建包括临床专家及信息专家在内的信息建模团队,参考《卫生信息共享文档编制规范》[29],重点把握临床标准术语的准确性、完整性和合理性,实现所涉及医疗机构平台之间标准规范的联通,进而真正实现数据平台可操作共享的实施落地。
平台可操作共享理念的实现不仅在数据抽取、存储、整合、质控、传输、查询和分析等技术方面存在巨大的挑战,而且因时间成本效益、安全隐私及相关法律和伦理因素,使得这种大型数据库之间的互通链接可操作在很大程度上仍然是一种愿景。
4.3 数据标准化
随着目前诊疗试验机构的复杂一体化和患者信息的多源异构化,数据的标准化逐渐受到重视。在博鳌乐城数据管/治理实际操作中,为加强数据规范性、提高研究效率、支持数据共享和药械全生命周期数据链接,数据标准化主要包含两层含义:① 多源异构数据之间有效统一整合需要参照什么标准?② 科学规范的研究数据应该满足什么质量标准?
目前,监管部门较为提倡的为CDISC标准,主要包括研究数据列表模型(study data tabulation model,SDTM)、临床数据获取协调标准(clinical data acquisition standards harmonization,CDASH)和分析数据模型(analysis data model,ADaM)等,涵盖试验设计、数据采集、交换、归档、分析和递交等多个方面,已逐渐成为数据标准“通用语言”[10]。除此之外,还有国际医学用语词典(medical dictionary for regulatory activities,MedDRA)、世界卫生组织药物词典和世界卫生组织不良反应术语集(world health organization adverse reaction terminology,WHOART)等医学术语编码标准,用于支持解决因研究者地域、语言和临床习惯等因素导致的疾病名称、不良事件、药品名称等医学术语数据无法汇总统一。
同时,基于前瞻性采集数据,采用符合SDTM标准[30]的eCRF可有效解决所采集RWD重复利用的问题[31],也是有效整合回顾性数据和前瞻性数据的前提;而基于既有RCD,更多的可采用美国观察性医疗结果合作组织(observational medical outcomes partnership,OMOP)建立的面向观察性研究数据的通用数据模型(common data model,CDM)所定义的数据标准[32],将多源异构数据通过提取转换加载,形成统一标准的结构化数据。但面对我国庞大的临床数据体量及参差不齐的数据质量,目前尚存在数据术语类型覆盖范围不全,国内外术语标准发展不均衡及数据语言支持格式局限等挑战[33]。
自美国FDA在相关指南中提及“ALCOA”数据质量标准[11]之后,欧洲药品管理局[12]和国家药品监督管理局[10]相继出台相关指南用于推广“ALCOA+”数据质量标准,以保证数据的真实可靠和科学可信,主要包括:可归因性、易读性、同时性、原始性、准确性、完整性、一致性、持久性和可获得性。除此之外,国家药品监督管理局及其药审中心也颁布相关RWS指导规范,对源数据及管治理数据提出了详细的质量要求[8,14],主要包括:代表性、完整性、准确性、真实性、一致性、可重复性、相关性、可靠性、透明性和多源异构数据的融合性等,这些标准的相继提出,预示着我国RWD支持药械研发的研究框架逐渐走向完善并与国际接轨。
4.4 数据安全脱敏
随着国家“互联网+医疗健康”等智能化医疗服务的大力发展,在开发搭建一个可互操作可共享的研究型专病数据平台时[34],数据内容不仅涵盖治疗相关信息,还涵盖了更为贴近自然环境下的患者的流行病学信息(主要包括:患者自报的合并用药和不良事件、医疗产品措施的经济效益、不良反应监测、医保理赔数据等),数据体量之庞大,涉及技术平台之广泛,因此在解决实现数据共享对接的同时,不仅要进行敏感数据的分类识别和去标识化预处理,还应严格实施人员访问控制、权限分配及授权共享等安全保障措施以明确界定数据隐私范围,强化数据的安全脱敏[35]。
特殊的诊疗环境和政策支持,使得博鳌乐城RWD库管/治理流程更加丰富和具备自身特色。科学严谨的数据管/治理流程不仅是临床试验期间产生高质量可分析综合数据的保证,也是最大限度提升临床效能和证据效度的基础,更是国家“十四五”时期的关键技术攻关[36]。本文以博鳌乐城真实世界眼科数据平台为参考,从博鳌乐城RWD管/治理的必要性出发,基于基本数据管/治理流程探讨特殊化考虑,旨在进一步推进数据管/治理能力的发展和创新,助力临床试验数据的规模化、结构化和体系化建设,加快药械产品的上市审批和满足日益复杂严格的监管需求。
近年,真实世界研究(real-world study,RWS)[1]日益受到监管部门、工业界和学术界的重视。国家药品监督管理局相继制定多个指导原则和技术规范,旨在进一步推广和优化国内上市前真实世界数据(real-world data,RWD)研究范式和理论体系,促进高质量真实世界证据(real-world evidence,RWE)的产生。在根本上,真实可靠的RWD[1,2]是高质量RWE的基础,而系统严格的数据管理和治理流程是产生高质量RWD的保证,亦是完善RWS框架及证据产出的关键技术,可有效解决数据准确性和完整性的难题。2021年4月,国家药品监督管理局药品审评中心最新发布《用于产生真实世界证据的真实世界数据指导原则(试行)》[3],阐述了RWD相关数据治理的主要流程和关键考虑,在保证数据准确完整的同时,提高数据利用。
博鳌乐城国际医疗旅游先行区(以下简称“博鳌乐城”)是全国唯一的RWD试点地区,在相关特许医疗政策的支持下[4],允许国外已上市而国内未上市的特许药械产品在博鳌乐城医疗机构先行先试,积累真实诊疗环境下的临床数据,用于支持或否定该产品在国内的上市申请。四川大学华西医院中国循证医学中心与博鳌超级医院眼科团队搭建了博鳌乐城眼病RWD平台,该平台是博鳌乐城首个也是当前唯一一个可汇集主动收集和常规收集数据并支持多种科学研究目的的专病RWD平台。本文结合前期RWS数据平台搭建经验、国内外相关学术研究成果及各国监管部门的指导原则和技术规范,总结博鳌乐城RWS综合研究型数据平台数据管/治理的基本流程和特殊考量,为进一步实施和开展博鳌乐城RWS提供技术参考。
1 博鳌乐城真实世界眼科数据平台建设概要
博鳌乐城真实世界眼科数据平台的搭建主要分为两个阶段:① 单一研究型眼科患者登记数据库搭建;② 综合研究型眼科专病数据平台搭建。目前,单一研究型眼科患者登记数据库因研究目的明确、周期短、效率高等优势已在博鳌乐城落地实施并取得实践成效,“青光眼引流管”和“氟氰松植入剂”分别为医疗器械前瞻性患者登记数据库和药品“前瞻+回顾”双向性患者登记数据库的成功代表。但随着博鳌乐城RWS模式的不断优化和创新,单一研究型患者登记数据库因拓展性差、覆盖面窄及对照人群招募困难等不足,已无法满足更为复杂的临床研究需要,故未来以其为基础的综合研究型眼科专病数据平台将会成为博鳌乐城眼科RWS的主流平台,在满足单一医疗产品临床研究设计的同时,可纵向延伸医疗产品全生命周期的跟踪随访,亦可同时横向开展多个不同目的的临床研究。
综合研究型眼科专病数据平台将链接博鳌乐城内多家医疗机构电子病历(electronic medical record,EMR)数据、电子健康档案(electronic health record,EHR)数据、医保数据和不良反应监测数据等多个常规收集医疗数据库,以及患者自报系统、智能可穿戴设备等因研究需要额外产生的数据,形成多源数据聚合终端,便于研究者进行数据挖掘、数据提取、数据整合和统计分析,因此需要高标准的数据管理和数据治理流程,以保证多机构全生命周期数据的有效整合、运行和管理。
2 综合研究型眼科专病数据平台数据管/治理的必要性
2.1 数据来源多样性
基于特殊的医疗政策,国外已上市而国内未上市的特许创新药械产品可在博鳌乐城医疗机构进行先行先试,全国各地的患者需前往博鳌乐城使用特许创新药械,随即可在博鳌乐城和/或原居住地医疗机构进行后期随访,形成纵向数据。同时,综合研究型眼科专病数据平台将链接其他登记数据库(医保数据库和不良反应监测数据库等)形成横向数据。因此,博鳌乐城综合研究型眼科专病数据平台将汇集“跨地域、跨领域、跨系统、跨层级”的海量多源异构数据,其数据来源的空间分布、时间分布、载体种类及获取方式均可根据研究目的或研究设计的不同而存在差异[3,5,6]。
2.2 研究设计多元化
目前适用于博鳌乐城RWS的模式主要包括前瞻性研究、回顾性研究和双向性研究[6,7]。在此基础之上,使用比较多的研究设计为实用临床试验(pragmatic clinical trial/pragmatic trial,PCT)、使用RWD作为外部对照的单臂试验和观察性研究等[7,8]。通过构建综合研究型眼科专病数据平台,我们可对疾病性质、患者群体、现有诊疗措施,患者疾病状态,是否存在既有数据及数据质量是否满足监管要求等方面进行适用性评价,进而灵活组合上述多种RWS设计方法,形成RWS框架[9]。但因此带来的是数据类型多源异构,混杂偏倚参差多样,随访时间长短各异等挑战,这些都将影响源数据的完整性、准确性和一致性,进而影响结果的可靠性。
2.3 监管要求规范化
随着电子信息数字化技术的迅猛发展,医疗信息化日趋完善,使得临床研究数据具有体量巨大、来源广泛、产生迅速、平台多样和系统繁杂等特点,对数据准确可靠和科学可信提出了挑战。因此,各国监管部门相继出台相关指导原则以规范化数据管理/治理流程,并提出相关数据质量标准:CDISC(clinical data interchange standards consortium)标准[10]、ALCOA原则(包括:可归因性、易读性、同时性、原始性及准确性)[11]和ALCOA+CCEA原则(在ALCOA原始基础上扩展了:完整性、一致性、持久性和可用性)[12];近年,国家药品监督管理局也发布系列技术指南,明确指出要进一步加强药械领域RWD质量管理和评价,从相关性和可靠性两大方面提高源数据适用性评价标准[3,8,10,13-15]。可见在RWE产生过程中,数据管理/治理日益受到重视。除以上三个方面,健全的数据管理/治理流程也是加快研究进展,避免信息浪费,减少资源消耗,保证临床急需进口医疗药械产品尽快上市并应用于广大患者的先决条件。
3 RWD管/治理基本流程
博鳌乐城眼病RWD平台旨在建立和完善以“治理-管理-决策-创新”为一体的眼科专病数据协同平台,需科学严谨的数据管/治理流程,确保满足CDISC及ALCOA+CCEA等标准要求的同时产生RWE支持药械研发和监管决策,实现全景式RWD呈现和监管科学的决策转化。
RWD管/治理贯穿于RWS的整个过程,主要包括“数据收集、质量评估、多源整合”三个环节。根据前瞻性和/或回顾性数据采集方式,可选择性使用数据管理和/或数据治理对数据进行处理(思路框架见图1),在构建综合研究型眼科专病数据平台过程中,回顾性数据的数据治理和前瞻性数据的数据管理往往同时存在,应兼顾治理后数据库与前瞻性主动收集数据库的内部一致性[3]。

CRF:病例报告表;EDC:电子数据采集。
3.1 数据管理的基本流程
在RWS中,数据管理主要适用于前瞻性数据收集过程,针对研究目的和主要指标进行患者诊疗信息的主动收集,其核心为保证数据质量、提高研究效率和控制研究成本。目前较为系统的数据管理流程主要分为“研究前-研究中-研究后”三个阶段,包括但不限于:① 数据管理计划撰写:详细规范的记录数据收集和处理的工作流程及团队分工,以期满足RWD适用性评价标准;② 病例报告表(case report form,CRF)设计:根据研究方案设计CRF,明确研究指标、字段类型及编码标准,以期达到数据准确一致,清晰可读,简化电子数据采集(electronic data capture,EDC)设计和统计分析的目的;③ EDC系统建立:根据CRF设计EDC系统,兼备数据采集录入、数据核查质疑、数据导出传输等数据管理模块,可提高研究效率,节省经费并保证数据准确可溯源;④ 数据采集和录入:根据电子病例报告表(electronic case report form,eCRF)进行研究数据采集录入,并在采集录入过程中实现数据标准化和医学编码,以期提高数据互通,实现数据共享可交换;⑤ 数据核查、数据质疑和盲态审核:贯穿于数据采集和存储传输整个流程,以期保证RWD的准确性和可靠性;⑥ 数据传输递交,遵循数据递交标准,提高数据可读性,保证数据安全可溯源。其中有些流程可根据具体实施环境贯穿整体研究过程[13,16,17](图2)。

CRF:病例报告表;EDC:电子数据采集;eCRF:电子病例报告表。
3.2 数据治理的基本流程
数据治理,主要适用于回顾性研究设计,针对经数据质量评估后满足研究目的和要求的常规健康医疗数据(routinely collected health data,RCD)[1],以“ALCOA+CCEA”标准为基础架构,通过多个数据源的数据提取和标准化归一,实现数据资源整合利用的目的,其基本流程包括但不限于:① 撰写数据治理计划:明确数据治理方案,综合考虑数据来源(包括可链接数据库及数据库结构)、数据提取、数据清洗等关键治理流程和团队分工,保证数据治理工作的顺利进行;② 数据脱敏:通过数据加密技术及访问控制等医疗隐私保护技术[18],从源头开始进行数据脱敏,防止信息泄露、遗失和被篡改,提高患者信息安全性;③ 数据集成提取:根据源数据格式和类型,制定相应数据链接方案,根据患者唯一识别码提取关键信息,保证数据可溯源和高效率提取;④ 数据清洗和质量控制:合理运用数据核查和变量描述,去除重复值、异常值及极端值等,提高数据准确性和完整性;⑤ 数据结构化与标准化:针对已提取数据,进行标准化和结构化转化,便于和前瞻性登记数据库进行整合。部分流程可根据具体实施环境贯穿于整体研究过程(图3)。

4 博鳌乐城综合研究型数据体系模式下RWD管/治理关键考虑
在博鳌乐城特殊的医疗政策及诊疗环境下,其RWS研究模式已由最初探索阶段的单一研究型数据体系模式(如药械产品注册登记),逐步向综合研究型数据体系模式(如博鳌乐城眼病RWD平台)转化,实现以短周期药械产品安全有效性快速评价为基础,患者全疾病周期管理及政策探索为目标的综合研究型专病数据平台搭建。通过整合多源异构数据资源,有效衔接常规收集和主动收集数据,根据具体研究设计,构建围绕综合研究型专病数据库为主体,数据管理和数据治理相结合的“一体两翼”综合研究平台管治模式,真正形成以多源诊疗平台数据为依托,产生RWE优化诊疗场景并进一步丰富数据来源的价值闭环。
4.1 明确数据来源和处理机制
在研究准备阶段,需根据特定的研究问题及设计,结合综合研究型专病数据平台现有数据类型,规模和质量[19],系统考虑所需研究数据的来源、类型和形式,明确数据采集模式(主动收集和/或常规收集)和数据处理方式(数据管理和/或数据治理)。其中主动收集数据对应数据管理,常规收集数据对应数据治理。在实际操作中,在保证信息安全脱敏的情况下,二者可根据具体情况联合实施。
基于博鳌乐城“一地就医,异地随访”的常态化诊疗模式及数字化医疗智能设备的不断推广,其随访数据的载体和类型更加复杂碎片化,对数据管理技术提出了挑战。目前,博鳌乐城眼病RWD平台的前瞻性数据来源主要集中在“智能可穿戴设备、医疗相关微型传感器、健康医疗小程序及电子化患者报告结局(electronic patient-report outcome,ePRO)采集系统”等数字信息化驱动的实时数据采集系统的联合应用[20],可通过网络载体镜像同步[21]至综合研究型数据库以保证数据的真实性和可溯源性,亦可通过集合自然语言处理、机器学习及区块链等技术的“黑匣子”方案,实时转换提取关键变量数据,形成互联互通的物联网医疗数据链接平台,最终达到“实时采集-标准化处理-有效存储-安全传输”等[22]系统化流程和数据管理为一体,满足安全性、准确性、完整性和可读性等相关RWD标准,并有效实现各随访数据之间、随访数据与综合研究型专病数据平台之间的标准化链接。
随着综合研究型眼科专病数据平台的完善和研究设计的多元化,未来将考虑对博鳌乐城现有的EMR数据、EHR数据、医保理赔数据、不良反应监测数据和国外临床试验外对照数据等数据库进行互联互通。用于上述主动收集过程的“黑匣子”方案亦可用于该过程,同时目前国外较为成熟的HL7(health level seven)规范[23,24]亦可实现不同医疗机构及数据库之间的互联互通,提高不同标准下信息交换传输的便利性,进而满足目标药械全生命周期研究数据的“提取-转化-整合-分析”,但由此带来的将是数据规模庞大、链接平台多样、数据类型复杂繁多、历史数据和实时数据并存等挑战,不仅需要人工智能数据采集技术,还需要对采集数据进行数据抽取转换、字段映射替换、智能语音识别和影像资料提取等复杂的数据治理和计算机信息处理流程[25]。
4.2 数据管理平台可操作共享
基于博鳌乐城特殊的诊疗随访模式,在提高数据代表性和临床实践真实性的同时,数据的完整性、可覆盖性、可交换性均存在一定的挑战。综合研究型专病数据平台需链接和映射多机构日常监测数据以提高数据覆盖范围,以满足更加宏观多维的研究问题,同时需进一步提高各电子信息系统和数据库之间的可共享互操作性(包括EMR数据、EHR数据、医保理赔数据和不良反应监测数据等),优化链接数据库访问权限和中央化监查体系,在数据库链接的同时,加强数据库运行维护和安全监测的技术支撑[26],实现各链接数据库监管部门之间以自身权限为支撑的共享可操作性,以期达到平台开放应用,多部门共建共享的协同发展理念。在提高互操作性方面,传统的数据备份和定制开发接口等方案普遍存在成本高,过程繁杂,效率低,数据可及性和可解读性差等缺陷,可使用openEHR规范[27,28]以提高EHR框架下的互操作及开放共享的能力,亦可结合HL7形成集数据存储和信息互换为一体的综合研究型专病数据平台,构建以患者为中心的全生命周期医疗健康记录。此外,仍需组建包括临床专家及信息专家在内的信息建模团队,参考《卫生信息共享文档编制规范》[29],重点把握临床标准术语的准确性、完整性和合理性,实现所涉及医疗机构平台之间标准规范的联通,进而真正实现数据平台可操作共享的实施落地。
平台可操作共享理念的实现不仅在数据抽取、存储、整合、质控、传输、查询和分析等技术方面存在巨大的挑战,而且因时间成本效益、安全隐私及相关法律和伦理因素,使得这种大型数据库之间的互通链接可操作在很大程度上仍然是一种愿景。
4.3 数据标准化
随着目前诊疗试验机构的复杂一体化和患者信息的多源异构化,数据的标准化逐渐受到重视。在博鳌乐城数据管/治理实际操作中,为加强数据规范性、提高研究效率、支持数据共享和药械全生命周期数据链接,数据标准化主要包含两层含义:① 多源异构数据之间有效统一整合需要参照什么标准?② 科学规范的研究数据应该满足什么质量标准?
目前,监管部门较为提倡的为CDISC标准,主要包括研究数据列表模型(study data tabulation model,SDTM)、临床数据获取协调标准(clinical data acquisition standards harmonization,CDASH)和分析数据模型(analysis data model,ADaM)等,涵盖试验设计、数据采集、交换、归档、分析和递交等多个方面,已逐渐成为数据标准“通用语言”[10]。除此之外,还有国际医学用语词典(medical dictionary for regulatory activities,MedDRA)、世界卫生组织药物词典和世界卫生组织不良反应术语集(world health organization adverse reaction terminology,WHOART)等医学术语编码标准,用于支持解决因研究者地域、语言和临床习惯等因素导致的疾病名称、不良事件、药品名称等医学术语数据无法汇总统一。
同时,基于前瞻性采集数据,采用符合SDTM标准[30]的eCRF可有效解决所采集RWD重复利用的问题[31],也是有效整合回顾性数据和前瞻性数据的前提;而基于既有RCD,更多的可采用美国观察性医疗结果合作组织(observational medical outcomes partnership,OMOP)建立的面向观察性研究数据的通用数据模型(common data model,CDM)所定义的数据标准[32],将多源异构数据通过提取转换加载,形成统一标准的结构化数据。但面对我国庞大的临床数据体量及参差不齐的数据质量,目前尚存在数据术语类型覆盖范围不全,国内外术语标准发展不均衡及数据语言支持格式局限等挑战[33]。
自美国FDA在相关指南中提及“ALCOA”数据质量标准[11]之后,欧洲药品管理局[12]和国家药品监督管理局[10]相继出台相关指南用于推广“ALCOA+”数据质量标准,以保证数据的真实可靠和科学可信,主要包括:可归因性、易读性、同时性、原始性、准确性、完整性、一致性、持久性和可获得性。除此之外,国家药品监督管理局及其药审中心也颁布相关RWS指导规范,对源数据及管治理数据提出了详细的质量要求[8,14],主要包括:代表性、完整性、准确性、真实性、一致性、可重复性、相关性、可靠性、透明性和多源异构数据的融合性等,这些标准的相继提出,预示着我国RWD支持药械研发的研究框架逐渐走向完善并与国际接轨。
4.4 数据安全脱敏
随着国家“互联网+医疗健康”等智能化医疗服务的大力发展,在开发搭建一个可互操作可共享的研究型专病数据平台时[34],数据内容不仅涵盖治疗相关信息,还涵盖了更为贴近自然环境下的患者的流行病学信息(主要包括:患者自报的合并用药和不良事件、医疗产品措施的经济效益、不良反应监测、医保理赔数据等),数据体量之庞大,涉及技术平台之广泛,因此在解决实现数据共享对接的同时,不仅要进行敏感数据的分类识别和去标识化预处理,还应严格实施人员访问控制、权限分配及授权共享等安全保障措施以明确界定数据隐私范围,强化数据的安全脱敏[35]。
特殊的诊疗环境和政策支持,使得博鳌乐城RWD库管/治理流程更加丰富和具备自身特色。科学严谨的数据管/治理流程不仅是临床试验期间产生高质量可分析综合数据的保证,也是最大限度提升临床效能和证据效度的基础,更是国家“十四五”时期的关键技术攻关[36]。本文以博鳌乐城真实世界眼科数据平台为参考,从博鳌乐城RWD管/治理的必要性出发,基于基本数据管/治理流程探讨特殊化考虑,旨在进一步推进数据管/治理能力的发展和创新,助力临床试验数据的规模化、结构化和体系化建设,加快药械产品的上市审批和满足日益复杂严格的监管需求。