引用本文: 李雪迎, 王熙诚, 沙若琪, 姚晨, 晋菲斐, 阎小妍, 朱赛楠, 尚美霞. 临床研究数据安全等级划分的初步探索. 中国循证医学杂志, 2021, 21(5): 525-531. doi: 10.7507/1672-2531.202012111 复制
在临床医学的发展过程中,临床研究是推动学科发展,提高临床医疗能力的重要方法。就临床研究而言,准确可靠的临床信息获取是支撑临床研究的基石,与科学技术的进展和研究方法学的完善一起推动临床研究发展。从临床研究数据应用目标和特征看,临床研究数据范畴广泛,不仅包括了来自各种原始临床研究数据、也有基于临床保存的生物样本产生的数据,还包括了基于已发表临床研究数据的二次研究应用。因此,现有针对临床医疗过程的数据安全性策略并不适宜直接应用于临床研究数据的安全性管理。
在信息技术日新月异的今天,临床研究数据的获取方式正发生着巨大的变化。来源于临床医疗数据、健康档案信息、可穿戴设备直接收集的数据等,可以更便捷地应用于临床研究。这极大地推动了数据的利用,同时也给数据系统管理提出了更高的要求。就临床研究本身而言,数据的可利用性和准确性是我们关注的核心,包含可归因性(attributable)、同时性(contemporaneous)、原始性(original)、准确性(accurate)和完整性(complete)、一致性(consistent)、持久性(enduring)、可用性(available)要求的 ALCOA+CCEA 数据质量标准,成为了临床研究广泛接受的数据质量标准,并被多个监管机构制定的指导原则和行业规范所采用[1, 2, 3, 4]。
由于数据的获取途径日益丰富,原有针对特定目标设定的计算机系统的数据及现有数据管理模式,因其彼此孤立以及缺乏兼容能力的现实特征,成为了数据利用的瓶颈,特别是在面临对多系统来源数据实现合并分析的情况下。面对如上问题,数据治理[5-8]在近年来日益受到各数据应用领域工作者的重视。数据治理可以帮助我们实现数据系统的整合优化,通过完善数据管理体系,实现不同来源数据的合并应用,保障数据质量,推动数据的获取与利用[9]。
数据科学的发展提升了数据的可利用性,也让更充分的数据共享成为可能。真实世界研究[10-12]也正是在这样的技术背景下出现并日益受到研究者重视。来源丰富的真实世界数据[13],是我们了解临床过程,探索临床规律,优化诊疗策略的重要数据资源。充分利用真实世界数据是推动学科发展的需要与必然[14, 15]。在数据获取更便捷的情况下,信息和数据安全也成为了日益关注的重要问题。数据安全是数据治理[16, 17]和信息安全工作的重要任务。是数据准确性、可用性的重要保障。
2016 年 11 月 7 日第十二届全国人民代表大会常务委员会第二十四次会议通过了《中华人民共和国网络安全法》[18]。2020 年 6 月 28 日,数据安全法草案已被提请十三届全国人大常委会第二十次会议审议,其主要内容包括:确立数据分级分类管理以及风险评估、监测预警和应急处置等数据安全管理各项基本制度;明确开展数据活动的组织、个人的数据安全保护义务,落实数据安全保护责任;坚持安全与发展并重,规定支持促进数据安全与发展的措施;建立保障政务数据安全和推动政务数据开放的制度措施[19]。从法律的高度指明了信息安全工作的方向。
在数据应用的众多领域中,医疗相关数据,因其包含了大量个人隐私信息、健康特征以及医疗决策信息和公共卫生相关信息,从而使医疗信息安全问题备受关注。2019 年 3 月 20 日,国务院第 41 次常务会议通过并发布了《中华人民共和国人类遗传资源管理条例》,自 2019 年 7 月 1 日起施行[20],从法律层面规范了生物信息领域的信息安全性要求。
信息安全工作包括物理安全、数据安全和应用安全三个方面[21]。从物理性能配置,针对数据本身的安全性措施以及应用过程的安全性策略出发,在保障数据存储与应用过程安全的情况下实现合理的数据利用,防止信息的泄露、窃取和丢失。在数据安全方面,数据安全性等级划分和分级管理是保障数据安全和实现合理应用的重要环节。这也是相关法规中对信息安全工作的要求之一。2020 年 12 月 14 日颁布的《信息安全技术健康医疗信息安全指南》(标准号:GB/T 39725-2020)[22]对医疗健康领域相关信息的安全工作提出了全面的方向性指引。不仅指出了健康医疗领域数据信息的范畴和相应的安全等级划分,特别对临床研究所涉及的数据范畴及其安全等级划分提出了工作要求。在具体应用中,仍需要相应的数据等级划分细则以促进指南中各项要求的落实。但目前尚未见到针对临床研究数据安全等级划分的标准或策略研究。本研究将针对临床研究涉及的安全等级划分进行初步探索。
1 资料与方法
1.1 临床研究数据安全性等级划分的初步构建
以现行标准《计算机信息系统安全保护等级划分准则》(标准号:GB 17859-1999)[23]、《信息安全技术 健康医疗信息安全指南(征求意见稿)》[24](该指南已于 2020 年 12 月 14 日颁布,标准号:GB/T 39725-2020)[22]以及《信息安全等级保护管理办法(试行)》[25]的相关要求为基本准则,参考其他专业的数据安全等级划分技术指南[26],对临床研究的数据信息特征及其可能设计的数据范畴进行总结,结合临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)[27, 28]对于临床研究数据域的划分方式与规定,提出临床研究数据安全等级划分的等级设定、数据类别归属与划分以及各等级数据安全策略的初步设想。
1.2 专家咨询问卷调查
根据研究目的,选择临床研究各相关领域,具备 10 年以上临床研究相关工作经验的专业人员,依据自愿的原则,通过邮件方式开展专家咨询。共有 15 名专家参与咨询工作。其中临床医学专家 4 人,临床研究方法学专家 3 人,公共卫生数据应用专家 2 人,临床研究管理专家 2 人,医学伦理学专家 2 人,遗传学专家 1 人,大数据应用与数据管理专家 1 人。对初始形成的数据安全策略中的等级定义、设定以及相应的安全策略等内容,按“等级适当”、“应提高等级”和“应降低等级”3 种意见进行意见征询。对每一轮的专家咨询意见进行汇总,根据专家意见对原有数据安全等级划分方案进行修订,采用修订后的等级划分建议表并进行下一轮次专家咨询,最终完成 3 轮专家意见咨询。
汇总各领域专家对等级划分及定义以及各数据类别的等级归属意见。针对初始数据安全等级划分策略中的各等级安全策略进行完善,对数据类别的安全性等级归属进行调整,必要时依据专家意见对数据类别进行拆分或合并。通过逐步完善最终形成临床研究安全等级划分策略。
2 结果
2.1 临床研究数据安全性等级划分初步建议的形成
临床研究的信息来源看,可能包括的数据有:来自研究对象的人口学信息、既往史、临床症状、体格检查、实验室检查、病理学检查、辅助检查等信息,以及来自诊疗过程的疾病诊断、药物及治疗处置与相关医疗费用等信息。同时,医学研究也包括了基于已发表文献的二次分析。故而以上数据范畴即为临床研究数据所包括的主要内容。参考 CDISC 标准中关于数据域的规定[27, 28],结合临床研究数据特点,特别是基于真实世界的临床研究数据特点,完成数据类别划分,初始建议表格中共包括 34 个数据类别。
在《计算机信息系统安全保护等级划分准则》[23]和《信息安全等级保护管理办法(试行)》[25]中,信息安全等级均被划分为五个等级。从一级到五级,计算机信息系统的安全保护能力要求逐级提高。在《金融数据安全分级指南》(JR/T 0197-2020)[26]中,依据数据安全性遭到破坏后可能造成的危害及其程度,将数据安全划分为五个等级。基于以上策略,我们将临床研究数据的安全性等级划分为五个级别,自一级至五级,数据中所包括的隐私信息及数据规模和代表性逐级提高,安全性破坏所带来的危害程度逐级递增,安全性措施与要求也随之逐级提升。
2.2 通过专家咨询问卷调查优化临床研究数据安全性等级划分初步建议
第一轮专家意见调研所采用的初始安全性数据划分方案共包括五个安全等级的 34 个数据类别。共收集建议 73 条,涉及安全等级定义、安全措施、以及数据类别的定义与划分。近半数的数据类别存在 2 名以上专家对其安全等级存在异议。
针对第一轮专家意见对初始安全性数据划分方案进行调整,将数据类别通过等级调整及合并处理减少至 32 个。从第二轮意见咨询中,收集建议 22 条,涉及安全等级定义、安全措施以及数据类别的定义与划分。约 20% 的条目仍存在 2 名以上专家认为其安全等级策略不适当的情况。
针对第二轮咨询意见,对安全等级定义及安全策略做出进一步完善,同时针对性调整数据类别的安全性等级,并根据专家意见将其中一个数据类别拆分为两个独立的数据类别。因此第三轮调研中包括的数据条目增至 33 个。在第三轮专家咨询中,专家意见逐步趋于一致。第三轮调查收集建议 8 条,涉及安全等级定义及安全性措施。大多数题目取得一致意见,全部数据类别存在异议的情况均在一人以下。
各轮次调研数据安全等级及数据分类情况见表 1,每轮次调研咨询结果及修订概要见表 2。


2.3 提出临床研究数据安全性等级划分
最终确定数据类别从初稿的 34 类修订为 33 类。最终的安全等级划分建议中,安全等级一级包括数据类别 3 类;二级中包括 3 类;三级包括 14 类;四级包括 9 类;五级包括 4 类。自一级向五级,数据中所包括的个人隐私信息、公众健康信息、医疗决策信息,数据规模渐次增加。数据泄露所带来的危害也逐渐严重,其相应的安全性策略等级也逐级提升。从一级的公开场合应用到需要通过审核后应用直至五级中的尽可能避免在研究中纳入该类信息(表 3)。

3 讨论
在信息技术飞速发展的背景下,信息的规模与获取的方便性给数据应用带来了可能。同时,保护信息安全成为了备受关注的主题。如何在实现数据合理充分利用的情况下,防止数据被窃取,泄露隐私和不适当应用受到了各应用领域的重视。2006 年颁布的《信息安全等级保护管理办法(试行)》[24],2016 颁布的《中华人民共和国网络安全法》[18]和 2020 提请十三届全国人大常委会第二十次会议审议的数据安全法草案[19]等一系列法律法规均为数据信息安全工作指明了方向。
在众多领域中,临床相关数据由于涉及健康状况、基因特征等一系列重要的隐私信息而备受关注。特别是当医疗数据具有一定规模、具备人群特征表征能力和医疗决策特征的时候,其信息安全考虑显然需要更多重视。因此医疗相关数据的安全性考虑不仅仅是针对每一个参与医疗活动的个体隐私保护,同时还是关乎医疗行业、公众健康乃至国家利益的重要安全问题。针对医疗领域的信息安全,2018 年颁布的《国家健康医疗大数据标准、安全和服务管理办法(试行)》[1]和《信息安全技术 健康医疗信息安全指南》征求意见稿[28]都体现了医疗信息安全的重要性。2020 年颁布的《中华人民共和国民法典》[29]以及同年提请十三届全国人大常委会第二十二次会议审议的《个人信息保护法草案》[30],则体现了对公民隐私的重视。也为医疗相关数据的数据安全工作提供了方向性指导。数据安全是信息安全工作的重要组成部分[21],以保密性、完整性、可用性[25]为其工作目标。在数据安全工作中,通过数据安全等级划分,实现数据的分级管理是在确保数据安全的前提下实现合理利用的关键措施。
临床研究过程涉及大量医疗相关数据,特别是在真实世界研究日益蓬勃发展的今天。大量来自医疗过程、健康档案的数据信息有机会直接应用于研究,使得临床研究中的数据安全问题更加突出。临床研究过程所涉及的数据范畴并不与临床医疗过程的数据范畴一致,故而不能简单套用临床医疗数据的安全性措施。从临床相关研究的内容看,临床研究的数据不仅涉及诊疗过程相关数据,还包括了针对已发表数据的二次分析及研究过程相关数据等。数据安全等级划分主要依据相应数据安全性遭到破坏后所造成的危害、损失以及潜在风险程度划定。这一评估过程不仅要考虑数据类别、规模、来源等特性,还需要从受损害的对象和影响程度方面综合考虑。
因临床研究所涉及的数据广泛且随研究的需要呈现不断变化丰富的特征,故而无法对临床研究数据项实现穷举,因此在安全等级划分工作中,首先对临床研究数据实现类别划分,进而明确各类别数据的安全等级。通过以上方式,对于任一临床研究数据项都可以通过对类别归属判定从而获得其对应的安全性等级。从临床研究数据角度看,基于公开发表数据的二次分析,安全性风险最低;研究本身过程特征的信息记录,因不涉及个体患者的隐私信息,风险性略高于公开发表数据;在涉及患者医疗过程及健康数据的隐私相关信息中,症状、体征等检查结果信息风险相对较低;疾病诊断、医疗处置等信息风险程度居中;风险等级最高的是基因组、蛋白质组学等能体现个体生物学遗传特性的数据。从数据规模上看,随着数据规模的增大,其受到破坏时可能的危害风险增加,相应的数据安全性等级及安全策略也将随之提升,特别是当数据足以表征人群特征时,防止信息泄露和不适当应用显得极其重要,与之相应的安全性措施也一定需要更严格的标准。
数据安全等级划分在中国相关法规要求中均分为五个等级,这也与其他领域的数据安全等级划分方法相一致。故而在本研究中,我们将临床研究数据安全等级划分为五级,从一级所涉及的公开发表数据到五级中的有关基因序列,可以表征区域人口特征的汇总数据等。其安全性要求渐次提高,从一级中的公开应用逐渐提升,到需要经过必要的审批,在脱敏情况下,依据最小化准则情况下应用,直到五级数据的严格管控,即尽可能在研究中避免应用。通过以上等级划分,其相应的安全性措施要求,使数据的应用过程管理更具针对性,同时适应伦理学、遗传学相关规定的要求,构建研究数据的分级分类管理体系,实现高效精准的数据安全性、可用性管理。帮助我们在保障数据安全的前提下实现合理的数据应用和共享。
总之,本文通过对临床研究的数据安全等级划分进行初步的探索,在综合临床研究者、管理者、伦理学者、数据科学家、方法学家和遗传学家从不同角度对安全性等级划分工作建议并获得相对统一认识的基础上,提出了临床研究数据安全性等级划分策略。但必须指出的是:本文所提出的安全性等级划分仅仅是初步探索,虽然考虑了临床研究相关的各个领域但未纳入医学信息领域的专家。针对临床研究数据安全策略的工作,仍有待进一步的补充完善。
在临床医学的发展过程中,临床研究是推动学科发展,提高临床医疗能力的重要方法。就临床研究而言,准确可靠的临床信息获取是支撑临床研究的基石,与科学技术的进展和研究方法学的完善一起推动临床研究发展。从临床研究数据应用目标和特征看,临床研究数据范畴广泛,不仅包括了来自各种原始临床研究数据、也有基于临床保存的生物样本产生的数据,还包括了基于已发表临床研究数据的二次研究应用。因此,现有针对临床医疗过程的数据安全性策略并不适宜直接应用于临床研究数据的安全性管理。
在信息技术日新月异的今天,临床研究数据的获取方式正发生着巨大的变化。来源于临床医疗数据、健康档案信息、可穿戴设备直接收集的数据等,可以更便捷地应用于临床研究。这极大地推动了数据的利用,同时也给数据系统管理提出了更高的要求。就临床研究本身而言,数据的可利用性和准确性是我们关注的核心,包含可归因性(attributable)、同时性(contemporaneous)、原始性(original)、准确性(accurate)和完整性(complete)、一致性(consistent)、持久性(enduring)、可用性(available)要求的 ALCOA+CCEA 数据质量标准,成为了临床研究广泛接受的数据质量标准,并被多个监管机构制定的指导原则和行业规范所采用[1, 2, 3, 4]。
由于数据的获取途径日益丰富,原有针对特定目标设定的计算机系统的数据及现有数据管理模式,因其彼此孤立以及缺乏兼容能力的现实特征,成为了数据利用的瓶颈,特别是在面临对多系统来源数据实现合并分析的情况下。面对如上问题,数据治理[5-8]在近年来日益受到各数据应用领域工作者的重视。数据治理可以帮助我们实现数据系统的整合优化,通过完善数据管理体系,实现不同来源数据的合并应用,保障数据质量,推动数据的获取与利用[9]。
数据科学的发展提升了数据的可利用性,也让更充分的数据共享成为可能。真实世界研究[10-12]也正是在这样的技术背景下出现并日益受到研究者重视。来源丰富的真实世界数据[13],是我们了解临床过程,探索临床规律,优化诊疗策略的重要数据资源。充分利用真实世界数据是推动学科发展的需要与必然[14, 15]。在数据获取更便捷的情况下,信息和数据安全也成为了日益关注的重要问题。数据安全是数据治理[16, 17]和信息安全工作的重要任务。是数据准确性、可用性的重要保障。
2016 年 11 月 7 日第十二届全国人民代表大会常务委员会第二十四次会议通过了《中华人民共和国网络安全法》[18]。2020 年 6 月 28 日,数据安全法草案已被提请十三届全国人大常委会第二十次会议审议,其主要内容包括:确立数据分级分类管理以及风险评估、监测预警和应急处置等数据安全管理各项基本制度;明确开展数据活动的组织、个人的数据安全保护义务,落实数据安全保护责任;坚持安全与发展并重,规定支持促进数据安全与发展的措施;建立保障政务数据安全和推动政务数据开放的制度措施[19]。从法律的高度指明了信息安全工作的方向。
在数据应用的众多领域中,医疗相关数据,因其包含了大量个人隐私信息、健康特征以及医疗决策信息和公共卫生相关信息,从而使医疗信息安全问题备受关注。2019 年 3 月 20 日,国务院第 41 次常务会议通过并发布了《中华人民共和国人类遗传资源管理条例》,自 2019 年 7 月 1 日起施行[20],从法律层面规范了生物信息领域的信息安全性要求。
信息安全工作包括物理安全、数据安全和应用安全三个方面[21]。从物理性能配置,针对数据本身的安全性措施以及应用过程的安全性策略出发,在保障数据存储与应用过程安全的情况下实现合理的数据利用,防止信息的泄露、窃取和丢失。在数据安全方面,数据安全性等级划分和分级管理是保障数据安全和实现合理应用的重要环节。这也是相关法规中对信息安全工作的要求之一。2020 年 12 月 14 日颁布的《信息安全技术健康医疗信息安全指南》(标准号:GB/T 39725-2020)[22]对医疗健康领域相关信息的安全工作提出了全面的方向性指引。不仅指出了健康医疗领域数据信息的范畴和相应的安全等级划分,特别对临床研究所涉及的数据范畴及其安全等级划分提出了工作要求。在具体应用中,仍需要相应的数据等级划分细则以促进指南中各项要求的落实。但目前尚未见到针对临床研究数据安全等级划分的标准或策略研究。本研究将针对临床研究涉及的安全等级划分进行初步探索。
1 资料与方法
1.1 临床研究数据安全性等级划分的初步构建
以现行标准《计算机信息系统安全保护等级划分准则》(标准号:GB 17859-1999)[23]、《信息安全技术 健康医疗信息安全指南(征求意见稿)》[24](该指南已于 2020 年 12 月 14 日颁布,标准号:GB/T 39725-2020)[22]以及《信息安全等级保护管理办法(试行)》[25]的相关要求为基本准则,参考其他专业的数据安全等级划分技术指南[26],对临床研究的数据信息特征及其可能设计的数据范畴进行总结,结合临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)[27, 28]对于临床研究数据域的划分方式与规定,提出临床研究数据安全等级划分的等级设定、数据类别归属与划分以及各等级数据安全策略的初步设想。
1.2 专家咨询问卷调查
根据研究目的,选择临床研究各相关领域,具备 10 年以上临床研究相关工作经验的专业人员,依据自愿的原则,通过邮件方式开展专家咨询。共有 15 名专家参与咨询工作。其中临床医学专家 4 人,临床研究方法学专家 3 人,公共卫生数据应用专家 2 人,临床研究管理专家 2 人,医学伦理学专家 2 人,遗传学专家 1 人,大数据应用与数据管理专家 1 人。对初始形成的数据安全策略中的等级定义、设定以及相应的安全策略等内容,按“等级适当”、“应提高等级”和“应降低等级”3 种意见进行意见征询。对每一轮的专家咨询意见进行汇总,根据专家意见对原有数据安全等级划分方案进行修订,采用修订后的等级划分建议表并进行下一轮次专家咨询,最终完成 3 轮专家意见咨询。
汇总各领域专家对等级划分及定义以及各数据类别的等级归属意见。针对初始数据安全等级划分策略中的各等级安全策略进行完善,对数据类别的安全性等级归属进行调整,必要时依据专家意见对数据类别进行拆分或合并。通过逐步完善最终形成临床研究安全等级划分策略。
2 结果
2.1 临床研究数据安全性等级划分初步建议的形成
临床研究的信息来源看,可能包括的数据有:来自研究对象的人口学信息、既往史、临床症状、体格检查、实验室检查、病理学检查、辅助检查等信息,以及来自诊疗过程的疾病诊断、药物及治疗处置与相关医疗费用等信息。同时,医学研究也包括了基于已发表文献的二次分析。故而以上数据范畴即为临床研究数据所包括的主要内容。参考 CDISC 标准中关于数据域的规定[27, 28],结合临床研究数据特点,特别是基于真实世界的临床研究数据特点,完成数据类别划分,初始建议表格中共包括 34 个数据类别。
在《计算机信息系统安全保护等级划分准则》[23]和《信息安全等级保护管理办法(试行)》[25]中,信息安全等级均被划分为五个等级。从一级到五级,计算机信息系统的安全保护能力要求逐级提高。在《金融数据安全分级指南》(JR/T 0197-2020)[26]中,依据数据安全性遭到破坏后可能造成的危害及其程度,将数据安全划分为五个等级。基于以上策略,我们将临床研究数据的安全性等级划分为五个级别,自一级至五级,数据中所包括的隐私信息及数据规模和代表性逐级提高,安全性破坏所带来的危害程度逐级递增,安全性措施与要求也随之逐级提升。
2.2 通过专家咨询问卷调查优化临床研究数据安全性等级划分初步建议
第一轮专家意见调研所采用的初始安全性数据划分方案共包括五个安全等级的 34 个数据类别。共收集建议 73 条,涉及安全等级定义、安全措施、以及数据类别的定义与划分。近半数的数据类别存在 2 名以上专家对其安全等级存在异议。
针对第一轮专家意见对初始安全性数据划分方案进行调整,将数据类别通过等级调整及合并处理减少至 32 个。从第二轮意见咨询中,收集建议 22 条,涉及安全等级定义、安全措施以及数据类别的定义与划分。约 20% 的条目仍存在 2 名以上专家认为其安全等级策略不适当的情况。
针对第二轮咨询意见,对安全等级定义及安全策略做出进一步完善,同时针对性调整数据类别的安全性等级,并根据专家意见将其中一个数据类别拆分为两个独立的数据类别。因此第三轮调研中包括的数据条目增至 33 个。在第三轮专家咨询中,专家意见逐步趋于一致。第三轮调查收集建议 8 条,涉及安全等级定义及安全性措施。大多数题目取得一致意见,全部数据类别存在异议的情况均在一人以下。
各轮次调研数据安全等级及数据分类情况见表 1,每轮次调研咨询结果及修订概要见表 2。


2.3 提出临床研究数据安全性等级划分
最终确定数据类别从初稿的 34 类修订为 33 类。最终的安全等级划分建议中,安全等级一级包括数据类别 3 类;二级中包括 3 类;三级包括 14 类;四级包括 9 类;五级包括 4 类。自一级向五级,数据中所包括的个人隐私信息、公众健康信息、医疗决策信息,数据规模渐次增加。数据泄露所带来的危害也逐渐严重,其相应的安全性策略等级也逐级提升。从一级的公开场合应用到需要通过审核后应用直至五级中的尽可能避免在研究中纳入该类信息(表 3)。

3 讨论
在信息技术飞速发展的背景下,信息的规模与获取的方便性给数据应用带来了可能。同时,保护信息安全成为了备受关注的主题。如何在实现数据合理充分利用的情况下,防止数据被窃取,泄露隐私和不适当应用受到了各应用领域的重视。2006 年颁布的《信息安全等级保护管理办法(试行)》[24],2016 颁布的《中华人民共和国网络安全法》[18]和 2020 提请十三届全国人大常委会第二十次会议审议的数据安全法草案[19]等一系列法律法规均为数据信息安全工作指明了方向。
在众多领域中,临床相关数据由于涉及健康状况、基因特征等一系列重要的隐私信息而备受关注。特别是当医疗数据具有一定规模、具备人群特征表征能力和医疗决策特征的时候,其信息安全考虑显然需要更多重视。因此医疗相关数据的安全性考虑不仅仅是针对每一个参与医疗活动的个体隐私保护,同时还是关乎医疗行业、公众健康乃至国家利益的重要安全问题。针对医疗领域的信息安全,2018 年颁布的《国家健康医疗大数据标准、安全和服务管理办法(试行)》[1]和《信息安全技术 健康医疗信息安全指南》征求意见稿[28]都体现了医疗信息安全的重要性。2020 年颁布的《中华人民共和国民法典》[29]以及同年提请十三届全国人大常委会第二十二次会议审议的《个人信息保护法草案》[30],则体现了对公民隐私的重视。也为医疗相关数据的数据安全工作提供了方向性指导。数据安全是信息安全工作的重要组成部分[21],以保密性、完整性、可用性[25]为其工作目标。在数据安全工作中,通过数据安全等级划分,实现数据的分级管理是在确保数据安全的前提下实现合理利用的关键措施。
临床研究过程涉及大量医疗相关数据,特别是在真实世界研究日益蓬勃发展的今天。大量来自医疗过程、健康档案的数据信息有机会直接应用于研究,使得临床研究中的数据安全问题更加突出。临床研究过程所涉及的数据范畴并不与临床医疗过程的数据范畴一致,故而不能简单套用临床医疗数据的安全性措施。从临床相关研究的内容看,临床研究的数据不仅涉及诊疗过程相关数据,还包括了针对已发表数据的二次分析及研究过程相关数据等。数据安全等级划分主要依据相应数据安全性遭到破坏后所造成的危害、损失以及潜在风险程度划定。这一评估过程不仅要考虑数据类别、规模、来源等特性,还需要从受损害的对象和影响程度方面综合考虑。
因临床研究所涉及的数据广泛且随研究的需要呈现不断变化丰富的特征,故而无法对临床研究数据项实现穷举,因此在安全等级划分工作中,首先对临床研究数据实现类别划分,进而明确各类别数据的安全等级。通过以上方式,对于任一临床研究数据项都可以通过对类别归属判定从而获得其对应的安全性等级。从临床研究数据角度看,基于公开发表数据的二次分析,安全性风险最低;研究本身过程特征的信息记录,因不涉及个体患者的隐私信息,风险性略高于公开发表数据;在涉及患者医疗过程及健康数据的隐私相关信息中,症状、体征等检查结果信息风险相对较低;疾病诊断、医疗处置等信息风险程度居中;风险等级最高的是基因组、蛋白质组学等能体现个体生物学遗传特性的数据。从数据规模上看,随着数据规模的增大,其受到破坏时可能的危害风险增加,相应的数据安全性等级及安全策略也将随之提升,特别是当数据足以表征人群特征时,防止信息泄露和不适当应用显得极其重要,与之相应的安全性措施也一定需要更严格的标准。
数据安全等级划分在中国相关法规要求中均分为五个等级,这也与其他领域的数据安全等级划分方法相一致。故而在本研究中,我们将临床研究数据安全等级划分为五级,从一级所涉及的公开发表数据到五级中的有关基因序列,可以表征区域人口特征的汇总数据等。其安全性要求渐次提高,从一级中的公开应用逐渐提升,到需要经过必要的审批,在脱敏情况下,依据最小化准则情况下应用,直到五级数据的严格管控,即尽可能在研究中避免应用。通过以上等级划分,其相应的安全性措施要求,使数据的应用过程管理更具针对性,同时适应伦理学、遗传学相关规定的要求,构建研究数据的分级分类管理体系,实现高效精准的数据安全性、可用性管理。帮助我们在保障数据安全的前提下实现合理的数据应用和共享。
总之,本文通过对临床研究的数据安全等级划分进行初步的探索,在综合临床研究者、管理者、伦理学者、数据科学家、方法学家和遗传学家从不同角度对安全性等级划分工作建议并获得相对统一认识的基础上,提出了临床研究数据安全性等级划分策略。但必须指出的是:本文所提出的安全性等级划分仅仅是初步探索,虽然考虑了临床研究相关的各个领域但未纳入医学信息领域的专家。针对临床研究数据安全策略的工作,仍有待进一步的补充完善。