近年来人工智能在医疗服务领域应用愈发广泛,基于人工智能的临床决策辅助系统是其主要应用形式之一。基于人工智能临床决策辅助系统的早期临床评价介于临床前开发(计算机模拟)、离线验证和临床试验之间,但目前少有人工智能相关临床研究涉及人因学评价,且缺少与人工智能系统运行环境、用户特征、选择过程及算法识别等方面的报告。为缩小人工智能辅助决策系统在开发与实际临床应用间的差距,提高人工智能系统临床研究的透明性和规范性,2022年,BMJ发表了基于人工智能的临床辅助决策系统早期临床评价研究的报告规范(DECIDE-AI)。本文就指南的制订背景、制订过程和重点内容进行解读,以期促进该报告规范在国内研究人员中的理解与应用。
引用本文: 陈泞夙, 赵凯, 薛心雨, 齐亚娜, 喻佳洁. 基于人工智能的临床辅助决策系统早期临床评价研究的报告规范(DECIDE-AI)解读. 中国循证医学杂志, 2024, 24(9): 1100-1107. doi: 10.7507/1672-2531.202401188 复制
1 DECIDE-AI的制订背景
近年来,人工智能(artificial intelligence,AI)在医疗服务领域的应用愈发广泛,基于AI的临床决策辅助系统(以下简称“AI系统”)是其主要应用形式之一。研究表明:AI系统在临床前开发阶段或计算机生物模拟阶段已展现出可比拟人类专家的良好性能[1],但少有证据证明其在临床实际应用中能改善医生活动和患者结局[2,3]。目前,AI系统的开发与应用间尚存在的“AI鸿沟”[4],即主要强调人工智能算法的数学性能,忽略了人工智能系统、用户和实施环境间相互作用对其实际应用的影响。将人工智能系统从数学性能提升到临床效果,需开展循序渐进的实施和评估,解决其相互作用的复杂问题。
AI系统的早期临床评价介于临床前开发(计算机模拟)、离线验证和临床试验之间,类似于外科领域IDEAL框架的stage 1(设想)、2a(开发)或2b(探索)[5,6],或药物临床试验的1期与2期临床试验(图1),关注AI系统的实际临床性能、安全性和人因学评价(human factors)。但目前少有AI系统临床研究涉及人因学评价,且可用性评估方法不一致。另外,也缺少AI系统运行环境、用户特征、选择过程及算法识别等方面的报告。

彩色线条代表报告指南,其中部分是针对特定研究设计的(TRIPOD-AI、STARD-AI、SPIRIT/CONSORT、SPIRIT/CONSORT-AI),部分是针对特定阶段的(DECIDE-AI、IDEAL)。
为提高AI系统临床研究的透明性和规范性,国际上已相继制订和发布相关报告规范,如:用于报告诊断或预后预测模型开发、验证和更新的TRIPOD-AI[7];用于报告诊断准确性研究的STARD-AI[8];分别用于报告评价随机对照试验及计划书的CONSORT-AI[9]和SPIRIT-AI[10](图1),但AI系统早期临床评价阶段的报告规范仍存在空白。为改善实践中此类研究报告不充分的问题,2022年5月,Vasey等[11]在BMJ发表了人工智能驱动下决策辅助系统早期临床评价的报告指南(reporting guideline for the developmental and exploratory clinical investigations of decision support systems driven by artificial intelligence,DECIDE-AI)。本文就指南的制订过程和主要内容进行解读,以期促进报告指南的正确理解和使用。
2 DECIDE-AI的制订过程
DECIDE-AI的制订参考EQUATOR协作网指南制订的基本流程进行,有专门的指导小组监督指南的制订过程[12],见图2:① 基于专家意见制订了初步的候选清单,该清单重点参考了基于人工智能诊断决策辅助系统的相关文献、指导小组成员推荐的文献及监管机构文件;② 通过不同的渠道招募专家,包括:指导小组推荐的专家、检获文献的作者、任何主动联系指导小组的专家及德尔菲专家推荐的专家(滚雪球),最终招募了行政人员/医院管理人员、医疗专业人员、临床医生、工程师/计算机科学家、人因设计专家、流行病学家、伦理学家、期刊编辑、患者代表等来自18个国家的20类利益相关群体参与;③ 开展两轮改良德尔菲专家咨询形成初步条目,138名专家同意参加首轮德尔菲调查,其中123名(89%)完成了调查问卷,162名专家受邀参加第二轮德尔菲调查,其中138人完成了问卷调查(85%);④ 召开三轮专家线上共识会对初始条目进行增减、修改或补充,为确保关键利益相关群体的平衡及地域多样性,共识小组的16名专家参与讨论,最终确定27个条目;⑤ 将指南及解释性文件发给独立于共识小组之外的16名专家,确定最终报告清单中的条目及文字表述。

3 DECIDE-AI主要内容
DECIDE-AI报告指南由17条AI相关特异性报告条目(1~17)和10条一般性报告条目(I~X)组成,包括标题和摘要、引言、方法、结果、讨论和声明六部分(表1),本文重点介绍与AI相关的特异性报告条目,条目中涉及的具体术语见表2。


3.1 题目和摘要
题目中需明确说明研究是人工智能辅助决策系统的早期临床评价,帮助读者快速、准确的识别和检索研究。题目需体现:① 在辅助决策系统中使用机器学习/人工智能;② 辅助决策系统需解决的临床问题;③ 研究阶段。例如:基于人工智能的自主诊断系统在初级诊疗中检测糖尿病视网膜病变的关键性试验[19]。摘要部分建议使用结构式摘要,说明AI系统的预期用途、算法类型、研究环境、参与者、结局指标、安全性和人因学评价、主要结果和结论。
3.2 引言
引言部分要求说明AI系统的预期用途(或预期目的)及相关使用规范。这些信息与预期用途有关,不应与研究期间AI系统的实际使用情况相混淆,清晰描述预期用途有助于读者评估在相关场景中使用的AI系统是否代表预期用途。同时有助于监管机构参考临床研究中声称的预期用途决定新器械分类和审批。如果临床研究的预期用途与临床前开发阶段的预期用途不同,需明确说明。
预期用途部分要描述目标疾病/健康状况(如:败血症)和拟解决的问题(如:在液体和血管加压药剂量之间找到最佳平衡),明确定义当前针对此疾病/健康状况的标准实践方案及目标患者人群(条目2a)。提供有关AI系统预期实施的信息,包括可能影响用户与AI系统交互的相关特征(如:用户在医疗保健系统中的角色和职责、专业、培训水平、对数字技术的熟悉程度等)、拟在临床路径的整合方式(使用环境、系统访问的难易程度、辅助决策的类型与时机等)及应用系统的潜在临床效果,对旨在改善患者医疗服务的AI系统,作者应说明针对哪些患者结局(如:30天再入院率或死亡率)(条目2b)。
3.3 方法
方法学部分重点报告以下六方面:
3.3.1 参与者
描述患者与数据层面的纳入排除标准(条目3a)。患者层面的标准包括有关招募策略(在社区中主动、被动、开放招募)、抽样方法(连续、随机等)和知情同意(知情豁免)等信息。数据层面的标准包括采集时间、采集方法、数据质量、数据完整性和数据格式。需注意的是符合患者层面纳入标准的参与者可因数据质量低或数据不完整而被排除。样本量计算方面,AI系统临床评价早期不要求正式统计样本量计算,但需说明事前确定的样本量。
与条目3a类似,作者还应详细描述用户的纳入排除标准及招募数量(3b),由于患者和用户都被视为参与者(见词汇表),还应报告用户获得知情同意的信息。但考虑到无论何种质量的用户数据均可提供人工智能系统可用性的信息(如:使用困难、缺乏兴趣等),通常不建议设置数据层面排除标准。
学习曲线评估是评价创新AI系统的重要内容之一,作者需详细说明为使用户熟悉AI系统而采取的措施,如培训课程类型、培训次数和时间等(条目3c)。
3.3.2 人工智能系统
作者清晰描述AI系统的算法类型(即数学模型)、支持软硬件及其版本号,说明算法训练集中患者特征及系统在临床前开发或离线验证中的性能。如果上述信息无法从公开发表的文章中直接引用,建议以附件形式补充完整(条目4a)。
详细描述输入数据特征,包括输入数据项清单、数据采集的时间范围、输入数据来源(如:常规收集数据、主动收集数据)、数据采集方式(如:计算机断层扫描仪成像、切片计数)、数据输入方式(如:从EHR中自动提取、手动输入等)、数据预处理及如何定义和处理缺失值(条目4b)。
描述如何向用户呈现AI系统的输出结果,包括AI 系统的输出类型和数量(如:AI系统对每个检测到的结节进行分割并给出恶性肿瘤的概率),显示界面的设计(如:图像、屏幕截图、插图)及其他信息(如:关注机制的可视化,显示对AI系统推荐影响最大的变量等)。作者还应说明用户可对界面进行多大程度的定制,是否有机会让用户向AI系统提供交互反馈(条目4c)。
3.3.3 实施
描述评价AI系统的环境,包括医疗中心的类型和规模(如:重大创伤中心),场所(如:急诊科)、相关人员和技术支持(如:多学科创伤团队、床旁射线照相术),或AI系统支持硬件(计算机)(条目5a)。
描述研究期间如何使用人工智能系统的信息,包括与临床工作流程/临床路径集成相关的信息(如:患者的初始情况及其接受治疗的原因、使用AI系统做出的临床决策)及决策过程,包括涉及哪方面的人员、处于哪个阶段以及谁负责最终的临床决策(条目5b)。
3.3.4 安全性与错误
说明如何明确定义和识别重大错误或故障,包括算法错误(如:错误的将结节描述为恶性)、支持软硬件故障(如:因数据提取或电池电量耗尽无法生成推荐意见)及涉及用户的错误(如:用户输入错误)(条目6a)。
说明如何识别、分析和最小化患者安全风险或伤害事件,包括:伤害事件发生的可能性、对参与者的潜在影响、风险检测的难易程度及目标患者群体的疾病严重程度(条目6b)。
3.3.5 人因学
描述人因学使用的工具、方法或框架,设备的典型使用示例及如何选择参与人因评估的用户(条目7)。与安全性一样,人因设计评估应在临床前阶段就已开展,这里主要指在临床实时环境下的持续评估。最合适的人因设计评估取决于环境和设备,主要评价其可用性。可用性评估需使用经过验证的工具、方法或框架,如:ISO标准(ISO
3.3.6 伦理
描述是否使用特定方法来达到与伦理相关的目标(如算法公平性),并解释使用这些方法的理由。相关方法包括用于检测、量化和减轻算法输出中偏见的措施,包括但不限于算法公平性。例如,由于参考标准增加了黑人患者的估计风险,需重新调整心脏手术风险评估的算法(条目8)。
3.4 结果
3.4.1 参与者
根据AI系统的预期用途、已知对结果有影响的因素选择要报告的基线特征(条目9a)。例如:年龄、性别、种族、社会经济地位、地理位置、目标疾病的患病率、目标疾病的分类/严重程度、算法中包含的关键预测因子等。作者还应同时定量报告研究期间AI 系统输入数据(条目4b)的缺失情况,最好按数据项细分。
考虑报告用户的医学专业、培训水平、临床角色/资历、对决策的熟悉程度及他们之前是否接触过决策辅助工具等(条目9b)。在用户数量较少的研究中,作者还需仔细考虑如何在报告用户基线特征时保持用户的匿名性。
3.4.2 实施
报告实际接触过辅助决策工具的潜在用户比例、有权访问该工具的用户使用该工具的频率、未能遵守AI系统指示使用的情况(如:适应症、使用时间等)(条目10a)。如适用,还应简要描述本应使用AI系统但没有使用的情况。
报告AI系统对临床工作流程或临床路径造成的任何重大变化(条目10b),注意区分临床工作流程(即医护人员为患者提供医疗服务时遵循的步骤和程序)和临床路径(即患者在与医疗系统接触过程中经历的系列医疗程序和活动),选择报告那些重大变化时应考虑:① 与条目2b描述的预期用途的区别(如:AI系统原本旨在减少使用不适当的影像检查,但意外导致专科转诊数量的增加);② 对患者安全的潜在风险;③ 对AI系统集成和接受程度的潜在影响。
3.4.3 调整
说明研究期间对AI系统做出的任何调整(条目11),包括对算法的更改(如:重新校准)或对其支持硬件平台的更改(如:显示界面改进)等,详细记录更改后的版本号及这些更改对主要研究结果的影响。
3.4.4 人机协议
辅助决策系统旨在影响用户的决策,根据用户对人工智能系统建议的反应,可能会出现三大情况:① 决定/行动没有变化;② 决定/行动有所改善(凸显人工智能系统的潜在附加值);③ 决定/行动恶化(使用人工智能系统会使患者面临额外的风险)。作者应详细报告用户对AI系统的反应,描述用户决策与AI系统建议不一致的情况及原因(条目12)。如:初始用户决策、人工智能系统推荐、最终用户决策、临床情况、患者/病例特征、用户特征、改变的原因、改变的后果等。
3.4.5 安全性及错误
报告所有观察到的重大错误/故障(建议以表格形式列出),包括出现次数、原因、如何纠正相应错误/故障及对患者结局产生的影响(条目13a)。作者应根据条目6b报告出现的患者安全风险或伤害事件(条目13b)。
3.4.6 人因学
人因学评价结果的报告应以所选方法为指导(条目7),如果与用户群体不同(或子集),则应指定人因设计评估参与者的特征(条目14a)。统计描述有助于读者理解学习曲线的含义,图形的方式可为读者提供更精细的信息(条目14b)。
3.5 讨论
3.5.1 支持预期用途
作者应根据结果描述对评估系统的实际预期,及这些结果如何支持系统的预期用途,并与当前标准实践方案和类似研究进行比较(条目15)。结合人因设计评估结果讨论关键临床表现的结果,同时说明在采用AI系统开展下一阶段更大规模比较试验时可能存在的挑战。
3.5.2 安全性及错误
作者应结合错误/故障、已识别的风险、观察到的不良事件、临床路径的意外变化及与安全相关的人因技术评估结果总结该研究的主要安全发现,并提出可能的解决方案,如:算法再训练、产品再开发或修改后续试验设计等(条目16)。
3.6 声明(数据可获得性)
说明能否公开获取算法和相关支持软件代码,如不能,需说明原因,若能,应说明获取途径(条目17)。
4 小结
大数据时代下,AI临床辅助决策系统在国内的应用愈发广泛,如新冠期间深圳大学医学部吴光耀教授团队开发的用于新冠肺炎患者入院时风险评估的辅助决策系统[25];北京天坛医院李子孝教授团队开发的脑血管疾病AI临床辅助决策系统[26];中国临床肿瘤学会开发的CSSO人工智能辅助决策系统等[27]。DECIDE-AI指南经系统文献综述、专家咨询和国际专家共识会等步骤制订而成,综合各利益相关方建议,从AI辅助决策系统的预期用途、参与者、AI算法、实施与应用、安全性与错误、人因学分析等方面为AI系统早期临床评价研究的报告提供强有力的指导,有助于提高AI系统早期临床评价研究报告的清晰度和透明度,并在研究设计、方案起草、研究注册中为研究者提供方法学支持,促进AI系统的临床应用。
需注意的是:① AI系统的早期科学评估与监管在内容上存在一定程度的重合,但考虑到科学评估和监管评估的重点略有不同且国家间的监管策略存在差异[28],该指南中未涉及监管内容,对监管的指导意义有限;② AI系统输出结果的可解释性对提高用户和患者对AI系统的信任度及扩大实际应用范围至关重要[29],但在共识过程中有专家认为AI系统的临床价值可能与可解释性无关,另外,由于目前尚缺少普遍接受的量化或评价可解释性的方法,共识小组最终决定在本指南中暂不列入与可解释性相关的条目;③ 随着用户积累AI系统的实际使用经验,其对AI系统推荐结果的信任度也会发生变化,了解信任度的变化趋势,有助于制订用户培训计划和确定比较试验中数据收集的最佳时间点,但与可解释性一样,因目前缺少达成共识的评价方法,本报告指南中暂未考虑信任度变化的问题。
DECIDE-AI是不同专业背景、经验专家共识的结果,为人工智能辅助决策系统的早期临床评价提供最低报告标准,适用于该阶段所有研究设计类型和AI功能模式(检测、诊断、预后、治疗)的报告,但仍有局限性:① 虽然共识专家的选择以地域、专业多样化为原则,但仍存在地域(以欧洲为主)和利益相关群体(以临床医生和工程师为主)的不均衡,可能导致参与者选择偏倚;② 与其他AI系统报告规范类似,AI系统早期临床评估的研究示例很少,可能影响从文献中提取初始条目的完整性,研究小组也是通过两轮德尔菲咨询尽量完善、补充条目;③ 目前该报告规范还处于实践初期,后期在真实世界更广泛群体中的应用将会促进条目的修改与完善。
综上,将人工智能引入医疗系统需得到完整、可靠及全面的证据支持,有助于确保人工智能系统的安全性和有效性及获得患者、从业者和购买者的信任。DECIDE-AI旨在改善AI系统早期临床评价的报告,为后期更大规模的临床研究和广泛应用奠定基础。
1 DECIDE-AI的制订背景
近年来,人工智能(artificial intelligence,AI)在医疗服务领域的应用愈发广泛,基于AI的临床决策辅助系统(以下简称“AI系统”)是其主要应用形式之一。研究表明:AI系统在临床前开发阶段或计算机生物模拟阶段已展现出可比拟人类专家的良好性能[1],但少有证据证明其在临床实际应用中能改善医生活动和患者结局[2,3]。目前,AI系统的开发与应用间尚存在的“AI鸿沟”[4],即主要强调人工智能算法的数学性能,忽略了人工智能系统、用户和实施环境间相互作用对其实际应用的影响。将人工智能系统从数学性能提升到临床效果,需开展循序渐进的实施和评估,解决其相互作用的复杂问题。
AI系统的早期临床评价介于临床前开发(计算机模拟)、离线验证和临床试验之间,类似于外科领域IDEAL框架的stage 1(设想)、2a(开发)或2b(探索)[5,6],或药物临床试验的1期与2期临床试验(图1),关注AI系统的实际临床性能、安全性和人因学评价(human factors)。但目前少有AI系统临床研究涉及人因学评价,且可用性评估方法不一致。另外,也缺少AI系统运行环境、用户特征、选择过程及算法识别等方面的报告。

彩色线条代表报告指南,其中部分是针对特定研究设计的(TRIPOD-AI、STARD-AI、SPIRIT/CONSORT、SPIRIT/CONSORT-AI),部分是针对特定阶段的(DECIDE-AI、IDEAL)。
为提高AI系统临床研究的透明性和规范性,国际上已相继制订和发布相关报告规范,如:用于报告诊断或预后预测模型开发、验证和更新的TRIPOD-AI[7];用于报告诊断准确性研究的STARD-AI[8];分别用于报告评价随机对照试验及计划书的CONSORT-AI[9]和SPIRIT-AI[10](图1),但AI系统早期临床评价阶段的报告规范仍存在空白。为改善实践中此类研究报告不充分的问题,2022年5月,Vasey等[11]在BMJ发表了人工智能驱动下决策辅助系统早期临床评价的报告指南(reporting guideline for the developmental and exploratory clinical investigations of decision support systems driven by artificial intelligence,DECIDE-AI)。本文就指南的制订过程和主要内容进行解读,以期促进报告指南的正确理解和使用。
2 DECIDE-AI的制订过程
DECIDE-AI的制订参考EQUATOR协作网指南制订的基本流程进行,有专门的指导小组监督指南的制订过程[12],见图2:① 基于专家意见制订了初步的候选清单,该清单重点参考了基于人工智能诊断决策辅助系统的相关文献、指导小组成员推荐的文献及监管机构文件;② 通过不同的渠道招募专家,包括:指导小组推荐的专家、检获文献的作者、任何主动联系指导小组的专家及德尔菲专家推荐的专家(滚雪球),最终招募了行政人员/医院管理人员、医疗专业人员、临床医生、工程师/计算机科学家、人因设计专家、流行病学家、伦理学家、期刊编辑、患者代表等来自18个国家的20类利益相关群体参与;③ 开展两轮改良德尔菲专家咨询形成初步条目,138名专家同意参加首轮德尔菲调查,其中123名(89%)完成了调查问卷,162名专家受邀参加第二轮德尔菲调查,其中138人完成了问卷调查(85%);④ 召开三轮专家线上共识会对初始条目进行增减、修改或补充,为确保关键利益相关群体的平衡及地域多样性,共识小组的16名专家参与讨论,最终确定27个条目;⑤ 将指南及解释性文件发给独立于共识小组之外的16名专家,确定最终报告清单中的条目及文字表述。

3 DECIDE-AI主要内容
DECIDE-AI报告指南由17条AI相关特异性报告条目(1~17)和10条一般性报告条目(I~X)组成,包括标题和摘要、引言、方法、结果、讨论和声明六部分(表1),本文重点介绍与AI相关的特异性报告条目,条目中涉及的具体术语见表2。


3.1 题目和摘要
题目中需明确说明研究是人工智能辅助决策系统的早期临床评价,帮助读者快速、准确的识别和检索研究。题目需体现:① 在辅助决策系统中使用机器学习/人工智能;② 辅助决策系统需解决的临床问题;③ 研究阶段。例如:基于人工智能的自主诊断系统在初级诊疗中检测糖尿病视网膜病变的关键性试验[19]。摘要部分建议使用结构式摘要,说明AI系统的预期用途、算法类型、研究环境、参与者、结局指标、安全性和人因学评价、主要结果和结论。
3.2 引言
引言部分要求说明AI系统的预期用途(或预期目的)及相关使用规范。这些信息与预期用途有关,不应与研究期间AI系统的实际使用情况相混淆,清晰描述预期用途有助于读者评估在相关场景中使用的AI系统是否代表预期用途。同时有助于监管机构参考临床研究中声称的预期用途决定新器械分类和审批。如果临床研究的预期用途与临床前开发阶段的预期用途不同,需明确说明。
预期用途部分要描述目标疾病/健康状况(如:败血症)和拟解决的问题(如:在液体和血管加压药剂量之间找到最佳平衡),明确定义当前针对此疾病/健康状况的标准实践方案及目标患者人群(条目2a)。提供有关AI系统预期实施的信息,包括可能影响用户与AI系统交互的相关特征(如:用户在医疗保健系统中的角色和职责、专业、培训水平、对数字技术的熟悉程度等)、拟在临床路径的整合方式(使用环境、系统访问的难易程度、辅助决策的类型与时机等)及应用系统的潜在临床效果,对旨在改善患者医疗服务的AI系统,作者应说明针对哪些患者结局(如:30天再入院率或死亡率)(条目2b)。
3.3 方法
方法学部分重点报告以下六方面:
3.3.1 参与者
描述患者与数据层面的纳入排除标准(条目3a)。患者层面的标准包括有关招募策略(在社区中主动、被动、开放招募)、抽样方法(连续、随机等)和知情同意(知情豁免)等信息。数据层面的标准包括采集时间、采集方法、数据质量、数据完整性和数据格式。需注意的是符合患者层面纳入标准的参与者可因数据质量低或数据不完整而被排除。样本量计算方面,AI系统临床评价早期不要求正式统计样本量计算,但需说明事前确定的样本量。
与条目3a类似,作者还应详细描述用户的纳入排除标准及招募数量(3b),由于患者和用户都被视为参与者(见词汇表),还应报告用户获得知情同意的信息。但考虑到无论何种质量的用户数据均可提供人工智能系统可用性的信息(如:使用困难、缺乏兴趣等),通常不建议设置数据层面排除标准。
学习曲线评估是评价创新AI系统的重要内容之一,作者需详细说明为使用户熟悉AI系统而采取的措施,如培训课程类型、培训次数和时间等(条目3c)。
3.3.2 人工智能系统
作者清晰描述AI系统的算法类型(即数学模型)、支持软硬件及其版本号,说明算法训练集中患者特征及系统在临床前开发或离线验证中的性能。如果上述信息无法从公开发表的文章中直接引用,建议以附件形式补充完整(条目4a)。
详细描述输入数据特征,包括输入数据项清单、数据采集的时间范围、输入数据来源(如:常规收集数据、主动收集数据)、数据采集方式(如:计算机断层扫描仪成像、切片计数)、数据输入方式(如:从EHR中自动提取、手动输入等)、数据预处理及如何定义和处理缺失值(条目4b)。
描述如何向用户呈现AI系统的输出结果,包括AI 系统的输出类型和数量(如:AI系统对每个检测到的结节进行分割并给出恶性肿瘤的概率),显示界面的设计(如:图像、屏幕截图、插图)及其他信息(如:关注机制的可视化,显示对AI系统推荐影响最大的变量等)。作者还应说明用户可对界面进行多大程度的定制,是否有机会让用户向AI系统提供交互反馈(条目4c)。
3.3.3 实施
描述评价AI系统的环境,包括医疗中心的类型和规模(如:重大创伤中心),场所(如:急诊科)、相关人员和技术支持(如:多学科创伤团队、床旁射线照相术),或AI系统支持硬件(计算机)(条目5a)。
描述研究期间如何使用人工智能系统的信息,包括与临床工作流程/临床路径集成相关的信息(如:患者的初始情况及其接受治疗的原因、使用AI系统做出的临床决策)及决策过程,包括涉及哪方面的人员、处于哪个阶段以及谁负责最终的临床决策(条目5b)。
3.3.4 安全性与错误
说明如何明确定义和识别重大错误或故障,包括算法错误(如:错误的将结节描述为恶性)、支持软硬件故障(如:因数据提取或电池电量耗尽无法生成推荐意见)及涉及用户的错误(如:用户输入错误)(条目6a)。
说明如何识别、分析和最小化患者安全风险或伤害事件,包括:伤害事件发生的可能性、对参与者的潜在影响、风险检测的难易程度及目标患者群体的疾病严重程度(条目6b)。
3.3.5 人因学
描述人因学使用的工具、方法或框架,设备的典型使用示例及如何选择参与人因评估的用户(条目7)。与安全性一样,人因设计评估应在临床前阶段就已开展,这里主要指在临床实时环境下的持续评估。最合适的人因设计评估取决于环境和设备,主要评价其可用性。可用性评估需使用经过验证的工具、方法或框架,如:ISO标准(ISO
3.3.6 伦理
描述是否使用特定方法来达到与伦理相关的目标(如算法公平性),并解释使用这些方法的理由。相关方法包括用于检测、量化和减轻算法输出中偏见的措施,包括但不限于算法公平性。例如,由于参考标准增加了黑人患者的估计风险,需重新调整心脏手术风险评估的算法(条目8)。
3.4 结果
3.4.1 参与者
根据AI系统的预期用途、已知对结果有影响的因素选择要报告的基线特征(条目9a)。例如:年龄、性别、种族、社会经济地位、地理位置、目标疾病的患病率、目标疾病的分类/严重程度、算法中包含的关键预测因子等。作者还应同时定量报告研究期间AI 系统输入数据(条目4b)的缺失情况,最好按数据项细分。
考虑报告用户的医学专业、培训水平、临床角色/资历、对决策的熟悉程度及他们之前是否接触过决策辅助工具等(条目9b)。在用户数量较少的研究中,作者还需仔细考虑如何在报告用户基线特征时保持用户的匿名性。
3.4.2 实施
报告实际接触过辅助决策工具的潜在用户比例、有权访问该工具的用户使用该工具的频率、未能遵守AI系统指示使用的情况(如:适应症、使用时间等)(条目10a)。如适用,还应简要描述本应使用AI系统但没有使用的情况。
报告AI系统对临床工作流程或临床路径造成的任何重大变化(条目10b),注意区分临床工作流程(即医护人员为患者提供医疗服务时遵循的步骤和程序)和临床路径(即患者在与医疗系统接触过程中经历的系列医疗程序和活动),选择报告那些重大变化时应考虑:① 与条目2b描述的预期用途的区别(如:AI系统原本旨在减少使用不适当的影像检查,但意外导致专科转诊数量的增加);② 对患者安全的潜在风险;③ 对AI系统集成和接受程度的潜在影响。
3.4.3 调整
说明研究期间对AI系统做出的任何调整(条目11),包括对算法的更改(如:重新校准)或对其支持硬件平台的更改(如:显示界面改进)等,详细记录更改后的版本号及这些更改对主要研究结果的影响。
3.4.4 人机协议
辅助决策系统旨在影响用户的决策,根据用户对人工智能系统建议的反应,可能会出现三大情况:① 决定/行动没有变化;② 决定/行动有所改善(凸显人工智能系统的潜在附加值);③ 决定/行动恶化(使用人工智能系统会使患者面临额外的风险)。作者应详细报告用户对AI系统的反应,描述用户决策与AI系统建议不一致的情况及原因(条目12)。如:初始用户决策、人工智能系统推荐、最终用户决策、临床情况、患者/病例特征、用户特征、改变的原因、改变的后果等。
3.4.5 安全性及错误
报告所有观察到的重大错误/故障(建议以表格形式列出),包括出现次数、原因、如何纠正相应错误/故障及对患者结局产生的影响(条目13a)。作者应根据条目6b报告出现的患者安全风险或伤害事件(条目13b)。
3.4.6 人因学
人因学评价结果的报告应以所选方法为指导(条目7),如果与用户群体不同(或子集),则应指定人因设计评估参与者的特征(条目14a)。统计描述有助于读者理解学习曲线的含义,图形的方式可为读者提供更精细的信息(条目14b)。
3.5 讨论
3.5.1 支持预期用途
作者应根据结果描述对评估系统的实际预期,及这些结果如何支持系统的预期用途,并与当前标准实践方案和类似研究进行比较(条目15)。结合人因设计评估结果讨论关键临床表现的结果,同时说明在采用AI系统开展下一阶段更大规模比较试验时可能存在的挑战。
3.5.2 安全性及错误
作者应结合错误/故障、已识别的风险、观察到的不良事件、临床路径的意外变化及与安全相关的人因技术评估结果总结该研究的主要安全发现,并提出可能的解决方案,如:算法再训练、产品再开发或修改后续试验设计等(条目16)。
3.6 声明(数据可获得性)
说明能否公开获取算法和相关支持软件代码,如不能,需说明原因,若能,应说明获取途径(条目17)。
4 小结
大数据时代下,AI临床辅助决策系统在国内的应用愈发广泛,如新冠期间深圳大学医学部吴光耀教授团队开发的用于新冠肺炎患者入院时风险评估的辅助决策系统[25];北京天坛医院李子孝教授团队开发的脑血管疾病AI临床辅助决策系统[26];中国临床肿瘤学会开发的CSSO人工智能辅助决策系统等[27]。DECIDE-AI指南经系统文献综述、专家咨询和国际专家共识会等步骤制订而成,综合各利益相关方建议,从AI辅助决策系统的预期用途、参与者、AI算法、实施与应用、安全性与错误、人因学分析等方面为AI系统早期临床评价研究的报告提供强有力的指导,有助于提高AI系统早期临床评价研究报告的清晰度和透明度,并在研究设计、方案起草、研究注册中为研究者提供方法学支持,促进AI系统的临床应用。
需注意的是:① AI系统的早期科学评估与监管在内容上存在一定程度的重合,但考虑到科学评估和监管评估的重点略有不同且国家间的监管策略存在差异[28],该指南中未涉及监管内容,对监管的指导意义有限;② AI系统输出结果的可解释性对提高用户和患者对AI系统的信任度及扩大实际应用范围至关重要[29],但在共识过程中有专家认为AI系统的临床价值可能与可解释性无关,另外,由于目前尚缺少普遍接受的量化或评价可解释性的方法,共识小组最终决定在本指南中暂不列入与可解释性相关的条目;③ 随着用户积累AI系统的实际使用经验,其对AI系统推荐结果的信任度也会发生变化,了解信任度的变化趋势,有助于制订用户培训计划和确定比较试验中数据收集的最佳时间点,但与可解释性一样,因目前缺少达成共识的评价方法,本报告指南中暂未考虑信任度变化的问题。
DECIDE-AI是不同专业背景、经验专家共识的结果,为人工智能辅助决策系统的早期临床评价提供最低报告标准,适用于该阶段所有研究设计类型和AI功能模式(检测、诊断、预后、治疗)的报告,但仍有局限性:① 虽然共识专家的选择以地域、专业多样化为原则,但仍存在地域(以欧洲为主)和利益相关群体(以临床医生和工程师为主)的不均衡,可能导致参与者选择偏倚;② 与其他AI系统报告规范类似,AI系统早期临床评估的研究示例很少,可能影响从文献中提取初始条目的完整性,研究小组也是通过两轮德尔菲咨询尽量完善、补充条目;③ 目前该报告规范还处于实践初期,后期在真实世界更广泛群体中的应用将会促进条目的修改与完善。
综上,将人工智能引入医疗系统需得到完整、可靠及全面的证据支持,有助于确保人工智能系统的安全性和有效性及获得患者、从业者和购买者的信任。DECIDE-AI旨在改善AI系统早期临床评价的报告,为后期更大规模的临床研究和广泛应用奠定基础。