实施科学作为一个相对较新且逐渐受到重视的研究领域,其开展有助于将理论中的可能性转化为现实中的实践,从而应对如何在真实世界中实施经过验证的干预措施的挑战。实施研究用途广泛且研究问题具有复杂性,需要借助合适的研究方法、设计和结局指标来实现不同的研究目的。由此,本文结合实施研究的目的与实施问题,系统介绍医疗卫生领域中实施研究的研究设计、实施结局指标及相关的报告规范,以期为更好地开展实施研究提供参考。
引用本文: 谢润生, 徐东, 李慧, 陈耀龙, 杜亮, 周英凤, 靳英辉. 医疗卫生领域中实施科学的研究方法. 中国循证医学杂志, 2020, 20(9): 1104-1110. doi: 10.7507/1672-2531.202003234 复制
实施科学作为新兴研究领域逐渐受到重视,其相关研究已广泛在医疗卫生领域开展[1, 2]。世界卫生组织主张开展实施研究以应对如何在真实世界中实施经过验证的干预措施的挑战,同时呼吁将实施研究更多地嵌合到卫生决策中,从而帮助将理论中的可能性转化为现实中的实践[3, 4]。
实施研究是对实施问题的科学探究[5]。根据这一定义,实施研究可解决或探讨关于实施的任何方面,包括影响实施的因素、实施过程本身及实施的结局或最终产品。换而言之,实施研究侧重于以下主题:① 识别常见的实施问题;② 了解促进或阻碍获得卫生干预措施的因素;③ 在特定背景和环境中,开发和测试用于解决实施障碍的方案;④ 确定将创新引入卫生系统或促进其大规模使用和可持续发展的最佳方式。
实施研究用途广泛且研究问题具有一定的复杂性,往往需要借助合适的研究方法和设计来实现不同研究目的,并且通过实施结局指标对实施开展情况对实施效果进行描述和评价。因此,本文将介绍医疗卫生领域中实施研究的研究设计、实施结局指标及相关的报告规范,旨在为更好地开展实施研究提供参考。
1 实施研究的目的与实施问题
实施研究的基本目的不仅是要了解哪些干预措施是有效的或无效的,还要了解影响实施成败的原因和方式及检验改进实施的方法[5]。其往往关注的是一项计划或项目推出或推广时出现的若干实施问题。围绕这些实施问题,可进一步把研究目的划分为探索、描述、充分性分析、合理性分析、概率评估、解释、预测等(表 1)。基于以问题为导向的原则,研究者应先明确实施过程中遇到的障碍并提出实施问题,然后选用与具体实施问题对应的研究方法。

2 医疗卫生研究的研究设计
医疗卫生领域中,实施科学采用了广泛存在于各学科中的定性、定量和混合方法来开展实施研究,这些方法有助于研究者了解实施背景与环境、评估实施策略、识别个人和/或组织实践过程中的变化。与其他研究不同的是,实施研究侧重于提供或实施循证实践的策略,关注其实施效果,旨在系统弥合认知-行为差异,使干预措施的作用最大限度地在真实世界中得以发挥。
定性研究方法侧重于描述和理解实施过程中人类行为和经验看法,并不依赖于对数据的运算处理。定性研究通常包括个别访谈、焦点小组访谈、民族志、田野调查、参与式观察、文献分析、个案调查等方法[6, 7]。其中以访谈法最为常见,实施研究中往往将不同层次的关键利益相关者作为访谈对象,通过实施理论框架形成访谈提纲并进行半结构化访谈。如基于实施研究整合框架(consolidated framework for implementation research,CFIR),结合其干预特征、外部环境、内部环境、个体特征、实施过程领域形成访谈指南,指导数据收集[8]。
定量研究方法侧重于通过结构化的研究设计对实施数据进行量化处理、检验和分析,关注干预措施的外部有效性。定量研究可按照是否采用随机化设计、是否采用干预等进行分类。研究类型包括:观察性设计,如横断面、队列研究;随机对照设计,如经典随机对照试验(randomized controlled trial,RCT)、整群 RCT、阶梯设计(stepped-wedge design,SWD)、效果-实施混合设计(effectiveness-implementation hybrid design,EIHD);准试验设计(quasi-experimental designs,QED),如中断时间序列(interrupted time series,ITS)设计、回归不连续设计、回归点位移设计;干预优化设计,如多阶段优化策略(multiphase optimization strategy,MOST)、多重方案随机序贯试验(sequential multiple assignment randomized trial,SMART)和混合设计[4, 5, 9, 10]。本文将于下一部分着重介绍定量研究中常用的研究设计。
混合方法研究是指在同一研究中收集和分析数据时,根据不同组合结构同时采用或按顺序采用定性和定量方法[11]。混合方法研究的用途超过 60 种,可归纳为 4 个方面[12, 13]:① 关注研究对象:旨在更充分、更全面地获取研究对象的样本信息;② 关注研究工具:旨在测试研究工具的有效性,确保所使用的工具合适且有效;③ 关注实施方案:旨在测量实施方案的保真度,评估干预措施或治疗方案是否按设计进行;④ 关注研究结果:旨在最大限度地解释研究结果,增强研究的意义。
3 常用的实施研究设计
广义而言,定量研究方法中 5 种研究设计 EIHD、MOST、SWD、QED、SMART 均可称为实施研究设计,但他们从本质和内涵上稍有不同。其中,EIHD 主要是从研究目的出发,兼顾临床效果和实施效果的检验。MOST 主要是从研究的流程出发,通过三个阶段的方法开展一项规范的实施研究。而 SWD、QED、SMART 是真正意义上的实施研究设计。
3.1 SWD
SWD 是一种特殊的群组 RCT 设计,各群组在不同的时间点实施干预,最终所有组都将接受干预,不需设置专门的对照组,既做到平行随机对照,又避免了伦理学问题[14]。因此,SWD 适用于评价“利大于弊”的干预措施,尤其适用于当资源受限时需要分阶段实施干预措施的情况。
SWD 的基本原理是根据研究目的将研究对象分为若干个小组,并对其进行随机编号,然后按照时间先后顺序将干预过程划分为不同的阶段。研究开始后,按照事先确定的随机编号顺序给予对应小组实施干预,已纳入的小组将在研究过程中持续接受干预,而未纳入的小组则保持空白等待状态,直到按顺序接受干预,如此反复直至所有小组均接受干预(图 1)。SWD 的结果分析有同期比较和前后比较两种比较方式,可使用 COX 回归模型、Logistic 回归模型及 Poisson 回归模型等进行分析。

另外,根据研究对象类型不同,SWD 可进一步分为固定队列 SWD、开放队列 SWD 和连续入组短期暴露 SWD[15]。
3.2 EIHD
EIHD 是一种既注重评估临床效果又注重实施的试验设计,可同时评估干预措施的效果和实施策略。其特点是从临床试验开始,首先确定在可控制条件下实施的干预是否有效,然后再继续进行如整群 RCT 等设计,从而确定在真实世界环境中引入干预的最佳方式。基于研究目标中的效果或实施部分的优先地位,EIHD 设计可划分为 3 种基本类型[4, 16]:① Ⅰ 型混合试验设计:主要测试干预措施对健康结局的影响,同时观察和收集关于实施情况的信息。在此类研究中,测量了研究对象接受干预措施后的功能或症状变化,同时通过定性、过程导向或混合方法评价实施方法的可行性和接受度。② Ⅱ 型混合试验设计:涉及对干预措施和实施策略的双重测试。③ Ⅲ 型混合试验设计:主要测试实施策略,同时观察和收集关于干预措施对健康结局的影响信息,该设计主要使用干预措施的采用率和保真度来测试实施策略。
EIHD 设计不仅加快了原本可能非常耗时的临床试验过程,使得研究人员能够识别重要的干预-实施交互作用,并可利用这些信息为最佳实施方法决策提供参考。研究者在试验设计过程中可基于 PRECIS-2(pragmatic–explanatory continuum indicator summary)工具综合考虑试验的解释性和实用性程度,避免试验设计与预期目的不符[17, 18]。PRECIS-2 的轮状模型包含 9 个维度:分别为纳入标准、招募、场景、组织、灵活性、依从性、随访、主要结局、主要分析[18, 19]。研究者需要在 PRECIS-2 轮状模型图上对各维度进行评分,评分范围为 1 分(解释性非常强)到 5 分(实用性非常强)。研究团队可根据评分结果更仔细地考虑试验的预期目标,展开内部讨论并促进达成共识,从而确保有关试验设计的决策与试验的既定目的相一致。研究者可登陆 PRECIS-2 官网(www.precis-2.org)进一步查阅相关的培训资源、工具指南和试验数据库等资料。
3.3 QED
因研究条件限制而不能采用随机分组或设立平行对照的研究被称为“准试验”设计[10]。研究人员在评估真实环境中的干预措施实施时面临研究设计上的挑战,需要在保持内部有效性的同时兼顾外部有效性因素(如各亚组的摄入量、可接受性、可持续性和成本)。因而越来越多研究选择采用 QED,该类设计包括 ITS 设计、回归不连续设计、回归点位移设计等[20-23]。这 3 种 QED 在研究目的、设计和分析上较为相似,现以 ITS 为代表进行介绍。
ITS 是一种用于探索干预措施的效应是否显著大于潜在时间趋势,评价干预措施效果的准实验设计[24]。如图 2 所示,该设计在干预前后均等间隔的时间点(多个时间点)收集常规监测数据,将干预前的数据则作为对照组,估计干预前时间序列的潜在趋势后,根据潜在趋势线和干预后的时间序列趋势评估干预措施效果[25]。其特点是能充分利用纵向数据的信息,考虑干预前指标的发展趋势,并且一般不受恒定混杂因素的影响。

ITS 步骤如下[25]:① 判断是否合适采用 ITS。干预是否可清楚分为前、后阶段;结局指标最好是能在干预后迅速反应或有明确滞后反应的短期结局指标;干预实施前后的观察时点较多。② 构建影响模型。基于以往证据进行假设,评估干预可能对结局产生的水平上或斜率上的影响,构建相应的模型。③ 进行描述性分析。可采用散点图和传统方法识别潜在趋势、季节性和离群值。④ 进行回归分析。常采用时间序列模型进行分析,如 ARIMA 模型、分段回归时间序列模型。⑤ 不同统计方法细节的考虑。考虑自相关、随时间变化的混杂因素、采用对照、基于亚组的分层分析、构建非线性模型等。⑥ 模型检查及敏感性分析。
3.4 MOST
MOST[26-28] 是一种通过使用三个阶段的方法来构建、优化和评估多因素干预措施的策略,它可识别干预措施的有效要素,及识别获得最优结果时每个要素的水平(剂量)。MOST 由筛选阶段、优化阶段、验证阶段 3 部分组成。
筛选阶段:筛选阶段的目的在于根据某一干预要素的作用决定其是否被纳入综合干预方案,高效地选择可能会有效的干预要素,形成干预方案草案。这需以理论为基础,识别由程序要素和传递要素组成的一系列干预要素。可通过析因设计来解释各个要素的作用,根据结果解决以下问题:① 哪些程序要素有效且可促成正向结果,需要被纳入;② 哪些程序要素无效或起反作用,需要被排除;③ 哪些传递要素有效、对干预结果有影响或对于维持干预精确度起作用。
优化阶段:优化阶段的目的是将筛选阶段中形成的干预方案草案进行调整,将每一个干预要素优化到最佳水平并形成最终干预方案。研究方法可采用析因设计或 SMART。优化阶段关注以下问题:① 哪些干预要素具有最优水平;② 干预要素的最优水平是否受个体或群体的特征影响。
验证阶段:最终优化干预方案草案是验证阶段的起点,这一阶段将进行标准的 RCT 来验证由最佳干预要素组成的干预方案的作用和效果。验证阶段需解决以下问题:① 干预方案是否有效;② 干预方案能否推广应用到更大样本人群。
3.5 SMART
SMART[27, 29] 是一种专为建立随时间变化的适应性干预措施而开发的多阶段随机试验设计。在每一个阶段,所有参与者都被随机分配到一个干预方案中。通过多次随机分配参与者,研究者可将多种干预措施嵌入到研究中并评估其在不同阶段的效果,从而制定最佳的决策规则与方案。
以一项孕期药物滥用患者的研究为例[30],该研究关注如何通过调整基于强化理论的治疗(reinforcement based treatment,RBT)强度及适用范围来提高孕期药物滥用者的疗效。该研究设计了 4 种不同干预强度的 RBT,包括简化 RBT、减量 RBT、常规 RBT、增强 RBT。如图 3 所示,在研究的第一阶段,所有患者随机接受两种中等强度干预措施的一种,即减量 RBT 或常规 RBT。两周后,将第一阶段治疗无效的患者再次随机分为两组,继续原方案组或加大干预强度组;对第一阶段治疗有效的患者则随机分为原方案组或降低干预强度组。最终,将两阶段共 8 种干预方案嵌入到该研究中。其研究结果可帮助研究者确定在首次治疗时应该为患者提供何种干预及在不同阶段产生不同效果时应该提供何种干预。关于数据分析方法和样本量计算等详见相关文献[29, 31]。

4 实施研究的结局指标
如何对实施效果进行概念化和评估,是实施科学领域的关键问题。为了促进对实施过程的理解和提高实施研究的效率,Proctor 等[32, 33]系统提出实施结局的概念和内涵,并将实施结局与临床结局和服务结局区分开来。实施结局是指为实施新的治疗方法、实践和服务而采取的针对性措施的效果。实施结局可作为实施成功的评价指标,近端反映实施过程,并且是与临床结局或服务结局在治疗效果和医疗质量研究方面相关的关键中间结局指标。
根据分类学方法,实施结局被归纳为 8 大指标,包括接受度、采用率、适当性、可行性、保真度、实施成本、覆盖范围和可持续性[4, 5, 33]。各指标的实用性定义、相关术语和应用见表 2[34-43]。每个实施结局指标代表评价实施效果的一个重要方面,可作为某个实施项目实际开展情况的指标。但并非所有实施结局指标在实施研究中都同等重要。例如,在实施一项新的干预措施时,研究者主要关注的可能是接受度、采用率、适当性和可行性问题。当中,“接受度”与“适当性”可能会在一些文献中被混淆使用,但实际上两者概念有所不同。例如,某种治疗措施可能被认为是适当的,但因为费用、设备和技术条件限制等各种原因不被患者或医疗机构所接受。而在实施现有干预措施时,干预措施的实施程度是否符合于最初设计则更为重要(通过保真度进行衡量)。另外,除干预措施本身的成本外,实施成本还取决于所使用的实施策略的复杂性及实施策略的覆盖范围和应用场景。“覆盖范围”与“可持续性”在概念上和经验上更为相关,因为更广的覆盖范围可能有助于实施的可持续性。可持续性问题应该从干预的最初阶段就加以考虑,但其在卫生干预研究中往往容易被忽视。

5 实施研究的报告规范(standards for reporting implementation studies,StaRI)
StaRI 是一个基于在线德尔菲法和专家共识开发而成的报告框架,涵盖题目、摘要、背景、目的、方法(描述和评价)、结果、讨论、通用信息等 8 个部分共 27 个报告条目,并从实施策略和干预措施两个方面进行详细报告[44]。该报告规范强调了报告实施研究中所采用的方法和理论依据,将有助于提高实施研究的方法学质量[45]。因此,研究者在开展实施研究和撰写实施研究学术论文时,应参考 StaRI 及其清单,进一步规范和提高实施研究报告的透明度、准确性。
6 展望
实施科学作为应对当今社会复杂问题而诞生的新兴学科之一,涉及多个学科领域方法和理论。医疗卫生领域中的研究者对其关注度日益增长,得益于实施研究可使干预措施的作用最大限度地在真实世界中发挥。在开展实施研究时应注意以问题为导向,选择与研究问题相匹配的实施研究方法和设计,并采用合适的实施结局指标对实施情况进行概念化和评估,最后遵循 StaRI 进行全面报告。实施研究的成功开展需要实施者、政策制定者和研究者等不同利益相关者在研究设计和实施过程中协同合作,积极应对现实环境中复杂的实施挑战。因此,未来应该大力鼓励不同学科背景的学者参与到实施研究,逐渐建立跨学科的学术组织,并增加对实施研究的支持力度。
实施科学作为新兴研究领域逐渐受到重视,其相关研究已广泛在医疗卫生领域开展[1, 2]。世界卫生组织主张开展实施研究以应对如何在真实世界中实施经过验证的干预措施的挑战,同时呼吁将实施研究更多地嵌合到卫生决策中,从而帮助将理论中的可能性转化为现实中的实践[3, 4]。
实施研究是对实施问题的科学探究[5]。根据这一定义,实施研究可解决或探讨关于实施的任何方面,包括影响实施的因素、实施过程本身及实施的结局或最终产品。换而言之,实施研究侧重于以下主题:① 识别常见的实施问题;② 了解促进或阻碍获得卫生干预措施的因素;③ 在特定背景和环境中,开发和测试用于解决实施障碍的方案;④ 确定将创新引入卫生系统或促进其大规模使用和可持续发展的最佳方式。
实施研究用途广泛且研究问题具有一定的复杂性,往往需要借助合适的研究方法和设计来实现不同研究目的,并且通过实施结局指标对实施开展情况对实施效果进行描述和评价。因此,本文将介绍医疗卫生领域中实施研究的研究设计、实施结局指标及相关的报告规范,旨在为更好地开展实施研究提供参考。
1 实施研究的目的与实施问题
实施研究的基本目的不仅是要了解哪些干预措施是有效的或无效的,还要了解影响实施成败的原因和方式及检验改进实施的方法[5]。其往往关注的是一项计划或项目推出或推广时出现的若干实施问题。围绕这些实施问题,可进一步把研究目的划分为探索、描述、充分性分析、合理性分析、概率评估、解释、预测等(表 1)。基于以问题为导向的原则,研究者应先明确实施过程中遇到的障碍并提出实施问题,然后选用与具体实施问题对应的研究方法。

2 医疗卫生研究的研究设计
医疗卫生领域中,实施科学采用了广泛存在于各学科中的定性、定量和混合方法来开展实施研究,这些方法有助于研究者了解实施背景与环境、评估实施策略、识别个人和/或组织实践过程中的变化。与其他研究不同的是,实施研究侧重于提供或实施循证实践的策略,关注其实施效果,旨在系统弥合认知-行为差异,使干预措施的作用最大限度地在真实世界中得以发挥。
定性研究方法侧重于描述和理解实施过程中人类行为和经验看法,并不依赖于对数据的运算处理。定性研究通常包括个别访谈、焦点小组访谈、民族志、田野调查、参与式观察、文献分析、个案调查等方法[6, 7]。其中以访谈法最为常见,实施研究中往往将不同层次的关键利益相关者作为访谈对象,通过实施理论框架形成访谈提纲并进行半结构化访谈。如基于实施研究整合框架(consolidated framework for implementation research,CFIR),结合其干预特征、外部环境、内部环境、个体特征、实施过程领域形成访谈指南,指导数据收集[8]。
定量研究方法侧重于通过结构化的研究设计对实施数据进行量化处理、检验和分析,关注干预措施的外部有效性。定量研究可按照是否采用随机化设计、是否采用干预等进行分类。研究类型包括:观察性设计,如横断面、队列研究;随机对照设计,如经典随机对照试验(randomized controlled trial,RCT)、整群 RCT、阶梯设计(stepped-wedge design,SWD)、效果-实施混合设计(effectiveness-implementation hybrid design,EIHD);准试验设计(quasi-experimental designs,QED),如中断时间序列(interrupted time series,ITS)设计、回归不连续设计、回归点位移设计;干预优化设计,如多阶段优化策略(multiphase optimization strategy,MOST)、多重方案随机序贯试验(sequential multiple assignment randomized trial,SMART)和混合设计[4, 5, 9, 10]。本文将于下一部分着重介绍定量研究中常用的研究设计。
混合方法研究是指在同一研究中收集和分析数据时,根据不同组合结构同时采用或按顺序采用定性和定量方法[11]。混合方法研究的用途超过 60 种,可归纳为 4 个方面[12, 13]:① 关注研究对象:旨在更充分、更全面地获取研究对象的样本信息;② 关注研究工具:旨在测试研究工具的有效性,确保所使用的工具合适且有效;③ 关注实施方案:旨在测量实施方案的保真度,评估干预措施或治疗方案是否按设计进行;④ 关注研究结果:旨在最大限度地解释研究结果,增强研究的意义。
3 常用的实施研究设计
广义而言,定量研究方法中 5 种研究设计 EIHD、MOST、SWD、QED、SMART 均可称为实施研究设计,但他们从本质和内涵上稍有不同。其中,EIHD 主要是从研究目的出发,兼顾临床效果和实施效果的检验。MOST 主要是从研究的流程出发,通过三个阶段的方法开展一项规范的实施研究。而 SWD、QED、SMART 是真正意义上的实施研究设计。
3.1 SWD
SWD 是一种特殊的群组 RCT 设计,各群组在不同的时间点实施干预,最终所有组都将接受干预,不需设置专门的对照组,既做到平行随机对照,又避免了伦理学问题[14]。因此,SWD 适用于评价“利大于弊”的干预措施,尤其适用于当资源受限时需要分阶段实施干预措施的情况。
SWD 的基本原理是根据研究目的将研究对象分为若干个小组,并对其进行随机编号,然后按照时间先后顺序将干预过程划分为不同的阶段。研究开始后,按照事先确定的随机编号顺序给予对应小组实施干预,已纳入的小组将在研究过程中持续接受干预,而未纳入的小组则保持空白等待状态,直到按顺序接受干预,如此反复直至所有小组均接受干预(图 1)。SWD 的结果分析有同期比较和前后比较两种比较方式,可使用 COX 回归模型、Logistic 回归模型及 Poisson 回归模型等进行分析。

另外,根据研究对象类型不同,SWD 可进一步分为固定队列 SWD、开放队列 SWD 和连续入组短期暴露 SWD[15]。
3.2 EIHD
EIHD 是一种既注重评估临床效果又注重实施的试验设计,可同时评估干预措施的效果和实施策略。其特点是从临床试验开始,首先确定在可控制条件下实施的干预是否有效,然后再继续进行如整群 RCT 等设计,从而确定在真实世界环境中引入干预的最佳方式。基于研究目标中的效果或实施部分的优先地位,EIHD 设计可划分为 3 种基本类型[4, 16]:① Ⅰ 型混合试验设计:主要测试干预措施对健康结局的影响,同时观察和收集关于实施情况的信息。在此类研究中,测量了研究对象接受干预措施后的功能或症状变化,同时通过定性、过程导向或混合方法评价实施方法的可行性和接受度。② Ⅱ 型混合试验设计:涉及对干预措施和实施策略的双重测试。③ Ⅲ 型混合试验设计:主要测试实施策略,同时观察和收集关于干预措施对健康结局的影响信息,该设计主要使用干预措施的采用率和保真度来测试实施策略。
EIHD 设计不仅加快了原本可能非常耗时的临床试验过程,使得研究人员能够识别重要的干预-实施交互作用,并可利用这些信息为最佳实施方法决策提供参考。研究者在试验设计过程中可基于 PRECIS-2(pragmatic–explanatory continuum indicator summary)工具综合考虑试验的解释性和实用性程度,避免试验设计与预期目的不符[17, 18]。PRECIS-2 的轮状模型包含 9 个维度:分别为纳入标准、招募、场景、组织、灵活性、依从性、随访、主要结局、主要分析[18, 19]。研究者需要在 PRECIS-2 轮状模型图上对各维度进行评分,评分范围为 1 分(解释性非常强)到 5 分(实用性非常强)。研究团队可根据评分结果更仔细地考虑试验的预期目标,展开内部讨论并促进达成共识,从而确保有关试验设计的决策与试验的既定目的相一致。研究者可登陆 PRECIS-2 官网(www.precis-2.org)进一步查阅相关的培训资源、工具指南和试验数据库等资料。
3.3 QED
因研究条件限制而不能采用随机分组或设立平行对照的研究被称为“准试验”设计[10]。研究人员在评估真实环境中的干预措施实施时面临研究设计上的挑战,需要在保持内部有效性的同时兼顾外部有效性因素(如各亚组的摄入量、可接受性、可持续性和成本)。因而越来越多研究选择采用 QED,该类设计包括 ITS 设计、回归不连续设计、回归点位移设计等[20-23]。这 3 种 QED 在研究目的、设计和分析上较为相似,现以 ITS 为代表进行介绍。
ITS 是一种用于探索干预措施的效应是否显著大于潜在时间趋势,评价干预措施效果的准实验设计[24]。如图 2 所示,该设计在干预前后均等间隔的时间点(多个时间点)收集常规监测数据,将干预前的数据则作为对照组,估计干预前时间序列的潜在趋势后,根据潜在趋势线和干预后的时间序列趋势评估干预措施效果[25]。其特点是能充分利用纵向数据的信息,考虑干预前指标的发展趋势,并且一般不受恒定混杂因素的影响。

ITS 步骤如下[25]:① 判断是否合适采用 ITS。干预是否可清楚分为前、后阶段;结局指标最好是能在干预后迅速反应或有明确滞后反应的短期结局指标;干预实施前后的观察时点较多。② 构建影响模型。基于以往证据进行假设,评估干预可能对结局产生的水平上或斜率上的影响,构建相应的模型。③ 进行描述性分析。可采用散点图和传统方法识别潜在趋势、季节性和离群值。④ 进行回归分析。常采用时间序列模型进行分析,如 ARIMA 模型、分段回归时间序列模型。⑤ 不同统计方法细节的考虑。考虑自相关、随时间变化的混杂因素、采用对照、基于亚组的分层分析、构建非线性模型等。⑥ 模型检查及敏感性分析。
3.4 MOST
MOST[26-28] 是一种通过使用三个阶段的方法来构建、优化和评估多因素干预措施的策略,它可识别干预措施的有效要素,及识别获得最优结果时每个要素的水平(剂量)。MOST 由筛选阶段、优化阶段、验证阶段 3 部分组成。
筛选阶段:筛选阶段的目的在于根据某一干预要素的作用决定其是否被纳入综合干预方案,高效地选择可能会有效的干预要素,形成干预方案草案。这需以理论为基础,识别由程序要素和传递要素组成的一系列干预要素。可通过析因设计来解释各个要素的作用,根据结果解决以下问题:① 哪些程序要素有效且可促成正向结果,需要被纳入;② 哪些程序要素无效或起反作用,需要被排除;③ 哪些传递要素有效、对干预结果有影响或对于维持干预精确度起作用。
优化阶段:优化阶段的目的是将筛选阶段中形成的干预方案草案进行调整,将每一个干预要素优化到最佳水平并形成最终干预方案。研究方法可采用析因设计或 SMART。优化阶段关注以下问题:① 哪些干预要素具有最优水平;② 干预要素的最优水平是否受个体或群体的特征影响。
验证阶段:最终优化干预方案草案是验证阶段的起点,这一阶段将进行标准的 RCT 来验证由最佳干预要素组成的干预方案的作用和效果。验证阶段需解决以下问题:① 干预方案是否有效;② 干预方案能否推广应用到更大样本人群。
3.5 SMART
SMART[27, 29] 是一种专为建立随时间变化的适应性干预措施而开发的多阶段随机试验设计。在每一个阶段,所有参与者都被随机分配到一个干预方案中。通过多次随机分配参与者,研究者可将多种干预措施嵌入到研究中并评估其在不同阶段的效果,从而制定最佳的决策规则与方案。
以一项孕期药物滥用患者的研究为例[30],该研究关注如何通过调整基于强化理论的治疗(reinforcement based treatment,RBT)强度及适用范围来提高孕期药物滥用者的疗效。该研究设计了 4 种不同干预强度的 RBT,包括简化 RBT、减量 RBT、常规 RBT、增强 RBT。如图 3 所示,在研究的第一阶段,所有患者随机接受两种中等强度干预措施的一种,即减量 RBT 或常规 RBT。两周后,将第一阶段治疗无效的患者再次随机分为两组,继续原方案组或加大干预强度组;对第一阶段治疗有效的患者则随机分为原方案组或降低干预强度组。最终,将两阶段共 8 种干预方案嵌入到该研究中。其研究结果可帮助研究者确定在首次治疗时应该为患者提供何种干预及在不同阶段产生不同效果时应该提供何种干预。关于数据分析方法和样本量计算等详见相关文献[29, 31]。

4 实施研究的结局指标
如何对实施效果进行概念化和评估,是实施科学领域的关键问题。为了促进对实施过程的理解和提高实施研究的效率,Proctor 等[32, 33]系统提出实施结局的概念和内涵,并将实施结局与临床结局和服务结局区分开来。实施结局是指为实施新的治疗方法、实践和服务而采取的针对性措施的效果。实施结局可作为实施成功的评价指标,近端反映实施过程,并且是与临床结局或服务结局在治疗效果和医疗质量研究方面相关的关键中间结局指标。
根据分类学方法,实施结局被归纳为 8 大指标,包括接受度、采用率、适当性、可行性、保真度、实施成本、覆盖范围和可持续性[4, 5, 33]。各指标的实用性定义、相关术语和应用见表 2[34-43]。每个实施结局指标代表评价实施效果的一个重要方面,可作为某个实施项目实际开展情况的指标。但并非所有实施结局指标在实施研究中都同等重要。例如,在实施一项新的干预措施时,研究者主要关注的可能是接受度、采用率、适当性和可行性问题。当中,“接受度”与“适当性”可能会在一些文献中被混淆使用,但实际上两者概念有所不同。例如,某种治疗措施可能被认为是适当的,但因为费用、设备和技术条件限制等各种原因不被患者或医疗机构所接受。而在实施现有干预措施时,干预措施的实施程度是否符合于最初设计则更为重要(通过保真度进行衡量)。另外,除干预措施本身的成本外,实施成本还取决于所使用的实施策略的复杂性及实施策略的覆盖范围和应用场景。“覆盖范围”与“可持续性”在概念上和经验上更为相关,因为更广的覆盖范围可能有助于实施的可持续性。可持续性问题应该从干预的最初阶段就加以考虑,但其在卫生干预研究中往往容易被忽视。

5 实施研究的报告规范(standards for reporting implementation studies,StaRI)
StaRI 是一个基于在线德尔菲法和专家共识开发而成的报告框架,涵盖题目、摘要、背景、目的、方法(描述和评价)、结果、讨论、通用信息等 8 个部分共 27 个报告条目,并从实施策略和干预措施两个方面进行详细报告[44]。该报告规范强调了报告实施研究中所采用的方法和理论依据,将有助于提高实施研究的方法学质量[45]。因此,研究者在开展实施研究和撰写实施研究学术论文时,应参考 StaRI 及其清单,进一步规范和提高实施研究报告的透明度、准确性。
6 展望
实施科学作为应对当今社会复杂问题而诞生的新兴学科之一,涉及多个学科领域方法和理论。医疗卫生领域中的研究者对其关注度日益增长,得益于实施研究可使干预措施的作用最大限度地在真实世界中发挥。在开展实施研究时应注意以问题为导向,选择与研究问题相匹配的实施研究方法和设计,并采用合适的实施结局指标对实施情况进行概念化和评估,最后遵循 StaRI 进行全面报告。实施研究的成功开展需要实施者、政策制定者和研究者等不同利益相关者在研究设计和实施过程中协同合作,积极应对现实环境中复杂的实施挑战。因此,未来应该大力鼓励不同学科背景的学者参与到实施研究,逐渐建立跨学科的学术组织,并增加对实施研究的支持力度。