德尔菲法作为一种建立群体共识的方法学工具,已被广泛应用于医学研究领域以解决复杂且无法直接定量分析的问题。基于对德尔菲法的实施质量和报告透明度需求,姑息治疗领域学者制订了德尔菲研究实施与报告标准(standards for conducting and reporting Delphi studies,CREDES)。本文对CREDES进行解读,以期为德尔菲研究方法学设计质量和报告透明度评价提供参考。
引用本文: 景城阳, 刘瑞雪, 褚红玲, 孙伟伟, 廖星. 医学研究领域德尔菲法实施和报告标准(CREDES)解读. 中国循证医学杂志, 2023, 23(2): 233-239. doi: 10.7507/1672-2531.202210047 复制
德尔菲法是一种被广泛应用于建立群体共识的方法学工具[1],最初在20世纪50年代由美国兰德公司所开发并运用于预测科技对战争的影响,随后又被陆续应用于教育、市场营销、信息工程、医疗保健等领域[2]。当现有知识不全或缺乏证据来源时,德尔菲法可通过提供群体意见并带有个人反馈的多轮问卷调查达成共识,以此在一定程度上弥补特定领域内的知识空白[1,3]。相较于名义群体法、共识研讨会等传统共识建立方法,德尔菲法具有无需面对面交流、不受地理位置限制的优点[4]。除此之外,其还具备以下方法学特征:① 过程匿名以避免从众效应;② 至少经历2轮函询;③ 下一轮的函询内容基于上一轮的反馈总结(包括统计分析)而进行设计;④ 共识主题既可以是开放式的探索,也可以是标准化的验证[4]。
在长期的应用实践中,德尔菲法不断地得到发展、完善及不同程度的改良,已日益成为解决医学研究领域中复杂且无法直接定量分析问题的重要手段[5]。涵盖的研究领域包括指南制订[6]、研究指标构建[7]、卫生研究优先领域遴选[8]、方法学评价[9]等。然而,不同的德尔菲研究在设计和实施的严谨性上存在诸多问题,例如缺乏明确的共识标准、报告标准不清晰、德尔菲过程的核心要素缺乏明确性和一致性等[5,10]。这使得德尔菲法被批评为一种不可靠的研究方法,因其在数据收集、分析和结果解释时容易受到偏倚和随意性的影响[11]。基于以上背景,Jünger等[12]系统分析了德尔菲法在姑息治疗领域最佳临床实践指南制订方面的应用,并通过方法学评价进一步提出了德尔菲研究实施与报告标准(standard for conducting and reporting Delphi studies,CREDES)。由于目前医学领域中尚无公认的德尔菲研究报告标准,CREDES标准亦被推荐应用于姑息治疗研究领域以外的德尔菲研究[12]。
1 CREDES标准介绍
1.1 CREDES标准的研究背景
随着全球范围内对姑息治疗的关注与研究日益深入,该领域的发展水平及临床应用的专业化程度逐步提高,对于姑息治疗服务供给的质量和数量需求亦不断扩大。因此,相关卫生保健专业人员需要从姑息治疗临床实践指南中获取最新研究证据,以指导临床决策[13]。临床指南推荐意见通常将来自系统评价、随机对照试验或高质量观察性研究的证据视作较高等级的证据,而专家共识则被归入最低等级的一类证据之中[14-15]。然而在姑息治疗领域中,出于伦理、经济或现实因素的考虑,开展临床试验或大规模的观察性研究并不现实,这也是此类证据相当稀少的原因[16-17]。因此,姑息治疗领域的许多临床指南以专家意见和经验为基础,并往往采用德尔菲法来达成共识[3]。为评价此类共识或指南的可靠性,由Jünger等[12]组成的国际研究团队系统检索和分析了德尔菲法在制订姑息治疗领域最佳实践指南方面的应用。在进一步以混合方法评价了所有与德尔菲研究有关的方法学要素后,研究团队从“选择德尔菲法的依据”、“具体实施流程”及“报告的质量和透明度”三个方面提出了CREDES标准。
1.2 CREDES标准的具体内容
共纳入了30项已公开发表的德尔菲研究,评价结果显示,采用德尔菲法开展相关指南制订的各项研究在设计、流程及结局指标报告等方面存在巨大差异。基于研究发现并结合既往文献,研究团队最终提出CREDES标准包含4个部分,共计16项条目及对应说明。具体内容见表1。

1.3 CREDES标准解读及应用实例
1.3.1 德尔菲法的选择依据
德尔菲法的本质及精髓在于充分利用专家的知识、专长来尽可能获取合理、有效的解决方案。采用德尔菲法来达成共识的过程中尤其强调专家判断的价值,其中包含无法通过临床试验直接获得的大量隐性知识。因此,当选择德尔菲法作为系统整理专家意见和建立共识的方法时,需要明确方法的构建本质:① 共识的建立依赖于专家个人经验,通过咨询、调查、协商而得的最终结果是基于大量个人经验的集合;② 确保专家的个人经验同现有证据一般可靠[18]。只有确定满足以上两项依据时,德尔菲法才是回答一个特定研究问题的合适选择。
1.3.2 规划与设计
德尔菲法的灵活性使得其能够满足不同研究的各项要求,但即使是进行不同程度的改良也应系统而严谨,并尽可能地以合理的理由和参考依据来避免主观随意性[19]。在正式开展研究前,需要仔细规划德尔菲法实施过程及可能需要修改的步骤或流程,同时对整个协商过程中需要使用的所有相关材料进行审查和试点运行以确保其可用性。除此之外,还需预先定义符合研究目的并适用于研究问题的共识标准。共识标准应为如何在下一轮调查中处理(上一轮)某些项目或主题提供明确透明的行动指导,如,从列表中删除这些项目或主题,或对其进行改进以获取更为一致的共识[11]。
然而,并非所有的德尔菲研究都能达成最终共识,而且建立完美的共识也不现实;因此在共识标准中,还需要包括当多轮函询后仍未达成共识时需要遵循的流程。即使是探索性质的研究无法预先定义共识标准,研究团队也应在实际研究过程中逐步摸索并确定达成共识或结束此德尔菲流程的具体标准。
1.3.3 研究实施
需要注意材料信息(及其可能产生的偏倚),例如现有证据综合,对专家小组成员判断的影响。由于德尔菲法的具体实施过程包含了多轮函询,因此在研究正式开展前进行小范围内的材料信息与调查工具试行是必不可少的。除了检验初始轮提供的材料对试点人员判断的影响,提供给下一轮次的反馈意见综合亦是试点过程中重要的参考材料,不仅可以作为先验数据以优化实施轮次,还可以采取针对性改进措施以最大程度减少所提供的信息对专家个体判断的影响。
CREDES标准中建议委托一名独立的研究人员负责德尔菲法流程中的总体协调工作[12],以避免利益冲突等因素直接或间接影响专家的判断,同时确保不同个体在保持各自不同立场的情况下促进达成共识。然而值得注意的是,最终共识的达成并不意味着找到了“正确”的答案或判断;而未形成共识的结局则需要进一步的批判性反思,因固有分歧的价值在于提供了多样性见解并且突出了在复杂问题上的不同观点。因此,由外部委员会或权威机构对最终共识进行审查有助于进一步明确其出版和传播价值。
1.3.4 报告
德尔菲研究中的所有方法学决策都应当透明地报告以完整呈现各个实施步骤、共识的建立情况、最终取得的研究成果[11,19]。具体报告内容见表2条目8~16。对研究结果的报告除了以临床指南、白皮书等官方文件形式来展示、传播外,还应当考虑发表额外的方法学论文,例如研究方案,来对研究过程的细节进行补充报告。此外,对德尔菲研究的报告必须明确相应的命名与术语,例如“轮次”、“改良德尔菲法”等专有名词的准确使用,这将为明确德尔菲研究的方法学特征奠定基础。以下以一项旨在为荷兰急诊设立最低标准的德尔菲研究为例[20],展示如何运用CREDES标准对研究细节进行具体报告。

条目8:快速变化的急诊医疗环境、人口老龄化以及医疗人员的短缺对急诊医疗质量提出了挑战。在现有可用信息有限的情况下…需要设计和实施严谨的德尔菲研究为决策制定者提供更为全面信息。
条目9:对专家小组成员的遴选标准如下:① 成员组成为15~25名来自荷兰11个地区的急诊医师;② 成员所属单位同时包含教学医院和基层医院,且两者比例适当;③ 成员具有丰富的急诊医疗实践经验。通过一位荷兰急诊协会的前任主席向20家医院的急诊医师发起招募…要求必须获得参与成员的书面知情同意…专家小组由20名急诊医师组成,具体的医院背景和急诊履历信息见…在每一轮次中,我们最多发送2封附有调查链接的电子邮箱,进行4次人工提醒和2次电话提醒…最终所有成员在各轮次的应答率均为100%…整个研究过程中没有以金钱或礼物作为物质奖励手段以鼓励成员应答。
条目10(部分):以半结构化问卷调查的方式邀请专家组成员各自填写急诊需要具备的设施和诊疗项目…基于填写信息和我们所搜集的医学专业列表,生成相应条目…不设置固定轮次,而以是否满足达成共识的条件来决定相关条目的纳入与否…在每一轮的起始,我们将向所有专家组成员提前阐明该轮次的目的及相关决策准则…并提供当前已达成共识的内容及所有备注信息…通过在线调查工具SurveyMonkey汇总并统计分析每一轮的结果…预先在不同的邮件服务器和操作系统上对调查工具进行了测试…
条目11:各轮次的实施流程及具体情况见…
条目12:当超过70%的专家组成员赞成当前条目时,可认为达成初步共识。在此基础上,成员仍可以就个别或部分条目提出异议或提出新的条目(持有不同意见者人数需≥2人),并给出具体依据。随后全体成员需要对有异议条目或新条目进行新一轮(或多轮)的德尔菲轮次以达成最终共识(仍以70%作为达成共识基准)…非共识条目的定义标准为四轮过后仍未达成初步共识、且无成员提出异议。
条目13(部分):从最初的55项条目开始,经历4个德尔菲轮次后,最终对63项条目达成了最终共识(具体情况见…)。从第二轮开始,我们还进一步将条目归类至3大领域(设施、诊疗项目、医疗人员可用性)及对应的29个医学专业,4轮过后最终保留了27个医学专业…第一轮中,每项条目的平均一致率为85%(大小从55%至100%不等);达成初步共识条目的平均同意率为89%,未达成共识条目的平均同意率为63%,在后续轮次中才达成初步共识的条目平均同意率反而更高,为98%…第二轮中,设施领域的条目平均一致率为79%(大小从50%至100%不等),诊疗项目领域的条目平均一致率为77%(大小从50%至100%不等),达成初步共识条目的平均同意率为87%,未达成共识条目的平均同意率为59%…
条目14:一大不足之处在于更多的轮次花费了大量时间去达成最终共识…另一个缺陷在于赋予成员提出个人意见的权利(在达成初步共识后仍可提出反对意见)导致研究过程中难以保持焦点稳定。
条目15(部分):对于同意被纳入最低标准的条目而言,其中的97%在第一轮中就达成了初步共识,而未被纳入标准的条目仅为18%…对于必要性共识的达成往往只需要1轮,而对于非必要性共识的达成通常需要2.45轮…表明后续轮次的主要作用在于筛选并排除非必要条目…鉴于所有轮次的应答率为100%,因此额外轮次并不会影响结论的稳健性。
条目16:依据CREDES,德尔菲研究的结果应当经过外部审查和验证…由于急诊医学属于多学科交叉领域,需要在多个利益相关方间寻求支持,因此本项共识研究中仅通过急诊医师产生的共识并不能直接应用于实践,而仅作为进一步讨论急诊最低标准的起点和基础。
2 CREDES标准应用现状
2.1 资料与方法
计算机检索PubMed、Web of Science、WanFang Data、CNKI数据库,搜集采用CREDES标准开展德尔菲研究的相关文献,检索时限均从建库至2022年9月27日。英文检索词包括:Delphi、standard for conducting and reporting Delphi studies、CREDES;中文检索词包括:德尔菲、实施、报告、标准。纳入以中、英文发表的在医学研究领域应用CREDES标准开展的德尔菲实证研究,发表时间为2017年2月17日至2022年9月27日。
2.2 结果
最终纳入相关文献17篇[20-36]。当前CREDES标准的应用现状详见表2。
3 讨论
通过方法学层面的系统研究,CREDES标准从德尔菲法的选择依据、实施及报告三个方面,首次为医学研究领域的德尔菲研究应当具备的严谨性和透明度确定了最低要求。结合近几年的应用数量及对应的研究主题来看,CREDES标准的应用趋势正处于不断上升阶段,且涵盖了临床、护理、药物、公共卫生等多个研究领域。对研究目的进行分析发现,CREDES标准最常用于评价/评估指标体系构建的共识研究(8/17,47.06%),尤其集中于护理及临床筛查/诊断研究;其次则是项目/条目清单或调查问卷的制订工作(5/17,29.41%);再次是探讨特定的影响因素(2/17,11.76%);其余的应用还包括概念性研究(1/17,5.88%)及探索性研究(1/17,5.88%)。而对实际应用情况的初步检查表明,大部分共识研究遵循了CREDES标准或改良后的CREDES标准并提供了相应报告附件(14/17,82.35%);仅有个别研究未提供报告附件(3/17,17.65%)。此外,荷兰的研究团队基于CREDES标准,设计了专门用于开展德尔菲研究的在线电子调查工具以提高各轮次的应答率,并通过预先制订的决策准则进一步促进共识过程中的一致性[20]。这显然是CREDES标准未来优化过程中的良好借鉴措施。以上现状充分体现了来自不同临床学科的研究者对于加强德尔菲研究报告严谨性及透明度的迫切需求,同时也证明了该标准广泛的适用性。
达成共识作为临床实践指南制订中的重要一环,既往研究推荐将德尔菲法作为临床实践指南制订过程中的最佳正式共识方法[6,37-38]。2020年发表的一项系统评价[39]结果表明,2013至2019年间通过德尔菲法制订的指南在所有指南中的占比高达20%~60%。然而,本研究并未发现CREDES标准在指南制订方面的具体应用。这表明CREDES标准尚未引起临床实践指南制订人员的重视。虽然现有指南制订方法在不断完善之中,但针对制订过程中达成共识的方法学却鲜有重要的指导细则发布。因此,建议通过实施德尔菲法来达成共识的临床实践指南也应当尽可能采用CREDES标准以进一步提高最终共识意见的严谨性和透明度。
尽管CREDES标准的制订得到了多专业国际研究团队的支持,但仍然存在一定的局限性。首先,当研究主题扩大到多学科交叉领域时,需要明确考虑到异质性/同质性对专家小组样本量的影响。许多医学领域内的德尔菲研究通常纳入10~15名或8~12名专家来确保小组的同质性[40-42],亦或是通过随机抽样的方式招募更多数量的专家来确保异质性[43]。但即使是CREDES标准也未对最佳研究效果所需的专家小组异质性/同质性大小及样本量有所定论。而应用CREDES标准的17项共识研究中也鲜有对此进行详细说明和讨论,通常对组内异质性/同质性笼统地一笔带过,或仅选择性报告专家小组的整体医学背景及具体人数。其次,CREDES标准并没有额外强调实施轮次的确定依据及每一轮次的持续时间。通常轮次数量/持续时间的增加将直接导致应答率的降低,但越少的轮次则意味着将牺牲掉一部分结果的稳定性。仅仅要求报告实施的轮次无法全面展现德尔菲研究对于应答率及稳定性的取舍,而如何取得两者间的平衡却是应用德尔菲法的精髓所在。
作为第一个在医学研究领域中提出的德尔菲法实施和报告标准,CREDES标准无疑对共识研究的科学性和可靠性具有巨大的促进作用。本文就CREDES标准的具体内容及应用现状进行介绍和解读,以期促进该标准的推广应用。未来相关研究的应用反馈将进一步推动CREDES标准的更新、完善,使其更好地服务于医学研究领域。
利益冲突声明 所有作者均声明不存在利益冲突。
德尔菲法是一种被广泛应用于建立群体共识的方法学工具[1],最初在20世纪50年代由美国兰德公司所开发并运用于预测科技对战争的影响,随后又被陆续应用于教育、市场营销、信息工程、医疗保健等领域[2]。当现有知识不全或缺乏证据来源时,德尔菲法可通过提供群体意见并带有个人反馈的多轮问卷调查达成共识,以此在一定程度上弥补特定领域内的知识空白[1,3]。相较于名义群体法、共识研讨会等传统共识建立方法,德尔菲法具有无需面对面交流、不受地理位置限制的优点[4]。除此之外,其还具备以下方法学特征:① 过程匿名以避免从众效应;② 至少经历2轮函询;③ 下一轮的函询内容基于上一轮的反馈总结(包括统计分析)而进行设计;④ 共识主题既可以是开放式的探索,也可以是标准化的验证[4]。
在长期的应用实践中,德尔菲法不断地得到发展、完善及不同程度的改良,已日益成为解决医学研究领域中复杂且无法直接定量分析问题的重要手段[5]。涵盖的研究领域包括指南制订[6]、研究指标构建[7]、卫生研究优先领域遴选[8]、方法学评价[9]等。然而,不同的德尔菲研究在设计和实施的严谨性上存在诸多问题,例如缺乏明确的共识标准、报告标准不清晰、德尔菲过程的核心要素缺乏明确性和一致性等[5,10]。这使得德尔菲法被批评为一种不可靠的研究方法,因其在数据收集、分析和结果解释时容易受到偏倚和随意性的影响[11]。基于以上背景,Jünger等[12]系统分析了德尔菲法在姑息治疗领域最佳临床实践指南制订方面的应用,并通过方法学评价进一步提出了德尔菲研究实施与报告标准(standard for conducting and reporting Delphi studies,CREDES)。由于目前医学领域中尚无公认的德尔菲研究报告标准,CREDES标准亦被推荐应用于姑息治疗研究领域以外的德尔菲研究[12]。
1 CREDES标准介绍
1.1 CREDES标准的研究背景
随着全球范围内对姑息治疗的关注与研究日益深入,该领域的发展水平及临床应用的专业化程度逐步提高,对于姑息治疗服务供给的质量和数量需求亦不断扩大。因此,相关卫生保健专业人员需要从姑息治疗临床实践指南中获取最新研究证据,以指导临床决策[13]。临床指南推荐意见通常将来自系统评价、随机对照试验或高质量观察性研究的证据视作较高等级的证据,而专家共识则被归入最低等级的一类证据之中[14-15]。然而在姑息治疗领域中,出于伦理、经济或现实因素的考虑,开展临床试验或大规模的观察性研究并不现实,这也是此类证据相当稀少的原因[16-17]。因此,姑息治疗领域的许多临床指南以专家意见和经验为基础,并往往采用德尔菲法来达成共识[3]。为评价此类共识或指南的可靠性,由Jünger等[12]组成的国际研究团队系统检索和分析了德尔菲法在制订姑息治疗领域最佳实践指南方面的应用。在进一步以混合方法评价了所有与德尔菲研究有关的方法学要素后,研究团队从“选择德尔菲法的依据”、“具体实施流程”及“报告的质量和透明度”三个方面提出了CREDES标准。
1.2 CREDES标准的具体内容
共纳入了30项已公开发表的德尔菲研究,评价结果显示,采用德尔菲法开展相关指南制订的各项研究在设计、流程及结局指标报告等方面存在巨大差异。基于研究发现并结合既往文献,研究团队最终提出CREDES标准包含4个部分,共计16项条目及对应说明。具体内容见表1。

1.3 CREDES标准解读及应用实例
1.3.1 德尔菲法的选择依据
德尔菲法的本质及精髓在于充分利用专家的知识、专长来尽可能获取合理、有效的解决方案。采用德尔菲法来达成共识的过程中尤其强调专家判断的价值,其中包含无法通过临床试验直接获得的大量隐性知识。因此,当选择德尔菲法作为系统整理专家意见和建立共识的方法时,需要明确方法的构建本质:① 共识的建立依赖于专家个人经验,通过咨询、调查、协商而得的最终结果是基于大量个人经验的集合;② 确保专家的个人经验同现有证据一般可靠[18]。只有确定满足以上两项依据时,德尔菲法才是回答一个特定研究问题的合适选择。
1.3.2 规划与设计
德尔菲法的灵活性使得其能够满足不同研究的各项要求,但即使是进行不同程度的改良也应系统而严谨,并尽可能地以合理的理由和参考依据来避免主观随意性[19]。在正式开展研究前,需要仔细规划德尔菲法实施过程及可能需要修改的步骤或流程,同时对整个协商过程中需要使用的所有相关材料进行审查和试点运行以确保其可用性。除此之外,还需预先定义符合研究目的并适用于研究问题的共识标准。共识标准应为如何在下一轮调查中处理(上一轮)某些项目或主题提供明确透明的行动指导,如,从列表中删除这些项目或主题,或对其进行改进以获取更为一致的共识[11]。
然而,并非所有的德尔菲研究都能达成最终共识,而且建立完美的共识也不现实;因此在共识标准中,还需要包括当多轮函询后仍未达成共识时需要遵循的流程。即使是探索性质的研究无法预先定义共识标准,研究团队也应在实际研究过程中逐步摸索并确定达成共识或结束此德尔菲流程的具体标准。
1.3.3 研究实施
需要注意材料信息(及其可能产生的偏倚),例如现有证据综合,对专家小组成员判断的影响。由于德尔菲法的具体实施过程包含了多轮函询,因此在研究正式开展前进行小范围内的材料信息与调查工具试行是必不可少的。除了检验初始轮提供的材料对试点人员判断的影响,提供给下一轮次的反馈意见综合亦是试点过程中重要的参考材料,不仅可以作为先验数据以优化实施轮次,还可以采取针对性改进措施以最大程度减少所提供的信息对专家个体判断的影响。
CREDES标准中建议委托一名独立的研究人员负责德尔菲法流程中的总体协调工作[12],以避免利益冲突等因素直接或间接影响专家的判断,同时确保不同个体在保持各自不同立场的情况下促进达成共识。然而值得注意的是,最终共识的达成并不意味着找到了“正确”的答案或判断;而未形成共识的结局则需要进一步的批判性反思,因固有分歧的价值在于提供了多样性见解并且突出了在复杂问题上的不同观点。因此,由外部委员会或权威机构对最终共识进行审查有助于进一步明确其出版和传播价值。
1.3.4 报告
德尔菲研究中的所有方法学决策都应当透明地报告以完整呈现各个实施步骤、共识的建立情况、最终取得的研究成果[11,19]。具体报告内容见表2条目8~16。对研究结果的报告除了以临床指南、白皮书等官方文件形式来展示、传播外,还应当考虑发表额外的方法学论文,例如研究方案,来对研究过程的细节进行补充报告。此外,对德尔菲研究的报告必须明确相应的命名与术语,例如“轮次”、“改良德尔菲法”等专有名词的准确使用,这将为明确德尔菲研究的方法学特征奠定基础。以下以一项旨在为荷兰急诊设立最低标准的德尔菲研究为例[20],展示如何运用CREDES标准对研究细节进行具体报告。

条目8:快速变化的急诊医疗环境、人口老龄化以及医疗人员的短缺对急诊医疗质量提出了挑战。在现有可用信息有限的情况下…需要设计和实施严谨的德尔菲研究为决策制定者提供更为全面信息。
条目9:对专家小组成员的遴选标准如下:① 成员组成为15~25名来自荷兰11个地区的急诊医师;② 成员所属单位同时包含教学医院和基层医院,且两者比例适当;③ 成员具有丰富的急诊医疗实践经验。通过一位荷兰急诊协会的前任主席向20家医院的急诊医师发起招募…要求必须获得参与成员的书面知情同意…专家小组由20名急诊医师组成,具体的医院背景和急诊履历信息见…在每一轮次中,我们最多发送2封附有调查链接的电子邮箱,进行4次人工提醒和2次电话提醒…最终所有成员在各轮次的应答率均为100%…整个研究过程中没有以金钱或礼物作为物质奖励手段以鼓励成员应答。
条目10(部分):以半结构化问卷调查的方式邀请专家组成员各自填写急诊需要具备的设施和诊疗项目…基于填写信息和我们所搜集的医学专业列表,生成相应条目…不设置固定轮次,而以是否满足达成共识的条件来决定相关条目的纳入与否…在每一轮的起始,我们将向所有专家组成员提前阐明该轮次的目的及相关决策准则…并提供当前已达成共识的内容及所有备注信息…通过在线调查工具SurveyMonkey汇总并统计分析每一轮的结果…预先在不同的邮件服务器和操作系统上对调查工具进行了测试…
条目11:各轮次的实施流程及具体情况见…
条目12:当超过70%的专家组成员赞成当前条目时,可认为达成初步共识。在此基础上,成员仍可以就个别或部分条目提出异议或提出新的条目(持有不同意见者人数需≥2人),并给出具体依据。随后全体成员需要对有异议条目或新条目进行新一轮(或多轮)的德尔菲轮次以达成最终共识(仍以70%作为达成共识基准)…非共识条目的定义标准为四轮过后仍未达成初步共识、且无成员提出异议。
条目13(部分):从最初的55项条目开始,经历4个德尔菲轮次后,最终对63项条目达成了最终共识(具体情况见…)。从第二轮开始,我们还进一步将条目归类至3大领域(设施、诊疗项目、医疗人员可用性)及对应的29个医学专业,4轮过后最终保留了27个医学专业…第一轮中,每项条目的平均一致率为85%(大小从55%至100%不等);达成初步共识条目的平均同意率为89%,未达成共识条目的平均同意率为63%,在后续轮次中才达成初步共识的条目平均同意率反而更高,为98%…第二轮中,设施领域的条目平均一致率为79%(大小从50%至100%不等),诊疗项目领域的条目平均一致率为77%(大小从50%至100%不等),达成初步共识条目的平均同意率为87%,未达成共识条目的平均同意率为59%…
条目14:一大不足之处在于更多的轮次花费了大量时间去达成最终共识…另一个缺陷在于赋予成员提出个人意见的权利(在达成初步共识后仍可提出反对意见)导致研究过程中难以保持焦点稳定。
条目15(部分):对于同意被纳入最低标准的条目而言,其中的97%在第一轮中就达成了初步共识,而未被纳入标准的条目仅为18%…对于必要性共识的达成往往只需要1轮,而对于非必要性共识的达成通常需要2.45轮…表明后续轮次的主要作用在于筛选并排除非必要条目…鉴于所有轮次的应答率为100%,因此额外轮次并不会影响结论的稳健性。
条目16:依据CREDES,德尔菲研究的结果应当经过外部审查和验证…由于急诊医学属于多学科交叉领域,需要在多个利益相关方间寻求支持,因此本项共识研究中仅通过急诊医师产生的共识并不能直接应用于实践,而仅作为进一步讨论急诊最低标准的起点和基础。
2 CREDES标准应用现状
2.1 资料与方法
计算机检索PubMed、Web of Science、WanFang Data、CNKI数据库,搜集采用CREDES标准开展德尔菲研究的相关文献,检索时限均从建库至2022年9月27日。英文检索词包括:Delphi、standard for conducting and reporting Delphi studies、CREDES;中文检索词包括:德尔菲、实施、报告、标准。纳入以中、英文发表的在医学研究领域应用CREDES标准开展的德尔菲实证研究,发表时间为2017年2月17日至2022年9月27日。
2.2 结果
最终纳入相关文献17篇[20-36]。当前CREDES标准的应用现状详见表2。
3 讨论
通过方法学层面的系统研究,CREDES标准从德尔菲法的选择依据、实施及报告三个方面,首次为医学研究领域的德尔菲研究应当具备的严谨性和透明度确定了最低要求。结合近几年的应用数量及对应的研究主题来看,CREDES标准的应用趋势正处于不断上升阶段,且涵盖了临床、护理、药物、公共卫生等多个研究领域。对研究目的进行分析发现,CREDES标准最常用于评价/评估指标体系构建的共识研究(8/17,47.06%),尤其集中于护理及临床筛查/诊断研究;其次则是项目/条目清单或调查问卷的制订工作(5/17,29.41%);再次是探讨特定的影响因素(2/17,11.76%);其余的应用还包括概念性研究(1/17,5.88%)及探索性研究(1/17,5.88%)。而对实际应用情况的初步检查表明,大部分共识研究遵循了CREDES标准或改良后的CREDES标准并提供了相应报告附件(14/17,82.35%);仅有个别研究未提供报告附件(3/17,17.65%)。此外,荷兰的研究团队基于CREDES标准,设计了专门用于开展德尔菲研究的在线电子调查工具以提高各轮次的应答率,并通过预先制订的决策准则进一步促进共识过程中的一致性[20]。这显然是CREDES标准未来优化过程中的良好借鉴措施。以上现状充分体现了来自不同临床学科的研究者对于加强德尔菲研究报告严谨性及透明度的迫切需求,同时也证明了该标准广泛的适用性。
达成共识作为临床实践指南制订中的重要一环,既往研究推荐将德尔菲法作为临床实践指南制订过程中的最佳正式共识方法[6,37-38]。2020年发表的一项系统评价[39]结果表明,2013至2019年间通过德尔菲法制订的指南在所有指南中的占比高达20%~60%。然而,本研究并未发现CREDES标准在指南制订方面的具体应用。这表明CREDES标准尚未引起临床实践指南制订人员的重视。虽然现有指南制订方法在不断完善之中,但针对制订过程中达成共识的方法学却鲜有重要的指导细则发布。因此,建议通过实施德尔菲法来达成共识的临床实践指南也应当尽可能采用CREDES标准以进一步提高最终共识意见的严谨性和透明度。
尽管CREDES标准的制订得到了多专业国际研究团队的支持,但仍然存在一定的局限性。首先,当研究主题扩大到多学科交叉领域时,需要明确考虑到异质性/同质性对专家小组样本量的影响。许多医学领域内的德尔菲研究通常纳入10~15名或8~12名专家来确保小组的同质性[40-42],亦或是通过随机抽样的方式招募更多数量的专家来确保异质性[43]。但即使是CREDES标准也未对最佳研究效果所需的专家小组异质性/同质性大小及样本量有所定论。而应用CREDES标准的17项共识研究中也鲜有对此进行详细说明和讨论,通常对组内异质性/同质性笼统地一笔带过,或仅选择性报告专家小组的整体医学背景及具体人数。其次,CREDES标准并没有额外强调实施轮次的确定依据及每一轮次的持续时间。通常轮次数量/持续时间的增加将直接导致应答率的降低,但越少的轮次则意味着将牺牲掉一部分结果的稳定性。仅仅要求报告实施的轮次无法全面展现德尔菲研究对于应答率及稳定性的取舍,而如何取得两者间的平衡却是应用德尔菲法的精髓所在。
作为第一个在医学研究领域中提出的德尔菲法实施和报告标准,CREDES标准无疑对共识研究的科学性和可靠性具有巨大的促进作用。本文就CREDES标准的具体内容及应用现状进行介绍和解读,以期促进该标准的推广应用。未来相关研究的应用反馈将进一步推动CREDES标准的更新、完善,使其更好地服务于医学研究领域。
利益冲突声明 所有作者均声明不存在利益冲突。