完整、透明、规范地报告一项临床试验的结局,是保障临床试验的实用性、可重复性和透明度,降低选择性报告偏倚的关键因素。临床试验报告统一标准(CONSORT)2010声明为临床试验的报告提供了规范指南。2022年12月,JAMA发表了临床试验报告中的结局报告规范(CONSORT-Outcomes)2022扩展声明,旨在对CONSORT 2010声明中关于试验结局、样本量、统计方法以及辅助分析相关条目进行扩充和解释,以进一步完善临床试验报告中的结局报告的标准。本文结合研究实例,对CONSORT-Outcomes扩展声明进行解读,以期为国内学者报告临床研究结果提供规范性参考。
临床研究的最终目的是为临床治疗决策提供依据,设计良好、实施合理且报告得当的随机对照试验(randomized clinical trials,RCT)是循证临床决策的重要证据来源[1]。在RCT中,试验的结局(outcome)往往用来评估干预措施的效果,充分报告试验结局对试验的可重复性、研究结果的综合以及防止报告偏倚至关重要[2,3]。临床试验报告统一标准(consolidated standards of reporting trials,CONSORT)声明为作者提供了一种标准的方式来进行试验结果报告,以提高报告的完整度和透明度[1,4,5]。针对试验结局,CONSORT声明指出“完整、确切地说明预先指定的主要和次要结局,包括它们是在何时、如何测评的”[1]。
然而,研究结果的不充分报告现象仍普遍存在,比如对结局的选择、定义、评估、分析等关键信息的描述不规范或不合理,同一个结局在不同研究中报告存在较大差异[3,6-8],影响结果合并和二次分析结论。有研究显示,已发表的临床研究论文存在较显著的选择性报告结果现象,还有部分研究为寻求统计学阳性结果改变研究方案确定的评价指标及其统计方法[8],直接影响干预措施效果的全面评价,甚至误导临床决策。
为提高RCT结局的报告质量,CONSORT工作组曾专门针对临床试验中危害和患者报告结局(patient-reported outcomes,PRO),分别制定了相应扩展条目—CONSORT Harms(2004年,已于2022年更新)[9]和CONSORT PRO(2013年)[10]。但尚缺少适用于所有结局类型和试验设计的基本结局报告指南[3,11]。为此,CONSORT工作组在CONSORT 2010的基础上,基于提高健康研究质量和透明度(enhancing the quality and transparency of health research,EQUATOR)方法学框架,制订了临床试验报告中的结局报告规范(CONSORT-Outcomes)2022扩展版,于2022年12月正式发表在JAMA[3],旨在为临床试验报告提供统一的、基于证据和共识的结局报告标准。本文就CONSORT-Outcomes的制订过程及其内容进行介绍,并结合实例对条目要求进行解读,以帮助国内学者更高理解和应用CONSORT-Outcomes,为临床试验人员规范报告RCT结局提供参考。
1 CONSORT-Outcomes制订过程
CONSORT-Outcomes 2022扩展版属于“临床试验计划终点报告工具”(instrument for reporting planned endpoints in clinical trials,InsPECT)研究项目的一部分[12],研制流程根据EQUATOR关于报告指南研制的方法学框架[13]。首先,工作小组通过专家咨询,并基于专家征询、检索MEDLINE和Cochrane方法学注册资料等电子数据库、检索灰色文献和参考文献列表,对现有的(在2018年3月19日之前的10年间发表)临床试验结局报告指南进行范围综述,将产生的128项建议整理为64个条目,综合形成RCT报告结局推荐条目的初始清单[11,14]。2018年11月至2019年2月,来自22个国家的124名小组成员参与完成了3轮国际范围的德尔菲(Delphi)调查,以收集其他补充条目,并评估每一个条目的重要性。最后,2019年4月9日至10日,来自4个国家的25名成员参加了面对面专家共识会议,对Delphi调查确定的30个条目进一步评估,最终确定17个临床试验报告中的结局报告基本条目集。CONSORT-Outcomes 2022扩展版的制订与规范临床研究方案内容声明(standard protocol items: recommendations for interventional trials,SPIRIT)-Outcomes 2022扩展版同步进行[15]。
2 CONSORT-Outcomes条目解读与实例
CONSORT-Outcomes 2022扩展版在CONSORT 2010基础上,对原有结局相关条目6a、7a、12a、17a和18扩展了共17个亚条目(表1)。此外,由于不同学科和地区存在术语和定义的差异,工作组对于一个特定结局应该包含的5个核心要素进行了明确定义和示例,见表2。


2.1 关于试验结局的选择、测量和描述的清单条目
条目6a.1:提供试验中主要结局域(outcome domain)的选择依据。
解读:6a.1是CONSORT 2010声明条目6a的扩展条目。“域”一词也指“概念”或“属性”,“结局域”在广义上指某一结局的名称或定义(例如疼痛)[16]。条目6a建议作者“完整、确切地说明预先指定的主要和次要结局”,而在此基础上,对于选择某结局(域)作为主要结局的理由也应进行详细说明,因其与研究的主要目的密切相关。6a.1建议作者在对主要结局域进行解释时重点考虑以下几点:① 该结局域对试验参与者(包括患者、公众、临床医生、政策制定者、资助者或医疗消费付费者)的重要性;② 干预措施对该结局域的预期效果;③ 在试验期间是否能准确、安全、切实地评估该结局域。此外,还建议报告所选结局域是否来自某核心结局指标集(core outcome set,COS)[17]。
示例:“主要结局是术后30天综合并发症指数(comprehensive complications index,CCI),即采用0(无并发症)~100(死亡)连续性评分量表对所有并发症及各自的严重程度进行综合评分……前期研究支持CCI作为术后发病率指标的有效性,并表明CCI与传统的发病率指标(如总并发症发生率、严重并发症发生率)相比,为外科研究提供了一个更全面、更敏感的终点指标”[18]。
条目6a.2:描述具体的测量变量(如收缩压)、分析度量指标(如从基线开始的改变、终值、时间事件)、数据汇总方式(如均值、构成比),以及每个结局的观测时点。
解读:6a.2是CONSORT 2010声明条目6a的扩展条目。在6a建议完整定义预设的主要和次要结局的基础上,该条目进一步建议提供一个结局所涉及的所有要素(表2)。因为对于临床试验而言,如缺少对其中任一要素的报告,读者将难以判断试验中可能存在的重假设检验问题(P-hacking,即做多次实验但只取其中的几个P值)[3,19]、“采樱桃谬误”(cherry picking,最初用来描述农民采摘樱桃过程中只挑选成熟果实,而忽略未成熟或坏掉的果实。后来,该词被引申为只选择符合自己观点的证据,而忽略不符合自己观点的证据)[20]及选择性不报告结果的等情况。相关建议与SPIRIT 2013声明清单条目12相一致[21],ClinicalTrials.gov等注册机构已经要求所有试验在注册时采用这一框架来对结局进行描述[19,22]。
示例:“在基线和6个月时进行面对面评估。研究人员使用自动化设备(欧姆龙健康医疗有限公司HEM-907XL数字自动血压计)以标准化方式测量血压。连续进行了3次血压记录,取第二次和第三次读数的平均值”[23]。
条目6a.3:如果主要结局的分析指标代表了受试者自身的变化,则定义并说明个体间的最小重要变化(minimal important change,MIC)。
解读:6a.3是对6a.2的延伸。MIC指“患者、临床医生或其他相关人员认为重要的受试者自身最小变化值”[3],对于所有观测受试者自身指标变化的试验,报告MIC都十分必要。医学文献中也常采用最小重要差异(minimal important difference,MID)、最小临床重要差异(minimal clinical important difference,MCID)等表述形式[3]。MIC既可以是连续性或有序变量,也可以是二分类变量[24,25]。此外,出于临床相关性和方法学质量的差异,同一研究工具可能得出多个不同的MIC,因此在报告中还应具体说明所设定MIC的理由[25,26],这将有助于临床医生、患者和决策人员对该试验结果及其临床相关性进行判断。如果研究工具对于试验人群和场景方面的MIC未知,也应进行报告。
示例:“主要结局是抑郁或临床相关抑郁症状的风险(发生和复发病例的总数)和情绪评分的平均差值[8项患者健康问卷抑郁量表(PHQ-8);0分(症状最少)至24分(症状最多);评分MCID为0.5分]”[27]。“主要终点是2年时通过定量MRI测量的股骨颈关节软骨总厚度的变化。主要结果的MCID未知……次要终点西大略和麦克马斯特大学骨关节炎指数(WOMAC)评分的MCID为7U[95%CI(4U,10U)],MCID百分比为14%[95%CI(9%,18%)]”[28]。
条目6a.4:如果结局是连续性数据,但被作为分类变量进行分析(数据汇总),需说明所采用的截断值(cut-off value)。
解读:6a.4是对6a.2的延伸。该条目提示作者(如果适用),对于将连续型(或有序)自变量转换为分类变量分析的情况,应说明预先设定的截断值(一般通过ROC分析进行确定)[6,21],并解释相关理由。不同试验采用不同截断值的情况十分普遍,当临床相关性明确时,所选择的临界值才最为适用[29]。报告这些信息将有助于避免出现多重假设检验问题、“采樱桃谬误”及选择性不报告结果的问题[6,19,20]。
示例:“预先设定15分和45分的截断值来对疾病轻度、中度和重度进行定义”[30]。“本研究的主要结局是各组(Hp)根除率,根除被定义为13C尿素呼气试验(13C‐UBT)(<4‰)转阴(4‰为截断值)”[31]。
条目6a.5:如果随机分组后在多个时点进行结局评估,具体说明进行分析的时点。
解读:6a.5是对6a.2的延伸。该条目提示(如果适用),对于多时点重复测量的情况(如在随机分组后12周的每天测量血压),需预先指定主要分析中所采用的时点,同时建议对时点选择依据进行解释[3]。指标观测时点主要包括基线点、试验终点、访视点、随访终点,其中访视点和观测时间周期的设定需要结合适应证、临床试验目的和观测指标的特点、临床实际可操作性和实际应答负担等多种因素综合考虑[11,19,28]。在报告中说明预设的评价时点,有助于限制对多个评估时点进行计划外分析的可能性,并能避免选择性不报告问题[21,22]。
示例:“主要结局是24小时平均舒张压,在访视4时(产后6~9个月)通过动态血压监测仪进行测量,并根据产后基线血压进行调整……次要血压指标结果包括访视4时的24小时、日间和夜间动态血压参数,以及访视2、3和4时的临床血压,采集数据均根据产后基线血压进行调整”[32]。
条目6a.6:如果使用了复合结局,对复合结局中的每个独立结局进行说明。
解读:复合结局是同时考虑多个结局的综合指标,通常是多个主要结局或主要结局和次要结局的组合(如将“受试者中发生死亡或非致命性中风的比例”作为一个复合结局[3]),复合结局的优点是综合考虑了多个指标,更全面地评价了药物或治疗方法的效果。受试者如果经历了组成这个复合结局的任何一个结局,即被认为经历了这个复合结局[33,34]。但需要注意,对复合结局的解释存在难度,如果组成复合结局的各个独立结局效应方向相反,或者各自呈现不同的效应水平(如死亡和残疾的组合),那么复合结局的效应可能会掩盖真实的干预效果,这时应更强调对每个独立结局的报告,以验证结局效应主要来自哪个结局指标[3,34,35]。
示例:“主要结局预先指定为围产期死亡(定义为随机分组后的子宫内胎儿死亡或出生后7天内的已知新生儿死亡)、早产(妊娠<37周)或新生儿住院至少4小时(从出生到出院)的复合结局。每个婴儿在这个组合中被计数一次”[36]。“主要结局是ICU入院、无创(双水平或持续气道正压)或有创机械通气,或死亡28天复合指标”[37]。
条目6a.7:报告试验注册或试验方案中未预先设定的任何结局。
解读:该条目建议,对于试验方案或注册时未预先设定但在试验中采用的结局,需要指出或说明。“未预先设定”的结局可能是由于添加了一个最初未计划的全新的结局域,如计划外纳入和分析从医院数据库中获得的心血管疾病住院率的变化;另外,表2中涉及的结局相关要素,试验期间的变化往往不会提前预设,因此对于发生的变化也应该在报告中进行说明。此外,对于主要结局发生的重要变化,研究者应报告详细信息,包括变化的性质、时间和动机,原因是来自于内部还是外部数据源,以及谁提议、谁赞成了这些改变等[3]。
示例:“以下主要复合结局中的指标未包括在试验方案中,但在统计分析计划中被预先指定为次要结局:有创机械通气、复合有创或无创机械通气、入住重症监护室”。“一个不知道分配方案的独立事件裁决委员会,事先对主要结局的组成、出血、血栓性事件和死亡原因进行了裁决。试验中未预先设定事件裁决方案”[37]。
条目6a.8:描述用于评价结局的工具(如问卷、实验室检测),以及该工具在与研究受试者相似人群中的信度、效度和反应度。
解读:该条目建议作者对于结局的测量工具进行充分说明,这对于保障试验的可重复性和结果的可解释性非常重要[3,22]。在说明的同时,建议提供测量工具信度(如重测信度、评价者间信度或评价者内信度、内部一致性)、效度(如内容、结构、标准、跨文化、以及结构效度)和反应度(检测所评估的健康结局指标变化的能力)的相关参考文献。此外,由于我们无法假设工具的测量特性在不同人群间是否具有可推广性,因此还建议报告与研究样本相似(或至少没有实质性差异)人群的相关测量属性[3]。
示例:“采用Maslach职业倦怠量表评估工作倦怠情况,该量表被广泛用于医生职业倦怠的评估。相关信度系数、重测信度、聚合效度和判别效度的信息可以在《Maslach职业倦怠量表手册》中找到,该量表在医生中的有效性数据近期也有总结”[38]。“采用EQ-5D-5L评估生存质量,该量表是一个通用的健康调查工具,用于评估患者报告的健康状况。EQ-5D-5L的心理测量特性已被证实优于之前的EQ-5D-3L量表……EQ-5D-5L对变化的反应度尚未被描述,但有研究提供了EQ-5D-3L的反应度证据”[39]。
条目6a.9:对结局的评估者(如护士、父母)进行说明,以及应用研究工具进行结局评估时所需具备的资质或特定培训。
解读:临床研究中结局评估者一般是结果的测量者或疗效考核者,评估者的培训或个人经验/观点的差别,或患者回忆的差异,均可能导致评估结果的差别[40]。美国食品药品监督管理局(Food and Drug Administration,FDA)将临床结局评估(clinical outcome assessment,COA)类型为医生报告结局(clinician-reported outcome,ClinRO)、PRO、观察者报告结局(observer reported outcome,ObsRO)和行为结局(performance rated outcome,PerfO)[41],有必要对结局评估者的设定和选择情况进行报告,特别是对于主观结局事件,不同角色的评估者可能得出较大差异的结果[3,21,41]。对于不会受结局评估者影响的客观指标(如理化检查等),该条目信息的相关性较小。
示例:“使用第二版韦氏简明智力量表人员应具有博士或心理科学博士学位,有5年及以上相关患者群体诊疗经验,且有15次及以上使用该工具或类似智商评估工具的经验”[3]。“5名学士学位以上的评估员(4名女性,1名男性)对入组儿童进行结局评估,并通过采访照顾者获取人口学资料和家庭信息。评估员从研究区域外招募,在干预和对照区组中进行轮流评估,且不清楚分组情况。一位拥有10年儿童成长评估经验的心理学家对评估员进行了为期1个月的培训。当评估员在每次测试中与培训师达成>90%的一致意见时,开始进行测试”[42]。
条目6a.10:描述在数据收集期间(如重复测量)和之后(如结局数据的范围核查)任何用于提高结局数据质量的过程,或者说明在哪里可以找到这些细节。
解读:说明通过什么方式提高结局数据等质量,能够确保试验透明度并有助于评估试验数据的质量。例如,为了确保结局评估过程的独立和准确性,对于主观结局指标的评估(例如病理评估)可能会通过重复评价或采用中央裁决委员会的方式[3]。一般而言,提升数据质量涉及合理设计数据结构(如标准化数据元素、预设数据验证规则)、强化数据录入规范(如制定详细的数据导入指南、实行双人录入制度)、定期进行数据质量检查(如制定数据质量检查计划、采用多种检查方法)等环节。相关信息均应该在试验报告中进行描述或总结,并说明可以在哪里找到完整的信息,同时提供相应参考文献。
示例:“每个临床事件由两名评审员进行独立评审,评审员确定该事件是否符合预先规定的标准(根据方案中的定义)。这些事件被归类为‘确定事件’‘可能事件’或‘非事件’(参考以下裁决手册中的裁决表)。最终裁决结果基于一致意见。如果两名裁决者之间存在分歧,医疗监督员将介入”[37]。
2.2 关于样本量的清单条目
条目7a.1:定义并说明各治疗组间的目标差异(如MID)。
解读:7a.1是CONSORT 2010 声明条目7a的扩展条目。该条目要求作者说明样本量的确定方式,以及样本量计算时设定的目标差异(target difference)。目标差异是特定时点主要结局在各治疗组被检测到、并用于分析的差异,其可能是MID,也可能是最小有价值效果(即干预措施最小的获益效应,用以证明由患者决定的干预措施成本、危害和不便的合理性)[43,44]。目标差异可能受实际情况或临床因素影响(例如用于评估主要结局指标的研究工具是否有一个可靠的MID),并且可能会有众多不同的可选值(例如,多个MID值中的一个或基于先导试验得出的值),因此对于目标差异的选择进行解释是十分必要的[44,45]。
示例:“样本量:以3年时总死亡率的10%差异作为MID和劣效性界限。在指数生存曲线的假设下,介入组的预期3年生存率为30%,那么非介入组生存率20%,非介入组与介入组患者的相对死亡风险为1.3”[46]。
2.3 关于统计方法的清单条目
条目12a.1:说明在分析或解释主要和次要结局时用于解释多重性的任何方法(如共同主要结果、在多时点评估的相同结局或一个结局的亚组分析)。
解读:12a.1是CONSORT 2010声明条目12a的扩展条目。临床试验中的多重性(multiplicity)是指多重检验,比如共同主要结局、单个结局多次重复测量时点、单个结局进行多次分析(如期中或亚组分析、多组试验)、多个次要结局等[3]。对于此类多重性的解释主要包括统计学方法和描述性方法[47],相关信息可以在报告正文中简要说明,也可在统计分析计划中更详细地描述。如果试验未使用任何方法来进行多重性分析(如不适用或没有必要),作者也应进行说明。
示例:“预先设定对主要结局进行亚组分析,分组依据包括根据受试者年龄、性别、体重指数、新冠肺炎症状发作时间、糖尿病、冠状动脉疾病等,并对交互作用进行检验。对所有原因的出现死亡进行事后亚组分析……次要结局的分析被认为是探索性的,因此没有针对多重比较进行调整;次要结果的95%置信区间宽度不用于推断治疗效果。补充文件提供了统计方法的具体说明”[37]。
条目12a.2:说明分析和报告中排除任何结局数据的标准并陈述理由,或报告并未排除结局数据。
解读:12a.2是CONSORT 2010声明条目12a的扩展条目。该条目建议作者对于排除结局数据的两种可能情况都要进行报告:其一,说明并解释在分析中排除特定结局数据的依据;其二,报告没有排除任何结局数据。这里所指的结局数据是明确和有意排除的结局数据,诸如受试者已完成的问卷中有太多缺失条目的情况,或有其他充分理由排除的特定结局的异常值。这将有助于读者解读报告的结果。相关信息可以呈现在CONSORT流程图中,按照治疗组别列出排除每个结局数据的原因[3]。
示例:“如果一个结局在超过5%的受试者中缺失,除了在原假设下(患者在28天前活着出院时没有任何结局)的分析策略,还进行完整的病例分析、逆概率加权分析和结果的多重插补”[37]。
条目12a.3:描述用于评估缺失模式的方法(如非随机缺失),并描述用于处理缺失结果项或整体评估的方法。
解读:12a.3是CONSORT 2010声明条目12a的扩展条目。一般来说,无论采取何种数据预防措施,结局数据缺失几乎都是不可避免的。而数据缺失并不是随机的,而是与治疗组的分配、患者特定(预后)因素或特定健康结局的发生有关[48]。当出现数据缺失时,建议作者说明:① 用于评估或确定数据缺失模式(也称为数据缺失机制)的方法;② 在统计分析过程用于处理缺失数据或整体评估的方法,例如多重插补、完整案例、根据似然度、逆概率加权等。数据缺失模式包括完全随机缺失(missing completely at random,MCAR)、随机缺失(missing at random,MAR)和非随机缺失(not missing at random,MNAR)[49],需要在报告中进行说明;对于缺失模式的处理方式(如多重插补和最大似然分析法假设数据至少是随机缺失的)也应进行报告。
示例:“在量表的计算中使用了简单插补方法。如果缺失条目不超过20%,则使用量表或分量表中其余部分受试者具体完成项目的中值来替换变量中的缺失值”[50]。“因为我们预先只设定了一个确证性结局,所以没有对多重比较进行调整。为了最大限度地减少数据缺失引起的潜在偏倚,我们的主要分析是在假设数据随机缺失的情况下,通过链式方程和预测均数匹配进行多重插补”[18]。
条目12a.4:提供违背试验方案的结局分析人群的定义(如作为随机分析)。
解读:12a.4是CONSORT 2010声明条目12a的扩展条目。方案违背,不仅仅影响到受试者的权益、安全性和获益,以及数据的完整性、精确性和可靠性,还直接关系到整个研究的质量。由于不同结局的缺失数据量不同,数据缺失原因也不同,因此本扩展条目进一步提出对涉及违背试验方案人群进行定义。对于每一个结局的分析,研究者均应说明是否纳入所有随机分组的受试者(即意向性分析)[8,21]。
示例:“一个完整的数据集可能用于分析死亡率这一结局,但不能用于分析同一试验中的患者报告结局”“对不良事件的分析仅限于接受试验干预的受试者”[3]。“预先设定的主要结局的敏感性分析排除了未进行28天评估的受试者,仅纳入符合方案队列的受试者”[37]。
2.4 关于结局描述和评价的清单条目
条目17a.1:包括所有预先设定结局的分析结果,如果相关结果未在本报告中呈现,则说明在哪里可以找到相关内容。
解读:17a.1是CONSORT 2010声明条目17a的扩展条目。该条目提示作者报告试验方案或统计分析计划中所有预设的结局指标的结果。尽管CONSORT 2010对此进行了规范要求,但试验研究对该条目信息的报告仍然不充分,读者难以确定是否存在选择不报告某些试验结果的情况[51]。当难以在一个试验报告中报告所有预设的分析时(如试验预先设定的次要结局指标的数量很多),作者应该报告在哪里能够找到其他的结果(如链接的出版物或在线数据存储库中),或表明将在长期随访后再进行报告[3]。
示例:“ARAT分量表的分析和其余次要结局的描述性统计数据[FMA(运动范围和感觉分量表)和SIS(力量、情绪、记忆、沟通和中风恢复)]见附录”[50]。“不良反应和通过手机软件报告的症状的详细信息见附录”[32]。
2.5 关于辅助分析的清单条目
条目18.1:如果有任何未预先设定的分析,解释进行这些分析的原因。
解读:18.1是CONSORT 2010声明条目18的扩展条目。本条目建议作者对任何未预先设定的(如试验方案或统计分析计划中)、但在试验报告中出现的分析提供解释。对于未预先设定但采用并报告的分析,阐明相关理由对于试验透明度和正确评估试验可信度尤为重要。此外,还应注意要说明这些附加分析是在何时开展的(如在看到其他结局的比较分析结果之前或之后)[3]。
示例:“由于并非所有中心都提供体外肺支持,我们对体外支持对60天死亡率的影响进行了两种可能情况下的评估:将任何一组中的所有体外辅助患者视为死亡,或排除两组中的全部体外辅助患者”[18]。
3 小结
研究结局的选择和测量是关乎临床研究价值的关键问题之一,对研究结局的充分报告是保障研究质量、影响Meta分析结果的关键环节[11]。对于研究结果报告的问题,早在20年前就已得到关注,相关研究表明了选择性报告临床试验结果将导致不适当的监管决定[52],以及影响大部分Cochrane系统评价的结论[3,53]。CONSORT-Outcomes对CONSORT 2010声明方法部分的结局指标(6a)、样本量(7a)、统计学方法(12a),以及结果部分的结局和估计值(17a)扩展了17个报告条目,对原有结局报告相关条目进行了延伸,为临床试验中结局的报告提供了基于证据和共识的规范性指导。同时,相关报告建议与SPIRIT-Outcomes 2022扩展版保持一致[15],两个扩展版指南协同实现了从试验方案到试验结果报告的连续性,这将有助于研究人员对试验方案和试验报告的整理,更重要的是有利于评估最终报告对于试验方案的依从性[3]。为了更好解读CONSORT-Outcomes,本文选取了扩展条目对应的部分国内外发表的相关文献做示例。建议医学期刊作者在撰写和提交稿件时,主动遵循相应报告规范,医学期刊和编辑也应积极将相应报告规范引入稿约。同时,希望尽早将CONSORT-Outcomes附加条目整合到主要的CONSORT清单中,以促进实践应用。
临床研究的最终目的是为临床治疗决策提供依据,设计良好、实施合理且报告得当的随机对照试验(randomized clinical trials,RCT)是循证临床决策的重要证据来源[1]。在RCT中,试验的结局(outcome)往往用来评估干预措施的效果,充分报告试验结局对试验的可重复性、研究结果的综合以及防止报告偏倚至关重要[2,3]。临床试验报告统一标准(consolidated standards of reporting trials,CONSORT)声明为作者提供了一种标准的方式来进行试验结果报告,以提高报告的完整度和透明度[1,4,5]。针对试验结局,CONSORT声明指出“完整、确切地说明预先指定的主要和次要结局,包括它们是在何时、如何测评的”[1]。
然而,研究结果的不充分报告现象仍普遍存在,比如对结局的选择、定义、评估、分析等关键信息的描述不规范或不合理,同一个结局在不同研究中报告存在较大差异[3,6-8],影响结果合并和二次分析结论。有研究显示,已发表的临床研究论文存在较显著的选择性报告结果现象,还有部分研究为寻求统计学阳性结果改变研究方案确定的评价指标及其统计方法[8],直接影响干预措施效果的全面评价,甚至误导临床决策。
为提高RCT结局的报告质量,CONSORT工作组曾专门针对临床试验中危害和患者报告结局(patient-reported outcomes,PRO),分别制定了相应扩展条目—CONSORT Harms(2004年,已于2022年更新)[9]和CONSORT PRO(2013年)[10]。但尚缺少适用于所有结局类型和试验设计的基本结局报告指南[3,11]。为此,CONSORT工作组在CONSORT 2010的基础上,基于提高健康研究质量和透明度(enhancing the quality and transparency of health research,EQUATOR)方法学框架,制订了临床试验报告中的结局报告规范(CONSORT-Outcomes)2022扩展版,于2022年12月正式发表在JAMA[3],旨在为临床试验报告提供统一的、基于证据和共识的结局报告标准。本文就CONSORT-Outcomes的制订过程及其内容进行介绍,并结合实例对条目要求进行解读,以帮助国内学者更高理解和应用CONSORT-Outcomes,为临床试验人员规范报告RCT结局提供参考。
1 CONSORT-Outcomes制订过程
CONSORT-Outcomes 2022扩展版属于“临床试验计划终点报告工具”(instrument for reporting planned endpoints in clinical trials,InsPECT)研究项目的一部分[12],研制流程根据EQUATOR关于报告指南研制的方法学框架[13]。首先,工作小组通过专家咨询,并基于专家征询、检索MEDLINE和Cochrane方法学注册资料等电子数据库、检索灰色文献和参考文献列表,对现有的(在2018年3月19日之前的10年间发表)临床试验结局报告指南进行范围综述,将产生的128项建议整理为64个条目,综合形成RCT报告结局推荐条目的初始清单[11,14]。2018年11月至2019年2月,来自22个国家的124名小组成员参与完成了3轮国际范围的德尔菲(Delphi)调查,以收集其他补充条目,并评估每一个条目的重要性。最后,2019年4月9日至10日,来自4个国家的25名成员参加了面对面专家共识会议,对Delphi调查确定的30个条目进一步评估,最终确定17个临床试验报告中的结局报告基本条目集。CONSORT-Outcomes 2022扩展版的制订与规范临床研究方案内容声明(standard protocol items: recommendations for interventional trials,SPIRIT)-Outcomes 2022扩展版同步进行[15]。
2 CONSORT-Outcomes条目解读与实例
CONSORT-Outcomes 2022扩展版在CONSORT 2010基础上,对原有结局相关条目6a、7a、12a、17a和18扩展了共17个亚条目(表1)。此外,由于不同学科和地区存在术语和定义的差异,工作组对于一个特定结局应该包含的5个核心要素进行了明确定义和示例,见表2。


2.1 关于试验结局的选择、测量和描述的清单条目
条目6a.1:提供试验中主要结局域(outcome domain)的选择依据。
解读:6a.1是CONSORT 2010声明条目6a的扩展条目。“域”一词也指“概念”或“属性”,“结局域”在广义上指某一结局的名称或定义(例如疼痛)[16]。条目6a建议作者“完整、确切地说明预先指定的主要和次要结局”,而在此基础上,对于选择某结局(域)作为主要结局的理由也应进行详细说明,因其与研究的主要目的密切相关。6a.1建议作者在对主要结局域进行解释时重点考虑以下几点:① 该结局域对试验参与者(包括患者、公众、临床医生、政策制定者、资助者或医疗消费付费者)的重要性;② 干预措施对该结局域的预期效果;③ 在试验期间是否能准确、安全、切实地评估该结局域。此外,还建议报告所选结局域是否来自某核心结局指标集(core outcome set,COS)[17]。
示例:“主要结局是术后30天综合并发症指数(comprehensive complications index,CCI),即采用0(无并发症)~100(死亡)连续性评分量表对所有并发症及各自的严重程度进行综合评分……前期研究支持CCI作为术后发病率指标的有效性,并表明CCI与传统的发病率指标(如总并发症发生率、严重并发症发生率)相比,为外科研究提供了一个更全面、更敏感的终点指标”[18]。
条目6a.2:描述具体的测量变量(如收缩压)、分析度量指标(如从基线开始的改变、终值、时间事件)、数据汇总方式(如均值、构成比),以及每个结局的观测时点。
解读:6a.2是CONSORT 2010声明条目6a的扩展条目。在6a建议完整定义预设的主要和次要结局的基础上,该条目进一步建议提供一个结局所涉及的所有要素(表2)。因为对于临床试验而言,如缺少对其中任一要素的报告,读者将难以判断试验中可能存在的重假设检验问题(P-hacking,即做多次实验但只取其中的几个P值)[3,19]、“采樱桃谬误”(cherry picking,最初用来描述农民采摘樱桃过程中只挑选成熟果实,而忽略未成熟或坏掉的果实。后来,该词被引申为只选择符合自己观点的证据,而忽略不符合自己观点的证据)[20]及选择性不报告结果的等情况。相关建议与SPIRIT 2013声明清单条目12相一致[21],ClinicalTrials.gov等注册机构已经要求所有试验在注册时采用这一框架来对结局进行描述[19,22]。
示例:“在基线和6个月时进行面对面评估。研究人员使用自动化设备(欧姆龙健康医疗有限公司HEM-907XL数字自动血压计)以标准化方式测量血压。连续进行了3次血压记录,取第二次和第三次读数的平均值”[23]。
条目6a.3:如果主要结局的分析指标代表了受试者自身的变化,则定义并说明个体间的最小重要变化(minimal important change,MIC)。
解读:6a.3是对6a.2的延伸。MIC指“患者、临床医生或其他相关人员认为重要的受试者自身最小变化值”[3],对于所有观测受试者自身指标变化的试验,报告MIC都十分必要。医学文献中也常采用最小重要差异(minimal important difference,MID)、最小临床重要差异(minimal clinical important difference,MCID)等表述形式[3]。MIC既可以是连续性或有序变量,也可以是二分类变量[24,25]。此外,出于临床相关性和方法学质量的差异,同一研究工具可能得出多个不同的MIC,因此在报告中还应具体说明所设定MIC的理由[25,26],这将有助于临床医生、患者和决策人员对该试验结果及其临床相关性进行判断。如果研究工具对于试验人群和场景方面的MIC未知,也应进行报告。
示例:“主要结局是抑郁或临床相关抑郁症状的风险(发生和复发病例的总数)和情绪评分的平均差值[8项患者健康问卷抑郁量表(PHQ-8);0分(症状最少)至24分(症状最多);评分MCID为0.5分]”[27]。“主要终点是2年时通过定量MRI测量的股骨颈关节软骨总厚度的变化。主要结果的MCID未知……次要终点西大略和麦克马斯特大学骨关节炎指数(WOMAC)评分的MCID为7U[95%CI(4U,10U)],MCID百分比为14%[95%CI(9%,18%)]”[28]。
条目6a.4:如果结局是连续性数据,但被作为分类变量进行分析(数据汇总),需说明所采用的截断值(cut-off value)。
解读:6a.4是对6a.2的延伸。该条目提示作者(如果适用),对于将连续型(或有序)自变量转换为分类变量分析的情况,应说明预先设定的截断值(一般通过ROC分析进行确定)[6,21],并解释相关理由。不同试验采用不同截断值的情况十分普遍,当临床相关性明确时,所选择的临界值才最为适用[29]。报告这些信息将有助于避免出现多重假设检验问题、“采樱桃谬误”及选择性不报告结果的问题[6,19,20]。
示例:“预先设定15分和45分的截断值来对疾病轻度、中度和重度进行定义”[30]。“本研究的主要结局是各组(Hp)根除率,根除被定义为13C尿素呼气试验(13C‐UBT)(<4‰)转阴(4‰为截断值)”[31]。
条目6a.5:如果随机分组后在多个时点进行结局评估,具体说明进行分析的时点。
解读:6a.5是对6a.2的延伸。该条目提示(如果适用),对于多时点重复测量的情况(如在随机分组后12周的每天测量血压),需预先指定主要分析中所采用的时点,同时建议对时点选择依据进行解释[3]。指标观测时点主要包括基线点、试验终点、访视点、随访终点,其中访视点和观测时间周期的设定需要结合适应证、临床试验目的和观测指标的特点、临床实际可操作性和实际应答负担等多种因素综合考虑[11,19,28]。在报告中说明预设的评价时点,有助于限制对多个评估时点进行计划外分析的可能性,并能避免选择性不报告问题[21,22]。
示例:“主要结局是24小时平均舒张压,在访视4时(产后6~9个月)通过动态血压监测仪进行测量,并根据产后基线血压进行调整……次要血压指标结果包括访视4时的24小时、日间和夜间动态血压参数,以及访视2、3和4时的临床血压,采集数据均根据产后基线血压进行调整”[32]。
条目6a.6:如果使用了复合结局,对复合结局中的每个独立结局进行说明。
解读:复合结局是同时考虑多个结局的综合指标,通常是多个主要结局或主要结局和次要结局的组合(如将“受试者中发生死亡或非致命性中风的比例”作为一个复合结局[3]),复合结局的优点是综合考虑了多个指标,更全面地评价了药物或治疗方法的效果。受试者如果经历了组成这个复合结局的任何一个结局,即被认为经历了这个复合结局[33,34]。但需要注意,对复合结局的解释存在难度,如果组成复合结局的各个独立结局效应方向相反,或者各自呈现不同的效应水平(如死亡和残疾的组合),那么复合结局的效应可能会掩盖真实的干预效果,这时应更强调对每个独立结局的报告,以验证结局效应主要来自哪个结局指标[3,34,35]。
示例:“主要结局预先指定为围产期死亡(定义为随机分组后的子宫内胎儿死亡或出生后7天内的已知新生儿死亡)、早产(妊娠<37周)或新生儿住院至少4小时(从出生到出院)的复合结局。每个婴儿在这个组合中被计数一次”[36]。“主要结局是ICU入院、无创(双水平或持续气道正压)或有创机械通气,或死亡28天复合指标”[37]。
条目6a.7:报告试验注册或试验方案中未预先设定的任何结局。
解读:该条目建议,对于试验方案或注册时未预先设定但在试验中采用的结局,需要指出或说明。“未预先设定”的结局可能是由于添加了一个最初未计划的全新的结局域,如计划外纳入和分析从医院数据库中获得的心血管疾病住院率的变化;另外,表2中涉及的结局相关要素,试验期间的变化往往不会提前预设,因此对于发生的变化也应该在报告中进行说明。此外,对于主要结局发生的重要变化,研究者应报告详细信息,包括变化的性质、时间和动机,原因是来自于内部还是外部数据源,以及谁提议、谁赞成了这些改变等[3]。
示例:“以下主要复合结局中的指标未包括在试验方案中,但在统计分析计划中被预先指定为次要结局:有创机械通气、复合有创或无创机械通气、入住重症监护室”。“一个不知道分配方案的独立事件裁决委员会,事先对主要结局的组成、出血、血栓性事件和死亡原因进行了裁决。试验中未预先设定事件裁决方案”[37]。
条目6a.8:描述用于评价结局的工具(如问卷、实验室检测),以及该工具在与研究受试者相似人群中的信度、效度和反应度。
解读:该条目建议作者对于结局的测量工具进行充分说明,这对于保障试验的可重复性和结果的可解释性非常重要[3,22]。在说明的同时,建议提供测量工具信度(如重测信度、评价者间信度或评价者内信度、内部一致性)、效度(如内容、结构、标准、跨文化、以及结构效度)和反应度(检测所评估的健康结局指标变化的能力)的相关参考文献。此外,由于我们无法假设工具的测量特性在不同人群间是否具有可推广性,因此还建议报告与研究样本相似(或至少没有实质性差异)人群的相关测量属性[3]。
示例:“采用Maslach职业倦怠量表评估工作倦怠情况,该量表被广泛用于医生职业倦怠的评估。相关信度系数、重测信度、聚合效度和判别效度的信息可以在《Maslach职业倦怠量表手册》中找到,该量表在医生中的有效性数据近期也有总结”[38]。“采用EQ-5D-5L评估生存质量,该量表是一个通用的健康调查工具,用于评估患者报告的健康状况。EQ-5D-5L的心理测量特性已被证实优于之前的EQ-5D-3L量表……EQ-5D-5L对变化的反应度尚未被描述,但有研究提供了EQ-5D-3L的反应度证据”[39]。
条目6a.9:对结局的评估者(如护士、父母)进行说明,以及应用研究工具进行结局评估时所需具备的资质或特定培训。
解读:临床研究中结局评估者一般是结果的测量者或疗效考核者,评估者的培训或个人经验/观点的差别,或患者回忆的差异,均可能导致评估结果的差别[40]。美国食品药品监督管理局(Food and Drug Administration,FDA)将临床结局评估(clinical outcome assessment,COA)类型为医生报告结局(clinician-reported outcome,ClinRO)、PRO、观察者报告结局(observer reported outcome,ObsRO)和行为结局(performance rated outcome,PerfO)[41],有必要对结局评估者的设定和选择情况进行报告,特别是对于主观结局事件,不同角色的评估者可能得出较大差异的结果[3,21,41]。对于不会受结局评估者影响的客观指标(如理化检查等),该条目信息的相关性较小。
示例:“使用第二版韦氏简明智力量表人员应具有博士或心理科学博士学位,有5年及以上相关患者群体诊疗经验,且有15次及以上使用该工具或类似智商评估工具的经验”[3]。“5名学士学位以上的评估员(4名女性,1名男性)对入组儿童进行结局评估,并通过采访照顾者获取人口学资料和家庭信息。评估员从研究区域外招募,在干预和对照区组中进行轮流评估,且不清楚分组情况。一位拥有10年儿童成长评估经验的心理学家对评估员进行了为期1个月的培训。当评估员在每次测试中与培训师达成>90%的一致意见时,开始进行测试”[42]。
条目6a.10:描述在数据收集期间(如重复测量)和之后(如结局数据的范围核查)任何用于提高结局数据质量的过程,或者说明在哪里可以找到这些细节。
解读:说明通过什么方式提高结局数据等质量,能够确保试验透明度并有助于评估试验数据的质量。例如,为了确保结局评估过程的独立和准确性,对于主观结局指标的评估(例如病理评估)可能会通过重复评价或采用中央裁决委员会的方式[3]。一般而言,提升数据质量涉及合理设计数据结构(如标准化数据元素、预设数据验证规则)、强化数据录入规范(如制定详细的数据导入指南、实行双人录入制度)、定期进行数据质量检查(如制定数据质量检查计划、采用多种检查方法)等环节。相关信息均应该在试验报告中进行描述或总结,并说明可以在哪里找到完整的信息,同时提供相应参考文献。
示例:“每个临床事件由两名评审员进行独立评审,评审员确定该事件是否符合预先规定的标准(根据方案中的定义)。这些事件被归类为‘确定事件’‘可能事件’或‘非事件’(参考以下裁决手册中的裁决表)。最终裁决结果基于一致意见。如果两名裁决者之间存在分歧,医疗监督员将介入”[37]。
2.2 关于样本量的清单条目
条目7a.1:定义并说明各治疗组间的目标差异(如MID)。
解读:7a.1是CONSORT 2010 声明条目7a的扩展条目。该条目要求作者说明样本量的确定方式,以及样本量计算时设定的目标差异(target difference)。目标差异是特定时点主要结局在各治疗组被检测到、并用于分析的差异,其可能是MID,也可能是最小有价值效果(即干预措施最小的获益效应,用以证明由患者决定的干预措施成本、危害和不便的合理性)[43,44]。目标差异可能受实际情况或临床因素影响(例如用于评估主要结局指标的研究工具是否有一个可靠的MID),并且可能会有众多不同的可选值(例如,多个MID值中的一个或基于先导试验得出的值),因此对于目标差异的选择进行解释是十分必要的[44,45]。
示例:“样本量:以3年时总死亡率的10%差异作为MID和劣效性界限。在指数生存曲线的假设下,介入组的预期3年生存率为30%,那么非介入组生存率20%,非介入组与介入组患者的相对死亡风险为1.3”[46]。
2.3 关于统计方法的清单条目
条目12a.1:说明在分析或解释主要和次要结局时用于解释多重性的任何方法(如共同主要结果、在多时点评估的相同结局或一个结局的亚组分析)。
解读:12a.1是CONSORT 2010声明条目12a的扩展条目。临床试验中的多重性(multiplicity)是指多重检验,比如共同主要结局、单个结局多次重复测量时点、单个结局进行多次分析(如期中或亚组分析、多组试验)、多个次要结局等[3]。对于此类多重性的解释主要包括统计学方法和描述性方法[47],相关信息可以在报告正文中简要说明,也可在统计分析计划中更详细地描述。如果试验未使用任何方法来进行多重性分析(如不适用或没有必要),作者也应进行说明。
示例:“预先设定对主要结局进行亚组分析,分组依据包括根据受试者年龄、性别、体重指数、新冠肺炎症状发作时间、糖尿病、冠状动脉疾病等,并对交互作用进行检验。对所有原因的出现死亡进行事后亚组分析……次要结局的分析被认为是探索性的,因此没有针对多重比较进行调整;次要结果的95%置信区间宽度不用于推断治疗效果。补充文件提供了统计方法的具体说明”[37]。
条目12a.2:说明分析和报告中排除任何结局数据的标准并陈述理由,或报告并未排除结局数据。
解读:12a.2是CONSORT 2010声明条目12a的扩展条目。该条目建议作者对于排除结局数据的两种可能情况都要进行报告:其一,说明并解释在分析中排除特定结局数据的依据;其二,报告没有排除任何结局数据。这里所指的结局数据是明确和有意排除的结局数据,诸如受试者已完成的问卷中有太多缺失条目的情况,或有其他充分理由排除的特定结局的异常值。这将有助于读者解读报告的结果。相关信息可以呈现在CONSORT流程图中,按照治疗组别列出排除每个结局数据的原因[3]。
示例:“如果一个结局在超过5%的受试者中缺失,除了在原假设下(患者在28天前活着出院时没有任何结局)的分析策略,还进行完整的病例分析、逆概率加权分析和结果的多重插补”[37]。
条目12a.3:描述用于评估缺失模式的方法(如非随机缺失),并描述用于处理缺失结果项或整体评估的方法。
解读:12a.3是CONSORT 2010声明条目12a的扩展条目。一般来说,无论采取何种数据预防措施,结局数据缺失几乎都是不可避免的。而数据缺失并不是随机的,而是与治疗组的分配、患者特定(预后)因素或特定健康结局的发生有关[48]。当出现数据缺失时,建议作者说明:① 用于评估或确定数据缺失模式(也称为数据缺失机制)的方法;② 在统计分析过程用于处理缺失数据或整体评估的方法,例如多重插补、完整案例、根据似然度、逆概率加权等。数据缺失模式包括完全随机缺失(missing completely at random,MCAR)、随机缺失(missing at random,MAR)和非随机缺失(not missing at random,MNAR)[49],需要在报告中进行说明;对于缺失模式的处理方式(如多重插补和最大似然分析法假设数据至少是随机缺失的)也应进行报告。
示例:“在量表的计算中使用了简单插补方法。如果缺失条目不超过20%,则使用量表或分量表中其余部分受试者具体完成项目的中值来替换变量中的缺失值”[50]。“因为我们预先只设定了一个确证性结局,所以没有对多重比较进行调整。为了最大限度地减少数据缺失引起的潜在偏倚,我们的主要分析是在假设数据随机缺失的情况下,通过链式方程和预测均数匹配进行多重插补”[18]。
条目12a.4:提供违背试验方案的结局分析人群的定义(如作为随机分析)。
解读:12a.4是CONSORT 2010声明条目12a的扩展条目。方案违背,不仅仅影响到受试者的权益、安全性和获益,以及数据的完整性、精确性和可靠性,还直接关系到整个研究的质量。由于不同结局的缺失数据量不同,数据缺失原因也不同,因此本扩展条目进一步提出对涉及违背试验方案人群进行定义。对于每一个结局的分析,研究者均应说明是否纳入所有随机分组的受试者(即意向性分析)[8,21]。
示例:“一个完整的数据集可能用于分析死亡率这一结局,但不能用于分析同一试验中的患者报告结局”“对不良事件的分析仅限于接受试验干预的受试者”[3]。“预先设定的主要结局的敏感性分析排除了未进行28天评估的受试者,仅纳入符合方案队列的受试者”[37]。
2.4 关于结局描述和评价的清单条目
条目17a.1:包括所有预先设定结局的分析结果,如果相关结果未在本报告中呈现,则说明在哪里可以找到相关内容。
解读:17a.1是CONSORT 2010声明条目17a的扩展条目。该条目提示作者报告试验方案或统计分析计划中所有预设的结局指标的结果。尽管CONSORT 2010对此进行了规范要求,但试验研究对该条目信息的报告仍然不充分,读者难以确定是否存在选择不报告某些试验结果的情况[51]。当难以在一个试验报告中报告所有预设的分析时(如试验预先设定的次要结局指标的数量很多),作者应该报告在哪里能够找到其他的结果(如链接的出版物或在线数据存储库中),或表明将在长期随访后再进行报告[3]。
示例:“ARAT分量表的分析和其余次要结局的描述性统计数据[FMA(运动范围和感觉分量表)和SIS(力量、情绪、记忆、沟通和中风恢复)]见附录”[50]。“不良反应和通过手机软件报告的症状的详细信息见附录”[32]。
2.5 关于辅助分析的清单条目
条目18.1:如果有任何未预先设定的分析,解释进行这些分析的原因。
解读:18.1是CONSORT 2010声明条目18的扩展条目。本条目建议作者对任何未预先设定的(如试验方案或统计分析计划中)、但在试验报告中出现的分析提供解释。对于未预先设定但采用并报告的分析,阐明相关理由对于试验透明度和正确评估试验可信度尤为重要。此外,还应注意要说明这些附加分析是在何时开展的(如在看到其他结局的比较分析结果之前或之后)[3]。
示例:“由于并非所有中心都提供体外肺支持,我们对体外支持对60天死亡率的影响进行了两种可能情况下的评估:将任何一组中的所有体外辅助患者视为死亡,或排除两组中的全部体外辅助患者”[18]。
3 小结
研究结局的选择和测量是关乎临床研究价值的关键问题之一,对研究结局的充分报告是保障研究质量、影响Meta分析结果的关键环节[11]。对于研究结果报告的问题,早在20年前就已得到关注,相关研究表明了选择性报告临床试验结果将导致不适当的监管决定[52],以及影响大部分Cochrane系统评价的结论[3,53]。CONSORT-Outcomes对CONSORT 2010声明方法部分的结局指标(6a)、样本量(7a)、统计学方法(12a),以及结果部分的结局和估计值(17a)扩展了17个报告条目,对原有结局报告相关条目进行了延伸,为临床试验中结局的报告提供了基于证据和共识的规范性指导。同时,相关报告建议与SPIRIT-Outcomes 2022扩展版保持一致[15],两个扩展版指南协同实现了从试验方案到试验结果报告的连续性,这将有助于研究人员对试验方案和试验报告的整理,更重要的是有利于评估最终报告对于试验方案的依从性[3]。为了更好解读CONSORT-Outcomes,本文选取了扩展条目对应的部分国内外发表的相关文献做示例。建议医学期刊作者在撰写和提交稿件时,主动遵循相应报告规范,医学期刊和编辑也应积极将相应报告规范引入稿约。同时,希望尽早将CONSORT-Outcomes附加条目整合到主要的CONSORT清单中,以促进实践应用。