引用本文: 盛永成, 李莉, 汪琴, 康德英. 基于AGREE Ⅱ和AGREE-China的中国脆性骨折指南与共识的质量评价. 中国循证医学杂志, 2022, 22(3): 351-359. doi: 10.7507/1672-2531.202110101 复制
脆性骨折(fragility fracture)亦称骨质疏松性骨折,是骨质疏松症的最严重后果。全球每年约有1 000万例脆性骨折发生[1],我国2015年发生例次约为269万,预计2035年约为483万[2]。约50%女性和20%男性在50岁后会经历首次脆性骨折[3-4],初次骨折后有50%患者将会发生再次骨折[5]。其发病率随年龄上升而上升,研究发现脆性骨折在60岁以上老年人群中急剧增加[6]。绝经后妇女由于雌激素水平显著降低,骨质流失严重而成为脆性骨折高发人群[7-8]。该骨折的好发部位包括胸腰椎段、髋部、桡骨远端和肱骨近端[5],其中椎体和髋部骨折会严重降低老年人群寿命,长期卧床者1年病死率为20%,永久致残率为25%~35%[9-10]。随着我国人口老龄化程度加剧,该领域制定和发表的临床实践指南(简称“指南”)和专家共识(简称“共识”)越来越多。但这些指南/共识的质量参差不齐,来自不同的医学团体机构(包括中华医学会、中国医师协会、中国老年医学会、中国健康促进会等)或专家团体,存在诸多差异性,如制定方法缺乏科学性和规范性,制定版本繁多等问题[11-12],不仅妨碍临床工作人员的选择和使用,并严重影响其传播,同时低质量指南/共识还可能对患者造成伤害。因此,对中国脆性骨折指南与共识的质量评价对临床实践具有重要意义。
国际上目前有20余种指南的评价工具,其中指南研究与评价工具Ⅱ(appraisal of guidelines for research and evaluation,AGREE Ⅱ)应用最为广泛[13-14],但部分条目在国内指南/共识中尚不能做到,如审计工具等,存在局限性。考虑到中国临床实践的特点,当前已建立了更加符合中国实际情况、实用性较强的中国临床实践指南评价体系(AGREE-China,2017版),并对各条目评分标准进行了详细解释和初步验证[15]。但自2018年发布以来,该工具的国内使用率仍较低,中文发布的相关指南/共识方法学评价仍以AGREE Ⅱ为主。目前,对AGREE-China适用性验证的研究较少,也缺乏对中国脆性骨折指南/共识质量评价的相关研究。针对上述问题,本研究拟同时采用AGREE Ⅱ和AGREE-China对该领域中国指南/共识进行质量评价,以期遴选出高质量的中国脆性骨折指南/共识。
1 资料与方法
1.1 纳入与排除标准
1.1.1 纳入标准
① 疾病诊断标准符合脆性骨折或骨质疏松性骨折定义[16],包括老年人骨折、绝经期妇女骨折;② 符合临床实践指南、专家共识的定义和规范[17];③ 语种限定为中文。
1.1.2 排除标准
① 指南/共识解读、摘要、评析、讨论稿、草案和会议论文;② 重复发表、被新版代替的旧版指南/共识;③ 指南/共识整体是关于骨质疏松的防治,仅部分内容涉及脆性骨折的诊疗。
1.2 文献检索策略
计算机检索CBM、CNKI、WanFang Data和VIP数据库收录国内期刊发表的脆性骨折的指南/共识,同时检索医脉通指南网、中华医学会官网、中国医师协会官网、中华中医药学会官网等获取以专著或其他形式出版的脆性骨折指南/共识,检索时限均从建库至2021年8月2日。检索词包括:脆性、骨质疏松、老年、绝经、骨折、指南、共识等。以CBM为例,其具体检索策略见框1。

1.3 文献筛选与资料提取
2位评价者独立筛选文献、提取资料并交叉核对,若有不同意见,则请第三位评价者协助判断。文献筛选时先剔重,通过阅读题目和摘要排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。资料提取内容包括指南/共识的名称、发布时间、制定机构/作者、出版期刊、页数、制定机构数、编写人数、专家人数、参考文献数、是否为循证指南、是否为更新版本、证据评级标准等。
1.4 纳入研究的质量评价
分别使用AGREE Ⅱ和AGREE-China对纳入的指南/共识进行质量评价。AGREE Ⅱ[14]包括6个领域(范围和目的、参与人员、制定的严谨性、清晰性、应用性和编辑的独立性),共23个条目,每个条目评分为1~7分,评分越高,质量越高。各领域得分率=[(评价者对该领域实际评分和−最低可能评分)/(该领域最高可能评分−最低可能评分)]×100%。最高可能评分=7分×评价者人数×领域条目数,最低可能评分=1分×评价者人数×领域条目数。根据各领域得分情况将指南或共识的推荐级别分为3级;A级(≥4个领域得分率≥50%)、B级(1~3个领域得分率≥50%)和C级(没有领域得分率≥50%)[18-19]。AGREE-China[15]包括5个领域(科学性/严谨性、有效性/安全性、经济性、可用性/可行性、利益冲突),共15个条目,每个条目评分为0~5分,权重系数为0.5~2,评分越高,则认为质量也越高。各领域得分率=(评价者对该领域评分和/最高可能评分和)×100%;最高可能评分=5分×各条目权重系数×评价者人数×领域条目数。指南整体的推荐级别可结合总得分率分为3级:强推荐(总得分率≥50%)、弱推荐(20%≤总得分率<50%)和不推荐(总得分率<20%)。
1.5 统计分析
对2个评价工具得出的指南推荐级别结果采用SAS 9.4软件计算加权κ值[20],对相同条目的平均得分率采用SPSS 22.0软件计算组内相关系数[21](intraclass correlation coefficients,ICC)来评价2个工具一致性。一般认为,当0.40<ICC或κ<0.75时为中度一致,ICC或κ≥0.75一致性极佳,ICC或κ≤0.40时,一致性极差[22]。2位评价者系统学习AGREE Ⅱ和AGREE-China评价工具,逐条梳理条目并达成一致认识,并计算各领域ICC。采用EXCEL 2016进行数据整理与分析。
2 结果
2.1 文献筛选流程及结果
初检出相关文献375篇,经逐层筛选后,最终纳入25篇指南或共识[16,23-46]。文献筛选流程及结果见图1。

*所检索的数据库(网站)及检出文献数具体如下:CBM(
2.2 纳入研究的基本特征
纳入的研究以“指南”命名的有9部(36.0%)[16,25,30-31,34,39,41,43-44],以“共识”命名的有16部(64.0%)[23-24,26-29,32-33,35-38,40,42,45-46]。出版期刊为中华医学会系列期刊的有21部(84.0%)[16,23-26,28-37,39-40,42,44-46],其他期刊的有4部(16.0%)[27,38,41,43]。仅3部(12.0%)指南为循证指南[16,30-31],其中2部(8.0%)使用牛津证据分级与推荐意见强度[30-31],1部(5.0%)使用GRADE分级系统[16];另有1部(5.0%)使用的证据评级标准不明确[24]。仅有1部(5.0%)为更新指南[39]。纳入指南与共识的发表年份为2014—2021年,中位年份是2018年;发表页数为4~13页,中位页数是7页;制定机构数为1~6个(其中7部指南/共识未提及[28-30,33,41,44-45],占比28.0%),中位机构数是2个;编写人数为2~44人(其中6部指南/共识未提及[27,31-32,36,38-39],占比24.0%),中位人数是11人;制定专家数为22~213人(其中8部指南/共识未提及[28-29,34,36,41-43,46],占比32.0%),中位专家数是46人;制定时参考文献数为0~134条,中位参考文献数是51条。
2.3 AGREE Ⅱ和AGREE-China的评价结果
纳入的25部指南/共识使用AGREE Ⅱ和AGREE-China的评价结果见表1。在AGREE Ⅱ的6个领域中:① 范围和目的。该领域包含3个条目,平均分及其标准差分别为5.02±0.87、4.16±0.68和5.02±0.89。该领域平均得分率为62.22%,最小和最大得分率分别为38.89%[45-46]和77.78%[16]。其中8部指南/共识[16,26-28,30,32,34,36]明确描述了总目的,其余在背景部分也较为清晰地说明制定目的;所有指南/共识虽然没有报告明确的PICO原则,但较为准确地描述了所涵盖的卫生问题,其中9部指南/共识[16,24-25,31,39-41,43-44]针对目标应用人群的诊断、分型十分清晰。② 参与人员。该领域包含3个条目,平均分及其标准差为3.86±1.18,1.00±0和4.42±1.34。该领域平均得分率为34.89%,最小值和最大值分别为16.67%[39-42,45]和55.56%[28-29]。评价中仅2部共识不仅报告了各专家的基本信息[28-29],还充分描述其职责和工作内容,其余指南/共识交代的姓名、所在单位和科室等内容不超过3项;所有指南/共识均未考虑目标人群的观点和选择;仅部分指南/共识提出明确的适用者。③ 制定的严谨性。该领域包含8个条目,平均分及其标准差分别为1.68±1.87、1.56±1.50、1.60±1.67、1.68±1.30、4.18±1.06、4.00±1.59、1.20±0.99和1.12±0.59。该领域平均得分率为18.79%,最小值和最大值分别为4.17%[41]和68.75%[16]。该领域所涉及的条目最多,且6项评分均较低,仅3部指南[16,30-31]应用了系统的方法学检索证据并清楚地描述选择证据的标准、证据群的优缺点及形成推荐建议的方法,2部[24-25]对形成推荐建议的方法并未详细报告;大部分指南在形成推荐建议时考虑了对健康的效益、不良反应和风险,但推荐意见和支持证据间联系较弱;仅1部[16]公布了外部专家评审和更新计划。④ 清晰性。该领域包含3个条目,平均分及其标准差为3.58±1.64、4.06±1.08和3.58±1.79。该领域平均得分率为45.67%,最小和最大得分率分别为13.89%[45]和94.44%[30-31]。评价中7部指南/共识[16,23-24,26,30-32]重要的推荐意见都作为标题或单独成一段落,容易识别,其中仅3部[16,30-31]采用牛津证据分级与推荐意见强度或GRADE系统,推荐意见明确;大部分虽然推荐意见分级不明确,但也都列出了不同的治疗选择。⑤ 应用性。该领域包含4个条目,平均分及其标准差分别为4.00±1.74、4.26±1.58、3.90±1.27和1.00±0.00。该领域平均得分率为38.17%,最小和最大得分率分别为16.67%[45]和58.33%[27-28,31]。评价中部分指南/共识描述了应用过程中遇到的阻碍因素可能源于学科与技术的进步对相关内容的不断完善,同时临床实践也需要根据实际可得的医疗资源来调整;部分也提供了应用于实践的推荐建议和(或)工具;但所有指南/共识均未提供检测和(或)稽查的标准。⑥ 编辑独立性。该领域包含2个条目,平均分及其标准差分别为1.00±0和2.60±2.36。该领域平均得分率为13.33%,且得分率只出现2种情况:8部指南/共识[16,23,26-30,32]未报告是否有赞助方,但公开了利益冲突声明(得分率均为41.67%);其余[24-25,31,33-46]既无赞助方信息,也未报告制定成员间的利益关系和冲突(得分率均为0%)。综上,25部指南/共识的推荐级别为A级3部,B级20部,C级2部。

在AGREE-China的5个领域中:① 科学性/严谨性。该领域包含8个条目,平均分及其标准差分别为2.46±0.71、3.38±1.41、1.34±1.08、0.52±1.43、0.32±0.62、0.72±1.70、0.12±0.59和0.12±0.59。该领域平均得分率为20.36%,最小和最大得分率分别为1.82%和67.27%。该领域所涉及的条目最多,且6项评分均较低,所有指南/共识均未明确是否有方法学家的参与,仅1部[16]有完整而详细的检索策略(包括检索词、数据库、纳排标准和检索时间范围)、证据的分级和定义、推荐意见的形成过程、推荐等级、专家外审和更新计划等内容。② 有效性/安全性。该领域包含2个条目,平均分及其标准差为0.84±1.23和1.64±1.06。该领域平均得分率为25.20%,最小和最大得分率分别为0%和70.00%。大部分指南/共识在评价疗效时报告具体数值的推荐方案占比低于25%,在报告不良反应方面,仅5部[16,24,26,31,36]报告了具体数据。③ 经济性。该领域只有1个条目,平均分及其标准差为0.72±1.29,平均得分率为14.40%,且得分率只出现2种情况:6部指南/共识[16,23-24,36,39,43]提及卫生经济学相关内容,但均没有报告具体数据(得分率均为60.00%);其余19部[25-35,37-38,40-42,44-46]则均未提及(得分率均为0%)。④ 可用性/可行性。该领域包含3个条目,平均分及其标准差分别为1.32±1.87,3.08±0.40和2.88±0.59。该领域平均得分率为49.87%,最小和最大得分率分别为30.00%和86.67%[16]。所有指南/共识全文均在国内期刊发表,并能在数据库中获取;从参考文献可看出,都使用了国内的研究证据;另外大部分指南/共识全文表达均较为清晰,其中3部[16,30-31]写作尤为规范。⑤ 利益冲突。该领域只有1个条目,平均分及其标准差为3.64±0.94,平均得分率为72.80%,且得分率只出现2种情况:8部指南/共识[16,23,26-30,32]有利益冲突声明(得分率均为100.00%),另外17部[24-25,31,33-46]虽无利益冲突声明,但指南中未出现药物的商品名,可能不会影响到指南的推荐意见(得分率均为60.00%)。综上,25部指南/共识整体的印象条目评价为强推荐3部,弱推荐19部,不推荐3部。
2.4 评价结果的一致性
25部指南/共识使用AGREE Ⅱ和AGREE-China评价时,推荐级别的关系见表2,其中等级一致22部[16,23-40,42-43,45],不一致3部[41,44,46],推荐级别的加权κ值为0.694[95%CI(0.373,1.000),P<0.001],呈现中度一致性。两种工具评价条目比较见表3,结果显示,AGREE-China对AGREE Ⅱ评价条目作了较大幅度调整。其中,条目合并15个,拆分1个,改编2个,删去1个,新增1个,基本未变4个。在4个基本未变的条目中,两种评价工具ICC均大于0.85,一致性均较好,其中仅1个条目ICC的95%CI下限低于0.75。2名评价者对25部指南/共识使用AGREE Ⅱ和AGREE-China评价的各领域ICC均大于0.85,一致性均较好,结果见表4。



3 讨论
本研究采用AGREE Ⅱ和AGREE-China两种评价工具,共同遴选出3部高质量指南,分别为《中国脆性骨折术后规范化抗骨质疏松治疗指南(2021)》[16]、《症状性陈旧性胸腰椎骨质疏松性骨折手术治疗临床指南》[30]和《急性症状性骨质疏松性胸腰椎压缩骨折椎体强化术临床指南》[31]。3部指南使用AGREE Ⅱ评价时,均有4个领域得分率大于50%;使用AGREE-China评价时,其总得分率均大于60%。
纳入的25部指南/共识中有21部(94.00%)出自中华医学会系列期刊。作为中国医疗行业的权威组织[12],中华医学会近年来倡导使用循证指南方法,提高了指南的制定质量,例如本研究一致遴选出的3部指南[16,30-31]均为近3年发布的循证指南。其写作均尤为规范,应用了系统的方法学检索证据、清楚地描述了选择证据的标准和形成推荐建议的方法,并采用了牛津证据分级与推荐意见强度或GRADE系统,且对有效性和安全性方面的描述也非常详细。而对共识的认知,也并非如普遍观点一样,在科学性、透明性和可靠性方面低于指南[17]。在本研究中,仅2部最新共识[28-29]既交代了制定人员的基本信息,又充分描述各专家的职责和工作内容,在AGREE Ⅱ部分条目中评分略高。因此无论使用哪种指导性文件,使用者均应掌握对其质量和可信度进行评估的基本方法,以免受到不恰当推荐意见的误导[17]。
尽管AGREE Ⅱ评价工具已被广泛应用,但尚无统一标准来解释得分并给出推荐意见[47],因此本研究为促进与现有研究的一致性,依据得分率≥50%的领域数来评判[18-19];而AGREE-China对整体印象的评价也存在类似问题,对此本研究遵照AGREE-China的使用方法,计算权重,统计了指南/共识的总得分率,这是以往大部分研究所忽略的[48-51],并参照AGREE Ⅱ以50%为界,最终以强、弱和不推荐3个等级结合总得分率确定,以增强总体评价的客观性。尽管AGREE-China在AGREE Ⅱ的基础上作了较大的修改,但通过计算加权κ值和ICC,均表明两种评价工具有较好的一致性。相比于单用AGREE-China遴选指南/共识并验证其实用性的研究[52],本研究联合两种工具评价的结果更可靠。
本研究的两种评价工具各有优劣。AGREE Ⅱ中部分条目,目前国内指南/共识时尚不能做到,如考虑目标人群的观点和选择、监控和审计标准等,基本属于无效条目,因此AGREE-China删除了相关条目,其评价条目(n=15)较AGREE Ⅱ(n=23)更少,评价时间可大幅缩短[15]。除此之外,AGREE-China评分标准非常详细,对每个条目赋分(1~5分)都给予了量化的评分细则,例如可根据行业专家的人数(1人、2~5人、5人以上)、推荐意见形成时考虑因素个数(1个、2个、多个)、推荐意见设置等级的占比(<50%、50%~75%、>75%)等匹配相应评分;而AGREE Ⅱ每个条目的赋分(1~7分)取决于报道的完整性和质量,结果主观性较大且比较依赖评价者的熟练程度。由于AGREE-China比AGREE Ⅱ评分更简便,评价者间的差异缩小,各领域得分率呈现高度一致,因此本研究结果与先前的初步验证基本相符[15]。在本研究中,编辑独立性得分率在AGREE Ⅱ评价中最低,而利益冲突得分率在AGREE-China评价中最高,原因是AGREE-China针对没有报告利益冲突声明的情况下,文献只要未出现药物的商品名便可给予中等评分(3分),而相同情况在AGREE Ⅱ中获得的评分往往很低。由此可见,AGREE Ⅱ对赞助单位、利益冲突等内容的评价比AGREE-China更严格。此外,AGREE-China工具还存在一些不足,如在“经济性”和“利益冲突”领域的评价标准仅制定了3个评分等级(0、3、5分),导致评分结果区分度不高,不能充分体现指南/共识间的差异性。特别是对“利益冲突”领域的评价,若指南报告不实,仅通过短短几行声明文字,便认可指南/共识的高“透明度”,则会导致错误的评价结果[53]。总体而言,AGREE-China的使用比AGREE Ⅱ更容易,鉴于中国临床实践的特点,AGREE-China更适合作为中国指南/共识的质量评价工具,尤其适用于初学者。
既往研究表明,中国部分领域指南/共识的方法学质量并不高:在宫颈癌[54]、肝癌[55]领域使用AGREE Ⅱ发现,指南主要是在参与人员、制定的严谨性、编辑的独立性领域得分率较低;而在消化内科[52]、麻醉[48]、针灸[49]、社区获得性肺炎[51]、结直肠癌[50]等领域,指南在科学性/严谨性、有效性/安全性和经济性领域得分率较低。可见,以上评价领域的不足,是我国指南/共识存在的普遍问题,应当在今后的制定过程中进一步改善。
目前,国际上脆性骨折领域也相继发表系列指南,主要制定者包括英国国家卫生与临床优化研究所(National Institute for Health and Clinical Excellence,NICE)[56-58]和美国骨科医师学会(American Academy of Orthopaedic Surgeons,AAOS)[59-61]。今后应针对国内、国外脆性骨折领域指南进行全面评价,为我国以后循证指南与共识意见的制定提供参考。
本研究存在一定的局限性:① 纳入的指南/共识可能受期刊版面、发布标准格式等限制,未能充分展现其全部内容,且其许多补充材料与背景信息也往往未能公开,这可能会降低评分结果,导致部分指南/共识的质量被低估。② 方法学质量高并不等同于临床实用性高。为解决方法质量和临床有效性互相矛盾的问题,还应结合其他评价工具,如AGREE-REX[62]。③ AGREE-China中哪些条目和质量维度是必需的,其每个条目更精确的权重大小应由临床实际的需要来确定并验证。
综上所述,AGREE Ⅱ和AGREE-China的一致性较高,但AGREE-China更适合作为中国指南/共识的质量评价工具。中国脆性骨折指南/共识整体方法学质量并不高,近3年发布的3部循证指南可作为临床实践的参考。
利益冲突:本研究无任何利益冲突。
脆性骨折(fragility fracture)亦称骨质疏松性骨折,是骨质疏松症的最严重后果。全球每年约有1 000万例脆性骨折发生[1],我国2015年发生例次约为269万,预计2035年约为483万[2]。约50%女性和20%男性在50岁后会经历首次脆性骨折[3-4],初次骨折后有50%患者将会发生再次骨折[5]。其发病率随年龄上升而上升,研究发现脆性骨折在60岁以上老年人群中急剧增加[6]。绝经后妇女由于雌激素水平显著降低,骨质流失严重而成为脆性骨折高发人群[7-8]。该骨折的好发部位包括胸腰椎段、髋部、桡骨远端和肱骨近端[5],其中椎体和髋部骨折会严重降低老年人群寿命,长期卧床者1年病死率为20%,永久致残率为25%~35%[9-10]。随着我国人口老龄化程度加剧,该领域制定和发表的临床实践指南(简称“指南”)和专家共识(简称“共识”)越来越多。但这些指南/共识的质量参差不齐,来自不同的医学团体机构(包括中华医学会、中国医师协会、中国老年医学会、中国健康促进会等)或专家团体,存在诸多差异性,如制定方法缺乏科学性和规范性,制定版本繁多等问题[11-12],不仅妨碍临床工作人员的选择和使用,并严重影响其传播,同时低质量指南/共识还可能对患者造成伤害。因此,对中国脆性骨折指南与共识的质量评价对临床实践具有重要意义。
国际上目前有20余种指南的评价工具,其中指南研究与评价工具Ⅱ(appraisal of guidelines for research and evaluation,AGREE Ⅱ)应用最为广泛[13-14],但部分条目在国内指南/共识中尚不能做到,如审计工具等,存在局限性。考虑到中国临床实践的特点,当前已建立了更加符合中国实际情况、实用性较强的中国临床实践指南评价体系(AGREE-China,2017版),并对各条目评分标准进行了详细解释和初步验证[15]。但自2018年发布以来,该工具的国内使用率仍较低,中文发布的相关指南/共识方法学评价仍以AGREE Ⅱ为主。目前,对AGREE-China适用性验证的研究较少,也缺乏对中国脆性骨折指南/共识质量评价的相关研究。针对上述问题,本研究拟同时采用AGREE Ⅱ和AGREE-China对该领域中国指南/共识进行质量评价,以期遴选出高质量的中国脆性骨折指南/共识。
1 资料与方法
1.1 纳入与排除标准
1.1.1 纳入标准
① 疾病诊断标准符合脆性骨折或骨质疏松性骨折定义[16],包括老年人骨折、绝经期妇女骨折;② 符合临床实践指南、专家共识的定义和规范[17];③ 语种限定为中文。
1.1.2 排除标准
① 指南/共识解读、摘要、评析、讨论稿、草案和会议论文;② 重复发表、被新版代替的旧版指南/共识;③ 指南/共识整体是关于骨质疏松的防治,仅部分内容涉及脆性骨折的诊疗。
1.2 文献检索策略
计算机检索CBM、CNKI、WanFang Data和VIP数据库收录国内期刊发表的脆性骨折的指南/共识,同时检索医脉通指南网、中华医学会官网、中国医师协会官网、中华中医药学会官网等获取以专著或其他形式出版的脆性骨折指南/共识,检索时限均从建库至2021年8月2日。检索词包括:脆性、骨质疏松、老年、绝经、骨折、指南、共识等。以CBM为例,其具体检索策略见框1。

1.3 文献筛选与资料提取
2位评价者独立筛选文献、提取资料并交叉核对,若有不同意见,则请第三位评价者协助判断。文献筛选时先剔重,通过阅读题目和摘要排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。资料提取内容包括指南/共识的名称、发布时间、制定机构/作者、出版期刊、页数、制定机构数、编写人数、专家人数、参考文献数、是否为循证指南、是否为更新版本、证据评级标准等。
1.4 纳入研究的质量评价
分别使用AGREE Ⅱ和AGREE-China对纳入的指南/共识进行质量评价。AGREE Ⅱ[14]包括6个领域(范围和目的、参与人员、制定的严谨性、清晰性、应用性和编辑的独立性),共23个条目,每个条目评分为1~7分,评分越高,质量越高。各领域得分率=[(评价者对该领域实际评分和−最低可能评分)/(该领域最高可能评分−最低可能评分)]×100%。最高可能评分=7分×评价者人数×领域条目数,最低可能评分=1分×评价者人数×领域条目数。根据各领域得分情况将指南或共识的推荐级别分为3级;A级(≥4个领域得分率≥50%)、B级(1~3个领域得分率≥50%)和C级(没有领域得分率≥50%)[18-19]。AGREE-China[15]包括5个领域(科学性/严谨性、有效性/安全性、经济性、可用性/可行性、利益冲突),共15个条目,每个条目评分为0~5分,权重系数为0.5~2,评分越高,则认为质量也越高。各领域得分率=(评价者对该领域评分和/最高可能评分和)×100%;最高可能评分=5分×各条目权重系数×评价者人数×领域条目数。指南整体的推荐级别可结合总得分率分为3级:强推荐(总得分率≥50%)、弱推荐(20%≤总得分率<50%)和不推荐(总得分率<20%)。
1.5 统计分析
对2个评价工具得出的指南推荐级别结果采用SAS 9.4软件计算加权κ值[20],对相同条目的平均得分率采用SPSS 22.0软件计算组内相关系数[21](intraclass correlation coefficients,ICC)来评价2个工具一致性。一般认为,当0.40<ICC或κ<0.75时为中度一致,ICC或κ≥0.75一致性极佳,ICC或κ≤0.40时,一致性极差[22]。2位评价者系统学习AGREE Ⅱ和AGREE-China评价工具,逐条梳理条目并达成一致认识,并计算各领域ICC。采用EXCEL 2016进行数据整理与分析。
2 结果
2.1 文献筛选流程及结果
初检出相关文献375篇,经逐层筛选后,最终纳入25篇指南或共识[16,23-46]。文献筛选流程及结果见图1。

*所检索的数据库(网站)及检出文献数具体如下:CBM(
2.2 纳入研究的基本特征
纳入的研究以“指南”命名的有9部(36.0%)[16,25,30-31,34,39,41,43-44],以“共识”命名的有16部(64.0%)[23-24,26-29,32-33,35-38,40,42,45-46]。出版期刊为中华医学会系列期刊的有21部(84.0%)[16,23-26,28-37,39-40,42,44-46],其他期刊的有4部(16.0%)[27,38,41,43]。仅3部(12.0%)指南为循证指南[16,30-31],其中2部(8.0%)使用牛津证据分级与推荐意见强度[30-31],1部(5.0%)使用GRADE分级系统[16];另有1部(5.0%)使用的证据评级标准不明确[24]。仅有1部(5.0%)为更新指南[39]。纳入指南与共识的发表年份为2014—2021年,中位年份是2018年;发表页数为4~13页,中位页数是7页;制定机构数为1~6个(其中7部指南/共识未提及[28-30,33,41,44-45],占比28.0%),中位机构数是2个;编写人数为2~44人(其中6部指南/共识未提及[27,31-32,36,38-39],占比24.0%),中位人数是11人;制定专家数为22~213人(其中8部指南/共识未提及[28-29,34,36,41-43,46],占比32.0%),中位专家数是46人;制定时参考文献数为0~134条,中位参考文献数是51条。
2.3 AGREE Ⅱ和AGREE-China的评价结果
纳入的25部指南/共识使用AGREE Ⅱ和AGREE-China的评价结果见表1。在AGREE Ⅱ的6个领域中:① 范围和目的。该领域包含3个条目,平均分及其标准差分别为5.02±0.87、4.16±0.68和5.02±0.89。该领域平均得分率为62.22%,最小和最大得分率分别为38.89%[45-46]和77.78%[16]。其中8部指南/共识[16,26-28,30,32,34,36]明确描述了总目的,其余在背景部分也较为清晰地说明制定目的;所有指南/共识虽然没有报告明确的PICO原则,但较为准确地描述了所涵盖的卫生问题,其中9部指南/共识[16,24-25,31,39-41,43-44]针对目标应用人群的诊断、分型十分清晰。② 参与人员。该领域包含3个条目,平均分及其标准差为3.86±1.18,1.00±0和4.42±1.34。该领域平均得分率为34.89%,最小值和最大值分别为16.67%[39-42,45]和55.56%[28-29]。评价中仅2部共识不仅报告了各专家的基本信息[28-29],还充分描述其职责和工作内容,其余指南/共识交代的姓名、所在单位和科室等内容不超过3项;所有指南/共识均未考虑目标人群的观点和选择;仅部分指南/共识提出明确的适用者。③ 制定的严谨性。该领域包含8个条目,平均分及其标准差分别为1.68±1.87、1.56±1.50、1.60±1.67、1.68±1.30、4.18±1.06、4.00±1.59、1.20±0.99和1.12±0.59。该领域平均得分率为18.79%,最小值和最大值分别为4.17%[41]和68.75%[16]。该领域所涉及的条目最多,且6项评分均较低,仅3部指南[16,30-31]应用了系统的方法学检索证据并清楚地描述选择证据的标准、证据群的优缺点及形成推荐建议的方法,2部[24-25]对形成推荐建议的方法并未详细报告;大部分指南在形成推荐建议时考虑了对健康的效益、不良反应和风险,但推荐意见和支持证据间联系较弱;仅1部[16]公布了外部专家评审和更新计划。④ 清晰性。该领域包含3个条目,平均分及其标准差为3.58±1.64、4.06±1.08和3.58±1.79。该领域平均得分率为45.67%,最小和最大得分率分别为13.89%[45]和94.44%[30-31]。评价中7部指南/共识[16,23-24,26,30-32]重要的推荐意见都作为标题或单独成一段落,容易识别,其中仅3部[16,30-31]采用牛津证据分级与推荐意见强度或GRADE系统,推荐意见明确;大部分虽然推荐意见分级不明确,但也都列出了不同的治疗选择。⑤ 应用性。该领域包含4个条目,平均分及其标准差分别为4.00±1.74、4.26±1.58、3.90±1.27和1.00±0.00。该领域平均得分率为38.17%,最小和最大得分率分别为16.67%[45]和58.33%[27-28,31]。评价中部分指南/共识描述了应用过程中遇到的阻碍因素可能源于学科与技术的进步对相关内容的不断完善,同时临床实践也需要根据实际可得的医疗资源来调整;部分也提供了应用于实践的推荐建议和(或)工具;但所有指南/共识均未提供检测和(或)稽查的标准。⑥ 编辑独立性。该领域包含2个条目,平均分及其标准差分别为1.00±0和2.60±2.36。该领域平均得分率为13.33%,且得分率只出现2种情况:8部指南/共识[16,23,26-30,32]未报告是否有赞助方,但公开了利益冲突声明(得分率均为41.67%);其余[24-25,31,33-46]既无赞助方信息,也未报告制定成员间的利益关系和冲突(得分率均为0%)。综上,25部指南/共识的推荐级别为A级3部,B级20部,C级2部。

在AGREE-China的5个领域中:① 科学性/严谨性。该领域包含8个条目,平均分及其标准差分别为2.46±0.71、3.38±1.41、1.34±1.08、0.52±1.43、0.32±0.62、0.72±1.70、0.12±0.59和0.12±0.59。该领域平均得分率为20.36%,最小和最大得分率分别为1.82%和67.27%。该领域所涉及的条目最多,且6项评分均较低,所有指南/共识均未明确是否有方法学家的参与,仅1部[16]有完整而详细的检索策略(包括检索词、数据库、纳排标准和检索时间范围)、证据的分级和定义、推荐意见的形成过程、推荐等级、专家外审和更新计划等内容。② 有效性/安全性。该领域包含2个条目,平均分及其标准差为0.84±1.23和1.64±1.06。该领域平均得分率为25.20%,最小和最大得分率分别为0%和70.00%。大部分指南/共识在评价疗效时报告具体数值的推荐方案占比低于25%,在报告不良反应方面,仅5部[16,24,26,31,36]报告了具体数据。③ 经济性。该领域只有1个条目,平均分及其标准差为0.72±1.29,平均得分率为14.40%,且得分率只出现2种情况:6部指南/共识[16,23-24,36,39,43]提及卫生经济学相关内容,但均没有报告具体数据(得分率均为60.00%);其余19部[25-35,37-38,40-42,44-46]则均未提及(得分率均为0%)。④ 可用性/可行性。该领域包含3个条目,平均分及其标准差分别为1.32±1.87,3.08±0.40和2.88±0.59。该领域平均得分率为49.87%,最小和最大得分率分别为30.00%和86.67%[16]。所有指南/共识全文均在国内期刊发表,并能在数据库中获取;从参考文献可看出,都使用了国内的研究证据;另外大部分指南/共识全文表达均较为清晰,其中3部[16,30-31]写作尤为规范。⑤ 利益冲突。该领域只有1个条目,平均分及其标准差为3.64±0.94,平均得分率为72.80%,且得分率只出现2种情况:8部指南/共识[16,23,26-30,32]有利益冲突声明(得分率均为100.00%),另外17部[24-25,31,33-46]虽无利益冲突声明,但指南中未出现药物的商品名,可能不会影响到指南的推荐意见(得分率均为60.00%)。综上,25部指南/共识整体的印象条目评价为强推荐3部,弱推荐19部,不推荐3部。
2.4 评价结果的一致性
25部指南/共识使用AGREE Ⅱ和AGREE-China评价时,推荐级别的关系见表2,其中等级一致22部[16,23-40,42-43,45],不一致3部[41,44,46],推荐级别的加权κ值为0.694[95%CI(0.373,1.000),P<0.001],呈现中度一致性。两种工具评价条目比较见表3,结果显示,AGREE-China对AGREE Ⅱ评价条目作了较大幅度调整。其中,条目合并15个,拆分1个,改编2个,删去1个,新增1个,基本未变4个。在4个基本未变的条目中,两种评价工具ICC均大于0.85,一致性均较好,其中仅1个条目ICC的95%CI下限低于0.75。2名评价者对25部指南/共识使用AGREE Ⅱ和AGREE-China评价的各领域ICC均大于0.85,一致性均较好,结果见表4。



3 讨论
本研究采用AGREE Ⅱ和AGREE-China两种评价工具,共同遴选出3部高质量指南,分别为《中国脆性骨折术后规范化抗骨质疏松治疗指南(2021)》[16]、《症状性陈旧性胸腰椎骨质疏松性骨折手术治疗临床指南》[30]和《急性症状性骨质疏松性胸腰椎压缩骨折椎体强化术临床指南》[31]。3部指南使用AGREE Ⅱ评价时,均有4个领域得分率大于50%;使用AGREE-China评价时,其总得分率均大于60%。
纳入的25部指南/共识中有21部(94.00%)出自中华医学会系列期刊。作为中国医疗行业的权威组织[12],中华医学会近年来倡导使用循证指南方法,提高了指南的制定质量,例如本研究一致遴选出的3部指南[16,30-31]均为近3年发布的循证指南。其写作均尤为规范,应用了系统的方法学检索证据、清楚地描述了选择证据的标准和形成推荐建议的方法,并采用了牛津证据分级与推荐意见强度或GRADE系统,且对有效性和安全性方面的描述也非常详细。而对共识的认知,也并非如普遍观点一样,在科学性、透明性和可靠性方面低于指南[17]。在本研究中,仅2部最新共识[28-29]既交代了制定人员的基本信息,又充分描述各专家的职责和工作内容,在AGREE Ⅱ部分条目中评分略高。因此无论使用哪种指导性文件,使用者均应掌握对其质量和可信度进行评估的基本方法,以免受到不恰当推荐意见的误导[17]。
尽管AGREE Ⅱ评价工具已被广泛应用,但尚无统一标准来解释得分并给出推荐意见[47],因此本研究为促进与现有研究的一致性,依据得分率≥50%的领域数来评判[18-19];而AGREE-China对整体印象的评价也存在类似问题,对此本研究遵照AGREE-China的使用方法,计算权重,统计了指南/共识的总得分率,这是以往大部分研究所忽略的[48-51],并参照AGREE Ⅱ以50%为界,最终以强、弱和不推荐3个等级结合总得分率确定,以增强总体评价的客观性。尽管AGREE-China在AGREE Ⅱ的基础上作了较大的修改,但通过计算加权κ值和ICC,均表明两种评价工具有较好的一致性。相比于单用AGREE-China遴选指南/共识并验证其实用性的研究[52],本研究联合两种工具评价的结果更可靠。
本研究的两种评价工具各有优劣。AGREE Ⅱ中部分条目,目前国内指南/共识时尚不能做到,如考虑目标人群的观点和选择、监控和审计标准等,基本属于无效条目,因此AGREE-China删除了相关条目,其评价条目(n=15)较AGREE Ⅱ(n=23)更少,评价时间可大幅缩短[15]。除此之外,AGREE-China评分标准非常详细,对每个条目赋分(1~5分)都给予了量化的评分细则,例如可根据行业专家的人数(1人、2~5人、5人以上)、推荐意见形成时考虑因素个数(1个、2个、多个)、推荐意见设置等级的占比(<50%、50%~75%、>75%)等匹配相应评分;而AGREE Ⅱ每个条目的赋分(1~7分)取决于报道的完整性和质量,结果主观性较大且比较依赖评价者的熟练程度。由于AGREE-China比AGREE Ⅱ评分更简便,评价者间的差异缩小,各领域得分率呈现高度一致,因此本研究结果与先前的初步验证基本相符[15]。在本研究中,编辑独立性得分率在AGREE Ⅱ评价中最低,而利益冲突得分率在AGREE-China评价中最高,原因是AGREE-China针对没有报告利益冲突声明的情况下,文献只要未出现药物的商品名便可给予中等评分(3分),而相同情况在AGREE Ⅱ中获得的评分往往很低。由此可见,AGREE Ⅱ对赞助单位、利益冲突等内容的评价比AGREE-China更严格。此外,AGREE-China工具还存在一些不足,如在“经济性”和“利益冲突”领域的评价标准仅制定了3个评分等级(0、3、5分),导致评分结果区分度不高,不能充分体现指南/共识间的差异性。特别是对“利益冲突”领域的评价,若指南报告不实,仅通过短短几行声明文字,便认可指南/共识的高“透明度”,则会导致错误的评价结果[53]。总体而言,AGREE-China的使用比AGREE Ⅱ更容易,鉴于中国临床实践的特点,AGREE-China更适合作为中国指南/共识的质量评价工具,尤其适用于初学者。
既往研究表明,中国部分领域指南/共识的方法学质量并不高:在宫颈癌[54]、肝癌[55]领域使用AGREE Ⅱ发现,指南主要是在参与人员、制定的严谨性、编辑的独立性领域得分率较低;而在消化内科[52]、麻醉[48]、针灸[49]、社区获得性肺炎[51]、结直肠癌[50]等领域,指南在科学性/严谨性、有效性/安全性和经济性领域得分率较低。可见,以上评价领域的不足,是我国指南/共识存在的普遍问题,应当在今后的制定过程中进一步改善。
目前,国际上脆性骨折领域也相继发表系列指南,主要制定者包括英国国家卫生与临床优化研究所(National Institute for Health and Clinical Excellence,NICE)[56-58]和美国骨科医师学会(American Academy of Orthopaedic Surgeons,AAOS)[59-61]。今后应针对国内、国外脆性骨折领域指南进行全面评价,为我国以后循证指南与共识意见的制定提供参考。
本研究存在一定的局限性:① 纳入的指南/共识可能受期刊版面、发布标准格式等限制,未能充分展现其全部内容,且其许多补充材料与背景信息也往往未能公开,这可能会降低评分结果,导致部分指南/共识的质量被低估。② 方法学质量高并不等同于临床实用性高。为解决方法质量和临床有效性互相矛盾的问题,还应结合其他评价工具,如AGREE-REX[62]。③ AGREE-China中哪些条目和质量维度是必需的,其每个条目更精确的权重大小应由临床实际的需要来确定并验证。
综上所述,AGREE Ⅱ和AGREE-China的一致性较高,但AGREE-China更适合作为中国指南/共识的质量评价工具。中国脆性骨折指南/共识整体方法学质量并不高,近3年发布的3部循证指南可作为临床实践的参考。
利益冲突:本研究无任何利益冲突。