引用本文: 杜亮, 蔡羽嘉, 张永刚, 李幼平. 循证期刊学:过去、现在与未来. 中国循证医学杂志, 2019, 19(6): 729-736. doi: 10.7507/1672-2531.201904152 复制
自 1991 年 Gordon Guyatt 教授提出“循证医学”一词以来[1],循证医学至今已走过 28 年。循证医学的理念和方法已深刻影响医学实践,全面提升了证据生产的质量和数量,推动了证据的转化和临床应用;建立了高质量证据生产、报告、评价、转化的体系。循证临床实践指南、系统评价和 Meta 分析、临床试验的数量快速增长。2007 年,BMJ 在其网站通过投票选出自 1840 年以来最重要的医学进展中,循证医学位列第八[2],并被誉为“21 世纪的临床医学”。循证医学的理念和方法迅速从临床医学领域向中医药学、公共卫生、护理学、药学、临床营养和社会科学等领域跨学科扩展。医学期刊已广泛接受循证医学理念,JAMA、BMJ、Lancet、NEJM 等顶级医学期刊成为循证医学的主要倡导者和实践者,发表了大量相关研究,成为医学领域诸多里程碑事件的发起者和重要推动者。
期刊编辑与方法学家(循证医学专家、临床流行病学专家、统计学家)、临床实践者和卫生决策者广泛合作,推动了报告规范、临床试验注册、数据共享等影响深远的卫生研究和发表的政策制订和实施。兼具上述两种或多种身份的专家不断涌现,推动和创办了“循证”冠名的期刊。陈耀龙等[3]的研究显示:截止 2006 年,“循证”冠名期刊已达 24 种,涉及临床、护理、卫生保健等 12 个学科,分布于 6 个国家,涵盖中、英文两个语种。目前被 SCIE、SSCI、ESCI 和 PubMed 收录的“循证”冠名期刊分别达到 3 种、2 种、3 种和 20 种。
期刊作为循证决策与循证实践的推动者,自身的运行却因缺乏循证决策与循证实践,很多环节仍是“黑箱操作”,缺乏透明性[4]。期刊领域的“循证研究”开展不多,观察性和试验性研究均很少,而以描述性研究居多。这在一定程度上导致生物医学领域学术不端,发表的论文存在错误,缺乏重要性、科学性、可及性,及低质量报告高发,直接或间接导致了巨大的研究浪费。
1 学术不端在生物医学领域呈现增长趋势
国际上尚未对学术不端行为的定义达成共识,较公认的是美国公共卫生署、研究诚信办公室对学术不端的定义:在研究设计、实施、评审或结果报告时的捏造、篡改数据和剽窃行为[5]。2012 年,Steen[6]报告:2000~2009 年期间 PubMed 数据库中撤稿数量呈持续增长趋势,其中因学术不端行为撤稿达 196 起,占所有撤稿的 26.4%。2011 年 Wanger 等[7]报告:近 10 年 WOS 撤稿数量增长了 10 倍,因捏造、篡改数据及剽窃等学术不端行为所致撤稿占所有撤稿的 44%,而同期发表文献数增长仅 44%。Fang 等[8]对生命科学和生物医学领域的 2 047 篇论文的综合分析结果显示,学术不端撤稿占 67.4%。而近年,因学术不端所致撤稿事件更是有增无减:2015 年 3 月,BMC 撤回 43 篇论文中 41 篇来自中国;8 月,Springer 撤回旗下 10 本学术期刊上发表的 64 篇论文,绝大部分来自中国;10 月,Elsevier 撤销旗下 5 种杂志中的 9 篇论文,全部来自中国;2017 年 4 月,Springer 撤回旗下 Tumor Biology 上发表的 107 篇论文,均来自中国。2016 年,BMJ 报告称:80% 中国新药临床试验涉嫌数据造假[9]。2009 年,Wu 等[10]对发表在中文期刊上号称“随机对照试验”的 1 000 余篇论文进行电话调查其随机方法的实施情况,其中 93% 被判断为假的随机试验。即便如此,学术不端仍在很大程度上被低估。此外,对研究过程中出现的一些问题是否属于学术不端仍存在争议,包括:未获得伦理委员会批准、选择性使用统计方法、忽略数据集中的异常值、删除数据/隐藏或隐瞒数据、未披露利益冲突、重复发表、统计问题、著作权问题、数据管理/记录问题等。
2 很多生物医学论文存在错误和缺陷
除学术不端外,生物医学研究的设计、实施、分析、报告的过程中还存在大量缺陷甚至错误,尤其在统计学方面,有些缺陷甚至能够颠覆研究结论。1966 年,Schor 等[11]报告:在 JAMA 发表的 514 篇论文中,74% 有统计缺陷,7% 有致命缺陷。1998 年,王倩等[12]分析我国 5 种中华医学会系列杂志论著中统计方法的使用情况发现:正确应用的比例仅 46%。2004 年 Lee 等[13]分析了 6 种药学期刊发表的 144 篇论文发现:99 篇进行了统计分析,但其中仅 18% 的统计分析方法正确。2009 年 Afshar 等[14]报告:Journal of Urology 发表的 92 篇论文中,83% 对危险度(Ratios)的报告存在错误,78% 报告可信区间(CI)时存在错误,77% 在多元统计分析时存在错误,53% 在报告P值时存在错误,48% 在单因素统计分析时存在错误。2011 年,Kim 等[15]报告:1995~2009 年期间,发表在口腔科学领域的 418 篇文章中 51% 的论文包含至少一处统计学错误。此外,生物医学研究设计的缺陷可能导致系统性错误,产生选择性偏倚、测量偏倚和反向因果分析、过度的随机变异和混杂,从而给使用者带来误导[16]。
3 生物医学研究浪费高达 85%
生物医学研究的过程包括研究的选题、设计、实施、分析、报告、传播和监管等环节。2014 年,Lancet发表了系列研究[17-21],直击生物医学研究的浪费问题,深入讨论了如何避免浪费,增加研究价值。据估计,2010 年全球生物医学研究经费投入达 2 400 亿美元,但其中 85%(约 2 000 亿美元)存在浪费[22]。造成浪费的原因包括:① 研究问题的遴选:研究问题较少基于使用者的实际需求,或未关注重要的结局指标,有>50% 的研究并未基于系统评价结果立题。② 研究设计、方法和分析:>50% 的研究并未采用足够的措施以降低研究偏倚,导致检验效能不足及研究结果的可重复性差。③ 研究监管:对因其他原因造成的浪费监管不足;监管程度应与研究可能的风险相匹配,过度监管和监管不足共存;监管给研究者和监管者均带来负担;监管缺乏一致性。④ 研究相关信息可及性:>50% 的研究因未完整报告而不可及;对阴性结果等不利结局因报告不足而不可及;研究的原始数据不可及。⑤ 研究报告:>30% 的试验干预措施未清楚描述;>50% 的研究结局未充分报告;绝大多数研究未在系统评价其他相关证据的基础上解释研究结果。
这些问题与从研究立项到最终发表的全过程相关,发表环节既是研究过程完成的标志,也是研究成果传播、转化与应用的起点。生物医学领域目前普遍存在重前端、轻后端的情况,对论文撰写与发表环节资金投入不足,监管不够,相关人员缺乏资质认证标准,能力不足,导致相关实践与决策缺乏证据,特别是高质量研究缺乏的情况。
循证医学推动了临床实践从经验实践到循证实践的转变,生物医学期刊在实现这一转变的过程中功不可没。一些期刊主编和编辑也是循证医学的倡导者、研究者和实践者。但期刊自身的“循证决策”和透明化却远低于医学领域,期刊运行在很大程度上仍属于“黑箱操作”。故提高生物医学期刊的透明化和公开化,减少存在学术不端、有缺陷(特别是严重缺陷)论文的发表,提高发表论文的质量、完整性和可及性,是生物医学期刊的责任和使命。这一改革必须由期刊编辑、审稿人、研究者、出版商、基金机构、赞助商、监管者、用户等利益相关方达成共识和共同参与。
4 创立期刊学对改善生物医学研究质量、减少浪费、提高使用价值起到重要作用
1989 年“期刊学”(Journalologly)一词最早在美国芝加哥召开的首届国际生物医学期刊同行评审大会上由BMJ前编辑 Stephen Lock 创造[23]。在主编 George Lundberg 的支持下,JAMA 杂志副主编 Drummond Rennie 创办了首届国际生物医学期刊同行评审大会。Drummond Rennie 认为:期刊出版过程中存在许多可以通过科学方法研究的问题。如:阳性结果是否比阴性结果更容易发表?同行评审是否可以改善论文质量?······此次会议标志着期刊学的诞生,旨在聚焦研究从设计到发表的全过程,建立一套循证方法,以提高(至少是部分提高)科学记录的质量。医学期刊在这一过程中应发挥主导作用。
在上述里程碑事件中,报告规范、临床试验预注册和数据共享是由生物医学期刊主导建立的最重要的 3 个临床研究政策和制度,对推动生物医学研究透明化和提升研究的报告质量起到重要作用,对整个生物医学领域向着更加健康的方向发展具有引领作用。见框 1。

4.1 报告规范的制定和应用
1993 年,来自医学杂志、临床试验、流行病学和方法学领域的 30 位专家在加拿大渥太华召开工作会,讨论制定一种用于评估 RCT 报告质量的新量表,并在会后发表了试验报告规范(The Standards of Reporting Trials,SORT)声明[24]。声明由一个包括 32 个条目的清单和一份流程图组成,以指导研究者如何规范报告 RCT。1994 年,另一群专家(Asilomar 工作组)在美国加州 Asilomar 独立完成了类似工作,提出:在试验报告中应该包括的条目清单,并建议杂志编辑将其写进稿约[25]。
1995 年 9 月 20 日,为更好地吸引杂志采纳并推动其传播,JAMA杂志副主编 Drummond Rennie 建议两个工作组的 9 位代表(包括杂志编辑、临床流行病学家和统计学家)在芝加哥召开工作会,探讨将两份清单合二为一。清单条目的筛选使用改良的Delphi法,并尽可能循证进行条目判定,即研究此条目未报告和报告相比是否会带来偏倚。若会带来偏倚,则将该条目纳入清单。1996 年工作组在BMJ发表了随机对照试验报告的统一规范(Consolidated Standards of Reporting Trials,CONSORT)声明[26],旨在提高 RCT 的报告质量,促进读者对试验设计、实施、分析和解释的理解,帮助用于评价试验结果的真实性(包括内部和外部真实性),并指导审稿和编辑。随着新证据的不断出现,2001 和 2010 年分别发布了 CONSORT 声明更新版[27, 28]。
目前,在 CONSORT 的基础上,针对随机对照试验的其他扩展设计、观察性研究、系统评价和 Meta 分析、病例报告、定性研究、诊断性/预后研究、质量改进研究、经济学评价、临床前动物研究及研究方案 10 大类研究,全球已制定出数百部报告规范。2006 年,Doug Altman 和 David Moher 等发起成立了提高卫生研究质量和透明度(Enhancing the quality and transparency of health research,EQUATOR)协作网,旨在促进卫生研究的准确性、完整性和透明性,从而提高研究的可重复性和使用价值[29]。在英国国家知识服务部(the UK National Knowledge Service)的资助下,2008 年 6 月 EQUATOR 网络平台正式上线[30],目前 EQUATOR 平台已收录报告规范 412 个[31],基于报告规范使用决策树(图 1),可以根据研究设计选择最适合的报告规范指导研究的设计、实施、报告、同行评审和编辑出版。已有较多研究显示,报告规范可以明显提高研究的报告质量,增加研究的使用价值。

4.2 建立临床试验预注册制度
2004 年 9 月,国际医学期刊编辑委员会(ICMJE)发表声明,只接受在公共机构注册的临床试验[32]。世界卫生组织(WHO)支持 ICMJE 的做法并很快在同年 10 月发表《纽约宣言》[33],声明 WHO 应牵头制定正规程序以引领全球实行统一的临床试验注册体系,并于 11 月发表《墨西哥宣言》[34],决定由 WHO 牵头建立国际临床试验注册平台(ICTRP)。2005 年 7 月,世界医学编辑学会在编辑伦理规范中专门论及临床试验注册的编辑政策,要求医学期刊编辑支持建立临床试验注册机构和注册制度,并发表经预注册的临床试验。2007 年 ICMJE 重申,认可世界卫生组织批准的所有一级注册机构。迄今 WHO ICTRP 一级注册机构已达 16 个(表 1),注册临床试验数已达 28 万个。在临床试验注册制度实施 1 年后,发表注册临床试验的比例就从 12% 快速提升到 53%。在临床试验注册制度实施 10 年后,至 2013 年末,发表的临床试验中申明已注册的比例约达 61%。ICMJE 成员期刊(64%)和高水平期刊(如影响因子排名前 10 的外科期刊)(87%)发表注册临床试验占比明显更高[35]。

4.3 建立数据共享制度
为进一步推动临床试验透明化,2016 年 1 月 20 日,ICMJE 发布关于共享临床试验原始数据的倡议,要求在临床试验注册时提供关于共享原始数据的计划,包括开放共享时间和途径。2017 年,ICMJE 在 JAMA 发文要求,从 2018 年 7 月 1 日起,发表的临床试验需提供数据共享的声明[36]。预计实施该制度可很大程度提高研究透明化,特别是提高研究实施过程数据的真实性和可靠性。
5 向循证期刊学迈进
2016 年,David Moher 等[4]在BMC Medicine发文呼吁创建国际最佳实践期刊研究网络,为期刊学研究的创证提供平台。目前期刊学缺乏研究证据,已有研究多为描述性研究,观察性研究和半实验研究也较少。可以借鉴循证医学和临床流行病学研究的方法开展期刊学研究,优化期刊学研究的设计,开展“临床试验”、系统评价和 Meta 分析,甚至跨期刊的多中心试验。可以借鉴 COMET 遴选核心指标集的方法,遴选核心结局指标,以回答期刊学研究领域至今尚未解决的问题(如评价生物医学研究质量核心指标、评价同行评审质量的核心指标、哪些同行评审措施对提升同行评审质量有效)。通过搭建国际最佳实践期刊研究网络,加强期刊间的合作与交流,为开展多中心研究创造条件,并加强行业内的数据共享(如共享同行评审数据)。
5.1 循证建立生物医学编辑的核心能力
医学期刊的主编和编辑对期刊的办刊方向和论文质量把关作用至关重要。受期刊编辑能力的限制,可能不能识别研究设计、实施、分析、报告中的不端行为、错误、不充分报告等问题,导致问题研究和低质量研究的发表。这些低质量研究充斥于海量研究中,如被误识别为高质量研究进行使用,将误导临床实践,给后续研究的开展提供错误信息,不仅浪费研究资源,甚至可能危害患者。
医疗行业已建立完善的职业认证体系,要获得职业医师资格,需要经过严格的培训和考核;即使获得医师资格,也需要接受终身继续教育。但迄今研究者和编辑的职业认证仍缺乏相应的培养和认证体系。
2014 年,Moher 等[37]循证制定了生物医学期刊编辑应该具备的 14 项核心能力(框 2)。这些核心能力对于期刊编辑和出版单位循证遴选合格的编辑,设计和开展编辑的在职培训都具有重要作用。

目前,对期刊编辑和审稿人缺乏有效的培养和资质认定机制。医学科研论文的编辑和审稿能力应成为医药院校学生,特别是研究生以上资历学生的基本能力。但目前的学校教育往往更重视研究前端的教育而弱化研究后端的能力培养,论文的编辑和审稿能力与被认为与中学阶段的教育相关,不属于大学教育与培养的范畴。而事实上,在中国现行从小学到研究生的学校教育中都没有相关要求、内容和考核,亟待系统建设,进行分段教育、培训,逐级深化和强化,使之成为所有受教育者的基本诚信教育内容。
5.2 循证建立同行评审体系
同行评审是科技期刊的重要制度,已被多数期刊执行。2007 年,Jefferson 等[38]的 Cochrane 系统评价纳入 28 项研究,结果显示:没有确切证据表明同行评审者的研究水平和盲法审稿、培训及沟通对改善同行评审质量有效,仅采用清单审稿略有效果。2016 年,Bruce 等[39]系统评价了各种改进生物医学期刊同行评审质量的措施,共纳入 22 项随机对照试验,包括培训审稿人(n=5)、增加统计学审稿人(n=2)、采用清单审稿(n=2)、开放同行评审(如告知审稿人公开其身份)(n=7)、作者的姓名和机构对审稿人设盲(n=6)、提高审稿速度的其他措施(n=3),结果显示:除增加统计学审稿人[SMD=0.58,95%CI(0.19,0.98)]和开放同行评审[SMD=0.14,95%CI(0.05,0.24)]可以改善同行评审质量外,其余措施均未见能明显改善同行评审质量。2019 年,Superchi 等[40]发表的系统评价,总结了评价同行评审质量的工具,共发现 24 个工具,包括 23 个量表和 1 个清单,涉及 9 个主要维度,但这些工具均未明确定义“同行评审质量”,其制定过程的科学性也欠佳。Drummond Rennie 创办同行评审大会的目的就是要促进同行评审相关研究的开展,首届大会举办至今已 30 年,发表的同行评审相关研究依然较少,在研项目也很缺乏,已知的注册研究仅 European COST action PEERE 等[41]数项,因相关研究设计与实施困难、资金缺乏等原因难以推广。Gasparyan 等[42]认为:高质量、循证的同行评审的终极目标是发表论文能促进诊断、治疗指南的修订,并改善卫生保健结局。
生物医学期刊同行评审的质量在很大程度上依赖于审稿人的资质,但目前却缺乏公认的最佳审稿人资质的标准。Blace 等[43]的研究显示:接受过流行病学和统计学培训,小于 60 岁,来自北美,本身做研究的审稿人的审稿质量往往较好。但 Callaham 等[44]的大样本调查显示:论文的同行评审质量仅与审稿人是否来自大学附属医院和年龄(毕业 10 年内)相关。
上述研究结果提示:① 未来需要循证构建生物医学期刊同行评审专家的核心能力,循证遴选同行评审专家,并循证制定围绕同行评审的系列措施(包括提高同行评审质量和效率的干预措施、评价同行评审质量的工具);② 迫切需要厘清同行评审的目的和意义,明确同行评审报告是否可以使用的判断标准。
5.3 为出版政策和出版规范的完善提供更充分的证据
生物医学期刊领域的出版政策和规范制定方法的科学性已大为改善。如制定报告规范,从建立工作组、收集条目证据,到遴选条目已建立起标准流程,但因缺乏关于条目证据的原始研究和受方法学限制,相关研究的设计和实施存在困难;依然缺乏相关证据,特别是高质量证据。但近年已在一些领域取得突破,如临床试验未实施或未充分实施随机、分配隐藏、盲法,会导致研究结果产生偏倚,但其影响的程度大小和与不同结局的相关性,却缺乏量化证据。2012 年,Savovic 等[45]采用 Meta 流行病学方法定量评价了未实施或未充分实施随机、分配隐藏和盲法对研究结果的影响程度,其中未实施或未充分实施盲法带来的偏倚最大,平均夸大干预措施效果 13%[ROR=0.87,95%CI(0.79,0.96)]。但基于不同类别结局指标的亚组分析结果显示,主观结局明显较客观结局(如死亡或生存率)受其影响大,这对指导临床研究的设计、实施,精准判断研究结果可靠性,均具有重要指导意义。
5.4 循证构建衡量生物医学论文质量的核心指标
造成研究浪费的 5 方面原因中,未关注重要的结局指标是因研究问题遴选环节问题造成研究浪费的重要因素[18]。2010 年,生物医学期刊编辑和临床研究者、试验注册机构、基金资助机构等相关人员发起成立了 COMET(core outcome measures in effectiveness trials)工作组,致力于促进有效性试验核心结局指标研究。截止 2017 年 12 月,COMET 数据库中收录的已完成的核心指标集已达 284 项[46]。这对提高研究价值、减少浪费、降低研究偏倚、促进研究转化、指导临床实践都具有积极意义。借鉴 COMET 的成功经验,循证建立编辑学研究主题,包括评价同行评审质量、论文质量等的核心指标集,对提升期刊学研究的科学性、开展期刊学相关的 Meta 分析研究、促进生物医学期刊相关出版政策和规范的制定、促进已发表论文的转化和应用都具有重要意义。
6 循证期刊学在中国
自中国循证医学中心 1997 年建立以来,一直关注期刊学研究,推动出版政策和规范的引进和应用。
2001 年将 CONSORT 声明引进其创办的《中国循证医学杂志》稿约,用于规范随机对照试验的报告[47];此后陆续翻译和解读了系列研究报告规范,在所主编的人卫社《循证医学》研究生教材[48]、人卫社《实用循证医学》专著[49]中编写了关于报告规范的章节,并将其纳入本科生教育、研究生教育和毕业后教育常规内容。
2004 年在加拿大渥太华召开的 Cochrane 年会上,中国循证医学中心代表参加了启动临床试验注册平台建设的会议。2007 年 5 月,中国临床试验注册中心被 WHO ICTPR 认证为一级注册机构,并得到 ICMJE 认可:在中国临床试验注册中心注册的临床试验在全球所有生物医学期刊上,与美国临床试验注册中心(ClinicalTrial.gov)及其他一级注册机构同等对待和发展。中国临床试验注册中心也最早倡导在注册平台公布临床试验结果,及通过注册平台共享临床试验数据的注册中心。截至 2018 年底,在中国临床试验注册中心注册的临床试验已达 20 033 个,其中 2018 年注册临床试验达到 6 223 个。中国临床试验注册中心建设之初,就发起建立了中国临床试验注册与发表协作网,以期推动生物医学期刊的协作。
2009 年,李幼平、杜亮赴加拿大温哥华参加了第六届生物医学期刊同行评审大会,并在此后的两届大会均派代表参会,三届大会均有壁报交流。2017 年李幼平作为中国唯一代表被邀请成为美国芝加哥召开的第八届生物医学期刊同行评审大会委员[50]。
2017 年,杜亮等[51]在《中国循证医学杂志》发文,倡导强化两端,把好临床试验入口和出口关,最终建立从选题、设计、预注册、实施、分析、报告、同行评审、发表、传播、转化、后效评价、持续改进、不断更新的临床研究全程质量控制体系。
循证期刊学应以生物医学研究从设计到发表的全过程遇到的问题为导向,综合运用包括临床流行病学和循证医学的思想和方法,不断发展和完善。正如Lancet主编 Richard Horton 所言:“期刊的工作方式有一些黑暗的角落,需要有一些光照在它们上面”,循证期刊学正恰如这束光。马里兰大学药学院 Peter Doshi 坚信“当期刊一起行动时,它们可以真正改变行为”,但这有赖于教育先行,并需要主编、编辑、审稿专家和作者的共同努力。
自 1991 年 Gordon Guyatt 教授提出“循证医学”一词以来[1],循证医学至今已走过 28 年。循证医学的理念和方法已深刻影响医学实践,全面提升了证据生产的质量和数量,推动了证据的转化和临床应用;建立了高质量证据生产、报告、评价、转化的体系。循证临床实践指南、系统评价和 Meta 分析、临床试验的数量快速增长。2007 年,BMJ 在其网站通过投票选出自 1840 年以来最重要的医学进展中,循证医学位列第八[2],并被誉为“21 世纪的临床医学”。循证医学的理念和方法迅速从临床医学领域向中医药学、公共卫生、护理学、药学、临床营养和社会科学等领域跨学科扩展。医学期刊已广泛接受循证医学理念,JAMA、BMJ、Lancet、NEJM 等顶级医学期刊成为循证医学的主要倡导者和实践者,发表了大量相关研究,成为医学领域诸多里程碑事件的发起者和重要推动者。
期刊编辑与方法学家(循证医学专家、临床流行病学专家、统计学家)、临床实践者和卫生决策者广泛合作,推动了报告规范、临床试验注册、数据共享等影响深远的卫生研究和发表的政策制订和实施。兼具上述两种或多种身份的专家不断涌现,推动和创办了“循证”冠名的期刊。陈耀龙等[3]的研究显示:截止 2006 年,“循证”冠名期刊已达 24 种,涉及临床、护理、卫生保健等 12 个学科,分布于 6 个国家,涵盖中、英文两个语种。目前被 SCIE、SSCI、ESCI 和 PubMed 收录的“循证”冠名期刊分别达到 3 种、2 种、3 种和 20 种。
期刊作为循证决策与循证实践的推动者,自身的运行却因缺乏循证决策与循证实践,很多环节仍是“黑箱操作”,缺乏透明性[4]。期刊领域的“循证研究”开展不多,观察性和试验性研究均很少,而以描述性研究居多。这在一定程度上导致生物医学领域学术不端,发表的论文存在错误,缺乏重要性、科学性、可及性,及低质量报告高发,直接或间接导致了巨大的研究浪费。
1 学术不端在生物医学领域呈现增长趋势
国际上尚未对学术不端行为的定义达成共识,较公认的是美国公共卫生署、研究诚信办公室对学术不端的定义:在研究设计、实施、评审或结果报告时的捏造、篡改数据和剽窃行为[5]。2012 年,Steen[6]报告:2000~2009 年期间 PubMed 数据库中撤稿数量呈持续增长趋势,其中因学术不端行为撤稿达 196 起,占所有撤稿的 26.4%。2011 年 Wanger 等[7]报告:近 10 年 WOS 撤稿数量增长了 10 倍,因捏造、篡改数据及剽窃等学术不端行为所致撤稿占所有撤稿的 44%,而同期发表文献数增长仅 44%。Fang 等[8]对生命科学和生物医学领域的 2 047 篇论文的综合分析结果显示,学术不端撤稿占 67.4%。而近年,因学术不端所致撤稿事件更是有增无减:2015 年 3 月,BMC 撤回 43 篇论文中 41 篇来自中国;8 月,Springer 撤回旗下 10 本学术期刊上发表的 64 篇论文,绝大部分来自中国;10 月,Elsevier 撤销旗下 5 种杂志中的 9 篇论文,全部来自中国;2017 年 4 月,Springer 撤回旗下 Tumor Biology 上发表的 107 篇论文,均来自中国。2016 年,BMJ 报告称:80% 中国新药临床试验涉嫌数据造假[9]。2009 年,Wu 等[10]对发表在中文期刊上号称“随机对照试验”的 1 000 余篇论文进行电话调查其随机方法的实施情况,其中 93% 被判断为假的随机试验。即便如此,学术不端仍在很大程度上被低估。此外,对研究过程中出现的一些问题是否属于学术不端仍存在争议,包括:未获得伦理委员会批准、选择性使用统计方法、忽略数据集中的异常值、删除数据/隐藏或隐瞒数据、未披露利益冲突、重复发表、统计问题、著作权问题、数据管理/记录问题等。
2 很多生物医学论文存在错误和缺陷
除学术不端外,生物医学研究的设计、实施、分析、报告的过程中还存在大量缺陷甚至错误,尤其在统计学方面,有些缺陷甚至能够颠覆研究结论。1966 年,Schor 等[11]报告:在 JAMA 发表的 514 篇论文中,74% 有统计缺陷,7% 有致命缺陷。1998 年,王倩等[12]分析我国 5 种中华医学会系列杂志论著中统计方法的使用情况发现:正确应用的比例仅 46%。2004 年 Lee 等[13]分析了 6 种药学期刊发表的 144 篇论文发现:99 篇进行了统计分析,但其中仅 18% 的统计分析方法正确。2009 年 Afshar 等[14]报告:Journal of Urology 发表的 92 篇论文中,83% 对危险度(Ratios)的报告存在错误,78% 报告可信区间(CI)时存在错误,77% 在多元统计分析时存在错误,53% 在报告P值时存在错误,48% 在单因素统计分析时存在错误。2011 年,Kim 等[15]报告:1995~2009 年期间,发表在口腔科学领域的 418 篇文章中 51% 的论文包含至少一处统计学错误。此外,生物医学研究设计的缺陷可能导致系统性错误,产生选择性偏倚、测量偏倚和反向因果分析、过度的随机变异和混杂,从而给使用者带来误导[16]。
3 生物医学研究浪费高达 85%
生物医学研究的过程包括研究的选题、设计、实施、分析、报告、传播和监管等环节。2014 年,Lancet发表了系列研究[17-21],直击生物医学研究的浪费问题,深入讨论了如何避免浪费,增加研究价值。据估计,2010 年全球生物医学研究经费投入达 2 400 亿美元,但其中 85%(约 2 000 亿美元)存在浪费[22]。造成浪费的原因包括:① 研究问题的遴选:研究问题较少基于使用者的实际需求,或未关注重要的结局指标,有>50% 的研究并未基于系统评价结果立题。② 研究设计、方法和分析:>50% 的研究并未采用足够的措施以降低研究偏倚,导致检验效能不足及研究结果的可重复性差。③ 研究监管:对因其他原因造成的浪费监管不足;监管程度应与研究可能的风险相匹配,过度监管和监管不足共存;监管给研究者和监管者均带来负担;监管缺乏一致性。④ 研究相关信息可及性:>50% 的研究因未完整报告而不可及;对阴性结果等不利结局因报告不足而不可及;研究的原始数据不可及。⑤ 研究报告:>30% 的试验干预措施未清楚描述;>50% 的研究结局未充分报告;绝大多数研究未在系统评价其他相关证据的基础上解释研究结果。
这些问题与从研究立项到最终发表的全过程相关,发表环节既是研究过程完成的标志,也是研究成果传播、转化与应用的起点。生物医学领域目前普遍存在重前端、轻后端的情况,对论文撰写与发表环节资金投入不足,监管不够,相关人员缺乏资质认证标准,能力不足,导致相关实践与决策缺乏证据,特别是高质量研究缺乏的情况。
循证医学推动了临床实践从经验实践到循证实践的转变,生物医学期刊在实现这一转变的过程中功不可没。一些期刊主编和编辑也是循证医学的倡导者、研究者和实践者。但期刊自身的“循证决策”和透明化却远低于医学领域,期刊运行在很大程度上仍属于“黑箱操作”。故提高生物医学期刊的透明化和公开化,减少存在学术不端、有缺陷(特别是严重缺陷)论文的发表,提高发表论文的质量、完整性和可及性,是生物医学期刊的责任和使命。这一改革必须由期刊编辑、审稿人、研究者、出版商、基金机构、赞助商、监管者、用户等利益相关方达成共识和共同参与。
4 创立期刊学对改善生物医学研究质量、减少浪费、提高使用价值起到重要作用
1989 年“期刊学”(Journalologly)一词最早在美国芝加哥召开的首届国际生物医学期刊同行评审大会上由BMJ前编辑 Stephen Lock 创造[23]。在主编 George Lundberg 的支持下,JAMA 杂志副主编 Drummond Rennie 创办了首届国际生物医学期刊同行评审大会。Drummond Rennie 认为:期刊出版过程中存在许多可以通过科学方法研究的问题。如:阳性结果是否比阴性结果更容易发表?同行评审是否可以改善论文质量?······此次会议标志着期刊学的诞生,旨在聚焦研究从设计到发表的全过程,建立一套循证方法,以提高(至少是部分提高)科学记录的质量。医学期刊在这一过程中应发挥主导作用。
在上述里程碑事件中,报告规范、临床试验预注册和数据共享是由生物医学期刊主导建立的最重要的 3 个临床研究政策和制度,对推动生物医学研究透明化和提升研究的报告质量起到重要作用,对整个生物医学领域向着更加健康的方向发展具有引领作用。见框 1。

4.1 报告规范的制定和应用
1993 年,来自医学杂志、临床试验、流行病学和方法学领域的 30 位专家在加拿大渥太华召开工作会,讨论制定一种用于评估 RCT 报告质量的新量表,并在会后发表了试验报告规范(The Standards of Reporting Trials,SORT)声明[24]。声明由一个包括 32 个条目的清单和一份流程图组成,以指导研究者如何规范报告 RCT。1994 年,另一群专家(Asilomar 工作组)在美国加州 Asilomar 独立完成了类似工作,提出:在试验报告中应该包括的条目清单,并建议杂志编辑将其写进稿约[25]。
1995 年 9 月 20 日,为更好地吸引杂志采纳并推动其传播,JAMA杂志副主编 Drummond Rennie 建议两个工作组的 9 位代表(包括杂志编辑、临床流行病学家和统计学家)在芝加哥召开工作会,探讨将两份清单合二为一。清单条目的筛选使用改良的Delphi法,并尽可能循证进行条目判定,即研究此条目未报告和报告相比是否会带来偏倚。若会带来偏倚,则将该条目纳入清单。1996 年工作组在BMJ发表了随机对照试验报告的统一规范(Consolidated Standards of Reporting Trials,CONSORT)声明[26],旨在提高 RCT 的报告质量,促进读者对试验设计、实施、分析和解释的理解,帮助用于评价试验结果的真实性(包括内部和外部真实性),并指导审稿和编辑。随着新证据的不断出现,2001 和 2010 年分别发布了 CONSORT 声明更新版[27, 28]。
目前,在 CONSORT 的基础上,针对随机对照试验的其他扩展设计、观察性研究、系统评价和 Meta 分析、病例报告、定性研究、诊断性/预后研究、质量改进研究、经济学评价、临床前动物研究及研究方案 10 大类研究,全球已制定出数百部报告规范。2006 年,Doug Altman 和 David Moher 等发起成立了提高卫生研究质量和透明度(Enhancing the quality and transparency of health research,EQUATOR)协作网,旨在促进卫生研究的准确性、完整性和透明性,从而提高研究的可重复性和使用价值[29]。在英国国家知识服务部(the UK National Knowledge Service)的资助下,2008 年 6 月 EQUATOR 网络平台正式上线[30],目前 EQUATOR 平台已收录报告规范 412 个[31],基于报告规范使用决策树(图 1),可以根据研究设计选择最适合的报告规范指导研究的设计、实施、报告、同行评审和编辑出版。已有较多研究显示,报告规范可以明显提高研究的报告质量,增加研究的使用价值。

4.2 建立临床试验预注册制度
2004 年 9 月,国际医学期刊编辑委员会(ICMJE)发表声明,只接受在公共机构注册的临床试验[32]。世界卫生组织(WHO)支持 ICMJE 的做法并很快在同年 10 月发表《纽约宣言》[33],声明 WHO 应牵头制定正规程序以引领全球实行统一的临床试验注册体系,并于 11 月发表《墨西哥宣言》[34],决定由 WHO 牵头建立国际临床试验注册平台(ICTRP)。2005 年 7 月,世界医学编辑学会在编辑伦理规范中专门论及临床试验注册的编辑政策,要求医学期刊编辑支持建立临床试验注册机构和注册制度,并发表经预注册的临床试验。2007 年 ICMJE 重申,认可世界卫生组织批准的所有一级注册机构。迄今 WHO ICTRP 一级注册机构已达 16 个(表 1),注册临床试验数已达 28 万个。在临床试验注册制度实施 1 年后,发表注册临床试验的比例就从 12% 快速提升到 53%。在临床试验注册制度实施 10 年后,至 2013 年末,发表的临床试验中申明已注册的比例约达 61%。ICMJE 成员期刊(64%)和高水平期刊(如影响因子排名前 10 的外科期刊)(87%)发表注册临床试验占比明显更高[35]。

4.3 建立数据共享制度
为进一步推动临床试验透明化,2016 年 1 月 20 日,ICMJE 发布关于共享临床试验原始数据的倡议,要求在临床试验注册时提供关于共享原始数据的计划,包括开放共享时间和途径。2017 年,ICMJE 在 JAMA 发文要求,从 2018 年 7 月 1 日起,发表的临床试验需提供数据共享的声明[36]。预计实施该制度可很大程度提高研究透明化,特别是提高研究实施过程数据的真实性和可靠性。
5 向循证期刊学迈进
2016 年,David Moher 等[4]在BMC Medicine发文呼吁创建国际最佳实践期刊研究网络,为期刊学研究的创证提供平台。目前期刊学缺乏研究证据,已有研究多为描述性研究,观察性研究和半实验研究也较少。可以借鉴循证医学和临床流行病学研究的方法开展期刊学研究,优化期刊学研究的设计,开展“临床试验”、系统评价和 Meta 分析,甚至跨期刊的多中心试验。可以借鉴 COMET 遴选核心指标集的方法,遴选核心结局指标,以回答期刊学研究领域至今尚未解决的问题(如评价生物医学研究质量核心指标、评价同行评审质量的核心指标、哪些同行评审措施对提升同行评审质量有效)。通过搭建国际最佳实践期刊研究网络,加强期刊间的合作与交流,为开展多中心研究创造条件,并加强行业内的数据共享(如共享同行评审数据)。
5.1 循证建立生物医学编辑的核心能力
医学期刊的主编和编辑对期刊的办刊方向和论文质量把关作用至关重要。受期刊编辑能力的限制,可能不能识别研究设计、实施、分析、报告中的不端行为、错误、不充分报告等问题,导致问题研究和低质量研究的发表。这些低质量研究充斥于海量研究中,如被误识别为高质量研究进行使用,将误导临床实践,给后续研究的开展提供错误信息,不仅浪费研究资源,甚至可能危害患者。
医疗行业已建立完善的职业认证体系,要获得职业医师资格,需要经过严格的培训和考核;即使获得医师资格,也需要接受终身继续教育。但迄今研究者和编辑的职业认证仍缺乏相应的培养和认证体系。
2014 年,Moher 等[37]循证制定了生物医学期刊编辑应该具备的 14 项核心能力(框 2)。这些核心能力对于期刊编辑和出版单位循证遴选合格的编辑,设计和开展编辑的在职培训都具有重要作用。

目前,对期刊编辑和审稿人缺乏有效的培养和资质认定机制。医学科研论文的编辑和审稿能力应成为医药院校学生,特别是研究生以上资历学生的基本能力。但目前的学校教育往往更重视研究前端的教育而弱化研究后端的能力培养,论文的编辑和审稿能力与被认为与中学阶段的教育相关,不属于大学教育与培养的范畴。而事实上,在中国现行从小学到研究生的学校教育中都没有相关要求、内容和考核,亟待系统建设,进行分段教育、培训,逐级深化和强化,使之成为所有受教育者的基本诚信教育内容。
5.2 循证建立同行评审体系
同行评审是科技期刊的重要制度,已被多数期刊执行。2007 年,Jefferson 等[38]的 Cochrane 系统评价纳入 28 项研究,结果显示:没有确切证据表明同行评审者的研究水平和盲法审稿、培训及沟通对改善同行评审质量有效,仅采用清单审稿略有效果。2016 年,Bruce 等[39]系统评价了各种改进生物医学期刊同行评审质量的措施,共纳入 22 项随机对照试验,包括培训审稿人(n=5)、增加统计学审稿人(n=2)、采用清单审稿(n=2)、开放同行评审(如告知审稿人公开其身份)(n=7)、作者的姓名和机构对审稿人设盲(n=6)、提高审稿速度的其他措施(n=3),结果显示:除增加统计学审稿人[SMD=0.58,95%CI(0.19,0.98)]和开放同行评审[SMD=0.14,95%CI(0.05,0.24)]可以改善同行评审质量外,其余措施均未见能明显改善同行评审质量。2019 年,Superchi 等[40]发表的系统评价,总结了评价同行评审质量的工具,共发现 24 个工具,包括 23 个量表和 1 个清单,涉及 9 个主要维度,但这些工具均未明确定义“同行评审质量”,其制定过程的科学性也欠佳。Drummond Rennie 创办同行评审大会的目的就是要促进同行评审相关研究的开展,首届大会举办至今已 30 年,发表的同行评审相关研究依然较少,在研项目也很缺乏,已知的注册研究仅 European COST action PEERE 等[41]数项,因相关研究设计与实施困难、资金缺乏等原因难以推广。Gasparyan 等[42]认为:高质量、循证的同行评审的终极目标是发表论文能促进诊断、治疗指南的修订,并改善卫生保健结局。
生物医学期刊同行评审的质量在很大程度上依赖于审稿人的资质,但目前却缺乏公认的最佳审稿人资质的标准。Blace 等[43]的研究显示:接受过流行病学和统计学培训,小于 60 岁,来自北美,本身做研究的审稿人的审稿质量往往较好。但 Callaham 等[44]的大样本调查显示:论文的同行评审质量仅与审稿人是否来自大学附属医院和年龄(毕业 10 年内)相关。
上述研究结果提示:① 未来需要循证构建生物医学期刊同行评审专家的核心能力,循证遴选同行评审专家,并循证制定围绕同行评审的系列措施(包括提高同行评审质量和效率的干预措施、评价同行评审质量的工具);② 迫切需要厘清同行评审的目的和意义,明确同行评审报告是否可以使用的判断标准。
5.3 为出版政策和出版规范的完善提供更充分的证据
生物医学期刊领域的出版政策和规范制定方法的科学性已大为改善。如制定报告规范,从建立工作组、收集条目证据,到遴选条目已建立起标准流程,但因缺乏关于条目证据的原始研究和受方法学限制,相关研究的设计和实施存在困难;依然缺乏相关证据,特别是高质量证据。但近年已在一些领域取得突破,如临床试验未实施或未充分实施随机、分配隐藏、盲法,会导致研究结果产生偏倚,但其影响的程度大小和与不同结局的相关性,却缺乏量化证据。2012 年,Savovic 等[45]采用 Meta 流行病学方法定量评价了未实施或未充分实施随机、分配隐藏和盲法对研究结果的影响程度,其中未实施或未充分实施盲法带来的偏倚最大,平均夸大干预措施效果 13%[ROR=0.87,95%CI(0.79,0.96)]。但基于不同类别结局指标的亚组分析结果显示,主观结局明显较客观结局(如死亡或生存率)受其影响大,这对指导临床研究的设计、实施,精准判断研究结果可靠性,均具有重要指导意义。
5.4 循证构建衡量生物医学论文质量的核心指标
造成研究浪费的 5 方面原因中,未关注重要的结局指标是因研究问题遴选环节问题造成研究浪费的重要因素[18]。2010 年,生物医学期刊编辑和临床研究者、试验注册机构、基金资助机构等相关人员发起成立了 COMET(core outcome measures in effectiveness trials)工作组,致力于促进有效性试验核心结局指标研究。截止 2017 年 12 月,COMET 数据库中收录的已完成的核心指标集已达 284 项[46]。这对提高研究价值、减少浪费、降低研究偏倚、促进研究转化、指导临床实践都具有积极意义。借鉴 COMET 的成功经验,循证建立编辑学研究主题,包括评价同行评审质量、论文质量等的核心指标集,对提升期刊学研究的科学性、开展期刊学相关的 Meta 分析研究、促进生物医学期刊相关出版政策和规范的制定、促进已发表论文的转化和应用都具有重要意义。
6 循证期刊学在中国
自中国循证医学中心 1997 年建立以来,一直关注期刊学研究,推动出版政策和规范的引进和应用。
2001 年将 CONSORT 声明引进其创办的《中国循证医学杂志》稿约,用于规范随机对照试验的报告[47];此后陆续翻译和解读了系列研究报告规范,在所主编的人卫社《循证医学》研究生教材[48]、人卫社《实用循证医学》专著[49]中编写了关于报告规范的章节,并将其纳入本科生教育、研究生教育和毕业后教育常规内容。
2004 年在加拿大渥太华召开的 Cochrane 年会上,中国循证医学中心代表参加了启动临床试验注册平台建设的会议。2007 年 5 月,中国临床试验注册中心被 WHO ICTPR 认证为一级注册机构,并得到 ICMJE 认可:在中国临床试验注册中心注册的临床试验在全球所有生物医学期刊上,与美国临床试验注册中心(ClinicalTrial.gov)及其他一级注册机构同等对待和发展。中国临床试验注册中心也最早倡导在注册平台公布临床试验结果,及通过注册平台共享临床试验数据的注册中心。截至 2018 年底,在中国临床试验注册中心注册的临床试验已达 20 033 个,其中 2018 年注册临床试验达到 6 223 个。中国临床试验注册中心建设之初,就发起建立了中国临床试验注册与发表协作网,以期推动生物医学期刊的协作。
2009 年,李幼平、杜亮赴加拿大温哥华参加了第六届生物医学期刊同行评审大会,并在此后的两届大会均派代表参会,三届大会均有壁报交流。2017 年李幼平作为中国唯一代表被邀请成为美国芝加哥召开的第八届生物医学期刊同行评审大会委员[50]。
2017 年,杜亮等[51]在《中国循证医学杂志》发文,倡导强化两端,把好临床试验入口和出口关,最终建立从选题、设计、预注册、实施、分析、报告、同行评审、发表、传播、转化、后效评价、持续改进、不断更新的临床研究全程质量控制体系。
循证期刊学应以生物医学研究从设计到发表的全过程遇到的问题为导向,综合运用包括临床流行病学和循证医学的思想和方法,不断发展和完善。正如Lancet主编 Richard Horton 所言:“期刊的工作方式有一些黑暗的角落,需要有一些光照在它们上面”,循证期刊学正恰如这束光。马里兰大学药学院 Peter Doshi 坚信“当期刊一起行动时,它们可以真正改变行为”,但这有赖于教育先行,并需要主编、编辑、审稿专家和作者的共同努力。