引用本文: 李江, 苏凯, 黄遥, 李放, 唐威, 王乐, 黄慧瑶, 代敏. 肺癌筛查领域系统评价的再评价. 中国循证医学杂志, 2016, 16(7): 764-770. doi: 10.7507/1672-2531.20160119 复制
随着全球工业化快速发展、环境污染日益加重、吸烟人口持续增加,肺癌已成为人类恶性肿瘤中发病率和死亡率增长最为迅速的一种。世界卫生组织国际癌症研究署(WHO/IARC)发布GLOBOCAN 2012数据显示,不论是发达国家还是欠发达国家,肺癌发病率呈直线上升趋势,已位居男性恶性肿瘤首位和女性第三位;且不论男女,肺癌死亡率均在首位 [1]。我国国家癌症中心肿瘤登记中心最新数据显示我国肺癌发病率和死亡率为35.23/10万和27.93/10万,均居于恶性肿瘤之首 [2]。早期肺癌并无明显临床症状,大部分患者在有临床症状时才去就诊,确诊后,基本为中晚期肺癌,而其中仅有不到25%的患者适合手术治疗,5年生存率很低,治疗产生的经济负担和社会负担也非常严重 [3]。
最近研究结果指出,在筛选出具备高风险肺癌因素的人群中,采用低剂量螺旋CT进行筛查能降低人群死于肺癌的概率(约降低20%) [4]。随着循证医学的快速发展,循证肿瘤学的研究逐步深入。已有多个系统评价(systematic review,SR)的结果阐述肺癌筛查的有效性和安全性。本研究通过开展肺癌筛查系统评价再评价 [5],评估其纳入SR的偏倚风险及其结论的可靠程度,探索肺癌筛查有效性和安全性特点和规律,为临床更好地进行肺癌筛查提供参考依据。
1 资料与方法
1.1 纳入与排除标准
1.1.1 研究设计
基于随机对照试验(randomized controlled trial,RCT)和/或观察性研究(包括队列研究和病例对照研究)的SR。
1.1.2 研究对象
接受肺癌筛查方案的受试者,性别、种族和病例来源不限。年龄依据肺癌筛查高危险人群年龄55~80岁之间,吸烟量为30包/年且戒烟状态在15年之内者 [6, 7]。
1.1.3 干预措施
干预组采用高频率(6个月1次、4个月1次等)的胸部X线片(CXR)、低剂量螺旋CT(LDCT)及18F PET CT筛查联合其他检查;对照组采用低频率(1年1次、3年1次等)的CXR/LDCT筛查,或是LDCT联合CXR,联合18F PET CT等。
1.1.4 结局指标
① 死亡率;② 检出率;③ 生存率;④ 过度诊断;⑤ 潜在利益与危害。
1.1.5 排除标准
① 会议摘要;② 重复发表的文献;③ 数据无法提取的文献;④ 非中、英文文献。
1.2 检索策略
计算机检索PubMed、EMbase、The Cochrane Library(2016年2期)、Web of Knowledge、CBM、WanFang Data和CNKI数据库,搜集有关于肺癌筛查的SR,检索时限均为从建库至2016年2月29日。检索策略采用主题词和自由词相结合的方式。中文检索词包括:肺癌(包括非小细胞肺癌和小细胞肺癌)、肺部肿瘤、筛查、早期检测、早期诊断、系统评价、系统综述、Meta分析、荟萃分析、元分析;英文检索词包括:lung cancer、lung neoplasm、screening、early detection、Cochrane database of systematic reviews、meta-analysis等。以PubMed为例,其具体检索策略见框1。
框 1 PubMed检索策略
Lung neoplasm[Mesh] lung cancer screening OR early detection #1 OR #2 #3 AND #4 systematic review OR meta-analysis #5 AND #6
1.3 文献筛选和资料提取
由2位评价员独立进行文献筛选和资料提取,如遇分歧,则咨询第三方协助判断,缺乏的资料尽量与作者联系予以补充。文献筛选时首先阅读文题和摘要,在排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。采用自制的资料提取表提取资料,资料提取内容主要包括:① 基本信息,包括题目、作者、发表年份、检索策略、纳入标准、质量评价方法、结局指标和结论等。② 纳入SR的偏倚风险和证据质量情况。
1.4 纳入SR的偏倚风险评价
由2位评价员采用ROBIS(Risk of Bias in Systematic Review)工具评价纳入SR的偏倚风险,包括三个阶段 [8]。阶段一:评估相关性(视情况选择),SR类型确定(包括干预性、病因性、诊断准确性试验和预后性);阶段二:确定SR制定过程中的偏倚风险程度(包括研究的纳入排除标准、研究检索和(或)筛选所使用方法、数据提取和质量评价所使用方法和数据合成和结果呈现这四个领域的21个标志性问题);阶段三:判断SR的偏倚风险的3个标志性问题。证据质量评价采用GRADE证据分级工具,包括5个降级因素和3个升级因素 [9]。RCT一开始为高质量,可因5个因素而降级:① 纳入研究在随机、分配隐藏和盲法方面存在较大偏倚;② 漏斗图不对称;③ 不同研究可信区间的重叠程度较差,且合并结果的I2值较大;④ 纳入研究样本量太小,可信区间较宽;⑤ 纳入研究数量少,存在较大发表偏倚的可能。观察性研究一开始为低质量,可因3个因素而升级:① 效应量大;② 剂量效应关系;③ 所有可能的混杂因素会降低效应量。将纳入的证据质量分为A(高质量)、B(中等质量)、C(低质量)和D(极低质量)四个等级。此外,为保证评价结果的可靠性,从纳入SR中随机抽取2个进行独立评估,共同衡量两名评价人员间对评价结果的一致性。
2 结果
2.1 文献筛选流程及结果
初检出758篇文献,经逐层筛选后,最终纳入11个SR [10-20]。文献筛选流程及结果见图 1。

2.2 纳入SR的基本特征
纳入的11个SR中,10篇为期刊发表论文(英文9篇,中文1篇) [10-14, 16-20],1篇为硕士学位论文(中文) [15]。发表年份在2003~2014年之间,其中有5篇 [16-20](55%)为2012之后发表。
纳入的SR中,北美地区有4个 [11, 13, 16, 19](45%),中国大陆2个 [14, 15](18%);10个SR [10-19]报告了筛查的随访时间。11个SR均进行了质量评价,其中3个SR [10, 18, 19]采用的是Cochrane 5.1.0推荐的偏倚风险评估工具,3个SR分别采用了QUORUM量表[11]、PRISMA量表[13]和STROBE量表[20],1个SR [15]采用影像学评分系统(非方法学评估标准),1个SR [16]采用GRADE方法进行了证据分级,其余则采用了其他评价工具。所纳入SR的基本特征见表 1。

2.3 纳入SR的偏倚风险评价
2.3.1 阶段一:评估相关性
8个SR [11, 13, 15-20]细化了纳入受试者人群的年龄、吸烟量及戒烟状态;10个SR [11-20]中要解决的干预措施问题与目标干预措施匹配;7个SR [11-13, 15-16, 18-19]要解决的对照措施问题与目标对照措施匹配;2个SR [18, 19]要解决的结局指标全面包括了目标结局指标,其余为部分匹配(表 2)。

2.3.2 阶段二:偏倚风险程度
领域1:3个SR [10, 16, 18]遵循了预先确定的目的和纳入标准,4个 [11-12, 19-20]可能是遵循了预先确定的目的和纳入标准,4个 [13-15, 17]无信息;8个SR [11, 13, 15-20]的纳入标准适合SR的问题,3个 [10, 12, 14]可能适合;8个SR [10, 11, 14-19]纳入标准明确且详细,3个 [12-13, 20]较详细;8个SR [10-12, 16, 20]纳入标准中所有基于研究特征的限制合适,3个 [13-15]可能合适;6个SR [12, 14-15, 18-20]纳入标准中所有与研究来源相关的限制合适,5个 [10-11, 13, 16-17]可能合适。因此,该领域中,纳入标准可能是提前确定,和(或)符合SR的问题,绝大多数标志性问题的回答为“是”或“可能是”,6个SR [10, 11, 16, 18-20]的偏倚风险程度为“低”,2个 [13, 14]为“高”,3个 [12, 15, 17]为“不确定”(表 2)。
领域2:11个SR [10-20]检索已发表和未发表的研究时所包含的数据库或电子资源的范围合适;8个SR [10-12, 15-19]使用了除数据库检索以外的其他方法来确定相关研究,3个 [13-14, 20]未报告信息;5个SR [11, 16-19]纳入检索策略的检索词和结构能尽可能多地检索到符合的研究,4个 [10, 14, 15, 20]有可能,2个 [12, 13]无信息;8个SR [10-12, 16, 20]基于时间、发表形式、语言的限制合适,3个 [13-15]可能合适;8个SR [10-13, 15-19]研究的筛选中尽可能地减小了误差,2个 [15, 20]可能合适,1个 [14]无信息;因此,该领域中,8个SR [10-12]其偏倚风险程度为“低”,3个SR [14, 15, 20]为“高”(表 2)。
领域3:5个SR [11, 16-19]数据提取尽可能地减小了误差,2个 [14, 20]无信息;6个SR [11, 12, 16-19]的作者和读者能获取足够的研究特征来解读结果,5个 [10, 13-15, 20]可能是;11个SR [10-20]提取了所有相关的研究结果来进行数据合成;5个SR [10-11, 18-20]使用了合适的工具来评价原始研究的偏倚风险(或方法学质量),3个 [12, 16-17]可能合适,1个 [15]可能否,2个 [13, 14]无信息;2个SR [18, 19]偏倚风险评价中尽可能地减小了误差,9个 [10-17, 20]无信息;因此,该领域中,3个SR [12, 18, 19]偏倚风险程度为“低”,6个SR [10, 13-16, 20]为“高”,2个 [11, 17]“不确定”(表 2)。
领域4:11个SR [10-20]数据合成包括了所有应该包括的研究;11个SR [10-20]遵循了所有预先确定的分析方法;6个SR [10-12, 16, 18, 19]鉴于纳入研究的问题、研究设计和结局指标的性质和相似性,数据合成方法恰当,5个 [13-15, 17, 20]可能恰当;5个SR [10-12, 18, 19]数据合成中研究之间的差异(异质性)是最小的或者经过处理,6个 [13-17, 20]可能是;3个SR [14, 17, 18]做了敏感性分析,结果稳定,8个 [10-13, 15, 16, 19-20]无信息;1个SR [18]原始研究的偏倚最小,3个 [16, 17, 19]可能是,4个 [10-12, 14]无信息,3个 [13, 15, 20]否;因此,该领域中,5个SR [10-12, 18, 19]偏倚风险程度为“低”,4个SR[13-15, 20]为“高”,2个 [16, 17]“不确定”(表 2)。
2.3.3 阶段三:偏倚风险判定
3个SR [16, 18, 19]遵循了结果解释中处理了阶段二中4个领域的偏倚风险;6个 [10-12, 16, 18, 19]合理地考虑到了纳入研究与SR研究问题的相关性,6个 [10-12, 16, 18, 19]评价者避免强调有统计学意义的结果。综合阶段二的制作过程中的偏倚风险,最终得5个SR [10, 11, 16, 18, 19]为“低”偏倚风险,5个 [13-15, 17, 20]为“高”,1个 [12]“不确定”(表 2)。
2.4 主要观察指标及证据质量分级
2.4.1 死亡率
4个SR关注了该结局,其中2个SR [10, 18]显示胸部X线片联合痰细胞学筛查与单独使用X线片检测无显著差异[RR=0.88,95%CI(0.74,1.03),P=0.67;RR=0.83,95%CI(0.75,0.92),P=0.18],同时显示频繁的X线筛查与低频率X线筛查在死亡率方面亦无显著差异[RR=1.11,95%CI(1.00,1.23),P=0.05;RR=1.11,95%CI(1.00,1.23),P=0.95];2个SR [16, 19]显示,与胸部X线片筛查相比,LDCT可显著降低肺癌死亡率(P=0.002)。GRADE证据质量评价结果显示,3个SR [16, 18, 19]的证据质量为A级,1个SR [10]的证据质量由于不精确性和存在发表偏倚而为C级(低质量证据)。
2.4.2 检出率
7个SR [11-16, 20]均报告了肺癌筛查的灵敏度和特异度,CT灵敏度和特异度分别为0.77和0.87,另一个SR [14]显示LDCT的灵敏度和特异度分别为0.74和0.79,1个SR [17]显示灵敏度和特异度分别为83%和91%。其余SR只给出了P值,提供的数据有限,无法获取具体效应量的详细信息。GRADE证据质量评价结果显示,1个纳入队列研究的SR [16]证据由于效应量大而升级,最终证据质量为A级;1个SR证据 [11]由于结果的不一致性和存在发表偏倚而为B级;其余5个SR [12-15, 20]由于不精确性、不一致性与存在发表偏倚,同时观察性研究效应量不足,故最终为C级。
2.4.3 生存率
1个SR [18]结果显示筛查组的生存率优于未接受筛查的人群[OR=0.91,95%CI(0.84,0.99),P=0.02],而且在每年X线检测的基础上接受痰细胞学检测的生存率优于未接受痰细胞学检测的人群[RR=0.83,95%CI(0.75,0.92),P<0.001]。GRADE证据质量评价结果显示,研究所纳入的RCT未降级,队列研究由于效应量大而升级,故证据质量为A级。
2.4.4 过度筛查
3个SR [10, 13, 16]分析了过度筛查的危害,结果均给予的是粗率值平均25%。GRADE证据质量评价结果显示,3个SR的证据质量由于不精确性和发表偏倚而降为C级。
2.4.5 筛查潜在利益
2个SR [16, 18]报告了筛查的潜在利益,均依据其纳入的RCT获得,未给出具体的效应量分析结果,证据质量为B级。
3 讨论
自循证肿瘤学发展以来,在肿瘤药物干预措施上取得了较为显著的成果,但是循证方法在筛查领域的使用尚属空白。国际癌症组织推荐要大范围的进行肺癌筛查,我国亦有较大规模的肺癌筛查项目,如何在吸取国外成功经验,经济有效地实施筛查项目是一个挑战。在肺癌筛查领域引入循证医学的方法和理念,提供筛查有效性和安全性的可靠、科学的依据,并积极开展筛查的循证评价将有利于提高国家及各省市肺癌筛查水平、促进我国筛查项目的国际化进程。世界卫生组织(World Health Organization,WHO)明确提出卫生健康实践指南/推荐意见等必须基于循证的方法论构建,这是卫生防控领域的共识和趋势。美国医学科学院(Institute of Medicine,IOM)对指南新的定义中明确SR的重要作用之一是为临床指南/推荐意见提供高质量的证据支持 [21]。但依据本研究结果,尽管肺癌筛查领域的SR数量有所增长,但能被用作推荐意见的高质量证据仅为少数。建议SR制作者在确定研究题目时,就应当考虑到所制作的SR将会作为实践指南的参考依据,严格按照方法学评估工具与证据质量评价工具细致研究,以产生高质量证据,从而提高被引用的效率,另一方面也是避免对研究资源的浪费 [22]。
系统评价再评价是全面搜集针对同一疾病或同一健康问题的病因、诊断、治疗或预后等方面的相关SR进行再评价的一种综合研究方法,能够鉴别SR存在的偏倚风险及其结论证据质量的高低,为决策者提供更为集中的高质量证据 [23]。目前多个单位和研究人员已经在使用该方法对现有的SR进行研究。自2010年以来,SR/Meta分析以平均每天11篇的速度发展 [24],亦有众多评估其方法学质量的工具出现 [25]。ROBIS工具是2014年英国布里斯托尔大学(University of Bristol)社会医学部制定发布的一种全新的评价工具,也是目前值得推荐的一个SR偏倚风险评价工具,在近两届Cochrane Colloquium均对其进行了专题讨论和相关培训。《中国循证医学杂志》紧密跟进国际领先方法学,仔细研究后详细介绍了有关于ROBIS的特征和使用方法,本研究依据其说明 [26]和举例解读 [27],在肺癌筛查领域的系统评价再评价中探索使用了ROBIS工具进行评估。本研究严格按照ROBIS工具要求进行,在目标问题与SR中拟解决的问题的吻合度、研究的纳入标准、研究的检索和筛选、数据提取和质量评价以及数据合成和结果呈现上对每个纳入的SR均做出了细致的、一致性较高的评价,结果显示ROBIS评估后所纳入的SR高低偏倚风险程度各占一半,而肺癌筛查领域的SR多是由于原始研究的检索和筛选、数据提取和质量评价、数据合成和结果呈现部分存在有较大的风险。基于此,我们建议今后肺癌筛查领域,乃至癌症筛查领域的SR制作者在制定SR前应该制定计划书并在专门的官方地址进行注册 [28]或发表以避免研究相关性的偏倚。此外,筛查领域的SR制作者应该接受系统的检索培训以避免研究检索和筛选过程中产生的偏倚;并且在文献筛选和纳入、数据提取和方法学质量评价等步骤时需严格遵循独立性和一致性的实施原则;同时建议制作人员在制定SR前,对ROBIS工具进行学习和研讨,以降低SR的偏倚风险程度,提高SR所得证据的可信度。
本研究纳入SR的终点结局最主要是死亡率,4个SR纳入了3个设计严谨的大样本RCT,其他均基于队列研究。虽然队列研究结果在一定程度上证据质量能够支持综合证据的质量,但如果原始研究就为高质量RCT,那么所得结果在一定程度上就具备推广意义 [29]。单从SR结论看,肺癌筛查具有确定的有效性,但安全性尚不得知。因为在健康人群或是高危险人群中进行筛查,需要的随访时间较长,实施随机分配隐藏难度较大,随访率等问题堪忧,如在大规模依从性较好的高风险人群队列中进行筛查,检出率较高,能有效降低死亡率,但安全性需要更长的时间去验证,现有SR中有探讨安全性的问题,但由于原始研究的数据较少而未能给出确切结论。运用GRADE工具针对单个结局指标对SR结论的可靠性进行评价发现,纳入的SR所包含的结局指标中,死亡率和检出率尚有高质量证据支持,而安全性指标如潜在利益与危害和过度筛查无高质量证据。降级最多的因素是研究的不一致性和发表偏倚,说明SR纳入的RCT和队列研究等在时间以及人群综合数据分析方面存在较大偏倚。基于此,我们建议筛查领域SR制作时,就应采用GRADE工具进行证据质量评价,以提高系统评价结论的可靠性,为相关筛查推荐意见的构建提供了可靠的证据支持。
本研究的局限性:① 纳入SR未提供详细的资料来帮助评价者确定“SR是否有计划书”;② 在确定“数据合成和结果呈现”时,难以判断是否存在发表偏倚和选择性报告。
总之,当前针对肺癌筛查的SR存在的偏倚风险总体可以接受,但SR所评价结局指标的证据质量总体较低。因此,建议临床医生在使用这些证据进行临床决策时尚需结合当地实际情况谨慎使用。
随着全球工业化快速发展、环境污染日益加重、吸烟人口持续增加,肺癌已成为人类恶性肿瘤中发病率和死亡率增长最为迅速的一种。世界卫生组织国际癌症研究署(WHO/IARC)发布GLOBOCAN 2012数据显示,不论是发达国家还是欠发达国家,肺癌发病率呈直线上升趋势,已位居男性恶性肿瘤首位和女性第三位;且不论男女,肺癌死亡率均在首位 [1]。我国国家癌症中心肿瘤登记中心最新数据显示我国肺癌发病率和死亡率为35.23/10万和27.93/10万,均居于恶性肿瘤之首 [2]。早期肺癌并无明显临床症状,大部分患者在有临床症状时才去就诊,确诊后,基本为中晚期肺癌,而其中仅有不到25%的患者适合手术治疗,5年生存率很低,治疗产生的经济负担和社会负担也非常严重 [3]。
最近研究结果指出,在筛选出具备高风险肺癌因素的人群中,采用低剂量螺旋CT进行筛查能降低人群死于肺癌的概率(约降低20%) [4]。随着循证医学的快速发展,循证肿瘤学的研究逐步深入。已有多个系统评价(systematic review,SR)的结果阐述肺癌筛查的有效性和安全性。本研究通过开展肺癌筛查系统评价再评价 [5],评估其纳入SR的偏倚风险及其结论的可靠程度,探索肺癌筛查有效性和安全性特点和规律,为临床更好地进行肺癌筛查提供参考依据。
1 资料与方法
1.1 纳入与排除标准
1.1.1 研究设计
基于随机对照试验(randomized controlled trial,RCT)和/或观察性研究(包括队列研究和病例对照研究)的SR。
1.1.2 研究对象
接受肺癌筛查方案的受试者,性别、种族和病例来源不限。年龄依据肺癌筛查高危险人群年龄55~80岁之间,吸烟量为30包/年且戒烟状态在15年之内者 [6, 7]。
1.1.3 干预措施
干预组采用高频率(6个月1次、4个月1次等)的胸部X线片(CXR)、低剂量螺旋CT(LDCT)及18F PET CT筛查联合其他检查;对照组采用低频率(1年1次、3年1次等)的CXR/LDCT筛查,或是LDCT联合CXR,联合18F PET CT等。
1.1.4 结局指标
① 死亡率;② 检出率;③ 生存率;④ 过度诊断;⑤ 潜在利益与危害。
1.1.5 排除标准
① 会议摘要;② 重复发表的文献;③ 数据无法提取的文献;④ 非中、英文文献。
1.2 检索策略
计算机检索PubMed、EMbase、The Cochrane Library(2016年2期)、Web of Knowledge、CBM、WanFang Data和CNKI数据库,搜集有关于肺癌筛查的SR,检索时限均为从建库至2016年2月29日。检索策略采用主题词和自由词相结合的方式。中文检索词包括:肺癌(包括非小细胞肺癌和小细胞肺癌)、肺部肿瘤、筛查、早期检测、早期诊断、系统评价、系统综述、Meta分析、荟萃分析、元分析;英文检索词包括:lung cancer、lung neoplasm、screening、early detection、Cochrane database of systematic reviews、meta-analysis等。以PubMed为例,其具体检索策略见框1。
框 1 PubMed检索策略
Lung neoplasm[Mesh] lung cancer screening OR early detection #1 OR #2 #3 AND #4 systematic review OR meta-analysis #5 AND #6
1.3 文献筛选和资料提取
由2位评价员独立进行文献筛选和资料提取,如遇分歧,则咨询第三方协助判断,缺乏的资料尽量与作者联系予以补充。文献筛选时首先阅读文题和摘要,在排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。采用自制的资料提取表提取资料,资料提取内容主要包括:① 基本信息,包括题目、作者、发表年份、检索策略、纳入标准、质量评价方法、结局指标和结论等。② 纳入SR的偏倚风险和证据质量情况。
1.4 纳入SR的偏倚风险评价
由2位评价员采用ROBIS(Risk of Bias in Systematic Review)工具评价纳入SR的偏倚风险,包括三个阶段 [8]。阶段一:评估相关性(视情况选择),SR类型确定(包括干预性、病因性、诊断准确性试验和预后性);阶段二:确定SR制定过程中的偏倚风险程度(包括研究的纳入排除标准、研究检索和(或)筛选所使用方法、数据提取和质量评价所使用方法和数据合成和结果呈现这四个领域的21个标志性问题);阶段三:判断SR的偏倚风险的3个标志性问题。证据质量评价采用GRADE证据分级工具,包括5个降级因素和3个升级因素 [9]。RCT一开始为高质量,可因5个因素而降级:① 纳入研究在随机、分配隐藏和盲法方面存在较大偏倚;② 漏斗图不对称;③ 不同研究可信区间的重叠程度较差,且合并结果的I2值较大;④ 纳入研究样本量太小,可信区间较宽;⑤ 纳入研究数量少,存在较大发表偏倚的可能。观察性研究一开始为低质量,可因3个因素而升级:① 效应量大;② 剂量效应关系;③ 所有可能的混杂因素会降低效应量。将纳入的证据质量分为A(高质量)、B(中等质量)、C(低质量)和D(极低质量)四个等级。此外,为保证评价结果的可靠性,从纳入SR中随机抽取2个进行独立评估,共同衡量两名评价人员间对评价结果的一致性。
2 结果
2.1 文献筛选流程及结果
初检出758篇文献,经逐层筛选后,最终纳入11个SR [10-20]。文献筛选流程及结果见图 1。

2.2 纳入SR的基本特征
纳入的11个SR中,10篇为期刊发表论文(英文9篇,中文1篇) [10-14, 16-20],1篇为硕士学位论文(中文) [15]。发表年份在2003~2014年之间,其中有5篇 [16-20](55%)为2012之后发表。
纳入的SR中,北美地区有4个 [11, 13, 16, 19](45%),中国大陆2个 [14, 15](18%);10个SR [10-19]报告了筛查的随访时间。11个SR均进行了质量评价,其中3个SR [10, 18, 19]采用的是Cochrane 5.1.0推荐的偏倚风险评估工具,3个SR分别采用了QUORUM量表[11]、PRISMA量表[13]和STROBE量表[20],1个SR [15]采用影像学评分系统(非方法学评估标准),1个SR [16]采用GRADE方法进行了证据分级,其余则采用了其他评价工具。所纳入SR的基本特征见表 1。

2.3 纳入SR的偏倚风险评价
2.3.1 阶段一:评估相关性
8个SR [11, 13, 15-20]细化了纳入受试者人群的年龄、吸烟量及戒烟状态;10个SR [11-20]中要解决的干预措施问题与目标干预措施匹配;7个SR [11-13, 15-16, 18-19]要解决的对照措施问题与目标对照措施匹配;2个SR [18, 19]要解决的结局指标全面包括了目标结局指标,其余为部分匹配(表 2)。

2.3.2 阶段二:偏倚风险程度
领域1:3个SR [10, 16, 18]遵循了预先确定的目的和纳入标准,4个 [11-12, 19-20]可能是遵循了预先确定的目的和纳入标准,4个 [13-15, 17]无信息;8个SR [11, 13, 15-20]的纳入标准适合SR的问题,3个 [10, 12, 14]可能适合;8个SR [10, 11, 14-19]纳入标准明确且详细,3个 [12-13, 20]较详细;8个SR [10-12, 16, 20]纳入标准中所有基于研究特征的限制合适,3个 [13-15]可能合适;6个SR [12, 14-15, 18-20]纳入标准中所有与研究来源相关的限制合适,5个 [10-11, 13, 16-17]可能合适。因此,该领域中,纳入标准可能是提前确定,和(或)符合SR的问题,绝大多数标志性问题的回答为“是”或“可能是”,6个SR [10, 11, 16, 18-20]的偏倚风险程度为“低”,2个 [13, 14]为“高”,3个 [12, 15, 17]为“不确定”(表 2)。
领域2:11个SR [10-20]检索已发表和未发表的研究时所包含的数据库或电子资源的范围合适;8个SR [10-12, 15-19]使用了除数据库检索以外的其他方法来确定相关研究,3个 [13-14, 20]未报告信息;5个SR [11, 16-19]纳入检索策略的检索词和结构能尽可能多地检索到符合的研究,4个 [10, 14, 15, 20]有可能,2个 [12, 13]无信息;8个SR [10-12, 16, 20]基于时间、发表形式、语言的限制合适,3个 [13-15]可能合适;8个SR [10-13, 15-19]研究的筛选中尽可能地减小了误差,2个 [15, 20]可能合适,1个 [14]无信息;因此,该领域中,8个SR [10-12]其偏倚风险程度为“低”,3个SR [14, 15, 20]为“高”(表 2)。
领域3:5个SR [11, 16-19]数据提取尽可能地减小了误差,2个 [14, 20]无信息;6个SR [11, 12, 16-19]的作者和读者能获取足够的研究特征来解读结果,5个 [10, 13-15, 20]可能是;11个SR [10-20]提取了所有相关的研究结果来进行数据合成;5个SR [10-11, 18-20]使用了合适的工具来评价原始研究的偏倚风险(或方法学质量),3个 [12, 16-17]可能合适,1个 [15]可能否,2个 [13, 14]无信息;2个SR [18, 19]偏倚风险评价中尽可能地减小了误差,9个 [10-17, 20]无信息;因此,该领域中,3个SR [12, 18, 19]偏倚风险程度为“低”,6个SR [10, 13-16, 20]为“高”,2个 [11, 17]“不确定”(表 2)。
领域4:11个SR [10-20]数据合成包括了所有应该包括的研究;11个SR [10-20]遵循了所有预先确定的分析方法;6个SR [10-12, 16, 18, 19]鉴于纳入研究的问题、研究设计和结局指标的性质和相似性,数据合成方法恰当,5个 [13-15, 17, 20]可能恰当;5个SR [10-12, 18, 19]数据合成中研究之间的差异(异质性)是最小的或者经过处理,6个 [13-17, 20]可能是;3个SR [14, 17, 18]做了敏感性分析,结果稳定,8个 [10-13, 15, 16, 19-20]无信息;1个SR [18]原始研究的偏倚最小,3个 [16, 17, 19]可能是,4个 [10-12, 14]无信息,3个 [13, 15, 20]否;因此,该领域中,5个SR [10-12, 18, 19]偏倚风险程度为“低”,4个SR[13-15, 20]为“高”,2个 [16, 17]“不确定”(表 2)。
2.3.3 阶段三:偏倚风险判定
3个SR [16, 18, 19]遵循了结果解释中处理了阶段二中4个领域的偏倚风险;6个 [10-12, 16, 18, 19]合理地考虑到了纳入研究与SR研究问题的相关性,6个 [10-12, 16, 18, 19]评价者避免强调有统计学意义的结果。综合阶段二的制作过程中的偏倚风险,最终得5个SR [10, 11, 16, 18, 19]为“低”偏倚风险,5个 [13-15, 17, 20]为“高”,1个 [12]“不确定”(表 2)。
2.4 主要观察指标及证据质量分级
2.4.1 死亡率
4个SR关注了该结局,其中2个SR [10, 18]显示胸部X线片联合痰细胞学筛查与单独使用X线片检测无显著差异[RR=0.88,95%CI(0.74,1.03),P=0.67;RR=0.83,95%CI(0.75,0.92),P=0.18],同时显示频繁的X线筛查与低频率X线筛查在死亡率方面亦无显著差异[RR=1.11,95%CI(1.00,1.23),P=0.05;RR=1.11,95%CI(1.00,1.23),P=0.95];2个SR [16, 19]显示,与胸部X线片筛查相比,LDCT可显著降低肺癌死亡率(P=0.002)。GRADE证据质量评价结果显示,3个SR [16, 18, 19]的证据质量为A级,1个SR [10]的证据质量由于不精确性和存在发表偏倚而为C级(低质量证据)。
2.4.2 检出率
7个SR [11-16, 20]均报告了肺癌筛查的灵敏度和特异度,CT灵敏度和特异度分别为0.77和0.87,另一个SR [14]显示LDCT的灵敏度和特异度分别为0.74和0.79,1个SR [17]显示灵敏度和特异度分别为83%和91%。其余SR只给出了P值,提供的数据有限,无法获取具体效应量的详细信息。GRADE证据质量评价结果显示,1个纳入队列研究的SR [16]证据由于效应量大而升级,最终证据质量为A级;1个SR证据 [11]由于结果的不一致性和存在发表偏倚而为B级;其余5个SR [12-15, 20]由于不精确性、不一致性与存在发表偏倚,同时观察性研究效应量不足,故最终为C级。
2.4.3 生存率
1个SR [18]结果显示筛查组的生存率优于未接受筛查的人群[OR=0.91,95%CI(0.84,0.99),P=0.02],而且在每年X线检测的基础上接受痰细胞学检测的生存率优于未接受痰细胞学检测的人群[RR=0.83,95%CI(0.75,0.92),P<0.001]。GRADE证据质量评价结果显示,研究所纳入的RCT未降级,队列研究由于效应量大而升级,故证据质量为A级。
2.4.4 过度筛查
3个SR [10, 13, 16]分析了过度筛查的危害,结果均给予的是粗率值平均25%。GRADE证据质量评价结果显示,3个SR的证据质量由于不精确性和发表偏倚而降为C级。
2.4.5 筛查潜在利益
2个SR [16, 18]报告了筛查的潜在利益,均依据其纳入的RCT获得,未给出具体的效应量分析结果,证据质量为B级。
3 讨论
自循证肿瘤学发展以来,在肿瘤药物干预措施上取得了较为显著的成果,但是循证方法在筛查领域的使用尚属空白。国际癌症组织推荐要大范围的进行肺癌筛查,我国亦有较大规模的肺癌筛查项目,如何在吸取国外成功经验,经济有效地实施筛查项目是一个挑战。在肺癌筛查领域引入循证医学的方法和理念,提供筛查有效性和安全性的可靠、科学的依据,并积极开展筛查的循证评价将有利于提高国家及各省市肺癌筛查水平、促进我国筛查项目的国际化进程。世界卫生组织(World Health Organization,WHO)明确提出卫生健康实践指南/推荐意见等必须基于循证的方法论构建,这是卫生防控领域的共识和趋势。美国医学科学院(Institute of Medicine,IOM)对指南新的定义中明确SR的重要作用之一是为临床指南/推荐意见提供高质量的证据支持 [21]。但依据本研究结果,尽管肺癌筛查领域的SR数量有所增长,但能被用作推荐意见的高质量证据仅为少数。建议SR制作者在确定研究题目时,就应当考虑到所制作的SR将会作为实践指南的参考依据,严格按照方法学评估工具与证据质量评价工具细致研究,以产生高质量证据,从而提高被引用的效率,另一方面也是避免对研究资源的浪费 [22]。
系统评价再评价是全面搜集针对同一疾病或同一健康问题的病因、诊断、治疗或预后等方面的相关SR进行再评价的一种综合研究方法,能够鉴别SR存在的偏倚风险及其结论证据质量的高低,为决策者提供更为集中的高质量证据 [23]。目前多个单位和研究人员已经在使用该方法对现有的SR进行研究。自2010年以来,SR/Meta分析以平均每天11篇的速度发展 [24],亦有众多评估其方法学质量的工具出现 [25]。ROBIS工具是2014年英国布里斯托尔大学(University of Bristol)社会医学部制定发布的一种全新的评价工具,也是目前值得推荐的一个SR偏倚风险评价工具,在近两届Cochrane Colloquium均对其进行了专题讨论和相关培训。《中国循证医学杂志》紧密跟进国际领先方法学,仔细研究后详细介绍了有关于ROBIS的特征和使用方法,本研究依据其说明 [26]和举例解读 [27],在肺癌筛查领域的系统评价再评价中探索使用了ROBIS工具进行评估。本研究严格按照ROBIS工具要求进行,在目标问题与SR中拟解决的问题的吻合度、研究的纳入标准、研究的检索和筛选、数据提取和质量评价以及数据合成和结果呈现上对每个纳入的SR均做出了细致的、一致性较高的评价,结果显示ROBIS评估后所纳入的SR高低偏倚风险程度各占一半,而肺癌筛查领域的SR多是由于原始研究的检索和筛选、数据提取和质量评价、数据合成和结果呈现部分存在有较大的风险。基于此,我们建议今后肺癌筛查领域,乃至癌症筛查领域的SR制作者在制定SR前应该制定计划书并在专门的官方地址进行注册 [28]或发表以避免研究相关性的偏倚。此外,筛查领域的SR制作者应该接受系统的检索培训以避免研究检索和筛选过程中产生的偏倚;并且在文献筛选和纳入、数据提取和方法学质量评价等步骤时需严格遵循独立性和一致性的实施原则;同时建议制作人员在制定SR前,对ROBIS工具进行学习和研讨,以降低SR的偏倚风险程度,提高SR所得证据的可信度。
本研究纳入SR的终点结局最主要是死亡率,4个SR纳入了3个设计严谨的大样本RCT,其他均基于队列研究。虽然队列研究结果在一定程度上证据质量能够支持综合证据的质量,但如果原始研究就为高质量RCT,那么所得结果在一定程度上就具备推广意义 [29]。单从SR结论看,肺癌筛查具有确定的有效性,但安全性尚不得知。因为在健康人群或是高危险人群中进行筛查,需要的随访时间较长,实施随机分配隐藏难度较大,随访率等问题堪忧,如在大规模依从性较好的高风险人群队列中进行筛查,检出率较高,能有效降低死亡率,但安全性需要更长的时间去验证,现有SR中有探讨安全性的问题,但由于原始研究的数据较少而未能给出确切结论。运用GRADE工具针对单个结局指标对SR结论的可靠性进行评价发现,纳入的SR所包含的结局指标中,死亡率和检出率尚有高质量证据支持,而安全性指标如潜在利益与危害和过度筛查无高质量证据。降级最多的因素是研究的不一致性和发表偏倚,说明SR纳入的RCT和队列研究等在时间以及人群综合数据分析方面存在较大偏倚。基于此,我们建议筛查领域SR制作时,就应采用GRADE工具进行证据质量评价,以提高系统评价结论的可靠性,为相关筛查推荐意见的构建提供了可靠的证据支持。
本研究的局限性:① 纳入SR未提供详细的资料来帮助评价者确定“SR是否有计划书”;② 在确定“数据合成和结果呈现”时,难以判断是否存在发表偏倚和选择性报告。
总之,当前针对肺癌筛查的SR存在的偏倚风险总体可以接受,但SR所评价结局指标的证据质量总体较低。因此,建议临床医生在使用这些证据进行临床决策时尚需结合当地实际情况谨慎使用。