QUADAS-2已广泛用于评价单个诊断试验准确性研究偏倚风险,但其不适用于评价多个诊断试验准确性比较研究的偏倚风险。目前,系统评价普遍采用QUADAS-2评价多个诊断试验准确性比较研究的偏倚风险,这本质上会导致偏倚。为避免此类偏倚,QUADAS工作组开发了多个诊断试验准确性比较研究的偏倚风险评价工具QUADAS-C,并于2021年10月正式推出。QUADAS-C保留了与QUADAS-2相同的4个问题域(病例选择、待评价试验、金标准、病例流程和进展情况),由14个信号问题和4个偏倚风险问题组成。本文就QUADAS-C的基本情况、评价条目、评价标准、使用方法和流程进行解读,以期为国内研究者和用户提供参考。
引用本文: 黄玉香, 沈建通, 刘雨今. 诊断试验准确性比较研究偏倚风险评价工具QUADAS-C解读. 中国循证医学杂志, 2022, 22(9): 1108-1116. doi: 10.7507/1672-2531.202204090 复制
1 QUADAS-C工具的研发背景
诊断准确性研究(diagnostic test accuracy study,DTA)是指评估临床使用的各种诊断方法,对研究对象的疾病和(或)健康状况做出区分的研究[1]。就某一健康问题进行诊断准确性的研究中,采用金标准或参考标准作为参照,比较一种诊断试验准确性的研究称为诊断试验非比较(单个诊断试验)准确性研究(single diagnostic test accuracy studies,SDTA)[2];而比较2种或2种以上诊断试验准确性的研究称为诊断试验准确性比较研究(comparative diagnosis test accuracy studies,CDTA)[2]。诊断试验准确性比较研究的目的是通过比较多个诊断试验的准确性,筛选出最佳诊断措施。当需要在众多待评价的诊断试验中做出最优选择时,CDTA能比SDTA提供更有力的证据[3-5]。CDTA与SDTA在研究问题、研究目的、研究设计、评价指标和主要偏倚等方面均存在差异,详见表1[6]。

当前最为推荐的诊断准确性研究偏倚风险评价工具QUADAS-2(quality assessment of diagnostic accuracy studies-2)并未涉及有关准确性比较的偏倚评价,它仅适用于SDTA研究,而不能用于评价CDTA的偏倚风险。2018年,由来自诊断试验和系统评价方法学领域的8位专家组成的指导工作组确定了涵盖16个条目的QUADAS-C(quality assessment of diagnostic accuracy studies-compare)初始列表,经4轮Delphi咨询后形成用于评价诊断试验准确性比较研究偏倚风险的QUADAS-C初始版本,并于2019年发布试用版,经预实验后发布正式版[6]。
2 QUADAS-C工具使用方法
QUADAS-C主要针对完全配对和随机化设计的诊断试验准确性比较研究,这类研究设计在系统评价中最具可比性[7]。在未随机化或部分配对的研究中,工具需做相应调整(删减和完善条目内容)。QUADAS-C不用于比较不同的诊断试验研究(间接比较),也不进行适用性评价。QUADAS-C工具评估诊断试验准确性比较研究的偏倚风险时,须与QUADAS-2同步使用(表2)[6]。该工具保留了与QUADAS-2相同的4个域(病例选择、待评价试验、金标准、病例流程和进展情况)[8],由14个信号问题和4个偏倚风险问题组成(表2)。每个信号问题通过回答“是”、“否”、“不确定”,再根据信号问题的回答来确定各领域的偏倚风险为“低”、“高”、“不确定”。QUADAS-C偏倚风险评估由3个部分组成:① 记录支持偏倚判断的理由;② 信号问题的回答;③ 各领域偏倚风险判断。

2.1 记录偏倚风险判断的理由
为保证偏倚风险评价过程的透明性和可重复性,评价者需要在QUADAS-C工具的文本字段里备注所有偏倚判断的理由(表3)。包括诊断试验准确性比较研究的设计及影响研究真实性的4个领域的信息,例如,受试者的分配方案(病例选择领域),待评价的诊断试验数据缺失的原因(病例流程和进展情况领域)等。

2.2 信号问题的回答
QUADAS-C信号问题的回答包括“是”、“否”或“不确定”,“是”表示“低”等级偏倚风险,“否”表示该领域存在潜在偏倚,但并不直接导致总体“高”偏倚判定,此时需要考虑偏倚的可能性和重要性(表2)。当评价者判断“可能是”或“可能不是”时,仍选择“是”或“否”选项。仅当提供的信息不足以判断“是”或“否”时,使用“不确定”选项。
2.3 偏倚风险评价
若一个领域内所有信号问题答案均为“是”,那么该领域偏倚等级为“低”。当所有领域都判定为“低”偏倚风险,则认为总体偏倚风险为“低”。若信号答案中至少有1个为“否”,则认为该领域偏倚等级为“高”。若某单个领域的偏倚可能影响全领域,则单个信号问题回答“否”时,认为总体偏倚等级为“高”。
当认为设计特征引入的偏倚可能会影响全领域,信号问题答案为“否”时,总体偏倚等级判定为“高”。例如,信号问题“是否采用完全配对或随机设计?”回答“否”,一般认为在病例选择领域潜在“高”偏倚(部分配对随机化设计除外)。
“不确定”并非指“中”偏倚风险,而是没有足够的信息来判断偏倚高低。
3 QUADAS-C工具条目解释
3.1 领域1:病例选择
3.1.1 信号问题1:是否每个诊断试验在该领域内的偏倚风险均判定为“低”?(C1.1)
若有一个诊断准确性试验存在高偏倚风险,则其比较也将存在高偏倚风险。即在该领域内,只要有一个待评价诊断试验在QUADAS-2的偏倚风险等级为“不确定”或“高”,那当前问题就评为“否”。QUADAS-C每个域的偏倚风险判断都以该信号问题为起始。但当不同的诊断试验存在大小与方向相似的偏倚风险,其相关比较结果则可能无偏倚风险,在判断时应谨慎。上述情况同样适用于信号问题C2.1、C3.1和C4.1。
例如:比较磁共振成像(magnetic resonance imaging,MRI)和磁共振关节造影(magnetic resonance angiography,MRA)在肩部上盂唇前后病变诊断准确性,研究对象排除了接受MRI、MRA和手术者。那么,仅接受MRI、MRA、手术人群也被排除在外,样本缺乏代表性。QUADAS-2中“研究是否避免了不恰当的排除?”,待评价试验MRI和MRA的回答均为“否”,其诊断准确性存在“高”偏倚风险,则当前QUADAS-C问题回答为“否”。
3.1.2 信号问题2:是否采用完全配对或随机设计?(图1 )(C1.2)

*:译自QUADAS-C用户指导手册,可在QUADAS网站获取(http://www.bris.ac.uk/quadas/quadas-c/)。
除原始研究采用完全配对、随机或部分配对随机设计外,其余情况回答“否”,认为存在“高”偏倚风险。制作系统评价时可将此作为原始研究的排除标准或敏感性分析标准。
完全配对设计研究中,若排除仅接受其中一个诊断试验的受试者,目标人群将缺乏代表性,该信号问题回答“是”;当受试者某个诊断试验结果缺失,该信号问题回答“是”,此时涉及数据缺失问题,在“病例流程和进展情况”域C4.4回答为“否”。
3.1.3 信号问题3:分配方案是否随机产生(C1.3)-仅适用于随机设计
随机序列产生的方法包括抽签、抛硬币、掷骰子、随机数字表、计算机产生随机数字等;而非随机分组的方法包括:交替分配、按出生或入院日期、病历记录号和记录日期分配等。
3.1.4 信号问题4:分配方案是否隐藏,直到受试者确定入组后(C1.4)-仅适用于随机设计
分配方案隐藏的方法包括:① 密闭信封法:指使用顺序编码、不透光、密闭的信封进行分配隐藏,即将每个分组方案放入一个不透光的信封中,信封外面写上编码,密封后交给未参与的第三方保存。在随机分组时,对符合纳入标准和排除标准的受试者进行编号,再依次打开,并现场记录分配的随机序列、信封号和分配结果,并于当天传送至数据管理中心。② 中心随机化:指随机化分配、受试者管理、药品管理等基于电话或计算机网络的随机化系统。以网络、电话、手机短信等多种方式对受试者进行随机分配和入组,从而实现分配方案隐藏。
3.2 领域2:待评价试验
3.2.1 信号问题1:是否每个诊断试验在该领域内的偏倚风险均判定为“低”?(C2.1)
若有一个诊断准确性存在高偏倚风险,则其比较也将存在高偏倚风险。即在该领域域内,只要有一个待评价试验在QUADAS-2的偏倚风险等级为“不确定”或“高”,那C2.1就评为“否”。
例如,利用金标准来判读某待评价试验结果,可能会高估该试验的诊断准确性。即便所有待评价试验都事先了解采用金标准判读的结果,所引入偏倚的大小与方向也不尽相同。因此,待评价试验的比较存在偏倚风险,回答为“否”。
3.2.2 信号问题2:待评价试验结果判读,是否在不知晓其他试验结果的情况下进行的?(C2.2)-仅适用于完全和部分配对设计中,受试者接受多个诊断试验
例如设计类型中#1、#3和#4(图1),侧重于结果报告引入的信息偏倚,如报告偏倚、暴露怀疑偏倚等。
判断偏倚的3个要素:① 结果报告的主观程度,任何主观判断(在X光片上是否能看到肿瘤)比客观测量的结果(血糖测量、体格检查结果等)更易受偏倚影响。② 诊断试验实施和结果报告的顺序。③ 当单个诊断试验与由多个诊断试验组成的诊断策略进行比较,则“否”的答案,可能提示“低”偏倚风险。例如比较用超声(ultrasound,US)诊断和超声+CT联合诊断阑尾炎。临床上US通常在CT之前完成,在CT结果报告前已获知US结果,而US结果是在不知晓CT结果的情况下实施。
3.2.3 信号问题3:试验实施时,是否存在诊断试验间的顺序效应?(C2.3)–仅适用于接受多个诊断试验的患者
此问题仅适用于完全和部分配对设计(例如图1中#1、#3和#4)。当相同的受试者接受不同处理时,第一个试验可能对后续试验产生影响或干扰。例如:受试者在完成多个问卷时出现学习效应和厌倦效应;在已经被第一根活检针穿刺的组织中使用第二根活检针;没有足够的血样进行第二个血液标志物检测。类似于临床试验交叉设计顺序效应(遗留效应),如果受试者在实施第一次诊断试验后拒绝或无法实施第二个试验,则将导致数据丢失。那么当前问题回答“否”。
3.2.4 信号问题4:待评价试验的实施与结果判读是否利用了某个诊断试验?(C2.4)
待评价试验的实施与结果判读是否设盲,即所有待评价试验是否都经过了相同的金标准验证。若某个待评价试验的实施或结果判读与其他试验间存在巨大差异,且与临床实际相悖,则当前问题回答“否”,即存在偏倚。例如使用新鲜标本进行一种生物标志物测定,而使用冷冻标本进行竞争生物标志物测定。此问题旨在涵盖除C2.2和C2.3问题已包含的诊断方法和结果判读以外的差异。
3.3 领域3:金标准
3.3.1 信号问题1:是否每个待评价试验在该领域内的偏倚风险均判定为“低”?(C3.1)
若有一个诊断准确性试验存在高偏倚风险,则其比较也将存在高偏倚风险。即在该领域内,只要有一个待评价试验在QUADAS-2的偏倚风险等级为“不确定”或“高”,那当前问题就评为“否”。
首先,金标准是否正确区分受试者目标疾病状态?再者,金标准的结果判读是否在未事先了解待评价试验结果的情况下进行。若回答“否”,则其诊断准确性与试验间比较的准确性均存在“高”偏倚风险。
3.3.2 信号问题2:待评价试验是否独立于金标准?(C3.2)
如果待评价试验不独立于金标准,两者间一致性会增加,从而使待评价试验准确性被高估。若一个待评价试验是金标准的一部分,而另一个不是,则评价结果存在明显偏倚。即使所有待评价试验都涵盖在金标准内,他们对最终诊断的权重或贡献也可能存在差异。那当前问题回答“否”。
3.4 领域4:病例流程和进展情况
3.4.1 信号问题1:是否每个诊断试验在该领域内的偏倚风险均判定为“低”?(C4.1)
若有一个试验的诊断准确性存在“高”偏倚风险,则其比较也将存在“高”偏倚风险。即在该领域内,只要有一个待评价试验在QUADAS-2的偏倚风险等级为“不确定”或“高”,那当前问题就评为“否”。
每个待评价试验和金标准之间应有恰当的时间间隔,所有受试者应接受相同的金标准,并被全部纳入分析。当至少有一个试验阳性结果者接受金标准验证,而阴性结果者不接受,即使不能估计单个诊断准确性,其相对准确性也是无偏倚的。当前问题回答“是”。
3.4.2 信号问题2:诊断试验间是否有恰当的时间间隔?(C4.2)
一般而言,所有待评价试验在入组后要同时实施,诊断试验之间的时间间隔也应恰当,以排除疾病进展或患者管理改变的可能性。然则,目标条件和待评价试验的“恰当”可能会有很大区别。例如,与急性和快速进展的疾病相比,对于缓慢进展的疾病,几天的时间间隔是可接受的。为了比较诊断准确性,对在临床不同时间点进行的诊断试验要求同时实施,是没必要甚至不可取。
3.4.3 信号问题3:是否所有待评价试验都接受相同的金标准验证?(C4.3)
是否跨诊断试验组使用相同的金标准验证?如果将不同的金标准应用于诊断试验A(如手术)和诊断试验B(如随访),两者比较存在偏倚风险,该问题回答“否”。
对于非配对或部分配对设计,诊断试验结果阳性者接受参考标准A,而诊断试验结果阴性者接受参考标准B,该信号问题回答“是”;但当接受参考标准A和参考标准B的受试者比例不同时,当前信号问题回答“不确定”。对于完全配对设计,如使用同一金标准来验证,该问题回答“是”;如果跨诊断试验组使用不同的金标准进行验证,且金标准不可互换,则回答“否”,两者比较存在偏倚。如果金标准可互换(即以同一方法诊断同一目标疾病状态),问题回答“否”,则不代表存在偏倚。
3.4.4 信号问题4:各个待评价试验中缺失数据的比例和原因是否相似?(C4.4)
如果待评价试验结果不可用、无效、有效但不确定,或病例未被纳入分析中,则产生数据缺失。评价者应仔细分析数据缺失的比例和原因,以及是否对比较的准确性产生偏倚。
以上QUADAS-C工具条目内容的解释译自QUADAS网站,更多相关内容可前往(http://www.bris.ac.uk/quadas/quadas-c/)及(annals.org)获取。
4 QUADAS-C工具的使用流程
理想情况下,需要对诊断试验准确性比较研究的4个问题领域(病例选择、待评价试验、金标准、病例流程和进展情况)逐一进行偏倚风险评价。该过程由QUADAS-C与QUADAS-2同步评价的6个步骤协作完成:① 回答单个待评价试验诊断准确性的信号问题;② 判断单个待评价试验诊断准确性的领域内偏倚风险;③ 评价临床适用性;④ 根据步骤2结果回答诊断试验准确性比较研究的第一个信号问题;⑤ 回答诊断试验准确性比较研究信号问题;⑥ 判断该领域内诊断试验准确性比较的总体偏倚。下面对步骤4和步骤6进行较为详细的说明(图2,仅为部分)[6]。

现举例说明QUADAS-C工具的使用流程,假设比较A和B 2个诊断试验。首先进入“域1:病例选择”,用QUADAS-2分别对A和B进行评价。进行步骤1回答信号问题,步骤2判断偏倚风险,步骤3评价临床适用性。接下来用QUADAS-C工具评价A、B之间的比较的偏倚风险。步骤4要根据QUADAS-2评价中步骤2偏倚风险判断的结果回答信号问题:是否每个诊断试验在该领域内的偏倚风险均判定为“低”。如果A和B判断结果都“低”,回答“是”,则A和B比较的偏倚风险较低;当A和(或)B偏倚风险判断“高”时,则A和B的比较中可能存在偏倚。步骤5回答其他信号问题。步骤6完成总体偏倚风险判断。随后依次进入后续领域,并重复相同步骤。
5 偏倚风险评价的结果呈现
QUADAS-C评价结果推荐用图、表的形式进行呈现。表4与表5整合展示了QUADAS-2和QUADAS-C的评价结果,如果研究问题只涉及准确性比较,则只需展示QUADAS-C评估结果[6]。


例如,当比较A和B两个试验的诊断准确性,同步使用QUADAS-2和QUADAS-C工具会呈现诊断试验A准确性偏倚风险评价、诊断试验B准确性偏倚风险评价、A和B准确性比较的偏倚风险评价3个结果(表5和图3)。

†:示例图译自QUADAS-C用户指导手册,详细内容可在QUADAS网站获取(http://www.bris.ac.uk/quadas/quadas-c/)。
偏倚风险评价可帮助评价者探索原始研究间异质性的来源,从而进行亚组分析或Meta回归;也可在初步评估或敏感性分析中排除具有“高”偏倚风险的原始研究[9-10],从而进一步提高证据体的可信性、质量和推荐强度[11]。
6 结语
QUADAS-C作为QUADAS-2的扩展工具,综合了多方意见,经过严格修订程序,是值得推荐的诊断试验准确性比较研究的偏倚风险评价工具。相关资源可在QUADAS网站(http://www.bris.ac.uk/quadas/quadas-c/)获取。但在使用QUADAS-C时也会遭遇一定的阻碍,如与QUADAS-2结合使用会产生大量的信号问题组合、在对3个及以上的CDTA评价困难更大。此外,QUADAS-C主要针对完全配对和随机设计的研究,用于非随机设计时需作相应调整,尤其在进行与发病率和死亡率相关的诊断准确性评价时,应另选与研究设计相配对的工具。目前工作组正在研发一款基于网络应用程序的QUADAS-人工智能(quality assessment of diagnostic accuracy studies artificial intelligence,QUADAS-AI)[12],该工具可结合QUADAS-2和QUADAS-C的结果自动生成信号问题解答,绘制偏倚风险评价表和图。QUADAS-C作为新发布的评价工具,有待时间和实践的检验与完善。使用该工具可帮助研究人员评价高质量的试验准确性比较研究证据,发现研究设计和实施过程中的偏倚。
1 QUADAS-C工具的研发背景
诊断准确性研究(diagnostic test accuracy study,DTA)是指评估临床使用的各种诊断方法,对研究对象的疾病和(或)健康状况做出区分的研究[1]。就某一健康问题进行诊断准确性的研究中,采用金标准或参考标准作为参照,比较一种诊断试验准确性的研究称为诊断试验非比较(单个诊断试验)准确性研究(single diagnostic test accuracy studies,SDTA)[2];而比较2种或2种以上诊断试验准确性的研究称为诊断试验准确性比较研究(comparative diagnosis test accuracy studies,CDTA)[2]。诊断试验准确性比较研究的目的是通过比较多个诊断试验的准确性,筛选出最佳诊断措施。当需要在众多待评价的诊断试验中做出最优选择时,CDTA能比SDTA提供更有力的证据[3-5]。CDTA与SDTA在研究问题、研究目的、研究设计、评价指标和主要偏倚等方面均存在差异,详见表1[6]。

当前最为推荐的诊断准确性研究偏倚风险评价工具QUADAS-2(quality assessment of diagnostic accuracy studies-2)并未涉及有关准确性比较的偏倚评价,它仅适用于SDTA研究,而不能用于评价CDTA的偏倚风险。2018年,由来自诊断试验和系统评价方法学领域的8位专家组成的指导工作组确定了涵盖16个条目的QUADAS-C(quality assessment of diagnostic accuracy studies-compare)初始列表,经4轮Delphi咨询后形成用于评价诊断试验准确性比较研究偏倚风险的QUADAS-C初始版本,并于2019年发布试用版,经预实验后发布正式版[6]。
2 QUADAS-C工具使用方法
QUADAS-C主要针对完全配对和随机化设计的诊断试验准确性比较研究,这类研究设计在系统评价中最具可比性[7]。在未随机化或部分配对的研究中,工具需做相应调整(删减和完善条目内容)。QUADAS-C不用于比较不同的诊断试验研究(间接比较),也不进行适用性评价。QUADAS-C工具评估诊断试验准确性比较研究的偏倚风险时,须与QUADAS-2同步使用(表2)[6]。该工具保留了与QUADAS-2相同的4个域(病例选择、待评价试验、金标准、病例流程和进展情况)[8],由14个信号问题和4个偏倚风险问题组成(表2)。每个信号问题通过回答“是”、“否”、“不确定”,再根据信号问题的回答来确定各领域的偏倚风险为“低”、“高”、“不确定”。QUADAS-C偏倚风险评估由3个部分组成:① 记录支持偏倚判断的理由;② 信号问题的回答;③ 各领域偏倚风险判断。

2.1 记录偏倚风险判断的理由
为保证偏倚风险评价过程的透明性和可重复性,评价者需要在QUADAS-C工具的文本字段里备注所有偏倚判断的理由(表3)。包括诊断试验准确性比较研究的设计及影响研究真实性的4个领域的信息,例如,受试者的分配方案(病例选择领域),待评价的诊断试验数据缺失的原因(病例流程和进展情况领域)等。

2.2 信号问题的回答
QUADAS-C信号问题的回答包括“是”、“否”或“不确定”,“是”表示“低”等级偏倚风险,“否”表示该领域存在潜在偏倚,但并不直接导致总体“高”偏倚判定,此时需要考虑偏倚的可能性和重要性(表2)。当评价者判断“可能是”或“可能不是”时,仍选择“是”或“否”选项。仅当提供的信息不足以判断“是”或“否”时,使用“不确定”选项。
2.3 偏倚风险评价
若一个领域内所有信号问题答案均为“是”,那么该领域偏倚等级为“低”。当所有领域都判定为“低”偏倚风险,则认为总体偏倚风险为“低”。若信号答案中至少有1个为“否”,则认为该领域偏倚等级为“高”。若某单个领域的偏倚可能影响全领域,则单个信号问题回答“否”时,认为总体偏倚等级为“高”。
当认为设计特征引入的偏倚可能会影响全领域,信号问题答案为“否”时,总体偏倚等级判定为“高”。例如,信号问题“是否采用完全配对或随机设计?”回答“否”,一般认为在病例选择领域潜在“高”偏倚(部分配对随机化设计除外)。
“不确定”并非指“中”偏倚风险,而是没有足够的信息来判断偏倚高低。
3 QUADAS-C工具条目解释
3.1 领域1:病例选择
3.1.1 信号问题1:是否每个诊断试验在该领域内的偏倚风险均判定为“低”?(C1.1)
若有一个诊断准确性试验存在高偏倚风险,则其比较也将存在高偏倚风险。即在该领域内,只要有一个待评价诊断试验在QUADAS-2的偏倚风险等级为“不确定”或“高”,那当前问题就评为“否”。QUADAS-C每个域的偏倚风险判断都以该信号问题为起始。但当不同的诊断试验存在大小与方向相似的偏倚风险,其相关比较结果则可能无偏倚风险,在判断时应谨慎。上述情况同样适用于信号问题C2.1、C3.1和C4.1。
例如:比较磁共振成像(magnetic resonance imaging,MRI)和磁共振关节造影(magnetic resonance angiography,MRA)在肩部上盂唇前后病变诊断准确性,研究对象排除了接受MRI、MRA和手术者。那么,仅接受MRI、MRA、手术人群也被排除在外,样本缺乏代表性。QUADAS-2中“研究是否避免了不恰当的排除?”,待评价试验MRI和MRA的回答均为“否”,其诊断准确性存在“高”偏倚风险,则当前QUADAS-C问题回答为“否”。
3.1.2 信号问题2:是否采用完全配对或随机设计?(图1 )(C1.2)

*:译自QUADAS-C用户指导手册,可在QUADAS网站获取(http://www.bris.ac.uk/quadas/quadas-c/)。
除原始研究采用完全配对、随机或部分配对随机设计外,其余情况回答“否”,认为存在“高”偏倚风险。制作系统评价时可将此作为原始研究的排除标准或敏感性分析标准。
完全配对设计研究中,若排除仅接受其中一个诊断试验的受试者,目标人群将缺乏代表性,该信号问题回答“是”;当受试者某个诊断试验结果缺失,该信号问题回答“是”,此时涉及数据缺失问题,在“病例流程和进展情况”域C4.4回答为“否”。
3.1.3 信号问题3:分配方案是否随机产生(C1.3)-仅适用于随机设计
随机序列产生的方法包括抽签、抛硬币、掷骰子、随机数字表、计算机产生随机数字等;而非随机分组的方法包括:交替分配、按出生或入院日期、病历记录号和记录日期分配等。
3.1.4 信号问题4:分配方案是否隐藏,直到受试者确定入组后(C1.4)-仅适用于随机设计
分配方案隐藏的方法包括:① 密闭信封法:指使用顺序编码、不透光、密闭的信封进行分配隐藏,即将每个分组方案放入一个不透光的信封中,信封外面写上编码,密封后交给未参与的第三方保存。在随机分组时,对符合纳入标准和排除标准的受试者进行编号,再依次打开,并现场记录分配的随机序列、信封号和分配结果,并于当天传送至数据管理中心。② 中心随机化:指随机化分配、受试者管理、药品管理等基于电话或计算机网络的随机化系统。以网络、电话、手机短信等多种方式对受试者进行随机分配和入组,从而实现分配方案隐藏。
3.2 领域2:待评价试验
3.2.1 信号问题1:是否每个诊断试验在该领域内的偏倚风险均判定为“低”?(C2.1)
若有一个诊断准确性存在高偏倚风险,则其比较也将存在高偏倚风险。即在该领域域内,只要有一个待评价试验在QUADAS-2的偏倚风险等级为“不确定”或“高”,那C2.1就评为“否”。
例如,利用金标准来判读某待评价试验结果,可能会高估该试验的诊断准确性。即便所有待评价试验都事先了解采用金标准判读的结果,所引入偏倚的大小与方向也不尽相同。因此,待评价试验的比较存在偏倚风险,回答为“否”。
3.2.2 信号问题2:待评价试验结果判读,是否在不知晓其他试验结果的情况下进行的?(C2.2)-仅适用于完全和部分配对设计中,受试者接受多个诊断试验
例如设计类型中#1、#3和#4(图1),侧重于结果报告引入的信息偏倚,如报告偏倚、暴露怀疑偏倚等。
判断偏倚的3个要素:① 结果报告的主观程度,任何主观判断(在X光片上是否能看到肿瘤)比客观测量的结果(血糖测量、体格检查结果等)更易受偏倚影响。② 诊断试验实施和结果报告的顺序。③ 当单个诊断试验与由多个诊断试验组成的诊断策略进行比较,则“否”的答案,可能提示“低”偏倚风险。例如比较用超声(ultrasound,US)诊断和超声+CT联合诊断阑尾炎。临床上US通常在CT之前完成,在CT结果报告前已获知US结果,而US结果是在不知晓CT结果的情况下实施。
3.2.3 信号问题3:试验实施时,是否存在诊断试验间的顺序效应?(C2.3)–仅适用于接受多个诊断试验的患者
此问题仅适用于完全和部分配对设计(例如图1中#1、#3和#4)。当相同的受试者接受不同处理时,第一个试验可能对后续试验产生影响或干扰。例如:受试者在完成多个问卷时出现学习效应和厌倦效应;在已经被第一根活检针穿刺的组织中使用第二根活检针;没有足够的血样进行第二个血液标志物检测。类似于临床试验交叉设计顺序效应(遗留效应),如果受试者在实施第一次诊断试验后拒绝或无法实施第二个试验,则将导致数据丢失。那么当前问题回答“否”。
3.2.4 信号问题4:待评价试验的实施与结果判读是否利用了某个诊断试验?(C2.4)
待评价试验的实施与结果判读是否设盲,即所有待评价试验是否都经过了相同的金标准验证。若某个待评价试验的实施或结果判读与其他试验间存在巨大差异,且与临床实际相悖,则当前问题回答“否”,即存在偏倚。例如使用新鲜标本进行一种生物标志物测定,而使用冷冻标本进行竞争生物标志物测定。此问题旨在涵盖除C2.2和C2.3问题已包含的诊断方法和结果判读以外的差异。
3.3 领域3:金标准
3.3.1 信号问题1:是否每个待评价试验在该领域内的偏倚风险均判定为“低”?(C3.1)
若有一个诊断准确性试验存在高偏倚风险,则其比较也将存在高偏倚风险。即在该领域内,只要有一个待评价试验在QUADAS-2的偏倚风险等级为“不确定”或“高”,那当前问题就评为“否”。
首先,金标准是否正确区分受试者目标疾病状态?再者,金标准的结果判读是否在未事先了解待评价试验结果的情况下进行。若回答“否”,则其诊断准确性与试验间比较的准确性均存在“高”偏倚风险。
3.3.2 信号问题2:待评价试验是否独立于金标准?(C3.2)
如果待评价试验不独立于金标准,两者间一致性会增加,从而使待评价试验准确性被高估。若一个待评价试验是金标准的一部分,而另一个不是,则评价结果存在明显偏倚。即使所有待评价试验都涵盖在金标准内,他们对最终诊断的权重或贡献也可能存在差异。那当前问题回答“否”。
3.4 领域4:病例流程和进展情况
3.4.1 信号问题1:是否每个诊断试验在该领域内的偏倚风险均判定为“低”?(C4.1)
若有一个试验的诊断准确性存在“高”偏倚风险,则其比较也将存在“高”偏倚风险。即在该领域内,只要有一个待评价试验在QUADAS-2的偏倚风险等级为“不确定”或“高”,那当前问题就评为“否”。
每个待评价试验和金标准之间应有恰当的时间间隔,所有受试者应接受相同的金标准,并被全部纳入分析。当至少有一个试验阳性结果者接受金标准验证,而阴性结果者不接受,即使不能估计单个诊断准确性,其相对准确性也是无偏倚的。当前问题回答“是”。
3.4.2 信号问题2:诊断试验间是否有恰当的时间间隔?(C4.2)
一般而言,所有待评价试验在入组后要同时实施,诊断试验之间的时间间隔也应恰当,以排除疾病进展或患者管理改变的可能性。然则,目标条件和待评价试验的“恰当”可能会有很大区别。例如,与急性和快速进展的疾病相比,对于缓慢进展的疾病,几天的时间间隔是可接受的。为了比较诊断准确性,对在临床不同时间点进行的诊断试验要求同时实施,是没必要甚至不可取。
3.4.3 信号问题3:是否所有待评价试验都接受相同的金标准验证?(C4.3)
是否跨诊断试验组使用相同的金标准验证?如果将不同的金标准应用于诊断试验A(如手术)和诊断试验B(如随访),两者比较存在偏倚风险,该问题回答“否”。
对于非配对或部分配对设计,诊断试验结果阳性者接受参考标准A,而诊断试验结果阴性者接受参考标准B,该信号问题回答“是”;但当接受参考标准A和参考标准B的受试者比例不同时,当前信号问题回答“不确定”。对于完全配对设计,如使用同一金标准来验证,该问题回答“是”;如果跨诊断试验组使用不同的金标准进行验证,且金标准不可互换,则回答“否”,两者比较存在偏倚。如果金标准可互换(即以同一方法诊断同一目标疾病状态),问题回答“否”,则不代表存在偏倚。
3.4.4 信号问题4:各个待评价试验中缺失数据的比例和原因是否相似?(C4.4)
如果待评价试验结果不可用、无效、有效但不确定,或病例未被纳入分析中,则产生数据缺失。评价者应仔细分析数据缺失的比例和原因,以及是否对比较的准确性产生偏倚。
以上QUADAS-C工具条目内容的解释译自QUADAS网站,更多相关内容可前往(http://www.bris.ac.uk/quadas/quadas-c/)及(annals.org)获取。
4 QUADAS-C工具的使用流程
理想情况下,需要对诊断试验准确性比较研究的4个问题领域(病例选择、待评价试验、金标准、病例流程和进展情况)逐一进行偏倚风险评价。该过程由QUADAS-C与QUADAS-2同步评价的6个步骤协作完成:① 回答单个待评价试验诊断准确性的信号问题;② 判断单个待评价试验诊断准确性的领域内偏倚风险;③ 评价临床适用性;④ 根据步骤2结果回答诊断试验准确性比较研究的第一个信号问题;⑤ 回答诊断试验准确性比较研究信号问题;⑥ 判断该领域内诊断试验准确性比较的总体偏倚。下面对步骤4和步骤6进行较为详细的说明(图2,仅为部分)[6]。

现举例说明QUADAS-C工具的使用流程,假设比较A和B 2个诊断试验。首先进入“域1:病例选择”,用QUADAS-2分别对A和B进行评价。进行步骤1回答信号问题,步骤2判断偏倚风险,步骤3评价临床适用性。接下来用QUADAS-C工具评价A、B之间的比较的偏倚风险。步骤4要根据QUADAS-2评价中步骤2偏倚风险判断的结果回答信号问题:是否每个诊断试验在该领域内的偏倚风险均判定为“低”。如果A和B判断结果都“低”,回答“是”,则A和B比较的偏倚风险较低;当A和(或)B偏倚风险判断“高”时,则A和B的比较中可能存在偏倚。步骤5回答其他信号问题。步骤6完成总体偏倚风险判断。随后依次进入后续领域,并重复相同步骤。
5 偏倚风险评价的结果呈现
QUADAS-C评价结果推荐用图、表的形式进行呈现。表4与表5整合展示了QUADAS-2和QUADAS-C的评价结果,如果研究问题只涉及准确性比较,则只需展示QUADAS-C评估结果[6]。


例如,当比较A和B两个试验的诊断准确性,同步使用QUADAS-2和QUADAS-C工具会呈现诊断试验A准确性偏倚风险评价、诊断试验B准确性偏倚风险评价、A和B准确性比较的偏倚风险评价3个结果(表5和图3)。

†:示例图译自QUADAS-C用户指导手册,详细内容可在QUADAS网站获取(http://www.bris.ac.uk/quadas/quadas-c/)。
偏倚风险评价可帮助评价者探索原始研究间异质性的来源,从而进行亚组分析或Meta回归;也可在初步评估或敏感性分析中排除具有“高”偏倚风险的原始研究[9-10],从而进一步提高证据体的可信性、质量和推荐强度[11]。
6 结语
QUADAS-C作为QUADAS-2的扩展工具,综合了多方意见,经过严格修订程序,是值得推荐的诊断试验准确性比较研究的偏倚风险评价工具。相关资源可在QUADAS网站(http://www.bris.ac.uk/quadas/quadas-c/)获取。但在使用QUADAS-C时也会遭遇一定的阻碍,如与QUADAS-2结合使用会产生大量的信号问题组合、在对3个及以上的CDTA评价困难更大。此外,QUADAS-C主要针对完全配对和随机设计的研究,用于非随机设计时需作相应调整,尤其在进行与发病率和死亡率相关的诊断准确性评价时,应另选与研究设计相配对的工具。目前工作组正在研发一款基于网络应用程序的QUADAS-人工智能(quality assessment of diagnostic accuracy studies artificial intelligence,QUADAS-AI)[12],该工具可结合QUADAS-2和QUADAS-C的结果自动生成信号问题解答,绘制偏倚风险评价表和图。QUADAS-C作为新发布的评价工具,有待时间和实践的检验与完善。使用该工具可帮助研究人员评价高质量的试验准确性比较研究证据,发现研究设计和实施过程中的偏倚。