正确使用盲法可以有效控制和减少临床试验过程中由于试验参与人员主观因素所引入的偏倚,但盲法失败时反而会引入更大偏倚。因此,对涉及盲法的临床试验,有必要对其进行盲法质量评价。笔者对目前国际上盲法质量评价的相关文献和方法进行了梳理总结,发现目前盲法质量评价尚未引起研究者的足够重视,相关研究报道较少;更缺乏全面综合的盲法评价方法和工具,对盲法评价时点也无统一意见。因此,有必要对盲法评价方法进行多方面的深入研究,并建议根据影响盲法实施的关键因素开发综合的盲法评价量表,通过评估各关键因素的执行情况,确定研究的盲法风险和等级,便于更好地解释和评估研究结果。
引用本文: 闫世艳, 何丽云, 刘保延. 随机对照临床试验中盲法质量评价现状. 中国循证医学杂志, 2014, 14(5): 631-632. doi: 10.7507/1672-2531.20140104 复制
在临床研究中,盲法(blinding)是指受试对象、试验实施者和结局测量者均不知道受试对象分在何组,其目的是提高试验的内部一致性,减少由于受试者、研究者或结局评价者等试验参与人员的期望、偏见和信仰等主观因素所导致的偏倚,进而提高研究质量。目前,盲法实施的主要过程是通过制作与试验药物一致的模拟剂,然后对试验药品与模拟剂根据事先确定的药物编码进行编盲,编盲后由于药物外观一致,就达到对研究者、受试者以及研究过程中其他参与人员施盲的目的。此外,研究过程中的分组隐蔽也是盲法实施过程中的关键,即除产生随机分组的人员外,随机分组的信息尽可能不被研究过程中的其他人员接触到。而对于外科手术或针灸这样的临床研究,由于无法使研究者保持盲态,常采用使受试者和结局测量评价者保持盲态的方法。对一个研究而言,盲法需贯穿于整个临床研究过程,因此很多因素可能会影响到盲法的成功实施,进而导致盲法失败,导致偏倚。
目前,在随机对照临床试验中,影响盲法质量的因素主要有模拟剂制作、药品编盲、治疗措施的某些特点、药物的副作用或伴随症状以及人员分工等。如在中医药的双盲临床试验中,模拟剂的制作非常关键。由于中医药特有的气味、颜色等,在制作模拟剂时必须在各方面尽量与治疗药物接近,不合格的模拟剂会增加泄盲风险。另外,由于中医药的特殊作用,不同治法的方剂在服用后可能会出现相应的伴随症状或体征,如使用汗法治疗疾病时,试验组患者在服用后会出现发汗现象,而对照组如服用安慰剂则无发汗,这会导致研究者泄盲的风险增加。另外,使用安慰剂对照时,试验组治疗效应的出现也会增加研究者泄盲的风险。盲法失败时,不仅难以起到应有的控制和减少偏倚的作用,反而会引入更大的偏倚,主要有:①沾染(contamination):当受试者发现自己在安慰剂组或对照组时,可能会在试验外接受试验处理而造成沾染。②干扰(co-intervention):当研究者知道受试者在安慰剂组或对照组时,可能会提供治疗方案之外的有效干预。③事件报告偏倚(biased event reporting):当研究者或受试者知道自己在治疗组时,可能会造成对症状体征的忽视或轻视以及对发生的轻微事件的忽略[1, 2]。因此,对于采用盲法的临床试验,有必要进行盲法评价来考察盲法实施的质量。盲法质量评估是偏倚风险评估的重要内容,本文将对国内外盲法质量评价的现状进行分析总结。
1 国内外盲法质量评价相关报道
近年来,盲法质量评价已经引起研究者的重视,但该方面的研究报道较少。2004年以来有多篇文献提到了盲法质量评价,其研究者认为盲法评价是一个难题,目前缺乏统一的定量的盲法质量评价方法[3-5]。CONSORT声明指出,对于双盲临床试验在报告研究结果时,必须明确给出盲法的实施过程,以判断该研究的盲法实施情况[2]。在Cochrane Handbook中,在研究质量评价时也明确提出需要报告试验实施和分析过程中对哪些人员实施了盲法,每个主要结局评价的盲法以及与盲法相关的偏倚风险[5],但对于具体的盲法评价方法和工具却并未提及。
Fergusson等[4]对1998年1月1日至2001年10月1日发表在顶级医学杂志(JAMA、NEJM、BMJ、Lancet和Ann Intern Med)和4个顶级精神病学杂志上的191篇随机对照试验进行评价,发现只有15篇文献提供了盲法成功的证据;4篇对受试者或研究者或结局评价者进行了盲法评价。Hrobjartsson等[5]对2001年在Cochrane CENTRAL注册和发表的双盲随机对照研究进行评价,共收集到1 599个研究,其中仅31个研究(2%)报告进行了盲法评价,其中报告盲法成功的14个,报告不确定的10个,研究者认为目前迫切需要提出盲法评价的方法学。Boutron等[6] 2005年检索了MEDLINE、Cochrane Controlled Trials Register和Cochrane Method Register(2004年第1期)以及NEJM、JAMA、Lancet、Ann Intern Med和BMJ 2003年1~12月发表的文献,结果发现,在筛选出的90篇随机对照盲法文献中,仅58篇评价了受试者的盲法,36篇评价了研究者的盲法,15篇评价了结局评价者的盲法。
目前我国尚无盲法评价方面的相关文献发表,但关于中药模拟剂的盲法评价已受到重视。王云飞等[7]曾以“十一五”国家支撑计划《冠心病血运重建后中医干预的临床研究》用药“冠心病方(协定)(免煎颗粒)”的模拟剂研制为例,运用盲法测试,由测试者独立对模拟剂的外观、颜色和气味进行评价,再模拟临床试验进行评价打分,评价安慰剂的盲法。温泽淮等[8]也曾采用同样的方法对模拟剂的盲法进行了评价。但这些评价只关注了盲法实施过程中的模拟剂制作方面,并未全面地对整个研究的盲法质量进行评价。
2 盲法质量评价方法
目前,盲法的评价方法主要是通过研究者报告的盲法实施过程来评价的,即通过研究者文献中对盲法实施细节的报告来判断盲法的实施质量。但这种形式的主观性较强,主要依赖于研究者报告[4],且无法进行定量评价。出于对盲法质量进行定量评价的需求,研究者更多采用直接提问法进行盲法评价[9, 10]。直接提问法是在病例报告表中设计一个问题,让被盲对象如受试者或研究者猜测受试者被分配的组别,受试者可猜测自己分配的组别是试验组、对照组或不确定,这样就会得到一个2 × 3的表格,从而计算出每组猜测正确、猜测错误或不确定的比例,通过对该比例的分析来进行盲法质量评价[11]。LaRosa等[12]根据组别猜测的把握程度进一步又分为5个等级:强烈认为是试验组、较有把握认为是试验组、较有把握认为是对照组、强烈认为是对照组、不确定,这样得到的就是一个2 × 5的表格。同样是直接提问法,而Rees等[13]的关注却不同,他们认为评价盲法更好的方法是对研究开始和结束时,组别猜测发生变化的那部分人进行内部比较,而不是进行猜测正确率的比较。
上述方法是目前文献中报告的几种盲法评价方法,通过上述方法可以得到猜中(猜测正确)比例,当猜中比例不高于概率时,一般就认为盲法是成功的。但实际上,即使盲法是成功的,每组被猜中的比例也不一定正好等于50%,且分配组别被猜中并不能与盲法质量划等号,并不能代表盲法质量不高或泄盲[6]。因此,直接采用猜中比例来评价盲法质量是不适宜的,需要对其进行统计分析。对于直接提问法获得的盲法数据,常有研究者错误地采用卡方检验、Kappa一致性检验等方法进行统计分析。BI指数(blinding index scale,BI)是目前专用的基于上述直接提问法得到的数据统计分析得出的盲法评价统计指标,通过指数的大小来判断盲法的实施情况。BI指数是由Kappa系数变化而来。Kappa系数用于测量一致性,而BI指数则侧重测量不一致性。BI指数对于每个猜测的答案都给予不同的权重,如猜测正确可能提示盲法失败,设权重为0,猜测错误提示盲法可能成功,设权重为0.50~0.75,而回答“不确定”提示盲法成功,设权重为1。BI指数介于0~1之间,当所有受试者都猜测正确时,BI=0,代表完全没有盲态,当所有受试者均回答“不确定”时,BI=1,代表完全盲态,0.5表示随机盲态(random blinding,即50%猜测正确,50%猜测错误),如果BI的95%可信区间上限<0.5,则认为该研究的盲法不完善。反之,则无充分证据认为盲法不完善[10]。在BI指数中,因为主要测量“不确定”,因此一个重要的假定就是受试者回答的“不确定”确实是不确定,而非有偏倚或为了避免做决定而做出的回答。因此,此时研究者鼓励受试者诚实回答他们的猜测很重要[14]。
然而在实际临床试验中,试验组和对照组的盲法情况往往可能出现数量上甚至方向上的差异,即两组的盲态情况可能不一致,甚至相反。James等[10]提出的BI指数是综合了两组盲态数据的指标,因而难以区分出各组自身的盲态情况。两组盲态方向相反时,综合后可能掩盖其实际情况而导致错误的结论,且该方法也无法得到随机机遇水平之外(random chance level)的非盲受试者所占的比例。除盲法的可靠性和有效性之外,有多少受试者的盲法被识破也是研究者关注的问题。因而Bang等[9]于2004年提出了新的BI指数,可以计算出各组的盲态情况,且可直接理解为每组的盲法被识破的比例。与James的BI指数相比,新的BI指数是计算各组内部猜测正确率和猜测错误率的差别,而排除了“不确定”的情况,因为认为“不确定”与猜测错误一样,都是反映盲法成功。新的BI指数实际上是分别计算每组的非盲受试者所占的比例,并进行统计检验。该指数介于-1和1之间,0表示盲态成功,猜测的正确率处于随机水平。BI指数为正,表示盲法失败,猜测正确率高于随机水平;BI指数为负,表示盲法成功或盲法失败但方向相反,即较多的受试者错误地认为自己接受的是相反的处理。新的BI指数通过每组中盲态可能出现的3种情况将整个研究的盲法情况划分为9类。每组的3种可能情况为:随机盲态(BI指数接近0)、泄盲(BI指数显著>0)和反向猜测(opposite guess,BI指数显著<0,如对照组的患者往往倾向于猜测自己是试验组)。另外,Bang等[9]还建议对于BI也进行假设检验,以检验泄盲是由于主观因素导致的还是内在的混杂因素。
因此,两种BI指数其实各有长短,由于二者的理论基础不同,无法进行比较。James等[10]认为“不确定”选项最为重要,而Bang’s BI指数则更多地将“不确定”和猜测错误归为一类。在实际应用过程中可以结合使用。James’ BI指数可用于分析总体的盲法成功情况,而Bang’s BI指数则可用于评价每组的盲法状态,并可根据每组的BI指数,将研究分为上述9类情况中的一类,并据此来估计每组的盲态情况。目前Stata软件已开发了这两种BI指数的计算模块,并被研究者采用。但由于盲法评价尚未得到研究者重视,目前进行盲法评价的研究较少。然而,在进行盲法评价的文章中,BI指数已被一些研究者采用。经检索PubMed发现,目前只有约10篇文章报告采用BI指数进行了盲法评价,主要集中在针灸的双盲临床研究,其中以Bang’s BI指数的应用较多[15-23]。
3 盲法评价对象和时点
盲法评价常对以下几类关键的试验参与人员进行:受试者、研究者、数据收集者、结局评价者和统计分析者。具体的盲法评价对象与研究设计时的被盲人员有关。除此之外,还有研究者指出,为更好地避免偏倚,应对撰写报告者也保持盲态[14],可以避免发表偏倚。
除评价方法学缺乏外,研究者对盲法评价的时间点也有较多争议,即是在研究开始前、研究早期、中期还是研究结束时进行盲法质量的评价。目前对此缺乏统一观点。有研究者认为,研究早期的盲法成功并不能说明后期的盲法也是成功的,而中期的盲法评价则容易受治疗效应或治疗副作用发生后研究者直觉的影响[24, 25];研究结束时的盲法评价则可能是折中的,且易受治疗结局的影响。有的研究者则认为,泄盲可能发生在研究过程中的任何时候,建议在研究结束时评价更合适[24, 26]。也有研究者认为,横断面上的盲法评价难以反映整个研究过程中的盲态情况,因此建议根据研究持续时间在研究过程中的不同时点进行盲法评价[27]。但Rees等[13]的研究表明,研究过程中进行6次和2次盲法评价的结果并无差异,而反复询问反而会引起研究者或受试者的注意而导致泄盲和偏倚[13]。除上述观点外,还有的研究者认为,无论是试验过程中还是试验结束后都无法判定盲法是否成功,需要在试验开始之前采用志愿者进行一个专门的盲法评价研究[6, 28]。
因此,过分强调盲法评价的时点未免有些偏颇,建议应根据研究的具体情况,针对可能影响盲法的关键因素进行综合评价。以安慰剂随机对照试验为例,可在以下阶段进行盲法评价:首先,在研究开始之前进行安慰剂合格与否的评价;然后在研究早期针对整个研究流程进行盲法评价,及早发现可能导致泄盲的环节;最后在研究结束时,进行一个整体全面的盲法质量评价。
4 盲法质量评价中存在的问题
综上所述,目前临床试验中盲法质量评价方面存在诸多问题。首先,盲法质量评价尚未引起研究者的足够重视。现有的盲法临床试验中,很少对盲法质量进行评价,更没有进行盲法质量可能导致偏倚风险的评估。其次,目前缺乏对盲法进行定量和定性评价的具体方法和工具,对于盲法评价的时间亦有较多争议。现有的盲法评价方法主要基于对分配组别的猜中比例进行分析,不够全面。同时,这些方法只着眼于研究实施过程中的盲法,未考虑其他可能影响盲法质量的因素。盲态的保持贯穿于整个研究过程中,研究过程中其他关键影响因素的考虑不周到或缺陷,都会影响到研究的盲态。因此,单纯依靠分析猜中比例来进行盲法质量评价是不够的。尤其是在安慰剂对照研究中,由于治疗后期的疗效差异可能导致治疗组被猜中的比例增加,但并不能认为是盲法质量有问题。另外,即使研究过程中盲法实施很好,BI指数支持盲法成功,但在研究后期的数据管理过程中,如果人员分工不合理或盲底保存有问题,也可能会有申办方或监查方接触到盲底,同样会导致严重的泄盲,这样对研究的影响会更大。因此,若要全面评价盲法质量,需要对影响盲法质量的关键因素进行综合评价,如安慰剂合格性评价、人员分工、药品编盲过程的合理性等关键因素。基于上述观点,亟需开发和研究新的适宜的盲法评价方法和工具,如全面综合评价盲法质量的量表,该量表可根据整个研究过程中影响盲法质量的关键因素(安慰剂制作、药品编盲、人员分工、药物的副作用或伴随症状等)的执行情况,根据量表得分情况将盲法质量划分为不同等级,便于研究者对自身研究结果的盲法质量和风险进行评估,有助于研究结果的合理解释,同时也有助于读者和其他研究者更加客观科学地了解研究结果和结论。目前,本课题组已着手开始相关研究。此外,由于盲法质量评价涉及的因素较多较广,该方面还需要进一步深入研究。
在临床研究中,盲法(blinding)是指受试对象、试验实施者和结局测量者均不知道受试对象分在何组,其目的是提高试验的内部一致性,减少由于受试者、研究者或结局评价者等试验参与人员的期望、偏见和信仰等主观因素所导致的偏倚,进而提高研究质量。目前,盲法实施的主要过程是通过制作与试验药物一致的模拟剂,然后对试验药品与模拟剂根据事先确定的药物编码进行编盲,编盲后由于药物外观一致,就达到对研究者、受试者以及研究过程中其他参与人员施盲的目的。此外,研究过程中的分组隐蔽也是盲法实施过程中的关键,即除产生随机分组的人员外,随机分组的信息尽可能不被研究过程中的其他人员接触到。而对于外科手术或针灸这样的临床研究,由于无法使研究者保持盲态,常采用使受试者和结局测量评价者保持盲态的方法。对一个研究而言,盲法需贯穿于整个临床研究过程,因此很多因素可能会影响到盲法的成功实施,进而导致盲法失败,导致偏倚。
目前,在随机对照临床试验中,影响盲法质量的因素主要有模拟剂制作、药品编盲、治疗措施的某些特点、药物的副作用或伴随症状以及人员分工等。如在中医药的双盲临床试验中,模拟剂的制作非常关键。由于中医药特有的气味、颜色等,在制作模拟剂时必须在各方面尽量与治疗药物接近,不合格的模拟剂会增加泄盲风险。另外,由于中医药的特殊作用,不同治法的方剂在服用后可能会出现相应的伴随症状或体征,如使用汗法治疗疾病时,试验组患者在服用后会出现发汗现象,而对照组如服用安慰剂则无发汗,这会导致研究者泄盲的风险增加。另外,使用安慰剂对照时,试验组治疗效应的出现也会增加研究者泄盲的风险。盲法失败时,不仅难以起到应有的控制和减少偏倚的作用,反而会引入更大的偏倚,主要有:①沾染(contamination):当受试者发现自己在安慰剂组或对照组时,可能会在试验外接受试验处理而造成沾染。②干扰(co-intervention):当研究者知道受试者在安慰剂组或对照组时,可能会提供治疗方案之外的有效干预。③事件报告偏倚(biased event reporting):当研究者或受试者知道自己在治疗组时,可能会造成对症状体征的忽视或轻视以及对发生的轻微事件的忽略[1, 2]。因此,对于采用盲法的临床试验,有必要进行盲法评价来考察盲法实施的质量。盲法质量评估是偏倚风险评估的重要内容,本文将对国内外盲法质量评价的现状进行分析总结。
1 国内外盲法质量评价相关报道
近年来,盲法质量评价已经引起研究者的重视,但该方面的研究报道较少。2004年以来有多篇文献提到了盲法质量评价,其研究者认为盲法评价是一个难题,目前缺乏统一的定量的盲法质量评价方法[3-5]。CONSORT声明指出,对于双盲临床试验在报告研究结果时,必须明确给出盲法的实施过程,以判断该研究的盲法实施情况[2]。在Cochrane Handbook中,在研究质量评价时也明确提出需要报告试验实施和分析过程中对哪些人员实施了盲法,每个主要结局评价的盲法以及与盲法相关的偏倚风险[5],但对于具体的盲法评价方法和工具却并未提及。
Fergusson等[4]对1998年1月1日至2001年10月1日发表在顶级医学杂志(JAMA、NEJM、BMJ、Lancet和Ann Intern Med)和4个顶级精神病学杂志上的191篇随机对照试验进行评价,发现只有15篇文献提供了盲法成功的证据;4篇对受试者或研究者或结局评价者进行了盲法评价。Hrobjartsson等[5]对2001年在Cochrane CENTRAL注册和发表的双盲随机对照研究进行评价,共收集到1 599个研究,其中仅31个研究(2%)报告进行了盲法评价,其中报告盲法成功的14个,报告不确定的10个,研究者认为目前迫切需要提出盲法评价的方法学。Boutron等[6] 2005年检索了MEDLINE、Cochrane Controlled Trials Register和Cochrane Method Register(2004年第1期)以及NEJM、JAMA、Lancet、Ann Intern Med和BMJ 2003年1~12月发表的文献,结果发现,在筛选出的90篇随机对照盲法文献中,仅58篇评价了受试者的盲法,36篇评价了研究者的盲法,15篇评价了结局评价者的盲法。
目前我国尚无盲法评价方面的相关文献发表,但关于中药模拟剂的盲法评价已受到重视。王云飞等[7]曾以“十一五”国家支撑计划《冠心病血运重建后中医干预的临床研究》用药“冠心病方(协定)(免煎颗粒)”的模拟剂研制为例,运用盲法测试,由测试者独立对模拟剂的外观、颜色和气味进行评价,再模拟临床试验进行评价打分,评价安慰剂的盲法。温泽淮等[8]也曾采用同样的方法对模拟剂的盲法进行了评价。但这些评价只关注了盲法实施过程中的模拟剂制作方面,并未全面地对整个研究的盲法质量进行评价。
2 盲法质量评价方法
目前,盲法的评价方法主要是通过研究者报告的盲法实施过程来评价的,即通过研究者文献中对盲法实施细节的报告来判断盲法的实施质量。但这种形式的主观性较强,主要依赖于研究者报告[4],且无法进行定量评价。出于对盲法质量进行定量评价的需求,研究者更多采用直接提问法进行盲法评价[9, 10]。直接提问法是在病例报告表中设计一个问题,让被盲对象如受试者或研究者猜测受试者被分配的组别,受试者可猜测自己分配的组别是试验组、对照组或不确定,这样就会得到一个2 × 3的表格,从而计算出每组猜测正确、猜测错误或不确定的比例,通过对该比例的分析来进行盲法质量评价[11]。LaRosa等[12]根据组别猜测的把握程度进一步又分为5个等级:强烈认为是试验组、较有把握认为是试验组、较有把握认为是对照组、强烈认为是对照组、不确定,这样得到的就是一个2 × 5的表格。同样是直接提问法,而Rees等[13]的关注却不同,他们认为评价盲法更好的方法是对研究开始和结束时,组别猜测发生变化的那部分人进行内部比较,而不是进行猜测正确率的比较。
上述方法是目前文献中报告的几种盲法评价方法,通过上述方法可以得到猜中(猜测正确)比例,当猜中比例不高于概率时,一般就认为盲法是成功的。但实际上,即使盲法是成功的,每组被猜中的比例也不一定正好等于50%,且分配组别被猜中并不能与盲法质量划等号,并不能代表盲法质量不高或泄盲[6]。因此,直接采用猜中比例来评价盲法质量是不适宜的,需要对其进行统计分析。对于直接提问法获得的盲法数据,常有研究者错误地采用卡方检验、Kappa一致性检验等方法进行统计分析。BI指数(blinding index scale,BI)是目前专用的基于上述直接提问法得到的数据统计分析得出的盲法评价统计指标,通过指数的大小来判断盲法的实施情况。BI指数是由Kappa系数变化而来。Kappa系数用于测量一致性,而BI指数则侧重测量不一致性。BI指数对于每个猜测的答案都给予不同的权重,如猜测正确可能提示盲法失败,设权重为0,猜测错误提示盲法可能成功,设权重为0.50~0.75,而回答“不确定”提示盲法成功,设权重为1。BI指数介于0~1之间,当所有受试者都猜测正确时,BI=0,代表完全没有盲态,当所有受试者均回答“不确定”时,BI=1,代表完全盲态,0.5表示随机盲态(random blinding,即50%猜测正确,50%猜测错误),如果BI的95%可信区间上限<0.5,则认为该研究的盲法不完善。反之,则无充分证据认为盲法不完善[10]。在BI指数中,因为主要测量“不确定”,因此一个重要的假定就是受试者回答的“不确定”确实是不确定,而非有偏倚或为了避免做决定而做出的回答。因此,此时研究者鼓励受试者诚实回答他们的猜测很重要[14]。
然而在实际临床试验中,试验组和对照组的盲法情况往往可能出现数量上甚至方向上的差异,即两组的盲态情况可能不一致,甚至相反。James等[10]提出的BI指数是综合了两组盲态数据的指标,因而难以区分出各组自身的盲态情况。两组盲态方向相反时,综合后可能掩盖其实际情况而导致错误的结论,且该方法也无法得到随机机遇水平之外(random chance level)的非盲受试者所占的比例。除盲法的可靠性和有效性之外,有多少受试者的盲法被识破也是研究者关注的问题。因而Bang等[9]于2004年提出了新的BI指数,可以计算出各组的盲态情况,且可直接理解为每组的盲法被识破的比例。与James的BI指数相比,新的BI指数是计算各组内部猜测正确率和猜测错误率的差别,而排除了“不确定”的情况,因为认为“不确定”与猜测错误一样,都是反映盲法成功。新的BI指数实际上是分别计算每组的非盲受试者所占的比例,并进行统计检验。该指数介于-1和1之间,0表示盲态成功,猜测的正确率处于随机水平。BI指数为正,表示盲法失败,猜测正确率高于随机水平;BI指数为负,表示盲法成功或盲法失败但方向相反,即较多的受试者错误地认为自己接受的是相反的处理。新的BI指数通过每组中盲态可能出现的3种情况将整个研究的盲法情况划分为9类。每组的3种可能情况为:随机盲态(BI指数接近0)、泄盲(BI指数显著>0)和反向猜测(opposite guess,BI指数显著<0,如对照组的患者往往倾向于猜测自己是试验组)。另外,Bang等[9]还建议对于BI也进行假设检验,以检验泄盲是由于主观因素导致的还是内在的混杂因素。
因此,两种BI指数其实各有长短,由于二者的理论基础不同,无法进行比较。James等[10]认为“不确定”选项最为重要,而Bang’s BI指数则更多地将“不确定”和猜测错误归为一类。在实际应用过程中可以结合使用。James’ BI指数可用于分析总体的盲法成功情况,而Bang’s BI指数则可用于评价每组的盲法状态,并可根据每组的BI指数,将研究分为上述9类情况中的一类,并据此来估计每组的盲态情况。目前Stata软件已开发了这两种BI指数的计算模块,并被研究者采用。但由于盲法评价尚未得到研究者重视,目前进行盲法评价的研究较少。然而,在进行盲法评价的文章中,BI指数已被一些研究者采用。经检索PubMed发现,目前只有约10篇文章报告采用BI指数进行了盲法评价,主要集中在针灸的双盲临床研究,其中以Bang’s BI指数的应用较多[15-23]。
3 盲法评价对象和时点
盲法评价常对以下几类关键的试验参与人员进行:受试者、研究者、数据收集者、结局评价者和统计分析者。具体的盲法评价对象与研究设计时的被盲人员有关。除此之外,还有研究者指出,为更好地避免偏倚,应对撰写报告者也保持盲态[14],可以避免发表偏倚。
除评价方法学缺乏外,研究者对盲法评价的时间点也有较多争议,即是在研究开始前、研究早期、中期还是研究结束时进行盲法质量的评价。目前对此缺乏统一观点。有研究者认为,研究早期的盲法成功并不能说明后期的盲法也是成功的,而中期的盲法评价则容易受治疗效应或治疗副作用发生后研究者直觉的影响[24, 25];研究结束时的盲法评价则可能是折中的,且易受治疗结局的影响。有的研究者则认为,泄盲可能发生在研究过程中的任何时候,建议在研究结束时评价更合适[24, 26]。也有研究者认为,横断面上的盲法评价难以反映整个研究过程中的盲态情况,因此建议根据研究持续时间在研究过程中的不同时点进行盲法评价[27]。但Rees等[13]的研究表明,研究过程中进行6次和2次盲法评价的结果并无差异,而反复询问反而会引起研究者或受试者的注意而导致泄盲和偏倚[13]。除上述观点外,还有的研究者认为,无论是试验过程中还是试验结束后都无法判定盲法是否成功,需要在试验开始之前采用志愿者进行一个专门的盲法评价研究[6, 28]。
因此,过分强调盲法评价的时点未免有些偏颇,建议应根据研究的具体情况,针对可能影响盲法的关键因素进行综合评价。以安慰剂随机对照试验为例,可在以下阶段进行盲法评价:首先,在研究开始之前进行安慰剂合格与否的评价;然后在研究早期针对整个研究流程进行盲法评价,及早发现可能导致泄盲的环节;最后在研究结束时,进行一个整体全面的盲法质量评价。
4 盲法质量评价中存在的问题
综上所述,目前临床试验中盲法质量评价方面存在诸多问题。首先,盲法质量评价尚未引起研究者的足够重视。现有的盲法临床试验中,很少对盲法质量进行评价,更没有进行盲法质量可能导致偏倚风险的评估。其次,目前缺乏对盲法进行定量和定性评价的具体方法和工具,对于盲法评价的时间亦有较多争议。现有的盲法评价方法主要基于对分配组别的猜中比例进行分析,不够全面。同时,这些方法只着眼于研究实施过程中的盲法,未考虑其他可能影响盲法质量的因素。盲态的保持贯穿于整个研究过程中,研究过程中其他关键影响因素的考虑不周到或缺陷,都会影响到研究的盲态。因此,单纯依靠分析猜中比例来进行盲法质量评价是不够的。尤其是在安慰剂对照研究中,由于治疗后期的疗效差异可能导致治疗组被猜中的比例增加,但并不能认为是盲法质量有问题。另外,即使研究过程中盲法实施很好,BI指数支持盲法成功,但在研究后期的数据管理过程中,如果人员分工不合理或盲底保存有问题,也可能会有申办方或监查方接触到盲底,同样会导致严重的泄盲,这样对研究的影响会更大。因此,若要全面评价盲法质量,需要对影响盲法质量的关键因素进行综合评价,如安慰剂合格性评价、人员分工、药品编盲过程的合理性等关键因素。基于上述观点,亟需开发和研究新的适宜的盲法评价方法和工具,如全面综合评价盲法质量的量表,该量表可根据整个研究过程中影响盲法质量的关键因素(安慰剂制作、药品编盲、人员分工、药物的副作用或伴随症状等)的执行情况,根据量表得分情况将盲法质量划分为不同等级,便于研究者对自身研究结果的盲法质量和风险进行评估,有助于研究结果的合理解释,同时也有助于读者和其他研究者更加客观科学地了解研究结果和结论。目前,本课题组已着手开始相关研究。此外,由于盲法质量评价涉及的因素较多较广,该方面还需要进一步深入研究。