患者报告结局测量工具(patient-reported outcome measures,PROMs)测量属性研究是指研究者为效验 PROMs 的测量属性(如信度)而进行的一系列研究。如果在这些测量属性研究的设计和统计分析过程中存在缺陷,就会产生偏倚,影响测量工具的质量。COSMIN(consensus-based standards for the selection of health measurement instruments)指导委员会开发了 COSMIN-RoB 清单用以评估测量属性研究的偏倚风险,该清单可用于制作 PROMs 测量属性的系统评价,同时对于 PROMs 开发者而言,也可使用该清单指导测量工具的开发。目前,在国内尚缺乏测量属性研究的偏倚风险评估工具,因此本文旨在介绍 COSMIN-RoB 清单的基本情况和使用原则,同时结合实例对内部结构研究部分的评价清单进行解读,以期指导研究者使用 COSMIN-RoB 清单。
引用本文: 彭健, 沈蓝君, 陈祎婷, 周同, 崔元斌, 邹荦荦, 胡雁. COSMIN-RoB 清单简介及测量工具内部结构研究的偏倚风险清单解读. 中国循证医学杂志, 2020, 20(10): 1234-1240. doi: 10.7507/1672-2531.202003163 复制
患者自我报告结局测量工具(patient-reported outcome measures,PROMs)允许患者通过自己的认知和判断对自我健康状况进行评估与审查(如癌症患者生活质量评估工具),对医学研究具有非常重要的意义[1]。PROMs 测量属性研究是研究者为验证 PROMs 的测量属性而进行的一系列研究[1]。在这些测量属性研究的设计和统计分析过程中如果存在缺陷,就会产生偏倚,影响测量工具的效力。为客观地评价这些偏倚风险,由荷兰、美国、西班牙等研究机构的心理测量学专家组成的 COSMIN(consensus-based standards for the selection of health measurement instruments)指导委员会于 2010 年开发了 COSMIN 清单[2],并在 2018 年进行了更新,形成了 COSMIN-RoB(COSMIN risk of bias)清单[3]。2019 年,该清单也成为了 JBI(Joanna Briggs Institute)PROMs 测量属性系统评价制作的推荐工具。
COSMIN-RoB 清单可用于制作系统评价,同时对于 PROMs 开发者而言,也可使用该清单指导测量工具开发,以减少偏倚。因此,该工具对于提高测量工具的方法学质量也具有重要的意义。目前,国内尚缺乏类似的评价工具,为使读者更好地理解和使用该工具,本文将简要介绍 COSMIN-RoB 清单,同时将以“癌症患者自我管理测评量表的编制及信效度检验”[4]和“亚健康量表中医生和护士的测量不变性”[5]研究为例,对 COSMIN-RoB 清单中内部结构部分进行解读。
1 COSIM-RoB 清单简介
1.1 COSMIN-RoB 清单制定过程
2010 年,COSMIN 指导委员会通过开展多国专家的德尔菲研究制定了 COSMIN 清单,并验证了不同评定者间信度[2, 6]。此后,COSMIN 清单广泛应用于 PROMs 系统评价的制作。但是随着对于理解的不断深入,原有的 COSMIN 清单也逐渐暴露出一些问题。因此,2018 年,COSMIN 指导委员会严格审查了 COSMIN 存在的问题,区分了研究的偏倚风险和报告质量,同时广泛收集了使用者的建议,制定了 COSMIN-RoB 清单[3]。目前,COSMIN-RoB 清单已经受到了广泛认可。
1.2 COSMIN-RoB 清单的结构
COSMIN-RoB 清单分为 3 个部分,共 10 个框目,分别评价内容效度研究、内部结构研究和其他测量属性研究的偏倚风险(表 1)。每个框目一般包含两个部分:研究设计和统计方法。同时,在每个框目中,还包括一个条目询问“是否有其他重要的方法学缺陷?”,评价者可自行判断研究中是否有清单中未提到的方法学缺陷。

1.3 COSMI-RoB 清单评分方法
COSMIN-RoB 清单采用 4 点评分法对每项研究的偏倚风险进行评价,分别是“很好”、“良好”、“模糊”或“不良”。“很好”是指研究的偏倚风险很低。“不良”是指研究的偏倚风险很高。某一框目的整体偏倚风险评分是由框目所有条目的最低评分决定(即最低计分原则),如框目 3 结构效度包含了 4 个评价条目,4 个条目的最低计分为“模糊”,那么结构效度研究的整体偏倚风险就为“模糊”。
1.4 COSMIN-RoB 清单使用顺序
使用 COSMIN-RoB 清单的过程一般可分为 4 个阶段:① 评估相关性;② 评价 PROMs 的内容效度;③ 评价 PROMs 的内部结构;④ 评价 PROMs 的其他测量属性。
1.4.1 评估相关性(模块化使用原则)
COSMIN-RoB 清单中每个框目都是一个单独的模块,可分开独立使用(模块化使用原则)。研究者很少(有时也不需要)效验所有类型的测量属性[7],因此,使用 COSMIN-RoB 清单时,评价者首先需明确该 PROMs 目前存在哪些测量属性研究(即评估相关性),从而灵活选择对应的框目。也是因为如此,以下所叙述的评价顺序只是一种参考,因为某些测量属性研究(比如稳定性研究)本身可能就不存在。
1.4.2 评价 PROMs 内容效度
内容效度是指 PROMs 的内容与所测构念的吻合程度[7]。内容效度是最重要的测量属性。COSMIN 指导委员会指出如果有高质量证据证明 PROMs 的内容效度不良,那么也就没有必要评价其他的测量属性。因此,评价者应该首先评价 PROMs 的内容效度[1]。PROMs 内容效度的评价方法与其他测量属性不同,评价过程较为复杂,可独立于其他测量属性单独制作系统评价,其方法可参见 Terwee 等[8]和 Chiarotto 等[9]的研究。
1.4.3 评价 PROMs 内部结构
COSMIN 建议在评估 PROMs 的内容效度后评估内部结构[1]。内部结构关注 PROMs 中每个条目的质量和不同条目间的关系,对于解释各个条目如何构成量表非常重要。内部结构包含结构效度、内部一致性和跨文化效度/测量不变性,对应清单中的框目 3-5。其中,结构效度有助于解释内部一致性系数(如 Cronbach's alpha 系数),因此 COSMIN 建议先评价结构效度,再评价内部一致性和跨文化效度/测量不变性。
1.4.4 评价 PROMs 其他测量属性
其他测量属性包括稳定性、测量误差、效标效度、假设检验(构念效度)和反应度。与上述的内部结构不同,这些测量属性反映的是 PROMs 整体的质量,而非条目的质量。COSMIN 建议可最后评价其他测量属性。
1.5 使用 COSMIN-RoB 清单的注意事项
评价者不需要填写 COSMIN-RoB 清单的空白区域。COSMIN 清单中存在空白区域的原因有 2 种:① 该区域所代表的情况并不存在,例如,框目 6 的条目 1“测量间隔期,受试者的待测构念是否稳定?”。显然,评价 PROMs 稳定性研究的偏倚风险,一定需要判断“待测构念”是否稳定,不存在“不适用”的情况,因此该条目中“不适用”所对应的格子为空白,不需要评价者填写。② 清单开发者认为该区域所对应的评级不合适。例如,框目 6 的条目 2“测量的时间间隔是否合适?”,清单的开发者认为,时间间隔合适就是“很好”,不清楚时间间隔就是“模糊”,时间间隔不合适就是“不良”,不存在评分为“良好”的可能。因此,该条目中“良好”所对应的格子是空白。
2 PROMs 内部结构研究的偏倚风险评价清单解读
内部结构研究的偏倚风险评价清单只适用于基于反应模型(reflective model)构建的 PROMs[10]。反应模型是指 PROMs 的所有条目都是某一潜在构念的表现形式,各条目之间高度相关,并且可互换。与之相对的是形成模型(formative model),在形成模型中,是条目共同形成了构念,这些条目之间不需要相互关联[11]。
2.1 评价 PROMs 结构效度研究的偏倚风险
结构效度(structure validity)是指 PROMs 维度与所测构念维度的吻合程度[7],该测量属性通常使用因子分析进行评估[11, 12]。结构效度研究的偏倚风险评估清单详见表 2。框目 3 的前 2 个问题不是评分标准,其作用是帮助评价者判断是否应该使用该框目。关于第 1 个问题,前文已经介绍了反应模型和形成模型的区别,显然,根据结构效度的定义,基于形成模型构建的 PROMs 不存在结构效度[13, 14]。第 2 个问题是希望评价者明确“单维性”和结构效度的区别。结构效度强调 PROMs 整体的因子结构,比如通过因子分析,具有 3 个维度的 PROMs 可拟合形成 1 个三因子的模型。而“单维性”强调 PROMs 中各维度的条目是否度量单个构念,通常是对每个维度单独进行因子分析进行评估。在单维 PROMs 中,结构效度和“单维性”是一致的,但是在多维 PROMs 中,结构效度和“单维性”不能等同,不能通过计算各个维度的“单维性”来替代计算 PROMs 整体的结构效度[11]。

在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者根据既有的自我管理框架构建了 PROMs,可认为其采用了反应模型,并且其通过因子分析的方法验证了其结构效度,所以可使用框目 3 进行评价。
2.1.1 条目 1
在经典测量理论(classical test theory,CTT)中,因子分析是评估结构效度的首选方法,其中验证性因子分析优于探索性因子分析[15]。验证性因子分析适用于所测构念维度确定的情况,而探索性因子分析则适用于所测构念维度不确定的情况[15]。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者采用了 CTT,并且使用了探索性因子分析,因此该条目被评为“良好”。
2.1.2 条目 2
针对特定的数据类型,应该选择合适的 IRT(item response theory,IRT)模型,比如 Rasch 模型不适用于多级计分数据。关于 IRT 的具体要求可参考 Embretson 等[14]的著作。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者并未使用 IRT 模型,因此该条目评为“不适用”。
2.1.3 条目 3
因子分析或 IRT/Rasch 分析均需要较大的样本量。条目 3 中建议的样本量是根据已有研究结果[13-16],并且结合经验提出的。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者使用了探索性因子分析,量表的条目数是 44,样本量是 290 例,大于条目数的 5 倍,但少于 7 倍,所以条目 3 被评为“良好”。
2.1.4 条目 4
COSMIN-RoB 清单没有给出因子分析的具体要求,如探索性因子分析方法的选择(如主成分分析或公因子分析),旋转方法的选择(如正交旋转或斜交旋转)及如何确定相关因子数量。这些具体要求可参考 de Vet 等[17]的研究。当因子分析的质量存在严重缺陷时,COSMIN 建议对条目 4 给予“模糊”或“不良”的评分。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者采用主成分分析和斜交旋转(Kaiser 标准化最优斜交法)验证结构效度,并未见其他重要的方法学缺陷,因此条目 4 评为“很好”。
根据 COSMIN 提出的“最低计分原则”,“癌症患者自我管理测评量表的编制及信效度检验”实例中,结构效度研究的偏倚风险应该被评为“良好”。
2.2 评价 PROMs 内部一致性研究的偏倚风险
内部一致性是指 PROMs 中各条目之间相互关联的程度,通常使用 Cronbach’s alpha 系数进行评估[7, 11]。在计算内部一致性系数之前,研究者首先应该明确 PROMs 中的每个分量表是否具有“单维性”。“单维性”是解释内部一致性的先决条件,可通过因子分析进行评估(表 2)[1]。内部一致性研究的偏倚风险评估清单详见表 3,框目 4 的第 1 个问题同样不是评价标准,但可帮助评价者判断是否应该使用该框目进行评价。只有当 PROMs 是基于反应模型构建时,内部一致性才可被解释[1]。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,PROMs 是基于反应模型构建的,可使用框目 4 进行评价。

2.2.1 条目 1
研究者首先应该明确 PROMs 中的每个分量表是否具有“单维性”,关于“单维性”的信息可通过结构效度研究获得。在此基础上,研究者应该分别计算 PROMs 中每个分量表的内部一致性系数。如果研究者计算了总量表(如包含 4 个子量表的 PROMs)和每个分量表的内部一致性系数,总量表的内部一致性系数可忽略。如果研究者只计算了总量表的内部一致性系数,那么该条目就应该评为“不良”。如果在相关文献中没有发现该量表的结构效度或“单维性”的信息,那么该条目应该评为“模糊”。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,根据结构效度的研究结果,可判断,PROMs 各分量表具有单维性,并且研究者计算了每个分量表的 Cronbach’s alpha 系数,因此该条目被评为“很好”。
2.2.2 条目 2 和条目 3
基于 CTT 的研究应计算 Cronbach’s alpha 系数或 Omega 值等[18]。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,该 PROMs 采用 Likert 5 级评分法,属于定量数据,同时研究者计算了 Cronbach’s alpha 系数,因此条目 2 被评为“很好”,条目 3 被评为“不适用”。
2.2.3 条目 4
基于 IRT/Rasch 分析的内部一致性研究应该计算 SE(θ)或其他信度系数,如项目(或受试者)差异指数[14]。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者未采用 IRT/Rasch 分析,因此该条目被评为“不适用”。
2.2.4 条目 5
该条目是由评价者判断是否有其他方法学缺陷。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,内部一致性研究未见其他重要的方法学缺陷,所以该条目被评为“很好”。
以上 5 个条目的最低计分为“很好”。因此,根据 COSMIN 提出的“最低计分原则”,“癌症患者自我管理测评量表的编制及信效度检验”实例中的内部一致性研究的偏倚风险被评为“很好”。
2.3 评价 PROMs 跨文化效度/测量不变性研究的偏倚风险
指在不同文化群体中进行测量时,PROMs 各条目得分的一致程度[11]。注意此处的跨文化效度不同于“跨文化调试”,因为“跨文化调试”是指两个不同语言版本的 PROMs 各条目在语义的一致性,其并不是一种测量属性。评估跨文化效度/测量不变性至少需要两个不同组别的样本,如不同语言群体,或者不同性别群体。COSMIN 不仅将不同的种族或语言群体视为不同的文化群体,而且将不同的性别或年龄群体,或不同的患者群体同样视为“不同文化群体”。计算 PROMs 的测量不变性(measurement invariance,MI)或是计算 PROMs 是否发生项目功能差异(differential item function,DIF)是评估跨文化效度的主要方法[11]。测量不变性和项目功能差异是指具有相同潜在特征的不同群体,对于 PROMs 某一特定条目的反应是否相似。跨文化效度/测量不变性研究的偏倚风险评估清单详见表 4。

2.3.1 条目 1
评估跨文化效度通常需要在一个统计模型中直接比较两组(或两组以上)样本的得分。分组可是基于语言(例如,中文版本与英语版本量表的比较),也可是基于其他变量,例如男性与女性。除分组变量外,两组样本的疾病严重程度、年龄等其他相关变量的分布应该相似。在一项研究中,性别可能是分组变量,而在另一项研究中(如中文版本与英语版本量表的比较),性别就是两组应该分布相似的相关变量。评审团队需要判断在各个组中是否所有相关特征的分布都相似。在“亚健康量表中医生和护士的测量不变性”实例中,研究者验证了亚健康量表在医生和护士这两个群体的测量不变性,但是文中并没有随机抽取样本,也没有提供具体信息说明其他相关变量的分布是否相同,因此,条目 1 被评为“模糊”。
2.3.2 条目 2
在 CTT 中,评估跨文化效度比较合适的方法是回归分析或验证性因子分析[11]。在 IRT 中,DIF 分析是比较适合的跨文化效度的评估方法[11]。在“亚健康量表中医生和护士的测量不变性”实例中,研究者使用了多组验证性因子分析(multi-group confirmatory factor analysis,MGCFA),方法恰当,因此该条目被评为“很好”。
2.3.3 条目 3
验证性因子分析、IRT 分析或回归分析均需要较大样本量才能获得可靠的结果。基于 Scott 等[19]的研究,COSMIN 对样本量提出了清单中的建议(表 4)。在“亚健康量表中医生和护士的测量不变性”实例中,研究者使用了多组验证性因子分析的方法,其样本量为 1 832,远大于 PROMs 条目数的 7 倍,因此,条目 3 被评为“很好”。
2.3.4 条目 4
该条目是由评价者判断是否有其他方法学缺陷。在“亚健康量表中医生和护士的测量不变性”实例中,跨文化效度/测量不变性研究未见其他重要的方法学缺陷,所以该条目被评为“很好”。
以上 4 个条目的最低计分为“模糊”,因此,根据 COSMIN 提出的“最低计分原则”,“亚健康量表中医生和护士的测量不变性”实例的偏倚风险应该被评为“模糊”。
3 讨论
本文简要介绍了 COSMIN-RoB 清单,首先 COSMIN-RoB 清单对于测量属性的分类基于明确的国际共识,系统全面的包含了 PROMs 可能存在的测量属性;其次清单区分了偏倚风险和报告质量的差异,符合循证的最新理念;最后该工具的内容也非常详细具体,即使评价者不是 PROMs 开发和测量属性方面的专家,也可很好地使用该工具指导测量属性研究偏倚风险的评价。
本文同时选取了 2 个 PROMs 作为案例,评估了其内部结构研究的偏倚风险。结果显示,癌症患者自我管理测评量表的结构效度研究的偏倚风险为“良好”,内部一致性研究的偏倚风险为“很好”。亚健康量表测量不变性研究的偏倚风险为“模糊”。引起偏倚风险的主要原因包括评价结构效度时未使用验证性因子分析,样本量未达到规定要求。评价测量不变性时,除了分组变量外,未清楚的描述其他相关变量是否相似。因此,我们建议研究者在进行研究设计和统计分析时应该注意这些问题。
内部结构研究的偏倚风险清单非常具体,使用也很方便,但是还是存在一些不足,比如在结构效度研究的偏倚风险清单中规定了分析时应该包含的样本量,但是这只是经验性原则,在不同的情况下,样本量的要求可能是不同的。比如,越复杂的模型可能就需要更多的样本量,或者精度要求越高的研究就需要更多的样本量,这需要评价者自己去判断,可能会影响评价的结果。再比如,每个框目都有一个问题询问是否存在其他方法学缺陷,但是除了结构效度研究以外,其他研究并没有给出可能存在的方法学缺陷的实例,这也可能会影响评价的结果,今后可进一步改进。
COSMIN 指导委员会开发 COSMIN-RoB 清单的设计过程科学合理,虽然该评价工具目前仍然存在信度、效度及其推广应用情况仍有待时间检验的问题,但是我们仍然推荐研究者在制作 PROMs 系统评价的过程中使用 COSMIN-RoB 清单。PROMs 的开发者也可使用该工具指导研究设计和实施过程。
患者自我报告结局测量工具(patient-reported outcome measures,PROMs)允许患者通过自己的认知和判断对自我健康状况进行评估与审查(如癌症患者生活质量评估工具),对医学研究具有非常重要的意义[1]。PROMs 测量属性研究是研究者为验证 PROMs 的测量属性而进行的一系列研究[1]。在这些测量属性研究的设计和统计分析过程中如果存在缺陷,就会产生偏倚,影响测量工具的效力。为客观地评价这些偏倚风险,由荷兰、美国、西班牙等研究机构的心理测量学专家组成的 COSMIN(consensus-based standards for the selection of health measurement instruments)指导委员会于 2010 年开发了 COSMIN 清单[2],并在 2018 年进行了更新,形成了 COSMIN-RoB(COSMIN risk of bias)清单[3]。2019 年,该清单也成为了 JBI(Joanna Briggs Institute)PROMs 测量属性系统评价制作的推荐工具。
COSMIN-RoB 清单可用于制作系统评价,同时对于 PROMs 开发者而言,也可使用该清单指导测量工具开发,以减少偏倚。因此,该工具对于提高测量工具的方法学质量也具有重要的意义。目前,国内尚缺乏类似的评价工具,为使读者更好地理解和使用该工具,本文将简要介绍 COSMIN-RoB 清单,同时将以“癌症患者自我管理测评量表的编制及信效度检验”[4]和“亚健康量表中医生和护士的测量不变性”[5]研究为例,对 COSMIN-RoB 清单中内部结构部分进行解读。
1 COSIM-RoB 清单简介
1.1 COSMIN-RoB 清单制定过程
2010 年,COSMIN 指导委员会通过开展多国专家的德尔菲研究制定了 COSMIN 清单,并验证了不同评定者间信度[2, 6]。此后,COSMIN 清单广泛应用于 PROMs 系统评价的制作。但是随着对于理解的不断深入,原有的 COSMIN 清单也逐渐暴露出一些问题。因此,2018 年,COSMIN 指导委员会严格审查了 COSMIN 存在的问题,区分了研究的偏倚风险和报告质量,同时广泛收集了使用者的建议,制定了 COSMIN-RoB 清单[3]。目前,COSMIN-RoB 清单已经受到了广泛认可。
1.2 COSMIN-RoB 清单的结构
COSMIN-RoB 清单分为 3 个部分,共 10 个框目,分别评价内容效度研究、内部结构研究和其他测量属性研究的偏倚风险(表 1)。每个框目一般包含两个部分:研究设计和统计方法。同时,在每个框目中,还包括一个条目询问“是否有其他重要的方法学缺陷?”,评价者可自行判断研究中是否有清单中未提到的方法学缺陷。

1.3 COSMI-RoB 清单评分方法
COSMIN-RoB 清单采用 4 点评分法对每项研究的偏倚风险进行评价,分别是“很好”、“良好”、“模糊”或“不良”。“很好”是指研究的偏倚风险很低。“不良”是指研究的偏倚风险很高。某一框目的整体偏倚风险评分是由框目所有条目的最低评分决定(即最低计分原则),如框目 3 结构效度包含了 4 个评价条目,4 个条目的最低计分为“模糊”,那么结构效度研究的整体偏倚风险就为“模糊”。
1.4 COSMIN-RoB 清单使用顺序
使用 COSMIN-RoB 清单的过程一般可分为 4 个阶段:① 评估相关性;② 评价 PROMs 的内容效度;③ 评价 PROMs 的内部结构;④ 评价 PROMs 的其他测量属性。
1.4.1 评估相关性(模块化使用原则)
COSMIN-RoB 清单中每个框目都是一个单独的模块,可分开独立使用(模块化使用原则)。研究者很少(有时也不需要)效验所有类型的测量属性[7],因此,使用 COSMIN-RoB 清单时,评价者首先需明确该 PROMs 目前存在哪些测量属性研究(即评估相关性),从而灵活选择对应的框目。也是因为如此,以下所叙述的评价顺序只是一种参考,因为某些测量属性研究(比如稳定性研究)本身可能就不存在。
1.4.2 评价 PROMs 内容效度
内容效度是指 PROMs 的内容与所测构念的吻合程度[7]。内容效度是最重要的测量属性。COSMIN 指导委员会指出如果有高质量证据证明 PROMs 的内容效度不良,那么也就没有必要评价其他的测量属性。因此,评价者应该首先评价 PROMs 的内容效度[1]。PROMs 内容效度的评价方法与其他测量属性不同,评价过程较为复杂,可独立于其他测量属性单独制作系统评价,其方法可参见 Terwee 等[8]和 Chiarotto 等[9]的研究。
1.4.3 评价 PROMs 内部结构
COSMIN 建议在评估 PROMs 的内容效度后评估内部结构[1]。内部结构关注 PROMs 中每个条目的质量和不同条目间的关系,对于解释各个条目如何构成量表非常重要。内部结构包含结构效度、内部一致性和跨文化效度/测量不变性,对应清单中的框目 3-5。其中,结构效度有助于解释内部一致性系数(如 Cronbach's alpha 系数),因此 COSMIN 建议先评价结构效度,再评价内部一致性和跨文化效度/测量不变性。
1.4.4 评价 PROMs 其他测量属性
其他测量属性包括稳定性、测量误差、效标效度、假设检验(构念效度)和反应度。与上述的内部结构不同,这些测量属性反映的是 PROMs 整体的质量,而非条目的质量。COSMIN 建议可最后评价其他测量属性。
1.5 使用 COSMIN-RoB 清单的注意事项
评价者不需要填写 COSMIN-RoB 清单的空白区域。COSMIN 清单中存在空白区域的原因有 2 种:① 该区域所代表的情况并不存在,例如,框目 6 的条目 1“测量间隔期,受试者的待测构念是否稳定?”。显然,评价 PROMs 稳定性研究的偏倚风险,一定需要判断“待测构念”是否稳定,不存在“不适用”的情况,因此该条目中“不适用”所对应的格子为空白,不需要评价者填写。② 清单开发者认为该区域所对应的评级不合适。例如,框目 6 的条目 2“测量的时间间隔是否合适?”,清单的开发者认为,时间间隔合适就是“很好”,不清楚时间间隔就是“模糊”,时间间隔不合适就是“不良”,不存在评分为“良好”的可能。因此,该条目中“良好”所对应的格子是空白。
2 PROMs 内部结构研究的偏倚风险评价清单解读
内部结构研究的偏倚风险评价清单只适用于基于反应模型(reflective model)构建的 PROMs[10]。反应模型是指 PROMs 的所有条目都是某一潜在构念的表现形式,各条目之间高度相关,并且可互换。与之相对的是形成模型(formative model),在形成模型中,是条目共同形成了构念,这些条目之间不需要相互关联[11]。
2.1 评价 PROMs 结构效度研究的偏倚风险
结构效度(structure validity)是指 PROMs 维度与所测构念维度的吻合程度[7],该测量属性通常使用因子分析进行评估[11, 12]。结构效度研究的偏倚风险评估清单详见表 2。框目 3 的前 2 个问题不是评分标准,其作用是帮助评价者判断是否应该使用该框目。关于第 1 个问题,前文已经介绍了反应模型和形成模型的区别,显然,根据结构效度的定义,基于形成模型构建的 PROMs 不存在结构效度[13, 14]。第 2 个问题是希望评价者明确“单维性”和结构效度的区别。结构效度强调 PROMs 整体的因子结构,比如通过因子分析,具有 3 个维度的 PROMs 可拟合形成 1 个三因子的模型。而“单维性”强调 PROMs 中各维度的条目是否度量单个构念,通常是对每个维度单独进行因子分析进行评估。在单维 PROMs 中,结构效度和“单维性”是一致的,但是在多维 PROMs 中,结构效度和“单维性”不能等同,不能通过计算各个维度的“单维性”来替代计算 PROMs 整体的结构效度[11]。

在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者根据既有的自我管理框架构建了 PROMs,可认为其采用了反应模型,并且其通过因子分析的方法验证了其结构效度,所以可使用框目 3 进行评价。
2.1.1 条目 1
在经典测量理论(classical test theory,CTT)中,因子分析是评估结构效度的首选方法,其中验证性因子分析优于探索性因子分析[15]。验证性因子分析适用于所测构念维度确定的情况,而探索性因子分析则适用于所测构念维度不确定的情况[15]。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者采用了 CTT,并且使用了探索性因子分析,因此该条目被评为“良好”。
2.1.2 条目 2
针对特定的数据类型,应该选择合适的 IRT(item response theory,IRT)模型,比如 Rasch 模型不适用于多级计分数据。关于 IRT 的具体要求可参考 Embretson 等[14]的著作。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者并未使用 IRT 模型,因此该条目评为“不适用”。
2.1.3 条目 3
因子分析或 IRT/Rasch 分析均需要较大的样本量。条目 3 中建议的样本量是根据已有研究结果[13-16],并且结合经验提出的。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者使用了探索性因子分析,量表的条目数是 44,样本量是 290 例,大于条目数的 5 倍,但少于 7 倍,所以条目 3 被评为“良好”。
2.1.4 条目 4
COSMIN-RoB 清单没有给出因子分析的具体要求,如探索性因子分析方法的选择(如主成分分析或公因子分析),旋转方法的选择(如正交旋转或斜交旋转)及如何确定相关因子数量。这些具体要求可参考 de Vet 等[17]的研究。当因子分析的质量存在严重缺陷时,COSMIN 建议对条目 4 给予“模糊”或“不良”的评分。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者采用主成分分析和斜交旋转(Kaiser 标准化最优斜交法)验证结构效度,并未见其他重要的方法学缺陷,因此条目 4 评为“很好”。
根据 COSMIN 提出的“最低计分原则”,“癌症患者自我管理测评量表的编制及信效度检验”实例中,结构效度研究的偏倚风险应该被评为“良好”。
2.2 评价 PROMs 内部一致性研究的偏倚风险
内部一致性是指 PROMs 中各条目之间相互关联的程度,通常使用 Cronbach’s alpha 系数进行评估[7, 11]。在计算内部一致性系数之前,研究者首先应该明确 PROMs 中的每个分量表是否具有“单维性”。“单维性”是解释内部一致性的先决条件,可通过因子分析进行评估(表 2)[1]。内部一致性研究的偏倚风险评估清单详见表 3,框目 4 的第 1 个问题同样不是评价标准,但可帮助评价者判断是否应该使用该框目进行评价。只有当 PROMs 是基于反应模型构建时,内部一致性才可被解释[1]。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,PROMs 是基于反应模型构建的,可使用框目 4 进行评价。

2.2.1 条目 1
研究者首先应该明确 PROMs 中的每个分量表是否具有“单维性”,关于“单维性”的信息可通过结构效度研究获得。在此基础上,研究者应该分别计算 PROMs 中每个分量表的内部一致性系数。如果研究者计算了总量表(如包含 4 个子量表的 PROMs)和每个分量表的内部一致性系数,总量表的内部一致性系数可忽略。如果研究者只计算了总量表的内部一致性系数,那么该条目就应该评为“不良”。如果在相关文献中没有发现该量表的结构效度或“单维性”的信息,那么该条目应该评为“模糊”。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,根据结构效度的研究结果,可判断,PROMs 各分量表具有单维性,并且研究者计算了每个分量表的 Cronbach’s alpha 系数,因此该条目被评为“很好”。
2.2.2 条目 2 和条目 3
基于 CTT 的研究应计算 Cronbach’s alpha 系数或 Omega 值等[18]。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,该 PROMs 采用 Likert 5 级评分法,属于定量数据,同时研究者计算了 Cronbach’s alpha 系数,因此条目 2 被评为“很好”,条目 3 被评为“不适用”。
2.2.3 条目 4
基于 IRT/Rasch 分析的内部一致性研究应该计算 SE(θ)或其他信度系数,如项目(或受试者)差异指数[14]。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,研究者未采用 IRT/Rasch 分析,因此该条目被评为“不适用”。
2.2.4 条目 5
该条目是由评价者判断是否有其他方法学缺陷。在“癌症患者自我管理测评量表的编制及信效度检验”实例中,内部一致性研究未见其他重要的方法学缺陷,所以该条目被评为“很好”。
以上 5 个条目的最低计分为“很好”。因此,根据 COSMIN 提出的“最低计分原则”,“癌症患者自我管理测评量表的编制及信效度检验”实例中的内部一致性研究的偏倚风险被评为“很好”。
2.3 评价 PROMs 跨文化效度/测量不变性研究的偏倚风险
指在不同文化群体中进行测量时,PROMs 各条目得分的一致程度[11]。注意此处的跨文化效度不同于“跨文化调试”,因为“跨文化调试”是指两个不同语言版本的 PROMs 各条目在语义的一致性,其并不是一种测量属性。评估跨文化效度/测量不变性至少需要两个不同组别的样本,如不同语言群体,或者不同性别群体。COSMIN 不仅将不同的种族或语言群体视为不同的文化群体,而且将不同的性别或年龄群体,或不同的患者群体同样视为“不同文化群体”。计算 PROMs 的测量不变性(measurement invariance,MI)或是计算 PROMs 是否发生项目功能差异(differential item function,DIF)是评估跨文化效度的主要方法[11]。测量不变性和项目功能差异是指具有相同潜在特征的不同群体,对于 PROMs 某一特定条目的反应是否相似。跨文化效度/测量不变性研究的偏倚风险评估清单详见表 4。

2.3.1 条目 1
评估跨文化效度通常需要在一个统计模型中直接比较两组(或两组以上)样本的得分。分组可是基于语言(例如,中文版本与英语版本量表的比较),也可是基于其他变量,例如男性与女性。除分组变量外,两组样本的疾病严重程度、年龄等其他相关变量的分布应该相似。在一项研究中,性别可能是分组变量,而在另一项研究中(如中文版本与英语版本量表的比较),性别就是两组应该分布相似的相关变量。评审团队需要判断在各个组中是否所有相关特征的分布都相似。在“亚健康量表中医生和护士的测量不变性”实例中,研究者验证了亚健康量表在医生和护士这两个群体的测量不变性,但是文中并没有随机抽取样本,也没有提供具体信息说明其他相关变量的分布是否相同,因此,条目 1 被评为“模糊”。
2.3.2 条目 2
在 CTT 中,评估跨文化效度比较合适的方法是回归分析或验证性因子分析[11]。在 IRT 中,DIF 分析是比较适合的跨文化效度的评估方法[11]。在“亚健康量表中医生和护士的测量不变性”实例中,研究者使用了多组验证性因子分析(multi-group confirmatory factor analysis,MGCFA),方法恰当,因此该条目被评为“很好”。
2.3.3 条目 3
验证性因子分析、IRT 分析或回归分析均需要较大样本量才能获得可靠的结果。基于 Scott 等[19]的研究,COSMIN 对样本量提出了清单中的建议(表 4)。在“亚健康量表中医生和护士的测量不变性”实例中,研究者使用了多组验证性因子分析的方法,其样本量为 1 832,远大于 PROMs 条目数的 7 倍,因此,条目 3 被评为“很好”。
2.3.4 条目 4
该条目是由评价者判断是否有其他方法学缺陷。在“亚健康量表中医生和护士的测量不变性”实例中,跨文化效度/测量不变性研究未见其他重要的方法学缺陷,所以该条目被评为“很好”。
以上 4 个条目的最低计分为“模糊”,因此,根据 COSMIN 提出的“最低计分原则”,“亚健康量表中医生和护士的测量不变性”实例的偏倚风险应该被评为“模糊”。
3 讨论
本文简要介绍了 COSMIN-RoB 清单,首先 COSMIN-RoB 清单对于测量属性的分类基于明确的国际共识,系统全面的包含了 PROMs 可能存在的测量属性;其次清单区分了偏倚风险和报告质量的差异,符合循证的最新理念;最后该工具的内容也非常详细具体,即使评价者不是 PROMs 开发和测量属性方面的专家,也可很好地使用该工具指导测量属性研究偏倚风险的评价。
本文同时选取了 2 个 PROMs 作为案例,评估了其内部结构研究的偏倚风险。结果显示,癌症患者自我管理测评量表的结构效度研究的偏倚风险为“良好”,内部一致性研究的偏倚风险为“很好”。亚健康量表测量不变性研究的偏倚风险为“模糊”。引起偏倚风险的主要原因包括评价结构效度时未使用验证性因子分析,样本量未达到规定要求。评价测量不变性时,除了分组变量外,未清楚的描述其他相关变量是否相似。因此,我们建议研究者在进行研究设计和统计分析时应该注意这些问题。
内部结构研究的偏倚风险清单非常具体,使用也很方便,但是还是存在一些不足,比如在结构效度研究的偏倚风险清单中规定了分析时应该包含的样本量,但是这只是经验性原则,在不同的情况下,样本量的要求可能是不同的。比如,越复杂的模型可能就需要更多的样本量,或者精度要求越高的研究就需要更多的样本量,这需要评价者自己去判断,可能会影响评价的结果。再比如,每个框目都有一个问题询问是否存在其他方法学缺陷,但是除了结构效度研究以外,其他研究并没有给出可能存在的方法学缺陷的实例,这也可能会影响评价的结果,今后可进一步改进。
COSMIN 指导委员会开发 COSMIN-RoB 清单的设计过程科学合理,虽然该评价工具目前仍然存在信度、效度及其推广应用情况仍有待时间检验的问题,但是我们仍然推荐研究者在制作 PROMs 系统评价的过程中使用 COSMIN-RoB 清单。PROMs 的开发者也可使用该工具指导研究设计和实施过程。