COSMIN-RoB 清单包括 3 个部分,共 10 个框目,分别用于评价内容效度研究、内部结构研究和其他测量属性研究的偏倚风险。其中其他测量属性研究关注 PROMs 整体的质量,包含稳定性、测量误差、效标效度、假设检验(构念效度)和反应度。在这 5 种测量属性中,稳定性、测量误差及效标效度在研究中使用最为广泛,因此,为使读者更好地理解和使用 COSMIN-RoB 清单评价这 3 种 PROMs 测量属性研究的偏倚风险,本文将结合具体实例进行解读。
引用本文: 彭健, 沈蓝君, 陈祎婷, 周同, 崔元斌, 邹荦荦, 胡雁. 对 COSMIN-RoB 清单中测量工具稳定性、测量误差和效标效度研究偏倚风险的清单解读. 中国循证医学杂志, 2020, 20(11): 1340-1344. doi: 10.7507/1672-2531.202003164 复制
患者报告结局测量工具(patient reported outcome measures,PROMs)是一种患者通过自己的认知和判断对自我健康状况进行评估与审查的工具(如癌症患者生活质量测量工具),在医学研究中具有非常重要的意义[1]。COSMIN(consensus-based standards for the selection of health measurement instruments)指导委员会开发了 COSMIN-RoB 清单(COSMIN risk of bias checklist)用以评估 PROMs 测量属性研究的偏倚风险[2]。COSMIN 指导委员会将偏倚风险清单分为 3 个部分,共 10 个独立模块,分别评价内容效度研究、内部结构研究和其它测量属性研究的偏倚风险[3]。其中,其他测量属性研究关注 PROMs 整体的质量,包含稳定性、测量误差、效标效度、假设检验和反应度。在这 5 种测量属性中,稳定性、测量误差及效标效度在研究中应用最为广泛,因此,为使读者更好地理解和使用该工具评价这 3 种 PROMs 测量属性研究的偏倚风险,本文将以“青少年生命质量量表(YQOL-R)的汉化研究”[4](例 1)、“少年精神病态特质量表中文版的效度和信度”[5](例 2)进行解读。
1 评价 PROMs 稳定性研究的偏倚风险
稳定性(reliability)指对同一受试者采用同样的方法重复测量时所得结果的一致性程度,包含:①重测信度:在不同的时间进行测量;②评定者间信度:由不同评定者在同一场合进行测量;③ 评定者(或受试者)内信度:同一个评定者(或受试者)在不同场合进行测量(或被测量)[1, 6]。稳定性研究的偏倚风险评价清单详见表 1。

条目 1 中受试者的所测构念在两次测量之间应该保持稳定。研究者应该结合目标人群的特点判断所测构念是否稳定。例如,当效验“癌症患者生活质量测量工具”的稳定性时,若患者病情控制良好(可提供证据证明,比如可收集患者疾病进展情况的信息),则可认为受试者的生活质量在测量间隔期是稳定的,那么,条目 1 可评为“很好”。如果患者在测量间隔期接受了干预,那么可认为受试者的生活质量发生了变化,此时,COSMIN 建议将该条目评为“不良”。在例 1 中,研究者“采取随机函数法在完成量表的城市、农村、随迁学生样本中分别抽取 30 例,共 90 例,在基线调查结束后的 7~10 天内进行重测”。虽然研究者没有给出明确证据证明受试者的生命质量是稳定的,但是通过随机抽取的方法,可尽量避免其他因素对于受试者生活质量的影响,而且时间间隔只有 7~10 天,因此可认为受试者的生活质量是稳定的,所以该条目被评为“良好”。
条目 2 中效验重测信度时,两次测量时间间隔必须适当。首先,时间间隔应足够长,目的是为了防止回忆偏倚;同时,时间间隔也应该足够短,目的是确保患者的所测构念保持稳定。时间间隔是否合适取决于所测量的构念和目标人群的特点。通常认为合适的时间间隔是 2 周左右。在例 1 中,研究者选择的重测时间是 7~10 天,略短于一般要求的 2 周。虽然受试者是青少年人群,可能与成年人群存在差异,但是研究者没有给出选择 7~10 天的理由,因此,该条目被评为“模糊”。
条目 3 中重复测量时的情境应该类似。测量情境指的是测量方式(如自填或他填)、测量环境(如在医院或家中)及填写指导和说明。不同的测量情境可能会影响测量结果。如果测量情境不相似,就有可能低估测量工具的稳定性。但是,也有一类研究会选择性使用不同的测量情境,其目的通常是评估测量工具在不同测量情境下的稳定性,比如 Van Leeuwen 等[7]的研究,在这种情况下,该条目可评为“很好”。在例 1 中,研究者描述其将调查“安排在课余或午休时间”、“在单独的会议室或报告厅进行”,采用“自评式量表调查方式,宣读调查引导语后开始调查”。虽然,研究者未具体描述重测时是否也是同样的情境,但是考虑到受试对象是学生,其可被调查的时间和地点应该是相对稳定的,因此可认为两次重测时情境相似,所以该条目被评为“良好”。
条目 4 中对于定量数据,首选的稳定性统计量是组内相关系数(intraclass correlation coefficient,ICC)[8, 9]。重测设计是评估测量工具稳定性最直接的方法。该方法首选的 ICC 模型是双向随机效应模型[10],因为该模型既考虑了受试者内部的变异,也考虑了时间变化引起的变异(即系统变异)[11]。Pearson 或 Spearman 相关系数没有考虑系统变异,因此如果在不清楚是否存在系统变异的情况下使用 Pearson 或 Spearman 相关系数,该条目应该被评为“模糊”。在例 1 中,量表产生的结果是“定量数据”,研究者使用了 ICC 作为统计学指标是合适的,因此该条目被评为“很好”。
条目 5、6 和 7 中对于分类数据,Cohen's Kappa 系数是首选的统计量[8]。对于有序数据,加权 Kappa 系数[9, 12, 13]是首选的统计量。在使用加权 Kappa 系数时应该说明加权方案(例如,线性加权或平方加权)[11, 14]。在例 1 中,量表产生的结果是“定量数据”,所以条目 5、6 和 7 被评为“不适用”。
条目 8 中测量不独立是一种重要的方法学缺陷。测量独立是指第一次测量不影响第二次测量,在第二次测量时受试者不应该知道第一次测量的结果。此外,评价者的差异也会引起较大的偏倚。比如,当通过评定者提问的方式进行测量时,假设第一次测量都是由有经验的评定者进行,而第二次测量是由没有经验的评定者(而且不清楚每个受试者对应的评定者)进行,那么此时计算出比较低的 ICC 的原因有 2 种:评定者不同或测量工具确实稳定性不好。研究者很难判断究竟是哪种原因。因此当使用评定者提问的方式进行测量时,对于评定者应该有明确和具体的要求。在例 1 中,稳定性研究部分未发现其他方法学缺陷,因此该条目被评为“很好”。
以上 8 个条目的最低计分为“模糊”。因此,根据 COSMIN 提出的“最低计分原则”,例 2 的偏倚风险应该被评为“模糊”。
2 评价 PROMs 测量误差研究的偏倚风险
测量误差包括系统误差和随机误差,是受试者真实变异(真分数)之外其他变异产生的原因。测量误差研究的偏倚风险评估清单详见表 2。

条目 1~3 参见稳定性研究的偏倚风险评价。
条目 4 在经典测量理论(classical test theory,CTT)中,对于定量数据,通过重测计算测量标准误(standard error of measurement,SEM)是评估测量误差的首选方法。需要注意,通过 Cronbach's alpha 系数计算 SEM 忽略了因为时间变化引起的变异,因此并不合适[15]。一致性限度(limits of agreement,LoA)和最小可测变化(smallest detectable change,SDC)也可用来反映测量误差[11],而且这两个参数都与 SEM 直接相关。LoA 内的变异或小于 SDC 的变异可能是由于测量误差造成的,LoA 外的变异或大于 SDC 的变异被认为是受试者的真实变异。在例 1 中,研究者采用重测设计计算测量标准误,因此该条目被评为“很好”。
条目 5 中衡量分类数据/有序数据的测量误差(也称为一致性)的合适的统计量是一致性百分比(percentage agreement)[12]。在例 1 中,测量工具的结果是定量数据,因此该条目被评为“不适用”。
以上 5 个条目的最低计分为“模糊”,因此,根据 COSMIN 提出的最低计分原则,“青少年生命质量量表”测量误差研究的偏倚风险应该被评为“模糊”。
3 评价 PROMs 效标效度研究的偏倚风险
效标效度是指 PROMs 测得结果对“金标准”的充分反映程度。在制作系统评价的过程中,评价者应该明确什么是所测构念的“金标准”。所有将测量工具与“金标准”进行比较的研究都可被认为是在进行效标效度研究。效标效度研究的偏倚风险评估清单详见表 3。

条目 1 和条目 2 中当测量工具与“金标准”的测量结果均是定量数据时,首选统计方法是计算相关系数;当测量工具的结果是定量数据,“金标准”的测量结果是二分类数据时,首选的统计量是受试者工作特征曲线下的面积(area under the receiver operating curve,AUC);当两种结果都是二分类数据时,首选方法是计算敏感性和特异性。在例 2 中,“少年精神病态特质量表中文版”和其“金标准”的“明尼苏达多项人格测验精神病态分量表”结果均为定量数据,研究者通过计算相关性判断测量工具对“金标准”的充分反映程度,因此,条目 1 被评为“很好”,条目 2 被评为“不适用”。
条目 3 中当将一个测量工具和其对应的简化版(简化条目数后的版本)进行比较时,简化版的结果使用的是原版获得的数据,那么该条目应该被评为“不良”。在例 2 中,效标效度研究部分未见其他重要的方法学缺陷,因此条目 3 被评为“很好”。以上 3 个条目的最低计分为“很好”,因此,根据 COSMIN 提出的“最低计分原则”,例 2 的效标效度研究的偏倚风险应该被评为“很好”。
4 讨论
本文选择了 2 个医学领域的 PROMs 作为案例,评估了其稳定性研究、测量误差研究和效标效度研究的偏倚风险。其结果显示,“青少年生命质量量表”的稳定性研究和测量误差研究的偏倚风险均为“模糊”。“少年精神病态特质量表中文版”的效标效度研究的偏倚风险为“很好”。引起偏倚风险的主要原因是:在“青少年生命质量量表”稳定性研究和测量误差研究中,研究者没有提供明确证据证明受试者的生活质量是稳定的,测量的间隔期也不是非常合适。因此,我们建议研究者在进行研究设计和统计分析时应该注意这些问题。
COSMIN-RoB 清单中,稳定性、测量误差和效标效度这 3 个模块内容非常具体,即使评价者不是 PROMs 开发和测量属性方面的专家,也可很好的使用该工具指导测量属性研究偏倚风险的评价,但是这 3 个部分的评价清单仍然有一些不足。比如在稳定性研究的偏倚风险清单中条目 1 规定:评价为“很好”的标准是“有证据支持受试者的待测构念是稳定的”,但是并没有清晰的界定证据的内涵或者指出衡量的方法,评价者的主观判断可能会影响评价结果。其次,对于测量间隔期的界定也是采用经验法则,在不同的情况下,测量间隔期的要求可能是不同的。再比如,每个框目都有 1 个问题询问是否存在其他方法学缺陷,但是缺少对于其他方法学缺陷的具体介绍,这些都可能会影响评价的结果。因此,今后还可进一步改进该清单。对于以上问题,建议评价者使用该清单时,在小组内事先界定可能存在的其他方法学缺陷,并达成共识。另外,双人独立评价也可减少由于评价者的主观偏见造成的偏倚。
COSMIN-RoB 清单中,稳定性、测量误差和效标效度研究部分的评价清单内容具体,评价简便,适合用于 PROMs 测量属性研究的偏倚风险评价,建议研究者使用该工具对相关测量工具的测量属性研究进行评价。同时,对于 PROMs 的开发者而言,也建议使用该工具核查研究设计和统计方法,以减少偏倚风险。
患者报告结局测量工具(patient reported outcome measures,PROMs)是一种患者通过自己的认知和判断对自我健康状况进行评估与审查的工具(如癌症患者生活质量测量工具),在医学研究中具有非常重要的意义[1]。COSMIN(consensus-based standards for the selection of health measurement instruments)指导委员会开发了 COSMIN-RoB 清单(COSMIN risk of bias checklist)用以评估 PROMs 测量属性研究的偏倚风险[2]。COSMIN 指导委员会将偏倚风险清单分为 3 个部分,共 10 个独立模块,分别评价内容效度研究、内部结构研究和其它测量属性研究的偏倚风险[3]。其中,其他测量属性研究关注 PROMs 整体的质量,包含稳定性、测量误差、效标效度、假设检验和反应度。在这 5 种测量属性中,稳定性、测量误差及效标效度在研究中应用最为广泛,因此,为使读者更好地理解和使用该工具评价这 3 种 PROMs 测量属性研究的偏倚风险,本文将以“青少年生命质量量表(YQOL-R)的汉化研究”[4](例 1)、“少年精神病态特质量表中文版的效度和信度”[5](例 2)进行解读。
1 评价 PROMs 稳定性研究的偏倚风险
稳定性(reliability)指对同一受试者采用同样的方法重复测量时所得结果的一致性程度,包含:①重测信度:在不同的时间进行测量;②评定者间信度:由不同评定者在同一场合进行测量;③ 评定者(或受试者)内信度:同一个评定者(或受试者)在不同场合进行测量(或被测量)[1, 6]。稳定性研究的偏倚风险评价清单详见表 1。

条目 1 中受试者的所测构念在两次测量之间应该保持稳定。研究者应该结合目标人群的特点判断所测构念是否稳定。例如,当效验“癌症患者生活质量测量工具”的稳定性时,若患者病情控制良好(可提供证据证明,比如可收集患者疾病进展情况的信息),则可认为受试者的生活质量在测量间隔期是稳定的,那么,条目 1 可评为“很好”。如果患者在测量间隔期接受了干预,那么可认为受试者的生活质量发生了变化,此时,COSMIN 建议将该条目评为“不良”。在例 1 中,研究者“采取随机函数法在完成量表的城市、农村、随迁学生样本中分别抽取 30 例,共 90 例,在基线调查结束后的 7~10 天内进行重测”。虽然研究者没有给出明确证据证明受试者的生命质量是稳定的,但是通过随机抽取的方法,可尽量避免其他因素对于受试者生活质量的影响,而且时间间隔只有 7~10 天,因此可认为受试者的生活质量是稳定的,所以该条目被评为“良好”。
条目 2 中效验重测信度时,两次测量时间间隔必须适当。首先,时间间隔应足够长,目的是为了防止回忆偏倚;同时,时间间隔也应该足够短,目的是确保患者的所测构念保持稳定。时间间隔是否合适取决于所测量的构念和目标人群的特点。通常认为合适的时间间隔是 2 周左右。在例 1 中,研究者选择的重测时间是 7~10 天,略短于一般要求的 2 周。虽然受试者是青少年人群,可能与成年人群存在差异,但是研究者没有给出选择 7~10 天的理由,因此,该条目被评为“模糊”。
条目 3 中重复测量时的情境应该类似。测量情境指的是测量方式(如自填或他填)、测量环境(如在医院或家中)及填写指导和说明。不同的测量情境可能会影响测量结果。如果测量情境不相似,就有可能低估测量工具的稳定性。但是,也有一类研究会选择性使用不同的测量情境,其目的通常是评估测量工具在不同测量情境下的稳定性,比如 Van Leeuwen 等[7]的研究,在这种情况下,该条目可评为“很好”。在例 1 中,研究者描述其将调查“安排在课余或午休时间”、“在单独的会议室或报告厅进行”,采用“自评式量表调查方式,宣读调查引导语后开始调查”。虽然,研究者未具体描述重测时是否也是同样的情境,但是考虑到受试对象是学生,其可被调查的时间和地点应该是相对稳定的,因此可认为两次重测时情境相似,所以该条目被评为“良好”。
条目 4 中对于定量数据,首选的稳定性统计量是组内相关系数(intraclass correlation coefficient,ICC)[8, 9]。重测设计是评估测量工具稳定性最直接的方法。该方法首选的 ICC 模型是双向随机效应模型[10],因为该模型既考虑了受试者内部的变异,也考虑了时间变化引起的变异(即系统变异)[11]。Pearson 或 Spearman 相关系数没有考虑系统变异,因此如果在不清楚是否存在系统变异的情况下使用 Pearson 或 Spearman 相关系数,该条目应该被评为“模糊”。在例 1 中,量表产生的结果是“定量数据”,研究者使用了 ICC 作为统计学指标是合适的,因此该条目被评为“很好”。
条目 5、6 和 7 中对于分类数据,Cohen's Kappa 系数是首选的统计量[8]。对于有序数据,加权 Kappa 系数[9, 12, 13]是首选的统计量。在使用加权 Kappa 系数时应该说明加权方案(例如,线性加权或平方加权)[11, 14]。在例 1 中,量表产生的结果是“定量数据”,所以条目 5、6 和 7 被评为“不适用”。
条目 8 中测量不独立是一种重要的方法学缺陷。测量独立是指第一次测量不影响第二次测量,在第二次测量时受试者不应该知道第一次测量的结果。此外,评价者的差异也会引起较大的偏倚。比如,当通过评定者提问的方式进行测量时,假设第一次测量都是由有经验的评定者进行,而第二次测量是由没有经验的评定者(而且不清楚每个受试者对应的评定者)进行,那么此时计算出比较低的 ICC 的原因有 2 种:评定者不同或测量工具确实稳定性不好。研究者很难判断究竟是哪种原因。因此当使用评定者提问的方式进行测量时,对于评定者应该有明确和具体的要求。在例 1 中,稳定性研究部分未发现其他方法学缺陷,因此该条目被评为“很好”。
以上 8 个条目的最低计分为“模糊”。因此,根据 COSMIN 提出的“最低计分原则”,例 2 的偏倚风险应该被评为“模糊”。
2 评价 PROMs 测量误差研究的偏倚风险
测量误差包括系统误差和随机误差,是受试者真实变异(真分数)之外其他变异产生的原因。测量误差研究的偏倚风险评估清单详见表 2。

条目 1~3 参见稳定性研究的偏倚风险评价。
条目 4 在经典测量理论(classical test theory,CTT)中,对于定量数据,通过重测计算测量标准误(standard error of measurement,SEM)是评估测量误差的首选方法。需要注意,通过 Cronbach's alpha 系数计算 SEM 忽略了因为时间变化引起的变异,因此并不合适[15]。一致性限度(limits of agreement,LoA)和最小可测变化(smallest detectable change,SDC)也可用来反映测量误差[11],而且这两个参数都与 SEM 直接相关。LoA 内的变异或小于 SDC 的变异可能是由于测量误差造成的,LoA 外的变异或大于 SDC 的变异被认为是受试者的真实变异。在例 1 中,研究者采用重测设计计算测量标准误,因此该条目被评为“很好”。
条目 5 中衡量分类数据/有序数据的测量误差(也称为一致性)的合适的统计量是一致性百分比(percentage agreement)[12]。在例 1 中,测量工具的结果是定量数据,因此该条目被评为“不适用”。
以上 5 个条目的最低计分为“模糊”,因此,根据 COSMIN 提出的最低计分原则,“青少年生命质量量表”测量误差研究的偏倚风险应该被评为“模糊”。
3 评价 PROMs 效标效度研究的偏倚风险
效标效度是指 PROMs 测得结果对“金标准”的充分反映程度。在制作系统评价的过程中,评价者应该明确什么是所测构念的“金标准”。所有将测量工具与“金标准”进行比较的研究都可被认为是在进行效标效度研究。效标效度研究的偏倚风险评估清单详见表 3。

条目 1 和条目 2 中当测量工具与“金标准”的测量结果均是定量数据时,首选统计方法是计算相关系数;当测量工具的结果是定量数据,“金标准”的测量结果是二分类数据时,首选的统计量是受试者工作特征曲线下的面积(area under the receiver operating curve,AUC);当两种结果都是二分类数据时,首选方法是计算敏感性和特异性。在例 2 中,“少年精神病态特质量表中文版”和其“金标准”的“明尼苏达多项人格测验精神病态分量表”结果均为定量数据,研究者通过计算相关性判断测量工具对“金标准”的充分反映程度,因此,条目 1 被评为“很好”,条目 2 被评为“不适用”。
条目 3 中当将一个测量工具和其对应的简化版(简化条目数后的版本)进行比较时,简化版的结果使用的是原版获得的数据,那么该条目应该被评为“不良”。在例 2 中,效标效度研究部分未见其他重要的方法学缺陷,因此条目 3 被评为“很好”。以上 3 个条目的最低计分为“很好”,因此,根据 COSMIN 提出的“最低计分原则”,例 2 的效标效度研究的偏倚风险应该被评为“很好”。
4 讨论
本文选择了 2 个医学领域的 PROMs 作为案例,评估了其稳定性研究、测量误差研究和效标效度研究的偏倚风险。其结果显示,“青少年生命质量量表”的稳定性研究和测量误差研究的偏倚风险均为“模糊”。“少年精神病态特质量表中文版”的效标效度研究的偏倚风险为“很好”。引起偏倚风险的主要原因是:在“青少年生命质量量表”稳定性研究和测量误差研究中,研究者没有提供明确证据证明受试者的生活质量是稳定的,测量的间隔期也不是非常合适。因此,我们建议研究者在进行研究设计和统计分析时应该注意这些问题。
COSMIN-RoB 清单中,稳定性、测量误差和效标效度这 3 个模块内容非常具体,即使评价者不是 PROMs 开发和测量属性方面的专家,也可很好的使用该工具指导测量属性研究偏倚风险的评价,但是这 3 个部分的评价清单仍然有一些不足。比如在稳定性研究的偏倚风险清单中条目 1 规定:评价为“很好”的标准是“有证据支持受试者的待测构念是稳定的”,但是并没有清晰的界定证据的内涵或者指出衡量的方法,评价者的主观判断可能会影响评价结果。其次,对于测量间隔期的界定也是采用经验法则,在不同的情况下,测量间隔期的要求可能是不同的。再比如,每个框目都有 1 个问题询问是否存在其他方法学缺陷,但是缺少对于其他方法学缺陷的具体介绍,这些都可能会影响评价的结果。因此,今后还可进一步改进该清单。对于以上问题,建议评价者使用该清单时,在小组内事先界定可能存在的其他方法学缺陷,并达成共识。另外,双人独立评价也可减少由于评价者的主观偏见造成的偏倚。
COSMIN-RoB 清单中,稳定性、测量误差和效标效度研究部分的评价清单内容具体,评价简便,适合用于 PROMs 测量属性研究的偏倚风险评价,建议研究者使用该工具对相关测量工具的测量属性研究进行评价。同时,对于 PROMs 的开发者而言,也建议使用该工具核查研究设计和统计方法,以减少偏倚风险。