药物经济学文献质量评价工具再评价_《中国循证医学杂志》

作者：

张诗雨 ^# ,  马爱霞 ^# , 李洪超 , 管欣

中国药科大学国际医药商学院（南京 211198）;

关键词：

药物经济学质量评价工具信度效度

DOI：

10.7507/1672-2531.201803039

视频：

导出 下载 收藏 扫码 引用

摘要 全文 图表 视频 参考文献 施引文献 补充材料

目的对目前已有药物经济学文献质量评价工具的内容、特点进行比较分析，对如何选择最优的质量评价工具给出建议。方法计算机检索 PubMed、EMbase、ScienceDirect、Web of Science、CNKI、WanFang Data 和 VIP 数据库，搜集有关药物经济学质量评价工具的研究，检索时限均为建库至 2017 年 12 月。由 2 名研究者独立筛选文献、提取资料并从条目内容、设计方法、适用范围和各自特点等方面进行详细分析。结果共纳入信度、效度较好的原创评估量表 12 个，其中最早的质量评估量表设计于 1987 年，最新的发表于 2013 年，条目数量从 11 个到 61 个不等。结论药物经济学研究的质量评价迄今尚无统一方法。评价者可根据评价目的、评价类型及可操作性等，选择适宜的评价工具。

引用本文： 张诗雨, 马爱霞, 李洪超, 管欣. 药物经济学文献质量评价工具再评价. 中国循证医学杂志, 2019, 19(7): 844-850. doi: 10.7507/1672-2531.201803039 复制

2017 年医保目录更新与新药谈判中，卫生技术评估首次被列为可选的提交资料，药物经济学评价作为新的医保谈判依据，其在药价制定、医疗卫生保健政策制定、临床用药决策等方面的重要作用日益凸显。但有研究表明，目前我国已发表药物经济学文献质量参差不齐：雷蕾等^[1]对 2010 年的已发表的 117 篇药物经济学评价研究进行质量评估，认为我国药物经济学评价研究主要存在研究角度不明确、设计不合理、成本计算差距大、敏感性分析不合理等问题；伍红艳等^[2]分析我国 2009～2013 年发表的药物经济学评价文献，认为主要存在研究单位类型单一、未说明经费来源及利益冲突、对照选择标准不明确等 9 个方面的质量问题。而低质量证据往往会导致决策出现偏倚甚至错误，如何对众多药物经济学评价报告质量进行有效评估，成为医保专家、临床专家、研究学者等共同关注的问题，并直接关系到国家医保目录谈判和药物经济学在我国的发展与应用。

因此，本研究全面收集国际上主要使用的药物经济学评价表进行分析，回顾各自的优势和劣势，总结展示异同点，评价信度和效度，以期为质量评价工具的选择和使用提供参考，也为内容更加全面的通用药物经济学质量评价工具的设计和研究奠定基础。

1 资料与方法

1.1 纳入与排除标准

1.1.1 纳入标准

适用于成本-效果分析等的经济学质量评价工具，适用于医疗卫生领域的原创评估量表、通用评估量表。其中，“原创”的判定标准为文章中包括对评估量表的设计过程和相关数据的报告和描述，并对药物经济学评价的实施提出建议，而非仅对之前已有的评估量表进行细节或表达上的修改和转述。

1.1.2 排除标准

只针对某种疾病、某类人群或某一特定研究情形的非通用评估量表。

1.2 文献检索策略

计算机检索 PubMed、EMbase、ScienceDirect、Web of Science、CNKI、WanFang Data 和 VIP 数据库，搜集有关药物经济学质量评价工具的研究，检索时限均为建库至 2017 年 12 月。中文检索词包括：经济学评价、成本-效果分析、成本-效用分析、卫生技术评估、医疗卫生决策、质量评估、工具、标准、评估量表等；英文检索词包括：economic evaluation、cost-effectiveness analysis、cost-utility analysis、health technology assessment、health care decision making、quality assessment、instrument/tool、criteria/checklist 等。以 PubMed 为例，其具体检索策略见框 1。

图选项

下载全尺寸图像

下载幻灯片

1.3 文献筛选与资料提取

由 2 名研究者独立筛选文献、提取资料并交叉核对。如有分歧，则通过讨论或与第三方协商解决。文献筛选时首先阅读文题，在排除明显不相关的文献后，进一步阅读摘要和全文以确定是否纳入。如有需要，通过邮件、电话联系原始研究作者获取未确定但对本研究非常重要的信息。资料提取内容包括：① 纳入研究的基本信息：研究题目、第一作者、发表时间、发表杂志等；② 评估量表引用次数、评估量表条目数量（包括大条目和小条目数量）、条目回答形式；③ 评估量表设计方法、评估量表适用的经济学评价类型；④ 评估量表条目内容。

1.4 统计分析

对药物经济学质量评价工具进行概述，结合发表时间、引用次数、评估量表形式、设计方法、条目数量等多个方面进行考量，选择其中引用次数多、使用广泛、设计方法严谨、在形式或条目数量上具有代表性的评估量表，从多个维度进行比较分析。

2 结果

2.1 文献筛选流程及结果

初检出相关文献 20 347 篇，经逐层筛选，最终纳入 12 个原创性药物经济学质量评价工具^[3-16]，其中最具有代表性的评估量表共有 5 个^{[10-13, 15]}。文献筛选流程及结果见图 1。

图1 文献筛选流程及结果

*所检索的数据库及检出文献数具体如下：PubMed（n=9 440）、EMbase（n=2 292）、ScienceDirect（n=1 706）、Web of Science（n=5 568）、CNKI（n=278）、WanFang Data（n=678）和 VIP（n=385）

图选项

下载全尺寸图像

下载幻灯片

2.2 重要原创评估量表概述

1987 年，Drummond 等^[3]在《卫生保健项目经济学评估方法》一书中提出的对经济学评价进行质量评估的评估量表是国际上最早的药物经济学评价质量评估量表。该评估量表由研究问题、对照方案、项目服务有效性、成本和结果的识别、成本和产出的测量的准确性、成本和产出的测量的可信度、成本和费用的贴现、增量分析、不确定性分析、结论的适用性 10 个大条目、9 个小条目组成。

1992 年，Adams 等^[4]基于 Drummond 的标准设计了评价表，来评价随机对照试验中经济学评价的完整性。此评估量表主要由对照方案的识别、成本识别、效益识别、分配效应考量和成本效果整合五部分，共 21 个问题组成。每个问题都有相对应的特定选项，选项数量 2～12 个不等。

1992 年，Gerard 等^[5]在评估量表制定过程中，纳入了 12 名专家学者提出的意见，设计了一个包含背景特征、技术标准、成本、产出、政策相关标准和研究的整体质量 6 个一级条目和 37 个二级条目的评估量表，并将这些标准在三个成本效用评价研究中进行了测试。

1993 年，Sacristan 等^[6]设计了由 12 个一级条目，40 个二级条目组成的评估量表。一级条目包括研究目的、样本选择、替代方案分析、研究角度分析、成本衡量、效益衡量、分析方法、结果分析、临床研究评价方法、假设和局限性、伦理问题和结论。不同于上述评估量表每个问题都有其特定选项，此评估量表每个条目都以“正确的”、“可接受的”、“怀疑的”、“错误的”和“不适用的”五个选项进行判断。

1995 年，美国医药研究与制造商协会（PhRMA）为其成员企业进行药物经济学评价制定了一套自愿采纳的指导原则^[7]，由研究设计、方案或报告的结构、方案或报告的内容、成本或资源、产出或效益、数据来源和结果的外推性 7 个部分，共 20 个条目组成。这套原则由一个药物经济学专家组成的专家小组制定，并且在制定的每一个阶段都有内部和外部的学者专家进行审阅。

1996 年，美国医疗卫生成本效果研究的专家小组（Panel on Cost-effectiveness in Health and Medicine）经过两年半的讨论，制定了由框架结构、数据和方法、结果和讨论 4 部分组成，共 37 个条目的评估量表^{[8, 9]}。前期设计通过回顾成本效果分析的理论基础、目前实施情况、可选择的方法、已发表的评价以及对于相关方法和报告的评述形成草案，再由联邦政府的方法学家、卫生机构官员及学术界专家进行评论审阅决定最终条目。

1996 年，BMJ 发表了由 Drummond 带领的工作小组制定的质量评估量表 BMJ checklist^[10]。评估量表由研究设计、数据收集、结果分析和阐释 3 个主要部分，共 35 个条目组成。每个条目由是、否、不清楚和不适用来判断。此评估量表主要针对完整的经济学评价进行质量评估，但“不适用”这一选项的设置使它也可以用来评估局部经济学评价或报告。

2003 年，Chious 等^[11]设计的 Quality of Health Economics Studies（QHES）是目前唯一一个对每条标准赋予权重的具有评分体系的评估量表。它由研究目标、研究角度、变量估计、亚组分析、不确定性分析、增量分析、分析方法、时间范围、成本衡量、产出衡量、信度效度、模型选择、假设和局限性、潜在偏倚、结论和资金来源 16 条标准组成。满分 100 分，最低分 0 分。每条标准的权重通过对 120 位国际卫生经济学专家的分析意见采用广义线性回归估计得到。作者在量表设计完成后对其进行了信度和效度检验。

2005 年，Evers 等^[12]设计的 Consensus on Health Economic Criteria（CHEC）共由 19 个“是/否”问题组成。研究者在初步选择了纳入评估量表的条目后，采用三轮德尔菲法对这些条目进行筛选来创建最终评估量表。这是第一个基于德尔菲法产生的、被广泛接受的经济学评价量表，且只能对基于试验的经济学评价的文献进行质量评估。

2006 年，Philips 等^[13]发表的 Philips guidelines 则分为结构、数据和一致性 3 个维度，15 个主要部分共 61 个条目。主要部分包括决策问题或目的、研究角度或范围、基本假设、对照组、模型类型、时间范围、疾病类型、循环时长、数据定义、建模前数据分析、数据纳入、不确定性评价、内部一致性和外部一致性。这是目前条目数量最多的评估量表，且只针对基于模型的经济学评价的文献进行质量评估。

2011 年，Grutters 等^[14]发表了迄今条目最少的质量评价量表。作者通过查阅文献，在与临床医生和政策制定者的合作交流下选择了对于进行资源分配决策的卫生技术评估最重要的 11 个要素组成评估量表。11 个要素分别为研究目标、受众、研究角度、研究人群、对照组、临床实践、时间范围、结果、病人使用、专家使用、价格和资源使用。

2013 年，国际药物经济学与产出研究学会（International Society of Pharmacoeconomics and Outcomes Research，ISPOR）发表了由 24 个条目及其相对应的建议组成的 Consolidated Health Economic Evaluation Reporting Standards（CHEERS）评估量表^{[15, 16]}。ISPOR 专家小组由学者、临床专家、企业、政府和编辑代表组成，基于已有的指南文件，通过系统综述选出候选条目，经过两轮德尔菲法后对候选条目进行筛查和修正形成 CHEERS。其评估量表条目根据药物经济学评价报告的文章结构进行归类，分为标题和摘要、介绍、方法、讨论和其他五部分。每条条目都有相应的证据和例子来进行阐释说明。

2.3 评估量表特点及条目内容比较

本研究根据发表时间的先后、引用次数的多少、评估量表本身设计方法和条目数量等方面的代表性等，选择了 BMJ checklist、QHES instrument、CHEC list、Philips guidelines 和 CHEERS 这 5 个量表进行比较分析。选择理由如下：① 除 BMJ checklist 外，其他 4 个评估量表都发表于 2000 年以后，在设计过程中均考量了以前评估量表的不合理之处，更符合现在研究的要求；② 以上量表的被引用次数较多，即在国际上的认可程度和影响力较高；③ 这几个评估量表特点鲜明，具有代表性，如 BMJ checklist 在进行卫生经济学评价的质量评估时被引用次数最多，QHES 是唯一一个具有评分系统的评估量表，CHEC 是第一个使用德尔菲法筛选评估量表条目，Philips guidelines 是目前条目数量最多的评估量表，CHEERS 是最新发表的使用说明最详细的质量评估量表。

本文使用目前最新的 CHEERS 作为参考，将评估量表中的建议以问题的方式进行描述，对这 5 个评估量表的条目内容进行统计和比较（表 1）。此外，我们还详细列出了这 5 个评估量表分别适合的经济学评价类型、设计过程、报告形式、条目数量、问题回答形式等 11 个方面的主要特点以方便研究者选择比较（表 2）。通过分析发现，在研究角度、研究时限、成本和产出的贴现、对产出衡量类型的选择和衡量方法、敏感性分析这几个方面 5 个评估量表都有涉及。此外，目标人群和亚组人群基线特征的描述及选择原因、替代方案的选择、参数的相关信息、数据的提取和统计分析方法、增量分析、研究结论的缺陷和可推广性在其中 4 个评估量表被提及。由此可见，评估药物经济学报告质量的重要标准具有明显一致性。但另一方面，如研究的利益冲突方等 3 条标准仅在其中一个或两个评估量表中出现，这就表明目前在某些条目的重要程度判断上面不同量表意见不一致。

表1 5 个代表性评估量表的条目内容比较

表选项

下载CSV

表1 5 个代表性评估量表的条目内容比较

条目	BMJ checklist	QHES	CHEC	Philips guidelines	CHEERS
题目及摘要
题目：研究问题的定义是否清晰，题目是否包含经济学评价或更具体的术语　如“成本效果分析”以及对比方案	√	√		√	√
摘要：是否有对研究的目的、角度、背景、方法、结果、结论的结构化总结					√
介绍
背景和目的：是否对研究背景及相关的卫生政策进行了清晰的描述	√			√	√
研究方法
目标人群：是否对目标人群和亚组人群的基线特征及选择原因进行了描述		√	√	√	√
研究背景及地点：是否描述了所需做出决策的国家、机构信息及其他相　　关背景信息					√
研究角度：是否描述了研究角度	√	√	√	√	√
对照组：是否描述了对照组的干预方案及选择原因	√	√	√		√
研究时限：是否报告了研究时限及确定研究时限的原因	√	√	√	√	√
贴现率：是否报告了计算成本和产出时选择的贴现率及选择原因	√	√	√	√	√
健康产出选择：是否描述了衡量产出的指标类型及选择原因	√	√	√	√	√
效果衡量：是否描述了效果数据的衡量估计方式（选择基于单个或是多个　　试验研究结果来对产出进行估计的原因及方法）	√	√	√	√	√
基于偏好的产出衡量：是否描述了基于偏好的产出的衡量和估值方法	√	√		√	√
成本资源估值：是否描述了干预方案相关的资源使用情况及成本估计的方法	√		√		√
汇率转换：是否报告了所估计的单位成本和资源数量的日期及汇率换算	√				√
模型选择：是否描述了所使用的决策分析模型类型及原因	√	√		√	√
假设：是否描述了决策分析模型所基于的所有假设				√	√
分析方法：是否描述了支持评价的分析方法（包括处理偏倚或缺失数据的　　方法，提取数据的方法，处理异质性和不确定性的方法等）	√	√		√	√
结果
研究参数：是否报告了所有参数的值、范围、参考文献及概率分布等	√	√		√	√
增量成本及产出：是否进行了增量分析，并报告了增量成本和增量产出	√	√	√		√
不确定性分析：是否报告了研究的不确定性及可能产生的影响	√	√	√	√	√
异质性分析：是否报告了几个亚组病人间的异质性及可能产生的影响		√		√	√
讨论
研究发现、局限性、推广性：是否报告了研究结果及由此所得到的结论、研究　　的局限性及推广性	√		√	√	√
其他
资金来源：是否描述了研究的资金来源及资助者在研究中参与的程度		√	√		√
利益冲突：是否描述了研究的利益冲突			√		√

表2 5 个代表性评估量表的主要特点

表选项

下载CSV

量表名称	适合的经济学评价类型	报告形式	条目数量	问题回答形式	是否有质量评分	是否有评估量表使用建议及指导
BMJ checklist	基于试验的和基于模型的经济学评价	建议	35	是/否/不清楚/不适用	无	无
QHES	基于模型的经济学评价	问题和分值	16	是/否	有	有
CHEC	基于试验的经济学评价	问题	19	是/否	无	有
Philips guidelines	基于模型的经济学评价	问题和建议	61	是/否/不清楚/不适用	无	有
CHEERS	基于试验的和基于模型的经济学评价	建议	24	无	无	有

2.4 评估量表的质量评估

目前已有的评估量表中只有 QHES 在设计完成后对评估量表的信度和效度进行了测量。研究者选择了 60 位国际上的专家对三个药物经济学评价报告质量进行评估，先采用视觉模拟评分法（visual analogue scale，VAS），再使用 QHES 对这三篇报告分别进行评分。然后用 Spearman 秩检验（rho=0.78，P<0.0001）和 Wilcoxon 秩和检验（P=0.53）来检验建构效度，再用协方差分析（F=5.97，P=0.001）检验他们的区分效度。同时还对这个评分体系和专家的全球评分的一致性进行了评分者间效度检验，结果均显示一致性较好^[11]。

除此之外，Gerard 等^[17]通过采用 BMJ checklist 对 43 篇成本效用分析的经济学评价报告在同行之间进行了评估，得出 BMJ checklist 的评判者间信度为 80%。Gerkens 基于对 9 篇手术治疗肥胖症的经济学评价文章进行质量评估，对 BMJ checklist、CHEC 和 QHES 评估量表做出了比较。结果显示这三个评估量表间的 Spearman 相关系数很高（rho>0.7），重测信度也都比较好，分别为 BMJ checklist 0.98［95%CI（0.86，0.99）］，CHEC 0.97［95%CI（0.73，0.99）］，QHES 0.95［95%CI（0.75，0.99）］。但它们评分者间的一致性比较差（大部分条目的 K 值<0.4，且组内相关系数 ICC≤0.5）^[18]。

Langer 等^[19]设计了一个框架来对目前已有的卫生经济学报告质量评估工具进行评价。框架中除了包括上面提到的信度效度检验之外，还从评估量表设计的目的和范围、利益相关者的参与程度、评估量表设计过程的严谨性、评估量表呈现的清晰程度、评估量表的适用性和对评估量表的整体评价七个方面对其进行评价。并应用这一框架对 BMJ checklist、QHES、CHEC、Philips guidelines 4 个评估量表进行了评价，结果显示 4 个评估量表各有利弊，但都没有完全满足这一框架的所有评价标准。其中，QHES 满足的评价标准数量最多，BMJ checklist 满足的数量最少。其中有 10 条评价标准，4 个评估量表没有一个能够满足。例如：全部设计参与者都是相关领域权威专家、说明评估量表更新审阅日期、对信度效度的所有方面都进行测量等。

3 讨论

药物经济学评价研究的质量高低决定了其应用到决策环境中的采信度，所以对药物经济学评价进行质量评估具有重要意义。使用药物经济学评价研究的质量评估工具，可以帮助决策者区分高质量和低质量的证据，为决策过程中高效配置医疗卫生资源提供有力的证据参考^[20]。同时，能够帮助期刊审稿专家和读者对低质量药物经济学评价文献进行甄别。但目前药物经济学研究的质量评价方法还没有统一标准。因此，就如何选择合适的质量评价工具，我们通过本文对国际上主要的质量评价工具进行总结分析后，提出以下建议：

① 根据经济学评价的类型，BMJ checklist 和 CHEERS 适用范围更广，可用于所有类型经济学研究的质量评价，既包括基于试验的也包括基于模型的。除了以上两者外，针对基于模型的经济学评价可以选择 QHES 和 Philips guidelines，针对基于临床试验和观察性的研究建议选择 CHEC 评估量表。

② 如果希望以量化的方式对药物经济学评价的文献质量进行评估，那么建议选择 QHES 评估量表。因为仅 QHES 采用定量评分，其他工具都是定性评分且条目大都是主观和开放式的。但进行评估工具选择时也要考虑 QHES 局限性：其效度只是通过对三个经济学评价报告的质量评估进行测量，且由于样本量有限，所以其预计效度效力有限。

③ 注重评估量表的时效性和可操作性时，建议选择 CHEERS 评估量表。其优势在于它是由一支目前国际上多学科的在经济学评价和报告方面知名的编辑和专家团队完成的，且和当前广泛采用的报告和指南中提出的建议相符。专家小组还对评估量表中的每条条目都给出了使用建议及例子，加之它是从文章结构方面对评估量表条目进行分类，因此实际评价时的可操作性更强。

除了文中所总结的国际上主要使用的药物经济学评价质量评估量表外，国内学者也在其基础上尝试制定我国自己的评价标准。《中国药物经济学评价指南（2011 版）》^[21]就如何评估药物经济学文献质量给出了由 7 个一级项目，14 个二级项目构成的评估量表；吴久鸿等^[22]在 2015 年就药物经济学研究质量评定的主要研究要素进行了总结，包括研究的问题和目的、替代方案的选择、决策分析模型的应用等七个方面；伍红艳等^[23]参考 CHEERS、BMJ guidelines、QHES 和《中国药物经济学评价指南》于 2015 年设计了一个包含 5 个一级指标，24 个二级指标的文献质量评价框架；王小艺等^[24]则在参考各国药物经济学指南，以及 QHES、BMJ guidelines、CHEC 等评估量表后，采用德尔菲专家咨询法于 2016 年确定了 26 个药物经济学研究质量评价指标。

药物经济学评价的质量评估目前还不存在一个“金标准”，已有质量评估工具仍存在各种问题。其质量评估结果更多地是受评价者而不是所使用评价工具的影响，所以已有评估量表的信度和效度还有待进一步检验^[18]。另外，具有评分体系的评估量表也有待发展和完善。同时，在众多被评价要素中，某一要素的高质量优势是否能一定程度上弥补另一要素的缺陷，这些问题都还需要未来的研究给出答案^[20]。一个具有广泛适应性和推广性的、高质量药物经济学评价的质量评估工具还有待进一步更新和发展。