引用本文: 温兆瑞, 刘建, 聂广宁, 李杨, 杨洪艳. 卵巢早衰随机对照研究中结局指标的现状分析. 华西医学, 2021, 36(8): 1093-1101. doi: 10.7507/1002-0179.202011254 复制
卵巢早衰(premature ovarian failure,POF)/早发性卵巢功能不全(primary ovarian insufficiency,POI)是指女性在 40 岁前卵巢功能过早、完全衰退综合征,以月经紊乱伴高促性腺激素和低雌激素为主要特征[1-3]。本病可导致生育力下降,增加患骨质疏松症、心血管疾病的风险,严重影响妇女的生活质量及身心健康。目前激素治疗是 POF/POI 的常规治疗方案,但其无法从根本上恢复或逆转女性的生殖功能及卵巢的储备功能[4]。中医药治疗本病有着丰富的临床实践经验,为了获得改善卵巢功能的有效疗法,不少学者开展了治疗 POF/POI 的随机对照试验(randomized controlled trial,RCT)研究,以期获得有效治疗 POF/POI 的临床循证证据。临床结局指标是指采用某种测量方法和指标来评估干预措施所呈现的治疗效应,是干预措施是否有效、是否被国内外专业人士和患者广泛认可的一个十分重要的因素[5-6],但通过查阅 POF/POI 的相关文献发现,目前关于 POF/POI 的 RCT 研究中结局指标的选择各有不同。既往研究发现,同类临床研究中测量和报告的结局指标有很大差异[7],同类研究结果不能合并与比较,导致研究浪费[8-9]。因此本研究将对国内外公开发表的 POF/POI RCT 研究中结局指标进行分析与评价,以期为日后开展相关研究中结局指标的选择提供充分的依据。
1 资料与方法
1.1 纳入与排除标准
1.1.1 纳入标准
① 研究设计类型:RCT;② 研究对象:POF/POI 患者,有明确的疾病诊断标准;③ 干预措施:西药、中药、针刺、艾灸、运动疗法、心理疗法等;④ 结局指标:至少报告 1 个结局指标。
1.1.2 排除标准
① 重复发表的研究;② 仅有摘要,通过与作者联系、网站索取等方法后仍无法获取全文的文献;③ 数据无法提取利用的文献等。
1.2 文献检索
使用计算机全面检索中国知网中国期刊全文数据库、万方数据库、维普期刊全文数据库、中国生物医学文献服务系统、PubMed、Cochrane Library、Embase 中公开发表的期刊文献、学位论文、学术论文、科研成果等。检索年限为各数据库从建库至 2021 年 6 月。中文检索词包括“卵巢早衰”“早发性卵巢功能不全”“原发性卵巢功能不全”“卵巢功能减退”“卵巢功能衰退”“卵巢功能下降”“卵巢功能不全”“卵巢功能低下”“卵巢功能衰竭”“过早绝经”“卵巢低反应”等,英文检索词包括“primary ovarian insufficiency”“premature ovarian insufficiency”“premature ovarian failure”“premature ovarian dysfunction”“premature ovarian aging”“POA”“POR”“POF”“POI”“premature menopause”“premature”“amenorrhea”“early menopause”“climacterium praecox”“menopause praecox”等,利用“AND”“OR”“NOT”的运算法则对检索词进行组合。以中国知网中国期刊全文数据库和 PubMed 数据库为例,具体检索策略见框 1。

1.3 文献筛选与数据提取
由 2 名研究者独立进行文献检索、筛选以及数据提取工作。2 名研究员组成研究小组通过独立阅读文章标题、摘要及全文,依据纳入、排除标准进行筛选,初步筛选出合格的文献。由于初筛的文献质量不一,研究小组采用 Cochrane 偏倚风险评估工具对文献进行严格的质量评价,从而对初筛文献进行二次筛选。主要从选择(包括随机序列产生和分配隐藏)、实施(包括对研究者和受试者施盲)、测量(研究结局盲法评价)、随访(结局数据的完整性)、报告(选择性报告研究结果)及其他(其他偏倚来源)这 6 个方面总计 7 个条目对偏倚风险进行评价,对每个条目依据偏倚风险评估准则作出“低偏倚风险”“高偏倚风险”和“不清楚”的判定结果[10]。由于绝大部分文献选择偏倚(分配隐藏)及实施偏倚均为“高偏倚风险”,其他偏倚为“不清楚”,因此为保证文献的数量及尽可能减少文章之间的异质性,最终筛选出选择偏倚(随机序列的产生)、随访偏倚、报告偏倚为“低偏倚风险”并排除测量偏倚“高偏倚风险”的文献。采用 Excel 设计资料提取表格,对纳入 RCT 提取结局指标资料。对在文献选择和资料提取过程中的不确定因素 2 名研究员进行商讨决议,如遇分歧,则邀请第三人仲裁,最后统一对纳入研究的结局指标进行总结、归纳。
1.4 结局指标分类
1.4.1 主要与次要结局指标
主要结局指标是指最能代表临床意义且最能说明研究问题的指标;次要结局指标指在主要结局指标不可行的情况下进行替代的间接指标,能完全反映干预所引起的主要结局指标的变化[11]。
1.4.2 独立指标与复合指标
用单项评价指标评估临床研究的有效率可被认为是独立指标[12],包括实验室的生物学指标、影像学指标和与症状、体征评价相关的指标等。如果单个指标无法说明目的,有时会将多个独立指标构成复合指标来作为结局评价指标,即对各独立指标赋分,给各独立指标一个权重,然后将各指标的赋分乘以其权重相加,以反映干预方案对患者产生各种影响的综合疗效[13]。
2 结果
2.1 文献筛选
文献筛选流程及结果见图 1。

*具体包括:中国知网(
2.1.1 初步筛选
依据检索策略,通过数据库初步检索到 4 954 篇文献,其中中文文献 2 909 篇、英文文献 2 045 篇。结合 NoteExpress 软件自动查重功能和人工查重后剔除重复文献 954 篇,阅读文题、摘要及全文后剔除不符合纳入标准文献 3 339 篇,初步纳入研究文献 661 篇。
2.1.2 根据 Cochrane 偏倚风险评估工具进行二次筛选
围绕 Cochrane 偏倚风险评估工具的 7 个评价条目,最终共纳入 186 篇文献,包括中文文献 180 篇、英文文献 6 篇。
2.2 纳入研究基本特征
纳入的 186 篇文献均为 RCT 研究。文献发表年份多为 2016 年及以后,样本量均在 200 例及以下;随机方法方面,以随机数字表法最多;绝大多数文献没有采用盲法。具体见表 1。

2.3 纳入研究偏倚风险评价
所有纳入文献选择偏倚(随机序列的产生)、随访偏倚(结局无缺失数据)、报告偏倚(研究方案不可得,但报告包含了所有期望的结果,包括那些预先申明的)均为低偏倚风险;选择偏倚(分配隐藏)方面:1 篇中文 RCT 研究阐明了分配隐藏方案为中央随机,1 篇英文 RCT 研究为密封的信封,其余中英文 RCT 研究均无充足的信息判定分配隐匿方案的等级;实施偏倚(研究者和受试者施盲)方面:1 篇中文和 2 篇英文 RCT 研究中治疗药物采用盲法设计,即两组药物在外包装、剂型、药物外观、形状、颜色等方面完全一致,其余文献均未提及盲法;测量偏倚(研究结局盲法评价)方面:30 篇中文和 3 篇英文 RCT 研究以客观指标为疗效评价标准,全文虽未对结局进行盲法评价,但综述结局指标不太可能受盲法缺失的影响;其他偏倚方面:所有 RCT 研究均无足够的信息评价是否存在重要的偏倚风险。纳入文献偏倚风险分析见图 2。

2.4 结局指标
2.4.1 指标域
纳入 RCT 研究共采用 75 个结局指标,单个 RCT 研究中结局指标的组成不同,少则 1 个结局指标,多则 5~6 个结局指标。由于结局指标差异过大,为了便于统计与分析,研究小组根据结局指标的自身特点分为 3 类:症状/体征、实验室检查、影像学检查。纳入 RCT 研究结局指标的指标域见图 3。

Ig:免疫球蛋白;IL:白细胞介素;TLR:Toll 样受体
2.4.2 纳入研究主要及次要结局指标报告分析
180 篇中文 RCT、6 篇英文 RCT 研究中,2 篇(1.11%)中文 RCT、1 篇(16.67%)英文 RCT 明确指出主要、次要结局指标。这 2 篇中文 RCT 中,一篇的主要结局指标为血清激素水平、窦卵泡计数,次要结局指标为焦虑自评量表评分;另一篇的主要结局指标为焦虑自评量表评分、改良 Kupperman 评分,次要结局指标为血清激素水平。该英文 RCT 的主要结局指标为血清激素水平、子宫内膜厚度、>18 mm 的卵泡数,次要结局指标为妊娠成功率。其余 178 篇(98.89%)中文 RCT、5 篇(83.33%)英文 RCT 均未明确指出主要、次要结局指标。
2.4.3 纳入研究独立指标和复合指标运用的报告分析
180 篇中文 RCT、6 篇英文 RCT 研究中,19 篇(10.56%)中文 RCT、4 篇(66.67%)英文 RCT 采用独立指标作为疗效评价标准,4 篇(2.22%)中文 RCT 采用复合指标作为疗效评价标准,157 篇(87.22%)中文 RCT、2 篇(33.33%)英文 RCT 同时采用独立指标及复合指标进行疗效评价(表 2)。纳入研究中独立指标主要包括症状/体征、实验室检查、影像学检查 3 类,组成及频次详见表 3,具体内容及频次详见表 4。复合指标的制定主要参考《中医病症诊断疗效标准》《中药新药临床研究指导原则》《中华妇产科学》《中医妇科学》等,再结合研究的主要目的添加具体疗效评价指标组合而成,单个研究中可出现数量不等的复合指标;复合指标多用 3 个等级计数(治愈、有效、无效)或 4 个等级计数(治愈、显效、有效、无效)作为综合疗效评价的标准,计算总有效率。复合指标的参照标准及频次详见表 5。




3 讨论
POF/POI 作为常见妇科疾病,严重损害女性的生育功能及心理健康。如何延缓 POF/POI 患者卵巢功能衰退的进程一直以来都是妇科生殖内分泌探讨的重点内容。近年来,为获得改善卵巢功能更加有效的疗法,越来越多的学者开展了有关 POF/POI 的 RCT 研究。但是由于结局指标的不规范性,RCT 研究中结局指标差异性很大,使得不同研究结果无法合并,无法给临床实践提供更高级别的证据,从而造成资源浪费。本研究通过分析所有国内外有关 POF/POI 的 RCT 研究中结局指标的现状,以期为日后 POF/POI 临床研究中结局指标的标准化、规范化提供依据。
3.1 POF/POI RCT 研究中结局指标存在的主要问题
3.1.1 忽视主要、次要结局指标
在 RCT 研究中,不同结局指标所代表和说明治疗措施的临床疗效和临床意义的效能不同,不能一概而论。首先,只有主要临床结局指标才能说明治疗的效果和临床意义,才具有临床推广的价值;次要结局指标只有在经过严格验证的基础才能得出上述结论,否则只能提出其可能有的临床意义或治疗效果的可能机制[14]。其次,分清主要、次要结局指标,有助于明确研究的主要方向,降低报告偏倚风险。本研究纳入 RCT 研究中仅 2 篇(1.11%)中文 RCT、1 篇(16.67%)英文 RCT 报告了主要、次要结局指标,大部分研究均未对结局指标作主次区分,且将多个主观指标、客观指标罗列或随意组合,缺乏科学依据。
3.1.2 临床研究结局指标选择缺乏标准
186 个纳入研究共采用 75 个结局指标,单个研究中结局指标的组成不同,少则 1 个结局指标,多则 5~6 个结局指标,数量选择不一。结局指标只有被证实与重要临床结局有相关性,并确定是由于干预措施所带来的结果时,其作为疗效判定指标才有意义。要想证明某个结局指标可完全代替真正的临床结局,需要非常繁琐、复杂的试验、验证过程。对于结局指标的构成要素尚无规范可寻,需根据疾病的发病特点以及治疗干预措施的目的进行制定。
3.1.3 临床症状评价量表使用率低,多用自拟量表
雌激素水平下降会引起潮热汗出、睡眠障碍、情绪障碍等。临床上常用 Kupperman 评分量表、更年期生存质量量表、绝经评定量表等国际公认的量表进行量化及客观性的评价[15]。本研究纳入研究中有较多 RCT 研究使用计算临床症候积分的方法对卵巢衰退过程中低雌激素引发的临床症状进行量化,其评价标准均依据《中药新药临床研究指导原则》《中医病症诊断疗效标准》或自拟中医症候积分进行软指标的评价。这些自拟量表的设立缺乏科学严格、规范化、标准性的研制过程,不利于合理地判断治疗干预措施的有效性。
3.1.4 复合指标来源不清晰,缺乏严格的研制过程
运用复合指标作为疗效评价标准可以提高终点事件的发生率,从而减少所需的样本量,还可以有效避免竞争风险。当选择几个重要性相似的指标存在争议时,应用复合指标既可以避免这一选择上的困惑,还能全面评价干预措施的疗效,提高统计学检验效能[16]。复合指标的制定需要规范性、严谨性、科学性,要求只有当疾病几个维度的指标总是比较同步但单一指标不敏感时可以综合,这样容易解释临床意义与指导决策。但是目前国内很多指南中复合指标的设立并未体现其研制过程,其所采用独立指标的权重并无统一标准,故临床应用缺乏说服力。本研究发现研究者常自拟复合结局指标,其内容、评价等级都差异很大,导致不同试验间的疗效结果缺乏可比性。且参照标准基本为专家共识,无高级别循证证据证明标准性以及准确性。当独立指标结论不同步时(有的指标有效,有的无效,甚至方向相反),不推荐综合为复合指标。例如纳入研究的复合指标将性激素与月经来潮次数进行综合时,性激素在月经周期间波动较大,其水平的下降也并非意味着卵巢排卵,尤其是采用激素治疗为治疗方案的研究,激素治疗必然会降低血清性激素的水平,同时造成月经来潮,因此将其综合不甚恰当。
本研究显示许多研究者同时采用了独立指标和复合指标两套指标。使用复合指标时需要准确选择其组成的独立指标,即使复合指标疗效评价指标被认为具有统计学意义和临床相关性,也应同时报告干预措施对各独立指标的影响。当各组成事件对患者的重要性不一致时,还需要计算各指标的权重[16]。
3.2 对 POF/POI 临床研究结局指标的建议
由于卵巢功能衰退渐进性的特点,不同阶段的 POF/POI 患者有着不同的临床需求:早中期以促孕、恢复规律月经为目的,晚期以改善低雌激素引发的绝经相关症状为目的。我们需要明确治疗目的,认识疗效指标的优势和不足,从而选择合适的疗效评价指标。对于卵巢衰退早中期治疗以改善月经、促进残余卵泡发育为目标,故自然月经周期以及排卵次数应该作为主要结局指标,血清基础性激素、抗苗勒管激素、抑制素 B、窦卵泡计数可以作为次要结局指标,但是对于激素治疗来说,性激素作为疗效指标的临床意义不大。对于卵巢衰竭的晚期,如已经无法促残余卵泡的发育,用量表评分的方法评估低雌激素症状的改善应该作为主要结局指标。
核心指标集是指特定健康领域的临床研究中应当被测量和报告的必要结局指标的最小集合[17]。核心指标集的提出不仅可以使临床试验简单化、选择性结局报告偏倚最小化,更重要的是,核心指标集的使用可以减少研究之间结局报告的异质性,使结局报告之间具有可比性,还可合并研究结局报告提供综合证据[18]。因此,根据分析结果,我们建议进一步建立 POF/POI 核心指标集规范结局指标。我们检索核心指标集研究方案的国际注册平台 COMET(Core Outcome Measures in Effectiveness Trials)数据库发现,POF/POI 核心指标集的研制工作尚未开展。建立有关 POF/POI RCT 研究的核心指标集有助于为日后开展相关研究中结局指标的选择提供一个最佳的测量工具,使研究更加具有规范性、一致性、统一性。
综上所述,国内外有关 POF/POI 研究结局指标的选择和使用尚不规范,希望通过本次研究,能够加深 POF/POI 研究者对结局疗效评价指标的理解,在今后结局指标的选择中,更加规范化、一致化、统一化,使研究结论更具有说服力。建立有关 POF/POI RCT 研究的核心指标集,有助于临床试验简单化、选择性结局报告偏倚最小化,减少研究之间结局报告的异质性,提升临床研究质量[18]。本研究仍存在一定的局限性,本研究检索的文章方法学质量参差不齐,虽通过 Cochrane 偏倚风险评价工具对纳入研究进行了评价,但未补充使用其他工具进行方法学质量评价,评估体系还不完善,日后有待进一步完善与提高。
卵巢早衰(premature ovarian failure,POF)/早发性卵巢功能不全(primary ovarian insufficiency,POI)是指女性在 40 岁前卵巢功能过早、完全衰退综合征,以月经紊乱伴高促性腺激素和低雌激素为主要特征[1-3]。本病可导致生育力下降,增加患骨质疏松症、心血管疾病的风险,严重影响妇女的生活质量及身心健康。目前激素治疗是 POF/POI 的常规治疗方案,但其无法从根本上恢复或逆转女性的生殖功能及卵巢的储备功能[4]。中医药治疗本病有着丰富的临床实践经验,为了获得改善卵巢功能的有效疗法,不少学者开展了治疗 POF/POI 的随机对照试验(randomized controlled trial,RCT)研究,以期获得有效治疗 POF/POI 的临床循证证据。临床结局指标是指采用某种测量方法和指标来评估干预措施所呈现的治疗效应,是干预措施是否有效、是否被国内外专业人士和患者广泛认可的一个十分重要的因素[5-6],但通过查阅 POF/POI 的相关文献发现,目前关于 POF/POI 的 RCT 研究中结局指标的选择各有不同。既往研究发现,同类临床研究中测量和报告的结局指标有很大差异[7],同类研究结果不能合并与比较,导致研究浪费[8-9]。因此本研究将对国内外公开发表的 POF/POI RCT 研究中结局指标进行分析与评价,以期为日后开展相关研究中结局指标的选择提供充分的依据。
1 资料与方法
1.1 纳入与排除标准
1.1.1 纳入标准
① 研究设计类型:RCT;② 研究对象:POF/POI 患者,有明确的疾病诊断标准;③ 干预措施:西药、中药、针刺、艾灸、运动疗法、心理疗法等;④ 结局指标:至少报告 1 个结局指标。
1.1.2 排除标准
① 重复发表的研究;② 仅有摘要,通过与作者联系、网站索取等方法后仍无法获取全文的文献;③ 数据无法提取利用的文献等。
1.2 文献检索
使用计算机全面检索中国知网中国期刊全文数据库、万方数据库、维普期刊全文数据库、中国生物医学文献服务系统、PubMed、Cochrane Library、Embase 中公开发表的期刊文献、学位论文、学术论文、科研成果等。检索年限为各数据库从建库至 2021 年 6 月。中文检索词包括“卵巢早衰”“早发性卵巢功能不全”“原发性卵巢功能不全”“卵巢功能减退”“卵巢功能衰退”“卵巢功能下降”“卵巢功能不全”“卵巢功能低下”“卵巢功能衰竭”“过早绝经”“卵巢低反应”等,英文检索词包括“primary ovarian insufficiency”“premature ovarian insufficiency”“premature ovarian failure”“premature ovarian dysfunction”“premature ovarian aging”“POA”“POR”“POF”“POI”“premature menopause”“premature”“amenorrhea”“early menopause”“climacterium praecox”“menopause praecox”等,利用“AND”“OR”“NOT”的运算法则对检索词进行组合。以中国知网中国期刊全文数据库和 PubMed 数据库为例,具体检索策略见框 1。

1.3 文献筛选与数据提取
由 2 名研究者独立进行文献检索、筛选以及数据提取工作。2 名研究员组成研究小组通过独立阅读文章标题、摘要及全文,依据纳入、排除标准进行筛选,初步筛选出合格的文献。由于初筛的文献质量不一,研究小组采用 Cochrane 偏倚风险评估工具对文献进行严格的质量评价,从而对初筛文献进行二次筛选。主要从选择(包括随机序列产生和分配隐藏)、实施(包括对研究者和受试者施盲)、测量(研究结局盲法评价)、随访(结局数据的完整性)、报告(选择性报告研究结果)及其他(其他偏倚来源)这 6 个方面总计 7 个条目对偏倚风险进行评价,对每个条目依据偏倚风险评估准则作出“低偏倚风险”“高偏倚风险”和“不清楚”的判定结果[10]。由于绝大部分文献选择偏倚(分配隐藏)及实施偏倚均为“高偏倚风险”,其他偏倚为“不清楚”,因此为保证文献的数量及尽可能减少文章之间的异质性,最终筛选出选择偏倚(随机序列的产生)、随访偏倚、报告偏倚为“低偏倚风险”并排除测量偏倚“高偏倚风险”的文献。采用 Excel 设计资料提取表格,对纳入 RCT 提取结局指标资料。对在文献选择和资料提取过程中的不确定因素 2 名研究员进行商讨决议,如遇分歧,则邀请第三人仲裁,最后统一对纳入研究的结局指标进行总结、归纳。
1.4 结局指标分类
1.4.1 主要与次要结局指标
主要结局指标是指最能代表临床意义且最能说明研究问题的指标;次要结局指标指在主要结局指标不可行的情况下进行替代的间接指标,能完全反映干预所引起的主要结局指标的变化[11]。
1.4.2 独立指标与复合指标
用单项评价指标评估临床研究的有效率可被认为是独立指标[12],包括实验室的生物学指标、影像学指标和与症状、体征评价相关的指标等。如果单个指标无法说明目的,有时会将多个独立指标构成复合指标来作为结局评价指标,即对各独立指标赋分,给各独立指标一个权重,然后将各指标的赋分乘以其权重相加,以反映干预方案对患者产生各种影响的综合疗效[13]。
2 结果
2.1 文献筛选
文献筛选流程及结果见图 1。

*具体包括:中国知网(
2.1.1 初步筛选
依据检索策略,通过数据库初步检索到 4 954 篇文献,其中中文文献 2 909 篇、英文文献 2 045 篇。结合 NoteExpress 软件自动查重功能和人工查重后剔除重复文献 954 篇,阅读文题、摘要及全文后剔除不符合纳入标准文献 3 339 篇,初步纳入研究文献 661 篇。
2.1.2 根据 Cochrane 偏倚风险评估工具进行二次筛选
围绕 Cochrane 偏倚风险评估工具的 7 个评价条目,最终共纳入 186 篇文献,包括中文文献 180 篇、英文文献 6 篇。
2.2 纳入研究基本特征
纳入的 186 篇文献均为 RCT 研究。文献发表年份多为 2016 年及以后,样本量均在 200 例及以下;随机方法方面,以随机数字表法最多;绝大多数文献没有采用盲法。具体见表 1。

2.3 纳入研究偏倚风险评价
所有纳入文献选择偏倚(随机序列的产生)、随访偏倚(结局无缺失数据)、报告偏倚(研究方案不可得,但报告包含了所有期望的结果,包括那些预先申明的)均为低偏倚风险;选择偏倚(分配隐藏)方面:1 篇中文 RCT 研究阐明了分配隐藏方案为中央随机,1 篇英文 RCT 研究为密封的信封,其余中英文 RCT 研究均无充足的信息判定分配隐匿方案的等级;实施偏倚(研究者和受试者施盲)方面:1 篇中文和 2 篇英文 RCT 研究中治疗药物采用盲法设计,即两组药物在外包装、剂型、药物外观、形状、颜色等方面完全一致,其余文献均未提及盲法;测量偏倚(研究结局盲法评价)方面:30 篇中文和 3 篇英文 RCT 研究以客观指标为疗效评价标准,全文虽未对结局进行盲法评价,但综述结局指标不太可能受盲法缺失的影响;其他偏倚方面:所有 RCT 研究均无足够的信息评价是否存在重要的偏倚风险。纳入文献偏倚风险分析见图 2。

2.4 结局指标
2.4.1 指标域
纳入 RCT 研究共采用 75 个结局指标,单个 RCT 研究中结局指标的组成不同,少则 1 个结局指标,多则 5~6 个结局指标。由于结局指标差异过大,为了便于统计与分析,研究小组根据结局指标的自身特点分为 3 类:症状/体征、实验室检查、影像学检查。纳入 RCT 研究结局指标的指标域见图 3。

Ig:免疫球蛋白;IL:白细胞介素;TLR:Toll 样受体
2.4.2 纳入研究主要及次要结局指标报告分析
180 篇中文 RCT、6 篇英文 RCT 研究中,2 篇(1.11%)中文 RCT、1 篇(16.67%)英文 RCT 明确指出主要、次要结局指标。这 2 篇中文 RCT 中,一篇的主要结局指标为血清激素水平、窦卵泡计数,次要结局指标为焦虑自评量表评分;另一篇的主要结局指标为焦虑自评量表评分、改良 Kupperman 评分,次要结局指标为血清激素水平。该英文 RCT 的主要结局指标为血清激素水平、子宫内膜厚度、>18 mm 的卵泡数,次要结局指标为妊娠成功率。其余 178 篇(98.89%)中文 RCT、5 篇(83.33%)英文 RCT 均未明确指出主要、次要结局指标。
2.4.3 纳入研究独立指标和复合指标运用的报告分析
180 篇中文 RCT、6 篇英文 RCT 研究中,19 篇(10.56%)中文 RCT、4 篇(66.67%)英文 RCT 采用独立指标作为疗效评价标准,4 篇(2.22%)中文 RCT 采用复合指标作为疗效评价标准,157 篇(87.22%)中文 RCT、2 篇(33.33%)英文 RCT 同时采用独立指标及复合指标进行疗效评价(表 2)。纳入研究中独立指标主要包括症状/体征、实验室检查、影像学检查 3 类,组成及频次详见表 3,具体内容及频次详见表 4。复合指标的制定主要参考《中医病症诊断疗效标准》《中药新药临床研究指导原则》《中华妇产科学》《中医妇科学》等,再结合研究的主要目的添加具体疗效评价指标组合而成,单个研究中可出现数量不等的复合指标;复合指标多用 3 个等级计数(治愈、有效、无效)或 4 个等级计数(治愈、显效、有效、无效)作为综合疗效评价的标准,计算总有效率。复合指标的参照标准及频次详见表 5。




3 讨论
POF/POI 作为常见妇科疾病,严重损害女性的生育功能及心理健康。如何延缓 POF/POI 患者卵巢功能衰退的进程一直以来都是妇科生殖内分泌探讨的重点内容。近年来,为获得改善卵巢功能更加有效的疗法,越来越多的学者开展了有关 POF/POI 的 RCT 研究。但是由于结局指标的不规范性,RCT 研究中结局指标差异性很大,使得不同研究结果无法合并,无法给临床实践提供更高级别的证据,从而造成资源浪费。本研究通过分析所有国内外有关 POF/POI 的 RCT 研究中结局指标的现状,以期为日后 POF/POI 临床研究中结局指标的标准化、规范化提供依据。
3.1 POF/POI RCT 研究中结局指标存在的主要问题
3.1.1 忽视主要、次要结局指标
在 RCT 研究中,不同结局指标所代表和说明治疗措施的临床疗效和临床意义的效能不同,不能一概而论。首先,只有主要临床结局指标才能说明治疗的效果和临床意义,才具有临床推广的价值;次要结局指标只有在经过严格验证的基础才能得出上述结论,否则只能提出其可能有的临床意义或治疗效果的可能机制[14]。其次,分清主要、次要结局指标,有助于明确研究的主要方向,降低报告偏倚风险。本研究纳入 RCT 研究中仅 2 篇(1.11%)中文 RCT、1 篇(16.67%)英文 RCT 报告了主要、次要结局指标,大部分研究均未对结局指标作主次区分,且将多个主观指标、客观指标罗列或随意组合,缺乏科学依据。
3.1.2 临床研究结局指标选择缺乏标准
186 个纳入研究共采用 75 个结局指标,单个研究中结局指标的组成不同,少则 1 个结局指标,多则 5~6 个结局指标,数量选择不一。结局指标只有被证实与重要临床结局有相关性,并确定是由于干预措施所带来的结果时,其作为疗效判定指标才有意义。要想证明某个结局指标可完全代替真正的临床结局,需要非常繁琐、复杂的试验、验证过程。对于结局指标的构成要素尚无规范可寻,需根据疾病的发病特点以及治疗干预措施的目的进行制定。
3.1.3 临床症状评价量表使用率低,多用自拟量表
雌激素水平下降会引起潮热汗出、睡眠障碍、情绪障碍等。临床上常用 Kupperman 评分量表、更年期生存质量量表、绝经评定量表等国际公认的量表进行量化及客观性的评价[15]。本研究纳入研究中有较多 RCT 研究使用计算临床症候积分的方法对卵巢衰退过程中低雌激素引发的临床症状进行量化,其评价标准均依据《中药新药临床研究指导原则》《中医病症诊断疗效标准》或自拟中医症候积分进行软指标的评价。这些自拟量表的设立缺乏科学严格、规范化、标准性的研制过程,不利于合理地判断治疗干预措施的有效性。
3.1.4 复合指标来源不清晰,缺乏严格的研制过程
运用复合指标作为疗效评价标准可以提高终点事件的发生率,从而减少所需的样本量,还可以有效避免竞争风险。当选择几个重要性相似的指标存在争议时,应用复合指标既可以避免这一选择上的困惑,还能全面评价干预措施的疗效,提高统计学检验效能[16]。复合指标的制定需要规范性、严谨性、科学性,要求只有当疾病几个维度的指标总是比较同步但单一指标不敏感时可以综合,这样容易解释临床意义与指导决策。但是目前国内很多指南中复合指标的设立并未体现其研制过程,其所采用独立指标的权重并无统一标准,故临床应用缺乏说服力。本研究发现研究者常自拟复合结局指标,其内容、评价等级都差异很大,导致不同试验间的疗效结果缺乏可比性。且参照标准基本为专家共识,无高级别循证证据证明标准性以及准确性。当独立指标结论不同步时(有的指标有效,有的无效,甚至方向相反),不推荐综合为复合指标。例如纳入研究的复合指标将性激素与月经来潮次数进行综合时,性激素在月经周期间波动较大,其水平的下降也并非意味着卵巢排卵,尤其是采用激素治疗为治疗方案的研究,激素治疗必然会降低血清性激素的水平,同时造成月经来潮,因此将其综合不甚恰当。
本研究显示许多研究者同时采用了独立指标和复合指标两套指标。使用复合指标时需要准确选择其组成的独立指标,即使复合指标疗效评价指标被认为具有统计学意义和临床相关性,也应同时报告干预措施对各独立指标的影响。当各组成事件对患者的重要性不一致时,还需要计算各指标的权重[16]。
3.2 对 POF/POI 临床研究结局指标的建议
由于卵巢功能衰退渐进性的特点,不同阶段的 POF/POI 患者有着不同的临床需求:早中期以促孕、恢复规律月经为目的,晚期以改善低雌激素引发的绝经相关症状为目的。我们需要明确治疗目的,认识疗效指标的优势和不足,从而选择合适的疗效评价指标。对于卵巢衰退早中期治疗以改善月经、促进残余卵泡发育为目标,故自然月经周期以及排卵次数应该作为主要结局指标,血清基础性激素、抗苗勒管激素、抑制素 B、窦卵泡计数可以作为次要结局指标,但是对于激素治疗来说,性激素作为疗效指标的临床意义不大。对于卵巢衰竭的晚期,如已经无法促残余卵泡的发育,用量表评分的方法评估低雌激素症状的改善应该作为主要结局指标。
核心指标集是指特定健康领域的临床研究中应当被测量和报告的必要结局指标的最小集合[17]。核心指标集的提出不仅可以使临床试验简单化、选择性结局报告偏倚最小化,更重要的是,核心指标集的使用可以减少研究之间结局报告的异质性,使结局报告之间具有可比性,还可合并研究结局报告提供综合证据[18]。因此,根据分析结果,我们建议进一步建立 POF/POI 核心指标集规范结局指标。我们检索核心指标集研究方案的国际注册平台 COMET(Core Outcome Measures in Effectiveness Trials)数据库发现,POF/POI 核心指标集的研制工作尚未开展。建立有关 POF/POI RCT 研究的核心指标集有助于为日后开展相关研究中结局指标的选择提供一个最佳的测量工具,使研究更加具有规范性、一致性、统一性。
综上所述,国内外有关 POF/POI 研究结局指标的选择和使用尚不规范,希望通过本次研究,能够加深 POF/POI 研究者对结局疗效评价指标的理解,在今后结局指标的选择中,更加规范化、一致化、统一化,使研究结论更具有说服力。建立有关 POF/POI RCT 研究的核心指标集,有助于临床试验简单化、选择性结局报告偏倚最小化,减少研究之间结局报告的异质性,提升临床研究质量[18]。本研究仍存在一定的局限性,本研究检索的文章方法学质量参差不齐,虽通过 Cochrane 偏倚风险评价工具对纳入研究进行了评价,但未补充使用其他工具进行方法学质量评价,评估体系还不完善,日后有待进一步完善与提高。