2005年美国胸科学会(ATS)和欧洲呼吸协会(ERS)共同发布了肺功能检查的判读指南,并在2021年进行了更新。为及时了解和借鉴2021年版指南更新内容,本文将重点对2021年指南在肺功能预计值方程与正常范围、肺功能随时间的自然变化、支气管舒张剂反应性试验、肺生理功能障碍分类和肺功能障碍严重程度分度等方面更新内容进行介绍,同时结合我国实际情况给予点评或建议,以期为我国肺功能检查临床应用提供参考。
引用本文: 李允, 高怡, 郑劲平. 《2021年ERS/ATS常规肺功能检查判读指南》的解读. 中国循证医学杂志, 2022, 22(12): 1375-1381. doi: 10.7507/1672-2531.202206044 复制
肺功能检查(pulmonary function test,PFT)是评估呼吸功能的重要手段,通过检测呼吸气体流量、容积等指标反映受检者的呼吸生理特性,对于筛查早期气道病变、鉴别呼吸困难原因、评估肺部疾病严重程度及预后、判断药物或其他治疗方法的疗效、评估外科患者对手术的耐受性等方面有重要的价值。为提高PFT的依从性、检查质量和临床可比性,国内外陆续发布和更新了一系列PFT的技术标准规范[1-11]。但在严格技术质量控制的基础上,正确判读PFT同样重要,如何选择恰当的预计值方程和正常范围,还应结合个人的病史和暴露史,考虑肺功能测量固有的生物变异性及随时间变化的变化。
2005年美国胸科学会(American Thoracic Society,ATS)和欧洲呼吸协会(European Respiratory Society,ERS)共同发布了PFT的判读指南[12](以下简称“2005版”),2019年ATS推荐采用标准化PFT报告[13],2021年ERS/ATS更新了PFT判读指南[14](以下简称“2021版”)。对比2005版,2021版更加强调判读的审慎性,即不能单纯以阈值评估异常与否,要充分考虑受检者个体特征、疾病状态及参考人群、结果代表性等诸多因素。与ERS/ATS划分独立的PFT质控指南和判读指南不同,我国为临床易于理解和推广应用,将PFT判读方法整合到各项检查指南[5-11]和报告规范[15]中。为及时了解和借鉴2021版更新内容,本文将重点对其在肺功能预计值方程与正常范围、肺功能随时间的自然变化、支气管舒张剂反应性试验、肺生理功能障碍分类及肺功能障碍严重程度评估等方面更新内容进行介绍。同时结合我国实际情况给予点评或建议,以期加深和提高临床医师和相关从业人员对PFT的认识和理解,为今后我国标准化PFT应用和指南更新提供参考。
1 全球肺功能倡议预计值方程与正常范围
1.1 全球肺功能倡议预计值方程
选择合适的预计值方程是正确解读肺功能结果的前提。肺功能受到年龄、身高、性别、种族、环境等多种因素影响,尚无适用于所有人群的单一预计值方程,而应尽量选取相似人群的方程。PFT报告和研究出版物必须注明所使用的参考方程。2021版特别指出,虽然应尊重性别认同,但使用生物性别将更准确预测肺功能;性别确认激素疗法对肺功能的影响知之甚少,目前尚不清楚针对跨性别个体的适当参考方程。2005版推荐北美人群使用第3次全国健康和营养调查的肺量计方程,但未对欧洲和其他地方使用何种预计值方程提出明确建议。2021版推荐使用全球肺功能倡议(global lung function initiative,GLI)方程是迄今为止应用最普遍的预计方程,包括肺量计方程[16]、一氧化碳肺弥散量(diffusing capacity of the lung for carbon monoxide,DLCO)方程[17]和肺容量方程[18]。GLI肺量计方程原始数据来自33个国家3~95岁的97 759例受试者,推导方程可用于白种人、非裔美国人、东北亚人和东南亚人4个群体。对于种族不在以上4个群体或具有混合种族血统的个体,可使用上述群体平均值调整后的综合方程。由于缺乏其他种族的资料,GLI的DLCO方程和肺容量方程主要基于欧洲血统个体的数据。
点评:尽管2021版推荐全球普遍采用GLI预计值,但由于我国国土幅员辽阔,横跨GLI所定义的东北亚及东南亚地域(依秦岭和淮河划分),中国人采用两个不同地域的公式并不合适,特别是在横跨上述分界的区域或采用统一方案的全国多中心研究等情况下更易引起混乱,不建议采用。我国于2017年更新了基于全国6大行政区域7 115例4~80岁人群的肺量计正常预计值[19],更适合中国人的肺功能结果判读。
1.2 参考人群正常范围
健康人群的正常范围为预计值的95%可信区间。对于多数肺功能指标如用力肺活量(forced vital capacity,FVC)、第一秒用力呼气容积(forced expiratory volume in 1 s,FEV1)等,低值为异常值,即<第5百分位数,用正常值下限(lower limit of normal,LLN)表示;少部分指标如肺总量(total lung capacity,TLC)、残气量(residual volume,RV)等,过低、过高均为异常,即<LLN及>正常值上限(upper limit of normal,ULN)。2005版和2021版均推荐使用LLN来判读肺功能结果是否在正常范围之内,不建议使用简化的固定阈值(如FVC或FEV1<80%预计值、FEV1/FVC<0.70)来判断异常,因为上述固定阈值多基于青年和中年人群的数据,没有充分考虑年龄相关的测量变异,会增加儿童、老年人或较矮的成年人异常的假阴性或假阳性的概率,甚至误诊率超过20%[20]。例如,22岁男性FEV1的LLN对应81.1%预计值,同样身高的85岁男性则为67.9%,如果均以80%作为标准,则会引起误判。值得注意的是,对于接近LLN的结果,应结合患者的病史、体格检查和验前概率进行谨慎解读。
点评:目前我国常用固定阈值法进行临床判断,操作简单易行,对基层医疗机构更为适用,但对于三级医院等高水平医院或研究型医院而言,采用LLN和ULN可更准确理解呼吸生理及符合临床变化,建议推行。
2 肺功能随时间的自然变化
PFT的正确判读需要了解PFT的重复性和随时间的自然变化。当肺功能变化值大于测试的生物变异性和测量误差时,变化才可能有意义,才可用于指导临床决策。在25岁以上成年人中,健康非吸烟者FEV1通常下降值为30 mL/年[21];在职业环境的研究中,综合考虑测试变异、职业暴露、症状等因素,年度(或间隔更长时间)测量的肺功能变化超过15%被认为是额外的下降,具有临床意义[22]。然而,肺功能的变化受到年龄、性别、基线肺功能和疾病严重程度等因素影响,来自健康群体的数据也难以准确反映特定疾病或条件下的情况,故上述参考值并不一定适用于随访间隔较短的慢性呼吸道疾病患者肺功能监测。因此,2021版推荐使用FEV1系数(FEV1 divided by the sex-specific 1st percentile values of the absolute FEV1 values,FEV1Q)评估肺功能的变化[23],即FEV1实测值除以在肺功能异常的成年人中性别特异性FEV1绝对值的第1百分位值,女性为0.4 L,男性为0.5 L。例如,1例70岁的女性,FEV1为0.9 L,则FEV1Q为0.9 L/0.4 L=2.25。在正常情况下,FEV1Q大约每18年会降低1个单位,而在吸烟者和老年人中大约每10年会降低1个单位。FEV1Q在短时间内应该保持稳定,如果出现变化,则可能提示肺功能的恶化。FEV1Q被证实在预测生存率、慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)急性加重和不良健康结局方面优于z值、FEV1预测百分比、FEV1·Ht-2和FEV1·Ht-3,并有助于区分老年人肺功能严重程度[23-25]。FEV1Q表示生存率与FEV1高于“生存底线”的程度有关,而非FEV1低于预测值的程度,越接近1提示预后越差。推荐将这个指标作为判读成年人各项肺功能指标变化的方法,但不适用于儿童和青少年。
由于胸壁肌肉生理机能和认知发展的差异,儿童的肺功能测量比成人的变异更大。在儿童中使用的肺功能重复性评估标准一般都是从成人研究中推断而来,并未考虑儿童的独特发育情况(如躯干长度和肺的发育并非总是同步的)。2021版基于最近的一个研究[26]推荐条件变化分数可用于评估儿童肺功能的变化,具体公式如下:条件变化分数=[zFEV1t2−(r×zFEV1t1)]/,zFEV1t1、zFEV1t2分别是在初始(t1)和第二个时间点(t2)的z值,r=0.642−0.04×时间(年)+0.020×年龄(年)(t1时)。条件变化分数在(−1.96,1.96)内被视为在正常范围。例如,1例170 cm的14岁男性肺功能在3个月内(r=0.907)从z值−0.78(90.6%预测值)下降至z值−1.60(80.6%预测值),其相应的变化评分为−2.12,超出正常范围;而4年内出现相同的下降(r=0.769),对应的变化分数为−1.56,则在正常变异范围内。这一概念尚未推广到成人群体或应用到其他肺功能指标中,有待进一步研究。
点评:我国目前有关不同年龄层、不同健康状态下个体肺功能指标随时间自然变化的数据还很少,有必要建立相应的大型队列人群,观察个体肺功能的纵向变化,为更深刻理解肺功能的演变及确定疾病相关阈值提供参考。2021版推荐条件变化分数和FEV1Q分别评估儿童与成人肺功能的自然变化,前者要基于两次FEV1、z、r值计算,较为繁琐,不便在临床推广应用;后者计算简单,易于理解,可考虑在中国人群中探索其适用性。
3 支气管舒张剂反应性试验
支气管舒张剂反应性(bronchodilator responsiveness,BDR)试验,即临床常用的“支气管舒张试验”,用于评估吸入支气管舒张剂后呼吸功能的变化,其代表气道上皮、神经、介质和气道平滑肌的综合生理反应。既往曾使用“可逆性测试”的概念,提示使用支气管舒张剂后气流阻塞可能完全恢复;但为避免两者混淆,现推荐使用BDR试验的概念[27]。2005版推荐的BDR阳性标准为FEV1和/或FVC增加≥200 mL且≥12%,该标准的主要局限性在于,FEV1和FVC的绝对和相对变化与基线肺功能成反比,并与身高、年龄和性别相关,这些因素均会影响识别BDR的准确性。2021版基于Tan等[28]和Quanjer等[29]研究,更新BDR阳性标准为相对于个人FEV1或FVC预测值>10%的变化,这种方法避免了基线肺功能水平不同导致的误判,而且最大程度减少了身高和性别的影响。例如,1例50岁男性,身高165 cm,使用支气管舒张剂前FEV1为2.0 L,使用支气管舒张剂后FEV1为2.4 L,FEV1预测值为3.2 L。BDR=(2.4−2.0)×100%/3.2=12.5%,BDR>10%,因此该患者BDR为阳性。同时,判读指南指出,应避免过度依赖BDR的严格临界值,因为这些临界值与正常值范围一样存在局限性。
点评:我国广泛使用2005版BDR阳性标准[20],但目前有关2021版BDR标准的临床研究数量尚少,尤其在儿童和年轻人群中的数据有限。我国二级以上医院已普遍开展支气管舒张试验,获取大样本数据具有可行性,可在不同年龄段比较不同标准的差异,并对不同疾病状态(哮喘、慢阻肺)和不同严重程度(轻、中、重等)的反应特征乃至临床预后(急性加重频率、住院等)做进一步分析,探索更适合中国人的标准。
4 肺生理功能障碍分类和严重程度评估
4.1 肺功能障碍分类
肺生理功能障碍通常分为阻塞性、限制性和弥散功能障碍。2005年、2019年ATS/ERS肺功能指南对阻塞性通气障碍的定义是FEV1/FVC(或FEV1/VC)低于LLN,而全球慢性阻塞性肺疾病倡议[30]和ATS/ERS COPD指南[31]则使用FEV1/FVC固定值0.7来判断阻塞性通气障碍。2005版推荐FEV1/VC替代FEV1/FVC诊断气流阻塞,但鉴于FEV1/VC相比FEV1/FVC缺乏可靠的参考方程,可能增加诊断的不确定性,因此2021版仍推荐使用FEV1/FVC。限制性通气障碍定义为肺容量的减少,典型特征是TLC低于LLN。混合性通气障碍的特点是阻塞和限制并存,FEV1/FVC和TLC均低于LLN。而弥散功能通常通过DLCO来评估。2005版、2021版在肺功能障碍分类方面(包括上气道阻塞、大气道阻塞)总体变化不大,本文不再赘述,重点关注以下几种通气功能障碍。
4.1.1 小气道功能障碍
2021版指出,由于呼气中期流量指标(如FEF25%-75%)变异性高,重复性差,对诊断小气道疾病缺乏特异性,且与FEV1、FVC和FEV1/FVC比较没有额外的诊断价值,故未推荐作为日常使用指标[32]。但最近来自1个大型队列研究的报道显示[33],较低的FEF25-75%与COPD严重性相关,影像学表现为功能性小气道疾病、肺气肿、残余容积、总肺容量等增加,临床表现为症状增多、6分钟步行距离降低及BDR增加。另1个指标FEV3/FEV6被认为可识别吸烟者早期气道病变,识别出那些有可能在未来发展为COPD和急性加重的人群[34]。此外,强迫振荡技术和多次呼吸氮气冲洗也可能发现早期气道阻塞[35]。
点评:小气道功能是反映气道疾病更早期、更敏感的指标,因而其特异性稍差也可接受。针对小气道功能的变化,应做长期观察以更深入发现其特征和临床意义。我国的肺功能检查指南[5]及报告格式规范[5]都特别说明了此点,建议继续保留该指标并加以深入研究。
4.1.2 低1秒率
即FEV1/FVC低于LLN,但FEV1和FVC正常。1974年,Green等[36]将肺容积大小和气道管径之间的不成比例增长称为“失适应生长”,他们发现肺容积相似的正常受试者最大呼气流量差异很大。目前低1秒率的确切意义尚未完全清楚,有可能是一种正常的生理变异,更常见于女性和肥胖的儿童;也可能是异常的肺功能障碍,与疾病临床预后和COPD的发生有关[37-39]。
4.1.3 非特异性通气功能障碍
FVC和/或FEV1降低,FEV1/FVC和TLC正常称为非特异性通气功能障碍。2005版指出这种类型障碍与气流阻塞/塌陷有关,2021版则认为可能与吸气/呼气努力不足有关,可通过流量-容积曲线、时间-容量曲线协助判断是否存在呼吸努力不足;也可能与早期限制性通气障碍有关,此时FVC降低,但RV未降低;还可能是早期气流阻塞的表现,小气道塌陷可在FEV1/FVC比率下降之前降低FVC并增加RV。值得注意的是,凡是FVC降低,都应测量TLC以确认是否存在限制性通气障碍。在基于人群的研究中,当TLC无法测定或未测定时,非特异性类型被定义为“保留比率受损肺功能”(preserved ratio impaired spirometry,PRISm),该类型被证实在吸烟人群中非常普遍,且会随着时间的推移转变为其他肺功能类型,并与死亡率增加有关[40-42]。大型COPD队列研究显示,被诊断PRISm的受试者在5年随访后,有22.2%转变为GOLD 0级(FEV1/FVC>0.7及FEV1%pred>80%),25.1%进展为《全球慢性阻塞性肺疾病倡议》定义的1~4级[42]。
点评:在我国临床实践中非特异性通气功能障碍是指FEV1降低,FEV1/FVC和FVC正常。FVC用肺量计检查即可获得,而TLC必须用仪器构造复杂、价格较为昂贵的体积描记仪或结合气体分析仪才能检测,可提供更精准的呼吸生理分析,但临床推广受限。FVC或TLC两种评估方法都可推荐,由各地根据临床实际情况选择和加以说明。此外,PRISm在临床实际中较为常见,可能代表了一个重要的异质性群体,有必要在中国人群进一步研究其纵向进展。
4.1.4 简单、复杂限制性通气功能障碍
肺量计检查只能提示存在限制性通气功能障碍,必须通过肺容量检查加以证实。在大多数情况下,FEV1、FVC和TLC通常以大致相同的比例降低,被称为简单限制性通气功能障碍。然而,部分人群的FVC与TLC降低不成比例,RV不成比例地升高,这种类型被称为复杂限制性通气功能障碍,与神经肌肉疾病、胸壁限制或伴有气体潴留的隐匿性阻塞等导致的肺排空障碍有关。
4.2 肺功能障碍严重程度评估
2005版推荐使用FEV1占预计值百分比对阻塞性或限制性肺功能障碍严重程度进行分级:轻度:>70%;中度:60%~69%;中重度:50%~59%;重度:35%~49%;极重度:<35%。DLCO分级也是采取占预计值百分比的方法:轻度:>60%且<LLN;中度:40%~60%;重度:<40%。然而,使用预测值百分比并不能对不同年龄层进行统一分级[43],因此2021版推荐所有测量指标均采用z值代替FEV1预计值%评估肺功能严重程度,以避免性别、身高、年龄和种族差异引起的差异[44],截断值分别为−2、−2.5、−3和−4。由于z值在−1.65~−2.5之间的个体在死亡风险方面几乎没有差异,因此被合并为“轻度组”;z值在−2.51和−4之间的个体均与中等的死亡风险相关,因此合并到“中度组”,即:z值>−1.645为正常,−1.65~−2.5为轻度,−2.51~−4为中度,<−4.1为重度。患者FEV1、FVC、DLCO的z值绝对值越大,全因死亡风险越高[45]。2021年版还对比了同一个体采用两种方法的情况,发现老年人差异最大。例如1例80岁老人FEV1的z值正常,但使用FEV1占预计值%则被认为有轻度肺功能障碍。
点评:目前国人对z值尚缺乏足够了解,未在临床实践中普遍采用,对此指标的认识及其临床意义的优劣仍需进一步阐明[46],建议目前我国可同步使用两种方法,进而开展后续评估。
5 2021版其他建议
2021版还提出以下建议:① 在精准医学和新型预测工具时代,开发更精细的诊断模型,更准确、更早期识别肺功能降低的决定因素;② 将基于人工智能/机器学习的软件用于PFT判读,将提供更准确和标准化的解释,并作为强大的决策支持工具来改善临床实践[47-48],还有助于对正常肺功能进行个性化、无偏倚的预测;③ 不能简单地根据结果是否在正常范围内,而应根据临床风险和观察到的临床结果为肺功能指标设定临床决策阈值;④ 临床医生应该向受试者解释PFT结果及这些结果如何用于指导决策。
点评:国内Wang等[49]构建的人工智能模型对正常、阻塞、限制、混合等通气功能障碍的类型进行识别判断,平均准确率达95.6%,对上气道阻塞的识别准确度达81.3%[50],还可识别高位小平台,准确度达95.2%[51],展现了人工智能在PFT判读方面的巨大潜力,可继续深入相关研究。
总之,2021年ERS/ATS发布的PFT判读指南更新要点总结见表1,但部分建议不一定适合我国,需要结合中国实际情况进行分析和借鉴。

肺功能检查(pulmonary function test,PFT)是评估呼吸功能的重要手段,通过检测呼吸气体流量、容积等指标反映受检者的呼吸生理特性,对于筛查早期气道病变、鉴别呼吸困难原因、评估肺部疾病严重程度及预后、判断药物或其他治疗方法的疗效、评估外科患者对手术的耐受性等方面有重要的价值。为提高PFT的依从性、检查质量和临床可比性,国内外陆续发布和更新了一系列PFT的技术标准规范[1-11]。但在严格技术质量控制的基础上,正确判读PFT同样重要,如何选择恰当的预计值方程和正常范围,还应结合个人的病史和暴露史,考虑肺功能测量固有的生物变异性及随时间变化的变化。
2005年美国胸科学会(American Thoracic Society,ATS)和欧洲呼吸协会(European Respiratory Society,ERS)共同发布了PFT的判读指南[12](以下简称“2005版”),2019年ATS推荐采用标准化PFT报告[13],2021年ERS/ATS更新了PFT判读指南[14](以下简称“2021版”)。对比2005版,2021版更加强调判读的审慎性,即不能单纯以阈值评估异常与否,要充分考虑受检者个体特征、疾病状态及参考人群、结果代表性等诸多因素。与ERS/ATS划分独立的PFT质控指南和判读指南不同,我国为临床易于理解和推广应用,将PFT判读方法整合到各项检查指南[5-11]和报告规范[15]中。为及时了解和借鉴2021版更新内容,本文将重点对其在肺功能预计值方程与正常范围、肺功能随时间的自然变化、支气管舒张剂反应性试验、肺生理功能障碍分类及肺功能障碍严重程度评估等方面更新内容进行介绍。同时结合我国实际情况给予点评或建议,以期加深和提高临床医师和相关从业人员对PFT的认识和理解,为今后我国标准化PFT应用和指南更新提供参考。
1 全球肺功能倡议预计值方程与正常范围
1.1 全球肺功能倡议预计值方程
选择合适的预计值方程是正确解读肺功能结果的前提。肺功能受到年龄、身高、性别、种族、环境等多种因素影响,尚无适用于所有人群的单一预计值方程,而应尽量选取相似人群的方程。PFT报告和研究出版物必须注明所使用的参考方程。2021版特别指出,虽然应尊重性别认同,但使用生物性别将更准确预测肺功能;性别确认激素疗法对肺功能的影响知之甚少,目前尚不清楚针对跨性别个体的适当参考方程。2005版推荐北美人群使用第3次全国健康和营养调查的肺量计方程,但未对欧洲和其他地方使用何种预计值方程提出明确建议。2021版推荐使用全球肺功能倡议(global lung function initiative,GLI)方程是迄今为止应用最普遍的预计方程,包括肺量计方程[16]、一氧化碳肺弥散量(diffusing capacity of the lung for carbon monoxide,DLCO)方程[17]和肺容量方程[18]。GLI肺量计方程原始数据来自33个国家3~95岁的97 759例受试者,推导方程可用于白种人、非裔美国人、东北亚人和东南亚人4个群体。对于种族不在以上4个群体或具有混合种族血统的个体,可使用上述群体平均值调整后的综合方程。由于缺乏其他种族的资料,GLI的DLCO方程和肺容量方程主要基于欧洲血统个体的数据。
点评:尽管2021版推荐全球普遍采用GLI预计值,但由于我国国土幅员辽阔,横跨GLI所定义的东北亚及东南亚地域(依秦岭和淮河划分),中国人采用两个不同地域的公式并不合适,特别是在横跨上述分界的区域或采用统一方案的全国多中心研究等情况下更易引起混乱,不建议采用。我国于2017年更新了基于全国6大行政区域7 115例4~80岁人群的肺量计正常预计值[19],更适合中国人的肺功能结果判读。
1.2 参考人群正常范围
健康人群的正常范围为预计值的95%可信区间。对于多数肺功能指标如用力肺活量(forced vital capacity,FVC)、第一秒用力呼气容积(forced expiratory volume in 1 s,FEV1)等,低值为异常值,即<第5百分位数,用正常值下限(lower limit of normal,LLN)表示;少部分指标如肺总量(total lung capacity,TLC)、残气量(residual volume,RV)等,过低、过高均为异常,即<LLN及>正常值上限(upper limit of normal,ULN)。2005版和2021版均推荐使用LLN来判读肺功能结果是否在正常范围之内,不建议使用简化的固定阈值(如FVC或FEV1<80%预计值、FEV1/FVC<0.70)来判断异常,因为上述固定阈值多基于青年和中年人群的数据,没有充分考虑年龄相关的测量变异,会增加儿童、老年人或较矮的成年人异常的假阴性或假阳性的概率,甚至误诊率超过20%[20]。例如,22岁男性FEV1的LLN对应81.1%预计值,同样身高的85岁男性则为67.9%,如果均以80%作为标准,则会引起误判。值得注意的是,对于接近LLN的结果,应结合患者的病史、体格检查和验前概率进行谨慎解读。
点评:目前我国常用固定阈值法进行临床判断,操作简单易行,对基层医疗机构更为适用,但对于三级医院等高水平医院或研究型医院而言,采用LLN和ULN可更准确理解呼吸生理及符合临床变化,建议推行。
2 肺功能随时间的自然变化
PFT的正确判读需要了解PFT的重复性和随时间的自然变化。当肺功能变化值大于测试的生物变异性和测量误差时,变化才可能有意义,才可用于指导临床决策。在25岁以上成年人中,健康非吸烟者FEV1通常下降值为30 mL/年[21];在职业环境的研究中,综合考虑测试变异、职业暴露、症状等因素,年度(或间隔更长时间)测量的肺功能变化超过15%被认为是额外的下降,具有临床意义[22]。然而,肺功能的变化受到年龄、性别、基线肺功能和疾病严重程度等因素影响,来自健康群体的数据也难以准确反映特定疾病或条件下的情况,故上述参考值并不一定适用于随访间隔较短的慢性呼吸道疾病患者肺功能监测。因此,2021版推荐使用FEV1系数(FEV1 divided by the sex-specific 1st percentile values of the absolute FEV1 values,FEV1Q)评估肺功能的变化[23],即FEV1实测值除以在肺功能异常的成年人中性别特异性FEV1绝对值的第1百分位值,女性为0.4 L,男性为0.5 L。例如,1例70岁的女性,FEV1为0.9 L,则FEV1Q为0.9 L/0.4 L=2.25。在正常情况下,FEV1Q大约每18年会降低1个单位,而在吸烟者和老年人中大约每10年会降低1个单位。FEV1Q在短时间内应该保持稳定,如果出现变化,则可能提示肺功能的恶化。FEV1Q被证实在预测生存率、慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)急性加重和不良健康结局方面优于z值、FEV1预测百分比、FEV1·Ht-2和FEV1·Ht-3,并有助于区分老年人肺功能严重程度[23-25]。FEV1Q表示生存率与FEV1高于“生存底线”的程度有关,而非FEV1低于预测值的程度,越接近1提示预后越差。推荐将这个指标作为判读成年人各项肺功能指标变化的方法,但不适用于儿童和青少年。
由于胸壁肌肉生理机能和认知发展的差异,儿童的肺功能测量比成人的变异更大。在儿童中使用的肺功能重复性评估标准一般都是从成人研究中推断而来,并未考虑儿童的独特发育情况(如躯干长度和肺的发育并非总是同步的)。2021版基于最近的一个研究[26]推荐条件变化分数可用于评估儿童肺功能的变化,具体公式如下:条件变化分数=[zFEV1t2−(r×zFEV1t1)]/,zFEV1t1、zFEV1t2分别是在初始(t1)和第二个时间点(t2)的z值,r=0.642−0.04×时间(年)+0.020×年龄(年)(t1时)。条件变化分数在(−1.96,1.96)内被视为在正常范围。例如,1例170 cm的14岁男性肺功能在3个月内(r=0.907)从z值−0.78(90.6%预测值)下降至z值−1.60(80.6%预测值),其相应的变化评分为−2.12,超出正常范围;而4年内出现相同的下降(r=0.769),对应的变化分数为−1.56,则在正常变异范围内。这一概念尚未推广到成人群体或应用到其他肺功能指标中,有待进一步研究。
点评:我国目前有关不同年龄层、不同健康状态下个体肺功能指标随时间自然变化的数据还很少,有必要建立相应的大型队列人群,观察个体肺功能的纵向变化,为更深刻理解肺功能的演变及确定疾病相关阈值提供参考。2021版推荐条件变化分数和FEV1Q分别评估儿童与成人肺功能的自然变化,前者要基于两次FEV1、z、r值计算,较为繁琐,不便在临床推广应用;后者计算简单,易于理解,可考虑在中国人群中探索其适用性。
3 支气管舒张剂反应性试验
支气管舒张剂反应性(bronchodilator responsiveness,BDR)试验,即临床常用的“支气管舒张试验”,用于评估吸入支气管舒张剂后呼吸功能的变化,其代表气道上皮、神经、介质和气道平滑肌的综合生理反应。既往曾使用“可逆性测试”的概念,提示使用支气管舒张剂后气流阻塞可能完全恢复;但为避免两者混淆,现推荐使用BDR试验的概念[27]。2005版推荐的BDR阳性标准为FEV1和/或FVC增加≥200 mL且≥12%,该标准的主要局限性在于,FEV1和FVC的绝对和相对变化与基线肺功能成反比,并与身高、年龄和性别相关,这些因素均会影响识别BDR的准确性。2021版基于Tan等[28]和Quanjer等[29]研究,更新BDR阳性标准为相对于个人FEV1或FVC预测值>10%的变化,这种方法避免了基线肺功能水平不同导致的误判,而且最大程度减少了身高和性别的影响。例如,1例50岁男性,身高165 cm,使用支气管舒张剂前FEV1为2.0 L,使用支气管舒张剂后FEV1为2.4 L,FEV1预测值为3.2 L。BDR=(2.4−2.0)×100%/3.2=12.5%,BDR>10%,因此该患者BDR为阳性。同时,判读指南指出,应避免过度依赖BDR的严格临界值,因为这些临界值与正常值范围一样存在局限性。
点评:我国广泛使用2005版BDR阳性标准[20],但目前有关2021版BDR标准的临床研究数量尚少,尤其在儿童和年轻人群中的数据有限。我国二级以上医院已普遍开展支气管舒张试验,获取大样本数据具有可行性,可在不同年龄段比较不同标准的差异,并对不同疾病状态(哮喘、慢阻肺)和不同严重程度(轻、中、重等)的反应特征乃至临床预后(急性加重频率、住院等)做进一步分析,探索更适合中国人的标准。
4 肺生理功能障碍分类和严重程度评估
4.1 肺功能障碍分类
肺生理功能障碍通常分为阻塞性、限制性和弥散功能障碍。2005年、2019年ATS/ERS肺功能指南对阻塞性通气障碍的定义是FEV1/FVC(或FEV1/VC)低于LLN,而全球慢性阻塞性肺疾病倡议[30]和ATS/ERS COPD指南[31]则使用FEV1/FVC固定值0.7来判断阻塞性通气障碍。2005版推荐FEV1/VC替代FEV1/FVC诊断气流阻塞,但鉴于FEV1/VC相比FEV1/FVC缺乏可靠的参考方程,可能增加诊断的不确定性,因此2021版仍推荐使用FEV1/FVC。限制性通气障碍定义为肺容量的减少,典型特征是TLC低于LLN。混合性通气障碍的特点是阻塞和限制并存,FEV1/FVC和TLC均低于LLN。而弥散功能通常通过DLCO来评估。2005版、2021版在肺功能障碍分类方面(包括上气道阻塞、大气道阻塞)总体变化不大,本文不再赘述,重点关注以下几种通气功能障碍。
4.1.1 小气道功能障碍
2021版指出,由于呼气中期流量指标(如FEF25%-75%)变异性高,重复性差,对诊断小气道疾病缺乏特异性,且与FEV1、FVC和FEV1/FVC比较没有额外的诊断价值,故未推荐作为日常使用指标[32]。但最近来自1个大型队列研究的报道显示[33],较低的FEF25-75%与COPD严重性相关,影像学表现为功能性小气道疾病、肺气肿、残余容积、总肺容量等增加,临床表现为症状增多、6分钟步行距离降低及BDR增加。另1个指标FEV3/FEV6被认为可识别吸烟者早期气道病变,识别出那些有可能在未来发展为COPD和急性加重的人群[34]。此外,强迫振荡技术和多次呼吸氮气冲洗也可能发现早期气道阻塞[35]。
点评:小气道功能是反映气道疾病更早期、更敏感的指标,因而其特异性稍差也可接受。针对小气道功能的变化,应做长期观察以更深入发现其特征和临床意义。我国的肺功能检查指南[5]及报告格式规范[5]都特别说明了此点,建议继续保留该指标并加以深入研究。
4.1.2 低1秒率
即FEV1/FVC低于LLN,但FEV1和FVC正常。1974年,Green等[36]将肺容积大小和气道管径之间的不成比例增长称为“失适应生长”,他们发现肺容积相似的正常受试者最大呼气流量差异很大。目前低1秒率的确切意义尚未完全清楚,有可能是一种正常的生理变异,更常见于女性和肥胖的儿童;也可能是异常的肺功能障碍,与疾病临床预后和COPD的发生有关[37-39]。
4.1.3 非特异性通气功能障碍
FVC和/或FEV1降低,FEV1/FVC和TLC正常称为非特异性通气功能障碍。2005版指出这种类型障碍与气流阻塞/塌陷有关,2021版则认为可能与吸气/呼气努力不足有关,可通过流量-容积曲线、时间-容量曲线协助判断是否存在呼吸努力不足;也可能与早期限制性通气障碍有关,此时FVC降低,但RV未降低;还可能是早期气流阻塞的表现,小气道塌陷可在FEV1/FVC比率下降之前降低FVC并增加RV。值得注意的是,凡是FVC降低,都应测量TLC以确认是否存在限制性通气障碍。在基于人群的研究中,当TLC无法测定或未测定时,非特异性类型被定义为“保留比率受损肺功能”(preserved ratio impaired spirometry,PRISm),该类型被证实在吸烟人群中非常普遍,且会随着时间的推移转变为其他肺功能类型,并与死亡率增加有关[40-42]。大型COPD队列研究显示,被诊断PRISm的受试者在5年随访后,有22.2%转变为GOLD 0级(FEV1/FVC>0.7及FEV1%pred>80%),25.1%进展为《全球慢性阻塞性肺疾病倡议》定义的1~4级[42]。
点评:在我国临床实践中非特异性通气功能障碍是指FEV1降低,FEV1/FVC和FVC正常。FVC用肺量计检查即可获得,而TLC必须用仪器构造复杂、价格较为昂贵的体积描记仪或结合气体分析仪才能检测,可提供更精准的呼吸生理分析,但临床推广受限。FVC或TLC两种评估方法都可推荐,由各地根据临床实际情况选择和加以说明。此外,PRISm在临床实际中较为常见,可能代表了一个重要的异质性群体,有必要在中国人群进一步研究其纵向进展。
4.1.4 简单、复杂限制性通气功能障碍
肺量计检查只能提示存在限制性通气功能障碍,必须通过肺容量检查加以证实。在大多数情况下,FEV1、FVC和TLC通常以大致相同的比例降低,被称为简单限制性通气功能障碍。然而,部分人群的FVC与TLC降低不成比例,RV不成比例地升高,这种类型被称为复杂限制性通气功能障碍,与神经肌肉疾病、胸壁限制或伴有气体潴留的隐匿性阻塞等导致的肺排空障碍有关。
4.2 肺功能障碍严重程度评估
2005版推荐使用FEV1占预计值百分比对阻塞性或限制性肺功能障碍严重程度进行分级:轻度:>70%;中度:60%~69%;中重度:50%~59%;重度:35%~49%;极重度:<35%。DLCO分级也是采取占预计值百分比的方法:轻度:>60%且<LLN;中度:40%~60%;重度:<40%。然而,使用预测值百分比并不能对不同年龄层进行统一分级[43],因此2021版推荐所有测量指标均采用z值代替FEV1预计值%评估肺功能严重程度,以避免性别、身高、年龄和种族差异引起的差异[44],截断值分别为−2、−2.5、−3和−4。由于z值在−1.65~−2.5之间的个体在死亡风险方面几乎没有差异,因此被合并为“轻度组”;z值在−2.51和−4之间的个体均与中等的死亡风险相关,因此合并到“中度组”,即:z值>−1.645为正常,−1.65~−2.5为轻度,−2.51~−4为中度,<−4.1为重度。患者FEV1、FVC、DLCO的z值绝对值越大,全因死亡风险越高[45]。2021年版还对比了同一个体采用两种方法的情况,发现老年人差异最大。例如1例80岁老人FEV1的z值正常,但使用FEV1占预计值%则被认为有轻度肺功能障碍。
点评:目前国人对z值尚缺乏足够了解,未在临床实践中普遍采用,对此指标的认识及其临床意义的优劣仍需进一步阐明[46],建议目前我国可同步使用两种方法,进而开展后续评估。
5 2021版其他建议
2021版还提出以下建议:① 在精准医学和新型预测工具时代,开发更精细的诊断模型,更准确、更早期识别肺功能降低的决定因素;② 将基于人工智能/机器学习的软件用于PFT判读,将提供更准确和标准化的解释,并作为强大的决策支持工具来改善临床实践[47-48],还有助于对正常肺功能进行个性化、无偏倚的预测;③ 不能简单地根据结果是否在正常范围内,而应根据临床风险和观察到的临床结果为肺功能指标设定临床决策阈值;④ 临床医生应该向受试者解释PFT结果及这些结果如何用于指导决策。
点评:国内Wang等[49]构建的人工智能模型对正常、阻塞、限制、混合等通气功能障碍的类型进行识别判断,平均准确率达95.6%,对上气道阻塞的识别准确度达81.3%[50],还可识别高位小平台,准确度达95.2%[51],展现了人工智能在PFT判读方面的巨大潜力,可继续深入相关研究。
总之,2021年ERS/ATS发布的PFT判读指南更新要点总结见表1,但部分建议不一定适合我国,需要结合中国实际情况进行分析和借鉴。
