尘肺病在我国每年报告的新发职业病中居首位,影像学诊断目前仍是其主要的临床诊断方法之一。然而,人工阅片对医生水平要求较高,尘肺影像学分期诊断的判别难度大,而且由于医疗资源分布不均衡等因素的影响,很容易导致基层医疗机构出现误诊和漏诊。计算机辅助诊断系统可以实现尘肺病的快速筛查,以便辅助临床医生进行鉴别和诊断,提高诊断效能。作为深度学习的重要分支,卷积神经网络因具有局部关联、权值共享的特点,擅长处理图像分割、图像分类、目标检测等各种视觉任务,近年来已在尘肺病计算机辅助诊断领域得到广泛应用。本文就卷积神经网络(VGG、U-Net、ResNet、DenseNet、CheXNet、Inception-V3和ShuffleNet)在尘肺病影像学筛查诊断、分期诊断和病灶分割等方面的应用进行文献回顾,旨在总结卷积神经网络的方法、优缺点及优化策略,为尘肺病影像学计算机辅助诊断的进一步研究提供参考。
引用本文: 王瑜, 吴江, 伍东升. 卷积神经网络在职业性尘肺病影像学诊断中的应用研究进展. 生物医学工程学杂志, 2024, 41(2): 413-420. doi: 10.7507/1001-5515.202309079 复制
0 引言
尘肺病是由于职业活动中长期吸入生产矿物粉尘并且在肺内潴留而引起的以肺组织弥漫性纤维化为主的疾病[1]。根据国家卫生健康委员会[2]发布的《2021年我国卫生健康事业发展统计公报》,在2021年全国共报告各类职业病新病例15 407例,其中职业性尘肺病11 809例,占比约76.6%。截至2021年底,全国累计报告职业性尘肺病患者91.5万人,现存活的职业性尘肺病患者约45万人,确诊人数是我国职业病第一,考虑到多尘工作场所的工人接受职业健康检查的比例较低,加上尘肺病具有潜伏期长、隐匿性强等特点,实际罹患尘肺病的人数可能远超报告数[3]。尘肺病还会引发肺炎、肺结核、肺源性心脏衰竭等疾病,目前无法根治,治疗手段以早发现、延缓病情进展和避免并发症为主。
临床评价尘肺病主要是依据肺部X线影像的改变。1986年以后我国职业性尘肺病的影像诊断标准中均引入了国际劳工组织提出的小阴影、大阴影等概念[4],这些术语是X线影像的形态描述,为尘肺病分期提供统一、方便和规范的纪录,主要包括小阴影、小阴影聚集、大阴影、肺区和胸膜斑等。根据小阴影总体密集度、大阴影的肺区分布情况以及是否有胸膜斑等情况可以将尘肺病分为零期、壹期、贰期和叁期。然而由于尘肺病零期和壹期判别难度大且标准片与实际病例常存在偏差,人工阅片对医生水平要求较高[5],加上疲劳看片等因素的影响,很容易出现误诊漏诊的情况。目前我国医疗资源地域分布不均匀,高水平的医生和高质量的医疗设备大都集中在一二线城市和三甲医院,县城村镇诊疗系统与之相比仍有很大差距。
成熟而有效的计算机辅助系统具有快速、廉价的特点,可以实现定期健康检查和低成本有效诊断。尘肺病影像学人工智能算法可以帮助医生对肺部影像进行初步诊断和筛选,减少假阳性,提高诊断效率,而且为后续医生进行病情分析提供辅助作用。因此,随着基于人工智能的计算机辅助诊断日趋成熟,包括卷积神经网络(convolutional neural network,CNN)在内的深度学习算法有望大幅度提高尘肺病影像学分期诊断的分析速度和检测准确性,具有重要的临床研究价值。
CNN是深度学习的代表算法之一,主要由输入层、卷积层、池化层、全连接层和输出层组成,如图1所示。CNN提供了一个端到端的学习模型,模型中的参数采用传统的梯度下降法进行学习,每一层的特征都是通过从上一层局部区域得到的共享权重卷积核的激励[6-7],这使得CNN比其他神经网络更适合处理图像分割、图像分类、目标检测等各种视觉任务。为此,本文就CNN[如VGG、U-Net、残差网络(residual network,ResNet)、DenseNet、CheXNet、Inception-V3和ShuffleNet]在尘肺病影像学筛查诊断、分期诊断和病灶分割等方面的应用进行文献回顾,旨在总结CNN应用于尘肺病图像的方法、优缺点及优化思路,为尘肺病计算机辅助诊断的进一步研究提供参考。

1 CNN网络在尘肺病筛查诊断中的应用
1.1 ResNet
ResNet由He等[8]提出,该网络引入了恒等映射从而通过计算残差来缓解因网络层数过多而产生的退化问题。残差块结构见图2所示,人为使神经网络某些层跳过下一层神经元的连接,特征矩阵隔层相加,弱化每层之间的强联系。残差思想本身也在一定程度上简化了模型的学习目标,使得模型训练更为容易[9]。但由于残差结构特征矩阵隔层相加的特性,可能会导致网络结构复杂,难以泛化,训练时间长。汪伟[10]在ResNet的基础上引入全卷积网络的反卷积结构,对尘肺病影像学诊断灵敏度达到99%,漏诊率极低,特异度为89%,准确率为95%,可以用于尘肺病的初筛,在煤工尘肺的早期筛查中能有效提高医生的工作效率。

1.2 ShuffleNet
ShuffleNet是一种专门为计算能力有限的移动设备设计的高效轻量级神经网络模型[11]。由于ResNet等CNN存在大量的1×1卷积,在小网络模型中效率很低,因此ShuffleNet使用逐点分组卷积(pointwise group convolution)降低了1×1卷积的计算复杂度,并且为了解决由分组卷积产生的组间特征信息无共享交流问题,使用通道重排策略(Channel Shuffle),允许分组卷积从不同的组中获取输入数据,在保持精度的同时大大减少了计算复杂度和存储需求[12],结构如图3所示。然而,ShuffleNet网络结构相对简单,特征表达能力不足,在一些复杂任务上的表现不如其他模型 。

崔风涛等[13]将ShuffleNet应用于四个不同预处理的X射线数据集:16位灰度直方图均衡图像集(HE16)、16位灰度原始图像集(Origin16)、8位灰度直方图均衡图像集(HE8)和8位灰度原始图像集(Origin8)。其中Origin16模型结果最好,曲线下面积(area under curve,AUC)为0.958,准确率为92.3%,特异度为92.9%,敏感度为91.7%,与医生诊断结果的一致性最高。证明了ShuffleNet模型可以有效识别早期阶段的尘肺。
Wang等[14]首先采用YOLO v2分割数字化X线(digital radiography,DR)胸片,然后训练6个CNN模型(Inception-V3、ShuffleNet、Xception、DenseNet、Resnet 101、MobileNet)识别尘肺病0/1亚类。最后通过集成学习对六个CNN模型的输出进行集成。这种级联策略能有效地消除原DR胸片的噪声,解决过拟合问题。测试结果AUC、准确度、灵敏度和特异性分别为0.931、84.7%、75.0%和95.7%,表明此方法能有效筛选临床前阶段的尘肺病,有助于尘肺病的二次预防。
2 CNN网络在尘肺病分期诊断中的应用
2.1 VGG16和VGG19
VGG16模型由牛津大学Visual Geometry Group小组在2014年ImageNet大赛上提出[15],一共有16个参数训练层,分别为13个卷积层和3个全连接层,与AlexNet相比,它使用连续的2个和3个3 × 3卷积核分别代替AlexNet中5 × 5的卷积核和7 × 7的卷积核,模型如图4所示。这保证了在具有相同感知野的条件下,网络结构精简且深度提高。但由于包含的权重数目多达139 357 544个,需要较大的存储容量,不利于模型部署,还导致训练时间过长,调参难度大。而VGG19比VGG16多出3个卷积核大小为3 × 3的卷积层,分别在第3、4、5次最大池化操作之前,堆叠的卷积操作增多,运算量增大,对图像细节特征的提取效果更好。

赵奇等[16]采用标注数据库对VGG16和VGG19进行训练,VGG16的准确率为91.8%、灵敏度为69.2%,VGG19的准确率为91.8%、灵敏度为61.5%,可以看出VGG16与VGG19模型差距不大,但VGG19比VGG16层数深、参数量大,所以参数更新比较慢。针对VGG16训练时间长的问题,舒甜督等[17]把VGG16所有的全连接层换成具有256个神经元的全连接层并连接二分类的softmax分类器,在每个卷积层之后加入批量规范化层(batch normalization,BN)[18-19]。BN层可以加快模型的训练速度和收敛速度,防止过拟合从而呈现更好的分类效果。将改进后的模型应用于肺结节计算机断层扫描(computed tomography, CT)图像分类,相比原来的VGG模型,准确率提高,训练时间大幅缩短,此改进对于该模型的优化具有参考意义。
2.2 DenseNet
DenseNet模型由Huang等提出[20],在ResNet的基础上,提出层与层的密集连接思想。在传统CNN中,L层的网络有L个连接,而在DenseNet中,有L(L + 1)/2个连接。每层从前面的所有层获得额外的输入,并将自己的特征映射传递到后续的所有层。使用级联方式,每一层都在接受来自前几层的“集体知识”。DenseNet模型如图5所示。DenseNet通过对特征的重复使用,减少了参数量,缓解了梯度消失问题,并提高了特征的传播率和利用率,但占用内存较大。张雅娟[21]比较了ResNet50、ResNet101、DenseNet对于尘肺四个分期的判别效能,其中DenseNet宏综合分类率在80%以上,AUC微平均和宏平均分别为94%和95%。整体分类效能最优,为较适合的尘肺分类模型,其0期及Ⅲ期的分类效果较好,Ⅱ期的分类效果还有待优化。

Fan等[22]提出了一种局部鉴别辅助解纠缠网络(local discriminant auxiliary disentangled network,LDADN)作为非配对医学图像翻译任务的新框架,用来合成胸部X射线图像。该模型利用几批相互独立的本地鉴别器来实现细节的高频传输,结合局部对抗性学习和Laplacian滤波器将病变区域的特征通过单一的网络分离出来,发生器再通过给定的属性或随机噪声矢量,有效地合成具有多样性和高质量的真实感尘肺图像。对于尘肺病的检测,其检测性能优于从零开始学习的模型。研究证明,在训练集中加入合成的尘肺图像,可以进一步提高检测结果,其中采用LDADN方法检测尘肺DenseNet 121模型的准确率显著提高,达到99.31%。
2.3 CheXNet
CheXNet模型由 Rajpurkar等[23]提出,是使用ChestX-ray14数据集训练的121层的DenseNet。模型的全连接层替换为二进制输出,再采用Sigmod函数实现最终分类。Devnath等[24]通过对CheXNet、DenseNet-121、Inception-V3、Xception和ResNet 50这五个模型进行研究,结果表明在小数据集上,CheXNet是最有效的尘肺分类模型,准确率达到90.20%。在此基础上,又提出了一种基于预先训练的CheXNet作为多级特征提取器的混合模型,解决了小数据集上尘肺检测的难题。在所研究的模型和分类器中,CheXNet和support vector machine with sigmoid function(SVM-SF)相结合的性能最好,准确率最高可达92.68%。
集成学习是训练多个机器学习模型并将其输出组合在一起的过程。组织以不同的模型为基础,致力构建一个最优的预测模型。组合各种不同的机器学习模型可以提高整体模型的稳定性,从而获得更准确的预测结果。缺点是集成学习减少了模型的可解释性且耗时较长。集成学习方法主要包括简单平均法、多加权平均法和多数投票法(majority vote,MVOT)[25]。Devnath等[26]通过比较这三种方法的效果,发现MOVT与CheXNet的融合用于尘肺病检测的效果优于其他方法,准确率可达91.50%。
2.4 Inception-V3
Inception-V3由Christian等[27]提出,通过增加网络的宽度来提高网络性能。为了实现不同尺度特征的融合,在每个inception模块中都使用了不同大小的卷积核,出现不同的感受野,并且加入卷积因子分解的思想,将大卷积核分解成小卷积,减小参数,降低模型大小,分解结构如图6所示。但Inception架构的复杂性使得网络更改变得更为困难。张兰兰[28]比较了Resnet 50、VGG 16和Inception-V3网络的尘肺病分类效果,提出了“冻结层”和“微调层”两种迁移学习模式[29]。“冻结层”转移模式为将预训练模型早期层的学习率设为0,并根据胸部X线片的类别重建后续层;“微调层”转移模式为早期层复制预训练模型的权重,后续层随机初始化。ImageNet中学习到的知识被转移到尘肺病影像的识别中,分别应用于VGG16、ResNet50和Inception-V3中。实验结果表明,两种迁移学习模式都比在有限的训练数据下从头开始要好,并且“微调层”转移学习模式效果更好。Inception-V3 AUC值0.94,高于ResNet50网络和VGG16,并且Inception-V3在微调层迁移模式下的灵敏度为95%,特异度为87%,平衡较好。

3 CNN网络在尘肺病病灶分割中的应用
U-Net由Ronneberger等[30]提出,是建立在全卷积神经网络(fully convolutional network,FCN)上的编码—解码结构的网络模型,其结构左右对称,呈U型。由网络左侧特征提取、中间拼接、右侧上采样三部分组成,模型图见图7。U-Net在医学图像分割领域表现出色,它的优越性与其网络结构和医学图像的特点有关。医学图像具有固定的器官和简单的语义,但模糊的边界和复杂的梯度需要足够的高分辨率信息来进行轮廓分割和细化边缘细节。U-Net的对称结构,通过反卷积逐步恢复图像分辨率,并引入跳跃关节,使不同尺度的特征能够融合在一起,为更高层次的特征带来更高的分辨率信息,提高分割的准确性。尽管U-Net在医学图像分割方面取得了重大突破,但它在网络的可扩展性和训练小数据集时的过拟合倾向方面仍有缺陷。
基于U-Net的这种特性,常用于分割尘肺DR图像,并与ResNet模型结合进行尘肺病分期诊断。王峥等[31]采用U-Net结构模型对胸片图像两侧肺野进行提取,采用ResNet模型建立尘肺病计算机辅助诊断模型,AUC值为0.99,灵敏度为0.94,特异度为0.96。Yang等[32]同样使用U-Net对胸片进行肺野分割,并使用十种不同的数据增强方法对数据集进行处理,形成十折交叉验证,再采用ResNet用焦点损失代替原始损失函数进行尘肺分类,准确率为92.46%,AUC为0.89。Zhang等[33]提出一种基于分而治之策略的深度学习模型,即采用U-Net将一个肺部区域分割成六个子区域,使用ResNet分别训练子区域的特定模型,并将基于子区域的预测结合起来进行分期,尘肺筛查准确率为97 .3%,敏感性和特异性均大于97%,尘肺分期的准确率为92.7%。石鸣鸣[34]使用U-Net去除胸片中的肋骨,再使用融合Inception结构的ResNet,并加入BN来加快网络训练的收敛和搜索速度,实现肺部影像多分类,其准确率达到80.5%,高于VGG16和ResNet101。
4 总结与展望
本文总结了VGG16和VGG19、ResNet、U-Net、DenseNet、CheXNet、Inception-V3和ShuffleNet等CNN在尘肺病影像学诊断中的应用,并分析了每个算法的优缺点,汇总内容如表1所示。

尘肺病计算机辅助诊断的发展方向应集中在以下几个方面:
(1)由于尘肺病影像学数据的隐私性以及标注需要专业医师,导致数据集标注数量稀缺,阳性数据和阴性数据的不平衡,大大影响了CNN的性能。一方面可以通过数据增强技术[35-36]增加训练集的样本量和多样性,另一方面发展以弱监督或无监督学习为主的深度学习模型实现数据的自动标注,将极大提高模型训练的效率[37-38]。
(2)目前开发的尘肺病计算机辅助诊断系统主要是对患者DR胸片影像特征进行识别和分类,在面对更复杂的临床环境时,极易造成漏诊或误诊。单纯靠DR胸片有一定局限性,而CT能更准确地反映尘肺病的形态学改变,比X线片更容易发现肺部较小的结节[39-40],对于尘肺病早期判别有很大帮助。因此,构建融合多源影像数据的泛化模型[41],提供更加丰富的图像信息,将有助于提高CNN辨别尘肺零期和壹期的能力。
(3)与尘肺病筛查相比,尘肺病影像学分期诊断对诊断的准确性和一致性要求更高,因为不仅要根据胸片进行判别,还要考虑患者的职业史,结合流行病学和职业监测信息,综合临床表现和其他常规检查,并排除其他类似的肺部疾病。因此如何整合患者多种临床信息,构建个人医疗数据全景图,进一步提高计算机辅助诊断的智能化水平还需要进行更加深入的研究[42-43]。
(4)目前CNN在尘肺病方面的应用主要是对肺部影像的分类和辅助诊断,鲜有研究关注对尘肺病病程发展进行预测。根据胸片图像特征,构建尘肺病病程预测诊疗模型,将有助于医生更好地制定治疗方案,有效延缓病情发展。
综上所述,在大数据和人工智能的第4次工业革命的背景下,可预见CNN技术必将进一步推动尘肺病影像学计算机辅助诊断的发展,具有广阔的应用前景。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:王瑜总体设计并撰写论文、定稿;吴江参与论文思路分析与论文修改指导;伍东升参与论文修改指导和审校。
0 引言
尘肺病是由于职业活动中长期吸入生产矿物粉尘并且在肺内潴留而引起的以肺组织弥漫性纤维化为主的疾病[1]。根据国家卫生健康委员会[2]发布的《2021年我国卫生健康事业发展统计公报》,在2021年全国共报告各类职业病新病例15 407例,其中职业性尘肺病11 809例,占比约76.6%。截至2021年底,全国累计报告职业性尘肺病患者91.5万人,现存活的职业性尘肺病患者约45万人,确诊人数是我国职业病第一,考虑到多尘工作场所的工人接受职业健康检查的比例较低,加上尘肺病具有潜伏期长、隐匿性强等特点,实际罹患尘肺病的人数可能远超报告数[3]。尘肺病还会引发肺炎、肺结核、肺源性心脏衰竭等疾病,目前无法根治,治疗手段以早发现、延缓病情进展和避免并发症为主。
临床评价尘肺病主要是依据肺部X线影像的改变。1986年以后我国职业性尘肺病的影像诊断标准中均引入了国际劳工组织提出的小阴影、大阴影等概念[4],这些术语是X线影像的形态描述,为尘肺病分期提供统一、方便和规范的纪录,主要包括小阴影、小阴影聚集、大阴影、肺区和胸膜斑等。根据小阴影总体密集度、大阴影的肺区分布情况以及是否有胸膜斑等情况可以将尘肺病分为零期、壹期、贰期和叁期。然而由于尘肺病零期和壹期判别难度大且标准片与实际病例常存在偏差,人工阅片对医生水平要求较高[5],加上疲劳看片等因素的影响,很容易出现误诊漏诊的情况。目前我国医疗资源地域分布不均匀,高水平的医生和高质量的医疗设备大都集中在一二线城市和三甲医院,县城村镇诊疗系统与之相比仍有很大差距。
成熟而有效的计算机辅助系统具有快速、廉价的特点,可以实现定期健康检查和低成本有效诊断。尘肺病影像学人工智能算法可以帮助医生对肺部影像进行初步诊断和筛选,减少假阳性,提高诊断效率,而且为后续医生进行病情分析提供辅助作用。因此,随着基于人工智能的计算机辅助诊断日趋成熟,包括卷积神经网络(convolutional neural network,CNN)在内的深度学习算法有望大幅度提高尘肺病影像学分期诊断的分析速度和检测准确性,具有重要的临床研究价值。
CNN是深度学习的代表算法之一,主要由输入层、卷积层、池化层、全连接层和输出层组成,如图1所示。CNN提供了一个端到端的学习模型,模型中的参数采用传统的梯度下降法进行学习,每一层的特征都是通过从上一层局部区域得到的共享权重卷积核的激励[6-7],这使得CNN比其他神经网络更适合处理图像分割、图像分类、目标检测等各种视觉任务。为此,本文就CNN[如VGG、U-Net、残差网络(residual network,ResNet)、DenseNet、CheXNet、Inception-V3和ShuffleNet]在尘肺病影像学筛查诊断、分期诊断和病灶分割等方面的应用进行文献回顾,旨在总结CNN应用于尘肺病图像的方法、优缺点及优化思路,为尘肺病计算机辅助诊断的进一步研究提供参考。

1 CNN网络在尘肺病筛查诊断中的应用
1.1 ResNet
ResNet由He等[8]提出,该网络引入了恒等映射从而通过计算残差来缓解因网络层数过多而产生的退化问题。残差块结构见图2所示,人为使神经网络某些层跳过下一层神经元的连接,特征矩阵隔层相加,弱化每层之间的强联系。残差思想本身也在一定程度上简化了模型的学习目标,使得模型训练更为容易[9]。但由于残差结构特征矩阵隔层相加的特性,可能会导致网络结构复杂,难以泛化,训练时间长。汪伟[10]在ResNet的基础上引入全卷积网络的反卷积结构,对尘肺病影像学诊断灵敏度达到99%,漏诊率极低,特异度为89%,准确率为95%,可以用于尘肺病的初筛,在煤工尘肺的早期筛查中能有效提高医生的工作效率。

1.2 ShuffleNet
ShuffleNet是一种专门为计算能力有限的移动设备设计的高效轻量级神经网络模型[11]。由于ResNet等CNN存在大量的1×1卷积,在小网络模型中效率很低,因此ShuffleNet使用逐点分组卷积(pointwise group convolution)降低了1×1卷积的计算复杂度,并且为了解决由分组卷积产生的组间特征信息无共享交流问题,使用通道重排策略(Channel Shuffle),允许分组卷积从不同的组中获取输入数据,在保持精度的同时大大减少了计算复杂度和存储需求[12],结构如图3所示。然而,ShuffleNet网络结构相对简单,特征表达能力不足,在一些复杂任务上的表现不如其他模型 。

崔风涛等[13]将ShuffleNet应用于四个不同预处理的X射线数据集:16位灰度直方图均衡图像集(HE16)、16位灰度原始图像集(Origin16)、8位灰度直方图均衡图像集(HE8)和8位灰度原始图像集(Origin8)。其中Origin16模型结果最好,曲线下面积(area under curve,AUC)为0.958,准确率为92.3%,特异度为92.9%,敏感度为91.7%,与医生诊断结果的一致性最高。证明了ShuffleNet模型可以有效识别早期阶段的尘肺。
Wang等[14]首先采用YOLO v2分割数字化X线(digital radiography,DR)胸片,然后训练6个CNN模型(Inception-V3、ShuffleNet、Xception、DenseNet、Resnet 101、MobileNet)识别尘肺病0/1亚类。最后通过集成学习对六个CNN模型的输出进行集成。这种级联策略能有效地消除原DR胸片的噪声,解决过拟合问题。测试结果AUC、准确度、灵敏度和特异性分别为0.931、84.7%、75.0%和95.7%,表明此方法能有效筛选临床前阶段的尘肺病,有助于尘肺病的二次预防。
2 CNN网络在尘肺病分期诊断中的应用
2.1 VGG16和VGG19
VGG16模型由牛津大学Visual Geometry Group小组在2014年ImageNet大赛上提出[15],一共有16个参数训练层,分别为13个卷积层和3个全连接层,与AlexNet相比,它使用连续的2个和3个3 × 3卷积核分别代替AlexNet中5 × 5的卷积核和7 × 7的卷积核,模型如图4所示。这保证了在具有相同感知野的条件下,网络结构精简且深度提高。但由于包含的权重数目多达139 357 544个,需要较大的存储容量,不利于模型部署,还导致训练时间过长,调参难度大。而VGG19比VGG16多出3个卷积核大小为3 × 3的卷积层,分别在第3、4、5次最大池化操作之前,堆叠的卷积操作增多,运算量增大,对图像细节特征的提取效果更好。

赵奇等[16]采用标注数据库对VGG16和VGG19进行训练,VGG16的准确率为91.8%、灵敏度为69.2%,VGG19的准确率为91.8%、灵敏度为61.5%,可以看出VGG16与VGG19模型差距不大,但VGG19比VGG16层数深、参数量大,所以参数更新比较慢。针对VGG16训练时间长的问题,舒甜督等[17]把VGG16所有的全连接层换成具有256个神经元的全连接层并连接二分类的softmax分类器,在每个卷积层之后加入批量规范化层(batch normalization,BN)[18-19]。BN层可以加快模型的训练速度和收敛速度,防止过拟合从而呈现更好的分类效果。将改进后的模型应用于肺结节计算机断层扫描(computed tomography, CT)图像分类,相比原来的VGG模型,准确率提高,训练时间大幅缩短,此改进对于该模型的优化具有参考意义。
2.2 DenseNet
DenseNet模型由Huang等提出[20],在ResNet的基础上,提出层与层的密集连接思想。在传统CNN中,L层的网络有L个连接,而在DenseNet中,有L(L + 1)/2个连接。每层从前面的所有层获得额外的输入,并将自己的特征映射传递到后续的所有层。使用级联方式,每一层都在接受来自前几层的“集体知识”。DenseNet模型如图5所示。DenseNet通过对特征的重复使用,减少了参数量,缓解了梯度消失问题,并提高了特征的传播率和利用率,但占用内存较大。张雅娟[21]比较了ResNet50、ResNet101、DenseNet对于尘肺四个分期的判别效能,其中DenseNet宏综合分类率在80%以上,AUC微平均和宏平均分别为94%和95%。整体分类效能最优,为较适合的尘肺分类模型,其0期及Ⅲ期的分类效果较好,Ⅱ期的分类效果还有待优化。

Fan等[22]提出了一种局部鉴别辅助解纠缠网络(local discriminant auxiliary disentangled network,LDADN)作为非配对医学图像翻译任务的新框架,用来合成胸部X射线图像。该模型利用几批相互独立的本地鉴别器来实现细节的高频传输,结合局部对抗性学习和Laplacian滤波器将病变区域的特征通过单一的网络分离出来,发生器再通过给定的属性或随机噪声矢量,有效地合成具有多样性和高质量的真实感尘肺图像。对于尘肺病的检测,其检测性能优于从零开始学习的模型。研究证明,在训练集中加入合成的尘肺图像,可以进一步提高检测结果,其中采用LDADN方法检测尘肺DenseNet 121模型的准确率显著提高,达到99.31%。
2.3 CheXNet
CheXNet模型由 Rajpurkar等[23]提出,是使用ChestX-ray14数据集训练的121层的DenseNet。模型的全连接层替换为二进制输出,再采用Sigmod函数实现最终分类。Devnath等[24]通过对CheXNet、DenseNet-121、Inception-V3、Xception和ResNet 50这五个模型进行研究,结果表明在小数据集上,CheXNet是最有效的尘肺分类模型,准确率达到90.20%。在此基础上,又提出了一种基于预先训练的CheXNet作为多级特征提取器的混合模型,解决了小数据集上尘肺检测的难题。在所研究的模型和分类器中,CheXNet和support vector machine with sigmoid function(SVM-SF)相结合的性能最好,准确率最高可达92.68%。
集成学习是训练多个机器学习模型并将其输出组合在一起的过程。组织以不同的模型为基础,致力构建一个最优的预测模型。组合各种不同的机器学习模型可以提高整体模型的稳定性,从而获得更准确的预测结果。缺点是集成学习减少了模型的可解释性且耗时较长。集成学习方法主要包括简单平均法、多加权平均法和多数投票法(majority vote,MVOT)[25]。Devnath等[26]通过比较这三种方法的效果,发现MOVT与CheXNet的融合用于尘肺病检测的效果优于其他方法,准确率可达91.50%。
2.4 Inception-V3
Inception-V3由Christian等[27]提出,通过增加网络的宽度来提高网络性能。为了实现不同尺度特征的融合,在每个inception模块中都使用了不同大小的卷积核,出现不同的感受野,并且加入卷积因子分解的思想,将大卷积核分解成小卷积,减小参数,降低模型大小,分解结构如图6所示。但Inception架构的复杂性使得网络更改变得更为困难。张兰兰[28]比较了Resnet 50、VGG 16和Inception-V3网络的尘肺病分类效果,提出了“冻结层”和“微调层”两种迁移学习模式[29]。“冻结层”转移模式为将预训练模型早期层的学习率设为0,并根据胸部X线片的类别重建后续层;“微调层”转移模式为早期层复制预训练模型的权重,后续层随机初始化。ImageNet中学习到的知识被转移到尘肺病影像的识别中,分别应用于VGG16、ResNet50和Inception-V3中。实验结果表明,两种迁移学习模式都比在有限的训练数据下从头开始要好,并且“微调层”转移学习模式效果更好。Inception-V3 AUC值0.94,高于ResNet50网络和VGG16,并且Inception-V3在微调层迁移模式下的灵敏度为95%,特异度为87%,平衡较好。

3 CNN网络在尘肺病病灶分割中的应用
U-Net由Ronneberger等[30]提出,是建立在全卷积神经网络(fully convolutional network,FCN)上的编码—解码结构的网络模型,其结构左右对称,呈U型。由网络左侧特征提取、中间拼接、右侧上采样三部分组成,模型图见图7。U-Net在医学图像分割领域表现出色,它的优越性与其网络结构和医学图像的特点有关。医学图像具有固定的器官和简单的语义,但模糊的边界和复杂的梯度需要足够的高分辨率信息来进行轮廓分割和细化边缘细节。U-Net的对称结构,通过反卷积逐步恢复图像分辨率,并引入跳跃关节,使不同尺度的特征能够融合在一起,为更高层次的特征带来更高的分辨率信息,提高分割的准确性。尽管U-Net在医学图像分割方面取得了重大突破,但它在网络的可扩展性和训练小数据集时的过拟合倾向方面仍有缺陷。
基于U-Net的这种特性,常用于分割尘肺DR图像,并与ResNet模型结合进行尘肺病分期诊断。王峥等[31]采用U-Net结构模型对胸片图像两侧肺野进行提取,采用ResNet模型建立尘肺病计算机辅助诊断模型,AUC值为0.99,灵敏度为0.94,特异度为0.96。Yang等[32]同样使用U-Net对胸片进行肺野分割,并使用十种不同的数据增强方法对数据集进行处理,形成十折交叉验证,再采用ResNet用焦点损失代替原始损失函数进行尘肺分类,准确率为92.46%,AUC为0.89。Zhang等[33]提出一种基于分而治之策略的深度学习模型,即采用U-Net将一个肺部区域分割成六个子区域,使用ResNet分别训练子区域的特定模型,并将基于子区域的预测结合起来进行分期,尘肺筛查准确率为97 .3%,敏感性和特异性均大于97%,尘肺分期的准确率为92.7%。石鸣鸣[34]使用U-Net去除胸片中的肋骨,再使用融合Inception结构的ResNet,并加入BN来加快网络训练的收敛和搜索速度,实现肺部影像多分类,其准确率达到80.5%,高于VGG16和ResNet101。
4 总结与展望
本文总结了VGG16和VGG19、ResNet、U-Net、DenseNet、CheXNet、Inception-V3和ShuffleNet等CNN在尘肺病影像学诊断中的应用,并分析了每个算法的优缺点,汇总内容如表1所示。

尘肺病计算机辅助诊断的发展方向应集中在以下几个方面:
(1)由于尘肺病影像学数据的隐私性以及标注需要专业医师,导致数据集标注数量稀缺,阳性数据和阴性数据的不平衡,大大影响了CNN的性能。一方面可以通过数据增强技术[35-36]增加训练集的样本量和多样性,另一方面发展以弱监督或无监督学习为主的深度学习模型实现数据的自动标注,将极大提高模型训练的效率[37-38]。
(2)目前开发的尘肺病计算机辅助诊断系统主要是对患者DR胸片影像特征进行识别和分类,在面对更复杂的临床环境时,极易造成漏诊或误诊。单纯靠DR胸片有一定局限性,而CT能更准确地反映尘肺病的形态学改变,比X线片更容易发现肺部较小的结节[39-40],对于尘肺病早期判别有很大帮助。因此,构建融合多源影像数据的泛化模型[41],提供更加丰富的图像信息,将有助于提高CNN辨别尘肺零期和壹期的能力。
(3)与尘肺病筛查相比,尘肺病影像学分期诊断对诊断的准确性和一致性要求更高,因为不仅要根据胸片进行判别,还要考虑患者的职业史,结合流行病学和职业监测信息,综合临床表现和其他常规检查,并排除其他类似的肺部疾病。因此如何整合患者多种临床信息,构建个人医疗数据全景图,进一步提高计算机辅助诊断的智能化水平还需要进行更加深入的研究[42-43]。
(4)目前CNN在尘肺病方面的应用主要是对肺部影像的分类和辅助诊断,鲜有研究关注对尘肺病病程发展进行预测。根据胸片图像特征,构建尘肺病病程预测诊疗模型,将有助于医生更好地制定治疗方案,有效延缓病情发展。
综上所述,在大数据和人工智能的第4次工业革命的背景下,可预见CNN技术必将进一步推动尘肺病影像学计算机辅助诊断的发展,具有广阔的应用前景。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:王瑜总体设计并撰写论文、定稿;吴江参与论文思路分析与论文修改指导;伍东升参与论文修改指导和审校。