超声是检测甲状腺结节的首选方法,钙化特征是甲状腺结节良恶性判别的重要特征。但是由于囊壁等结节内部结构的干扰,钙化点提取一直是医学影像处理技术中的难点。本文提出了一种基于深度学习算法的钙化点提取法,并在阿列克谢(Alexnet)卷积神经网络的基础上提出了两种改进方法:① 通过添加逐层对应的反池化(unpooling)和反卷积层(deconv2D)使网络向着所需要的特征进行训练并最终提取出钙化特征;② 通过修改 Alexnet 模型卷积模板的数量和全连接层节点的数量,使其特征提取更加精细;最终通过两种方法的结合得到改进网络。为了验证本文所提出的方法,本文从数据集中选取钙化结节图像 8 416 张、无钙化结节图像 10 844 张。改进的 Alexnet 卷积神经网络方法的钙化特征提取准确率为 86%,较传统方法有了较大提升,为甲状腺结节的良恶性识别提供了有效的手段。
引用本文: 左东奇, 韩霖, 陈科, 李程, 花瞻, 林江莉. 基于卷积神经网络提取超声图像甲状腺结节钙化点的研究. 生物医学工程学杂志, 2018, 35(5): 679-687. doi: 10.7507/1001-5515.201710017 复制
引言
资料显示,甲状腺结节中甲状腺癌的发病率现已达到 5%~15%[1]。近年来,甲状腺癌的发病率不断增加[2]。超声是诊断甲状腺结节的首选方案[3],其中钙化特征是甲状腺结节良恶性判别的重要依据[4]。由于超声图像清晰度差、分辨率低,甲状腺及其附近组织复杂,干扰因素多等原因,使得基于超声图像的钙化特征提取有较大难度。
近年来,对于钙化特征的提取方法,主要集中在基于亮度特征的阈值分割。例如:Chen 等[5]提出钙化指数(calcification index, CI)计算方法针对甲状腺结节内的钙化特征进行定量表征,其方法认为钙化点一般在结节内的高亮区域,先以单阈值去除囊性区域得到钙化点搜索区域,并定义 μ 为钙化点搜索区域像素点的均值,定义 σ 为钙化点搜索区域像素点的方差,定义 k 为方差的倍数因子,以 K = μ + k·σ 作为钙化点搜索区域内钙化与非钙化之间的阈值,最终以钙化区域与整个结节的面积之比作为钙化系数。该方法仅以是否为高亮部位作为判定钙化的唯一标准。但实际上,在很多结节中也会有诸如囊壁组织等高亮组织,因此这种方法很容易造成这些非钙化组织的误判。
Choi 等[6]提出基于局部大津阈值的方法来判断钙化特征,其步骤是首先将肿瘤区域平均分成 5 × 5 = 25 个相同大小的区域,然后对每个区域分别计算大津阈值,以一个特定值作为标定阈值,如果分割阈值大于标定阈值则对此区域进行大津阈值分割,如果该分割阈值小于标定阈值,则在此区域内不进行分割。
韩晓涛[7]提出基于最大极值稳定区域(maximally stable extremal regions, MSER)的方法来判断钙化特征,该方法使用一系列灰度阈值对图像进行二值化处理并得到相应的黑色和白色区域,在比较宽的灰度阈值范围内保持形状稳定的区域即为最大极值稳定区域。对所有最大极值稳定区域基于区域的平均亮度进行排序并设定阈值,以判断该区域是否为钙化区域。该方法阈值设定方式较死板,对某些对比度较高但绝对亮度并不高的钙化点的判断准确率低。
综上所述,现有的钙化点判别方法都是基于钙化点的亮度特征,通过单个或多个阈值的比较来进行判别,这些方法均存在一定弊端。首先,在超声图片中,钙化点并不一定是结节及其周边组织中亮度最高的区域,有一些钙化点的亮度并不高,但它与周围组织的对比度很高,如图 1 中红色箭头指示部分所示。其次,甲状腺结节种类很多,很多结节内部及外部区域组织复杂,有很多高亮组织(比如:囊壁),如图 2 所示,红色箭头所指分别为囊壁和钙化点。如果仅仅以亮度作为钙化点的判别标准,那么这些高亮非钙化组织很容易被判定为钙化点。第三,由于超声机器获得图像质量不一,不同超声图像的分辨率、清晰度、整体亮度以及对比度等多项指标都会有所差异。所以只以亮度为提取特征,是不能正确提取钙化点的。


深度学习方法可以将图像的各方面特征相结合,提取出全面、整体、抽象的特征。本文基于卷积神经网络对钙化特征进行提取,提出先分割后分类的提取方法,整体学习钙化点的特征,将钙化点的亮度、形态、与周边组织关系以及一些不容易量化的特征融合起来进行判别,其判别准确率既远高于传统的仅通过单一亮度特征进行判别的方法,也高于直接使用卷积神经网络进行分类的提取方法,为甲状腺结节的良恶性识别提供了有效的手段。
1 方法
本文采用的所有甲状腺图像数据均由北京中日友好医院超声科提供,这些图像采集于不同的时间、不同的超声仪器。所有图像数据均脱敏,均不包含任何患者信息,本文的科学研究也仅仅针对图像本身,无需涉及患者信息和超声仪器信息。
1.1 卷积神经网络
实验采用阿列克谢卷积神经网络(Alexnet convolutional neural network,Alexnet)作为网络原型[8]。卷积神经网络 (convolutional neural network, CNN) 提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练,经过训练的卷积神经网络能够学习到图像中的特征,并且完成对图像特征的提取和分类[9]。

典型卷积神经网络主要由输入层(input)、卷积层(conv2D)、池化层(pooling)、全连接层(dense)和输出层(output)组成,如图 3 所示。输入层通常是原始图像;卷积层主要作用是提取输入数据特征。卷积层由多个特征图(feature map)组成,每个特征图由一种卷积核(kernel)与上一层特征图卷积获得[10],同一个特征图中,卷积核的权值共享。卷积核类似神经元,其输入与输出之间的对应关系如式(1)所示:
![]() |
其中,xi 是上一层的输入信号,n 是输入信号个数。ωi 是输入信号 xi 与神经元的连接权值,b 是神经元的内部状态即偏置值,y 为神经元的输出。f( )为激励函数,本文采用线性纠正函数(rectified linear unit, reLU),其函数表达式如式(2)所示:
![]() |
本文以 Hi 表示卷积神经网络第 i 层的特征图,以 H0 代表原图。假设第 i 层是卷积层,Hi 的产生过程,如式(3)所示:
![]() |
其中,ωi 表示第 i 层的卷积核,符号“⊗”代表卷积操作,卷积的输出与第 i 层的偏移向量 bi 相加,最终通过非线性的激励函数 f( )得到第 i 层的特征图 Hi。
池化层:卷积神经网络的池化层通常跟随在卷积层之后,依据一定的池化规则[11],比如:对邻域内特征值求平均值的平均池化(average pooling)和对邻域内特征值取最大值的最大池化(max pooling)。池化层的功能主要有两点:① 对特征图进行降维;② 在一定程度上保持特征的尺度不变特性。
全连接层及输出层:卷积神经网络依靠全连接网络对提取的特征进行分类,全连接层实际上就是多层感知器的隐层部分,得到基于输入的概率分布。输出层是一个分类器,可以采用柔性最大值传输函数(softmax)、双弯曲函数(sigmoid)等进行分类。
卷积神经网络的训练目标是最小化网络的损失函数 L(ω, b)。输入 H0 经过前向传导后通过损失函数计算出与期望值之间的差异,称为“残差”。常见损失函数有均方误差函数(mean squared error, MSE)(以符号 MSE 表示)等,函数表达式如式(4)所示:
![]() |
训练过程中,卷积神经网络常用的优化方法是梯度下降法[12]。残差通过梯度下降进行反向传播,逐层更新卷积神经网络的各个层的可训练参数 (ω 和 b)。学习速率参数 η 用于控制残差反向传播的强度。ω 和 b 的参数更新如式(5)所示:
![]() |
1.2 Alexnet 结构
Alexnet 拥有 8 层结构,其中每层由卷积层、修正线性单元层、最大池化层、规范化层(banchnomalization)、全连接层和平铺层(flatten)中的一种或几种构成。本文以 Alexnet 为原型构建网络,其输入图像的尺寸规范为 224 × 224 × 3,训练样本分为有钙化和无钙化两类,所以 L8 层节点数为 2。输出层采用 softmax 函数。网络损失函数采用 MSE 函数。Alexnet 结构如图 4 所示,各层具体构成如图 5 所示。


本文直接使用 Alexnet 对钙化特征进行判断,其识别准确率为 74%,结果并不是很好。分析原因可能是由于 Alexnet 通常作用于分类任务,假设其需要分成 n 类,则其训练时的标签为一个由 1 和 0 组成的 n 维向量,代表将该样本分成各个类的概率分布。卷积神经网络采用反向传播算法进行有监督训练,该算法包括信息的正向传播和误差的反向传播两个阶段,通过使输出不断降低与标签向量之间的误差来达到训练网络参数的目的,最终使网络的参数趋于将原图映射到标签向量上,因而不能准确得到所需要的特征。鉴于此,如果研究人员将输出标签设为一个二值分割图像,反向传播算法会使整个网络的参数趋于将原图映射到二值分割图像上,在层层的卷积过程中会使提取的特征趋于二值分割图像所分割出的特征,而这样的特征正是作为分类依据的特征。因此,本文按此思路对 Alexnet 进行了改进。
1.3 改进的 Alexnet
改进的 Alexnet 在 Alexnet 的基础上,去掉 L6~L8 的全连接层,后面再连接 L9~L14 共 6 层,为了比较,本文将此网络命名为阿列克谢分割网络 1(Alexnet_seg1)。Alexnet_seg1 增加了反池化层(unpooling)和反卷积层(deconv2D),其每层具体构成如图 6 所示。其中,L9、L10、L11、L12、L13 中的反池化层和反卷积层分别与前面 L5、L4、L3、L2、L1 中的池化层和卷积层相对应。

本文采用标定的钙化点特征作为标签,即特征模板为分割出钙化特征的二值化图像,如图 7 所示,有钙化图像钙化区域像素值为 255,其他区域像素值为 0;如果是无钙化图像,其对应的二值化图像将全黑。

由于 Alexnet_seg1 的输出不再是钙化和无钙化的两类标签,而是与原图大小相同的特征模板,因此设置 L14 用于降低特征维度,使其输出尺寸和原图大小一致(即为 224 × 224 × 3),输出层采用函数 sigmoid,其函数表达式如式(6)所示:
![]() |
接下来,对 Alexnet_seg1 进行训练,以特征模板作为标签,为使训练精确度更高,损失函数采用二次均方误差函数(mean squared squared error, MSSE)(以符号 MSSE 表示),其函数表达式如式(7)所示:
![]() |
训练集训练结束后,保留前 5 层 L1~L5 层权值不再变化,去掉 Alexnet_seg1 的 L9~L14 层,重新加入 L6~L8 的全连接层,即恢复成 Alexnet 结构。
再次输入相同的训练图像集进行训练,并以有无钙化点两类信息作为相应的标签,有即为 1,无即为 0。此次训练仅训练后 3 层 L6~L8 全连接层的权值,前面 L1~L5 层权值不再进行变化,训练结束后保留全部 8 层的权值,并将此网络命名为阿列克谢卷积神经网络 1(Alexnet-1)。
1.4 网络结构调整
卷积神经网络中卷积核的尺寸、数量以及卷积步长都对网络分类的准确性有着重要影响。一般情况下,较小的卷积核尺寸,较多的卷积核数量,较小的步长以及较多的卷积层数会使网络的性能有相应的提高,但是过多的卷积核和卷积层数也会造成过拟合以及训练速度减慢等弊端,所以需要将网络调整到一个既不占过多资源又能提高分类准确率的结构。
Alexnet 中,第三层和第四层的特征提取能力最强。因此,本文更改第三层和第四层的卷积核的数量,对其从 350 开始做步长为 2 的批处理,直至 512 为止,以计算不同卷积核数量下,网络分类的准确率。最终在卷积核数量为 390 时,网络的分类准确率达到最高。同时,由于本次实验仅分两类,分类数量较少。全连接层节点数过多也会导致分类的过拟合,因此本文将 L6、L7 中全连接层节点数分别设为 4 096、2 048、1 024、512 进行比较,最终发现节点数设为 1 024 时,分类准确率最高。因此将 Alexnet 中 L3、L4 层卷积核数量均调整为 390,L6、L7 的全连接层尺寸均改为 1 024,并将该网络命名为阿列克谢卷积神经网络 2(Alexnet-2)。
训练后对 Alexnet 和 Alexnet-2 的 L3、L4 以及 L5 的自编码还原的图像进行比较,如图 8、图 9 所示,Alexnet-2 的自编码还原图像中呈现出更多亮度较高、梯度较大的特征,这些均为钙化点判别所需特征,可见网络结构调整是有效的。


1.5 最终的网络结构
最后将 Alexnet-2 和 Alexnet-1 结合起来,即:先对 Alexnet-2 去掉 L6~L8 层,在后面加上逐层对应的反池化层和反卷积层,序列输入数据集图片并以特征模板进行训练。此网络命名为阿列克谢分割网络 2(Alexnet_seg2)。训练集训练结束后,保留 Alexnet_seg2 前 5 层卷积层及其权值不再变化,去掉 L9~L14 层,重新加入 L6~L8 层,然后输入数据集图片进行分类训练,此次仅训练 L6~L8 层的权值,此网络命名为阿列克谢卷积神经网络 3(Alexnet-3),Alexnet-3 的结构与 Alexnet-2 相同,但是其训练方法、各层参数与 Alexnet-2 又存在一定差异。
2 结果与分析
2.1 数据集和预处理
本文每张图片的钙化特征均由经验丰富的医生进行标定。最终经过筛选,共得到有钙化结节图片 2 104 张、无钙化结节图片 2 711 张。由于获得的超声图像中大部分包含血流特征,其颜色可能对判定造成影响,所以选择图像红绿蓝三个通道的最小值作为图像的灰度值,如图 10 所示。由于其他区域灰度不会发生变化,同时血流特征的最小灰度低于整张图像的平均灰度,因此不会对钙化特征判定造成干扰。

由于卷积神经网络训练需要大量样本,因此对全体有钙化结节图片 2 104 张、无钙化结节图片 2 711 张使用以下 4 种方法进行样本扩充,即对所有图片分别进行范围为 0°~360° 的随机角度旋转、施以倍数范围为 0.8~1 的随机比例缩小、施以倍数范围为 1~1.2 的随机比例放大以及镜面旋转。共得到有钙化结节图片 8 416 张、无钙化结节图片 10 844 张,使数据集总数扩充 4 倍的同时保持特征尺度不变性。
最后将每张图片以结节为中心、以结节最长长度为边长,截取包含一部分周边环境的正方形区域,作为最终数据集图像。将样本扩充以后的数据集图像均除以 255,使得每个像素值在 0 到 1 之间,用于几种卷积神经网络的分类实验测试。而取未经样本扩充的数据集,使用传统方法进行对照实验。
2.2 实验测试方法
实验采用高级神经网络库克拉斯(keras)搭建卷积神经网络。实验从有钙化结节图片 8 416 张、无钙化结节图片 10 844 张中各抽取每部分的 1/10 作为测试集,其余作为训练集,并循环进行 10 次训练和测试。
对 Alexnet-seg1 和 Alexnet-seg2 的训练,批尺寸设为 40,全体样本共被训练 150 次,对 Alexnet、Alexnet-1、Alexnet-2、Alexnet-3 等 4 个网络的训练,批尺寸设为 25,全体样本共被训练 200 次。10 次测试的判别准确数目之和以及判别准确率的结果,如表 1 所示。其中判别准确率的计算公式如式(8)所示:
![]() |

为了与本文方法对照,分别使用了钙化指数、局部大津阈值和最大极值稳定区域 3 种方法对扩充前的图像(即有钙化结节图片 2 104 张、无钙化结节图片 2 711 张)进行分类,判别准确数目和判别准确率如表 2 所示。

2.3 实验结果分析
从测试结果可以看出,使用 Alexnet 直接分类较传统方法判别准确率有着大幅提高,而先进行特征训练再进行分类训练的网络 Alexnet-1 和 Alexnet-3 较直接分类网络 Alexnet 和 Alexnet-2,准确率有着很大的提升,而同时网络结构的升级,也会提升准确率。
从图 8、图 9 可以看出,Alexnet 和 Alexnet-2 没有经过以特征模板作为标签进行训练的过程,其最终寻找的特征没有明显的倾向性,很难直接描述其找到的特征;Alexnet-1 和 Alexnet-3 经过了以特征模板作为标签进行训练的过程,两者的 L5 分割结果如图 11 所示,正是本文研究所需要的钙化特征,而最后进行的分类网络正是基于分割得到的特征进行分类,所以其分类的方向更加明确。升级以后的网络 Alexnet_seg2 其分割结果比原网络 Alexnet_seg1 更加清晰明确。研究结果表明,在进行少量类别的分类时,人工干预网络的训练,将其训练方向趋于所需判别的特征,其测试结果准确率会有明显提高。

3 总结
本文设计了一种基于卷积神经网络、适用于钙化特征提取的新方法,该方法通过先分割图像,后提取特征的方式,提高了钙化点判别准确率,为甲状腺结节良恶性识别提供了有用的分析工具,也可以作为计算机辅助诊断中甲状腺结节良恶性识别的参考方法。但目前使用的 Alexnet 结构较简单,分割分类的准确率没有达到最佳,还具有升级的空间,因此今后的研究方向是研究新的分割和分类网络,提高网络的性能,进而提高钙化点判别准确率。
致谢:感谢北京中日友好医院超声科提供超声图像以及钙化点标定的大力支持。
引言
资料显示,甲状腺结节中甲状腺癌的发病率现已达到 5%~15%[1]。近年来,甲状腺癌的发病率不断增加[2]。超声是诊断甲状腺结节的首选方案[3],其中钙化特征是甲状腺结节良恶性判别的重要依据[4]。由于超声图像清晰度差、分辨率低,甲状腺及其附近组织复杂,干扰因素多等原因,使得基于超声图像的钙化特征提取有较大难度。
近年来,对于钙化特征的提取方法,主要集中在基于亮度特征的阈值分割。例如:Chen 等[5]提出钙化指数(calcification index, CI)计算方法针对甲状腺结节内的钙化特征进行定量表征,其方法认为钙化点一般在结节内的高亮区域,先以单阈值去除囊性区域得到钙化点搜索区域,并定义 μ 为钙化点搜索区域像素点的均值,定义 σ 为钙化点搜索区域像素点的方差,定义 k 为方差的倍数因子,以 K = μ + k·σ 作为钙化点搜索区域内钙化与非钙化之间的阈值,最终以钙化区域与整个结节的面积之比作为钙化系数。该方法仅以是否为高亮部位作为判定钙化的唯一标准。但实际上,在很多结节中也会有诸如囊壁组织等高亮组织,因此这种方法很容易造成这些非钙化组织的误判。
Choi 等[6]提出基于局部大津阈值的方法来判断钙化特征,其步骤是首先将肿瘤区域平均分成 5 × 5 = 25 个相同大小的区域,然后对每个区域分别计算大津阈值,以一个特定值作为标定阈值,如果分割阈值大于标定阈值则对此区域进行大津阈值分割,如果该分割阈值小于标定阈值,则在此区域内不进行分割。
韩晓涛[7]提出基于最大极值稳定区域(maximally stable extremal regions, MSER)的方法来判断钙化特征,该方法使用一系列灰度阈值对图像进行二值化处理并得到相应的黑色和白色区域,在比较宽的灰度阈值范围内保持形状稳定的区域即为最大极值稳定区域。对所有最大极值稳定区域基于区域的平均亮度进行排序并设定阈值,以判断该区域是否为钙化区域。该方法阈值设定方式较死板,对某些对比度较高但绝对亮度并不高的钙化点的判断准确率低。
综上所述,现有的钙化点判别方法都是基于钙化点的亮度特征,通过单个或多个阈值的比较来进行判别,这些方法均存在一定弊端。首先,在超声图片中,钙化点并不一定是结节及其周边组织中亮度最高的区域,有一些钙化点的亮度并不高,但它与周围组织的对比度很高,如图 1 中红色箭头指示部分所示。其次,甲状腺结节种类很多,很多结节内部及外部区域组织复杂,有很多高亮组织(比如:囊壁),如图 2 所示,红色箭头所指分别为囊壁和钙化点。如果仅仅以亮度作为钙化点的判别标准,那么这些高亮非钙化组织很容易被判定为钙化点。第三,由于超声机器获得图像质量不一,不同超声图像的分辨率、清晰度、整体亮度以及对比度等多项指标都会有所差异。所以只以亮度为提取特征,是不能正确提取钙化点的。


深度学习方法可以将图像的各方面特征相结合,提取出全面、整体、抽象的特征。本文基于卷积神经网络对钙化特征进行提取,提出先分割后分类的提取方法,整体学习钙化点的特征,将钙化点的亮度、形态、与周边组织关系以及一些不容易量化的特征融合起来进行判别,其判别准确率既远高于传统的仅通过单一亮度特征进行判别的方法,也高于直接使用卷积神经网络进行分类的提取方法,为甲状腺结节的良恶性识别提供了有效的手段。
1 方法
本文采用的所有甲状腺图像数据均由北京中日友好医院超声科提供,这些图像采集于不同的时间、不同的超声仪器。所有图像数据均脱敏,均不包含任何患者信息,本文的科学研究也仅仅针对图像本身,无需涉及患者信息和超声仪器信息。
1.1 卷积神经网络
实验采用阿列克谢卷积神经网络(Alexnet convolutional neural network,Alexnet)作为网络原型[8]。卷积神经网络 (convolutional neural network, CNN) 提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练,经过训练的卷积神经网络能够学习到图像中的特征,并且完成对图像特征的提取和分类[9]。

典型卷积神经网络主要由输入层(input)、卷积层(conv2D)、池化层(pooling)、全连接层(dense)和输出层(output)组成,如图 3 所示。输入层通常是原始图像;卷积层主要作用是提取输入数据特征。卷积层由多个特征图(feature map)组成,每个特征图由一种卷积核(kernel)与上一层特征图卷积获得[10],同一个特征图中,卷积核的权值共享。卷积核类似神经元,其输入与输出之间的对应关系如式(1)所示:
![]() |
其中,xi 是上一层的输入信号,n 是输入信号个数。ωi 是输入信号 xi 与神经元的连接权值,b 是神经元的内部状态即偏置值,y 为神经元的输出。f( )为激励函数,本文采用线性纠正函数(rectified linear unit, reLU),其函数表达式如式(2)所示:
![]() |
本文以 Hi 表示卷积神经网络第 i 层的特征图,以 H0 代表原图。假设第 i 层是卷积层,Hi 的产生过程,如式(3)所示:
![]() |
其中,ωi 表示第 i 层的卷积核,符号“⊗”代表卷积操作,卷积的输出与第 i 层的偏移向量 bi 相加,最终通过非线性的激励函数 f( )得到第 i 层的特征图 Hi。
池化层:卷积神经网络的池化层通常跟随在卷积层之后,依据一定的池化规则[11],比如:对邻域内特征值求平均值的平均池化(average pooling)和对邻域内特征值取最大值的最大池化(max pooling)。池化层的功能主要有两点:① 对特征图进行降维;② 在一定程度上保持特征的尺度不变特性。
全连接层及输出层:卷积神经网络依靠全连接网络对提取的特征进行分类,全连接层实际上就是多层感知器的隐层部分,得到基于输入的概率分布。输出层是一个分类器,可以采用柔性最大值传输函数(softmax)、双弯曲函数(sigmoid)等进行分类。
卷积神经网络的训练目标是最小化网络的损失函数 L(ω, b)。输入 H0 经过前向传导后通过损失函数计算出与期望值之间的差异,称为“残差”。常见损失函数有均方误差函数(mean squared error, MSE)(以符号 MSE 表示)等,函数表达式如式(4)所示:
![]() |
训练过程中,卷积神经网络常用的优化方法是梯度下降法[12]。残差通过梯度下降进行反向传播,逐层更新卷积神经网络的各个层的可训练参数 (ω 和 b)。学习速率参数 η 用于控制残差反向传播的强度。ω 和 b 的参数更新如式(5)所示:
![]() |
1.2 Alexnet 结构
Alexnet 拥有 8 层结构,其中每层由卷积层、修正线性单元层、最大池化层、规范化层(banchnomalization)、全连接层和平铺层(flatten)中的一种或几种构成。本文以 Alexnet 为原型构建网络,其输入图像的尺寸规范为 224 × 224 × 3,训练样本分为有钙化和无钙化两类,所以 L8 层节点数为 2。输出层采用 softmax 函数。网络损失函数采用 MSE 函数。Alexnet 结构如图 4 所示,各层具体构成如图 5 所示。


本文直接使用 Alexnet 对钙化特征进行判断,其识别准确率为 74%,结果并不是很好。分析原因可能是由于 Alexnet 通常作用于分类任务,假设其需要分成 n 类,则其训练时的标签为一个由 1 和 0 组成的 n 维向量,代表将该样本分成各个类的概率分布。卷积神经网络采用反向传播算法进行有监督训练,该算法包括信息的正向传播和误差的反向传播两个阶段,通过使输出不断降低与标签向量之间的误差来达到训练网络参数的目的,最终使网络的参数趋于将原图映射到标签向量上,因而不能准确得到所需要的特征。鉴于此,如果研究人员将输出标签设为一个二值分割图像,反向传播算法会使整个网络的参数趋于将原图映射到二值分割图像上,在层层的卷积过程中会使提取的特征趋于二值分割图像所分割出的特征,而这样的特征正是作为分类依据的特征。因此,本文按此思路对 Alexnet 进行了改进。
1.3 改进的 Alexnet
改进的 Alexnet 在 Alexnet 的基础上,去掉 L6~L8 的全连接层,后面再连接 L9~L14 共 6 层,为了比较,本文将此网络命名为阿列克谢分割网络 1(Alexnet_seg1)。Alexnet_seg1 增加了反池化层(unpooling)和反卷积层(deconv2D),其每层具体构成如图 6 所示。其中,L9、L10、L11、L12、L13 中的反池化层和反卷积层分别与前面 L5、L4、L3、L2、L1 中的池化层和卷积层相对应。

本文采用标定的钙化点特征作为标签,即特征模板为分割出钙化特征的二值化图像,如图 7 所示,有钙化图像钙化区域像素值为 255,其他区域像素值为 0;如果是无钙化图像,其对应的二值化图像将全黑。

由于 Alexnet_seg1 的输出不再是钙化和无钙化的两类标签,而是与原图大小相同的特征模板,因此设置 L14 用于降低特征维度,使其输出尺寸和原图大小一致(即为 224 × 224 × 3),输出层采用函数 sigmoid,其函数表达式如式(6)所示:
![]() |
接下来,对 Alexnet_seg1 进行训练,以特征模板作为标签,为使训练精确度更高,损失函数采用二次均方误差函数(mean squared squared error, MSSE)(以符号 MSSE 表示),其函数表达式如式(7)所示:
![]() |
训练集训练结束后,保留前 5 层 L1~L5 层权值不再变化,去掉 Alexnet_seg1 的 L9~L14 层,重新加入 L6~L8 的全连接层,即恢复成 Alexnet 结构。
再次输入相同的训练图像集进行训练,并以有无钙化点两类信息作为相应的标签,有即为 1,无即为 0。此次训练仅训练后 3 层 L6~L8 全连接层的权值,前面 L1~L5 层权值不再进行变化,训练结束后保留全部 8 层的权值,并将此网络命名为阿列克谢卷积神经网络 1(Alexnet-1)。
1.4 网络结构调整
卷积神经网络中卷积核的尺寸、数量以及卷积步长都对网络分类的准确性有着重要影响。一般情况下,较小的卷积核尺寸,较多的卷积核数量,较小的步长以及较多的卷积层数会使网络的性能有相应的提高,但是过多的卷积核和卷积层数也会造成过拟合以及训练速度减慢等弊端,所以需要将网络调整到一个既不占过多资源又能提高分类准确率的结构。
Alexnet 中,第三层和第四层的特征提取能力最强。因此,本文更改第三层和第四层的卷积核的数量,对其从 350 开始做步长为 2 的批处理,直至 512 为止,以计算不同卷积核数量下,网络分类的准确率。最终在卷积核数量为 390 时,网络的分类准确率达到最高。同时,由于本次实验仅分两类,分类数量较少。全连接层节点数过多也会导致分类的过拟合,因此本文将 L6、L7 中全连接层节点数分别设为 4 096、2 048、1 024、512 进行比较,最终发现节点数设为 1 024 时,分类准确率最高。因此将 Alexnet 中 L3、L4 层卷积核数量均调整为 390,L6、L7 的全连接层尺寸均改为 1 024,并将该网络命名为阿列克谢卷积神经网络 2(Alexnet-2)。
训练后对 Alexnet 和 Alexnet-2 的 L3、L4 以及 L5 的自编码还原的图像进行比较,如图 8、图 9 所示,Alexnet-2 的自编码还原图像中呈现出更多亮度较高、梯度较大的特征,这些均为钙化点判别所需特征,可见网络结构调整是有效的。


1.5 最终的网络结构
最后将 Alexnet-2 和 Alexnet-1 结合起来,即:先对 Alexnet-2 去掉 L6~L8 层,在后面加上逐层对应的反池化层和反卷积层,序列输入数据集图片并以特征模板进行训练。此网络命名为阿列克谢分割网络 2(Alexnet_seg2)。训练集训练结束后,保留 Alexnet_seg2 前 5 层卷积层及其权值不再变化,去掉 L9~L14 层,重新加入 L6~L8 层,然后输入数据集图片进行分类训练,此次仅训练 L6~L8 层的权值,此网络命名为阿列克谢卷积神经网络 3(Alexnet-3),Alexnet-3 的结构与 Alexnet-2 相同,但是其训练方法、各层参数与 Alexnet-2 又存在一定差异。
2 结果与分析
2.1 数据集和预处理
本文每张图片的钙化特征均由经验丰富的医生进行标定。最终经过筛选,共得到有钙化结节图片 2 104 张、无钙化结节图片 2 711 张。由于获得的超声图像中大部分包含血流特征,其颜色可能对判定造成影响,所以选择图像红绿蓝三个通道的最小值作为图像的灰度值,如图 10 所示。由于其他区域灰度不会发生变化,同时血流特征的最小灰度低于整张图像的平均灰度,因此不会对钙化特征判定造成干扰。

由于卷积神经网络训练需要大量样本,因此对全体有钙化结节图片 2 104 张、无钙化结节图片 2 711 张使用以下 4 种方法进行样本扩充,即对所有图片分别进行范围为 0°~360° 的随机角度旋转、施以倍数范围为 0.8~1 的随机比例缩小、施以倍数范围为 1~1.2 的随机比例放大以及镜面旋转。共得到有钙化结节图片 8 416 张、无钙化结节图片 10 844 张,使数据集总数扩充 4 倍的同时保持特征尺度不变性。
最后将每张图片以结节为中心、以结节最长长度为边长,截取包含一部分周边环境的正方形区域,作为最终数据集图像。将样本扩充以后的数据集图像均除以 255,使得每个像素值在 0 到 1 之间,用于几种卷积神经网络的分类实验测试。而取未经样本扩充的数据集,使用传统方法进行对照实验。
2.2 实验测试方法
实验采用高级神经网络库克拉斯(keras)搭建卷积神经网络。实验从有钙化结节图片 8 416 张、无钙化结节图片 10 844 张中各抽取每部分的 1/10 作为测试集,其余作为训练集,并循环进行 10 次训练和测试。
对 Alexnet-seg1 和 Alexnet-seg2 的训练,批尺寸设为 40,全体样本共被训练 150 次,对 Alexnet、Alexnet-1、Alexnet-2、Alexnet-3 等 4 个网络的训练,批尺寸设为 25,全体样本共被训练 200 次。10 次测试的判别准确数目之和以及判别准确率的结果,如表 1 所示。其中判别准确率的计算公式如式(8)所示:
![]() |

为了与本文方法对照,分别使用了钙化指数、局部大津阈值和最大极值稳定区域 3 种方法对扩充前的图像(即有钙化结节图片 2 104 张、无钙化结节图片 2 711 张)进行分类,判别准确数目和判别准确率如表 2 所示。

2.3 实验结果分析
从测试结果可以看出,使用 Alexnet 直接分类较传统方法判别准确率有着大幅提高,而先进行特征训练再进行分类训练的网络 Alexnet-1 和 Alexnet-3 较直接分类网络 Alexnet 和 Alexnet-2,准确率有着很大的提升,而同时网络结构的升级,也会提升准确率。
从图 8、图 9 可以看出,Alexnet 和 Alexnet-2 没有经过以特征模板作为标签进行训练的过程,其最终寻找的特征没有明显的倾向性,很难直接描述其找到的特征;Alexnet-1 和 Alexnet-3 经过了以特征模板作为标签进行训练的过程,两者的 L5 分割结果如图 11 所示,正是本文研究所需要的钙化特征,而最后进行的分类网络正是基于分割得到的特征进行分类,所以其分类的方向更加明确。升级以后的网络 Alexnet_seg2 其分割结果比原网络 Alexnet_seg1 更加清晰明确。研究结果表明,在进行少量类别的分类时,人工干预网络的训练,将其训练方向趋于所需判别的特征,其测试结果准确率会有明显提高。

3 总结
本文设计了一种基于卷积神经网络、适用于钙化特征提取的新方法,该方法通过先分割图像,后提取特征的方式,提高了钙化点判别准确率,为甲状腺结节良恶性识别提供了有用的分析工具,也可以作为计算机辅助诊断中甲状腺结节良恶性识别的参考方法。但目前使用的 Alexnet 结构较简单,分割分类的准确率没有达到最佳,还具有升级的空间,因此今后的研究方向是研究新的分割和分类网络,提高网络的性能,进而提高钙化点判别准确率。
致谢:感谢北京中日友好医院超声科提供超声图像以及钙化点标定的大力支持。