胰腺癌的诊断非常重要,而细胞抹片显微图像的病理分析是其诊断的主要手段。图像的准确自动分割和分类是病理分析的重要环节,因此本文提出了一种新的胰腺细胞抹片显微图像自动分割与分类算法。在分割方面,首先采用多特征 Mean-shift 聚类算法(MFMS)定位细胞核区域;接着采用弹性数学形态学结合角点检测的去粘连模型(CSM)对粘连重叠细胞核进行去粘连处理,实现了分割的准确性和鲁棒性。在分类方面,首先针对分割的细胞核提取了 4 个形状特征和 138 个不同颜色空间的纹理特征;然后结合支持向量机(SVM)和链式遗传算法(CAGA)实现封装式特征选择;最后将优选特征送入 SVM 进行分类,完成了胰腺细胞抹片显微图像的分类识别。本文采用了 15 幅图像一共 461 个细胞核进行测试。实验结果显示,本文算法可以实现不同类型的胰腺细胞抹片显微图像的自动分割与准确分类。就分割来说,本文算法可获得较高的正确率(93.46%±7.24%);就正常和癌变细胞的分类来说,本文算法可获得较高的分类正确率(96.55%±0.99%)、灵敏度(96.10%±3.08%)和特异度(96.80%±1.48%)。
引用本文: 王品, 刘倩倩, 王力锐, 李勇明, 刘书君, 颜芳. 多特征聚类与粘连分离模型的细胞抹片图像分割与分类. 生物医学工程学杂志, 2017, 34(4): 614-621. doi: 10.7507/1001-5515.201605004 复制
引言
作为消化道肿瘤发病率排名第二的胰腺癌,具有病情隐匿、发病凶险、难以治愈等特点。胰腺癌在我国的发病趋势逐渐接近欧美国家[1-2]。据相关报道,世界范围内的胰腺癌患者在 5 年时间内的存活率最高只有 5%[3]。现阶段胰腺癌的诊断方式多种多样,主要方法有细针穿刺获取细胞进行病理分析、影像学和超声内镜检查、肿瘤标志物和基因分子诊断等,其中细针穿刺获取细胞进行病理分析是诊断的重要手段[4-8]。传统人工病理分析方式主观性强,诊断正确率不稳定。为了减轻病理医生的工作量和提高诊断的客观性,近年来基于计算机技术的自动病理学辅助分析方式已开始用于胰腺细胞抹片显微图像,并逐渐成为胰腺癌检测和诊断的重要方法。
胰腺细胞抹片显微图像自动分析包括细胞核分割和分类两大部分。在分割方面,国内外文献中提到的大多数分割算法都是围绕分水岭、主动轮廓模型、基于像素分类或者是结合预处理和后处理的方法进行研究的。Plissiti 等[9]使用基于标记和彩色梯度图像的分水岭分割方法,发现会出现过分割的情况;Kim 等[10]和 George 等[11]利用标记分水岭对粘连的细胞抹片进行分割;还有研究采用监督机器学习和 k 均值聚类等分类方法来分割细胞抹片显微图像[12-13];其他一些方法如基于动态流的变形模型和辐射梯度向量流蛇模型等也被用于细胞抹片显微图像的分割[14-15]。上述研究的分割效果还有待改进,主要原因在于细胞图像的背景复杂、细胞核染色不均匀,以及对粘连重叠细胞核的准确分割线获取较难等。
在分类方面,目前公开研究文献中涉及的特征大多关于形态和纹理,涉及的分类算法主要包括支持向量机(support vector machine,SVM)、k 邻近算法(k-nearest neighbor,k-NN)、模糊 C 均值(fuzzy C-means,FCM)、人工神经网络以及它们的组合[11, 16-18]。这些算法大多没有包含特征选择,但是研究发现特征选择能够提高分类准确率和有效性评价的可靠性[18-19]。
本团队[20]在前期工作中对乳腺细胞切片图像进行了分割处理,取得了较好的效果。针对乳腺组织切片图像存在细胞粘连、细胞边界不清、细胞内部存在孔洞等问题,提出了一种基于小波多尺度区域生长和双策略去粘连模型(chain splitting model,CSM)的分割方法。本文胰腺细胞抹片图像与乳腺组织切片图像存在较大差别,细胞抹片显微图像中存在红细胞的干扰和细胞核染色不均匀的现象,并且细胞核与细胞质以及背景的密度差别较大。而 Mean-shift 聚类算法具有自适应性强、不需要先验知识、运行速度快、可有效去除复杂背景干扰等优点,因此本文提出了一种基于多特征的 Mean-shift 聚类算法(multi-feature Mean-shift,MFMS)来取代前期的小波多尺度区域生长以完成胰腺细胞核的定位。前期工作的 CSM 能有效去除粘连细胞,经过调参,可用于本文分割中去除细胞核的粘连。在分类方面,本文提取了 4 个形态特征和 138 个纹理特征作为初始多类型特征集,最后用链式遗传算法(chain-like agent genetic algorithm,CAGA)结合 SVM 来选取最优特征子集并进行分类识别。总的来说,本文算法分为两部分,第一部分为基于多特征 Mean-shift 聚类和粘连分离模型(MFMS&CSM)的细胞抹片图像自动分割算法;第二部分为基于 CAGA 和 SVM 的细胞抹片图像自动分类算法。
1 基于 MFMS&CSM 的细胞抹片图像自动分割算法
本分割算法主要由两部分组成。第一部分为多特征 Mean-shift 聚类的细胞核定位。首先将图像从 RGB 彩色空间映射到 Lab 彩色空间,并提取 a 和 b 两个颜色分量作为颜色特征,接着提取细胞图像的空间特征与颜色特征形成多特征,最后利用 Mean-shift 聚类算法实现多特征聚类提取出细胞核区域,并进行粘连判断筛选出单个细胞核和粘连细胞核。第二部分采用双策略去粘连模式对粘连重叠细胞核进行分割,采用弹性数学形态学方法和角点检测算法对粘连程度不同的细胞核进行分割。该分割算法的主要流程如图 1 所示。

1.1 基于多特征 Mean-shift 聚类的粗分割算法
细胞抹片显微图像中细胞核的粗分割是细胞核分割算法中的第一步,主要包括细胞核的定位和单个细胞核与粘连细胞核的区分。粗分割的具体实现过程描述如下:首先把图像从 RGB 颜色空间映射到 Lab 颜色空间提取每个像素的 a 和 b 分量作为颜色特征,同时提取细胞图像的空间信息作为空间特征;接着用 Mean-shift 聚类算法对图像 f 的特征
进行聚类实现细胞核所在区域的提取,并对提取的细胞核区域的边界进行形态学操作,以将其结果作为掩膜模板;最后用模板把原始彩色胰腺细胞抹片图像转化为细胞核为目标前景、其他为背景的二值区域,即为细胞核定位的结果,并对单细胞核与粘连细胞核进行分离。
1.1.1 图像像素点的多特征提取 在数字图像处理中,为保留尽量宽阔的色域和丰富的色彩,常选择将 RGB 颜色空间映射到 Lab 颜色空间[21]。首先将图像 f 的颜色空间从 RGB 映射成 Lab 得到 f Lab 图像,然后对 f Lab 提取 a 和 b 分量作为颜色特征,分别用 LabA 和 LabB 表示。图像 f 的像素为 512×384,像素点(x,y)的位置特征 X、Y 表示如下:
![]() |
其中
表示取最大值,m 和 n 分别表示图像行和列的大小,ωxy 表示空间位置特征的权重,一般在 [0 1] 取值,本文取值为 1。将提取的多特征进行高斯平滑处理,则图像 f 基于像素点的多特征向量可表示为:
。
1.1.2 基于多特征 Mean-shift 聚类的细胞核定位 通过观察发现,胰腺细胞核、细胞质以及背景三者之间的密度分布是不一样的,因此考虑用基于密度的聚类算法来分割胰腺细胞核。其中 Mean-shift 算法就是一种有效的密度聚类迭代统计算法,由 Fuku-naga 等[22]于 1975 年在一篇基于非参数概率密度函数的梯度估计的文献中提出。
通过对图像像素点提取颜色和空间位置信息,得到 4 个特征向量,并给定 4 维空间 R4 中图像像素样本点 xi,
,则在像素点 x 处的 Mean-shift 向量可表示如下:
![]() |
其中 x 表示被平滑点的像素值;
表示以被平滑点为中心、边长为 2r 的正方形区域内的像素点的值;r 称为空域带宽;K(I)为核函数,实现对区域 Sh 的大小进行控制;Sh 为高维球区域,h 为高维球区域的半径;k 指在 512×384 个像素样本点中有 k 个点落入到高维球区域中。从表达式(2)中可知,(xi–x)表示像素点 xi 相对于中心点 x 的偏移量,其中核函数规定了 Mean-shift 向量的贡献程度,本文选取的核函数如下:
![]() |
式中 d=4,v 表示 4 维空间单位超球的体积。Mean-shift 向量 Mh(x)是对落入球形区域 Sh 中的 k 个样本点相对于区域中心点 x 的偏移向量平均数。对图像 f 的概率密度函数 f(x)进行采样可以得到样本点 xi。算法具体实现步骤如下:设像素点窗口(半径为 r)内外的像素点集合分别用 fsa 和 fsna 表示,聚类的数目用 K 表示,聚类的中心用 Ck 表示。
步骤 1:从图像 fsna 中随机选择一个点 x 作为一次聚类的起始点,该点的特征作为初始聚类中心。
步骤 2:以 x 为中心、r 为半径建立超球体 Sh 区域,然后计算 Sh 区域内满足要求的点的个数,同时给这些点投票,并把这些点归为 fsa。
步骤 3:计算 Mh(x),若
,则聚类平移量已收敛,转到步骤 4;否则,
,转到步骤 2,本文
。
步骤 4:当满足 K=0 或 K>0 且不存在一个 Ck 使得不等式
成立时,则进行如下操作:K=K+1,Ck=x 记录像素点在窗口平移过程中得到的票数;若 K>0 且存在一个 Ck 满足 j =
使得不等式
成立,则将 Ck 类合并到第 j 类中,并进行如下操作:
,并将像素点得到的票数相加。
步骤 5:判断样本点是否已经处理完
,如果
,则转到步骤 1,否则转到步骤 6。
步骤 6:根据聚类过程中得到的票数,将像素点划归到得到票数最多的类。
步骤 7:输出聚类数目 K、聚类中心 Ck 以及每类像素点序号,至此算法结束。
在 Mean-shift 聚类算法中,针对每一幅图像聚类窗口大小 r 差异,提出了基于类内平均散度(AS)及类间平均分离度(AD)准则来自动寻找最佳聚类数目。AS 和 AD 定义如下:
![]() |
式中 Nk 表示属于第 k 类的像素点个数。类内平均散度是指同类像素点之间的差异,其值越小,则像素点之间就越相似。类间平均分离度是各个簇中心之间的差异,其值越大,则类与类之间的差异性也就越大。于是用 AR=AS/AD表达式来确定 K 的值,即较小的 AR 值对应的 K 值被选中,实现聚类算法的自适应性分割。
在对细胞核进行正确定位后,需要对定位区域进行单细胞核和粘连细胞核的判断,以便后面只对粘连细胞核区域进行相应的操作,从而减少算法的时间消耗。单细胞核与粘连细胞核分离的具体步骤如下:
步骤 1:计算每一个区域的圆形度 R=
,A 为区域面积,P 为区域周长。
步骤 2:保存圆形度 R 大于 t 的区域作为分割的区域 f out,其他的作为未分割区域 f usg。
步骤 3:计算 f out 中区域的平均面积作为初始的面积阈值 Ag。
步骤 4:计算 f usg 中每一个区域的面积,然后与之前的面积阈值 Ag 进行比较,大于初始面积的 p 倍作为粘连的细胞核 f ove,需进行进一步的分割,其他的细胞核区域作为 f out 输出。
经过对样本图像和实验结果的分析,实验中参数 t 和 p 的取值分别为 0.6 和 1.2。
1.2 基于粘连分离模型的细分割算法
胰腺细胞抹片显微图像中非常显著的特点是粘连现象频繁和严重,不同情况粘连程度不一。为了解决这些问题,本文引入了作者前期提出的粘连分离模型,经过调参处理,来对本文图像进行分割处理,相关介绍详见文献[20]。
2 基于 CAGA 和 SVM 的细胞抹片图像自动分类算法
有意义的特征能使细胞图像的分类具有较好的效果。在以往的研究中,形态、比色法、纹理和结构特征已被用于特征提取和特征评价以实现细胞或细胞图像的分类。本文提取形状特征和不同颜色空间的纹理特征,并用 CAGA 结合 SVM 来筛选最优特征子集,以便获得更好的分类效果,同时消耗时间较少。
2.1 特征提取
正常细胞核和癌变细胞核的形态特征存在一定的差异,故提取了 4 个形态特征,分别是面积(area)、周长(perimeter)、离心率(eccentricity)和圆形度(roundness circularity)。纹理特征描述了一个数字化的显微图像的像素灰度级的空间布局[23-24],首先计算图像中每个像素点的局部特征,然后从局部特征的分布导出一组统计特征,从而得到纹理特征。本研究选取的一阶统计特征为灰度直方图的均值,设
表示一个随机变量的灰度级,
表示相应的直方图,L 表示不同的灰度级,统计矩得到的纹理特征是:
(1)平均灰度级方差(mean value):
![]() |
(2)标准差(standard deviation):
![]() |
(3)平滑度(evenness):
![]() |
(4)三阶矩(third moment):
![]() |
(5)区域灰度一致性(uniformity):
![]() |
(6)灰度变化量度熵(entropy):
![]() |
颜色空间分别为 RGB、HSV、HSI、YIQ、YCrCb、XYZ、Lab、灰度空间和增强灰度空间。因此,共提取了不同颜色空间的 138 个纹理特征。
2.2 特征选择
待选特征集包括所有的形态特征和纹理特征。无论这些特征是否有显著差异,几乎所有的文献中都没有进行特征选择就直接进行正常和癌变细胞的分类识别,这将导致分类性能较差并耗费更多的时间[21]。文献中提到 CAGA 结合 SVM 的分类算法获得了满意的分类准确率[25],故本文采用此方法选择最优特征子集。CAGA 算法描述如下:
输入:拟提取的多种类型的特征合并在一起得到待选特征集设为
。
初始化:s(t)表示某一代的智能体,个数为 s,每个智能体(即个体)长度为 l,代表 l 个特征序号,M 为设置的最大迭代次数。
过程:(1)对
做样本处理,得到样本特征矩阵
,w 代表样本数,l 代表特征数,即智能体的长度。
(2)将样本矩阵随机划分为训练样本矩阵 data_fea_train()、验证样本矩阵 data_fea_vali-dation()、测试样本矩阵 data_fea_test()。
(3)根据初始的第 q 个智能体,对(2)中的验证样本矩阵分别进行裁剪,生成该智能体所对应的验证特征样本矩阵。
(4)将 data_fea_train() 送入 SVM 进行训练,然后基于训练后的 SVM 和 data_fea_validation()ithAgent 输出测试准确率作为该智能体的适应度值。
(5)最后计算所有代的适应度值,遗传操作(邻近竞争选择、自适应交叉、自适应变异),结果是否满足确定的状态,如果是就接着下一步,如果否就返回跳出算法。
(6)输出最优智能体 p(t)对应的最优特征子集。
(7)基于最优特征子集和测试样本 data_fea_test() 得到裁剪后的特征样本矩阵 data_fea_test()p(t),送入训练后的 SVM 进行分类,得到分类准确率。
结束
3 实验结果与分析
本文的胰腺细胞抹片图像来源于西南医院,共采集到 10 个患者 15 幅胰腺细胞抹片显微图像。为了表明本文算法的有效性,一共组织了 4 组实验。第一组实验用于显示本文分割算法的各个分割中间结果;第二组实验将本文分割方法与其它有代表性的分割方法进行效果对比;第三组实验对比统计了本文算法和被比较算法的总的分割准确率;第四组实验针对正常细胞核和癌变细胞核,统计了分类准确率、敏感度和特异度。
3.1 MFMS&CSM 分割算法中间结果与分析
图 2 显示了本文分割算法的各个分割中间结果,原图选自 15 幅图像中第 7 幅图像的部分区域。从分割步骤图可以看出,多特征 Mean-shift 聚类能够把胰腺细胞核与其它背景很好地分割开来(图中 Mean-shift 提取细胞核区域和图像二值化);聚类后能得到完整、无孔洞和边缘定位准确的细胞核(图中细胞核区域规整);针对粘连重叠细胞核的分割,可以得到准确的分割线(图中分割结果)。整个分割算法的相关参数均可自适应调整,无需人为干预。

3.2 不同分割算法的分割结果比较
图 3 为本文算法 MFMS&CSM 与文献[9]和[13]的最终分割结果对比。这两篇文献都是关于细胞抹片显微图像分割较新的文献,并且分割方法可以重现,因此具有较好的比较意义。为了更公平地比较,我们选取了这两种方法中较好的结果与本文方法的结果进行比较。分割结果如图 3 所示。

从图 3 可以看出,对于背景简单、细胞核染色均匀的细胞图像,被比较算法存在少量错误分割,而本文的分割算法基本无错误分割,见图中黄色椭圆区域(如图像 4)。对于背景复杂、细胞核形态不一、染色不均匀的细胞图像,被比较算法均存在很多错误分割现象,而本文算法仍然有较准确的分割结果(如图像 7)。
3.3 不同分割算法分割的准确性统计
在细胞图像分割结果统计中,分割错误的类型主要有过分割、错误分割、未分割、多分割和欠分割五种。为了更为客观地定量评估分割结果,将得到的分割结果与人工分割金标准进行比较,并对分割正确的细胞核个数(true number,TN)、分割错误的细胞核个数(false number,FN)和实际细胞核个数(real number,RN)进行统计。分割准确性评价指标主要采用正确率(segmentation accuracy,SA)和过分割、错误分割、未分割、多分割以及欠分割的个数来表示,正确率定义为:SA=TN/RN。
将本文算法和现有两种主流算法分别用于所有胰腺细胞抹片图像的处理,并对各算法的分割结果进行统计。本文算法在 15 幅胰腺细胞图像上的最高分割正确率为 100%,最低分割准确率为 80.8%。三种分割方法总的分割准确率统计结果如表 1 所示。从分割结果可知,本文分割算法具有精度较高、稳定和普适性好等优点。

3.4 分类结果与分析
对于医学诊断分类器的选择取决于样本大小和数据集的相关特征。在本文中细胞核分为两类:正常细胞核和癌变细胞核。在进行分类性能评估时,采用以下统计量进行分类性能评估,表达式为:
![]() |
此处 TP、TN、FP 和 FN 分别表示真阳性、真阴性、假阳性和假阴性。本文采用 CAGA结合SVM 方法来选择特征,获得了很好的分类效果。按细胞核进行分类,在金标准中正常细胞核有 174 个,癌变细胞核有 287 个。为了使分类结果具有说服力,进行了 10 次实验,每一次迭代 30 次。记录 10 次特征选择结果,其中选择出特征个数的平均值为 72。本文对 CAGA结合SVM 特征选择算法选出的特征进行了分析,从选中的特征中挑选了两个特征,它们分别是 YCrCb_Cb_e 和 I_Y_e,分别代表 YCrCb 颜色空间 B 分量和 XYZ 颜色空间 Y 分量的熵。该特征的柱状图如图 4 所示。从图中可以看出,两个特征下,正常细胞核和癌变细胞核之间具有显著差异,因此本文的 CAGA结合SVM 特征选择算法能筛选出有效的特征,具有良好的分类性能。

根据胰腺细胞核的分类结果,计算正确率为 96.55%±0.99%,灵敏度为 96.10%±3.08%,特异度为 96.80%±1.48%。从这个结果可见,本文提出的算法能够有效地分类正常和癌变细胞核,且分类准确率达到了 96.55%。此外,三项指标的标准差都较小,表明分类具有很强的稳定性。
4 总结
胰腺细胞抹片显微图像的自动分割和分类非常重要,但至今仍未解决。本文针对细胞抹片分割的难点,设计了一种基于多特征 Mean-shift 聚类结合粘连分离模型的胰腺细胞抹片显微图像自动分割算法,同时对胰腺细胞抹片显微图像的分类识别进行探讨,实现了胰腺细胞抹片显微图像细胞核的自动分割和分类。该方法首先采用多特征 Mean-shift 算法提取细胞核区域,然后采用弹性数学形态学和角点检测算法分割粘连区域。通过与其他分割算法进行比较,证实提出的方法有较高的准确率。基于分割出的细胞核的形态和纹理一共 142 个特征作为初始特征集,然后用 CAGA 结合 SVM 选择最优特征子集用于分类识别。分类结果显示选择的特征能够显著地区分正常和癌变细胞核,并且有较高的分类准确率。在以后的工作中,将采用更多的图像进一步测试本文算法性能;同时,算法的自适应和鲁棒性也将进一步被测试和改善。
引言
作为消化道肿瘤发病率排名第二的胰腺癌,具有病情隐匿、发病凶险、难以治愈等特点。胰腺癌在我国的发病趋势逐渐接近欧美国家[1-2]。据相关报道,世界范围内的胰腺癌患者在 5 年时间内的存活率最高只有 5%[3]。现阶段胰腺癌的诊断方式多种多样,主要方法有细针穿刺获取细胞进行病理分析、影像学和超声内镜检查、肿瘤标志物和基因分子诊断等,其中细针穿刺获取细胞进行病理分析是诊断的重要手段[4-8]。传统人工病理分析方式主观性强,诊断正确率不稳定。为了减轻病理医生的工作量和提高诊断的客观性,近年来基于计算机技术的自动病理学辅助分析方式已开始用于胰腺细胞抹片显微图像,并逐渐成为胰腺癌检测和诊断的重要方法。
胰腺细胞抹片显微图像自动分析包括细胞核分割和分类两大部分。在分割方面,国内外文献中提到的大多数分割算法都是围绕分水岭、主动轮廓模型、基于像素分类或者是结合预处理和后处理的方法进行研究的。Plissiti 等[9]使用基于标记和彩色梯度图像的分水岭分割方法,发现会出现过分割的情况;Kim 等[10]和 George 等[11]利用标记分水岭对粘连的细胞抹片进行分割;还有研究采用监督机器学习和 k 均值聚类等分类方法来分割细胞抹片显微图像[12-13];其他一些方法如基于动态流的变形模型和辐射梯度向量流蛇模型等也被用于细胞抹片显微图像的分割[14-15]。上述研究的分割效果还有待改进,主要原因在于细胞图像的背景复杂、细胞核染色不均匀,以及对粘连重叠细胞核的准确分割线获取较难等。
在分类方面,目前公开研究文献中涉及的特征大多关于形态和纹理,涉及的分类算法主要包括支持向量机(support vector machine,SVM)、k 邻近算法(k-nearest neighbor,k-NN)、模糊 C 均值(fuzzy C-means,FCM)、人工神经网络以及它们的组合[11, 16-18]。这些算法大多没有包含特征选择,但是研究发现特征选择能够提高分类准确率和有效性评价的可靠性[18-19]。
本团队[20]在前期工作中对乳腺细胞切片图像进行了分割处理,取得了较好的效果。针对乳腺组织切片图像存在细胞粘连、细胞边界不清、细胞内部存在孔洞等问题,提出了一种基于小波多尺度区域生长和双策略去粘连模型(chain splitting model,CSM)的分割方法。本文胰腺细胞抹片图像与乳腺组织切片图像存在较大差别,细胞抹片显微图像中存在红细胞的干扰和细胞核染色不均匀的现象,并且细胞核与细胞质以及背景的密度差别较大。而 Mean-shift 聚类算法具有自适应性强、不需要先验知识、运行速度快、可有效去除复杂背景干扰等优点,因此本文提出了一种基于多特征的 Mean-shift 聚类算法(multi-feature Mean-shift,MFMS)来取代前期的小波多尺度区域生长以完成胰腺细胞核的定位。前期工作的 CSM 能有效去除粘连细胞,经过调参,可用于本文分割中去除细胞核的粘连。在分类方面,本文提取了 4 个形态特征和 138 个纹理特征作为初始多类型特征集,最后用链式遗传算法(chain-like agent genetic algorithm,CAGA)结合 SVM 来选取最优特征子集并进行分类识别。总的来说,本文算法分为两部分,第一部分为基于多特征 Mean-shift 聚类和粘连分离模型(MFMS&CSM)的细胞抹片图像自动分割算法;第二部分为基于 CAGA 和 SVM 的细胞抹片图像自动分类算法。
1 基于 MFMS&CSM 的细胞抹片图像自动分割算法
本分割算法主要由两部分组成。第一部分为多特征 Mean-shift 聚类的细胞核定位。首先将图像从 RGB 彩色空间映射到 Lab 彩色空间,并提取 a 和 b 两个颜色分量作为颜色特征,接着提取细胞图像的空间特征与颜色特征形成多特征,最后利用 Mean-shift 聚类算法实现多特征聚类提取出细胞核区域,并进行粘连判断筛选出单个细胞核和粘连细胞核。第二部分采用双策略去粘连模式对粘连重叠细胞核进行分割,采用弹性数学形态学方法和角点检测算法对粘连程度不同的细胞核进行分割。该分割算法的主要流程如图 1 所示。

1.1 基于多特征 Mean-shift 聚类的粗分割算法
细胞抹片显微图像中细胞核的粗分割是细胞核分割算法中的第一步,主要包括细胞核的定位和单个细胞核与粘连细胞核的区分。粗分割的具体实现过程描述如下:首先把图像从 RGB 颜色空间映射到 Lab 颜色空间提取每个像素的 a 和 b 分量作为颜色特征,同时提取细胞图像的空间信息作为空间特征;接着用 Mean-shift 聚类算法对图像 f 的特征
进行聚类实现细胞核所在区域的提取,并对提取的细胞核区域的边界进行形态学操作,以将其结果作为掩膜模板;最后用模板把原始彩色胰腺细胞抹片图像转化为细胞核为目标前景、其他为背景的二值区域,即为细胞核定位的结果,并对单细胞核与粘连细胞核进行分离。
1.1.1 图像像素点的多特征提取 在数字图像处理中,为保留尽量宽阔的色域和丰富的色彩,常选择将 RGB 颜色空间映射到 Lab 颜色空间[21]。首先将图像 f 的颜色空间从 RGB 映射成 Lab 得到 f Lab 图像,然后对 f Lab 提取 a 和 b 分量作为颜色特征,分别用 LabA 和 LabB 表示。图像 f 的像素为 512×384,像素点(x,y)的位置特征 X、Y 表示如下:
![]() |
其中
表示取最大值,m 和 n 分别表示图像行和列的大小,ωxy 表示空间位置特征的权重,一般在 [0 1] 取值,本文取值为 1。将提取的多特征进行高斯平滑处理,则图像 f 基于像素点的多特征向量可表示为:
。
1.1.2 基于多特征 Mean-shift 聚类的细胞核定位 通过观察发现,胰腺细胞核、细胞质以及背景三者之间的密度分布是不一样的,因此考虑用基于密度的聚类算法来分割胰腺细胞核。其中 Mean-shift 算法就是一种有效的密度聚类迭代统计算法,由 Fuku-naga 等[22]于 1975 年在一篇基于非参数概率密度函数的梯度估计的文献中提出。
通过对图像像素点提取颜色和空间位置信息,得到 4 个特征向量,并给定 4 维空间 R4 中图像像素样本点 xi,
,则在像素点 x 处的 Mean-shift 向量可表示如下:
![]() |
其中 x 表示被平滑点的像素值;
表示以被平滑点为中心、边长为 2r 的正方形区域内的像素点的值;r 称为空域带宽;K(I)为核函数,实现对区域 Sh 的大小进行控制;Sh 为高维球区域,h 为高维球区域的半径;k 指在 512×384 个像素样本点中有 k 个点落入到高维球区域中。从表达式(2)中可知,(xi–x)表示像素点 xi 相对于中心点 x 的偏移量,其中核函数规定了 Mean-shift 向量的贡献程度,本文选取的核函数如下:
![]() |
式中 d=4,v 表示 4 维空间单位超球的体积。Mean-shift 向量 Mh(x)是对落入球形区域 Sh 中的 k 个样本点相对于区域中心点 x 的偏移向量平均数。对图像 f 的概率密度函数 f(x)进行采样可以得到样本点 xi。算法具体实现步骤如下:设像素点窗口(半径为 r)内外的像素点集合分别用 fsa 和 fsna 表示,聚类的数目用 K 表示,聚类的中心用 Ck 表示。
步骤 1:从图像 fsna 中随机选择一个点 x 作为一次聚类的起始点,该点的特征作为初始聚类中心。
步骤 2:以 x 为中心、r 为半径建立超球体 Sh 区域,然后计算 Sh 区域内满足要求的点的个数,同时给这些点投票,并把这些点归为 fsa。
步骤 3:计算 Mh(x),若
,则聚类平移量已收敛,转到步骤 4;否则,
,转到步骤 2,本文
。
步骤 4:当满足 K=0 或 K>0 且不存在一个 Ck 使得不等式
成立时,则进行如下操作:K=K+1,Ck=x 记录像素点在窗口平移过程中得到的票数;若 K>0 且存在一个 Ck 满足 j =
使得不等式
成立,则将 Ck 类合并到第 j 类中,并进行如下操作:
,并将像素点得到的票数相加。
步骤 5:判断样本点是否已经处理完
,如果
,则转到步骤 1,否则转到步骤 6。
步骤 6:根据聚类过程中得到的票数,将像素点划归到得到票数最多的类。
步骤 7:输出聚类数目 K、聚类中心 Ck 以及每类像素点序号,至此算法结束。
在 Mean-shift 聚类算法中,针对每一幅图像聚类窗口大小 r 差异,提出了基于类内平均散度(AS)及类间平均分离度(AD)准则来自动寻找最佳聚类数目。AS 和 AD 定义如下:
![]() |
式中 Nk 表示属于第 k 类的像素点个数。类内平均散度是指同类像素点之间的差异,其值越小,则像素点之间就越相似。类间平均分离度是各个簇中心之间的差异,其值越大,则类与类之间的差异性也就越大。于是用 AR=AS/AD表达式来确定 K 的值,即较小的 AR 值对应的 K 值被选中,实现聚类算法的自适应性分割。
在对细胞核进行正确定位后,需要对定位区域进行单细胞核和粘连细胞核的判断,以便后面只对粘连细胞核区域进行相应的操作,从而减少算法的时间消耗。单细胞核与粘连细胞核分离的具体步骤如下:
步骤 1:计算每一个区域的圆形度 R=
,A 为区域面积,P 为区域周长。
步骤 2:保存圆形度 R 大于 t 的区域作为分割的区域 f out,其他的作为未分割区域 f usg。
步骤 3:计算 f out 中区域的平均面积作为初始的面积阈值 Ag。
步骤 4:计算 f usg 中每一个区域的面积,然后与之前的面积阈值 Ag 进行比较,大于初始面积的 p 倍作为粘连的细胞核 f ove,需进行进一步的分割,其他的细胞核区域作为 f out 输出。
经过对样本图像和实验结果的分析,实验中参数 t 和 p 的取值分别为 0.6 和 1.2。
1.2 基于粘连分离模型的细分割算法
胰腺细胞抹片显微图像中非常显著的特点是粘连现象频繁和严重,不同情况粘连程度不一。为了解决这些问题,本文引入了作者前期提出的粘连分离模型,经过调参处理,来对本文图像进行分割处理,相关介绍详见文献[20]。
2 基于 CAGA 和 SVM 的细胞抹片图像自动分类算法
有意义的特征能使细胞图像的分类具有较好的效果。在以往的研究中,形态、比色法、纹理和结构特征已被用于特征提取和特征评价以实现细胞或细胞图像的分类。本文提取形状特征和不同颜色空间的纹理特征,并用 CAGA 结合 SVM 来筛选最优特征子集,以便获得更好的分类效果,同时消耗时间较少。
2.1 特征提取
正常细胞核和癌变细胞核的形态特征存在一定的差异,故提取了 4 个形态特征,分别是面积(area)、周长(perimeter)、离心率(eccentricity)和圆形度(roundness circularity)。纹理特征描述了一个数字化的显微图像的像素灰度级的空间布局[23-24],首先计算图像中每个像素点的局部特征,然后从局部特征的分布导出一组统计特征,从而得到纹理特征。本研究选取的一阶统计特征为灰度直方图的均值,设
表示一个随机变量的灰度级,
表示相应的直方图,L 表示不同的灰度级,统计矩得到的纹理特征是:
(1)平均灰度级方差(mean value):
![]() |
(2)标准差(standard deviation):
![]() |
(3)平滑度(evenness):
![]() |
(4)三阶矩(third moment):
![]() |
(5)区域灰度一致性(uniformity):
![]() |
(6)灰度变化量度熵(entropy):
![]() |
颜色空间分别为 RGB、HSV、HSI、YIQ、YCrCb、XYZ、Lab、灰度空间和增强灰度空间。因此,共提取了不同颜色空间的 138 个纹理特征。
2.2 特征选择
待选特征集包括所有的形态特征和纹理特征。无论这些特征是否有显著差异,几乎所有的文献中都没有进行特征选择就直接进行正常和癌变细胞的分类识别,这将导致分类性能较差并耗费更多的时间[21]。文献中提到 CAGA 结合 SVM 的分类算法获得了满意的分类准确率[25],故本文采用此方法选择最优特征子集。CAGA 算法描述如下:
输入:拟提取的多种类型的特征合并在一起得到待选特征集设为
。
初始化:s(t)表示某一代的智能体,个数为 s,每个智能体(即个体)长度为 l,代表 l 个特征序号,M 为设置的最大迭代次数。
过程:(1)对
做样本处理,得到样本特征矩阵
,w 代表样本数,l 代表特征数,即智能体的长度。
(2)将样本矩阵随机划分为训练样本矩阵 data_fea_train()、验证样本矩阵 data_fea_vali-dation()、测试样本矩阵 data_fea_test()。
(3)根据初始的第 q 个智能体,对(2)中的验证样本矩阵分别进行裁剪,生成该智能体所对应的验证特征样本矩阵。
(4)将 data_fea_train() 送入 SVM 进行训练,然后基于训练后的 SVM 和 data_fea_validation()ithAgent 输出测试准确率作为该智能体的适应度值。
(5)最后计算所有代的适应度值,遗传操作(邻近竞争选择、自适应交叉、自适应变异),结果是否满足确定的状态,如果是就接着下一步,如果否就返回跳出算法。
(6)输出最优智能体 p(t)对应的最优特征子集。
(7)基于最优特征子集和测试样本 data_fea_test() 得到裁剪后的特征样本矩阵 data_fea_test()p(t),送入训练后的 SVM 进行分类,得到分类准确率。
结束
3 实验结果与分析
本文的胰腺细胞抹片图像来源于西南医院,共采集到 10 个患者 15 幅胰腺细胞抹片显微图像。为了表明本文算法的有效性,一共组织了 4 组实验。第一组实验用于显示本文分割算法的各个分割中间结果;第二组实验将本文分割方法与其它有代表性的分割方法进行效果对比;第三组实验对比统计了本文算法和被比较算法的总的分割准确率;第四组实验针对正常细胞核和癌变细胞核,统计了分类准确率、敏感度和特异度。
3.1 MFMS&CSM 分割算法中间结果与分析
图 2 显示了本文分割算法的各个分割中间结果,原图选自 15 幅图像中第 7 幅图像的部分区域。从分割步骤图可以看出,多特征 Mean-shift 聚类能够把胰腺细胞核与其它背景很好地分割开来(图中 Mean-shift 提取细胞核区域和图像二值化);聚类后能得到完整、无孔洞和边缘定位准确的细胞核(图中细胞核区域规整);针对粘连重叠细胞核的分割,可以得到准确的分割线(图中分割结果)。整个分割算法的相关参数均可自适应调整,无需人为干预。

3.2 不同分割算法的分割结果比较
图 3 为本文算法 MFMS&CSM 与文献[9]和[13]的最终分割结果对比。这两篇文献都是关于细胞抹片显微图像分割较新的文献,并且分割方法可以重现,因此具有较好的比较意义。为了更公平地比较,我们选取了这两种方法中较好的结果与本文方法的结果进行比较。分割结果如图 3 所示。

从图 3 可以看出,对于背景简单、细胞核染色均匀的细胞图像,被比较算法存在少量错误分割,而本文的分割算法基本无错误分割,见图中黄色椭圆区域(如图像 4)。对于背景复杂、细胞核形态不一、染色不均匀的细胞图像,被比较算法均存在很多错误分割现象,而本文算法仍然有较准确的分割结果(如图像 7)。
3.3 不同分割算法分割的准确性统计
在细胞图像分割结果统计中,分割错误的类型主要有过分割、错误分割、未分割、多分割和欠分割五种。为了更为客观地定量评估分割结果,将得到的分割结果与人工分割金标准进行比较,并对分割正确的细胞核个数(true number,TN)、分割错误的细胞核个数(false number,FN)和实际细胞核个数(real number,RN)进行统计。分割准确性评价指标主要采用正确率(segmentation accuracy,SA)和过分割、错误分割、未分割、多分割以及欠分割的个数来表示,正确率定义为:SA=TN/RN。
将本文算法和现有两种主流算法分别用于所有胰腺细胞抹片图像的处理,并对各算法的分割结果进行统计。本文算法在 15 幅胰腺细胞图像上的最高分割正确率为 100%,最低分割准确率为 80.8%。三种分割方法总的分割准确率统计结果如表 1 所示。从分割结果可知,本文分割算法具有精度较高、稳定和普适性好等优点。

3.4 分类结果与分析
对于医学诊断分类器的选择取决于样本大小和数据集的相关特征。在本文中细胞核分为两类:正常细胞核和癌变细胞核。在进行分类性能评估时,采用以下统计量进行分类性能评估,表达式为:
![]() |
此处 TP、TN、FP 和 FN 分别表示真阳性、真阴性、假阳性和假阴性。本文采用 CAGA结合SVM 方法来选择特征,获得了很好的分类效果。按细胞核进行分类,在金标准中正常细胞核有 174 个,癌变细胞核有 287 个。为了使分类结果具有说服力,进行了 10 次实验,每一次迭代 30 次。记录 10 次特征选择结果,其中选择出特征个数的平均值为 72。本文对 CAGA结合SVM 特征选择算法选出的特征进行了分析,从选中的特征中挑选了两个特征,它们分别是 YCrCb_Cb_e 和 I_Y_e,分别代表 YCrCb 颜色空间 B 分量和 XYZ 颜色空间 Y 分量的熵。该特征的柱状图如图 4 所示。从图中可以看出,两个特征下,正常细胞核和癌变细胞核之间具有显著差异,因此本文的 CAGA结合SVM 特征选择算法能筛选出有效的特征,具有良好的分类性能。

根据胰腺细胞核的分类结果,计算正确率为 96.55%±0.99%,灵敏度为 96.10%±3.08%,特异度为 96.80%±1.48%。从这个结果可见,本文提出的算法能够有效地分类正常和癌变细胞核,且分类准确率达到了 96.55%。此外,三项指标的标准差都较小,表明分类具有很强的稳定性。
4 总结
胰腺细胞抹片显微图像的自动分割和分类非常重要,但至今仍未解决。本文针对细胞抹片分割的难点,设计了一种基于多特征 Mean-shift 聚类结合粘连分离模型的胰腺细胞抹片显微图像自动分割算法,同时对胰腺细胞抹片显微图像的分类识别进行探讨,实现了胰腺细胞抹片显微图像细胞核的自动分割和分类。该方法首先采用多特征 Mean-shift 算法提取细胞核区域,然后采用弹性数学形态学和角点检测算法分割粘连区域。通过与其他分割算法进行比较,证实提出的方法有较高的准确率。基于分割出的细胞核的形态和纹理一共 142 个特征作为初始特征集,然后用 CAGA 结合 SVM 选择最优特征子集用于分类识别。分类结果显示选择的特征能够显著地区分正常和癌变细胞核,并且有较高的分类准确率。在以后的工作中,将采用更多的图像进一步测试本文算法性能;同时,算法的自适应和鲁棒性也将进一步被测试和改善。