β 淀粉样蛋白(Aβ)沉积是阿尔茨海默症(AD)的重要防治靶点,在脑中及早发现 Aβ 蛋白沉积是 AD 早期诊断的关键。磁共振成像(MRI)是一种理想成像方式,但不能直接显示图像中存在的沉积信息。本文基于过滤式和封装式的选择模式引入链式智能体遗传算法(CAGA)、主成分分析(PCA)、支持向量机(SVM)和随机森林(RF),构建 6 种特征学习分类算法,通过像素特征优选来实现 Aβ 蛋白沉积信息(分布)的检测。首先,分割脑磁共振(MR)图像中的脑组织;然后提取脑组织中的像素值形成像素特征向量;接着设计特征学习分类算法对像素实现特征优选,并基于投票机制得到一组最终最优特征向量;最后采用弹性映射方法将最优像素特征向量映射到脑MR图像上,并标记出对应的像素点,从而显示出 Aβ 蛋白沉积的分布。实验结果表明,本文的像素特征学习方法可提取并显示 Aβ 蛋白沉积信息,最高分类准确率可达到 80% 以上,表明该方法是可行和有效的。本文从脑 MR 图像中检测的 Aβ 沉积信息将有助于提高基于 MR 的 AD 诊断准确率。
引用本文: 颜芳, 李勇明, 朱雪茹, 汪洁, 王品, 李帆, 邱明国, 覃剑. 基于像素特征学习的磁共振图像中 β 淀粉样蛋白沉积信息检测算法. 生物医学工程学杂志, 2017, 34(3): 431-438. doi: 10.7507/1001-5515.201603061 复制
引言
阿尔茨海默症(Alzheimer’s disease,AD)是常见的早老性痴呆疾病。AD 患者的最终结局是痴呆,它是一种原因不明的、进行性的、中枢神经系统的退行性疾病,其重要病理特征为大脑皮层和海马出现 β 淀粉样蛋白(amyloid β-protein,Aβ)沉积,逐渐聚集形成老年斑(senile plaques,SP)。已有研究表明,Aβ 蛋白的神经毒性强,是 AD 的核心致病物质,也是 AD 防治最重要的靶点[1]。德国的研究人员称,在 AD 患者症状出现前 15~20 年即开始发生 Aβ 蛋白沉积[2]。当 Aβ 蛋白沉积超过一定量时,则进入 AD 早期阶段,因此结合 Aβ 蛋白沉积的检测,将有望提高 AD 无创早期诊断准确率。目前,针对或结合 Aβ 的早期诊断与治疗的研究取得了令人鼓舞的结果,这包括 Aβ 蛋白组化的诊断、免疫治疗、神经因子治疗等[3-6]。但由于缺乏对 Aβ 蛋白沉积的早期无创检测技术,因此难以实现临床应用研究,无法及时早期诊断和干预治疗。由此可见,建立脑内 Aβ 蛋白沉积早期无创检测技术显得格外重要和紧迫。
临床研究表明,采用示踪剂 B 型匹兹堡复合物(Pittsburgh compound-B,PIB)配体(11C)11C-PIB,正电子发射型断层显像(positron emission tomo-graphy,PET)可以显示 AD 小鼠脑皮层上的 Aβ 蛋白沉积信息[7-8]。但是该成像方式有如下问题:① 对比剂有辐射,患者对基于对比剂的成像技术都比较抵触;② 无法显示较小的病灶,缺乏解剖参考;③ 价格通常比较昂贵,由于痴呆属于慢性非致命性疾病,患者通常倾向于便宜的检测手段[9-11]。
磁共振成像(magnetic resonance imaging,MRI)是利用人体组织中氢原子核(质子)在特殊的磁场中受无线电射频脉冲的激励而发生核磁共振的现象,经电子计算机处理,重建出人体某一层面图像的成像技术[12]。近年来研究发现 AD 患者或 AD 转基因鼠脑内 Aβ 蛋白沉积及周围铁质过度沉积,会改变局部磁场均匀性引起失相位,导致 T2 信号的降低,起到自然对比剂作用。因此,采用 MRI 可以探测 Aβ 蛋白的沉积信息(分布、数量等)[13]。当不借助对比剂时,采用高场强磁共振(magnetic resonance,MR)和对铁敏感的序列,Aβ 蛋白斑块可以被 MRI 探测到[14-15]。研究发现,MR 图像可以反映小鼠模型中存在丘脑、海马区、新脑皮层中的 Aβ 蛋白沉积信息[16-17]。Aβ 蛋白沉积所导致的不溶性纤维会引起快速的质子横磁化衰减,在 MR 图像中,相关区域亮度将明显减低,对比度会发生变化[18]。2004 年 Zhang 等[19]和 Lee 等[20]分别采用自旋回波和快速自旋回波显示了 AD 的转基因动物模型[APP(淀粉样前体蛋白,amyloid precursor protein)/S1 小鼠]的离体脑切片的 Aβ 斑块,但 Aβ 斑块的 MRI 检测对分辨率要求很高,且扫描耗时长(分别为 8~24 h 和 10~11 h),无法广泛应用。
以上文献充分说明了 MRI 可以探测 Aβ 蛋白沉积信息,但没有涉及到如何采用图像处理方法将该信息检测出来,以便用于 Aβ 蛋白沉积信息的观察、AD 诊断等。通常,图像像素的灰度值最能直观地表现每个区域的变化,因此本文拟通过像素特征学习方法解决这一问题。就 AD 和正常对照(control,CTL)小鼠而言,前者含有 Aβ 蛋白沉积,而后者没有,但是从脑 MR 图像中无法观测到这一差异。由于 Aβ 蛋白沉积与小鼠病变状态紧密相关,因此可将 Aβ 蛋白沉积的检测转化为 AD 和 CTL 的分类问题,通过优选 MR 像素,最大化分类准确率,从而获取最能反映 Aβ 蛋白沉积信息的脑 MR 图像像素特征。
1 基于像素特征的 MR 图像中 Aβ 蛋白沉积检测方法
1.1 图像分析与方法流程图
如图 1 所示,左列图像是来自于相同层的两种类别,即 AD 鼠和 CTL 鼠的脑 MR 图像,从图像上并不能直接观测到它们的差别;中间两幅图像为左海马体的 MR 图像,从中也不能判断其是否含有 Aβ 蛋白沉积;右列两幅图是对应的海马体组织切片图像,由组织切片图像可以发现,针对 AD,脑组织切片中含有 Aβ 蛋白沉积(图中的褐色斑点),而对于 CTL 小鼠来说,切片中几乎不含 Aβ 蛋白沉积。

图 2 是本文方法的流程图。首先利用 MRIcro 软件手动分割脑 MR 图像,得到小鼠的脑组织图像;提取脑组织图像的像素值形成像素特征矩阵,即数据样本;随机划分样本为训练集、验证集和测试集三部分,分别用于训练、优化和测试本文的特征选择分类模型;然后通过最大化 AD 的分类准确率获取最优像素特征集,再利用投票机制得到最终的优选特征集;基于最终的优选特征集,计算测试集样本的分类准确率;最后弹性映射最终优选特征集到 AD 鼠的 MR 图像上,从而显示出 Aβ 蛋白沉积的分布信息。

1.2 本文算法原理
1.2.1 脑组织图像分割 本文采用 MRIcro 软件对小鼠的脑 MR 图像进行处理。由于 Aβ 蛋白沉积位于脑组织区域,因此小鼠的脑组织区域是本文分析的感兴趣区(region of interest,ROI)。为了保证分割的准确性,本文通过 MRIcro,在医生指导下手动描绘脑组织轮廓,并进行填充操作,将 ROI 作为解析图像输出(见图 3),分割准确性满足要求。

1.2.2 特征提取 基于分割后的脑组织区域,提取其像素点的灰度值形成像素特征。由于 MR 图像是通过扫描小鼠大脑不同区域获得的,而脑组织图像又由这些 MR 图像分割得到,故提取脑组织区域的像素点数目不同,特征向量的维度也不相同。为了保证特征向量维度的一致性,我们以最短的特征向量为基准,将不同长度的特征向量弹性映射到最短特征向量上。因此,特征向量集的长度取决于最短的特征向量。
1.2.3 特征选择
(1)特征选择模式:本文采用了两种特征选择模式:Wrapper 模式和 Filter 模式,前者以分类器的分类准确率为评价准则,属于有监督学习算法;后者通过分析特征子集内部信息来衡量其好坏,属于无监督学习算法。
(2)搜索算法:本文采用主成分分析(principal component analysis,PCA)和作者前期提出的链式智能体遗传算法(chain-like agent genetic algorithm,CAGA)作为特征选择中的搜索算法。前者通过最小化协方差矩阵对应的特征值从而获得方差大的特征组合。后者是寻找基于最大化某个适应度函数的特征组合。PCA 已被广泛采用,而CAGA作为一种改进智能体遗传算法,其搜索精度和稳定性都较好,详细信息参见文献[21]。
(3)评价准则:Wrapper 模式下评价准则为分类器的分类准确率;Filter 模式下评价准则为特征内部信息测度准则,本文采用可分性距离判据。
本文 Filter 模式下的评价准则是可分性距离判据,是表征分类能力的评价准则之一,是评价可分性的主流标准,可替代分类准确率用于特征选择中,其值与分类能力成正比。本文为二分类问题,几何距离设计可分性判据作为适应度函数,即是基于几何距离的类间距离 Sb 与类内距离 Sw 之比 ,计算式如下:
${{λ}} = \frac{{{S_b}}}{{{S_w}}}$ |
${S_b} = {({\bar c_1} - {\bar c_2})^2}$ |
${S_w} \!=\! \frac{{{P_1}}}{{{N_1}}} \! \sum\limits_{i = 1}^{{N_1}} \! {\sum\limits_{k = 1}^M {{{\left( {{c_{1ik}} \!-\! {{\bar c}_1}} \right)}^2}} } \!+\! \frac{{{P_2}}}{{{N_2}}} \! \sum\limits_{j = 1}^{{N_2}}\! {\sum\limits_{k = 1}^M {{{\left( {{c_{2jk}} \!-\! {{\bar c}_2}} \right)}^2}} } $ |
其中 Sb 表示类间方差,Sw 表示类内方差; 表示第一类样本占总样本的比值, 表示第二类样本占总样本的比值; 表示第一类样本中第 i 个样本的第 k 列灰度值, 表示第二类样本中第 j 个样本的第 k 列灰度值; 表示第一类样本的类中心值, 表示第二类样本类中心值。
1.2.4 投票机制 本文通过特征选择算法获取最优像素特征,针对同一特征选择算法重复 m 次。对于单个特征,计算其被选中的次数 。假设阈值为 ,如果 ,则特征被选择,否则,特征不被选择。通常 的范围为 。
基于投票后的最终像素特征向量,将选中的特征弹性映射到 MR 图像中相应的像素点并标记出来,主要过程如下所述:
(1)重复 m 次特征选择算法,得到 m 个最优特征子集;
(2)利用投票机制获取最终最优特征向量;
(3)根据最终最优特征向量,弹性映射到原始像素特征向量上;
(4)在 MR 图像上标记出相应的像素点;
(5)重复步骤 1–4,直至所有 AD 鼠的全部 MR 图像被标记。
弹性映射标记 MR 图像的具体过程如图 4 所示。从图中可知,0 表示该位置的特征没有被选中,1 则表示选中,特征子集是通过二进制编码获取的,n 表示样本总数。基于所有的特征子集,通过投票机制得到最终的最优特征集,而具有不同维度的原始像素特征向量又基于投票后的最优特征向量,利用弹性映射获得。进而根据映射后的像素向量来标记出 MR 图像上的 Aβ 蛋白沉积。

2 实验与分析
2.1 实验条件
本文中小鼠的 MR 图像和组织切片图像来源于中国科学院北京动物研究所,数据真实可靠,并经过医学专家认可。数据信息简述如下:该数据为两种类别(CTL 和 AD)的小鼠模型的 MR 图像,图像序列为 T2 加权(TE first echo),TR:4 000 ms,ETL:8,ESP:10,数据大小 128×128。实验中共采集了 22 只小鼠(10 只患有 AD,12 只为 CTL)的脑 MR 图像。每只小鼠有 12 片二维图像(DICOM 格式),由于前后几片图像中脑组织区域较小,因此选取每只小鼠的脑 MR 图像中第 4~9 片图像。此外,每只小鼠对应的脑组织切片图像有 200 多片,根据比例关系选取与 MR 中第 4~9 图对应的脑组织切片,这样共得到 132 个二维图像对(其中 MR 图像记为样本,6×22=132),其中 72 个样本属于正常小鼠,60 个样本属于痴呆小鼠。每个图像样本脑组织部分的像素被提取出来,形成 1 个特征矢量,每个特征代表 1 个像素点的灰度值,并经弹性映射与特征矢量模板进行对齐。由于模板矢量长度为 2 911,因此 132 个图像样本就被转化为 132×2 911 的像素特征矩阵,其中 132 为数据样本数,2 911 为特征数。对于随后的像素特征选择,这 132 个样本被随机分为三部分:训练集、验证集和测试集。这三部分互不重叠,随机重复分配 8 次,建立 8 组样本数据集。此外,由于每只小鼠的每层 MR 图像均有一一对应的脑组织切片,故本文将小鼠的脑组织切片图像作为金标准,来验证所提算法对 MR 图像中 Aβ 蛋白沉积信息检测的有效性。
本文拟从如下几个途径来验证本文方法的有效性:① 将由本文方法优选的 MR 像素通过弹性映射回原脑 MR 图像,将对应的 MR 像素标记出来,标记的像素就反映了 Aβ 蛋白的沉积。将这些像素与对应的脑组织切片图像中 Aβ 蛋白沉积斑块进行对比,通过对比观察来表明本文方法有效性。② 将由本文方法优选的 MR 像素特征用于分类,通过分类准确率高低来反映本文方法有效性。分类准确率高于 50%,说明有效;准确率越高,有效性越强[22]。③ 对本文设计的 6 种特征学习分类算法进行统计学分析,反映本文方法与随机标记 MR 像素方法的差异,从而间接说明本文方法的有效性具有统计学意义。
本文实验平台的软件部分:Window7 版本、64 位操作系统,开发工具 MATLAB 2012a,脑组织图像提取工具 MRIcro medical image viewer;硬件部分:Intel(R)Core(TM)CPU i5-2310,2.9 GHz,内存 4 GB。
针对 CAGA,为了较好地平衡时间代价和优化精度,通过多次实验统计结果确定初始种群规模为 50,初始交叉概率为 0.8,初始变异概率为 0.05,最大迭代次数设置为 30。
针对支持向量机(support vector machine,SVM),选用线性核函数。随机森林(random forest,RF)中包含的决策树数目的不同,对其泛化性能有一定的影响,本文通过统计实验来选择准确率最高时所对应的决策树数目。两种特征选择模式下,针对 CAGA_RF 算法选择 500 棵决策树时,验证集分类结果最高;针对 PCA_RF 算法选择 650 棵决策树时,验证集结果最好。对于投票机制,运行次数 m=10, 。
2.2 实验结果与分析
2.2.1 性能评估指标 本文采用对测试样本分类的准确率(accuracy,Acc)、灵敏度(sensitivity,Sen)和特异度(specificity,Spe)来评估本文方法检测 Aβ 蛋白沉积信息的准确性。TP 为真阳性,即实际为 AD 鼠图像并且被判定为 AD 鼠图像;TN 为真阴性,即实际为 CTL 鼠图像并且被判定为 CTL 鼠图像;FP 为假阳性,即实际为 CTL 鼠图像但被判为 AD 鼠图像;FN 为假阴性,即实际为 AD 鼠图像但被判为 CTL 鼠图像。计算公式如下:
${\rm{Acc}} = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{FP}} + {\rm{TN}} + {\rm{FN}}}}$ |
${\rm{Sen}} = \frac{\rm{TP}}{\rm{TP + FN}}$ |
${\rm{Spe}} = \frac{\rm{TN}}{\rm{TN + FP}}$ |
2.2.2 Aβ 蛋白沉积信息检测效果分析 本文通过 MR 图像的 AD 和 CTL 分类结果,间接检测 MR 图像中的 Aβ 蛋白沉积信息。表 1 给出了在 Filter 和 Wrapper 两种特征选择模式下,SVM 和 RF 两种分类器在 8 组原始像素数据集上的平均分类结果、最优分类结果及用于分类的特征数目。

从表 1 可以看出,6 种算法基本上取得了高于 50% 的准确率,这说明基于 MR 图像检测是否含有 Aβ 蛋白沉积这一方式是有效的。基于 Filter 模式下的 CAGA_SVM 取得了最高约 77%、平均约 73% 的准确率,这已经可以形成一个强分类器了。本文检测 Aβ 蛋白沉积信息的方法可以提高基于 MR 图像判断 AD 的准确率,这为相关研究提供了新的思路和方法。
图 5 显示了 6 种算法重复 8 次的分类准确率曲线。从图 5 可以看出,除了 PCA_SVM 的准确率在 50% 附近波动,其他 5 种算法均显著高于 50%,因此是有效的。Filter 模式下,CAGA+SVM 的分类准确率比较稳定;基于 Wrapper 模式下的 CAGA+SVM 的单次分类准确率最高,达到 80.77%。值得注意的是,基于 Filter 模式下的 CAGA+SVM 好于基于 Wrapper 模式下的分类准确率,这说明本文采用的可分性距离判据性能较好。进一步比较 Filter 模式下基于 SVM 和 RF 两种分类器下 CAGA 的特征选择能力,从表 1和图 5 均可看出,相较于 RF,基于 SVM 分类器的分类准确率较优,平均准确率为 72.60%,单次运行最高准确率为 76.92%。此外,8 次实验结果表明,CAGA_SVM 的稳定性较好,可能的原因是 SVM 较 RF 更适合于本文设计的可分性距离判据,基于可分性距离判据获得的最优特征子集更适合 SVM 的训练和测试。

2.2.3 统计学分析 为了表明本文算法的分类准确率较随机分类算法具有显著的差异,将这六种算法的分类准确率与随机分类的准确率进行了 t 检验。六种算法的 P 值分别如下:CAGA_SVM(Filter)算法为 0.004 7,CAGA_RF(Filter)算法为 0.024 7,PCA_SVM(Filter)算法为 0.426 1,PCA_RF(Filter)算法为 0.033 3,CAGA_SVM(Wrapper)算法为 0.007 1,CAGA_RF(Wrapper)算法为 0.044 3。除PCA_SVM(Filter)以外,其他五种算法的 P 值均小于 0.05,其中 CAGA_SVM(Filter)和 CAGA_SVM(Wrapper)的 P 值小于 0.01。
2.2.4 MR 图像中 Aβ 蛋白沉积信息检测的可视化效果 本节实验根据 CAGA 优选出的最优特征子集,即最优像素特征集,及其坐标信息,标记出小鼠的脑 MR 图像中相应的像素点,通过与其对应的海马体组织切片相对应,从而检测 Aβ 蛋白沉积位置。图 6 中左列图像分别是小鼠的左、右海马体的 MR 图像;中间列为 Filter 模式下利用 CAGA+SVM 集成分类算法检测到的 Aβ 蛋白沉积在海马区的分布图像;右列分别是对应的左、右海马体组织切片图像。通过比较 MR 图像中海马区的 Aβ 蛋白沉积信息区域和对应的海马体组织切片中 Aβ 蛋白沉积的分布,发现两者具有较大的一致性(相同颜色圆圈标记处)。这说明,本文方法能较为准确地检测出 Aβ 蛋白沉积信息,实现了 MR 图像中 Aβ 蛋白沉积信息检测的可视化。

从图 6 中还可以看出,左右海马体的 MR 图像上并不能直观地像组织切片图像那样发现 Aβ 蛋白沉积信息,而通过本文的方法可以基于 MR 图像,将脑组织切片图像中海马体区域的主要 Aβ 蛋白沉积斑块区域都显示在 MR 图像中,几乎没有漏检。图中用不同颜色的椭圆分别标记出 4 个区域的 Aβ 蛋白沉积,因此采用本文方法可以通过脑 MR 图像检测出 Aβ 蛋白沉积的相关信息。由于 MR 图像具有无创、无损、性价比高等优点,因此本文方法容易实现临床推广。但是,从本文方法标记的图像中可以发现,在 MR 图像中还存在一些被误判为 Aβ 蛋白沉积的像素点,图中用紫色圆圈标记。出现问题的一个原因可能是本文方法仅仅根据 CTL 和 AD 的标签来实现像素特征选择,由于本文采用的 AD 小鼠属于早期病变 APP 模型,因此 Aβ 蛋白沉积信息较少,加大了检测精度的难度。
3 结论
Aβ 蛋白沉积是 AD 早期诊断和疗效评估的重要靶点,Aβ 蛋白沉积信息是区分健康与痴呆病变的标志。MR 是目前无创、无辐射、性价比较高的成像方式,是 AD 早期诊断、筛查与疗效评估的理想影像手段。但是,目前从 MR 图像中检测 Aβ 蛋白沉积信息的研究还很少,因此亟待解决。本文基于机器学习方法有效地解决了这一问题。首先将脑组织区域分割出来,然后基于像素点的灰度值形成特征数据样本,其次设计了 6 种特征选择分类算法进行特征的优选,通过重复操作得到最优特征集,接着基于投票法选出最终最优特征集,最后基于最终最优特征集和弹性映射方法,标记出 MR 中对应的像素点,通过与小鼠的脑组织切片图像对应从而验证本文方法的有效性。实验结果表明,本文算法中 Wrapper 模式下 CAGA_SVM 算法获得单次运行 80% 以上的分类准确率,Wrapper 模式下 CAGA_SVM 算法获得平均约 73% 的分类准确率,且与随机标志像素点方法比较,差异具有统计学意义,因此本文方法是有效的。
下一步工作将是采集更多小鼠脑 MR 图像样本和脑组织切片图像样本,形成基于像素的训练对,通过集成学习建立脑 MR 图像样本与脑组织切片图像样本中的 Aβ 蛋白沉积的相关关系,以期能进一步检测出脑 MR 图像样本中 Aβ 蛋白沉积的分布,从而为研究 Aβ 蛋白沉积在 AD 病变过程中的发展机制以及提高无创诊断准确率提供更有效的定量检测手段。
引言
阿尔茨海默症(Alzheimer’s disease,AD)是常见的早老性痴呆疾病。AD 患者的最终结局是痴呆,它是一种原因不明的、进行性的、中枢神经系统的退行性疾病,其重要病理特征为大脑皮层和海马出现 β 淀粉样蛋白(amyloid β-protein,Aβ)沉积,逐渐聚集形成老年斑(senile plaques,SP)。已有研究表明,Aβ 蛋白的神经毒性强,是 AD 的核心致病物质,也是 AD 防治最重要的靶点[1]。德国的研究人员称,在 AD 患者症状出现前 15~20 年即开始发生 Aβ 蛋白沉积[2]。当 Aβ 蛋白沉积超过一定量时,则进入 AD 早期阶段,因此结合 Aβ 蛋白沉积的检测,将有望提高 AD 无创早期诊断准确率。目前,针对或结合 Aβ 的早期诊断与治疗的研究取得了令人鼓舞的结果,这包括 Aβ 蛋白组化的诊断、免疫治疗、神经因子治疗等[3-6]。但由于缺乏对 Aβ 蛋白沉积的早期无创检测技术,因此难以实现临床应用研究,无法及时早期诊断和干预治疗。由此可见,建立脑内 Aβ 蛋白沉积早期无创检测技术显得格外重要和紧迫。
临床研究表明,采用示踪剂 B 型匹兹堡复合物(Pittsburgh compound-B,PIB)配体(11C)11C-PIB,正电子发射型断层显像(positron emission tomo-graphy,PET)可以显示 AD 小鼠脑皮层上的 Aβ 蛋白沉积信息[7-8]。但是该成像方式有如下问题:① 对比剂有辐射,患者对基于对比剂的成像技术都比较抵触;② 无法显示较小的病灶,缺乏解剖参考;③ 价格通常比较昂贵,由于痴呆属于慢性非致命性疾病,患者通常倾向于便宜的检测手段[9-11]。
磁共振成像(magnetic resonance imaging,MRI)是利用人体组织中氢原子核(质子)在特殊的磁场中受无线电射频脉冲的激励而发生核磁共振的现象,经电子计算机处理,重建出人体某一层面图像的成像技术[12]。近年来研究发现 AD 患者或 AD 转基因鼠脑内 Aβ 蛋白沉积及周围铁质过度沉积,会改变局部磁场均匀性引起失相位,导致 T2 信号的降低,起到自然对比剂作用。因此,采用 MRI 可以探测 Aβ 蛋白的沉积信息(分布、数量等)[13]。当不借助对比剂时,采用高场强磁共振(magnetic resonance,MR)和对铁敏感的序列,Aβ 蛋白斑块可以被 MRI 探测到[14-15]。研究发现,MR 图像可以反映小鼠模型中存在丘脑、海马区、新脑皮层中的 Aβ 蛋白沉积信息[16-17]。Aβ 蛋白沉积所导致的不溶性纤维会引起快速的质子横磁化衰减,在 MR 图像中,相关区域亮度将明显减低,对比度会发生变化[18]。2004 年 Zhang 等[19]和 Lee 等[20]分别采用自旋回波和快速自旋回波显示了 AD 的转基因动物模型[APP(淀粉样前体蛋白,amyloid precursor protein)/S1 小鼠]的离体脑切片的 Aβ 斑块,但 Aβ 斑块的 MRI 检测对分辨率要求很高,且扫描耗时长(分别为 8~24 h 和 10~11 h),无法广泛应用。
以上文献充分说明了 MRI 可以探测 Aβ 蛋白沉积信息,但没有涉及到如何采用图像处理方法将该信息检测出来,以便用于 Aβ 蛋白沉积信息的观察、AD 诊断等。通常,图像像素的灰度值最能直观地表现每个区域的变化,因此本文拟通过像素特征学习方法解决这一问题。就 AD 和正常对照(control,CTL)小鼠而言,前者含有 Aβ 蛋白沉积,而后者没有,但是从脑 MR 图像中无法观测到这一差异。由于 Aβ 蛋白沉积与小鼠病变状态紧密相关,因此可将 Aβ 蛋白沉积的检测转化为 AD 和 CTL 的分类问题,通过优选 MR 像素,最大化分类准确率,从而获取最能反映 Aβ 蛋白沉积信息的脑 MR 图像像素特征。
1 基于像素特征的 MR 图像中 Aβ 蛋白沉积检测方法
1.1 图像分析与方法流程图
如图 1 所示,左列图像是来自于相同层的两种类别,即 AD 鼠和 CTL 鼠的脑 MR 图像,从图像上并不能直接观测到它们的差别;中间两幅图像为左海马体的 MR 图像,从中也不能判断其是否含有 Aβ 蛋白沉积;右列两幅图是对应的海马体组织切片图像,由组织切片图像可以发现,针对 AD,脑组织切片中含有 Aβ 蛋白沉积(图中的褐色斑点),而对于 CTL 小鼠来说,切片中几乎不含 Aβ 蛋白沉积。

图 2 是本文方法的流程图。首先利用 MRIcro 软件手动分割脑 MR 图像,得到小鼠的脑组织图像;提取脑组织图像的像素值形成像素特征矩阵,即数据样本;随机划分样本为训练集、验证集和测试集三部分,分别用于训练、优化和测试本文的特征选择分类模型;然后通过最大化 AD 的分类准确率获取最优像素特征集,再利用投票机制得到最终的优选特征集;基于最终的优选特征集,计算测试集样本的分类准确率;最后弹性映射最终优选特征集到 AD 鼠的 MR 图像上,从而显示出 Aβ 蛋白沉积的分布信息。

1.2 本文算法原理
1.2.1 脑组织图像分割 本文采用 MRIcro 软件对小鼠的脑 MR 图像进行处理。由于 Aβ 蛋白沉积位于脑组织区域,因此小鼠的脑组织区域是本文分析的感兴趣区(region of interest,ROI)。为了保证分割的准确性,本文通过 MRIcro,在医生指导下手动描绘脑组织轮廓,并进行填充操作,将 ROI 作为解析图像输出(见图 3),分割准确性满足要求。

1.2.2 特征提取 基于分割后的脑组织区域,提取其像素点的灰度值形成像素特征。由于 MR 图像是通过扫描小鼠大脑不同区域获得的,而脑组织图像又由这些 MR 图像分割得到,故提取脑组织区域的像素点数目不同,特征向量的维度也不相同。为了保证特征向量维度的一致性,我们以最短的特征向量为基准,将不同长度的特征向量弹性映射到最短特征向量上。因此,特征向量集的长度取决于最短的特征向量。
1.2.3 特征选择
(1)特征选择模式:本文采用了两种特征选择模式:Wrapper 模式和 Filter 模式,前者以分类器的分类准确率为评价准则,属于有监督学习算法;后者通过分析特征子集内部信息来衡量其好坏,属于无监督学习算法。
(2)搜索算法:本文采用主成分分析(principal component analysis,PCA)和作者前期提出的链式智能体遗传算法(chain-like agent genetic algorithm,CAGA)作为特征选择中的搜索算法。前者通过最小化协方差矩阵对应的特征值从而获得方差大的特征组合。后者是寻找基于最大化某个适应度函数的特征组合。PCA 已被广泛采用,而CAGA作为一种改进智能体遗传算法,其搜索精度和稳定性都较好,详细信息参见文献[21]。
(3)评价准则:Wrapper 模式下评价准则为分类器的分类准确率;Filter 模式下评价准则为特征内部信息测度准则,本文采用可分性距离判据。
本文 Filter 模式下的评价准则是可分性距离判据,是表征分类能力的评价准则之一,是评价可分性的主流标准,可替代分类准确率用于特征选择中,其值与分类能力成正比。本文为二分类问题,几何距离设计可分性判据作为适应度函数,即是基于几何距离的类间距离 Sb 与类内距离 Sw 之比 ,计算式如下:
${{λ}} = \frac{{{S_b}}}{{{S_w}}}$ |
${S_b} = {({\bar c_1} - {\bar c_2})^2}$ |
${S_w} \!=\! \frac{{{P_1}}}{{{N_1}}} \! \sum\limits_{i = 1}^{{N_1}} \! {\sum\limits_{k = 1}^M {{{\left( {{c_{1ik}} \!-\! {{\bar c}_1}} \right)}^2}} } \!+\! \frac{{{P_2}}}{{{N_2}}} \! \sum\limits_{j = 1}^{{N_2}}\! {\sum\limits_{k = 1}^M {{{\left( {{c_{2jk}} \!-\! {{\bar c}_2}} \right)}^2}} } $ |
其中 Sb 表示类间方差,Sw 表示类内方差; 表示第一类样本占总样本的比值, 表示第二类样本占总样本的比值; 表示第一类样本中第 i 个样本的第 k 列灰度值, 表示第二类样本中第 j 个样本的第 k 列灰度值; 表示第一类样本的类中心值, 表示第二类样本类中心值。
1.2.4 投票机制 本文通过特征选择算法获取最优像素特征,针对同一特征选择算法重复 m 次。对于单个特征,计算其被选中的次数 。假设阈值为 ,如果 ,则特征被选择,否则,特征不被选择。通常 的范围为 。
基于投票后的最终像素特征向量,将选中的特征弹性映射到 MR 图像中相应的像素点并标记出来,主要过程如下所述:
(1)重复 m 次特征选择算法,得到 m 个最优特征子集;
(2)利用投票机制获取最终最优特征向量;
(3)根据最终最优特征向量,弹性映射到原始像素特征向量上;
(4)在 MR 图像上标记出相应的像素点;
(5)重复步骤 1–4,直至所有 AD 鼠的全部 MR 图像被标记。
弹性映射标记 MR 图像的具体过程如图 4 所示。从图中可知,0 表示该位置的特征没有被选中,1 则表示选中,特征子集是通过二进制编码获取的,n 表示样本总数。基于所有的特征子集,通过投票机制得到最终的最优特征集,而具有不同维度的原始像素特征向量又基于投票后的最优特征向量,利用弹性映射获得。进而根据映射后的像素向量来标记出 MR 图像上的 Aβ 蛋白沉积。

2 实验与分析
2.1 实验条件
本文中小鼠的 MR 图像和组织切片图像来源于中国科学院北京动物研究所,数据真实可靠,并经过医学专家认可。数据信息简述如下:该数据为两种类别(CTL 和 AD)的小鼠模型的 MR 图像,图像序列为 T2 加权(TE first echo),TR:4 000 ms,ETL:8,ESP:10,数据大小 128×128。实验中共采集了 22 只小鼠(10 只患有 AD,12 只为 CTL)的脑 MR 图像。每只小鼠有 12 片二维图像(DICOM 格式),由于前后几片图像中脑组织区域较小,因此选取每只小鼠的脑 MR 图像中第 4~9 片图像。此外,每只小鼠对应的脑组织切片图像有 200 多片,根据比例关系选取与 MR 中第 4~9 图对应的脑组织切片,这样共得到 132 个二维图像对(其中 MR 图像记为样本,6×22=132),其中 72 个样本属于正常小鼠,60 个样本属于痴呆小鼠。每个图像样本脑组织部分的像素被提取出来,形成 1 个特征矢量,每个特征代表 1 个像素点的灰度值,并经弹性映射与特征矢量模板进行对齐。由于模板矢量长度为 2 911,因此 132 个图像样本就被转化为 132×2 911 的像素特征矩阵,其中 132 为数据样本数,2 911 为特征数。对于随后的像素特征选择,这 132 个样本被随机分为三部分:训练集、验证集和测试集。这三部分互不重叠,随机重复分配 8 次,建立 8 组样本数据集。此外,由于每只小鼠的每层 MR 图像均有一一对应的脑组织切片,故本文将小鼠的脑组织切片图像作为金标准,来验证所提算法对 MR 图像中 Aβ 蛋白沉积信息检测的有效性。
本文拟从如下几个途径来验证本文方法的有效性:① 将由本文方法优选的 MR 像素通过弹性映射回原脑 MR 图像,将对应的 MR 像素标记出来,标记的像素就反映了 Aβ 蛋白的沉积。将这些像素与对应的脑组织切片图像中 Aβ 蛋白沉积斑块进行对比,通过对比观察来表明本文方法有效性。② 将由本文方法优选的 MR 像素特征用于分类,通过分类准确率高低来反映本文方法有效性。分类准确率高于 50%,说明有效;准确率越高,有效性越强[22]。③ 对本文设计的 6 种特征学习分类算法进行统计学分析,反映本文方法与随机标记 MR 像素方法的差异,从而间接说明本文方法的有效性具有统计学意义。
本文实验平台的软件部分:Window7 版本、64 位操作系统,开发工具 MATLAB 2012a,脑组织图像提取工具 MRIcro medical image viewer;硬件部分:Intel(R)Core(TM)CPU i5-2310,2.9 GHz,内存 4 GB。
针对 CAGA,为了较好地平衡时间代价和优化精度,通过多次实验统计结果确定初始种群规模为 50,初始交叉概率为 0.8,初始变异概率为 0.05,最大迭代次数设置为 30。
针对支持向量机(support vector machine,SVM),选用线性核函数。随机森林(random forest,RF)中包含的决策树数目的不同,对其泛化性能有一定的影响,本文通过统计实验来选择准确率最高时所对应的决策树数目。两种特征选择模式下,针对 CAGA_RF 算法选择 500 棵决策树时,验证集分类结果最高;针对 PCA_RF 算法选择 650 棵决策树时,验证集结果最好。对于投票机制,运行次数 m=10, 。
2.2 实验结果与分析
2.2.1 性能评估指标 本文采用对测试样本分类的准确率(accuracy,Acc)、灵敏度(sensitivity,Sen)和特异度(specificity,Spe)来评估本文方法检测 Aβ 蛋白沉积信息的准确性。TP 为真阳性,即实际为 AD 鼠图像并且被判定为 AD 鼠图像;TN 为真阴性,即实际为 CTL 鼠图像并且被判定为 CTL 鼠图像;FP 为假阳性,即实际为 CTL 鼠图像但被判为 AD 鼠图像;FN 为假阴性,即实际为 AD 鼠图像但被判为 CTL 鼠图像。计算公式如下:
${\rm{Acc}} = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{FP}} + {\rm{TN}} + {\rm{FN}}}}$ |
${\rm{Sen}} = \frac{\rm{TP}}{\rm{TP + FN}}$ |
${\rm{Spe}} = \frac{\rm{TN}}{\rm{TN + FP}}$ |
2.2.2 Aβ 蛋白沉积信息检测效果分析 本文通过 MR 图像的 AD 和 CTL 分类结果,间接检测 MR 图像中的 Aβ 蛋白沉积信息。表 1 给出了在 Filter 和 Wrapper 两种特征选择模式下,SVM 和 RF 两种分类器在 8 组原始像素数据集上的平均分类结果、最优分类结果及用于分类的特征数目。

从表 1 可以看出,6 种算法基本上取得了高于 50% 的准确率,这说明基于 MR 图像检测是否含有 Aβ 蛋白沉积这一方式是有效的。基于 Filter 模式下的 CAGA_SVM 取得了最高约 77%、平均约 73% 的准确率,这已经可以形成一个强分类器了。本文检测 Aβ 蛋白沉积信息的方法可以提高基于 MR 图像判断 AD 的准确率,这为相关研究提供了新的思路和方法。
图 5 显示了 6 种算法重复 8 次的分类准确率曲线。从图 5 可以看出,除了 PCA_SVM 的准确率在 50% 附近波动,其他 5 种算法均显著高于 50%,因此是有效的。Filter 模式下,CAGA+SVM 的分类准确率比较稳定;基于 Wrapper 模式下的 CAGA+SVM 的单次分类准确率最高,达到 80.77%。值得注意的是,基于 Filter 模式下的 CAGA+SVM 好于基于 Wrapper 模式下的分类准确率,这说明本文采用的可分性距离判据性能较好。进一步比较 Filter 模式下基于 SVM 和 RF 两种分类器下 CAGA 的特征选择能力,从表 1和图 5 均可看出,相较于 RF,基于 SVM 分类器的分类准确率较优,平均准确率为 72.60%,单次运行最高准确率为 76.92%。此外,8 次实验结果表明,CAGA_SVM 的稳定性较好,可能的原因是 SVM 较 RF 更适合于本文设计的可分性距离判据,基于可分性距离判据获得的最优特征子集更适合 SVM 的训练和测试。

2.2.3 统计学分析 为了表明本文算法的分类准确率较随机分类算法具有显著的差异,将这六种算法的分类准确率与随机分类的准确率进行了 t 检验。六种算法的 P 值分别如下:CAGA_SVM(Filter)算法为 0.004 7,CAGA_RF(Filter)算法为 0.024 7,PCA_SVM(Filter)算法为 0.426 1,PCA_RF(Filter)算法为 0.033 3,CAGA_SVM(Wrapper)算法为 0.007 1,CAGA_RF(Wrapper)算法为 0.044 3。除PCA_SVM(Filter)以外,其他五种算法的 P 值均小于 0.05,其中 CAGA_SVM(Filter)和 CAGA_SVM(Wrapper)的 P 值小于 0.01。
2.2.4 MR 图像中 Aβ 蛋白沉积信息检测的可视化效果 本节实验根据 CAGA 优选出的最优特征子集,即最优像素特征集,及其坐标信息,标记出小鼠的脑 MR 图像中相应的像素点,通过与其对应的海马体组织切片相对应,从而检测 Aβ 蛋白沉积位置。图 6 中左列图像分别是小鼠的左、右海马体的 MR 图像;中间列为 Filter 模式下利用 CAGA+SVM 集成分类算法检测到的 Aβ 蛋白沉积在海马区的分布图像;右列分别是对应的左、右海马体组织切片图像。通过比较 MR 图像中海马区的 Aβ 蛋白沉积信息区域和对应的海马体组织切片中 Aβ 蛋白沉积的分布,发现两者具有较大的一致性(相同颜色圆圈标记处)。这说明,本文方法能较为准确地检测出 Aβ 蛋白沉积信息,实现了 MR 图像中 Aβ 蛋白沉积信息检测的可视化。

从图 6 中还可以看出,左右海马体的 MR 图像上并不能直观地像组织切片图像那样发现 Aβ 蛋白沉积信息,而通过本文的方法可以基于 MR 图像,将脑组织切片图像中海马体区域的主要 Aβ 蛋白沉积斑块区域都显示在 MR 图像中,几乎没有漏检。图中用不同颜色的椭圆分别标记出 4 个区域的 Aβ 蛋白沉积,因此采用本文方法可以通过脑 MR 图像检测出 Aβ 蛋白沉积的相关信息。由于 MR 图像具有无创、无损、性价比高等优点,因此本文方法容易实现临床推广。但是,从本文方法标记的图像中可以发现,在 MR 图像中还存在一些被误判为 Aβ 蛋白沉积的像素点,图中用紫色圆圈标记。出现问题的一个原因可能是本文方法仅仅根据 CTL 和 AD 的标签来实现像素特征选择,由于本文采用的 AD 小鼠属于早期病变 APP 模型,因此 Aβ 蛋白沉积信息较少,加大了检测精度的难度。
3 结论
Aβ 蛋白沉积是 AD 早期诊断和疗效评估的重要靶点,Aβ 蛋白沉积信息是区分健康与痴呆病变的标志。MR 是目前无创、无辐射、性价比较高的成像方式,是 AD 早期诊断、筛查与疗效评估的理想影像手段。但是,目前从 MR 图像中检测 Aβ 蛋白沉积信息的研究还很少,因此亟待解决。本文基于机器学习方法有效地解决了这一问题。首先将脑组织区域分割出来,然后基于像素点的灰度值形成特征数据样本,其次设计了 6 种特征选择分类算法进行特征的优选,通过重复操作得到最优特征集,接着基于投票法选出最终最优特征集,最后基于最终最优特征集和弹性映射方法,标记出 MR 中对应的像素点,通过与小鼠的脑组织切片图像对应从而验证本文方法的有效性。实验结果表明,本文算法中 Wrapper 模式下 CAGA_SVM 算法获得单次运行 80% 以上的分类准确率,Wrapper 模式下 CAGA_SVM 算法获得平均约 73% 的分类准确率,且与随机标志像素点方法比较,差异具有统计学意义,因此本文方法是有效的。
下一步工作将是采集更多小鼠脑 MR 图像样本和脑组织切片图像样本,形成基于像素的训练对,通过集成学习建立脑 MR 图像样本与脑组织切片图像样本中的 Aβ 蛋白沉积的相关关系,以期能进一步检测出脑 MR 图像样本中 Aβ 蛋白沉积的分布,从而为研究 Aβ 蛋白沉积在 AD 病变过程中的发展机制以及提高无创诊断准确率提供更有效的定量检测手段。