相较于以往将靶区作为单独区域进行自动分割的神经网络,本文提出了一种利用靶区周围器官的位置及形状信息来限定靶区形状及位置,并通过多个网络的叠加融合空间位置信息,从而提高医学图像自动分割精度的堆叠式神经网络。本文以格蕾丝眼病为例,基于全卷积神经网络构建了堆叠式神经网络,对其左右两侧放疗靶区分别进行分割。以医生手动勾画结果为标准,计算体积戴斯相似系数(DSC)和双向豪斯多夫距离(HD)。相较于全卷积神经网络,堆叠式神经网络勾画结果可以使左右两侧体积 DSC 分别提高 1.7% 和 3.4%,同时左右两侧的双向 HD 距离分别下降 0.6。结果表明,堆叠式神经网络在提升自动分割结果与手动勾画靶区重合度的同时,减小了小区域靶区的分割误差,进一步说明堆叠式神经网络能有效地提高格蕾丝眼病放疗靶区的自动勾画精度。
引用本文: 蒋家良, 周莉, 何奕松, 姜筱璇, 傅玉川. 利用堆叠式神经网络提高格蕾丝眼病放疗靶区的自动勾画精度. 生物医学工程学杂志, 2020, 37(4): 670-675. doi: 10.7507/1001-5515.202002025 复制
引言
深度学习(deep learning,DL)作为人工智能增长最为迅速的领域,已经广泛应用于医学影像处理之中[1]。对于肿瘤放射治疗而言,基于深度学习的放疗靶区和正常组织器官的自动勾画可使医生避免大量重复的勾画工作,在提升整个放射治疗流程效率的同时,减少观察者内和观察者间的误差。随着全卷积神经网络(fully convolutional neural network,FCN)的提出,图像的语义分割进入像素级的时代[2],FCN 之所以能够取得较好的自动分割结果,是因为该网络在对图像进行卷积的过程之中,提取到了深层次的语义信息以及浅层次的位置信息,将这两种信息有效地结合则能够产生较好的分割结果。FCN 中图像每当经过卷积层、池化层后,其宽、高会变为上一次的 1/2。在经过 5 次之后,图像宽、高为原图像的 1/32。此时为了得到与原图大小相同的输出特征图,需要进行 32 倍的上采样。进行 32 倍上采样所得网络为 FCN-32s。若在第四次卷积、池化的基础上进行 16 倍上采样则是 FCN-16s,在第 3 次基础上的进行 8 倍上采样则是 FCN-8s。在三者中,以 FCN-8s 的勾画效果最好[2]。在此之后,基于 FCN 的大量神经网络模型被提出,并用于研究人体正常组织结构的自动分割[3-4]。同时为了提高用于自动分割的神经网络的精度,大量的研究在 FCN 的基础上不断改进网络结构。其中一种采用了对称的收缩和扩张路径的 U 型网络(U-net)作为这类研究的代表,改变了深浅层信息的融合方法,近年来在生物医学影像分割领域表现优异[5]。此外,多种医学影像的结合在图像分割领域的应用也越发广泛。
放射治疗靶区与组织器官相比没有较为特定的影像学特征,其边界的确定往往需要结合周围组织器官的形态结构以及医生的经验[6],这使得有关放射治疗靶区的自动分割的研究较少[7-8]。在以往的靶区自动分割研究之中,放疗靶区往往被作为一个独立的结构用对应的靶区标签和影像进行单独训练。但是这种方法显然没有考虑到在医生勾画靶区时,靶区周围的正常组织器官所提供的信息的作用,而这些信息在很大程度上确定了靶区的形状以及位置。以格蕾丝眼病为例,格蕾丝眼病作为一种常见的眼眶疾病,其中重度患者往往需要接受放射治疗[9]。位于眼眶的放射治疗靶区横截面大致为三角形,范围覆盖眼球后的肌肉组织以及脂肪间隙[10]。虽然格蕾丝眼病的治疗靶区体积较小,但位于靶区前方的眼球可用于确定靶区位置,规范靶区边界形状,同时眼球其本身特征在电子计算机断层扫描(computed tomography,CT)影像上易于辨认。基于以上原因,本研究尝试提出一种用于靶区自动分割的新方法,通过多个神经网络的叠加,将靶区周围利于确定靶区形状的信息融入到靶区的自动分割之中,在现有网络基础上进一步提升靶区自动勾画精度。由于其信息的融合是通过多个网络的叠加得以实现,因此称其为堆叠式神经网络(stacked neural network),具体结构如图 1 所示。相较于先定位再分割并以多种医学影像信息融合为基础的先进行粗略分割再进行精细分割等方法对于靶区本身包含信息的强化与利用,堆叠式神经网络更多的是将周围有利于确定靶区形状位置的空间信息加以利用,先对用于训练及测试的靶区 CT 影像进行信息增强,使周围结构的空间信息更为突出,之后再进行训练以及分割,进而达到提高靶区分割精度的目的。

1 材料和方法
1.1 堆叠式神经网络
堆叠式神经网络是在现有的神经网络的基础之上,将多个网络进行联合使用,其目的是通过多个神经网络的联合,在靶区分割的过程中加入更多的空间信息,以提升靶区的勾画精度。如图 1 所示,在整个神经网络的训练以及使用过程中,所使用的 CT 影像数据集要先经过对靶区周围相关正常组织器官的定位、勾画以及将器官的形状和空间位置信息与原 CT 图像融合这三个步骤。通过这三个步骤得到的训练集和测试集图像分别用于训练和分割,将分割结果再映射到原有 CT 影像之上得到最终的靶区勾画结果。为了使得勾画靶区需要的周围器官的信息更为突出,在进行信息融合时,本文改变了用于表示所选器官的图像通道,使其在图像上与周围结构产生较大对比。本文以 FCN 作为基础,利用 FCN-8s 神经网络加以堆叠来完成对于堆叠式神经网络的测试。FCN 作为图像语义分割应用最为广泛的神经网络,在计算机视觉多个领域均有应用,可以较好完成彩色图像或用灰度值来表示的医学影像的分割。相较于为了专门进行医学影像分割的 U-net,FCN 在对于彩色图像的分割上更易于实现,这使得在进行信息融合时采用增强信息的方法有利更多的选择,因此该实验使用的堆叠式神经网络也可以被称为堆叠式 FCN(stacked FCN)。
本文以格蕾丝眼病为例,考虑到眼球与放疗靶区的相关性,将图像的红、绿、蓝三通道分别取值为 0、255、0 来表示眼球左右的轮廓形状,由于纯色的添加与灰度图像本身相差较大,因此在网络学习的过程中,此部分所提取出的特征对靶区起到了很好的定位作用,同时与靶区差异很大不会被误判为靶区的一部分。文中使用的 FCN 基于开源框架 Caffe(Berkeley AI Research Lab,美国)构建[11],预训练模型使用 2011 年国际计算机视觉竞赛的模式分析、统计建模与计算学习——可视对象类(Pattern Analysis,Statistical Modelling and Computational Learning-Visual Object Classes,PASCAL-VOC)图集进行迁移学习[12]。数据提取以及图像处理等操作使用编程语言 Python 2.7(Python software foundation,美国)完成,使用软件平台为 Anaconda 2(Anaconda Inc.,美国)。格蕾丝眼病放疗靶区的分割流程示意图如图 2 所示。

1.2 数据的收集和整理
选取 2018-2019 年在四川大学华西医院已经接受过放射治疗的 120 例中重度格蕾丝眼病患者的 CT 影像集,其中女性患者 71 例,男性患者 49 例,其年龄、性别分布如表 1 所示。该 CT 影像均从放疗计划系统 Pinnacle3(V9.2,PHILIPS,美国)中导出,为患者进行放疗前拍摄,用于制定放疗计划。患者数据均进行脱敏处理,CT 影像均由 CT 模拟定位机(SOMATOM Definition AS 128 排,SIEMENS,德国)扫描,层厚为 3 mm。每张 CT 影像均由医学数字成像和通信(digital imaging and communications in medicine,DICOM)文件转换为 512 × 512 像素大小并做归一化处理。在这 120 名患者的 CT 影像集中,随机选出 100 例作为训练集,其余 20 例作为测试例。由于格蕾丝眼病的放疗靶区分为左右相互独立的两部分,因此本文用 stacked FCN 模型和 FCN-8s 模型分别分割左右两侧靶区,来探究堆叠式神经网络对于靶区勾画精度的提升效果。

1.3 轮廓一致性评价方法
为了评估自动分割的准确性,将两种模型的分割结果与医生手动勾画结果的相似度作为评判标准。总体来说,一种分割方法可以从准确性、效率和可靠性三个方面来判定其精度,各种评估指标大致分为四类:矩量法、重叠指标、平均距离和最大距离[13]。为了较为全面地反映分割结果间的相似度,本研究中使用重叠指标中的戴斯相似系数(Dice similarity coefficient,DSC)和最大距离指标中的豪斯多夫距离(Hausdorff distance,HD)将自动分割的轮廓与手动勾画的轮廓进行定量比较[14]。
应用于图像分割的 DSC 指的是两个目标区域的重叠面积占总面积的百分比。就体积而言,它计算的是两个体积的重叠部分占总体积的百分比。DSC 值保持在 0 和 1 之间,1 表示两靶区体积完全重叠,0 表示靶区体积不相交。然而 DSC 对于图像的细节不敏感,其数值无法体现小区域内的明显分割误差[15],这使得添加其他评估标准加以辅助变得十分必要。HD 是度量空间中任意两个非空点集合之间的距离,它计算一个组中每个点距离另一个组中每个点的最小值,并取其最大值[16]。假设 A,B 为空间中的两个非空点集,由 A 到 B 的 HD 定义如式(1)所示:
![]() |
式中,表示由 A 到 B 的单侧 HD 值;d(a,b)表示a,b两点间的距离。
A 和 B 之间的(双向)HD 取两个单侧 HD 中的较大值,其定义如式(2)所示:
![]() |
式中,表示由 B 到 A 的单侧 HD 值。
本文使用了双向 HD。通过编程提取医生勾画与自动分割的靶区像素点坐标,形成两个坐标点集合,并计算两点集的 HD。为了探究 stacked FCN 与 FCN-8s 的勾画精度是否存在差异,使用统计分析软件 SPSS 23.0(IBM,美国)对计算结果进行威尔科克森(Wilcoxon)符号秩和检验进行分析,P < 0.05 为差异有统计学意义。
2 结果
将 stacked FCN 和 FCN-8s 的分割结果,与医生手动勾画结果进行比较,计算体积 DSC 以及 HD,其结果如表 2、表 3 所示。由于格蕾丝眼病放疗临床靶区(clinical target volume,CTV)位于左右两侧眼球后方,故分别计算出了两侧的体积 DSC 以及双向 HD,其中左侧 CTV 用 CTV-L 表示,右侧 CTV 用 CTV-R 表示。结合表 2、表 3 可知,stacked FCN 相较于 FCN-8s 将体积 DSC 值左侧提高了 1.7%,右侧提高了 3.4%;左右侧靶区双向 HD 值均下降了 0.6 左右。由于 DSC 值越大表示重合度越好,而 HD 值越小表示分割误差越小,因此 stacked FCN 在对格蕾丝眼病放疗靶区勾画上的表现要优于 FCN-8s。


威尔科克森符号秩和检验结果显示,两种网络的体积 DSC 值上的差异经检验均有P < 0.05,差异具有统计学意义。两种网络的双向 HD 值上的差异经检验,左侧靶区P > 0.05,差异不具有统计学意义;右侧靶区P < 0.05,差异具有统计学意义。综上所述,stacked FCN 对于格蕾丝眼病放疗靶区的分割结果在与医生手动勾画结果的重合度上有着明显的提高,同时小区域的不良分割在一定程度上减少。
如图 3 所示,为同一测试例三个不同层面的医生勾画结果、FCN-8s 勾画结果以及 stacked FCN 勾画结果的对比,层面 1、层面 2、层面 3 为同一测试例的三个不同层面的 CT 影像。结合表 2、表 3 和图 3 的信息可知,对于体积较小的靶区来说,DSC 和 HD 值的改变反映在每一层 CT 影像上的结果十分明显。通过利用眼球的形状、位置信息,stacked FCN 使得勾画结果靠近边缘处形状更为接近医生手动勾画结果,相较于 FCN-8s 小区域的不良分割更少,靶区形状更为确定,勾画结果更为精确。本文研究结果表明,堆叠式神经网络通过利用靶区周围器官所能提供的定位信息,在现有神经网络的基础上,能够进一步增加靶区自动分割的精度。

3 讨论
无论是基于图集的分割(atlas-based segmentation,ABS)还是基于深度学习的靶区和危及器官的自动分割一直是放疗领域的研究热点,因为通过自动分割可以提高整个放疗流程效率,并且能够减少观察者间的误差[17]。目前有很多研究致力于提高 ABS 的精度,但这种方法本身也受到一定的限制。对于 ABS 来说,自动分割的精度高度依赖于被分割影像与图集的相似度。这使得其在分割体积较小正常组织器官时很难达到一个较为完美的形变配准[18]。除此之外,相较于正常器官,由于靶区形状不确定性较高,特征较难获取,使得对其进行自动分割也更加困难一些。近年来,人工智能与放疗领域的结合愈发紧密,不同的器官、组织以及其对应的各种模态的影像均被用来进行自动分割研究。深度学习通过从训练集中提取不同维度的图像特征来达到识别并分割目标区域这一目的,这也使得基于深度学习的自动分割在一定程度摆脱了形变配准的限制,弥补了 ABS 的不足。
以往基于深度学习的自动分割在进行目标区域分割的训练时,网络能够学习到的信息仅限于目标区域本身;为了提高目标区域的勾画精度通常也是将目标区域的多种影像信息加以组合,并没有考虑目标区域与周围器官之间的联系。FCN 虽然使图像分割进入像素级别时代,但对细节信息较为不敏感,对于每个像素的分类使得其忽略了像素与像素间的关系。目前已有一些研究利用图像中的空间信息来提高自动分割精度[19-20]。堆叠式神经网络与目前常用靶区自动分割方法的区别在于,堆叠式神经网络更贴近于医生对于靶区的定义的方式,在神经网络不断学习提取靶区像素特征的同时,通过靶区外部的相关信息,来进一步规范靶区形状和确定像素的位置。由实验结果可知,该方法可以进一步提高勾画的准确性。这种方法也有利于较难以勾画的小体积器官的自动分割。比如,利用视神经的形状位置辅助视交叉的勾画等。实验中,为了产生与灰度值较为明显的对比,研究中采取了通过将 CT 影像的颜色通道直接用色彩覆盖来增强信息,这也是选择基于 FCN 构建堆叠式神经网络的原因。但堆叠式神经网络正如其名,是通过多个网络不断叠加,丰富并增强用于分割的影像中的信息,因此具有灵活性。作为堆叠式神经网络的内核,即用于进行堆叠的基础神经网络,可以随着使用增强信息方法的不同加以更改和替换。这也使得在进一步的研究中,寻找不同信息融合和增强的方式用于搭配不同的网络进行堆叠十分必要。实验中,通过设定特定的颜色对所选择区域进行更改,从原理上来说是对图像颜色通道数值上的改变,也可尝试添加新的通道用以控制图像透明度或将两者结合来探究其效果。另一方面,基于灰度值的改变是否具有相同的效果也同样值得探究。
格蕾丝眼病靶区临近眼球,形状规则为本研究的验证提供了良好的基础。格蕾丝眼病靶区较小且与眼球联系十分紧密,因此通过眼球定位起到了良好的效果。但考虑到靶区周围结构的复杂性以及与周围器官位置关系上的紧密程度,仍有大量细节情况值得探讨。例如,使用多器官对靶区位置加以确定进行自动分割,其结果相较于仅融入单一器官信息的情况能否提高;同时随着融合信息的增加,计算的速度与自动分割的效率都值得进一步研究。考虑到正常组织器官在靶区周围的分布情况各异,器官与靶区间的距离对于这种定位效果的影响也值得考虑。
综上所述,堆叠式神经网络通过放疗靶区周围正常组织器官的形状位置等信息,辅助目标靶区的勾画,在格蕾丝眼病放疗靶区的勾画中已体现出相较于进行堆叠前精度上的提高。同时随着网络以及融合信息方法的不断改进与提高,图像靶区的勾画精度还将有较大的提升空间。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
深度学习(deep learning,DL)作为人工智能增长最为迅速的领域,已经广泛应用于医学影像处理之中[1]。对于肿瘤放射治疗而言,基于深度学习的放疗靶区和正常组织器官的自动勾画可使医生避免大量重复的勾画工作,在提升整个放射治疗流程效率的同时,减少观察者内和观察者间的误差。随着全卷积神经网络(fully convolutional neural network,FCN)的提出,图像的语义分割进入像素级的时代[2],FCN 之所以能够取得较好的自动分割结果,是因为该网络在对图像进行卷积的过程之中,提取到了深层次的语义信息以及浅层次的位置信息,将这两种信息有效地结合则能够产生较好的分割结果。FCN 中图像每当经过卷积层、池化层后,其宽、高会变为上一次的 1/2。在经过 5 次之后,图像宽、高为原图像的 1/32。此时为了得到与原图大小相同的输出特征图,需要进行 32 倍的上采样。进行 32 倍上采样所得网络为 FCN-32s。若在第四次卷积、池化的基础上进行 16 倍上采样则是 FCN-16s,在第 3 次基础上的进行 8 倍上采样则是 FCN-8s。在三者中,以 FCN-8s 的勾画效果最好[2]。在此之后,基于 FCN 的大量神经网络模型被提出,并用于研究人体正常组织结构的自动分割[3-4]。同时为了提高用于自动分割的神经网络的精度,大量的研究在 FCN 的基础上不断改进网络结构。其中一种采用了对称的收缩和扩张路径的 U 型网络(U-net)作为这类研究的代表,改变了深浅层信息的融合方法,近年来在生物医学影像分割领域表现优异[5]。此外,多种医学影像的结合在图像分割领域的应用也越发广泛。
放射治疗靶区与组织器官相比没有较为特定的影像学特征,其边界的确定往往需要结合周围组织器官的形态结构以及医生的经验[6],这使得有关放射治疗靶区的自动分割的研究较少[7-8]。在以往的靶区自动分割研究之中,放疗靶区往往被作为一个独立的结构用对应的靶区标签和影像进行单独训练。但是这种方法显然没有考虑到在医生勾画靶区时,靶区周围的正常组织器官所提供的信息的作用,而这些信息在很大程度上确定了靶区的形状以及位置。以格蕾丝眼病为例,格蕾丝眼病作为一种常见的眼眶疾病,其中重度患者往往需要接受放射治疗[9]。位于眼眶的放射治疗靶区横截面大致为三角形,范围覆盖眼球后的肌肉组织以及脂肪间隙[10]。虽然格蕾丝眼病的治疗靶区体积较小,但位于靶区前方的眼球可用于确定靶区位置,规范靶区边界形状,同时眼球其本身特征在电子计算机断层扫描(computed tomography,CT)影像上易于辨认。基于以上原因,本研究尝试提出一种用于靶区自动分割的新方法,通过多个神经网络的叠加,将靶区周围利于确定靶区形状的信息融入到靶区的自动分割之中,在现有网络基础上进一步提升靶区自动勾画精度。由于其信息的融合是通过多个网络的叠加得以实现,因此称其为堆叠式神经网络(stacked neural network),具体结构如图 1 所示。相较于先定位再分割并以多种医学影像信息融合为基础的先进行粗略分割再进行精细分割等方法对于靶区本身包含信息的强化与利用,堆叠式神经网络更多的是将周围有利于确定靶区形状位置的空间信息加以利用,先对用于训练及测试的靶区 CT 影像进行信息增强,使周围结构的空间信息更为突出,之后再进行训练以及分割,进而达到提高靶区分割精度的目的。

1 材料和方法
1.1 堆叠式神经网络
堆叠式神经网络是在现有的神经网络的基础之上,将多个网络进行联合使用,其目的是通过多个神经网络的联合,在靶区分割的过程中加入更多的空间信息,以提升靶区的勾画精度。如图 1 所示,在整个神经网络的训练以及使用过程中,所使用的 CT 影像数据集要先经过对靶区周围相关正常组织器官的定位、勾画以及将器官的形状和空间位置信息与原 CT 图像融合这三个步骤。通过这三个步骤得到的训练集和测试集图像分别用于训练和分割,将分割结果再映射到原有 CT 影像之上得到最终的靶区勾画结果。为了使得勾画靶区需要的周围器官的信息更为突出,在进行信息融合时,本文改变了用于表示所选器官的图像通道,使其在图像上与周围结构产生较大对比。本文以 FCN 作为基础,利用 FCN-8s 神经网络加以堆叠来完成对于堆叠式神经网络的测试。FCN 作为图像语义分割应用最为广泛的神经网络,在计算机视觉多个领域均有应用,可以较好完成彩色图像或用灰度值来表示的医学影像的分割。相较于为了专门进行医学影像分割的 U-net,FCN 在对于彩色图像的分割上更易于实现,这使得在进行信息融合时采用增强信息的方法有利更多的选择,因此该实验使用的堆叠式神经网络也可以被称为堆叠式 FCN(stacked FCN)。
本文以格蕾丝眼病为例,考虑到眼球与放疗靶区的相关性,将图像的红、绿、蓝三通道分别取值为 0、255、0 来表示眼球左右的轮廓形状,由于纯色的添加与灰度图像本身相差较大,因此在网络学习的过程中,此部分所提取出的特征对靶区起到了很好的定位作用,同时与靶区差异很大不会被误判为靶区的一部分。文中使用的 FCN 基于开源框架 Caffe(Berkeley AI Research Lab,美国)构建[11],预训练模型使用 2011 年国际计算机视觉竞赛的模式分析、统计建模与计算学习——可视对象类(Pattern Analysis,Statistical Modelling and Computational Learning-Visual Object Classes,PASCAL-VOC)图集进行迁移学习[12]。数据提取以及图像处理等操作使用编程语言 Python 2.7(Python software foundation,美国)完成,使用软件平台为 Anaconda 2(Anaconda Inc.,美国)。格蕾丝眼病放疗靶区的分割流程示意图如图 2 所示。

1.2 数据的收集和整理
选取 2018-2019 年在四川大学华西医院已经接受过放射治疗的 120 例中重度格蕾丝眼病患者的 CT 影像集,其中女性患者 71 例,男性患者 49 例,其年龄、性别分布如表 1 所示。该 CT 影像均从放疗计划系统 Pinnacle3(V9.2,PHILIPS,美国)中导出,为患者进行放疗前拍摄,用于制定放疗计划。患者数据均进行脱敏处理,CT 影像均由 CT 模拟定位机(SOMATOM Definition AS 128 排,SIEMENS,德国)扫描,层厚为 3 mm。每张 CT 影像均由医学数字成像和通信(digital imaging and communications in medicine,DICOM)文件转换为 512 × 512 像素大小并做归一化处理。在这 120 名患者的 CT 影像集中,随机选出 100 例作为训练集,其余 20 例作为测试例。由于格蕾丝眼病的放疗靶区分为左右相互独立的两部分,因此本文用 stacked FCN 模型和 FCN-8s 模型分别分割左右两侧靶区,来探究堆叠式神经网络对于靶区勾画精度的提升效果。

1.3 轮廓一致性评价方法
为了评估自动分割的准确性,将两种模型的分割结果与医生手动勾画结果的相似度作为评判标准。总体来说,一种分割方法可以从准确性、效率和可靠性三个方面来判定其精度,各种评估指标大致分为四类:矩量法、重叠指标、平均距离和最大距离[13]。为了较为全面地反映分割结果间的相似度,本研究中使用重叠指标中的戴斯相似系数(Dice similarity coefficient,DSC)和最大距离指标中的豪斯多夫距离(Hausdorff distance,HD)将自动分割的轮廓与手动勾画的轮廓进行定量比较[14]。
应用于图像分割的 DSC 指的是两个目标区域的重叠面积占总面积的百分比。就体积而言,它计算的是两个体积的重叠部分占总体积的百分比。DSC 值保持在 0 和 1 之间,1 表示两靶区体积完全重叠,0 表示靶区体积不相交。然而 DSC 对于图像的细节不敏感,其数值无法体现小区域内的明显分割误差[15],这使得添加其他评估标准加以辅助变得十分必要。HD 是度量空间中任意两个非空点集合之间的距离,它计算一个组中每个点距离另一个组中每个点的最小值,并取其最大值[16]。假设 A,B 为空间中的两个非空点集,由 A 到 B 的 HD 定义如式(1)所示:
![]() |
式中,表示由 A 到 B 的单侧 HD 值;d(a,b)表示a,b两点间的距离。
A 和 B 之间的(双向)HD 取两个单侧 HD 中的较大值,其定义如式(2)所示:
![]() |
式中,表示由 B 到 A 的单侧 HD 值。
本文使用了双向 HD。通过编程提取医生勾画与自动分割的靶区像素点坐标,形成两个坐标点集合,并计算两点集的 HD。为了探究 stacked FCN 与 FCN-8s 的勾画精度是否存在差异,使用统计分析软件 SPSS 23.0(IBM,美国)对计算结果进行威尔科克森(Wilcoxon)符号秩和检验进行分析,P < 0.05 为差异有统计学意义。
2 结果
将 stacked FCN 和 FCN-8s 的分割结果,与医生手动勾画结果进行比较,计算体积 DSC 以及 HD,其结果如表 2、表 3 所示。由于格蕾丝眼病放疗临床靶区(clinical target volume,CTV)位于左右两侧眼球后方,故分别计算出了两侧的体积 DSC 以及双向 HD,其中左侧 CTV 用 CTV-L 表示,右侧 CTV 用 CTV-R 表示。结合表 2、表 3 可知,stacked FCN 相较于 FCN-8s 将体积 DSC 值左侧提高了 1.7%,右侧提高了 3.4%;左右侧靶区双向 HD 值均下降了 0.6 左右。由于 DSC 值越大表示重合度越好,而 HD 值越小表示分割误差越小,因此 stacked FCN 在对格蕾丝眼病放疗靶区勾画上的表现要优于 FCN-8s。


威尔科克森符号秩和检验结果显示,两种网络的体积 DSC 值上的差异经检验均有P < 0.05,差异具有统计学意义。两种网络的双向 HD 值上的差异经检验,左侧靶区P > 0.05,差异不具有统计学意义;右侧靶区P < 0.05,差异具有统计学意义。综上所述,stacked FCN 对于格蕾丝眼病放疗靶区的分割结果在与医生手动勾画结果的重合度上有着明显的提高,同时小区域的不良分割在一定程度上减少。
如图 3 所示,为同一测试例三个不同层面的医生勾画结果、FCN-8s 勾画结果以及 stacked FCN 勾画结果的对比,层面 1、层面 2、层面 3 为同一测试例的三个不同层面的 CT 影像。结合表 2、表 3 和图 3 的信息可知,对于体积较小的靶区来说,DSC 和 HD 值的改变反映在每一层 CT 影像上的结果十分明显。通过利用眼球的形状、位置信息,stacked FCN 使得勾画结果靠近边缘处形状更为接近医生手动勾画结果,相较于 FCN-8s 小区域的不良分割更少,靶区形状更为确定,勾画结果更为精确。本文研究结果表明,堆叠式神经网络通过利用靶区周围器官所能提供的定位信息,在现有神经网络的基础上,能够进一步增加靶区自动分割的精度。

3 讨论
无论是基于图集的分割(atlas-based segmentation,ABS)还是基于深度学习的靶区和危及器官的自动分割一直是放疗领域的研究热点,因为通过自动分割可以提高整个放疗流程效率,并且能够减少观察者间的误差[17]。目前有很多研究致力于提高 ABS 的精度,但这种方法本身也受到一定的限制。对于 ABS 来说,自动分割的精度高度依赖于被分割影像与图集的相似度。这使得其在分割体积较小正常组织器官时很难达到一个较为完美的形变配准[18]。除此之外,相较于正常器官,由于靶区形状不确定性较高,特征较难获取,使得对其进行自动分割也更加困难一些。近年来,人工智能与放疗领域的结合愈发紧密,不同的器官、组织以及其对应的各种模态的影像均被用来进行自动分割研究。深度学习通过从训练集中提取不同维度的图像特征来达到识别并分割目标区域这一目的,这也使得基于深度学习的自动分割在一定程度摆脱了形变配准的限制,弥补了 ABS 的不足。
以往基于深度学习的自动分割在进行目标区域分割的训练时,网络能够学习到的信息仅限于目标区域本身;为了提高目标区域的勾画精度通常也是将目标区域的多种影像信息加以组合,并没有考虑目标区域与周围器官之间的联系。FCN 虽然使图像分割进入像素级别时代,但对细节信息较为不敏感,对于每个像素的分类使得其忽略了像素与像素间的关系。目前已有一些研究利用图像中的空间信息来提高自动分割精度[19-20]。堆叠式神经网络与目前常用靶区自动分割方法的区别在于,堆叠式神经网络更贴近于医生对于靶区的定义的方式,在神经网络不断学习提取靶区像素特征的同时,通过靶区外部的相关信息,来进一步规范靶区形状和确定像素的位置。由实验结果可知,该方法可以进一步提高勾画的准确性。这种方法也有利于较难以勾画的小体积器官的自动分割。比如,利用视神经的形状位置辅助视交叉的勾画等。实验中,为了产生与灰度值较为明显的对比,研究中采取了通过将 CT 影像的颜色通道直接用色彩覆盖来增强信息,这也是选择基于 FCN 构建堆叠式神经网络的原因。但堆叠式神经网络正如其名,是通过多个网络不断叠加,丰富并增强用于分割的影像中的信息,因此具有灵活性。作为堆叠式神经网络的内核,即用于进行堆叠的基础神经网络,可以随着使用增强信息方法的不同加以更改和替换。这也使得在进一步的研究中,寻找不同信息融合和增强的方式用于搭配不同的网络进行堆叠十分必要。实验中,通过设定特定的颜色对所选择区域进行更改,从原理上来说是对图像颜色通道数值上的改变,也可尝试添加新的通道用以控制图像透明度或将两者结合来探究其效果。另一方面,基于灰度值的改变是否具有相同的效果也同样值得探究。
格蕾丝眼病靶区临近眼球,形状规则为本研究的验证提供了良好的基础。格蕾丝眼病靶区较小且与眼球联系十分紧密,因此通过眼球定位起到了良好的效果。但考虑到靶区周围结构的复杂性以及与周围器官位置关系上的紧密程度,仍有大量细节情况值得探讨。例如,使用多器官对靶区位置加以确定进行自动分割,其结果相较于仅融入单一器官信息的情况能否提高;同时随着融合信息的增加,计算的速度与自动分割的效率都值得进一步研究。考虑到正常组织器官在靶区周围的分布情况各异,器官与靶区间的距离对于这种定位效果的影响也值得考虑。
综上所述,堆叠式神经网络通过放疗靶区周围正常组织器官的形状位置等信息,辅助目标靶区的勾画,在格蕾丝眼病放疗靶区的勾画中已体现出相较于进行堆叠前精度上的提高。同时随着网络以及融合信息方法的不断改进与提高,图像靶区的勾画精度还将有较大的提升空间。
利益冲突声明:本文全体作者均声明不存在利益冲突。