定量分析苏木素-伊红(H&E)染色组织病理图像作为一个新兴领域得到越来越多的关注。本文综述了计算机辅助的图像分析方法在乳腺癌预后中的应用。首先简述了乳腺癌基于H&E组织病理图像的传统预后评估。然后概述了计算机辅助的预后评估,包括图像采集、图像预处理、感兴趣区域检测及对象分割、特征提取,以及计算机辅助的预后。最后总结了计算机辅助的乳腺癌预后研究所面临的主要挑战和未来的发展方向。
引用本文: 陈佳梅, 屈爱平, 刘文楼, 王林伟, 袁静萍, 刘娟, 李雁. 基于苏木素-伊红组织病理图像的计算机辅助的乳腺癌预后. 生物医学工程学杂志, 2016, 33(3): 598-603. doi: 10.7507/1001-5515.20160100 复制
引言
随着图像处理、数学、统计学等领域的快速发展,医学形态学由人工定性分析进入计算机辅助的定量分析阶段。计算机辅助的诊断自20世纪90年代正式进入影像学临床应用,并在该领域发挥着越来越重要的作用[1-2]。与此同时病理学正向着数字化转变,全切片扫描仪在促进数字化病理图像数据库飞速发展的同时,也促进了计算机辅助的图像分析方法在病理领域的探索与应用[3]。
计算机辅助的图像分析方法可帮助病理医生定量研究病理图像[4],已有相关分析软件应用于免疫荧光图像[5]以及免疫组织化学(immunohistochemistry,IHC)图像的定量分析[6]。但针对苏木素-伊红(hematoxylin & eosin,H&E)组织病理图像的定量分析尚处于探索阶段,未应用于常规病理工作中。然而H&E组织病理图像是目前大多数疾病以及几乎所有肿瘤的诊断金标准[7]。不足的是病理医生对H&E图像的分析一直停留在基于经验的定性水平,其评估结果存在观察者间或观察者内差异[4]。因而,如何基于H&E图像的定量分析实现计算机辅助的诊断和预后成为图像分析领域的研究热点之一[8-10]。
乳腺癌作为一种高度异质性的疾病,如何准确评估其预后和治疗反应性并提供最佳的个体化治疗方案,成为临床亟待解决的难题[11]。尽管基因表达特征谱揭示了乳腺癌的分子异质性,能较好地预测预后,但是其技术缺乏普适性且费用昂贵,暂不能应用于常规病理流程中。目前乳腺癌的预后评估仍依赖于H&E图像中的形态特征和IHC图像中的生物指标[12]。本文综述了计算机辅助的H&E组织病理图像分析在乳腺癌预后中的应用。
1 基于H&E图像的传统预后评估
H&E图像中癌细胞异型性和上皮组织异型性可为乳腺癌提供重要的预后信息,不同组织学类型乳腺癌的预后显著不同[13]。世界卫生组织采用的组织学分级——诺丁汉分级(Nottingham grading system,NGS)是乳腺癌经典的预后因子之一。NGS通过半定量评估H&E图像中的腺管形成程度、癌细胞异型性及有丝分裂象计数来反映乳腺癌的分化程度。该人工评估过程不仅耗时,而且对病理医生的专业知识和从业经验都有着极高的要求,易受疲劳阅片等主观因素的影响,从而限制了NGS在预后中的应用[14]。因而研究者们尝试以图像分析技术量化癌细胞和(或)上皮组织的形态特征来实现客观的分级[15-17]。
另外,乳腺癌的发生发展是癌细胞与肿瘤微环境相互作用的结果,肿瘤间质中细胞种类、数量或形态的改变也具有预后意义[18]。如淋巴细胞浸润者一般预后较好[19],而肿瘤相关成纤维细胞的出现则提示预后不良[20]。在常规病理工作中,一般定性描述肿瘤间质中细胞成分和细胞外基质的改变,而基于计算机的图像分析可自动分割间质中的不同成分并进行定量研究[21-22]。
2 基于H&E图像的计算机辅助预后评估
计算机辅助预后评估的工作流程如图 1所示。首先,通过图像采集将显微镜下的组织切片转换成能被计算机直接处理的数字图像。然后,模拟病理医生长期阅片等经验学习过程处理并分析图像,其主要过程包括图像预处理、感兴趣区域(region of interest,ROI)检测与对象分割,以及特征提取。最后,结合临床病理数据甄别出有预后意义的特征,并构建整合了不同特征的预后模型。

2.1 图像采集
传统的图像采集系统是安装在显微镜上的数码相机,可获取静态图像。现在全切片扫描仪可扫描整张组织切片,获取高分辨率、高清晰度的全切片扫描图像(whole slide scanner image,WSI),并可模拟显微镜逐级放大,动态观察病变。有研究显示,在分析乳腺H&E切片时使用传统显微镜下图像与使用WSI具有相似的精度、准确度及可重复性[23]。通常组织切片中除了病变组织,还有正常组织或者空白区域,故大量的研究工作只采集图像中的ROI,或选取WSI中的ROI进行分析[24]。
2.2 图像预处理
图像质量的好坏会影响后续ROI检测与对象分割的精度和准确度。影响图像质量的因素有组织处理、切片以及染色不当,或图像采集条件差异。适当的预处理方法可改善图像质量,如颜色归一化可减轻染色批次效应[25],图像增强可提高感兴趣对象与背景的对比度[26]。
2.3 ROI检测及对象分割
自动检测ROI并分割病理对象是特征提取的前提,也是图像处理中的经典难题。乳腺癌的高度异质性导致组织形态复杂多样[27],针对其H&E图像的检测及分割极具挑战性。已提出的细胞核分割方法有基于灰度的阈值法[28]与模糊聚类法[29],结合区域生长与马尔可夫随机场的方法[30],以及与特定理论相结合的方法如基于数学形态学的分水岭[16, 31]和最近提出的深度堆栈自编码器[32]。而排斥水平集[33]、主动轮廓模型[34]以及上述分水岭算法等均可进一步解决分割边界重叠的现象。对于不同类型的细胞,最小值分割模型可区分正常细胞与癌细胞[35],而期望值最大化-主动轮廓模型[36]以及支持向量机(support vector machine,SVM)[22, 37]可分割淋巴细胞。
有丝分裂象是具有特殊形态的细胞核,其核浓染、核膜欠清晰、边缘呈毛刺状,是评估乳腺癌增殖率常用的方法。国际上组织了关于有丝分裂象检测算法的挑战项目[38-39],在2013年MICCAI(Medical Image Computing and Computer Assisted Interventions)竞赛中,深度神经网络性能最佳,其检测结果可与病理专家标记结果相媲美[40]。但由于凋亡、坏死细胞核及淋巴细胞等均与有丝分裂象具有类似形态,即使是病理专家也很难做出鉴别。因而有丝分裂象分割比一般细胞核分割更具挑战性,远不能应用于病理工作。
上皮细胞在正常乳腺组织中规律排列成腺泡或腺管结构,而恶性上皮细胞间的黏附性降低或消失,使其失去形成管腔的能力,故腺管形成程度可反映癌组织分化程度。鉴于腺管属于组织水平结构,其分割需分别识别腺腔、上皮细胞后再分割腺管边界。目前关于乳腺癌腺管分割的文献并不广泛[41-42]。Dalle等[43]提出的基于数学形态学的闭运算将脂肪组织等具有腔隙的结构也分割出来,其假阳性率较高。而Naik等[44]采用Bayesian分类器检测出腺管样结构,然后基于面积移除假阳性对象,最后应用水平集分割腺管边界。Xu等[45]提出的测地线-主动轮廓模型与Basavanhally等[46]提出的O’Callaghan邻近在分割有多重组分的组织结构时具有较大优势,在区分腺管与其它管腔样结构时假阳性率较低。
2.4 特征提取
对象分割后,以提取的特征即计算机视觉语言代替病理语言来描述对象,包括像素水平、对象水平及语义水平特征[24]。像素水平特征如颜色与纹理特征不能反映对象属性,故其生物学解释性最小,常用于对象的分割如有丝分裂象检测[47]。对象水平特征如形状、大小[34]可直观描述对象形态。然而病理医生在分析图像时并非建立在上述低层视觉特征上,还需基于专业知识对图像内容进行理解。这种基于病理知识的理解与计算机视觉间存在的语义鸿沟是特征提取面临的主要难题。语义特征即是对图像内容理解的反映,如一定区域内对象密度、不同对象数量比和空间结构关系等。对于提取出的大量特征,一般需降低特征维数来帮助获取更具病理意义的特征[48]。
2.5 预后评估
图像中细胞核的特征可用于评估癌细胞的恶性度。Veta等[16]的研究显示平均细胞核面积是男性乳腺癌的独立预后因子。Loukas等[49]以基于纹理特征的模式分类器对乳腺癌进行恶性度分级。Basavanhally等[15]结合细胞核的纹理特征与空间结构特征来区分雌激素受体(estrogen receptor,ER)阳性乳腺癌的低、中、高级别。而Naik等[44]应用基于腺管形状特征与细胞核空间结构特征的SVM成功区分了高级别与低级别乳腺癌。有研究者尝试通过综合定量腺管特征、细胞核特征及有丝分裂象来实现客观化的组织学分级,其基本流程如图 2所示。如Tutac等[50]首次提出了一个基于知识模型的半自动化分级系统,其结果的一致性较人工评估的高。Dalle等[43]基于多分辨率方法与Gaussian模型函数进一步完善了上述工作,实现了自动化的组织学分级,且自动分级结果与人工评估结果具有较高的一致性。

肿瘤间质浸润的淋巴细胞及肿瘤相关成纤维细胞等的形态特征能提供极其重要的预后信息。Yuan等[37]基于SVM测量ER阴性乳腺癌H&E图像中淋巴细胞浸润程度(lymphocytic infiltration,LI),结果显示LI基于SVM的评分与人工评分的预后意义一致。他们[22]随后应用图像分析与统计模型测量三阴性乳腺癌(即雌激素受体、孕激素受体以及人表皮生长因子受体均阴性)图像的LI,并取得了与基因表达谱检测相似的结果。除LI外,间质细胞的空间特征在浸润性导管癌[51-52]或ER阴性乳腺癌[37]中具有独立预后意义。另外,Nawaz等[53]在ER阴性乳腺癌的研究结果示,图像中癌细胞与免疫细胞共存者较单独有癌细胞或者仅有免疫细胞的预后更好。
图像特征与分子特征分别从形态与功能上预测预后,整合了两者的预测模型有助于更准确地预测乳腺癌预后[10],如图 3所示。例如,整合H&E图像的形态特征与IHC图像的分子特征可评估ER阴性乳腺癌的侵袭性,该评估结果或将可能取代较昂贵的Oncotype DX风险评分[54]。在Yuan等[37]的研究中,基于病理图像特征与基因表达谱特征的预后模型可以预测ER阴性乳腺癌预后,该模型的预测效能优于单独应用图像特征或基因表达谱特征。Wang等[55]建立了一个整合H&E图像特征与基因信息的工作流程,用于三阴性乳腺癌生物标志物的挖掘,他们的结果显示有48对显著相关的图像特征与基因簇,其中4对能预测预后。

3 结论
计算机辅助的H&E图像分析基于其高通量运算特性在减轻病理医生工作量的同时,可全面获取图像信息,协助病理医生挖掘出有预后意义的形态特征,将会对乳腺癌病理工作流程产生极大影响。但是,针对H&E图像的区域检测与对象分割极具挑战性,目前所提出的检测与分割方法在不同数据集中缺乏鲁棒性,尤其是有丝分裂象的检测与腺管结构分割。虽然现有研究结果显示计算机辅助的预后评估与人工评估结果一致,甚至优于人工评估,但是仍需要前瞻性研究在不同数据集中进一步验证方法的鲁棒性,以及图像特征的病理意义。
引言
随着图像处理、数学、统计学等领域的快速发展,医学形态学由人工定性分析进入计算机辅助的定量分析阶段。计算机辅助的诊断自20世纪90年代正式进入影像学临床应用,并在该领域发挥着越来越重要的作用[1-2]。与此同时病理学正向着数字化转变,全切片扫描仪在促进数字化病理图像数据库飞速发展的同时,也促进了计算机辅助的图像分析方法在病理领域的探索与应用[3]。
计算机辅助的图像分析方法可帮助病理医生定量研究病理图像[4],已有相关分析软件应用于免疫荧光图像[5]以及免疫组织化学(immunohistochemistry,IHC)图像的定量分析[6]。但针对苏木素-伊红(hematoxylin & eosin,H&E)组织病理图像的定量分析尚处于探索阶段,未应用于常规病理工作中。然而H&E组织病理图像是目前大多数疾病以及几乎所有肿瘤的诊断金标准[7]。不足的是病理医生对H&E图像的分析一直停留在基于经验的定性水平,其评估结果存在观察者间或观察者内差异[4]。因而,如何基于H&E图像的定量分析实现计算机辅助的诊断和预后成为图像分析领域的研究热点之一[8-10]。
乳腺癌作为一种高度异质性的疾病,如何准确评估其预后和治疗反应性并提供最佳的个体化治疗方案,成为临床亟待解决的难题[11]。尽管基因表达特征谱揭示了乳腺癌的分子异质性,能较好地预测预后,但是其技术缺乏普适性且费用昂贵,暂不能应用于常规病理流程中。目前乳腺癌的预后评估仍依赖于H&E图像中的形态特征和IHC图像中的生物指标[12]。本文综述了计算机辅助的H&E组织病理图像分析在乳腺癌预后中的应用。
1 基于H&E图像的传统预后评估
H&E图像中癌细胞异型性和上皮组织异型性可为乳腺癌提供重要的预后信息,不同组织学类型乳腺癌的预后显著不同[13]。世界卫生组织采用的组织学分级——诺丁汉分级(Nottingham grading system,NGS)是乳腺癌经典的预后因子之一。NGS通过半定量评估H&E图像中的腺管形成程度、癌细胞异型性及有丝分裂象计数来反映乳腺癌的分化程度。该人工评估过程不仅耗时,而且对病理医生的专业知识和从业经验都有着极高的要求,易受疲劳阅片等主观因素的影响,从而限制了NGS在预后中的应用[14]。因而研究者们尝试以图像分析技术量化癌细胞和(或)上皮组织的形态特征来实现客观的分级[15-17]。
另外,乳腺癌的发生发展是癌细胞与肿瘤微环境相互作用的结果,肿瘤间质中细胞种类、数量或形态的改变也具有预后意义[18]。如淋巴细胞浸润者一般预后较好[19],而肿瘤相关成纤维细胞的出现则提示预后不良[20]。在常规病理工作中,一般定性描述肿瘤间质中细胞成分和细胞外基质的改变,而基于计算机的图像分析可自动分割间质中的不同成分并进行定量研究[21-22]。
2 基于H&E图像的计算机辅助预后评估
计算机辅助预后评估的工作流程如图 1所示。首先,通过图像采集将显微镜下的组织切片转换成能被计算机直接处理的数字图像。然后,模拟病理医生长期阅片等经验学习过程处理并分析图像,其主要过程包括图像预处理、感兴趣区域(region of interest,ROI)检测与对象分割,以及特征提取。最后,结合临床病理数据甄别出有预后意义的特征,并构建整合了不同特征的预后模型。

2.1 图像采集
传统的图像采集系统是安装在显微镜上的数码相机,可获取静态图像。现在全切片扫描仪可扫描整张组织切片,获取高分辨率、高清晰度的全切片扫描图像(whole slide scanner image,WSI),并可模拟显微镜逐级放大,动态观察病变。有研究显示,在分析乳腺H&E切片时使用传统显微镜下图像与使用WSI具有相似的精度、准确度及可重复性[23]。通常组织切片中除了病变组织,还有正常组织或者空白区域,故大量的研究工作只采集图像中的ROI,或选取WSI中的ROI进行分析[24]。
2.2 图像预处理
图像质量的好坏会影响后续ROI检测与对象分割的精度和准确度。影响图像质量的因素有组织处理、切片以及染色不当,或图像采集条件差异。适当的预处理方法可改善图像质量,如颜色归一化可减轻染色批次效应[25],图像增强可提高感兴趣对象与背景的对比度[26]。
2.3 ROI检测及对象分割
自动检测ROI并分割病理对象是特征提取的前提,也是图像处理中的经典难题。乳腺癌的高度异质性导致组织形态复杂多样[27],针对其H&E图像的检测及分割极具挑战性。已提出的细胞核分割方法有基于灰度的阈值法[28]与模糊聚类法[29],结合区域生长与马尔可夫随机场的方法[30],以及与特定理论相结合的方法如基于数学形态学的分水岭[16, 31]和最近提出的深度堆栈自编码器[32]。而排斥水平集[33]、主动轮廓模型[34]以及上述分水岭算法等均可进一步解决分割边界重叠的现象。对于不同类型的细胞,最小值分割模型可区分正常细胞与癌细胞[35],而期望值最大化-主动轮廓模型[36]以及支持向量机(support vector machine,SVM)[22, 37]可分割淋巴细胞。
有丝分裂象是具有特殊形态的细胞核,其核浓染、核膜欠清晰、边缘呈毛刺状,是评估乳腺癌增殖率常用的方法。国际上组织了关于有丝分裂象检测算法的挑战项目[38-39],在2013年MICCAI(Medical Image Computing and Computer Assisted Interventions)竞赛中,深度神经网络性能最佳,其检测结果可与病理专家标记结果相媲美[40]。但由于凋亡、坏死细胞核及淋巴细胞等均与有丝分裂象具有类似形态,即使是病理专家也很难做出鉴别。因而有丝分裂象分割比一般细胞核分割更具挑战性,远不能应用于病理工作。
上皮细胞在正常乳腺组织中规律排列成腺泡或腺管结构,而恶性上皮细胞间的黏附性降低或消失,使其失去形成管腔的能力,故腺管形成程度可反映癌组织分化程度。鉴于腺管属于组织水平结构,其分割需分别识别腺腔、上皮细胞后再分割腺管边界。目前关于乳腺癌腺管分割的文献并不广泛[41-42]。Dalle等[43]提出的基于数学形态学的闭运算将脂肪组织等具有腔隙的结构也分割出来,其假阳性率较高。而Naik等[44]采用Bayesian分类器检测出腺管样结构,然后基于面积移除假阳性对象,最后应用水平集分割腺管边界。Xu等[45]提出的测地线-主动轮廓模型与Basavanhally等[46]提出的O’Callaghan邻近在分割有多重组分的组织结构时具有较大优势,在区分腺管与其它管腔样结构时假阳性率较低。
2.4 特征提取
对象分割后,以提取的特征即计算机视觉语言代替病理语言来描述对象,包括像素水平、对象水平及语义水平特征[24]。像素水平特征如颜色与纹理特征不能反映对象属性,故其生物学解释性最小,常用于对象的分割如有丝分裂象检测[47]。对象水平特征如形状、大小[34]可直观描述对象形态。然而病理医生在分析图像时并非建立在上述低层视觉特征上,还需基于专业知识对图像内容进行理解。这种基于病理知识的理解与计算机视觉间存在的语义鸿沟是特征提取面临的主要难题。语义特征即是对图像内容理解的反映,如一定区域内对象密度、不同对象数量比和空间结构关系等。对于提取出的大量特征,一般需降低特征维数来帮助获取更具病理意义的特征[48]。
2.5 预后评估
图像中细胞核的特征可用于评估癌细胞的恶性度。Veta等[16]的研究显示平均细胞核面积是男性乳腺癌的独立预后因子。Loukas等[49]以基于纹理特征的模式分类器对乳腺癌进行恶性度分级。Basavanhally等[15]结合细胞核的纹理特征与空间结构特征来区分雌激素受体(estrogen receptor,ER)阳性乳腺癌的低、中、高级别。而Naik等[44]应用基于腺管形状特征与细胞核空间结构特征的SVM成功区分了高级别与低级别乳腺癌。有研究者尝试通过综合定量腺管特征、细胞核特征及有丝分裂象来实现客观化的组织学分级,其基本流程如图 2所示。如Tutac等[50]首次提出了一个基于知识模型的半自动化分级系统,其结果的一致性较人工评估的高。Dalle等[43]基于多分辨率方法与Gaussian模型函数进一步完善了上述工作,实现了自动化的组织学分级,且自动分级结果与人工评估结果具有较高的一致性。

肿瘤间质浸润的淋巴细胞及肿瘤相关成纤维细胞等的形态特征能提供极其重要的预后信息。Yuan等[37]基于SVM测量ER阴性乳腺癌H&E图像中淋巴细胞浸润程度(lymphocytic infiltration,LI),结果显示LI基于SVM的评分与人工评分的预后意义一致。他们[22]随后应用图像分析与统计模型测量三阴性乳腺癌(即雌激素受体、孕激素受体以及人表皮生长因子受体均阴性)图像的LI,并取得了与基因表达谱检测相似的结果。除LI外,间质细胞的空间特征在浸润性导管癌[51-52]或ER阴性乳腺癌[37]中具有独立预后意义。另外,Nawaz等[53]在ER阴性乳腺癌的研究结果示,图像中癌细胞与免疫细胞共存者较单独有癌细胞或者仅有免疫细胞的预后更好。
图像特征与分子特征分别从形态与功能上预测预后,整合了两者的预测模型有助于更准确地预测乳腺癌预后[10],如图 3所示。例如,整合H&E图像的形态特征与IHC图像的分子特征可评估ER阴性乳腺癌的侵袭性,该评估结果或将可能取代较昂贵的Oncotype DX风险评分[54]。在Yuan等[37]的研究中,基于病理图像特征与基因表达谱特征的预后模型可以预测ER阴性乳腺癌预后,该模型的预测效能优于单独应用图像特征或基因表达谱特征。Wang等[55]建立了一个整合H&E图像特征与基因信息的工作流程,用于三阴性乳腺癌生物标志物的挖掘,他们的结果显示有48对显著相关的图像特征与基因簇,其中4对能预测预后。

3 结论
计算机辅助的H&E图像分析基于其高通量运算特性在减轻病理医生工作量的同时,可全面获取图像信息,协助病理医生挖掘出有预后意义的形态特征,将会对乳腺癌病理工作流程产生极大影响。但是,针对H&E图像的区域检测与对象分割极具挑战性,目前所提出的检测与分割方法在不同数据集中缺乏鲁棒性,尤其是有丝分裂象的检测与腺管结构分割。虽然现有研究结果显示计算机辅助的预后评估与人工评估结果一致,甚至优于人工评估,但是仍需要前瞻性研究在不同数据集中进一步验证方法的鲁棒性,以及图像特征的病理意义。