针对在胎儿心电信号提取中,U-Net同级卷积编码器尺度的单一性忽略了母亲和胎儿心电特征波的大小和形态差异,且当残差收缩模块作为编码器的阈值学习过程中缺少对心电信号时间信息利用的问题,本文提出一种基于多尺度残差收缩U-Net模型的胎儿心电信号提取方法。首先在残差收缩模块中引入Inception和时间域注意力,增强同级卷积编码器的胎儿心电信号多尺度特征提取能力和时间域信息的利用;为了保持更多的心电波形局部细节特征,将U-Net中的最大池化替换为Softpool;最后,由残差模块和上采样构成的解码器逐步生成胎儿心电信号。本文应用临床心电信号进行实验,最终结果表明:与其他胎儿心电提取算法相比,本文方法可以提取更为清晰的胎儿心电信号,在2013年竞赛数据集上灵敏度、阳性预测值和F1分数分别达到93.33%、99.36%、96.09%。因此本文方法可以有效提取胎儿心电信号,为围产期胎儿健康监护提供了一种具有应用价值的方法。
引用本文: 王乾, 张正旭, 宋丹洋, 王玉静, 宋立新. 基于多尺度残差收缩U-Net的胎儿心电信号提取. 生物医学工程学杂志, 2024, 41(3): 494-502. doi: 10.7507/1001-5515.202303012 复制
0 引言
胎心监护是胎儿健康监测的一种重要手段,能有效降低围产期胎儿的发病率及死亡率[1]。胎儿心电信号(fetal electrocardiogram,FECG)可以反映胎儿心脏活动的全貌,其形态学特征有利于对胎儿健康状况进行监测,是一种具有广阔应用场景的胎儿电子监护技术。
胎儿心电信号通常从孕妇腹部心电信号(abdominal electrocardiogram,AECG)中提取,而孕妇腹部心电信号中除了胎儿心电信号,还包含母体心电信号以及基线漂移、工频干扰、脉冲伪迹等其他噪声[2];另外,胎儿心电信号相对微弱,母亲心电幅值一般是胎儿的5~10倍,且与胎儿心电在时域有10%~30%的重叠[3]。因此,如何抑制母亲心电提取出干净的胎儿心电信号成为研究的重点和难点。
近年来,深度学习在心电信号处理方面得到实际应用。由于神经网络不需要人工提取特征,通过训练能够自适应地提取特征,使用神经网络去噪可能比人工提取特征更为有效,其中卷积神经网络(convolutional neural networks,CNN)表现出强大的特征提取能力。Zhong等[4]提出的残差卷积编码器-解码器网络(residual convolutional encoder–decoder network,RCED-Net)能够较好地提取胎儿心电信号,但网络模型复杂度较低,对于复杂的腹部心电信号提取能力不足;Zhong等[5]利用腹部心电信号时频域特征,提出基于短时傅立叶变换(short time Fourier transform,STFT)和生成对抗性网络(generative adversarial networks,GAN)的心电信号提取方法,STFT-GAN将腹部心电转换成时频图不仅能够较好地提取胎儿心电信号,而且能够处理母胎心电信号重合波,但时频图转换增加了计算量和时间,使得网络效率降低。
U-Net是一种编码-解码结构的端对端全卷积网络,通过编码器提取胎儿心电特征,然后由解码器进行特征重建生成胎儿心电信号。相比于CNN,U-Net的编码器可以捕捉波形特性之间的上下文信息,解码器可以精确定位特征位置,更适合胎儿心电信号的提取。Arash Rasti-Meymandi等[6]提出一种由两个残差对称跳跃连接卷积自动编码器Res-Unet的胎儿心电提取方法,能够较好地提取胎儿心电信号;但需要训练两个U-Net模型,增加了训练难度,且每个U-Net每层编码器使用单一尺度卷积核,缺少对心电波形特征的进一步提取。
深度残差收缩网络[7](deep residual shrinkage networks,DRSN)为一种基于残差收缩结构改进的深度神经网络,常用于信号去噪领域。通过残差收缩模块前两个卷积层突出有用信号特征,抑制无用信号或噪声的特征,而后通过软阈值化,能够较好地解决微弱信号的去噪问题[8-9]。其中,基于通道阈值的残差收缩模块(residual shrinkage building unit with channel-wise thresholds,RSBU-CW)在阈值学习过程中只关注通道域的特征信息,忽略了心电信号时间域信息对阈值学习的影响。
针对U-Net收缩路径中同级卷积编码器尺度的单一性,忽略了母亲和胎儿心电特征波的大小和形态差异,作为编码器的残差收缩模块阈值学习过程中缺少对心电信号时间信息利用的问题,本文提出一种基于多尺度残差收缩U-Net的胎儿心电信号提取方法。首先在RSBU-CW中引入多尺度特征融合模块Inception[10]和时间域注意力(time attention,TA),构建基于混合注意力阈值的多尺度残差收缩模块(inception residual shrinkage module based on mixed attention threshold,IRSBU-MA),通过Inception增强模块的多尺度特征提取能力,同时将时间域注意力与通道域注意力(channel attention,CA)串行结合,增强模块对胎儿心电信号的多尺度成分和时间域信息的利用。为了保持更多的胎儿心电局部细节特征,引入Softpool池化[11]。然后以U-Net模型为基本网络,由IRSBU-MA和Softpool组成的编码器来逐步提取胎儿心电特征并去除母亲心电特征,最后由残差模块和上采样构成的解码器逐步生成胎儿心电信号。
1 模型结构
1.1 总体网络结构
本文多尺度残差收缩U-Net模型结构如图1所示。其中,编码器由基于混合注意力阈值的多尺度残差收缩模块IRSBU-MA和Softpool池化构成,共包括6层IRSBU-MA模块和5层Softpool池化,用于提取胎儿心电信号特征。解码器由5层残差块和上采样组成,可以根据胎儿心电信号特征生成胎儿心电信号,残差块中添加了残差连接加速模型训练,并避免了梯度消失或爆炸问题;解码器每个残差块包括三个卷积层和残差连接。在解码器和编码器之间存在跳跃连接,使得不同层次的特征可以相互融合,保留并利用不同层次特征中的有效信息,提高胎儿心电信号生成的质量。

腹部心电信号输入数据X定义为 ,其中N = T × fs表示腹部心电信号采样点个数,T为采样持续时间,fs为采样频率;C表示腹部心电信号导联的数量。输入数据大小为(1 024, 1),其中,1表示为单导联腹部心电信号,1 024指采样点个数;编码器每层的通道大小为(16, 32, 64, 128, 256, 256),而特征图大小为[(1 024, 1), (512, 1), (256, 1), (128, 1), (64, 1), (32, 1)],解码器与编码器在对应层中的通道大小和特征图大小一致。
1.2 多尺度残差收缩模块
为解决U-Net编码器中每层卷积尺度的单一性,并增加残差收缩模块阈值学习模块对时间域信息的利用,构建多尺度残差收缩模块结构如图2a所示,包括多尺度特征融合单元、残差单元、阈值学习单元和软阈值处理单元。多尺度特征融合单元通过多个卷积核大小不同的并行卷积对输入的腹部心电信号进行波形特征提取和融合,而后通过阈值学习单元提取心电信号时间域与通道域信息确定阈值,并通过软阈值处理单元对腹部心电信号特征进行软阈值函数去噪,最后引入残差单元来防止网络退化。

a. 多尺度残差收缩模型整体结构;b. 时间域注意力;c. 通道域注意力
Figure2. Structure diagram of RSBU-MAa. structure diagram of residual shrinkage building unit; b. time attention; c. channel attention
多尺度特征融合单元由三条卷积支路和一条池化支路组成,三条卷积支路的卷积核大小分别为1 × 1、1 × 3、1 × 5,小的卷积尺度用来获取腹部心电信号的细节特征,大的卷积尺度用来提取腹部心电信号的全局性特征信息,池化分支采用最大池化,池化核为1 × 3,能够突出池化内核中的显著特征;且在1 × 3和1 × 5的卷积前面以及最大池化后面添加1 × 1卷积,可以降低通道数来减少参数量,并在每次卷积之后加入批归一化(batch normalization,BN)和ReLU激活函数,以提高模型的非线性拟合性能。
在阈值学习单元中,加入时间域注意力提取胎儿心电波形时间域信息,并对原有通道域注意力进行改进,形成全局最大池化(global max pooling,GMP)支路与全局平均池化(global average pooling,GAP)结合的增强通道域信息提取能力的改进通道域注意力;将时间域注意力与通道域注意力相结合,构成了一个混合的注意力(mix attention,MA)来提取混合域的特征信息,从而确定混合域的阈值。具体时间域注意力结构和通道域注意力结构分别如图2b和图2c所示。
时间域注意力:时间域注意力权重计算过程如式(1)所示:
![]() |
其中:和
分别代表GAP和GMP的结果,
和
分别表示两个全连接层,
代表ReLU激活函数,
代表Sigmoid激活函数,
表示求解出的时间域注意力权重。
通道域注意力:对原仅含GAP的通道注意力进行改进,增加GMP支路,通道域注意力权重计算过程如式(2)所示:
![]() |
其中:和
分别表示对特征图进行GAP和GMP的结果,
和
表示GAP支路的两个全连接层(fully connected layers,FC),
和
表示GMP支路的两个FC,
表示ReLU函数,
表示Sigmoid函数,
为通道域注意力权重。
阈值学习单元将时间域注意力与通道域注意力通过串联的方式组合在一起,将特征矩阵Z作为输入送入该阈值学习单元,得到最终的基于混合域注意力的阈值,具体过程如式(3)所示:
![]() |
其中,表示时间域阈值,
表示混合域阈值。
软阈值处理单元采用软阈值函数进行降噪处理步骤,软阈值函数如式(4)所示,将绝对值小于某个阈值 的特征去除掉,将绝对值大于该阈值的特征朝向零进行收缩处理。
![]() |
1.3 利用Softpool改进下采样
为了保持更多的胎儿心电局部细节特征,将U-Net中的Maxpool[12]替换为Softpool。U-Net模型中的Maxpool可以保留池化内核中的局部最大值,凸出内核中的显著特征,利用最大池化进行下采样可能会丢失胎儿心电细节特征,从而降低模型对胎儿心电信号的提取精度。针对这一问题,本文利用Softpool替换U-Net中的最大池化层。Softpool是一种变种的池化层,基于softmax方法对感受野内所有特征点进行加权来保留输入的基本属性并放大更大强度的特征激活,相比于最大池化,Softpool能够在进行特征图下采样的同时,保留更多的胎儿心电局部特征信息,适用于胎儿心电信号提取。
2 实验
2.1 实验数据集
本实验采用的数据集为胎儿心电图合成数据库(Fetal Electrocardiogram Synthetic Database,FECGSYNDB)[13]、腹部和直接胎儿心电数据库(Abdominal and Direct Fetal ECG Database,ADFECGDB)[14]、2013年竞赛数据集(PhysioNet/Computing in Cardiology Challenge Database,PCDB)[15]的set-A、DAISY数据集[16]。由于真实的胎儿心电信号非常难以获取,且获取的信号含有较多的噪声,但完全采用合成数据集又缺乏胎儿信号在现实场景中的真实性和复杂性,因此本文采用合成的FECGSYNDB数据集和一部分真实的ADFECGDB数据集作为训练集,其余作为测试集。四个数据集的详细情况如下:
(1)FECGSYNDB:通过FECGSYN无创胎儿心电图发生器生成的合成数据库,包括145.8 h的数据和110万个胎儿峰值。每个模拟从母体采集的信号包括34个通道(32个腹部和2个MECG通道),采样频率250 Hz,采样时数据库提供了每个信号源的单独波形。
(2)ADFECGDB:数据库包括来自五个分娩对象的五个通道记录(4个母体腹部通道和1个胎儿心电通道),每个记录持续5 min,采样频率为1 kHz。
(3)PCDB Set-A数据集:数据集包括75组持续1 min的孕妇腹部心电图记录,每组包含四个通道。采样率为1 kHz,并给出了FQRS的参考位置。
(4)DAISY数据集:数据库记录了从孕妇体表获取到的8通道信号(前5个通道为孕妇腹部混合心电信号,后3个通道为孕妇胸部心电信号),采样持续10 s,采样频率为250 Hz。
考虑到数据集中存在个别通道的胎儿信号微弱或缺失的问题,实验中删除了一些记录。具体为,从ADFECGDB中排除了r04 Ab-1、r07 Ab-1和r10 Ab-3三条记录;而PCDB Set-A数据集,本文参考文献[5]选择80条记录。
2.2 数据预处理
首先,以250 Hz采样率为基准,将采样频率为1 000 Hz的数据集中信号通过抽值下采样到250 Hz;然后利用截止频率为3~100 Hz的FIR滤波器,去除基线和高频噪声;其次,对过滤后的心电图采用分割和归一化操作,以每段信号1 024个采样点对数据集进行分割并通过最大最小值归一化将幅值变换到[–1, 1],且为了保持信号的连续性,前后两个信号重合24个采样点;最后划分训练集和测试集,训练集由FECGSYNDB数据集和一部分ADFECGDB数据集组成,共21 110个样本,测试集由PCDB Set-A数据集、DAISY数据集和剩余的ADFECGDB数据集组成,共1 500个样本。
2.3 实验设备
本文实验所用平台与网络超参数配置:操作系统为Windows,CPU为Intel 11代 i5-5800H,GPU为NVIDIV GTX3060,深度学习框架为Tensorflow,编程语言为Python,批次大小为64,优化器AdamOptimer,学习率为0.000 3。
2.4 性能评价指标
本研究将参考R峰注释与提取的胎儿心电信号中检测到的R峰位置进行对比,来考察胎儿心电信号提取算法的性能。从腹部心电信号中提取胎儿心电信号后,使用Pan-Tompkins[17]方法进行R峰位置检测。为了评估所提出方法的性能,本文使用灵敏度(sensitivity,Se)、阳性预测值(positive predictive value,PPV)和度量三个指标,定义分别如下:
![]() |
![]() |
![]() |
其中,真阳性(true positive,TP)是正确检测到胎儿R峰位置的个数,假阳性(false positive,FP)是错误检测到胎儿R峰位置的个数,假阴性(false negative,FN)是漏检胎儿R峰位置的个数[18]。如果检测到的胎儿QRS在参考注释的50 ms内,则通常认为它是真阳性[19]。、
和
的值越高,代表该胎儿心电信号提取方法的性能越好。
2.5 实验结果
本文实验使用ADFECGDB和PCDB Set-A两个数据集进行实验,并与基于STFT和GAN的心电信号提取方法(STFT-GAN)、RCED-Net、AECG-DecompNet进行比较,具体如表1所示。从表1可以看出,本文方法在两个数据集上均取得了最优的结果,在ADFECGDB数据集上Se、PPV和F1指数分别为97.26%、97.62%和97.42%,在PCDB Set-A数据集上分别为93.33%、99.36%和96.09%,充分体现出了本文所提方法的优势。

图3、图4和图5是使用本文方法在三个数据集上提取胎儿心电信号的结果。图3为对DAISY数据集五个母体腹部通道进行胎儿心电信号提取后的结果,前五幅图对应五个腹部通道,后五幅图对应上面五个腹部通道提取胎儿心电信号的结果。图4为对ADFECGDB数据集r08记录第一通道前4 s的胎儿心电信号提取结果。图5为对2013年竞赛数据集a03记录第二通道8~12 s的胎儿心电信号提取结果,其中图5a为原始腹部信号,图5b为本文方法提取的胎儿心电信号。总体可以看出本文方法在胎儿心电信号提取方面有良好的效果,不仅明显处的胎儿心电信号提取完整,而且在与母亲心电信号重合的地方也能提取出胎儿心电信号,如图3虚线框中所示。但对于某些特征不明显且受噪声影响较大的胎儿心电信号,存在漏检情况。


a. 腹部心电信号;b. 参考胎儿心电信号;c. 提取胎儿心电信号
Figure4. The extraction result of the proposed method on the ADFECGDB dataseta. abdominal ECG signal; b. reference fetal ECG signal; c. extracting fetal ECG signal

a. 腹部心电信号;b. 提取胎儿心电信号
Figure5. The extraction result of the proposed method on the PCDB Set-A dataseta. abdominal ECG signal; b. extracting fetal ECG signal
3 讨论
为了更好地保留胎儿心电特征波的大小和形态,在残差U-Net的基础上,结合多尺度特征提取、引入注意力阈值学习的残差收缩网络以及编码器间Softpool改进下采样,本文构建了多尺度残差收缩U-Net。对比文献[4]采用RECD-Net,由5层编码器-解码器子块级联而成,中间3层为残差编码器-解码器子块,而本文是基于残差U-Net的改进网络,其5层残差U-Net的编码器-解码器由残差块构成,形成内部和外部跳联,相较文献[4]在保留胎儿心电细节和整体波形特征上具有优势。对比文献[5]采用STFT-GAN,对腹部心电信号进行STFT,在时频域经GAN提取胎儿信号,再经逆STFT进行信号重构,会影响信号处理的实效性,而且GAN相比本文残差U-Net受训练样本量的影响更大。对比文献[6]采用AECG-DecompNet,该网络以2个残差U-Net构成,一个残差U-Net用于提取母亲信号,腹部心电信号减去提取的母亲信号送入另一个残差U-Net来提取胎儿心电信号;本文模型是将残差U-Net改进为单一的多尺度残差收缩U-Net,将残差U-Net的编码器改进为多尺度残差收缩编码器,增强了编码器的多尺度特征提取和融合能力,也增强了腹部信号噪声的去除能力,将残差U-Net的层间下采样改为Softpool,使层间保留了更多的信号细节,更有利于胎儿信号的提取,此外本文模型只需训练一个网络框架来提取胎儿心电,可减小网络训练带来的风险,因此本文模型提取的胎儿心电特征更加精准、准确率更高。
3.1 U-Net层数对胎儿心电信号提取的影响
在PCDB Set-A数据集上,对不同U-Net层数下胎儿心电信号提取的结果进行比较,如表2所示。由于U-Net层数太少时,基本不能提取出有效的胎儿心电特征,故U-Net层数从三层开始。对比结果可知,当U-Net层数在5层时,胎儿心电信号提取结果最好,再增加数量会增加模型的训练时间和过拟合的风险。

3.2 消融实验
为了探究RSBU-CW模块中加入的多尺度特征融合模块Inception和混合域注意力的有效性,在U-Net模型和RSBU-CW的基础上添加Inception和时间注意力进行消融研究,消融结果如表3所示,其中在RSBU-CW中添加时间注意力所形成的混合注意力称为RSBU-MA。从表3可以看出,加入Inception或形成的混合域注意力都比仅使用U-Net和RSBU-CW的提取效果要好,且二者都添加比添加任何一个的结果更好。因此,引入Inception相较于单尺度残差收缩U-Net,可使收缩过程中的心电信号特征提取更能兼顾全局和细节特征;而在残差收缩模型阈值学习单元中,加入时间域注意力形成混合注意力,可使阈值学习中ECG的时间信息得到利用。

3.3 不同混合域注意力组成的比较
由于混合域注意力是由时间域注意力和通道域注意力组成,但可以分为时间-通道串行、通道-时间串行和时间-通道并行三种组合方式,为了探究不同组合方式对胎儿心电信号提取结果的影响,在PCDB数据集上做了消融实验,结果如图6所示。可以看出,时间-通道串行组成的混合域注意力在胎儿心电信号提取中表现更优,证明了时间-通道串行注意力对于阈值选取更具优势,可促使模型性能提升。

3.4 不同池化对胎儿心电信号提取的对比
为了探讨不同池化对胎儿心电信号提取的影响,在U-Net收缩路径中使用Maxpool、Avgpool和Softpool三种不同的池化在PCDB数据集上进行对比,如表4所示。表4表明Softpool在胎儿心电信号提取精度上要优于Maxpool和Avgpool。因为Softpool可对视野域每个特征值赋予不同的权值,相较Maxpool和Avgpool更能保留收缩过程中的信号细节,更有助于胎儿心电信号的提取,故本文在编码器收缩中确定采用Softpool方式。

4 结论
本文提出了一种基于多尺度残差收缩U-Net模型,将IRSBU-MA模块与U-Net网络编码器相结合提取胎儿心电信号。以U-Net模型为基本网络,由IRSBU-MA构成编码器,通过IRSBU-MA中的多尺度特征融合单元提取多个尺度特征,更加全面地提取了胎儿心电信号特征,并使用混合域注意力增强阈值学习单元对时间域信息的利用,更好地确定软阈值所需阈值。同时,将U-Net的层间引入加权下采样Softpool,相较于Maxpool或Avgpool方式保留了更多胎儿心电信号细节特征,实验结果对比显示了其优势。此外,通过U-Net不同层数实验和分析,证实了大尺度卷积核大小为5时,采用5层U-Net在提取胎儿心电信号的合理性。通过与现有方法实验结果进行对比可知,本文方法取得了最优性能。此外,三个不同数据集测试结果表明,所提出的方法在从腹部心电信号中提取胎儿心电信号方面具有很高的鲁棒性,对围产期胎儿健康监护具有一定的应用价值。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:王乾负责算法方案设计、实验设计与分析、论文修审,张正旭负责算法程序设计、实验数据分析、论文初稿的写作,宋丹洋负责提取胎儿心电特征评估,王玉静负责理论与实验指导,宋立新负责理论指导、论文审阅。
0 引言
胎心监护是胎儿健康监测的一种重要手段,能有效降低围产期胎儿的发病率及死亡率[1]。胎儿心电信号(fetal electrocardiogram,FECG)可以反映胎儿心脏活动的全貌,其形态学特征有利于对胎儿健康状况进行监测,是一种具有广阔应用场景的胎儿电子监护技术。
胎儿心电信号通常从孕妇腹部心电信号(abdominal electrocardiogram,AECG)中提取,而孕妇腹部心电信号中除了胎儿心电信号,还包含母体心电信号以及基线漂移、工频干扰、脉冲伪迹等其他噪声[2];另外,胎儿心电信号相对微弱,母亲心电幅值一般是胎儿的5~10倍,且与胎儿心电在时域有10%~30%的重叠[3]。因此,如何抑制母亲心电提取出干净的胎儿心电信号成为研究的重点和难点。
近年来,深度学习在心电信号处理方面得到实际应用。由于神经网络不需要人工提取特征,通过训练能够自适应地提取特征,使用神经网络去噪可能比人工提取特征更为有效,其中卷积神经网络(convolutional neural networks,CNN)表现出强大的特征提取能力。Zhong等[4]提出的残差卷积编码器-解码器网络(residual convolutional encoder–decoder network,RCED-Net)能够较好地提取胎儿心电信号,但网络模型复杂度较低,对于复杂的腹部心电信号提取能力不足;Zhong等[5]利用腹部心电信号时频域特征,提出基于短时傅立叶变换(short time Fourier transform,STFT)和生成对抗性网络(generative adversarial networks,GAN)的心电信号提取方法,STFT-GAN将腹部心电转换成时频图不仅能够较好地提取胎儿心电信号,而且能够处理母胎心电信号重合波,但时频图转换增加了计算量和时间,使得网络效率降低。
U-Net是一种编码-解码结构的端对端全卷积网络,通过编码器提取胎儿心电特征,然后由解码器进行特征重建生成胎儿心电信号。相比于CNN,U-Net的编码器可以捕捉波形特性之间的上下文信息,解码器可以精确定位特征位置,更适合胎儿心电信号的提取。Arash Rasti-Meymandi等[6]提出一种由两个残差对称跳跃连接卷积自动编码器Res-Unet的胎儿心电提取方法,能够较好地提取胎儿心电信号;但需要训练两个U-Net模型,增加了训练难度,且每个U-Net每层编码器使用单一尺度卷积核,缺少对心电波形特征的进一步提取。
深度残差收缩网络[7](deep residual shrinkage networks,DRSN)为一种基于残差收缩结构改进的深度神经网络,常用于信号去噪领域。通过残差收缩模块前两个卷积层突出有用信号特征,抑制无用信号或噪声的特征,而后通过软阈值化,能够较好地解决微弱信号的去噪问题[8-9]。其中,基于通道阈值的残差收缩模块(residual shrinkage building unit with channel-wise thresholds,RSBU-CW)在阈值学习过程中只关注通道域的特征信息,忽略了心电信号时间域信息对阈值学习的影响。
针对U-Net收缩路径中同级卷积编码器尺度的单一性,忽略了母亲和胎儿心电特征波的大小和形态差异,作为编码器的残差收缩模块阈值学习过程中缺少对心电信号时间信息利用的问题,本文提出一种基于多尺度残差收缩U-Net的胎儿心电信号提取方法。首先在RSBU-CW中引入多尺度特征融合模块Inception[10]和时间域注意力(time attention,TA),构建基于混合注意力阈值的多尺度残差收缩模块(inception residual shrinkage module based on mixed attention threshold,IRSBU-MA),通过Inception增强模块的多尺度特征提取能力,同时将时间域注意力与通道域注意力(channel attention,CA)串行结合,增强模块对胎儿心电信号的多尺度成分和时间域信息的利用。为了保持更多的胎儿心电局部细节特征,引入Softpool池化[11]。然后以U-Net模型为基本网络,由IRSBU-MA和Softpool组成的编码器来逐步提取胎儿心电特征并去除母亲心电特征,最后由残差模块和上采样构成的解码器逐步生成胎儿心电信号。
1 模型结构
1.1 总体网络结构
本文多尺度残差收缩U-Net模型结构如图1所示。其中,编码器由基于混合注意力阈值的多尺度残差收缩模块IRSBU-MA和Softpool池化构成,共包括6层IRSBU-MA模块和5层Softpool池化,用于提取胎儿心电信号特征。解码器由5层残差块和上采样组成,可以根据胎儿心电信号特征生成胎儿心电信号,残差块中添加了残差连接加速模型训练,并避免了梯度消失或爆炸问题;解码器每个残差块包括三个卷积层和残差连接。在解码器和编码器之间存在跳跃连接,使得不同层次的特征可以相互融合,保留并利用不同层次特征中的有效信息,提高胎儿心电信号生成的质量。

腹部心电信号输入数据X定义为 ,其中N = T × fs表示腹部心电信号采样点个数,T为采样持续时间,fs为采样频率;C表示腹部心电信号导联的数量。输入数据大小为(1 024, 1),其中,1表示为单导联腹部心电信号,1 024指采样点个数;编码器每层的通道大小为(16, 32, 64, 128, 256, 256),而特征图大小为[(1 024, 1), (512, 1), (256, 1), (128, 1), (64, 1), (32, 1)],解码器与编码器在对应层中的通道大小和特征图大小一致。
1.2 多尺度残差收缩模块
为解决U-Net编码器中每层卷积尺度的单一性,并增加残差收缩模块阈值学习模块对时间域信息的利用,构建多尺度残差收缩模块结构如图2a所示,包括多尺度特征融合单元、残差单元、阈值学习单元和软阈值处理单元。多尺度特征融合单元通过多个卷积核大小不同的并行卷积对输入的腹部心电信号进行波形特征提取和融合,而后通过阈值学习单元提取心电信号时间域与通道域信息确定阈值,并通过软阈值处理单元对腹部心电信号特征进行软阈值函数去噪,最后引入残差单元来防止网络退化。

a. 多尺度残差收缩模型整体结构;b. 时间域注意力;c. 通道域注意力
Figure2. Structure diagram of RSBU-MAa. structure diagram of residual shrinkage building unit; b. time attention; c. channel attention
多尺度特征融合单元由三条卷积支路和一条池化支路组成,三条卷积支路的卷积核大小分别为1 × 1、1 × 3、1 × 5,小的卷积尺度用来获取腹部心电信号的细节特征,大的卷积尺度用来提取腹部心电信号的全局性特征信息,池化分支采用最大池化,池化核为1 × 3,能够突出池化内核中的显著特征;且在1 × 3和1 × 5的卷积前面以及最大池化后面添加1 × 1卷积,可以降低通道数来减少参数量,并在每次卷积之后加入批归一化(batch normalization,BN)和ReLU激活函数,以提高模型的非线性拟合性能。
在阈值学习单元中,加入时间域注意力提取胎儿心电波形时间域信息,并对原有通道域注意力进行改进,形成全局最大池化(global max pooling,GMP)支路与全局平均池化(global average pooling,GAP)结合的增强通道域信息提取能力的改进通道域注意力;将时间域注意力与通道域注意力相结合,构成了一个混合的注意力(mix attention,MA)来提取混合域的特征信息,从而确定混合域的阈值。具体时间域注意力结构和通道域注意力结构分别如图2b和图2c所示。
时间域注意力:时间域注意力权重计算过程如式(1)所示:
![]() |
其中:和
分别代表GAP和GMP的结果,
和
分别表示两个全连接层,
代表ReLU激活函数,
代表Sigmoid激活函数,
表示求解出的时间域注意力权重。
通道域注意力:对原仅含GAP的通道注意力进行改进,增加GMP支路,通道域注意力权重计算过程如式(2)所示:
![]() |
其中:和
分别表示对特征图进行GAP和GMP的结果,
和
表示GAP支路的两个全连接层(fully connected layers,FC),
和
表示GMP支路的两个FC,
表示ReLU函数,
表示Sigmoid函数,
为通道域注意力权重。
阈值学习单元将时间域注意力与通道域注意力通过串联的方式组合在一起,将特征矩阵Z作为输入送入该阈值学习单元,得到最终的基于混合域注意力的阈值,具体过程如式(3)所示:
![]() |
其中,表示时间域阈值,
表示混合域阈值。
软阈值处理单元采用软阈值函数进行降噪处理步骤,软阈值函数如式(4)所示,将绝对值小于某个阈值 的特征去除掉,将绝对值大于该阈值的特征朝向零进行收缩处理。
![]() |
1.3 利用Softpool改进下采样
为了保持更多的胎儿心电局部细节特征,将U-Net中的Maxpool[12]替换为Softpool。U-Net模型中的Maxpool可以保留池化内核中的局部最大值,凸出内核中的显著特征,利用最大池化进行下采样可能会丢失胎儿心电细节特征,从而降低模型对胎儿心电信号的提取精度。针对这一问题,本文利用Softpool替换U-Net中的最大池化层。Softpool是一种变种的池化层,基于softmax方法对感受野内所有特征点进行加权来保留输入的基本属性并放大更大强度的特征激活,相比于最大池化,Softpool能够在进行特征图下采样的同时,保留更多的胎儿心电局部特征信息,适用于胎儿心电信号提取。
2 实验
2.1 实验数据集
本实验采用的数据集为胎儿心电图合成数据库(Fetal Electrocardiogram Synthetic Database,FECGSYNDB)[13]、腹部和直接胎儿心电数据库(Abdominal and Direct Fetal ECG Database,ADFECGDB)[14]、2013年竞赛数据集(PhysioNet/Computing in Cardiology Challenge Database,PCDB)[15]的set-A、DAISY数据集[16]。由于真实的胎儿心电信号非常难以获取,且获取的信号含有较多的噪声,但完全采用合成数据集又缺乏胎儿信号在现实场景中的真实性和复杂性,因此本文采用合成的FECGSYNDB数据集和一部分真实的ADFECGDB数据集作为训练集,其余作为测试集。四个数据集的详细情况如下:
(1)FECGSYNDB:通过FECGSYN无创胎儿心电图发生器生成的合成数据库,包括145.8 h的数据和110万个胎儿峰值。每个模拟从母体采集的信号包括34个通道(32个腹部和2个MECG通道),采样频率250 Hz,采样时数据库提供了每个信号源的单独波形。
(2)ADFECGDB:数据库包括来自五个分娩对象的五个通道记录(4个母体腹部通道和1个胎儿心电通道),每个记录持续5 min,采样频率为1 kHz。
(3)PCDB Set-A数据集:数据集包括75组持续1 min的孕妇腹部心电图记录,每组包含四个通道。采样率为1 kHz,并给出了FQRS的参考位置。
(4)DAISY数据集:数据库记录了从孕妇体表获取到的8通道信号(前5个通道为孕妇腹部混合心电信号,后3个通道为孕妇胸部心电信号),采样持续10 s,采样频率为250 Hz。
考虑到数据集中存在个别通道的胎儿信号微弱或缺失的问题,实验中删除了一些记录。具体为,从ADFECGDB中排除了r04 Ab-1、r07 Ab-1和r10 Ab-3三条记录;而PCDB Set-A数据集,本文参考文献[5]选择80条记录。
2.2 数据预处理
首先,以250 Hz采样率为基准,将采样频率为1 000 Hz的数据集中信号通过抽值下采样到250 Hz;然后利用截止频率为3~100 Hz的FIR滤波器,去除基线和高频噪声;其次,对过滤后的心电图采用分割和归一化操作,以每段信号1 024个采样点对数据集进行分割并通过最大最小值归一化将幅值变换到[–1, 1],且为了保持信号的连续性,前后两个信号重合24个采样点;最后划分训练集和测试集,训练集由FECGSYNDB数据集和一部分ADFECGDB数据集组成,共21 110个样本,测试集由PCDB Set-A数据集、DAISY数据集和剩余的ADFECGDB数据集组成,共1 500个样本。
2.3 实验设备
本文实验所用平台与网络超参数配置:操作系统为Windows,CPU为Intel 11代 i5-5800H,GPU为NVIDIV GTX3060,深度学习框架为Tensorflow,编程语言为Python,批次大小为64,优化器AdamOptimer,学习率为0.000 3。
2.4 性能评价指标
本研究将参考R峰注释与提取的胎儿心电信号中检测到的R峰位置进行对比,来考察胎儿心电信号提取算法的性能。从腹部心电信号中提取胎儿心电信号后,使用Pan-Tompkins[17]方法进行R峰位置检测。为了评估所提出方法的性能,本文使用灵敏度(sensitivity,Se)、阳性预测值(positive predictive value,PPV)和度量三个指标,定义分别如下:
![]() |
![]() |
![]() |
其中,真阳性(true positive,TP)是正确检测到胎儿R峰位置的个数,假阳性(false positive,FP)是错误检测到胎儿R峰位置的个数,假阴性(false negative,FN)是漏检胎儿R峰位置的个数[18]。如果检测到的胎儿QRS在参考注释的50 ms内,则通常认为它是真阳性[19]。、
和
的值越高,代表该胎儿心电信号提取方法的性能越好。
2.5 实验结果
本文实验使用ADFECGDB和PCDB Set-A两个数据集进行实验,并与基于STFT和GAN的心电信号提取方法(STFT-GAN)、RCED-Net、AECG-DecompNet进行比较,具体如表1所示。从表1可以看出,本文方法在两个数据集上均取得了最优的结果,在ADFECGDB数据集上Se、PPV和F1指数分别为97.26%、97.62%和97.42%,在PCDB Set-A数据集上分别为93.33%、99.36%和96.09%,充分体现出了本文所提方法的优势。

图3、图4和图5是使用本文方法在三个数据集上提取胎儿心电信号的结果。图3为对DAISY数据集五个母体腹部通道进行胎儿心电信号提取后的结果,前五幅图对应五个腹部通道,后五幅图对应上面五个腹部通道提取胎儿心电信号的结果。图4为对ADFECGDB数据集r08记录第一通道前4 s的胎儿心电信号提取结果。图5为对2013年竞赛数据集a03记录第二通道8~12 s的胎儿心电信号提取结果,其中图5a为原始腹部信号,图5b为本文方法提取的胎儿心电信号。总体可以看出本文方法在胎儿心电信号提取方面有良好的效果,不仅明显处的胎儿心电信号提取完整,而且在与母亲心电信号重合的地方也能提取出胎儿心电信号,如图3虚线框中所示。但对于某些特征不明显且受噪声影响较大的胎儿心电信号,存在漏检情况。


a. 腹部心电信号;b. 参考胎儿心电信号;c. 提取胎儿心电信号
Figure4. The extraction result of the proposed method on the ADFECGDB dataseta. abdominal ECG signal; b. reference fetal ECG signal; c. extracting fetal ECG signal

a. 腹部心电信号;b. 提取胎儿心电信号
Figure5. The extraction result of the proposed method on the PCDB Set-A dataseta. abdominal ECG signal; b. extracting fetal ECG signal
3 讨论
为了更好地保留胎儿心电特征波的大小和形态,在残差U-Net的基础上,结合多尺度特征提取、引入注意力阈值学习的残差收缩网络以及编码器间Softpool改进下采样,本文构建了多尺度残差收缩U-Net。对比文献[4]采用RECD-Net,由5层编码器-解码器子块级联而成,中间3层为残差编码器-解码器子块,而本文是基于残差U-Net的改进网络,其5层残差U-Net的编码器-解码器由残差块构成,形成内部和外部跳联,相较文献[4]在保留胎儿心电细节和整体波形特征上具有优势。对比文献[5]采用STFT-GAN,对腹部心电信号进行STFT,在时频域经GAN提取胎儿信号,再经逆STFT进行信号重构,会影响信号处理的实效性,而且GAN相比本文残差U-Net受训练样本量的影响更大。对比文献[6]采用AECG-DecompNet,该网络以2个残差U-Net构成,一个残差U-Net用于提取母亲信号,腹部心电信号减去提取的母亲信号送入另一个残差U-Net来提取胎儿心电信号;本文模型是将残差U-Net改进为单一的多尺度残差收缩U-Net,将残差U-Net的编码器改进为多尺度残差收缩编码器,增强了编码器的多尺度特征提取和融合能力,也增强了腹部信号噪声的去除能力,将残差U-Net的层间下采样改为Softpool,使层间保留了更多的信号细节,更有利于胎儿信号的提取,此外本文模型只需训练一个网络框架来提取胎儿心电,可减小网络训练带来的风险,因此本文模型提取的胎儿心电特征更加精准、准确率更高。
3.1 U-Net层数对胎儿心电信号提取的影响
在PCDB Set-A数据集上,对不同U-Net层数下胎儿心电信号提取的结果进行比较,如表2所示。由于U-Net层数太少时,基本不能提取出有效的胎儿心电特征,故U-Net层数从三层开始。对比结果可知,当U-Net层数在5层时,胎儿心电信号提取结果最好,再增加数量会增加模型的训练时间和过拟合的风险。

3.2 消融实验
为了探究RSBU-CW模块中加入的多尺度特征融合模块Inception和混合域注意力的有效性,在U-Net模型和RSBU-CW的基础上添加Inception和时间注意力进行消融研究,消融结果如表3所示,其中在RSBU-CW中添加时间注意力所形成的混合注意力称为RSBU-MA。从表3可以看出,加入Inception或形成的混合域注意力都比仅使用U-Net和RSBU-CW的提取效果要好,且二者都添加比添加任何一个的结果更好。因此,引入Inception相较于单尺度残差收缩U-Net,可使收缩过程中的心电信号特征提取更能兼顾全局和细节特征;而在残差收缩模型阈值学习单元中,加入时间域注意力形成混合注意力,可使阈值学习中ECG的时间信息得到利用。

3.3 不同混合域注意力组成的比较
由于混合域注意力是由时间域注意力和通道域注意力组成,但可以分为时间-通道串行、通道-时间串行和时间-通道并行三种组合方式,为了探究不同组合方式对胎儿心电信号提取结果的影响,在PCDB数据集上做了消融实验,结果如图6所示。可以看出,时间-通道串行组成的混合域注意力在胎儿心电信号提取中表现更优,证明了时间-通道串行注意力对于阈值选取更具优势,可促使模型性能提升。

3.4 不同池化对胎儿心电信号提取的对比
为了探讨不同池化对胎儿心电信号提取的影响,在U-Net收缩路径中使用Maxpool、Avgpool和Softpool三种不同的池化在PCDB数据集上进行对比,如表4所示。表4表明Softpool在胎儿心电信号提取精度上要优于Maxpool和Avgpool。因为Softpool可对视野域每个特征值赋予不同的权值,相较Maxpool和Avgpool更能保留收缩过程中的信号细节,更有助于胎儿心电信号的提取,故本文在编码器收缩中确定采用Softpool方式。

4 结论
本文提出了一种基于多尺度残差收缩U-Net模型,将IRSBU-MA模块与U-Net网络编码器相结合提取胎儿心电信号。以U-Net模型为基本网络,由IRSBU-MA构成编码器,通过IRSBU-MA中的多尺度特征融合单元提取多个尺度特征,更加全面地提取了胎儿心电信号特征,并使用混合域注意力增强阈值学习单元对时间域信息的利用,更好地确定软阈值所需阈值。同时,将U-Net的层间引入加权下采样Softpool,相较于Maxpool或Avgpool方式保留了更多胎儿心电信号细节特征,实验结果对比显示了其优势。此外,通过U-Net不同层数实验和分析,证实了大尺度卷积核大小为5时,采用5层U-Net在提取胎儿心电信号的合理性。通过与现有方法实验结果进行对比可知,本文方法取得了最优性能。此外,三个不同数据集测试结果表明,所提出的方法在从腹部心电信号中提取胎儿心电信号方面具有很高的鲁棒性,对围产期胎儿健康监护具有一定的应用价值。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:王乾负责算法方案设计、实验设计与分析、论文修审,张正旭负责算法程序设计、实验数据分析、论文初稿的写作,宋丹洋负责提取胎儿心电特征评估,王玉静负责理论与实验指导,宋立新负责理论指导、论文审阅。