语音特征学习是精神病语音识别方法的核心和关键。深层特征学习可以自动提取语音特征,但受限于小样本问题;传统的特征提取(原始特征)避免小样本问题影响,但严重依赖经验且自适应不佳。为了解决这一问题,本文提出了一种深层内嵌混合稀疏堆栈自动编码器流形集成算法。首先,基于先验知识提取精神病语音特征,构造原始特征。其次,将原始特征内嵌入到稀疏堆栈自动编码器(深度网络)中,对隐藏层的输出进行滤波,增强深层特征与原始特征的互补性。再次,设计 L1 正则化特征选择机制,压缩由深层特征和原始特征组成的混合特征集的维度。最后,设计了加权局部保持投影算法和集成学习机制,构造了流形投影分类器集成模型,进一步提高了小样本下特征融合的分类稳定性。此外,本文首次设计了一个中大规模的精神病语音采集方案,收集并构建了一个大规模的中文精神病语音数据库,用于精神病语音识别算法的验证。实验结果表明,该算法主要创新部分有效;与其他有代表性的算法相比具有更好的分类准确率,最大改善了 3.3%。综上所述,本文提出了一种基于深层内嵌混合稀疏堆栈自动编码器和流形集成的精神病语音识别方法,有效提高了精神病语音识别准确率。
引用本文: 张毅, 秦小林, 林远, 李勇明, 王品, 张祖伟, 李小飞. 基于深层内嵌混合稀疏堆栈自动编码器和流形集成的精神病语音识别方法. 生物医学工程学杂志, 2021, 38(4): 655-662. doi: 10.7507/1001-5515.202010050 复制
引言
精神病危害巨大,准确诊断将有助于治疗[1]。研究表明,大多数精神病患者伴有言语障碍,言语障碍是精神病患者的早期症状之一[2]。随着计算机技术和声学分析技术的发展,基于语音的病理特征,利用机器学习技术进行无痛、无创的客观辅助诊断精神病已成为一个重要的研究热点[3-6]。
特征学习是精神病语音识别方法研究的核心和关键。近年来已有很多相关研究,提取的特征主要包括梅尔频率倒谱系数(mel-frequency ceptral coefficients,MFCC)等[7-8]。主要的特征学习方法有主成分分析(principal component analysis,PCA)等,分类模型包括k-最近邻(k-nearest neighbor,KNN)、高斯混合模型(gaussian mixture model,GMM)和支持向量机(support vector machine,SVM)等[9]。然而,传统的特征处理算法都是基于经验知识的浅层特征学习,不能有效地挖掘数据之间复杂的非线性关系,存在一定的局限性。深度学习可以自动学习特征间结构关系,从而获取高表征能力的深层特征,使用的算法有卷积神经网络(convolutional neural networks,CNN)等[10-11]。与传统方法相比,深度学习具有更好的分类效果。
这些方法虽然取得了良好的效果,但也存在一些问题。首先,传统特征学习无法自动获得高质量的新特征。再次,深度特征学习中未考虑浅层特征(传统特征),导致两种特征的互补性欠缺。相关研究表明,深层特征和浅层特征反映了目标识别的不同侧面信息,具有很好的互补性[12-14]。因此,考虑如何将这两类特征进行融合是非常重要的。
自动编码器(autoencoder,AE)是一种典型的深度神经网络,近年来受到越来越多的关注[15-16]。堆栈式自动编码器(stacked autoencoder,SAE)以 AE 的最后一个隐藏层的输出作为下一个 AE 的输入,可以方便地实现叠加。在此基础上,通过引入稀疏约束得到的稀疏 SAE(sparse SAE,SSAE)可以学习到更具代表性的特征[17-19]。虽然 SSAE 在随后的应用中取得了一定的成功[20-22],但是现有 SSAE 并没有在结构和训练中考虑原始特征,从而限制了其深度特征与原始特征的互补性及融合能力。
为了解决上述问题,本文以 SSAE 作为深度网络原型,提出了一种基于嵌入式混合特征 SSAE(embedded hybrid feature SSAE,EHFSSAE)的特征融合方法。EHFSSAE 的基本思想是将原始特征嵌入到每个 AE 的编码输出中,然后将这些混合特征融合到更抽象的高隐藏层特征表示中,并保留一些有用的信息用于分类任务。为了解决两种特征结合所带来的高维问题,本文使用基于 L1 正则化的特征选择算法以使在混合特征中选择更具区分性和鲁棒性的特征。此外,为了进一步消除冗余,提高算法的泛化能力,将加权局部判别保持投影(weighted local discriminant preservation projection,w_LPPD)与 SVM 相结合,构造集成模型。w_LPPD 是一种新的特征提取方法,它考虑了样本中的异常值,有效地去除了一些远离类中心的样本。综上所述,本文提出了一种基于深层 EHFSSAE 和流形集成的精神病语音识别方法,可以有效提高精神病语音识别准确率,对于精神病语音识别具有重要的参考价值。
1 数据与方法
1.1 数据采集
本文设计了一个中大规模的精神病语音采集方案,已通过重庆市精神卫生中心伦理审查委员会的伦理审查。其中,共有 299 名受试者参加了这项数据收集研究;精神分裂症 130 例,抑郁症 67 例,均来自重庆市精神卫生中心;102 名健康人由重庆大学学生组成。所有受试者均由经验丰富的心理专家和精神病专家根据《简明国际神经精神访谈》(the mini international neuropsychiatric interview,MINI)和《心理障碍诊断与统计手册》(diagnostic and statistical manual of mental disorders,dsm-iv)进行诊断和筛选[23-24]。
在所有受试者中,精神分裂症患者年龄在 18~63 岁(平均值 ± 标准差:31.9 ± 10.6),抑郁症患者年龄在 15~71 岁(平均值 ± 标准差:36.2 ± 14.2),健康人年龄为 20~36 岁(平均值 ± 标准差:28 ± 4.5)。精神分裂症患者中,男性为 58 人,女性为 72 人;抑郁症患者中,男性为 21 人,女性为 46 人;健康人中,男性为 62 人,女性为 40 人。所有受试者不存在物质滥用、物质依赖、人格障碍等其他精神疾病,无严重的躯体疾病或自杀行为。所有受试者均为小学以上文化水平。
试验在光线充足、安静的房间内进行,在同一电脑程序中执行相应的语音任务,受试者保持坐姿,位于一台 21 英寸电脑屏幕正前方约 1 m 处,屏幕显示一段中文文本,受试者需要仔细浏览一遍文本后进行朗读。中文文本共包含 13 个任务,包括持续元音、汉字、单词和短句。录音由一个频率范围在 0.05~13 kHz 的索尼录音笔完成。录音笔参数设置为 96 kHz、30 dB,置于受试者嘴部 10 cm 处,记录受试者阅读指定文本的音频。数据以.wav 形式保存,使用声学分析软件 Praat 6.1(University of Amsterdam,荷兰)进行原始特征提取[25]。基于该研究领域的前期工作基础,本研究从每个语音样本中提取了包括时频在内的 26 个特征,具体特征信息参见文献[26]。
1.2 本文方法
基于融合原有特征和深层特征的必要性,更为了提高深度特征与原始特征的互补性,本文设计了一种 EHFSSAE 模型。首先将原始特征嵌入到 SAE 的隐藏层中,使改进后的 SAE 能够从原始特征中学习到高质量的深层特征;然后使用基于 L1 正则化的混合特征融合机制;最后设计了基于 w_LPPD 和 SVM 的降维集成模型。三步处理方法可以有效地消除特征冗余,增强特征的识别能力,提高分类结果的可靠性,提高泛化能力和稳定性。
1.2.1 EHFSSAE
传统 SAE 的训练基于贪婪的分层无监督学习算法[27]。该算法的核心思想是通过最小化该层的重建误差,一次训练一层,第i层的表示作为第i+1 层隐含层的输入。然而,这样的结构会导致编码特征的小样本识别能力不理想。认识到原始特征中包含了从先验知识中产生的有用信息,当网络深入时,这些信息可以引入到深层网络中以保持初始信息。因此,本研究在两个编码器之间设计了一个编码特征与原始特征的合并稀疏单元(merge-sparse unit,MSU),构造一个 EHFSSAE,如图 1 所示。

给定原始数据样本(其中X为输入数据矩阵,R为实数集,N为样本个数,n为样本维度)和单个编码器的编码特征
(其中H为输入数据编码后特征,R为实数集,N为样本个数,d为编码特征维度),合并稀疏单元的目的是获得X和H混合特征集的最优子集,其可以定义为如式(1)所示:
![]() |
其中,表示原始特征与隐藏层特征的连接,L(·)表示稀疏运算函数,G是由 0 和 1 组成的对应稀疏矩阵。通过稀疏矩阵,低散度的特征将为零,因此这些特征将不会被发送到后续层进行进一步编码。
在编码器之间引入 MSU 后,EHFSSAE 中第k层(k > 1)AE 的编码器部分可以定义为如式(2)所示:
![]() |
其中,是第k层 AE 隐含层的输出,
和
分别是第k层 AE 的权矩阵和偏差向量。F(·)代表激活函数。解码器函数如式(3)所示:
![]() |
其中,和
是权值矩阵和偏差向量,
即为如式(2)所示编码器函数,
是
的重构。此外,将稀疏准则应用于隐含层,以发现输入数据中的潜在结构。为了实现稀疏表示,一般将相对熵(kullback-leibler,KL)作为可处理的无监督目标引入。用 KL 来度量两个伯努利随机变量之间的差异:第j隐单元的
和目标的平均激活
。其表述如式(4)所示:
![]() |
其中,是第i个输入向量对隐含层第j个单位的激活值。该值随
和
差值的增加而单调增加。因此,通过设置一个小的稀疏参数
,使得隐藏单元的平均输出大部分为零,从而实现稀疏表示。如式(2)~(4)所示,第k层 AE 式的训练目标函数可以重新定义如式(5)所示:
![]() |
其中,和
表示稀疏性约束的正则化参数,
是第k个隐藏层单元的数目。如式(5)所示的过程为预训练。本文作者将预训练所得的 AE 的隐藏层逐个级联形成一个叠层的 AE,并通过预训练确定其初始参数。最终的目标是获得具有更好类别表示能力的特征,进一步以有监督的方式优化整个网络。为了实现这一点,本文在 SAE 的顶部堆叠另一个分类层作为输出层。叠层网络的微调过程是基于梯度下降的反向传播。
EHFSSAE 学习的非线性变换可以看作是一种很好的特征学习,它不仅利用了深度网络能够学习数据之间潜在关系的特点,而且通过在深度网络中引入原始特征,提高了深度特征的鲁棒性。经过整个网络的训练,对于每个输入的原始特征向量,在每个隐藏层中都可以得到一个新的特征向量,不同的层代表不同的层次信息。一般来说,网络层越高,输入数据中固有的模式就越复杂或抽象。基于此,将最后一个隐藏层的输出,即分类层的输入,作为深度特征向量,记录为
。然后,通过连接
和
来构造一个增强的特征向量
如式(6)所示:
![]() |
1.2.2 基于 L1 正则化的混合特征选择算法
虽然得到的混合特征集具有更丰富的类别信息,但是这会导致高维问题。另一方面,考虑到深层特征是从原始特征中学习而来的,这两组特征并不是相互独立的,两组特征之间存在一定的冗余信息。为此,本文设计了基于 L1 正则化的特征选择算法来优化混合特征。
具体地说,L1 正则化使用惩罚项来控制参数的绝对值之和最小,从而给出稀疏特征向量。对于新的数据集,其中
表示具有混合特征的第i个样本,并且
是相应的标签。考虑到以平方误差为损失函数的最简单的回归模型,优化目标函数可定义为如式(7)所示:
![]() |
其中,N为样本数,为第i个样本的第p个特征,
代表第p个特征的回归系数,为了防止陷入过度拟合,引入 L1 正则化来缓解此问题,如式(8)所示:
![]() |
其中,是一个稀疏控制参数,它越大,模型越稀疏。用近似梯度下降法求解如式(8)所示方程,可得只有与
的非零分量对应的特征才会被选择到最终的特征子集。
1.2.3 基于 w_LPPD 和 SVM 的集成学习模型
w_LPPD 是一种新的有效的特征约简方法,它考虑了样本中的离群点,去除了一些远离类中心的样本。首先,引入随机子空间采样;其次,基于所提出的目标函数建立保持局部性的判别投影;最后,结合多空间映射矩阵构造最终映射矩阵。假设表示第c次采样的样本数,则采样后的总样本数为
。
局部保持正则化项如式(9)所示:
![]() |
其中,Tr(·)表示秩,指括号内矩阵的所有对角元素之和,为样本集,
是映射矩阵,L是拉普拉斯矩阵,
是对角矩阵,A是亲和矩阵,可通过如式(10)所示计算:
![]() |
利用如式(9)~(10)所示方程,w_LPPD 公式可以化为如式(11)所示:
![]() |
其中,代表局部类内散度矩阵,
代表局部类间散度矩阵,
表示正则化系数,
为常数。从目标函数可以看出,w_LPPD 的目标是最小化
并最大化
,同时保留样本的局部性。
通过引入拉格朗日乘子,如式(11)所示目标函数式最终可以写成如式(12)所示:
![]() |
进行求导,得到最优解,求解过程如式(13)所示:
![]() |
显然,通过如式(13)所示,投影矩阵可以很容易地通过广义特征值分解得到。详情参见文献[28]。向量
由
的前k个特征向量组成。然后,将原始数据投影到一个低维空间中,跨越
的列,实现降维。如前所述,利用随机子空间上的局部判别投影,得到p投影矩阵
。通过加权得到最终的映射矩阵
。其数学表达式如式(14)所示:
![]() |
其中,是权重系数,可以通过网格搜索
来确定。
2 实验结果与分析
2.1 实验条件
在实验部分,将收集到的数据分成四个数据集,并进行了几组实验来验证所提出的方法。共收集到健康人样本 102 例,抑郁症患者样本 67 例,精神分裂症患者样本 130 例,由此组成健康人和抑郁症数据集(health and depression,HD)169 例,健康人和精神分裂症数据集(health and schizophrenia,HS)232 例,抑郁症和精神分裂症数据集(depression and schizophrenia,DS)197 例,健康人、抑郁症和精神分裂症数据集(health,depression and schizophrenia,HDS)299 例。关于数据集的简要信息如表 1 所示。所有实验均在统一的实验环境下进行:计算机操作系统为操作系统软件 Windows 10(Microsoft Corporation Inc.,美国),内存大小为 128 GB;编程工具是数学软件 MATLAB R2018b(MathWorks Inc.,美国)。

对于 EHFSSAE 模型,本文通过统计实验发现隐含层数为 3 效果最优,因此实验部分均基于三层隐含层进行。三层神经元个数分别为 90、40、20;惩罚系数 取值范围为{10−5,10−4,10−3,10−2,10−1,1},
取值范围为{1,2,3,4,5,6},稀疏系数
取值范围为{0.02,0.04,0.06,0.08,0.10,0.12},通过网格搜索寻找最优结果。
对于集成模型,将 w_LPPD 中的局部比率系数设置为采样率和基分类器个数,并在实验中用留出法验证了算法的性能。对于本文的 4 个数据集,所有样本被分成两个子集,其中占样本三分之一的一个子集作为测试数据,其余的作为训练数据。为了消除偶然因素的影响,每个实验重复 5 次,取平均值和标准差作为最终结果。
2.2 实验结果及分析
2.2.1 算法有效性验证
为了验证所提出算法的有效性,将提出的基于 L1 正则化的混合特征选择方法与代表性特征学习方法进行了比较,这些方法包括:相关特征(relevant features,relief)、P值法、PCA 和线性判别分析(latent dirichlet allocation,LDA)[29-32]。前两者为代表性的特征选择方法,后两者为代表性的特征降维方法。考虑到该方法的基本分类器是 SVM,因此本文也使用 SVM 作为分类器来评价上述方法的公平性。实验的平均准确率如表 2 所示,结果表明本文所提出的基于 L1 正则化的特征选择算法优于传统方法。在不同的数据集上,该方法都具有最好的准确率。以 HDS 数据集为例,改进后的准确率从 72.5% 提高到了 75.8%。这说明该方法能有效地降低混合特征的冗余度。

为了验证 EHFSSAE 的特征提取能力,将其与 SAE 和 SSAE 进行了比较。为了保证公平性,三个自编码器都由三个隐藏层和一个激活层组成,正则化系数和稀疏参数设置为相同的值。三种编码器的分类准确率如表 3 所示,可以看到在本文的精神病语音数据集上,本文提出的 EHFSSAE 算法分类效果要比 SAE 和 SSAE 的分类效果都要好。主要原因可能是,SAE 中加入了稀疏约束,同时网络结构和训练中融合了原有特征,提高了两者的互补性。

为了验证本文提出的集成降维模型对分类性能的提升,这里以随机森林(random forest,RF)和极限学习机(extreme learning machine,ELM)为分类器进行了实验,并与本文提出的集成降维模型进行了比较,结果如表 4 所示,可以看出该集成模型最大限度地提高了分类准确率。以 HDS 数据集为例与常用分类器相比,分类准确率分别从 72.4% 和 73.5% 提高到了 75.8%。此外,集合模型的标准差最小,说明所提出的集合模型更稳定;以 HDS 数据集为例与常用分类器相比,分类准确率的标准差分别从 6.5 和 4.2 降低为 3.5。可能的原因之一是 w_LPPD 可以进行高质量的特征降维。另一个原因是基于聚集算法(bagging aggregating)的集成模型具有很好的基分类器互补性。

2.2.2 算法效果对比
为了验证本文方法的有效性,本文与精神病语音识别方面的代表性文献[8-9, 11]进行比较,其中文献[8]主要采用了逻辑回归算法,文献[9]使用 PCA 作为特征降维,KNN、GMM 和 SVM 分别作为分类器,文献[11]把语音转为语谱图,采用了 CNN 分类算法,对比结果如表 5 所示。

可以看出,本文方法改进效果明显。以 HD 数据集为例,与几个文献方法相比,准确率分别从 81.9%、86.4% 和 84.5% 提高到了 89.0%,最大改进效果为 7.1%。但是,对于抑郁症和精神分裂症之间分类(DS 数据集),分类结果较差,仅有 69.2%,但仍比几个文献方法好;可能的原因是逻辑回归是一种线性回归,对于比较相似的数据难以区分。文献[9]的方法与文献[8]相比有较大提升,但与本文提出的方法相比,分类效果仍然较差。可能的原因是 PCA 只对特征进行了降维处理,没有得到高质量的语音特征用于分类,因此不能很好地表征精神疾病分类信息。文献[11]中的深度学习算法效果不如本文方法。原因可能是该方法只有深度特征,受限于小样本学习问题。
3 讨论和结论
为了解决精神病识别特征质量问题,本文构建了一个较大规模的精神病语音数据集,并提出了一种新的识别算法——EHFSSAE 集成的心理健康语音识别算法。该算法主要分为 3 个部分:① 设计了一种新的 SSAE,嵌入原始特征,过滤前一层学习到的一些不良特征,减少特征冗余;② 针对深度特征与原始特征相结合所带来的高维问题,设计了 L1 正则化方法来降低特征冗余;③ 为了进一步降低特征冗余,提高分类的稳定性,设计了一种基于 w_LPPD-SVM 的集成降维模型。该模型能有效地提高分类精度和泛化能力。为了验证所提出方法的有效性,本实验不仅使用消融法对主要的三个创新部分进行了验证,还将所提出的算法与目前有代表性的算法进行了比较。
本文主要有以下贡献和创新点:
(1)自主收集并构建了一个汉语心理健康语音数据集,解决了相关语音数据集不足的问题。
(2)设计了一种新的 SAE——EHFSSAE 来提取更具互补性的深度特征。与标准的 SAE 相比,EHFSSAE 通过在网络结构和训练中嵌入原始特征,来过滤前一层学习到的一些不良特征,提高了深度特征与原始特征的互补性及融合性能。
(3)设计了基于 L1 正则化的特征选择算法和基于 w_LPPD-SVM 的集成降维模型,提高了混合特征的泛化能力,形成了三段式的精神病语音特征降维算法。
虽然本文提出的方法是有效的,但仍存在一些不足。今后的工作是优化 SAE 的结构或训练方法,以便更好地适应语音特征的精神病健康状况,进一步提高特征的质量,提高分类准确性。此外,还可以考虑其他种类的深度神经网络来进一步验证本文方法的有效性。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
精神病危害巨大,准确诊断将有助于治疗[1]。研究表明,大多数精神病患者伴有言语障碍,言语障碍是精神病患者的早期症状之一[2]。随着计算机技术和声学分析技术的发展,基于语音的病理特征,利用机器学习技术进行无痛、无创的客观辅助诊断精神病已成为一个重要的研究热点[3-6]。
特征学习是精神病语音识别方法研究的核心和关键。近年来已有很多相关研究,提取的特征主要包括梅尔频率倒谱系数(mel-frequency ceptral coefficients,MFCC)等[7-8]。主要的特征学习方法有主成分分析(principal component analysis,PCA)等,分类模型包括k-最近邻(k-nearest neighbor,KNN)、高斯混合模型(gaussian mixture model,GMM)和支持向量机(support vector machine,SVM)等[9]。然而,传统的特征处理算法都是基于经验知识的浅层特征学习,不能有效地挖掘数据之间复杂的非线性关系,存在一定的局限性。深度学习可以自动学习特征间结构关系,从而获取高表征能力的深层特征,使用的算法有卷积神经网络(convolutional neural networks,CNN)等[10-11]。与传统方法相比,深度学习具有更好的分类效果。
这些方法虽然取得了良好的效果,但也存在一些问题。首先,传统特征学习无法自动获得高质量的新特征。再次,深度特征学习中未考虑浅层特征(传统特征),导致两种特征的互补性欠缺。相关研究表明,深层特征和浅层特征反映了目标识别的不同侧面信息,具有很好的互补性[12-14]。因此,考虑如何将这两类特征进行融合是非常重要的。
自动编码器(autoencoder,AE)是一种典型的深度神经网络,近年来受到越来越多的关注[15-16]。堆栈式自动编码器(stacked autoencoder,SAE)以 AE 的最后一个隐藏层的输出作为下一个 AE 的输入,可以方便地实现叠加。在此基础上,通过引入稀疏约束得到的稀疏 SAE(sparse SAE,SSAE)可以学习到更具代表性的特征[17-19]。虽然 SSAE 在随后的应用中取得了一定的成功[20-22],但是现有 SSAE 并没有在结构和训练中考虑原始特征,从而限制了其深度特征与原始特征的互补性及融合能力。
为了解决上述问题,本文以 SSAE 作为深度网络原型,提出了一种基于嵌入式混合特征 SSAE(embedded hybrid feature SSAE,EHFSSAE)的特征融合方法。EHFSSAE 的基本思想是将原始特征嵌入到每个 AE 的编码输出中,然后将这些混合特征融合到更抽象的高隐藏层特征表示中,并保留一些有用的信息用于分类任务。为了解决两种特征结合所带来的高维问题,本文使用基于 L1 正则化的特征选择算法以使在混合特征中选择更具区分性和鲁棒性的特征。此外,为了进一步消除冗余,提高算法的泛化能力,将加权局部判别保持投影(weighted local discriminant preservation projection,w_LPPD)与 SVM 相结合,构造集成模型。w_LPPD 是一种新的特征提取方法,它考虑了样本中的异常值,有效地去除了一些远离类中心的样本。综上所述,本文提出了一种基于深层 EHFSSAE 和流形集成的精神病语音识别方法,可以有效提高精神病语音识别准确率,对于精神病语音识别具有重要的参考价值。
1 数据与方法
1.1 数据采集
本文设计了一个中大规模的精神病语音采集方案,已通过重庆市精神卫生中心伦理审查委员会的伦理审查。其中,共有 299 名受试者参加了这项数据收集研究;精神分裂症 130 例,抑郁症 67 例,均来自重庆市精神卫生中心;102 名健康人由重庆大学学生组成。所有受试者均由经验丰富的心理专家和精神病专家根据《简明国际神经精神访谈》(the mini international neuropsychiatric interview,MINI)和《心理障碍诊断与统计手册》(diagnostic and statistical manual of mental disorders,dsm-iv)进行诊断和筛选[23-24]。
在所有受试者中,精神分裂症患者年龄在 18~63 岁(平均值 ± 标准差:31.9 ± 10.6),抑郁症患者年龄在 15~71 岁(平均值 ± 标准差:36.2 ± 14.2),健康人年龄为 20~36 岁(平均值 ± 标准差:28 ± 4.5)。精神分裂症患者中,男性为 58 人,女性为 72 人;抑郁症患者中,男性为 21 人,女性为 46 人;健康人中,男性为 62 人,女性为 40 人。所有受试者不存在物质滥用、物质依赖、人格障碍等其他精神疾病,无严重的躯体疾病或自杀行为。所有受试者均为小学以上文化水平。
试验在光线充足、安静的房间内进行,在同一电脑程序中执行相应的语音任务,受试者保持坐姿,位于一台 21 英寸电脑屏幕正前方约 1 m 处,屏幕显示一段中文文本,受试者需要仔细浏览一遍文本后进行朗读。中文文本共包含 13 个任务,包括持续元音、汉字、单词和短句。录音由一个频率范围在 0.05~13 kHz 的索尼录音笔完成。录音笔参数设置为 96 kHz、30 dB,置于受试者嘴部 10 cm 处,记录受试者阅读指定文本的音频。数据以.wav 形式保存,使用声学分析软件 Praat 6.1(University of Amsterdam,荷兰)进行原始特征提取[25]。基于该研究领域的前期工作基础,本研究从每个语音样本中提取了包括时频在内的 26 个特征,具体特征信息参见文献[26]。
1.2 本文方法
基于融合原有特征和深层特征的必要性,更为了提高深度特征与原始特征的互补性,本文设计了一种 EHFSSAE 模型。首先将原始特征嵌入到 SAE 的隐藏层中,使改进后的 SAE 能够从原始特征中学习到高质量的深层特征;然后使用基于 L1 正则化的混合特征融合机制;最后设计了基于 w_LPPD 和 SVM 的降维集成模型。三步处理方法可以有效地消除特征冗余,增强特征的识别能力,提高分类结果的可靠性,提高泛化能力和稳定性。
1.2.1 EHFSSAE
传统 SAE 的训练基于贪婪的分层无监督学习算法[27]。该算法的核心思想是通过最小化该层的重建误差,一次训练一层,第i层的表示作为第i+1 层隐含层的输入。然而,这样的结构会导致编码特征的小样本识别能力不理想。认识到原始特征中包含了从先验知识中产生的有用信息,当网络深入时,这些信息可以引入到深层网络中以保持初始信息。因此,本研究在两个编码器之间设计了一个编码特征与原始特征的合并稀疏单元(merge-sparse unit,MSU),构造一个 EHFSSAE,如图 1 所示。

给定原始数据样本(其中X为输入数据矩阵,R为实数集,N为样本个数,n为样本维度)和单个编码器的编码特征
(其中H为输入数据编码后特征,R为实数集,N为样本个数,d为编码特征维度),合并稀疏单元的目的是获得X和H混合特征集的最优子集,其可以定义为如式(1)所示:
![]() |
其中,表示原始特征与隐藏层特征的连接,L(·)表示稀疏运算函数,G是由 0 和 1 组成的对应稀疏矩阵。通过稀疏矩阵,低散度的特征将为零,因此这些特征将不会被发送到后续层进行进一步编码。
在编码器之间引入 MSU 后,EHFSSAE 中第k层(k > 1)AE 的编码器部分可以定义为如式(2)所示:
![]() |
其中,是第k层 AE 隐含层的输出,
和
分别是第k层 AE 的权矩阵和偏差向量。F(·)代表激活函数。解码器函数如式(3)所示:
![]() |
其中,和
是权值矩阵和偏差向量,
即为如式(2)所示编码器函数,
是
的重构。此外,将稀疏准则应用于隐含层,以发现输入数据中的潜在结构。为了实现稀疏表示,一般将相对熵(kullback-leibler,KL)作为可处理的无监督目标引入。用 KL 来度量两个伯努利随机变量之间的差异:第j隐单元的
和目标的平均激活
。其表述如式(4)所示:
![]() |
其中,是第i个输入向量对隐含层第j个单位的激活值。该值随
和
差值的增加而单调增加。因此,通过设置一个小的稀疏参数
,使得隐藏单元的平均输出大部分为零,从而实现稀疏表示。如式(2)~(4)所示,第k层 AE 式的训练目标函数可以重新定义如式(5)所示:
![]() |
其中,和
表示稀疏性约束的正则化参数,
是第k个隐藏层单元的数目。如式(5)所示的过程为预训练。本文作者将预训练所得的 AE 的隐藏层逐个级联形成一个叠层的 AE,并通过预训练确定其初始参数。最终的目标是获得具有更好类别表示能力的特征,进一步以有监督的方式优化整个网络。为了实现这一点,本文在 SAE 的顶部堆叠另一个分类层作为输出层。叠层网络的微调过程是基于梯度下降的反向传播。
EHFSSAE 学习的非线性变换可以看作是一种很好的特征学习,它不仅利用了深度网络能够学习数据之间潜在关系的特点,而且通过在深度网络中引入原始特征,提高了深度特征的鲁棒性。经过整个网络的训练,对于每个输入的原始特征向量,在每个隐藏层中都可以得到一个新的特征向量,不同的层代表不同的层次信息。一般来说,网络层越高,输入数据中固有的模式就越复杂或抽象。基于此,将最后一个隐藏层的输出,即分类层的输入,作为深度特征向量,记录为
。然后,通过连接
和
来构造一个增强的特征向量
如式(6)所示:
![]() |
1.2.2 基于 L1 正则化的混合特征选择算法
虽然得到的混合特征集具有更丰富的类别信息,但是这会导致高维问题。另一方面,考虑到深层特征是从原始特征中学习而来的,这两组特征并不是相互独立的,两组特征之间存在一定的冗余信息。为此,本文设计了基于 L1 正则化的特征选择算法来优化混合特征。
具体地说,L1 正则化使用惩罚项来控制参数的绝对值之和最小,从而给出稀疏特征向量。对于新的数据集,其中
表示具有混合特征的第i个样本,并且
是相应的标签。考虑到以平方误差为损失函数的最简单的回归模型,优化目标函数可定义为如式(7)所示:
![]() |
其中,N为样本数,为第i个样本的第p个特征,
代表第p个特征的回归系数,为了防止陷入过度拟合,引入 L1 正则化来缓解此问题,如式(8)所示:
![]() |
其中,是一个稀疏控制参数,它越大,模型越稀疏。用近似梯度下降法求解如式(8)所示方程,可得只有与
的非零分量对应的特征才会被选择到最终的特征子集。
1.2.3 基于 w_LPPD 和 SVM 的集成学习模型
w_LPPD 是一种新的有效的特征约简方法,它考虑了样本中的离群点,去除了一些远离类中心的样本。首先,引入随机子空间采样;其次,基于所提出的目标函数建立保持局部性的判别投影;最后,结合多空间映射矩阵构造最终映射矩阵。假设表示第c次采样的样本数,则采样后的总样本数为
。
局部保持正则化项如式(9)所示:
![]() |
其中,Tr(·)表示秩,指括号内矩阵的所有对角元素之和,为样本集,
是映射矩阵,L是拉普拉斯矩阵,
是对角矩阵,A是亲和矩阵,可通过如式(10)所示计算:
![]() |
利用如式(9)~(10)所示方程,w_LPPD 公式可以化为如式(11)所示:
![]() |
其中,代表局部类内散度矩阵,
代表局部类间散度矩阵,
表示正则化系数,
为常数。从目标函数可以看出,w_LPPD 的目标是最小化
并最大化
,同时保留样本的局部性。
通过引入拉格朗日乘子,如式(11)所示目标函数式最终可以写成如式(12)所示:
![]() |
进行求导,得到最优解,求解过程如式(13)所示:
![]() |
显然,通过如式(13)所示,投影矩阵可以很容易地通过广义特征值分解得到。详情参见文献[28]。向量
由
的前k个特征向量组成。然后,将原始数据投影到一个低维空间中,跨越
的列,实现降维。如前所述,利用随机子空间上的局部判别投影,得到p投影矩阵
。通过加权得到最终的映射矩阵
。其数学表达式如式(14)所示:
![]() |
其中,是权重系数,可以通过网格搜索
来确定。
2 实验结果与分析
2.1 实验条件
在实验部分,将收集到的数据分成四个数据集,并进行了几组实验来验证所提出的方法。共收集到健康人样本 102 例,抑郁症患者样本 67 例,精神分裂症患者样本 130 例,由此组成健康人和抑郁症数据集(health and depression,HD)169 例,健康人和精神分裂症数据集(health and schizophrenia,HS)232 例,抑郁症和精神分裂症数据集(depression and schizophrenia,DS)197 例,健康人、抑郁症和精神分裂症数据集(health,depression and schizophrenia,HDS)299 例。关于数据集的简要信息如表 1 所示。所有实验均在统一的实验环境下进行:计算机操作系统为操作系统软件 Windows 10(Microsoft Corporation Inc.,美国),内存大小为 128 GB;编程工具是数学软件 MATLAB R2018b(MathWorks Inc.,美国)。

对于 EHFSSAE 模型,本文通过统计实验发现隐含层数为 3 效果最优,因此实验部分均基于三层隐含层进行。三层神经元个数分别为 90、40、20;惩罚系数 取值范围为{10−5,10−4,10−3,10−2,10−1,1},
取值范围为{1,2,3,4,5,6},稀疏系数
取值范围为{0.02,0.04,0.06,0.08,0.10,0.12},通过网格搜索寻找最优结果。
对于集成模型,将 w_LPPD 中的局部比率系数设置为采样率和基分类器个数,并在实验中用留出法验证了算法的性能。对于本文的 4 个数据集,所有样本被分成两个子集,其中占样本三分之一的一个子集作为测试数据,其余的作为训练数据。为了消除偶然因素的影响,每个实验重复 5 次,取平均值和标准差作为最终结果。
2.2 实验结果及分析
2.2.1 算法有效性验证
为了验证所提出算法的有效性,将提出的基于 L1 正则化的混合特征选择方法与代表性特征学习方法进行了比较,这些方法包括:相关特征(relevant features,relief)、P值法、PCA 和线性判别分析(latent dirichlet allocation,LDA)[29-32]。前两者为代表性的特征选择方法,后两者为代表性的特征降维方法。考虑到该方法的基本分类器是 SVM,因此本文也使用 SVM 作为分类器来评价上述方法的公平性。实验的平均准确率如表 2 所示,结果表明本文所提出的基于 L1 正则化的特征选择算法优于传统方法。在不同的数据集上,该方法都具有最好的准确率。以 HDS 数据集为例,改进后的准确率从 72.5% 提高到了 75.8%。这说明该方法能有效地降低混合特征的冗余度。

为了验证 EHFSSAE 的特征提取能力,将其与 SAE 和 SSAE 进行了比较。为了保证公平性,三个自编码器都由三个隐藏层和一个激活层组成,正则化系数和稀疏参数设置为相同的值。三种编码器的分类准确率如表 3 所示,可以看到在本文的精神病语音数据集上,本文提出的 EHFSSAE 算法分类效果要比 SAE 和 SSAE 的分类效果都要好。主要原因可能是,SAE 中加入了稀疏约束,同时网络结构和训练中融合了原有特征,提高了两者的互补性。

为了验证本文提出的集成降维模型对分类性能的提升,这里以随机森林(random forest,RF)和极限学习机(extreme learning machine,ELM)为分类器进行了实验,并与本文提出的集成降维模型进行了比较,结果如表 4 所示,可以看出该集成模型最大限度地提高了分类准确率。以 HDS 数据集为例与常用分类器相比,分类准确率分别从 72.4% 和 73.5% 提高到了 75.8%。此外,集合模型的标准差最小,说明所提出的集合模型更稳定;以 HDS 数据集为例与常用分类器相比,分类准确率的标准差分别从 6.5 和 4.2 降低为 3.5。可能的原因之一是 w_LPPD 可以进行高质量的特征降维。另一个原因是基于聚集算法(bagging aggregating)的集成模型具有很好的基分类器互补性。

2.2.2 算法效果对比
为了验证本文方法的有效性,本文与精神病语音识别方面的代表性文献[8-9, 11]进行比较,其中文献[8]主要采用了逻辑回归算法,文献[9]使用 PCA 作为特征降维,KNN、GMM 和 SVM 分别作为分类器,文献[11]把语音转为语谱图,采用了 CNN 分类算法,对比结果如表 5 所示。

可以看出,本文方法改进效果明显。以 HD 数据集为例,与几个文献方法相比,准确率分别从 81.9%、86.4% 和 84.5% 提高到了 89.0%,最大改进效果为 7.1%。但是,对于抑郁症和精神分裂症之间分类(DS 数据集),分类结果较差,仅有 69.2%,但仍比几个文献方法好;可能的原因是逻辑回归是一种线性回归,对于比较相似的数据难以区分。文献[9]的方法与文献[8]相比有较大提升,但与本文提出的方法相比,分类效果仍然较差。可能的原因是 PCA 只对特征进行了降维处理,没有得到高质量的语音特征用于分类,因此不能很好地表征精神疾病分类信息。文献[11]中的深度学习算法效果不如本文方法。原因可能是该方法只有深度特征,受限于小样本学习问题。
3 讨论和结论
为了解决精神病识别特征质量问题,本文构建了一个较大规模的精神病语音数据集,并提出了一种新的识别算法——EHFSSAE 集成的心理健康语音识别算法。该算法主要分为 3 个部分:① 设计了一种新的 SSAE,嵌入原始特征,过滤前一层学习到的一些不良特征,减少特征冗余;② 针对深度特征与原始特征相结合所带来的高维问题,设计了 L1 正则化方法来降低特征冗余;③ 为了进一步降低特征冗余,提高分类的稳定性,设计了一种基于 w_LPPD-SVM 的集成降维模型。该模型能有效地提高分类精度和泛化能力。为了验证所提出方法的有效性,本实验不仅使用消融法对主要的三个创新部分进行了验证,还将所提出的算法与目前有代表性的算法进行了比较。
本文主要有以下贡献和创新点:
(1)自主收集并构建了一个汉语心理健康语音数据集,解决了相关语音数据集不足的问题。
(2)设计了一种新的 SAE——EHFSSAE 来提取更具互补性的深度特征。与标准的 SAE 相比,EHFSSAE 通过在网络结构和训练中嵌入原始特征,来过滤前一层学习到的一些不良特征,提高了深度特征与原始特征的互补性及融合性能。
(3)设计了基于 L1 正则化的特征选择算法和基于 w_LPPD-SVM 的集成降维模型,提高了混合特征的泛化能力,形成了三段式的精神病语音特征降维算法。
虽然本文提出的方法是有效的,但仍存在一些不足。今后的工作是优化 SAE 的结构或训练方法,以便更好地适应语音特征的精神病健康状况,进一步提高特征的质量,提高分类准确性。此外,还可以考虑其他种类的深度神经网络来进一步验证本文方法的有效性。
利益冲突声明:本文全体作者均声明不存在利益冲突。