一种基于多空间融合和分级协同注意的语音情感识别方法

文档序号:38039606发布日期:2024-05-20 11:07阅读:22来源:国知局
一种基于多空间融合和分级协同注意的语音情感识别方法

本发明涉及人机交互和自然语言处理的语音情感识别,特别是涉及一种基于多空间融合和分级协同注意的语音情感识别方法。


背景技术:

1、语音是人们传递信息内容的同时又表达情感态度的媒介,语音情感识别在人机交互中起重重要作用,显著改善了用户体验。带有情感的语音使得人人、人机交流变得高效和有吸引力。然而现实生活中语音情感多样,微妙而复杂且是处于变动状态的,所以检测识别语音中的情感就成为了一项比较有挑战性的任务。语音情感识别是情感智能的一个研究热点,利用计算机分析预处理后的各种情感信息,提取出描述情感的特征,将特征值与情感进行对应,然后对情感信息进行分类,进而推断出情感状态的过程。通常,语音情感识别中的大多数模型包括两个部分:特征提取器和分类器。

2、现有的语音情感识别手段主要包括传统方法和深度学习方法两种,常用的传统分类器有高斯混合模型(gaussian mixture model,gmm)、支持向量机(support vectormachines,svm)和隐马尔可夫模型(hidden markov model,hmm)等。svm算法使用核函数将样本从原始空间映射到高维空间使其线性可分,因为其泛化能力强,不易受高维特征的影响而在语音情感识别研究中使用广泛。hmm是关于时序的概念模型,它能够很好地模拟情绪的时间动态。gmm是连续hmm的特例,它使用混合的高斯分量来捕获每一类的概率分布。常见的深度学习语音情感识别方法有基于卷积神经网络(cnn)的语音情感识别方法、基于循环神经网络(rnn)的语音情感识别方法以及基于自编码器的语音情感识别方法。基于cnn的语音情感识别方法是比较常见的方法,通过训练语音情感识别模型完成情感识别任务,但是该方法缺乏全局特征的提取能力,而这将对语音情感识别的准确率产生影响。基于rnn的语音情感识别方法也值得注意,但是rnn方法比cnn方法有着更大的参数量,模型也更加复杂。基于自编码器的语音情感识别方法将原始数据重建为输出,包含编码器和解码器两个组件。并且可以与cnn和rnn结合,大大改善了语音情感识别的性能。由于transformer模型自然语言处理方面的优异成绩,且在长序列建模方面表现突出,在一定程度上可以替代cnn和rnn,因此有研究者将其用于语音情感识别,但是这种方法所耗费的时间和内存占用过大。虽然深度学习方法与传统方法相比数据量大,模型复杂,但是可以省去人工提取特征的步骤,具有更好的表现。

3、随着深度学习的不断发展,一些神经网络,如递归神经网络(rnn)和卷积神经网络(cnn),已被用于提取高级情感特征,在ser中取得了有竞争力的结果。基于cnn的模型表现出更好的区分性能,因此被更频繁的采用和改进。但cnn的权值共享和卷积不变的特征也限制了对全局信息的提取。另外,由于多级特征间存在对齐、标准化的问题导致大多数方法采用单一特征完成语音情感识别任务。为了解决这些问题,在本发明中提出了一个轻量化的多空间融合模块来同时考虑局部和全局特征。为了获取更加充分的情感表征,该方法从语音信号和频谱图中提取情感信息,并通过设计的多级协同注意模块聚合两部分特征。


技术实现思路

1、为了解决上述现有技术中的不足,本发明的目的是提供一种基于多空间融合和分级协同注意的语音情感识别方法,通过训练mfhca模型,可以端到端的实现语音情感识别任务,并且能够准确的定位到语音中与情感相关的信息,同时结合时域的特征,利用多级声学特征有效的从语音文件准确地识别出情感类别。

2、本发明解决其技术问题所采用的技术方案为:

3、提供了一种基于多空间融合和分级协同注意的语音情感识别方法,包括以下步骤:

4、s1:预处理训练数据:对训练数据进行切割获取指定时长的时域语音信号序列,并对其进行分帧、加窗、离散傅里叶变换处理,获取频谱图;

5、s2:构建模型并训练:构建基于多空间融合和分级协同注意的语音情感识别模型,设定合适的误差函数,将预处理后的训练集语音信号和频谱图输入模型进行训练,将训练完成的语音情感识别模型部署到服务器中;

6、s3:测试模型:将测试集的数据进行预处理,利用训练完成的语音情感识别模型对其进行情感识别,完成语音情感识别任务;

7、s4:评估模型,采用多种评价指标对模型语音情感识别的性能进行评估。

8、进一步的,步骤s1中,在数据预处理过程中,每个音频被分为若干段,每段持续3s,如果有一段音频少于3s,将会应用填充操作,使用0来填充以保持相同长度;在获取频谱图的过程中,帧长设置为40ms,帧移为10ms,每个帧都被转换为具有800个离散傅里叶变换点的频域特征,其中的前200个点被用作频谱图特征。

9、进一步的,步骤s2中,所述语音情感识别模型由两个特征提取模块和一个特征融合模块构建,所述特征提取模块为多空间融合模块和hubert模块,所述特征融合模块为分级协同注意模块。

10、进一步的,所述多空间融合模块包括一个并行卷积层、一个池化层和三个全局感受野块,使用处理后的对数梅尔谱图作为输入,模块的第一层为核大小为(10,2)和(2,8)的两个并行卷积,用来提取时间和频率方向的特征;然后使用三个grf增强模型对情感信息的关注;最后,将三个grf增强模型结果相加,作为最终的输出特征。

11、进一步的,所述grf增强模块由三部分构成,第一部分为原始输入;第二部分,模型在水平和垂直方向上对特征进行全局平均池化,聚合得到的输出,再将其拆分成独立的两部分,作为输入特征的权重,进行乘法操作;第三部分,采用平局池化将输入特征映射到不同的尺度空间进行卷积,并通过双线性插值的方法恢复到初始尺度空间以获取更大的感受野。

12、进一步的,所述hubert模块是一个基于transformer的模型,由三个组件组成:波形编码器,声学单元发现系统和bert编码器,hubert模块对mfcc特征进行k-means和gmm聚类,以离散化语音信号,创建训练目标。

13、进一步的,所述语音情感识别模型使用hca模块融合时域语音信号和频域谱图特征,设这两部分特征分别为ft和fs,使用ft和fs的联合表示对进行指导,然后与fs结合,最终的情感特征为:

14、

15、其中,ft′为ft经过双向长短期记忆网络所得到的更高级特征,为对应元素点乘,softmax为激活函数,concat为合并连接;

16、mfhca模型的目标函数为:

17、

18、其中,y表示语音本身的情感分类,表示模型所预测的情感分类,lce表示交叉熵损失。

19、进一步的,步骤s3中,测试数据预处理方法为:每个音频被分为若干段,每段持续3s,如果有一段音频少于3s,将会应用填充操作,使用0来填充以保持相同长度;在获取频谱图的过程中,帧长设置为40ms,帧移为10ms,每个帧都被转换为具有800个离散傅里叶变换点的频域特征,其中的前200个点被用作频谱图特征。

20、进一步的,步骤s4中,评级指标包括加权准确率和未加权准确率。

21、与现有技术相比,本发明的有益效果在于:

22、本发明示例的基于多空间融合和分级协同注意的语音情感识别方法,通过训练mfhca模型,可以端到端的实现语音情感识别任务,并且能够准确地定位到语音中与情感相关的信息,同时结合时域的特征,利用多级声学特征有效地从语音文件准确地识别出情感类别,摆脱了传统卷积神经网络无法关注情感相关区域的局限,解决了模型过大对训练资源、训练时间造成压力的问题,更轻便高效地实现了语音情感识别。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1