语音情感识别方法、装置、存储介质和计算机设备与流程

文档序号：34609221发布日期：2023-06-29 05:30阅读：25来源：国知局

本申请涉及语音情感识别的，具体涉及一种语音情感识别方法、装置、存储介质和计算机设备。

背景技术：

1、语音情感识别在许多应用中都发挥着重要的作用，但受到如背景噪音、说话者语音特征等因素的影响，导致语音情感识别的难度提升，导致现有的语音情感识别技术难以捕获情感突出信息，且现有的相关技术还存在空间中提取语义特征的能力低的缺陷，使语音情感识别的识别结果存在准确性低的缺点。

技术实现思路

1、本申请的目的在于克服现有技术中的缺点与不足，提供一种语音情感识别方法、装置、存储介质和计算机设备，可以提高语音情感识别的准确性。

2、本申请实施例的第一方面提供了一种语音情感识别方法，包括：

3、提取语音数据的对数梅尔谱，以及所述对数梅尔谱的一阶差分和二阶差分，得到三维语音特征；

4、对所述三维语音特征进行特征提取，得到包含语音上下文信息的帧级别全局特征；

5、将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组，得到包含全局信息的图节点特征；

6、将所述图节点特征输入至池化层进行池化，得到对应的图级特征；

7、将所述图级特征输入至分类网络中进行情感分类，得到语音数据的情感类别；其中，所述分类网络包括全连接层和softmax层。

8、本申请实施例的第二方面提供了一种语音情感识别装置，包括：

9、三维语音特征获取模块，用于提取语音数据的对数梅尔谱，以及所述对数梅尔谱的一阶差分和二阶差分，得到三维语音特征；

10、全局特征获取模块，用于对所述三维语音特征进行特征提取，得到包含语音上下文信息的帧级别全局特征；

11、图节点特征获取模块，用于将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组，得到包含全局信息的图节点特征；

12、图级特征获取模块，用于将所述图节点特征输入至池化层进行池化，得到对应的图级特征；

13、情感类别获取模块，用于将所述图级特征输入至分类网络中进行情感分类，得到语音数据的情感类别；其中，所述分类网络包括全连接层和softmax层。

14、本申请实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的语音情感识别方法的步骤。

15、本申请实施例的第四方面提供了一种计算机设备，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的语音情感识别方法的步骤。

16、相对于相关技术，本申请首先根据语音数据的对数梅尔谱，以及对数梅尔谱的一阶差分和二阶差分，得到三维语音特征，然后对三维语音特征进行特征提取，得到包含语音上下文信息的帧级别全局特征，再对帧级别全局特征进行全局信息重组，得到包含全局信息的图节点特征，然后通过池化得到对应的图级特征，将图级特征输入分类网络进行情感分类，得到语音数据的情感类别，由于采用了对数梅尔谱，以及对数梅尔谱的一阶差分和二阶差分作为三维语音特征，可以保留更多的有效情感信息，并且减少与情感无关的因素的印象，而通过对三维语音特征进行特征提取，可以提高模型提取全局上下文特征的能力，再通过图卷积神经网络，可以更好的捕获序列中帧与帧之间的依赖关系，增强特征的集中度，进一步提高特征提取能力，从而提高语音情感识别的准确性。

17、为了能更清晰的理解本申请，以下将结合附图说明阐述本申请的具体实施方式。

技术特征：

1.一种语音情感识别方法，其特征在于，包括：

2.根据权利要求1所述的语音情感识别方法，其特征在于，所述对所述三维语音特征进行特征提取，得到包含语音上下文信息的帧级别全局特征的步骤，包括：

3.根据权利要求2所述的语音情感识别方法，其特征在于，各层transformer模型编码器分别包括多头自注意力机制层和前馈神经网络；

4.根据权利要求3所述的语音情感识别方法，其特征在于，所述将所述语音序列编码输入至所述多头自注意力机制层对语音进行注意力操作，得到多个注意力矩阵的步骤，包括：

5.根据权利要求3所述的语音情感识别方法，其特征在于，所述将所述多个注意力矩阵进行串联拼接，得到目标注意力矩阵的步骤，包括：

6.根据权利要求3所述的语音情感识别方法，其特征在于，所述将所述目标注意力矩阵输入至所述前馈神经网络，以通过所述前馈神经网络的两个线性变换层对所述目标注意力矩阵进行特征提取，得到所述前馈神经网络输出的特征提取结果的步骤，包括：

7.根据权利要求1所述的语音情感识别方法，其特征在于：所述图卷积神经网络包括至少两个图卷积层；

8.一种语音情感识别装置，其特征在于，包括：

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音情感识别方法的步骤。

10.一种计算机设备，其特征在于：包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音情感识别方法的步骤。

技术总结
本申请提供一种语音情感识别方法、装置、存储介质和计算机设备，所述方法包括：提取语音数据的对数梅尔谱，以及对数梅尔谱的一阶差分和二阶差分，得到三维语音特征；对三维语音特征进行特征提取，得到包含语音上下文信息的帧级别全局特征；将帧级别全局特征输入至图卷积神经网络进行全局信息重组，得到包含全局信息的图节点特征；将图节点特征输入至池化层进行池化，得到对应的图级特征；将图级特征输入至分类网络中进行情感分类，得到语音数据的情感类别；其中，分类网络包括全连接层和softmax层。本申请可以提高语音情感识别的准确性。

技术研发人员：黄鑫,孙晨静,侯贤华,杨继臣,王德明
受保护的技术使用者：华南师大（清远）科技创新研究院有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄鑫孙晨静侯贤华杨继臣王德明
技术所有人：华南师大（清远）科技创新研究院有限公司
我是此专利的发明人