基于渐进式信道查询的语音情感识别方法

文档序号：37916204发布日期：2024-05-10 23:55阅读：9来源：国知局

本发明涉及语音情感识别，特别是涉及基于渐进式信道查询的语音情感识别方法。

背景技术：

1、情感识别是一种通过分析人类行为表现，如语音、面部表情、身体动作以及语言用词等，来识别和理解个体情感状态的技术。它在人体交互、健康监测、安全监控等多个领域中具有重要的应用价值。但在一些特定的应用场景，如呼吸中心、远程医疗咨询、盲人和智障人士辅助工具等，由于各种原因，文本和图像等其他模态可能不可用或不实用，使得语音成为了情感识别的首选或唯一模态。

2、语音信号的处理与分析面临着独特的挑战，特别是当涉及到情感识别时。这是因为语音信号与时间强烈相关，情感的表达在语音中是动态且复杂的过程。例如，情感状态的变化可能在语音的不同部分以不同的速度和强度出现，这使得对语音中情感信息进行准确的动态建模变的更加困难。在处理这种问题时，现有的方法面临着多重挑战。首先，基于transformer的方法虽然能对语音信号进行全局建模，但这种方式在语音情感识别的任务中可能存在过拟合风险，尤其是在样本数量相对较少的情况下。此外，当前许多方法依赖于堆叠多层卷积神经网络(cnn)来提取特征，但这些方法主要关注于获取最后一层的特征输出，这种做法可能忽略了浅层中的细粒度信息，从而影响模型捕获长期上下文信息的能力。最后，现有的声学特征提取方法在多样性上存在局限，这可能导致在识别不同种类和强度的情感状态时效果不佳。多样化的特征提取方法可以提高模型在不同情感状态下的识别能力，从而达到更好的识别效果。

技术实现思路

1、为了解决上述现有技术中的不足，本发明的目的是提供一种基于渐进式信道查询的语音情感识别方法，基于渐进式的信道查询网络，实现了在信道维度上对语音情感信号的动态建模，取得了优异的情绪识别性能。

2、本发明解决其技术问题所采用的技术方案为：

3、提供了一种基于渐进式信道查询的语音情感识别方法，包括以下步骤：

4、s1：对语料库中的纯净语音进行预处理，获取语音信号中的相关特征，得到冗余度低、情感区分度高的显著情感特征集；

5、s2：搭建一个渐进式信道查询的网络模型，任务为语音情感分类；该模型分为三部分，分别为多尺度cnn网络、wavlm预训练编码器网络和信道语义查询层；

6、s3：采用显著情感特征集作为网络模型的输入，进而对渐进式信道查询的网络模型进行训练，经过模型的深度分析和推断，最终在输出层得到精确的情感分类结果：

7、s4：对所得出的基于渐进式信道查询的语音情感识别方法进行性能评估。

8、进一步的，步骤s1具体包括：

9、s11：读取原始音频信号，所使用的原始音频信号以16khz进行采样，把每段音频分成3s长的几个片段，当一个片段小于3s时，将对该段应用0的填充操作以保持相同的长度，音频话语的最终预测结果将由来自该话语的所有分割片段决定；

10、s12：首先，对每段长度为3s的语音信号进行预处理，包括预加重、分帧加窗以及端点检测，得到尺寸为300×200的频谱图图像，并对频谱图进行帧的提取；接着，利用离散傅里叶变换将每个帧从时域转到频域，作为输入的频谱图特征；

11、s13：针对预处理前后的语音信号，得到语音信号的多级表示，包括语音信号以及对应的频谱图。

12、进一步的，步骤s2具体包括：

13、s21：构建一个多尺度cnn网络模型，其输入为频谱图；

14、s22：将wavlm预训练模型作为编码器，该编码器经处理后输出一个通道数为1的特征图，在信道语义查询层中，将该单通道特征图命名为查询令牌q1，对q1进行两次自适应池化操作，从而共获得三个查询令牌：q1、q2和q3；

15、s23：构建三个独特的信道语义查询层，每一层的语义查询都依赖于三个关键输入：首先是查询令牌q，其次是多尺度cnn网络中的两个连续层级输出特征；

16、s24：在整体网络最后，作为分类器的多层感知器接收经过全局池化处理后的一系列拼接特征，加强模型对情感的敏感度，提高分类准确性。

17、进一步的，步骤s21中，首先配置一个并联的卷积核，两个卷积核分别具有8个通道，其中一个核的大小为(10,2)，用于捕捉水平方向上的特征；另一个核的大小为(2,8)，用于对垂直方向的特征进行提取；

18、随后，模型的结构由四个层组成，其通道数分别是16、32、48和64，在模型的第一个层次，首先施加2×2的最大池化操作，后续紧随其后的是一个特征增强模型，接下来的三个层每一层都从一个步长为1的3×3卷积开始，然后经过一个核大小为2的最大池化层，最后补充一个特征增强模块。

19、进一步的，在通道注意力部分，该模型首先对输入特征在通道维度上施加全局平均池化，然后通过全连接层进行信息重塑，最后利用乘法操作突出重要通道的特征；

20、在通道注意力部分中，全局平均池化被用于从输入x中抽取特定的通道特征，表示为x′，接着，特征x′被送入全连接层g(x)进一步处理，然后通过sigmoid激活函数δ进行调整，从而得到信道权重w＝δ(g(x′))，将权重w与输入特征x相乘，得到输出

21、在多尺度cnn网络中，存在四个输出，分别标记为x1、x2、x3和x4。

22、进一步的，步骤s24中，不仅包含了三个信道查询层的输出特征z1、z2与z3和多尺度cnn网络的尾端输出特征x4，还融合了wavlm预训练网络分支的加权输出qw，qw是由q1与x4通过元素乘法获得的。

23、进一步的，步骤s3具体包括：

24、s31：采用多分类交叉熵损失函数作为语音情感分类的损失函数，对于单个样本，交叉熵损失函数定义为：

25、

26、其中，yi是真实标签的one-hot编码中的第i个元素；pi是模型预测的概率分布中的第i个元素；

27、并引入误差反向传播进行参数的微调，当交叉熵损失函数值达到最小时，即交叉熵损失函数收敛时，训练完成，得到基于进式信道查询网络模型的强鲁棒性模型；

28、s32：通过渐进式信道查询网络提取的特征首先经过全局平均池化处理，经过拼接后，这些处理过的特征汇集成160个神经元，然后输入至多层感知器分类器中。

29、进一步的，多层感知器有三个全连接层构成，起始层从160个神经元减少至128个神经元，接着的隐含层保持128个神经元，并最终连接至一个拥有4个神经元的输出层，输出层的四个数值通过softmax函数处理，将模型的原始输出转化为各分类的概率分布，从而得到精确的情感分类结果。

30、与现有技术相比，本发明的有益效果在于：

31、本发明示例的基于渐进式信道查询的语音情感识别方法，基于渐进式的信道查询网络，实现了在信道维度上对语音情感信号的动态建模，在iemocap数据集下获得了优异的情绪识别性能。

技术特征：

1.基于渐进式信道查询的语音情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于渐进式信道查询的语音情感识别方法，其特征在于，步骤s1具体包括：

3.根据权利要求1所述的基于渐进式信道查询的语音情感识别方法，其特征在于，步骤s2具体包括：

4.根据权利要求3所述的基于渐进式信道查询的语音情感识别方法，其特征在于，步骤s21中，首先配置一个并联的卷积核，两个卷积核分别具有8个通道，其中一个核的大小为(10,2)，用于捕捉水平方向上的特征；另一个核的大小为(2,8)，用于对垂直方向的特征进行提取；

5.根据权利要求4所述的基于渐进式信道查询的语音情感识别方法，其特征在于，在通道注意力部分，该模型首先对输入特征在通道维度上施加全局平均池化，然后通过全连接层进行信息重塑，最后利用乘法操作突出重要通道的特征；

6.根据权利要求5所述的基于渐进式信道查询的语音情感识别方法，其特征在于，步骤s24中，不仅包含了三个信道查询层的输出特征z1、z2与z3和多尺度cnn网络的尾端输出特征x4，还融合了wavlm预训练网络分支的加权输出qw，qw是由q1与x4通过元素乘法获得的。

7.根据权利要求1所述的基于渐进式信道查询的语音情感识别方法，其特征在于，其特征在于，步骤s3具体包括：

8.根据权利要求7所述的基于渐进式信道查询的语音情感识别方法，其特征在于，多层感知器有三个全连接层构成，起始层从160个神经元减少至128个神经元，接着的隐含层保持128个神经元，并最终连接至一个拥有4个神经元的输出层，输出层的四个数值通过softmax函数处理，将模型的原始输出转化为各分类的概率分布，从而得到精确的情感分类结果。

技术总结
本发明公开了基于渐进式信道查询的语音情感识别方法，属于语音情感识别技术领域，包括以下步骤：S1：对语料库中的纯净语音进行预处理，获取语音信号中的相关特征，得到冗余度低、情感区分度高的显著情感特征集；S2：搭建一个渐进式信道查询的网络模型，任务为语音情感分类；该模型分为三部分，分别为多尺度CNN网络、WavLM预训练编码器网络和信道语义查询层；S3：采用显著情感特征集作为网络模型的输入，进而对渐进式信道查询的网络模型进行训练，经过模型的深度分析和推断，最终在输出层得到精确的情感分类结果。本发明示例的基于渐进式信道查询的语音情感识别方法，基于渐进式的信道查询网络，实现了在信道维度上对语音情感信号的动态建模，获得了优异的情绪识别性能。

技术研发人员：汪烈军,王新程,武天琦,焦鑫鑫,王建一
受保护的技术使用者：新疆大学
技术研发日：
技术公布日：2024/5/9

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪烈军,王新程,武天琦,焦鑫鑫,王建一
技术所有人：新疆大学
我是此专利的发明人

上一篇：一种煤泥离心机欠速保护系统的制作方法
上一篇：空气检测器的制作方法