语音情感的识别方法、装置、电子设备及计算机存储介质

文档序号:41759136发布日期:2025-04-29 18:28阅读:36来源:国知局

本技术涉及智能语音处理,特别涉及一种语音情感的识别方法、装置、电子设备及计算机存储介质。


背景技术:

1、语音情感识别(speech emotion recognition,ser)旨在利用计算机自动分析理解语音信号中传递的情感,因其在人机交互(human-computer interaction,hci)领域有着广泛的应用前景,近年来已成为备受瞩目的研究热点。得益于深度学习在模式识别领域的迅猛发展,以深度神经网络为基础的语音情感识别方法取得了不错的效果。

2、情感作为一种主观的心理状态,其表达方式是复杂而多样的,受说话人特性、对话主题、语种等多重因素的影响,情感特征不可避免地带有显著的域特异性。具体而言,不同说话人的情感表达存在偏差,使得现有的语音情感识别方法在对未知说话人的测试上性能出现较大的下降。另外,即使相同的说话人也会因主题和言语内容的差异,在情感表达上存在一定的差异。由于情感数据标注成本高昂,往往只能对段级语音进行简单的情感类别标注,不同标注者之间的主观评判差异进一步影响了数据的标注质量,这也极大的限制了模型的建模能力及模型的域鲁棒性。


技术实现思路

1、有鉴于此,本技术提供一种语音情感的识别方法、装置、电子设备及计算机存储介质,有效的减小了域间差异对情感识别性能的影响,大幅提升了情感特征的鲁棒性与推广性。

2、本技术第一方面提供了一种语音情感的识别方法,包括:

3、接收语音数据;

4、将所述语音数据输入至语音情感识别模型中,输出得到情感分类结果;其中,所述语音情感识别模型包括特征提取器、目标情感表征适配器和目标情感分配器;所述语音情感识别模型由多域情感数据集对初始情感表征适配器和初始情感分类器进行训练得到;所述多域情感数据集包括多个属性信息,每一个属性信息对应多个域的数据;所述语音情感识别模型在接收到语音数据后,将语音数据输入至特征提取器中,输出得到语音特征;将所述语音特征输入目标情感表征适配器中,输出得到局部特征的映射;将所述局部特征的映射输入至目标情感分配器,输出得到情感分类结果。

5、可选的,所述语音情感识别模型的构建方法,包括:

6、在多域情感数据集中随机选取一个属性信息;

7、针对所述属性信息,抽取得到第一域的数据和第二域的数据;

8、分别将第一域的数据和第二域的数据输入至特征提取器,输出得到第一语音特征和第二语音特征;

9、根据第一语音特征和第二语音特征对初始情感表征适配器进行训练,得到预训练情感表征适配器;

10、根据第一域的数据和第二域的数据对预训练情感表征适配器以及初始情感分配器进行训练,得到目标情感表征适配器和目标情感分配器。

11、可选的,所述根据第一语音特征和第二语音特征对初始情感表征适配器进行训练,得到预训练情感表征适配器,包括:

12、根据所述第一语音特征以及所述第二语音特征构建局部属性集合;其中,所述局部属性集合为使用对比损失函数进行训练得到;

13、第一域的数据和第二域的数据分别与所述局部属性集合进行映射,得到第一局部特征映射和第二局部特征映射;

14、根据第一局部特征映射和第二局部特征映射,确定局部域间分布损失,利用所述局部域间分布损失对初始情感表征适配器进行预训练,得到预训练情感表征适配器。

15、可选的,所述根据第一域的数据和第二域的数据对预训练情感表征适配器以及初始情感分配器进行训练,得到目标情感表征适配器和目标情感分配器,包括:

16、将第一域的数据输入至所述预训练情感表征适配器和初始情感分配器中,计算得到第一情感分类损失;

17、根据所述第一情感分类损失更新预训练情感表征适配器中的参数,得到更新情感表征适配器;

18、将第二域的数据输入至所述更新情感表征适配器和初始情感分配器中,计算得到第二情感分类损失;

19、根据所述第二情感分类损失更新初始情感分配器中的参数,得到目标情感分配器;

20、将第一域的数据和第二域的数据输入至所述预训练情感表征适配器中,计算得到全局域间分布损失;

21、将第一域的数据输入至所述预训练情感表征适配器和目标情感分配器中,计算得到第三情感分类损失;

22、根据所述第三情感分类损失和所述全局域间分布损失对预训练情感表征适配器中的参数进行更新,得到目标情感表征适配器。

23、可选的,所述特征提取器包括波形编码器和bert编码器。

24、可选的,所述初始情感表征适配器包括两个局部适配层、一个1×1卷积层和局部属性对比模块。

25、可选的,所述初始情感分配器包括全局最大值池化层、波形编码器和全连接层。

26、本技术第二方面提供了一种语音情感的识别装置,包括:

27、接收单元,用于接收语音数据;

28、识别单元,用于将所述语音数据输入至语音情感识别模型中,输出得到情感分类结果;其中,所述语音情感识别模型包括特征提取器、目标情感表征适配器和目标情感分配器;所述语音情感识别模型由多域情感数据集对初始情感表征适配器和初始情感分类器进行训练得到;所述多域情感数据集包括多个属性信息,每一个属性信息对应多个域的数据;所述语音情感识别模型在接收到语音数据后,将语音数据输入至特征提取器中,输出得到语音特征;将所述语音特征输入目标情感表征适配器中,输出得到局部特征的映射;将所述局部特征的映射输入至目标情感分配器,输出得到情感分类结果。

29、可选的,所述语音情感识别模型的构建单元,包括:

30、随机单元,用于在多域情感数据集中随机选取一个属性信息;

31、抽取单元,用于针对所述属性信息,抽取得到第一域的数据和第二域的数据;

32、特征提取单元,用于分别将第一域的数据和第二域的数据输入至特征提取器,输出得到第一语音特征和第二语音特征;

33、第一训练单元,用于根据第一语音特征和第二语音特征对初始情感表征适配器进行训练,得到预训练情感表征适配器;

34、第二训练单元,用于根据第一域的数据和第二域的数据对预训练情感表征适配器以及初始情感分配器进行训练,得到目标情感表征适配器和目标情感分配器。

35、可选的,所述第一训练单元,包括:

36、局部属性构建单元,用于根据所述第一语音特征以及所述第二语音特征构建局部属性集合;其中,所述局部属性集合为使用对比损失函数进行训练得到;

37、局部特征映射训练单元,第一域的数据和第二域的数据分别与所述局部属性集合进行映射,得到第一局部特征映射和第二局部特征映射;

38、预训练单元,用于根据第一局部特征映射和第二局部特征映射,确定局部域间分布损失,利用所述局部域间分布损失对初始情感表征适配器进行预训练,得到预训练情感表征适配器。

39、可选的,所述第二训练单元,包括:

40、第一计算单元,用于将第一域的数据输入至所述预训练情感表征适配器和初始情感分配器中,计算得到第一情感分类损失;

41、第一更新单元,用于根据所述第一情感分类损失更新预训练情感表征适配器中的参数,得到更新情感表征适配器;

42、第二计算单元,用于将第二域的数据输入至所述更新情感表征适配器和初始情感分配器中,计算得到第二情感分类损失;

43、第二更新单元,用于根据所述第二情感分类损失更新初始情感分配器中的参数,得到目标情感分配器;

44、第三计算单元,用于将第一域的数据和第二域的数据输入至所述预训练情感表征适配器中,计算得到全局域间分布损失;

45、第四计算单元,用于将第一域的数据输入至所述预训练情感表征适配器和目标情感分配器中,计算得到第三情感分类损失;

46、第三更新单元,用于根据所述第三情感分类损失和所述全局域间分布损失对预训练情感表征适配器中的参数进行更新,得到目标情感表征适配器。

47、可选的,所述特征提取器包括波形编码器和bert编码器。

48、可选的,所述初始情感表征适配器包括两个局部适配层、一个1×1卷积层和局部属性对比模块。

49、可选的,所述初始情感分配器包括全局最大值池化层、波形编码器和全连接层。

50、本技术第三方面提供了一种电子设备,包括:

51、一个或多个处理器;

52、存储装置,其上存储有一个或多个程序;

53、当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面任意一项所述的语音情感的识别方法。

54、本技术第四方面提供了一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面任意一项所述的语音情感的识别方法。

55、由以上方案可知,本技术提供一种语音情感的识别方法、装置、电子设备及计算机存储介质,通过集成了特征提取器、目标情感表征适配器和目标情感分配器的语音情感识别模型来对语音数据的情感进行识别,得到情感分类结果。在训练过程中,利用多样化的情景任务构建,模拟实际复杂场景中的域分布差异情况,并采用基于情景学习的“预训练+微调”策略提高实际复杂场景下的域泛化能力。具体而言,在预训练阶段引入了局部域分布对齐损失,通过精细分析并减少域间情感特征的分布偏差,实现了情感特征的跨域对齐与融合。在微调阶段,使用解耦学习的方法,促使情感表征适配器和分类器能够逐步适应新的情感表达场景。有效的减小了域间差异对情感识别性能的影响,大幅提升了情感特征的鲁棒性与推广性。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!