基于语音和文本的情感识别方法和装置、设备、存储介质与流程

文档序号：35277953发布日期：2023-08-31 21:10阅读：25来源：国知局

本技术涉及人工智能和金融科技，尤其涉及一种基于语音和文本的情感识别方法和装置、设备、存储介质。

背景技术：

1、语音情感识别(speech emotion recognition，ser)：语音情感识别可以用于根据给定的语音片段识别出情感信息，主要原理是将音频数据输入到情感识别模型，情感识别模型根据所输入的音频数据进行情感识别，以输出情感信息，例如输出情感类别，该情感类别可以用于对话系统和人机交互界面，例如银行系统、保险系统、智能问诊系统等，语音情感识别是人机交互界面和对话系统中的重要步骤。传统的语音情感识别方法主要基于人工定义的特征进行判断，例如梅尔频率倒谱系数特征、音高特征、过零率特征、频谱质心特征等；该传统的情感识别方法的识别精确度较低，特别在一些较为复杂的场景下，例如音频中说话语气与音频中的说话内容不一致，情感识别的表现较差。因此，如何提高情感识别的准确率，成为了亟待解决的技术问题。

技术实现思路

1、本技术实施例的主要目的在于提出一种基于语音和文本的情感识别方法和装置、设备、存储介质，旨在提高情感识别的准确率。

2、为实现上述目的，本技术实施例的第一方面提出了一种基于语音和文本的情感识别方法，所述方法包括：

3、获取目标对象的原始音频数据和原始文本数据；

4、对所述原始音频数据进行音频特征提取，得到初步音频特征；

5、对所述原始文本数据进行文本特征提取，得到初步词汇特征；

6、对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组；

7、根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征，根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征；

8、将所述目标音频特征和所述目标词汇特征进行拼接，得到音频词汇融合特征；

9、根据所述音频词汇融合特征进行情感识别，得到所述目标对象的目标情感类别。

10、在一些实施例，所述对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组，包括：

11、将所述初步音频特征输入到预设的特征提取神经网络；其中，所述特征提取神经网络包括第一网络层、第二网络层、第三网络层；

12、通过所述第一网络层对所述初步音频特征进行第一变换得到音频查询特征；

13、通过所述第二网络层对所述初步音频特征进行第二变换得到音频键特征；

14、通过所述第三网络层对所述初步音频特征进行第三变换得到音频值特征；

15、根据所述音频查询特征、所述音频键特征、所述音频值特征构建所述音频特征组。

16、在一些实施例，所述对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组，还包括：

17、将所述初步词汇特征输入到所述特征提取神经网络；

18、通过所述第一网络层对所述初步词汇特征进行第一变换得到词汇查询特征；

19、通过所述第二网络层对所述初步词汇特征进行第二变换得到词汇键特征；

20、通过所述第三网络层对所述初步词汇特征进行第三变换得到词汇值特征；

21、根据所述词汇查询特征、所述词汇键特征、所述词汇值特征构建所述词汇特征组。

22、在一些实施例，所述根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征，根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征，包括：

23、对所述音频键特征进行矩阵转置处理得到音频转置键特征，对所述词汇键特征进行矩阵转置处理得到词汇转置键特征；

24、根据所述音频查询特征、所述词汇转置键特征、所述音频值特征进行第一注意力计算处理得到所述目标音频特征，根据所述词汇查询特征、所述音频转置键特征、所述词汇值特征进行第二注意力计算处理得到所述目标词汇特征。

25、在一些实施例，所述根据所述音频词汇融合特征进行情感识别，得到所述目标对象的目标情感类别，包括：

26、将所述音频词汇融合特征输入至预设的特征分类器中；

27、基于所述特征分类器对所述音频词汇融合特征进行情感分类处理，得到所述目标情感类别。

28、在一些实施例，所述对所述原始文本数据进行文本特征提取，得到初步词汇特征，包括：

29、对所述原始文本数据进行词嵌入提取，得到词嵌入序列；

30、通过预设的双向长短时记忆网络对所述词嵌入序列进行词特征提取，得到所述初步词汇特征。

31、在一些实施例，所述对所述原始音频数据进行音频特征提取，得到初步音频特征，包括：

32、对所述原始音频数据进行短时傅里叶变换频谱计算，得到初步频谱数据；

33、通过预设的卷积神经网络对所述初步频谱数据进行音频特征提取，得到所述初步音频特征。

34、为实现上述目的，本技术实施例的第二方面提出了一种基于语音和文本的情感识别装置，所述装置包括：

35、音频文本获取模块，用于获取目标对象的原始音频数据和原始文本数据；

36、音频特征提取模块，用于对所述原始音频数据进行音频特征提取，得到初步音频特征；

37、文本特征提取模块，用于对所述原始文本数据进行文本特征提取，得到初步词汇特征；

38、线性变换模块，用于对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组；

39、注意力机制计算模块，用于根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征，根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征；

40、特征拼接模块，用于将所述目标音频特征和所述目标词汇特征进行拼接，得到音频词汇融合特征；

41、情感识别模块，用于根据所述音频词汇融合特征进行情感识别，得到所述目标对象的目标情感类别。

42、为实现上述目的，本技术实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

43、为实现上述目的，本技术实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

44、本技术提出的基于语音和文本的情感识别方法和装置、设备、存储介质,,可以应用于金融科技领域，其通过获取目标对象的原始音频数据和原始文本数据，对所述原始音频数据进行音频特征提取得到初步音频特征，对所述原始文本数据进行文本特征提取得到初步词汇特征，对所述初步音频特征进行线性变换得到音频特征组，对所述初步词汇特征进行线性变换得到词汇特征组，并根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征，根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征，再将所述目标音频特征和所述目标词汇特征进行拼接得到音频词汇融合特征，从而根据所述音频词汇融合特征进行情感识别得到所述目标对象的目标情感类别，从而可以提高情感识别的准确率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张旭龙王健宗程宁
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种一体化智能安防灯具及其应用的制作方法
上一篇：一种实弹射击视频精准报靶自动校靶方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。