音频情感识别方法、装置、设备、存储介质及产品与流程

文档序号:32350601发布日期:2022-11-26 12:53阅读:来源:国知局

技术特征:
1.一种音频情感识别方法,其特征在于,所述方法包括:获取待处理音频数据以及所述待处理音频数据对应的音频文本;基于所述待处理音频数据和所述音频文本进行特征提取处理,得到所述待处理音频数据对应的第一音频特征和所述待处理音频数据对应的第二音频特征,所述第一音频特征是基于所述待处理音频数据中每一音频帧对应的音频表征数据融合生成的,所述第二音频特征是基于所述音频文本中每一语料单元对应的音频表征数据融合生成的;对所述第一音频特征和所述第二音频特征进行融合处理,得到所述待处理音频数据对应的融合音频特征;基于所述融合音频特征进行情感识别处理,得到所述待处理音频数据对应的情感类型信息。2.根据权利要求1所述的方法,其特征在于,所述基于所述待处理音频数据和所述音频文本进行特征提取处理,得到所述待处理音频数据对应的第一音频特征和所述待处理音频数据对应的第二音频特征,包括:基于所述待处理音频数据和所述音频文本进行特征提取处理,得到每一所述音频帧对应的音频表征数据,以及每一所述语料单元对应的音频表征数据;对每一所述音频帧对应的音频表征数据进行融合处理,得到所述第一音频特征;对每一所述语料单元对应的音频表征数据进行融合处理,得到所述第二音频特征。3.根据权利要求2所述的方法,其特征在于,所述基于所述待处理音频数据和所述音频文本进行特征提取处理,得到每一所述音频帧对应的音频表征数据,以及每一所述语料单元对应的音频表征数据,包括:对所述待处理音频数据进行音频特征提取处理,得到每一所述音频帧对应的音频表征数据;对所述音频文本进行文本特征提取处理,得到每一所述语料单元对应的文本表征数据;基于每一所述音频帧对应的音频表征数据和每一所述语料单元对应的文本表征数据,进行跨模态特征对齐处理,得到每一所述语料单元对应的音频表征数据。4.根据权利要求3所述的方法,其特征在于,所述基于每一所述音频帧对应的音频表征数据和每一所述语料单元对应的文本表征数据,进行跨模态特征对齐处理,得到每一所述语料单元对应的音频表征数据,包括:遍历每一所述语料单元;将遍历到的语料单元对应的文本表征数据与每一所述音频帧对应的音频表征数据进行基于注意力机制的交叉融合处理,得到所述遍历到的语料单元对应的音频表征数据;响应于遍历结束,得到每一所述语料单元对应的音频表征数据。5.根据权利要求4所述的方法,其特征在于,所述将遍历到的语料单元对应的文本表征数据与每一所述音频帧对应的音频表征数据进行基于注意力机制的交叉融合处理,得到所述遍历到的语料单元对应的音频表征数据,包括:将所述遍历到的语料单元对应的文本表征数据作为检索信息;将每一所述音频帧对应的音频表征数据作为键信息和值信息;基于所述检索信息、所述键信息和所述值信息,进行所述基于注意力机制的交叉融合
处理,得到所述遍历到的语料单元对应的音频表征数据。6.根据权利要求1至5任一项所述的方法,其特征在于,所述情感类型信息是目标情感识别模型根据所述待处理音频数据和所述音频文本输出的模型识别结果,所述目标情感识别模型对应的训练过程包括:获取样本音频数据、所述样本音频数据对应的样本音频文本以及所述样本音频数据对应的标签信息;将所述样本音频数据和所述样本音频文本输入预设情感识别模型进行情感识别处理,得到所述样本音频数据对应的情感类型信息;基于所述标签信息和所述样本音频数据对应的情感类型信息,确定情感识别损失信息;基于所述情感识别损失信息,对所述预设情感识别模型进行参数调整处理,得到所述目标情感识别模型。7.根据权利要求6所述的方法,其特征在于,所述预设情感识别模型包括音频编码器、文本编码器、跨模态语义提取模型以及情感分类模型,所述将所述样本音频数据和所述样本音频文本输入预设情感识别模型进行情感识别处理,得到所述样本音频数据对应的情感类型信息,包括:将所述样本音频数据输入所述音频编码器进行音频特征提取处理,得到所述样本音频数据中每一样本音频帧对应的音频表征数据;将所述样本音频文本输入所述文本编码器进行文本特征提取处理,得到所述样本音频文本中每一样本语料单元对应的文本表征数据;将每一所述样本音频帧对应的音频表征数据和每一样本语料单元对应的文本表征数据输入所述跨模态语义提取模型进行跨模态特征对齐处理,得到每一所述样本语料单元对应的音频表征数据;对每一所述样本音频帧对应的音频表征数据进行融合处理,得到所述样本音频数据对应的第三音频特征;对每一所述样本语料单元对应的音频表征数据进行融合处理,得到所述样本音频数据对应的第四音频特征;对所述第三音频特征和所述第四音频特征进行融合处理,得到所述样本音频数据对应的融合音频特征;将所述样本音频数据对应的融合音频特征输入所述情感分类模型进行情感分类处理,得到所述样本音频数据对应的情感类型信息。8.根据权利要求7所述的方法,其特征在于,所述基于所述情感识别损失信息,对所述预设情感识别模型进行参数调整处理,得到所述目标情感识别模型之前,还包括:对每一所述样本语料单元对应的文本表征数据进行融合处理,得到所述样本音频文本对应的文本特征;基于所述文本特征和所述第四音频特征,确定特征距离损失信息;所述基于所述情感识别损失信息,对所述预设情感识别模型进行参数调整处理,得到所述目标情感识别模型,包括:基于所述情感识别损失信息和所述特征距离损失信息,对所述预设情感识别模型进行
参数调整处理,得到所述目标情感识别模型。9.一种音频情感识别装置,其特征在于,所述装置包括:音频信息获取模块,用于获取待处理音频数据以及所述待处理音频数据对应的音频文本;音频特征提取模块,用于基于所述待处理音频数据和所述音频文本进行特征提取处理,得到所述待处理音频数据对应的第一音频特征和所述待处理音频数据对应的第二音频特征,所述第一音频特征是基于所述待处理音频数据中每一音频帧对应的音频表征数据融合生成的,所述第二音频特征是基于所述音频文本中每一语料单元对应的音频表征数据融合生成的;音频特征融合模块,用于对所述第一音频特征和所述第二音频特征进行融合处理,得到所述待处理音频数据对应的融合音频特征;音频情感识别模块,用于基于所述融合音频特征进行情感识别处理,得到所述待处理音频数据对应的情感类型信息。10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的音频情感识别方法。11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的音频情感识别方法。12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现如权利要求1至8任一项所述的音频情感识别方法。

技术总结
本申请公开了一种音频情感识别方法、装置、设备、存储介质及产品,属于计算机技术领域。所述方法包括:获取待处理音频数据以及待处理音频数据对应的音频文本;基于待处理音频数据和音频文本进行特征提取处理,得到待处理音频数据对应的第一音频特征和待处理音频数据对应的第二音频特征;对第一音频特征和第二音频特征进行融合处理,得到待处理音频数据对应的融合音频特征;基于融合音频特征进行情感识别处理,得到待处理音频数据对应的情感类型信息。本申请实施例提供的技术方案,能够有效降低音频情感识别对自动语音识别精度的依赖程度,提升音频情感识别的稳定性和准确性。提升音频情感识别的稳定性和准确性。提升音频情感识别的稳定性和准确性。


技术研发人员:林炳怀 王丽园
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.08.24
技术公布日:2022/11/25
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1