本技术涉及人工智能,适用于金融科技领域及医疗健康领域,尤其涉及一种语音情感识别方法和装置、电子设备、存储介质。
背景技术:
1、语音情感识别方法是指通过分析和解码语音信号中的情感信息,以识别说话者的情绪状态的技术。语音情感识别方法能够应用在金融科技领域中的智能客服、语音助手等场景。例如,在智能客服场景,对客户的语音进行情感识别,目的是分析客户的情绪类别(如愤怒、沮丧、快乐等),帮助客服及时调整沟通方式,以应对客户的情感需求。语音情感识别方法能够应用在医疗健康领域中的心理健康监测等场景。例如,在心理健康监测场景,对监测对象的语音进行情感识别,目的是分析监测对象的情绪类别,帮助医生等情绪管理者能够及时管理监测对象的心理状态,预防出现心理疾病或促进心理疾病缓解。
2、现有的语音情感识别方法通常仅依赖单一模态的语音信号进行情感识别,而忽略了文本等其他模态信息的辅助作用。即使是考虑了文本等其他模态信息,但也只是将说话内容文本和语音进行简单融合,无法有效实现多模态信息融合,情感识别准确性仍较低。尤其是在噪声干扰或语音质量较差的情况(比如用户在如地铁、街道等嘈杂的环境中拨打客服电话的情况)下,情感识别效果显著下降。
3、因此,相关技术存在语音情感识别准确性较低的问题。
技术实现思路
1、本技术实施例的主要目的在于提出一种语音情感识别方法和装置、电子设备、存储介质,能够提高语音情感识别准确性,适用性较高,比如能够适用于在噪声干扰或语音质量较差的情况。
2、为实现上述目的,本技术实施例的第一方面提出了一种语音情感识别方法,所述方法包括:
3、获取目标客户与目标客服之间的当前对话语音,并对所述当前对话语音的当前客户语音进行语音特征提取,得到初始语音特征;其中,所述当前客户语音为所述目标客户的语音;
4、获取所述当前客户语音的目标文本,并对所述目标文本进行文本特征提取,得到目标文本特征;其中,所述目标文本为所述当前客户语音的语音内容;
5、获取所述目标客户与所述目标客服之间的历史对话语音,并对所述历史对话语音进行特征提取,得到辅助文本特征;
6、根据所述目标文本特征对所述初始语音特征进行文本语音对齐,得到目标语音对齐特征;
7、对所述目标语音对齐特征进行分块,得到语音情感特征块;
8、对所述语音情感特征块进行交叉注意力融合,得到目标语音情感特征;
9、通过预设的大语言模型对所述目标语音情感特征、所述目标文本特征和所述辅助文本特征进行情感分类。
10、可选地,所述语音情感特征块构成有序特征块序列;所述对所述语音情感特征块进行交叉注意力融合,得到目标语音情感特征,包括:
11、对所述有序特征块序列中的每一所述语音情感特征块进行自注意力处理,得到情感自交互特征块;
12、获取所述有序特征块序列中每一所述语音情感特征块的相邻特征块,得到情感特征块组合;其中,每一所述情感特征块组合包括一个所述语音情感特征块和所述语音情感特征的相邻特征块;
13、根据每一所述情感特征块组合中的所述语音情感特征块和所述相邻特征块进行交互注意力处理,得到情感跨块交互特征;
14、根据所述情感自交互特征块和所述情感跨块交互特征进行特征融合,得到情感跨注意力特征块;
15、根据所述情感跨注意力特征块进行特征融合,得到所述目标语音情感特征。
16、可选地,所述根据每一所述情感特征块组合中的所述语音情感特征块和所述相邻特征块进行交互注意力处理,得到情感跨块交互特征,包括:
17、将预设的语音情感查询权重矩阵与所述语音情感特征块进行相乘,得到语音情感块查询向量;
18、将预设的语音情感关键权重矩阵与所述相邻特征块进行相乘,得到语音情感块关键向量;
19、将预设的语音情感值权重矩阵与所述相邻特征块进行相乘,得到语音情感块值向量;
20、根据所述语音情感块查询向量、所述语音情感块关键向量和所述语音情感块值向量进行向量融合,得到所述情感跨块交互特征。
21、可选地,在所述根据每一所述情感特征块组合中的所述语音情感特征块和所述相邻特征块进行交互注意力处理,得到情感跨块交互特征之后,所述方法还包括:
22、对所述语音情感特征块进行关键词检测,得到语音关键词;
23、根据所述语音关键词与预设的参考关键词进行匹配,得到匹配关键词;
24、根据所述匹配关键词,确定注意力交互权重;
25、根据所述注意力交互权重更新所述情感跨块交互特征。
26、可选地,所述根据所述目标文本特征对所述初始语音特征进行文本语音对齐,得到目标语音对齐特征,包括:
27、将预设的跨模态查询权重矩阵与所述初始语音特征进行相乘,得到语音情感对齐查询向量;
28、将预设的跨模态关键权重矩阵与所述目标文本特征进行相乘,得到文本情感对齐关键向量;
29、将预设的跨模态值权重矩阵与所述目标文本特征进行相乘,得到文本情感对齐值向量;
30、对所述语音情感对齐查询向量和所述文本情感对齐关键向量进行权重计算,得到跨模态对齐注意力分数;
31、对所述跨模态对齐注意力分数进行非线性激活处理,得到语音情感对齐权重向量;
32、对所述语音情感对齐权重向量和所述文本情感对齐值向量进行加权求和,得到所述目标语音对齐特征。
33、可选地,通过预设的大语言模型对所述目标语音情感特征、所述目标文本特征和所述辅助文本特征进行情感分类,包括:
34、根据所述目标语音情感特征和所述目标文本特征进行语音文本融合,得到语音文本情感交互特征;
35、根据所述目标文本特征和所述辅助文本特征进行特征融合,得到文本情感关键特征;
36、根据所述语音文本情感交互特征和所述文本情感关键特征进行交互注意力处理,得到目标多模态情感特征;
37、通过预设的大语言模型对所述目标多模态情感特征进行情感分类,得到目标情感类别。
38、可选地,所述对所述目标语音对齐特征进行分块,得到语音情感特征块,包括:
39、对所述当前客户语音进行切割点检测,得到分块切割点;其中,所述分块切割点包括以下至少一个:静音点和话轮切换点;
40、根据所述分块切割点的时间戳与所述目标语音对齐特征的语音时间戳进行匹配,得到匹配切割时间戳;
41、根据每相邻两个所述匹配切割时间戳对所述目标语音对齐特征进行特征区间划分,得到所述语音情感特征块。
42、为实现上述目的,本技术实施例的第二方面提出了一种语音情感识别装置,所述装置包括:
43、语音特征提取模块,用于获取目标客户与目标客服之间的当前对话语音,并对所述当前对话语音的当前客户语音进行语音特征提取,得到初始语音特征;其中,所述当前客户语音为所述目标客户的语音;
44、文本特征提取模块,用于获取所述当前客户语音的目标文本,并对所述目标文本进行文本特征提取,得到目标文本特征;其中,所述目标文本为所述当前客户语音的语音内容;
45、辅助特征提取模块,用于获取所述目标客户与所述目标客服之间的历史对话语音,并对所述历史对话语音进行特征提取,得到辅助文本特征;
46、文本语音对齐模块,用于根据所述目标文本特征对所述初始语音特征进行文本语音对齐,得到目标语音对齐特征;
47、特征分块模块,用于对所述目标语音对齐特征进行分块,得到语音情感特征块;
48、特征融合模块,用于对所述语音情感特征块进行交叉注意力融合,得到目标语音情感特征;
49、情感分类模块,用于通过预设的大语言模型对所述目标语音情感特征、所述目标文本特征和所述辅助文本特征进行情感分类。
50、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的语音情感识别方法。
51、为实现上述目的,本技术实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的语音情感识别方法。
52、本技术提出的语音情感识别方法和装置、电子设备、存储介质,先基于当前对话语音提取出初始语音特征,并基于当前客户语音的目标文本提取出目标文本特征,还额外基于历史对话语音提取出辅助文本特征。进一步地,先根据目标文本特征对初始语音特征进行文本语音对齐,再对目标语音对齐特征进行分块,得到语音情感特征块,这样,每一语音情感特征块与目标文本特征的维度呈线性关系,保留文本语音对齐特点。进一步地,对语音情感特征块进行交叉注意力融合,得到目标语音情感特征,该目标语音情感特征能够指示语音上下文情感信息,能降低因存在背景噪声或语音质量较差对情感识别的影响。最后,通过预设的大语言模型对目标语音情感特征、目标文本特征和辅助文本特征进行情感分类,通过结合文本模态实现语音情感分类,进一步提高了准确性。综上,本技术能够提高语音情感识别准确性,适用性较高,比如能够适用于在噪声干扰或语音质量较差的情况。
53、本技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。