本公开涉及人工智能,尤其涉及一种语音情感识别方法、装置、电子设备及存储介质。
背景技术:
1、随着人工智能技术的发展,情感识别在各领域中得到了广泛的应用。目前,相关技术中,在进行情感识别时,通常采用的识别方法是,对音频进行语音识别得到对应的转录文本,根据转录文本的文本特征识别出音频中的情感信息。
2、可见,现有的情感识别方式仅考虑了文本内容这一模态的信息,存在情感识别结果的准确性不高的问题。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种语音情感识别方法、装置、电子设备及存储介质。
2、根据本公开的一方面,提供了一种语音情感识别方法,包括:
3、获取待识别的音频数据以及所述音频数据对应的文本数据;
4、获取所述音频数据中每个音频帧对应的音频特征,以及所述文本数据中每个字对应的文本特征;
5、根据所述音频数据和所述文本数据,确定所述音频数据对应的对齐矩阵,其中,所述对齐矩阵中第i行j列的元素值为1表示第i个音频帧属于第j个字,i的取值为1~n,j的取值为1~m,n表示所述音频帧的总数,m表示所述音频数据中包含的字的总数;
6、基于所述对齐矩阵、所述每个音频帧对应的音频特征,确定所述音频数据对应的音频表征矩阵;
7、根据所述音频表征矩阵、所述文本特征构成的文本表征矩阵,确定所述音频数据对应的多模态表征向量;
8、基于所述多模态表征向量进行情感识别,得到情感识别结果。
9、根据本公开的另一方面,提供了一种语音情感识别装置,包括:
10、第一获取模块,用于获取待识别的音频数据以及所述音频数据对应的文本数据;
11、第二获取模块,用于获取所述音频数据中每个音频帧对应的音频特征,以及所述文本数据中每个字对应的文本特征;
12、第一确定模块,用于根据所述音频数据和所述文本数据,确定所述音频数据对应的对齐矩阵,其中,所述对齐矩阵中第i行j列的元素值为1表示第i个音频帧属于第j个字,i的取值为1~n,j的取值为1~m,n表示所述音频帧的总数,m表示所述音频数据中包含的字的总数;
13、第二确定模块,用于基于所述对齐矩阵、所述每个音频帧对应的音频特征,确定所述音频数据对应的音频表征矩阵;
14、第三确定模块,用于根据所述音频表征矩阵、所述文本特征构成的文本表征矩阵,确定所述音频数据对应的多模态表征向量;
15、识别模块,用于基于所述多模态表征向量进行情感识别,得到情感识别结果。
16、根据本公开的另一方面,提供了一种电子设备,包括:
17、处理器;以及
18、存储程序的存储器,
19、其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据前述一方面所述的语音情感识别方法。
20、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据前述一方面所述的语音情感识别方法。
21、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述一方面所述的语音情感识别方法。
22、本公开实施例中提供的一个或多个技术方案,通过获取待识别的音频数据以及音频数据对应的文本数据,并获取音频数据中每个音频帧对应的音频特征,以及文本数据中每个字对应的文本特征,以及根据音频数据和文本数据,确定音频数据对应的对齐矩阵,接着基于对齐矩阵、每个音频帧对应的音频特征,确定音频数据对应的音频表征矩阵,并根据音频表征矩阵、文本特征构成的文本表征矩阵,确定音频数据对应的多模态表征向量,进而基于多模态表征向量进行情感识别,得到情感识别结果。采用本公开的方案,通过利用对齐矩阵来提取每个字对应的音频特征,实现了以字为单位的细粒度特征识别,并将音频表征与文本表征进行融合来确定音频数据对应的多模态表征向量用于情感识别,实现了音频模态和文本模态的交互融合,从而能够提高语音情感识别的准确度。
1.一种语音情感识别方法,其中,所述方法包括:
2.如权利要求1所述的语音情感识别方法,其中,所述基于所述对齐矩阵、所述每个音频帧对应的音频特征,确定所述音频数据对应的音频表征矩阵,包括:
3.如权利要求2所述的语音情感识别方法,其中,所述根据所述目标音频帧对应的目标音频特征,确定所述当前遍历到的字对应的融合音频特征,包括:
4.如权利要求1所述的语音情感识别方法,其中,所述根据所述音频表征矩阵、所述文本特征构成的文本表征矩阵,确定所述音频数据对应的多模态表征向量,包括:
5.如权利要求4所述的语音情感识别方法,其中,所述获取所述音频表征矩阵对应的音频权重矩阵,以及所述文本特征构成的文本表征矩阵对应的文本权重矩阵,包括:
6.如权利要求4所述的语音情感识别方法,其中,所述根据所述加权音频表征矩阵和所述加权文本表征矩阵,确定所述音频数据对应的多模态表征向量,包括:
7.如权利要求6所述的语音情感识别方法,其中,所述基于所述融合多模态表征矩阵,确定所述音频数据对应的多模态表征向量,包括:
8.一种语音情感识别装置,其中,所述装置包括:
9.一种电子设备,包括:
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的语音情感识别方法。