本技术涉及人工智能,具体而言,涉及一种确定音频情感及生成数字人视频的方法、装置、相关产品。
背景技术:
1、随着科学技术的不断发展,人工智能开始从功能交互转向情感交互,进行情感交互的前提是识别情感。
2、音频作为承载情感的核心载体,是情感识别的重要对象之一。如何从音频中精准的识别情感类别尤其重要。
技术实现思路
1、本技术实施例的目的在于提供一种确定音频情感及生成数字人视频的方法、装置、相关产品,用以解决相关技术存在着的,无法精准提取音频的情感类别的问题。
2、本技术实施例提供了一种确定音频情感的方法,包括:获取音频数据;针对所述音频数据中的每一音频帧:提取该音频帧的音调特征、音量特征、语调特征和mfcc特征;融合所述音调特征、所述音量特征、所述语调特征和所述mfcc特征,获得该音频帧的情感特征向量;根据每一音频帧的所述情感特征向量利用预设的目标情感分类模型确定所述音频数据的情感类别。
3、在上述实施方式中,考虑到情感会通过改变发声器官的生理状态,进而影响声道的滤波特性。例如:用户在情绪低落时,声道肌肉会较为松弛,使得声道变宽、缩短,从而频谱能量更加集中在低频区,频谱包络变得平缓。用户在情绪高涨时,声道肌肉张力增加,使得声道变窄、拉长,从而频谱包络的峰值会整体向高频移动,使得频谱的“形状”变得更加陡峭。同时,考虑到用户的情绪在变化时,说话的音调、音量和语调都会发生变化。通过每一音频帧的音调特征、音量特征、语调特征和mfcc特征,来判断音频数据的情感类别,考虑了较多的影响音频情感变化的因素,从而使得提取音频的情感类别更加精准。
4、进一步的,根据每一音频帧的所述情感特征向量利用预设的目标情感分类模型确定所述音频数据的情感类别,包括:获取所述音频数据对应的音频文本;将所述音频文本和每一音频帧的所述情感特征向量进行融合,获得融合向量;利用所述目标情感分类模型对所述融合向量进行识别,获得所述音频数据的情感类别。
5、在上述实施方式中,考虑到音频数据对应的说话内容也会反映出一定的情感倾向,通过结合音频文本和情感特征向量,获得融合向量;融合向量能够更准确的反映出音频数据的情感,从而确定出来的音频数据的情感类别更加准确。
6、进一步的,将所述音频文本和每一音频帧的所述情感特征向量进行融合,获得融合向量,包括:将所述音频文本编码为若干个维度相同的第一令牌;将各所述情感特征向量分别编码为与所述第一令牌的维度相同的第二令牌;对各所述第一令牌和各所述第二令牌进行融合,获得融合向量。
7、在上述实施方式中,通过将情感特征向量编码为第二令牌,可以压缩信息并保留关键内容,以减少计算量。同时,将情感特征向量编码为与第一令牌的维度相同的第二令牌,能够进行语义对齐,使得第一令牌和第二令牌的融合更方便。
8、进一步的,对各所述第一令牌和各所述第二令牌进行融合,获得融合向量,包括:按照时间顺序将各所述第一令牌整合为文本令牌特征序列;按照时间顺序将各所述第二令牌整合为音频令牌特征序列;将所述音频令牌特征序列和所述文本令牌特征序列输入第一预设大语言模型,获得融合向量。
9、在上述实施方式中,按时间顺序将音频令牌特征序列与文本令牌特征序列共同输入大语言模型,大语言模型可以同时关注音频文本和音频数据的上下文,从而实现更全面的长程多模态特征融合。
10、进一步的,所述音调特征包括基频,所述音量特征包括声学能量,所述语调特征包括振幅包络;融合所述音调特征、所述音量特征、所述语调特征和所述mfcc特征,获得音频帧的情感特征向量,包括:融合所述基频、所述声学能量和所述振幅包络,获得基础情感特征;融合所述基础情感特征和所述mfcc特征,获得音频帧的情感特征向量。
11、在上述实施方式中,考虑到基频能够反映音调特征,声学能量能够反映音量特征,振幅包络能够反映语调特征。通过融合基频、声学能量、振幅包络和mfcc特征,获得的情感特征向量,能够准确的反映音频的情感。
12、进一步的,所述目标情感分类模型通过以下方式获得:获取样本集;所述样本集中包括作为正样本的带有目标情感类别标签的音频数据,作为负样本的带有备选情感类别标签的音频数据;所述目标情感类别标签与所述备选情感类别标签不同;利用所述样本集使用对比学习对预设的样本分类模型进行训练,获得所述目标情感分类模型。
13、在上述实施方式中,通过对比学习的方式对样本分类模型进行训练,可以有效将同一情感类别的情感特征向量和其他情感类别的情感特征向量区分开来,从而获得的目标情感分类模型能够更准确的识别情感特征向量的情感类别。
14、本技术实施例提供了一种生成数字人视频的方法,包括:获取目标数字人的图像、音频数据和基于上述确定音频情感的方法获得的所述音频数据的情感类别;将所述图像、所述音频数据和所述音频数据的情感类别输入预设的高效情感自适应eat模型,获得带有所述音频数据的情感类别的数字人说话视频。
15、目前,在生成数字人视频的过程中,通常直接给定一个情感,以使视频中的数字人在说话过程中,面部能够携带该情感。但是,一句音频中往往夹着多种情感,并且情感会跟随说话内容的不同不断产生变化。通过直接给定一个情感的方式,会使得数字人视频中数字人的面部表情与说话内容不匹配。上述实施方式中,通过从音频数据中提取情感类别,并将该情感类别用于引导数字人的面部情感,能够使得数字人视频中数字人的面部表情与说话内容匹配。
16、本技术实施例提供了一种确定音频情感的装置,包括:第一获取模块,用于获取音频数据;提取模块,针对所述音频数据中的每一音频帧:提取该音频帧的音调特征、音量特征、语调特征和mfcc特征;融合所述音调特征、所述音量特征、所述语调特征和所述mfcc特征,获得该音频帧的情感特征向量;情感判断模块,用于根据各所述情感特征向量利用预设的目标情感分类模型确定所述音频数据的情感类别。
17、本技术实施例提供了一种生成数字人视频的装置,包括:第二获取模块,用于获取目标数字人的图像、音频数据和基于上述确定音频情感的方法获得的所述音频数据的情感类别;生成模块,用于将所述图像、所述音频数据和所述音频数据的情感类别输入预设的eat模型,获得带有所述音频数据的情感类别的数字人说话视频。
18、本技术实施例提供了一种电子设备,包括:处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述的确定音频情感的方法,或上述的生成数字人视频的方法。
19、本技术实施例提供了一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令在被主控处理器调用和执行时,所述计算机可执行指令使得所述主控处理器实现上述的确定音频情感的方法,或上述的生成数字人视频的方法。
20、本技术实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被主控处理器执行时实现上述的确定音频情感的方法,或上述的生成数字人视频的方法。
21、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本技术。