本发明涉及数字人,尤其涉及一种数字人物形象的生成方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、数字人物形象生成算法的一个重要的应用场景为完成数字人物的语音播报,其中,采用的ai(artificial intelligence,人工智能)算法自动生成能够说话的数字人物形象,并且形成连续的口型正确的视频。
2、在上述的方案中,为了增强虚拟数字人物的表现力,通常在语音播报的视频中随机地加入眨眼、歪头等动作,以使虚拟数字人物的形象更加真实。但是数字人物仍缺乏情感上的表现力,导致数字人物形象较为呆板,缺乏真实感。
技术实现思路
1、本发明所要解决的技术问题是针对现有技术的上述不足,提供一种数字人物形象的生成方法、装置、电子设备及计算机可读存储介质,以至少解决相关技术中存在的数字人物形象较为呆板,缺乏真实感的问题。
2、第一方面,本发明提供一种数字人物形象的生成方法,包括:获取数字人物目标情感的综合得分序列;将目标情感的综合得分序列生成生成对抗网络gan隐空间矢量;基于gan隐空间矢量合成数字人物形象视频的各帧,并与音频同步,以得到数字人物形象。
3、优选地,所述获取数字人物目标情感的综合得分序列,具体包括:获取数字人物播报文本对应的目标情感的得分,并获取数字人物播报语音对应的目标情感的得分;比对播报文本对应的目标情感的得分和播报语音对应的目标情感的得分,并基于插值模型算法,计算目标情感的综合得分;将目标情感的综合得分生成目标情感的综合得分序列。
4、优选地,所述获取数字人物播报文本对应的目标情感的得分,具体包括:获取数字人物播报文本;采用文本情感分析模型计算数字人物播报文本对应的目标情感的得分。
5、优选地,所述获取数字人物播报语音对应的目标情感的得分,具体包括:获取数字人物播报语音;采用语音情感分析模型计算数字人物播报语音对应的目标情感的得分。
6、优选地,在所述计算目标情感的综合得分之后,以及在所述将目标情感的综合得分生成目标情感的综合得分序列之前,所述方法还包括:生成播报文本对应的目标情感的得分序列,以使文本情感分析模型根据播报文本对应的目标情感的得分序列更新文本情感分析模型的参数;生成播报语音对应的目标情感的得分序列,以使语音情感分析模型根据播报语音对应的目标情感的得分序列更新语音情感分析模型的参数;获取更新后的文本情感分析模型和语音情感分析模型分别计算的目标情感的得分,并更新目标情感的综合得分。
7、优选地,目标情感包括以下至少之一:微笑、紧张、愤怒、无奈、担忧。
8、优选地,所述将目标情感的综合得分序列生成gan隐空间矢量,具体包括:针对每个目标情感的综合得分序列,采用n个通道计算方式分别生成相应的隐空间矢量,n为大于2的正整数;对n个通道进行评判评分,以选择出评分排序靠前的m个通道,m为小于n且大于1的正整数;对选择出的m个通道的隐空间矢量加权平均,以得到每个目标情感的gan隐空间矢量。
9、第二方面,本发明还提供一种数字人物形象的生成装置,包括:获取模块,用于获取数字人物目标情感的综合得分序列。生成模块,与获取模块连接,用于将目标情感的综合得分序列生成gan隐空间矢量。合成模块,与生成模块连接,用于基于gan隐空间矢量合成数字人物形象视频的各帧,并与音频同步,以得到数字人物形象。
10、优选地,获取模块包括第一获取单元、第一计算单元和第一生成单元。
11、第一获取单元,用于获取数字人物播报文本对应的目标情感的得分,并获取数字人物播报语音对应的目标情感的得分。
12、第一计算单元,与第一获取单元连接,用于比对播报文本对应的目标情感的得分和播报语音对应的目标情感的得分,并基于插值模型算法,计算目标情感的综合得分。
13、第一生成单元,与第一计算单元连接,用于将目标情感的综合得分生成目标情感的综合得分序列。
14、优选地,目标情感包括以下至少之一:微笑、紧张、愤怒、无奈、担忧。生成模块包括第二生成单元、选择单元和第二计算单元。
15、第二生成单元,用于针对每个目标情感的综合得分序列,采用n个通道计算方式分别生成相应的隐空间矢量,n为大于2的正整数。
16、选择单元,与第二生成单元连接,用于对n个通道进行评判评分,以选择出评分排序靠前的m个通道,m为小于n且大于1的正整数。
17、第二计算单元,与选择单元连接,用于对选择出的m个通道的隐空间矢量加权平均,以得到每个目标情感的gan隐空间矢量。
18、第三方面,本发明还提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现如第一方面所述的数字人物形象的生成方法。
19、第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的数字人物形象的生成方法。
20、本发明提供的数字人物形象的生成方法、装置、电子设备及计算机可读存储介质,通过获取数字人物需要表现的目标情感的综合得分序列,并将目标情感的综合得分序列生成gan隐空间矢量,基于gan隐空间矢量合成数字人物形象视频的各帧,并与音频同步,以得到真实表现目标情感的数字人物形象。由于获取的是目标情感的综合得分,使得目标情感数据更为准确,从而使得数字人物形象更加真实。
1.一种数字人物形象的生成方法,其特征在于,包括:
2.根据权利要求1所述的数字人物形象的生成方法,其特征在于,所述获取数字人物目标情感的综合得分序列,具体包括:
3.根据权利要求2所述的数字人物形象的生成方法,其特征在于,所述获取数字人物播报文本对应的目标情感的得分,具体包括:
4.根据权利要求3所述的数字人物形象的生成方法,其特征在于,在所述计算目标情感的综合得分之后,以及在所述将目标情感的综合得分生成目标情感的综合得分序列之前,还包括:
5.根据权利要求1所述的数字人物形象的生成方法,其特征在于,目标情感包括以下至少之一:微笑、紧张、愤怒、无奈、担忧,
6.一种数字人物形象的生成装置,其特征在于,包括:
7.根据权利要求6所述的数字人物形象的生成装置,其特征在于,获取模块包括第一获取单元、第一计算单元和第一生成单元,
8.根据权利要求6所述的数字人物形象的生成装置,其特征在于,目标情感包括以下至少之一:微笑、紧张、愤怒、无奈、担忧,
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现如权利要求1-5任一项所述的数字人物形象的生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-5任一项所述的数字人物形象的生成方法。