本技术涉及人工智能,更具体的说,涉及一种生成虚拟人动画视频的方法、装置及存储介质。
背景技术:
1、目前,拥有人物形象的虚拟人通常有两种驱动方式,分别是三维建模制作和表演驱动。三维建模制作是指在三维模型软件里对人物进行建模,且人物的每一个动作和表情都需要建模师通过建模软件重新雕刻。表演驱动是利用精密的动作捕捉设备将人类表演者的动作准确记录下来,然后移植到虚拟人的3d模型上。
2、但是,三维建模制作需要的人力成本非常高,表演驱动使用的动作捕捉设备的成本也十分高昂,如此导致虚拟人动画视频的制作成本非常高。因此,如何降低虚拟人动画视频的制作成本成为亟需解决的技术问题。
技术实现思路
1、有鉴于此,本技术实施例公开一种生成虚拟人动画视频的方法、装置及存储介质,以降低虚拟人动画视频的制作成本。
2、本技术实施例提供的技术方案如下:
3、本技术实施例第一方面提供了一种生成虚拟人动画视频的方法,所述方法包括:
4、将第一音频特征、第一人脸视频帧和第一情绪标签输入预先训练好的生成对抗网络中,生成第二人脸视频帧;其中,所述第一音频特征通过对第一音频数据进行特征提取得到,所述第一人脸视频帧通过对第一图像视频帧进行裁剪得到,所述生成对抗网络通过视频训练数据集和情绪标签集训练得到,所述第二人脸视频帧中虚拟人的表情和所述第一情绪标签一致,所述第二人脸视频帧中虚拟人的口型和所述第一音频数据匹配;
5、从所述第一人脸视频帧中获取第一三维形态模型3dmm参数;
6、从所述第二人脸视频帧中获取第二3dmm参数;
7、利用所述第一3dmm参数和所述第二3dmm参数进行人脸重建,得到第一3d人脸模型;
8、将所述第一3d人脸模型投影渲染成对应的第一2d人脸图像;
9、将所述第一2d人脸图像输入预先训练好的神经渲染网络中,得到第二2d人脸图像;
10、将所述第二2d人脸图像和所述第一图像视频帧进行融合,得到融合视频帧;
11、将所述融合视频帧与所述第一音频数据进行拼接,得到虚拟人动画视频。
12、在一种可能的实现方式中,所述从所述第一人脸视频帧中获取第一三维形态模型3dmm参数,包括:
13、从所述第一人脸视频帧中获取第一纹理系数、第一几何系数、第一姿态系数和第一光照系数;
14、从所述第二人脸视频帧中获取第二3dmm参数,包括:
15、从所述第二人脸视频帧中获取第二表达系数;
16、利用所述第一3dmm参数和所述第二3dmm参数进行人脸重建,得到第一3d人脸模型,包括:
17、利用所述第一纹理系数、所述第一几何系数、所述第一姿态系数、所述第一光照系数和所述第二表达系数进行人脸重建,得到第一3d人脸模型。
18、在一种可能的实现方式中,所述将所述第一2d人脸图像输入预先训练好的神经渲染网络中,得到第二2d人脸图像,包括:
19、对所述第一人脸视频帧进行人脸检测,确定所述第一人脸视频帧中的人脸区域;
20、将所述第一人脸视频帧中的人脸区域的像素设置为白色,将所述第一人脸视频帧中除人脸区域外的像素设置为黑色,得到第一掩膜图像;
21、利用所述第一掩膜图像对所述第一人脸视频帧进行掩膜处理,得到掩膜处理后的第一人脸视频帧;
22、利用所述第一掩膜图像对所述第一2d人脸图像进行掩膜处理,得到掩膜处理后的第一2d人脸图像;
23、将所述掩膜处理后的第一人脸视频帧和所述掩膜处理后的第一2d人脸图像输入预先训练好的神经渲染网络中,得到所述第二2d人脸图像。
24、在一种可能的实现方式中,所述方法还包括:
25、通过如下构建过程构建所述生成对抗网络:
26、对所述视频训练数据集进行信息提取,得到音频训练数据集和图像视频帧训练集;其中,所述音频训练数据集包括多条第二音频数据,所述图像视频帧训练集包括多个第二图像视频帧,所述情绪标签集包括多个第二情绪标签;
27、对所述第二音频数据进行特征提取,得到第二音频特征;
28、对所述第二图像视频帧进行裁剪,得到第三人脸视频帧;
29、将所述第二音频特征、所述第三人脸视频帧和所述第二情绪标签输入初始生成对抗网络中,得到第四人脸视频;
30、利用所述第二音频特征、所述第三人脸视频帧、所述第四人脸视频帧和所述第二情绪标签计算损失值;
31、利用所述损失值对所述初始生成对抗网络进行反向传播训练,得到训练好的所述生成对抗网络。
32、在一种可能的实现方式中,所述将所述第二音频特征、所述第三人脸视频帧和所述第二情绪标签输入初始生成对抗网络中,得到第四人脸视频,包括:
33、将所述第三人脸视频帧输入所述初始生成对抗网络的帧编码器中,得到人脸身份特征编码集;
34、将所述第二音频特征输入所述初始生成对抗网络的语音编码器中,得到音频特征编码集;
35、将所述第二情绪标签输入所述初始生成对抗网络的情绪编码器中,得到情绪特征编码集;
36、连接所述人脸身份特征编码集、所述音频特征编码集和所述情绪特征编码集,得到连接特征编码集;
37、将所述连接特征编码集输入所述初始生成对抗网络的解码器中,得到第四人脸视频帧。
38、在一种可能的实现方式中,所述利用所述第二音频特征、所述第三人脸视频帧、所述第四人脸视频帧和所述第二情绪标签计算损失值,包括:
39、将所述第三人脸视频帧和所述第四人脸视频帧输入所述初始生成对抗网络的帧鉴别器中,得到所述第三人脸视频帧对应的第一帧真假概率和所述第四人脸视频帧对应的第二帧真假概率;
40、将所述第四人脸视频帧和所述第二音频特征输入所述初始生成对抗网络的口型鉴别器中,得到口型同步概率;
41、将所述第四人脸视频帧输入所述初始生成对抗网络的情绪鉴别器中,得到情绪类别概率;
42、利用所述第一帧真假概率计算得到第一损失值;
43、利用所述第二帧真假概率计算得到第二损失值;
44、利用所述口型同步概率计算得到第三损失值;
45、利用所述情绪类别概率和所述第二情绪标签计算得到第四损失值。
46、在一种可能的实现方式中,所述方法还包括:
47、通过如下构建过程构建所述神经渲染网络:
48、从第三人脸视频帧中获取第三3dmm参数;
49、从第四人脸视频帧中获取第四3dmm参数;
50、利用第三3dmm参数和第四3dmm参数进行人脸重建,得到第二3d人脸模型;
51、对所述第三人脸视频帧进行人脸检测,确定所述第三人脸视频帧中的人脸区域;
52、将所述第三人脸视频帧中的人脸区域的像素设置为白色,将所述第三人脸视频帧中除人脸区域外的像素设置为黑色,得到第二掩膜图像;
53、利用所述第二掩膜图像对所述第三人脸视频帧进行掩膜处理,得到掩膜处理后的第三人脸视频帧;
54、将所述第二3d人脸模型投影渲染成对应的第三2d人脸图像;
55、利用所述第二掩膜图像对所述第三2d人脸图像进行掩膜处理,得到掩膜处理后的第三2d人脸图像;
56、利用所述掩膜处理后的第三人脸视频帧和所述掩膜处理后的第三2d人脸图像对初始神经渲染网路进行有监督训练,得到训练好的所述神经渲染网络。
57、第二方面,本技术实施例提供了一种生成虚拟人动画视频的装置,所述装置包括:
58、生成单元,用于将第一音频特征、第一人脸视频帧和第一情绪标签输入预先训练好的生成对抗网络中,生成第二人脸视频帧;其中,所述第一音频特征通过对第一音频数据进行特征提取得到,所述第一人脸视频帧通过对第一图像视频帧进行裁剪得到,所述生成对抗网络通过视频训练数据集和情绪标签集训练得到,所述第二人脸视频帧中虚拟人的表情和所述第一情绪标签一致,所述第二人脸视频帧中虚拟人的口型和所述第一音频数据匹配;
59、人脸重建单元,用于从所述第一人脸视频帧中获取第一三维形态模型3dmm参数;
60、所述人脸重建单元,还用于从所述第二人脸视频帧中获取第二3dmm参数;
61、所述人脸重建单元,还用于利用所述第一3dmm参数和所述第二3dmm参数进行人脸重建,得到第一3d人脸模型;
62、渲染单元,用于将所述第一3d人脸模型投影渲染成对应的第一2d人脸图像;
63、渲染单元,还用于将所述第一2d人脸图像输入预先训练好的神经渲染网络中,得到第二2d人脸图像;
64、融合单元,用于将所述第二2d人脸图像和所述第一图像视频帧进行融合,得到融合视频帧;
65、拼接单元,用于将所述融合视频帧与所述第一音频数据进行拼接,得到虚拟人动画视频。
66、第三方面,本技术实施例提供了一种生成虚拟人动画视频的装置,所述装置包括:处理器、存储器、系统总线;
67、所述处理器以及所述存储器通过所述系统总线相连;
68、所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行以上第一方面任一项所述的生成虚拟人动画视频的方法。
69、第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行以上第一方面任一项所述的生成虚拟人动画视频的方法。
70、第五方面,本技术实施例提供一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行以上第一方面任一项所述的生成虚拟人动画视频的方法。
71、基于上述技术方案,本技术具有以下有益效果:
72、从上述的技术方案可知,本技术实施例公开了一种生成虚拟人动画视频的方法、装置及存储介质。其中,该方法包括:将第一音频特征、第一人脸视频帧和第一情绪标签输入预先训练好的生成对抗网络中,生成第二人脸视频帧;其中,第一音频特征通过对第一音频数据进行特征提取得到,第一人脸视频帧通过对第一图像视频帧进行裁剪得到,生成对抗网络通过视频训练数据集和情绪标签集训练得到,第二人脸视频帧中虚拟人的表情和第一情绪标签一致,第二人脸视频帧中虚拟人的口型和第一音频数据匹配;从第一人脸视频帧中获取第一3dmm参数;从第二人脸视频帧中获取第二3dmm参数;利用第一3dmm参数和第二3dmm参数进行人脸重建,得到第一3d人脸模型;将第一3d人脸模型投影渲染成对应的第一2d人脸图像;将第一2d人脸图像输入预先训练好的神经渲染网络中,得到第二2d人脸图像;将第二2d人脸图像和第一图像视频帧进行融合,得到融合视频帧;将融合视频帧与第一音频数据进行拼接,得到虚拟人动画视频。可见,本技术实施例中通过预先训练好的生成对抗网络能生成带有情绪且口型匹配的第二人脸视频帧,使得无需额外的设备成本,也无需手工建模和细致雕刻,就能快速又有效地生成虚拟人动画视频,大大降低了虚拟人动画视频的制作成本。而且,通过第一3dmm参数和第二3dmm参数进行人脸重建,将低分辨率的人脸视频帧转换为密度更高的3d人脸模型,再将第一3d人脸模型对应的第一2d人脸图像输入神经渲染网络中,能得到分辨率更高、更逼真的2d人脸图像,从而能得到质量更高的虚拟人动画视频。