本公开涉及人工智能(artificial intelligence,ai),尤其涉及一种人脸驱动方法、装置和存储介质。
背景技术:
1、虚拟数字人是ai技术领域中一项重要的应用。虚拟数字人包括二维(2-dimension,2d)数字人和三维(3-dimension,3d)数字人,通常通过人脸驱动实现,其中可以通过输入数据中指示的人脸表情的变化来驱动虚拟的数字人形象中的人脸做出与指示的人脸表情类似的表情。通过人脸驱动做出的表情可以更生动有趣的展示真人能够做出的表情,从而通过该功能可以为用户提供一种全新的交互和展示体验。
2、虚拟的数字人形象可以是2d或者是3d的,且可以分别通过音频或视频作为信号源来进行驱动,使2d数字人或3d数字人展示相应的人脸表情变化。而由于不同的数字人驱动任务具有不同的处理需求和方式,当前的方案通常只能针对上述中的单一任务实现,效率低下。
技术实现思路
1、有鉴于此,本公开提出了一种人脸驱动方法、装置和存储介质。
2、根据本公开的一方面,提供了一种人脸驱动方法。该方法包括:
3、基于目标任务,获取输入数据,目标任务包括至少两种数字人驱动任务;
4、基于目标任务,利用神经网络模型对输入数据进行处理,确定目标人脸图像,目标人脸图像呈现驱动数据表征的表情。
5、在一种可能的实现方式中,在目标任务为二维数字人驱动任务的情况下,输入数据包括驱动数据和源人脸图像,目标人脸图像为目标二维人脸图像,基于目标任务,利用神经网络模型对输入数据进行处理,确定目标人脸图像,包括:
6、基于驱动数据,确定人脸的表情参数;
7、对源人脸图像进行特征提取,得到第一图像特征;
8、基于人脸的表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像。
9、在一种可能的实现方式中,驱动数据包括驱动图像,基于驱动数据,确定人脸的表情参数,包括:
10、基于驱动图像,确定人脸的第一表情参数;
11、基于人脸的表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像,包括:
12、基于第一表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像。
13、在一种可能的实现方式中,驱动数据包括驱动音频,基于驱动数据,确定人脸的表情参数,包括:
14、基于驱动音频,确定第一音频特征;
15、基于第一音频特征,确定人脸的第二表情参数;
16、基于人脸的表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像,包括:
17、基于第二表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像。
18、在一种可能的实现方式中,在目标任务为三维数字人驱动任务的情况下,目标人脸图像为目标三维人脸图像,输入数据包括驱动音频,基于目标任务,神经网络模型对输入数据进行处理,确定目标人脸图像,包括:
19、基于驱动音频,确定第二音频特征;
20、基于第二音频特征,确定人脸的第三表情参数;
21、基于预定的三维人脸模型,确定人脸的第一形状参数和第一人脸纹理图;
22、基于第三表情参数、第一形状参数和第一人脸纹理图,进行三维人脸渲染,确定目标三维人脸图像。
23、在一种可能的实现方式中,在目标任务为三维数字人驱动任务的情况下,目标人脸图像为目标三维人脸图像,输入数据包括驱动图像,基于目标任务,利用神经网络模型对输入数据进行处理,确定目标人脸图像,包括:
24、基于驱动图像,确定第二图像特征;
25、基于第二图像特征,确定人脸的第四表情参数;
26、基于预定的三维人脸模型,确定人脸的第二形状参数和第二人脸纹理图;
27、基于第四表情参数、第二形状参数和第二人脸纹理图,进行三维人脸渲染,确定目标三维人脸图像。
28、在一种可能的实现方式中,神经网络模型包括以下中的一个或多个模块:音频特征提取器、图像特征提取器、音频表情预测器、图像表情预测器、人脸形状预测器、纹理预测器、二维人脸渲染器和三维人脸渲染器;
29、其中,音频特征提取器用于对驱动数据进行音频特征提取,得到音频特征;图像特征提取器用于对驱动数据进行图像特征提取,得到图像特征;音频表情预测器用于基于音频特征,确定对应的人脸的表情参数;图像表情预测器用于基于图像特征,确定对应的人脸的表情参数;人脸形状预测器用于基于图像特征,确定对应的人脸的形状参数;纹理预测器用于基于图像特征,确定对应的人脸纹理图;二维人脸渲染器用于基于人脸的表情参数和图像特征,确定二维人脸图像;三维人脸渲染器用于基于人脸的表情参数、人脸的形状参数和人脸纹理图,确定三维人脸图像。
30、在一种可能的实现方式中,神经网络模型为训练后的神经网络模型,该方法还包括:
31、确定训练数据,训练数据包括训练视频和与训练视频对应的训练音频;
32、根据训练视频和训练音频,基于二维数字人驱动任务和三维数字人驱动任务对初始的神经网络模型进行训练,得到训练后的神经网络模型。
33、在一种可能的实现方式中,根据训练视频和训练音频,基于二维数字人驱动任务和三维数字人驱动任务对初始的神经网络模型进行训练,得到训练后的神经网络模型,包括:
34、根据训练视频和训练音频,基于二维数字人驱动任务对初始的神经网络模型进行训练,得到中间神经网络模型;
35、根据训练视频和训练音频,基于二维数字人驱动任务和三维数字人驱动任务对中间神经网络模型进行训练,得到训练后的神经网络模型。
36、在一种可能的实现方式中,根据训练视频和训练音频,基于二维数字人驱动任务和三维数字人驱动任务对初始的神经网络模型进行训练,得到训练后的神经网络模型,包括:
37、根据训练视频和训练音频,从训练视频中确定源人脸图像样本和驱动图像样本,从训练音频中确定与源人脸图像样本对应的驱动音频样本;
38、根据源人脸图像样本、驱动图像样本和驱动音频样本,基于二维数字人驱动任务和三维数字人驱动任务对初始的神经网络模型进行训练,得到训练后的神经网络模型。
39、在一种可能的实现方式中,根据源人脸图像样本、驱动图像样本和驱动音频样本,基于二维数字人驱动任务和三维数字人驱动任务对初始的神经网络模型进行训练,得到训练后的神经网络模型,包括:
40、根据源人脸图像样本、驱动图像样本和驱动音频样本,利用初始的神经网络模型确定目标人脸图像,目标人脸图像包括目标二维人脸图像和目标三维人脸图像;
41、在二维数字人驱动任务中,基于目标二维人脸图像和驱动图像样本的l1距离,对初始的神经网络模型的相关参数进行损失优化,并在三维数字人驱动任务中,基于目标三维人脸图像和源人脸图像样本的l1距离,对初始的神经网络模型的相关参数进行损失优化,得到训练后的神经网络模型。
42、在一种可能的实现方式中,神经网络模型用于在其他关联任务中进行精调训练,以确定精调后的神经网络模型。
43、根据本公开的另一方面,提供了一种人脸驱动装置。该装置包括:
44、获取模块,用于基于目标任务,获取输入数据,目标任务包括至少两种数字人驱动任务;
45、第一确定模块,用于基于目标任务,利用神经网络模型对输入数据进行处理,确定目标人脸图像,目标人脸图像呈现驱动数据表征的表情。
46、在一种可能的实现方式中,在目标任务为二维数字人驱动任务的情况下,输入数据包括驱动数据和源人脸图像,目标人脸图像为目标二维人脸图像,第一确定模块,用于:
47、基于驱动数据,确定人脸的表情参数;
48、对源人脸图像进行特征提取,得到第一图像特征;
49、基于人脸的表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像。
50、在一种可能的实现方式中,驱动数据包括驱动图像,基于驱动数据,确定人脸的表情参数,包括:
51、基于驱动图像,确定人脸的第一表情参数;
52、基于人脸的表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像,包括:
53、基于第一表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像。
54、在一种可能的实现方式中,驱动数据包括驱动音频,基于驱动数据,确定人脸的表情参数,包括:
55、基于驱动音频,确定第一音频特征;
56、基于第一音频特征,确定人脸的第二表情参数;
57、基于人脸的表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像,包括:
58、基于第二表情参数和第一图像特征,进行二维人脸渲染,确定目标二维人脸图像。
59、在一种可能的实现方式中,在目标任务为三维数字人驱动任务的情况下,目标人脸图像为目标三维人脸图像,输入数据包括驱动音频,第一确定模块,用于:
60、基于驱动音频,确定第二音频特征;
61、基于第二音频特征,确定人脸的第三表情参数;
62、基于预定的三维人脸模型,确定人脸的第一形状参数和第一人脸纹理图;
63、基于第三表情参数、第一形状参数和第一人脸纹理图,进行三维人脸渲染,确定目标三维人脸图像。
64、在一种可能的实现方式中,在目标任务为三维数字人驱动任务的情况下,目标人脸图像为目标三维人脸图像,输入数据包括驱动图像,基于目标任务,利用神经网络模型对输入数据进行处理,确定目标人脸图像,包括:
65、基于驱动图像,确定第二图像特征;
66、基于第二图像特征,确定人脸的第四表情参数;
67、基于预定的三维人脸模型,确定人脸的第二形状参数和第二人脸纹理图;
68、基于第四表情参数、第二形状参数和第二人脸纹理图,进行三维人脸渲染,确定目标三维人脸图像。
69、在一种可能的实现方式中,神经网络模型包括以下中的一个或多个模块:音频特征提取器、图像特征提取器、音频表情预测器、图像表情预测器、人脸形状预测器、纹理预测器、二维人脸渲染器和三维人脸渲染器;
70、其中,音频特征提取器用于对驱动数据进行音频特征提取,得到音频特征;图像特征提取器用于对驱动数据进行图像特征提取,得到图像特征;音频表情预测器用于基于音频特征,确定对应的人脸的表情参数;图像表情预测器用于基于图像特征,确定对应的人脸的表情参数;人脸形状预测器用于基于图像特征,确定对应的人脸的形状参数;纹理预测器用于基于图像特征,确定对应的人脸纹理图;二维人脸渲染器用于基于人脸的表情参数和图像特征,确定二维人脸图像;三维人脸渲染器用于基于人脸的表情参数、人脸的形状参数和人脸纹理图,确定三维人脸图像。
71、在一种可能的实现方式中,神经网络模型为训练后的神经网络模型,该装置还包括:
72、第二确定模块,用于确定训练数据,训练数据包括训练视频和与训练视频对应的训练音频;
73、第三确定模块,用于根据训练视频和训练音频,基于二维数字人驱动任务和三维数字人驱动任务对初始的神经网络模型进行训练,得到训练后的神经网络模型。
74、在一种可能的实现方式中,第三确定模块,用于:
75、根据训练视频和训练音频,基于二维数字人驱动任务对初始的神经网络模型进行训练,得到中间神经网络模型;
76、根据训练视频和训练音频,基于二维数字人驱动任务和三维数字人驱动任务对中间神经网络模型进行训练,得到训练后的神经网络模型。
77、在一种可能的实现方式中,第三确定模块,用于:
78、根据训练视频和训练音频,从训练视频中确定源人脸图像样本和驱动图像样本,从训练音频中确定与源人脸图像样本对应的驱动音频样本;
79、根据源人脸图像样本、驱动图像样本和驱动音频样本,基于二维数字人驱动任务和三维数字人驱动任务对初始的神经网络模型进行训练,得到训练后的神经网络模型。
80、在一种可能的实现方式中,根据源人脸图像样本、驱动图像样本和驱动音频样本,基于二维数字人驱动任务和三维数字人驱动任务对初始的神经网络模型进行训练,得到训练后的神经网络模型,包括:
81、根据源人脸图像样本、驱动图像样本和驱动音频样本,利用初始的神经网络模型确定目标人脸图像,目标人脸图像包括目标二维人脸图像和目标三维人脸图像;
82、在二维数字人驱动任务中,基于目标二维人脸图像和驱动图像样本的l1距离,对初始的神经网络模型的相关参数进行损失优化,并在三维数字人驱动任务中,基于目标三维人脸图像和源人脸图像样本的l1距离,对初始的神经网络模型的相关参数进行损失优化,得到训练后的神经网络模型。
83、在一种可能的实现方式中,神经网络模型用于在其他关联任务中进行精调训练,以确定精调后的神经网络模型。
84、根据本公开的另一方面,提供了一种人脸驱动装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
85、根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
86、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
87、根据本技术实施例,通过基于目标任务获取输入数据,其中目标任务包括至少两种数字人驱动任务,可以基于目标任务利用神经网络模型对输入数据进行处理确定目标人脸图像,从而可以使神经网络模型可支持不同数字人驱动任务的处理,可实现利用一个模型同时解决多种数字人的面部驱动问题,使最终图像呈现驱动数据表征的表情,处理效率更高,模型的泛化性强,且处理效果更佳。
88、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。