用于利用头戴式摄像头的简化的面部捕获的系统和方法与流程

文档序号:37942502发布日期:2024-05-11 00:22阅读:16来源:国知局
用于利用头戴式摄像头的简化的面部捕获的系统和方法与流程

本技术涉及用于面部的计算机动画的系统和方法。更具体地,本技术涉及用于使用从头戴式摄像头捕获的图像数据来生成特定于演员的3d网格的计算机表示的系统和方法。


背景技术:

1、在各种计算机生成(cg)动画应用中都存在生成特定演员的面部特征的计算机表示的期望。通常,这些计算机表示采用互连顶点的3d网格的形式,其中顶点具有随帧而变化以创建动画的属性(例如,3d几何形状或3d位置)。

2、图1a示出了用于将演员的面部特征赋予这种计算机表示的典型方法10。方法10涉及通常利用头戴式摄像头(hmc)捕获演员的表演,以获得捕获的演员表演12。如本领域所知,hmc机构(setup)通常使用可以用于立体地捕获3d信息的至少2个摄像头。通常,当演员为hmc表演时(顶部捕获演员表演12),演员的面部用放置在演员面部周围的战略位置的标记来标记,并且跟踪这些标记,作为捕获的演员表演12的一部分。

3、然后在框16中,经过训练的ai模型(演员到网格转换模型)14使用捕获的演员表演12将演员的捕获的表演12转换为演员的表演的3dcg网格18。当演员到网格转换模型14得到适当训练时,输出的3dcg表演网格18逐帧地与捕获演员表演12的面部特征紧密匹配。演员到网格转换模型14的非限制性例子是在lucio moser、darren hendler和dougroble.2017.masquerade:fine-scaledetails for head-mounted camera motioncapture data.in acm siggraph 2017talks(siggraph'17).association for computingmachinery,new york,ny,usa,article 18,1-2中描述的所谓“masquerade”模型。图1b示出了帧26,其中左手侧28示出hmc捕获的演员表演12,右手侧30示出使用masquerade演员到网格转换模型14针对同一帧的对应的输出的3d cg表演网格18的渲染。

4、在框16中使用经过训练的演员到网格转换模型14之前,演员到网格转换模型14必须得到训练(参见图1a的框20)。训练演员到网格转换模型14需要训练数据22。该训练数据22通常采用一系列帧(视频)的形式,其中每个帧采用特定于演员的3d网格的形式(通常具有与期望输出的3d cg表演网格18相同的网格拓扑),其中演员将他们的面部布置在所谓的运动范围(rom)上。rom可以具有多个姿势,其中一些姿势可以是逼真的姿势(例如,演员微笑、演员皱眉、演员张嘴、演员闭嘴和/或演员中性表情等),而其中一些姿势可能是人为的姿势。图1a的方法10示出了在步骤24中获得的训练数据22。

5、图1c示出了用于获得训练数据22的现有技术方法40。方法40(图1c)可在步骤24(图1a)中进行。方法40从框42开始,例如,框42涉及在灯光舞台中捕获关于演员的尽可能多的面部细节。灯光舞台是一种环境和支持结构,通常包括许多摄像头和灯光,用于捕获演员面部的细节,比如可用于创建演员的数字替身的表面面部几何形状和多种纹理。虽然灯光舞台捕获的图像具有关于演员的绝佳细节,但是灯光舞台捕获的图像通常具有过于密集和非结构化的拓扑,因此不适用于方法10的其他方面。因此,典型的下一个步骤(未明确示出)涉及处理灯光舞台捕获的数据,以生成可用于方法40和方法10的后续步骤的公共中性模型拓扑44。然后,还有涉及捕获演员的rom表演的第二步骤(如图1c中的框46所示)。通常,该rom捕获步骤46是在演员就座(seated)时使用大约6-10个摄像头进行的。该rom捕获步骤46采用中性网格拓扑44以及若干rom姿势的演员表演(作为输入),以生成高分辨率网格的特定于演员的rom 22,该rom可以用作训练数据22,以训练图1a的方法10中的演员到网格转换模型14。在典型情况下,在步骤46的就座捕获中捕获的数据具有与中性网格44的拓扑不同的拓扑。因此,在作为高分辨率网格的特定于演员的rom 22被输出之前,在步骤46的就座捕获中捕获的数据被进一步处理(未明确示出)以符合中性网格44的拓扑。rom捕获步骤46通常使用诸如南加州大学(usc)的创意技术研究所(ict)、dimensional imaging有限公司的di4d之类的组织的就座捕获机构和专有软件来进行。

6、用于生成可以在图1a的方法10中、用作训练数据22来训练演员到网格转换模型14的高分辨率3d cg网格的特定于演员的rom 22的方法40(图1c)的过程繁琐、昂贵(在计算资源和时间两方面),需要顺序的处理步骤,并且需要演员参与多个不同的捕获会话。

7、普遍期望一种用于生成训练数据(呈高分辨率3d cg网格的特定于演员的rom的形式)的改进方法以及能够进行这种方法的系统,所述训练数据可用于训练诸如图1的模型14之类的演员到网格转换模型。

8、相关技术的前述例子和与其相关的限制旨在是说明性的而非排他性的。在阅读说明书和研究附图后,相关技术的其他限制对于本领域技术人员来说将变得显而易见。


技术实现思路

1、结合旨在是示例性和说明性而非限制范围的系统、工具和方法来描述和说明以下实施例及其各个方面。在各个实施例中,已经减少或消除了上述问题中的一个或多个,而其他实施例涉及其他改进。

2、本发明的一个方面提供一种用于生成呈多帧面部动画的形式的训练数据的方法,所述多帧中的每一帧被表示为包括多个顶点的三维(3d)网格,所述训练数据可用于训练特定于演员的演员到网格转换模型,所述演员到网格转换模型在被训练后,接收由头戴式摄像头(hmc)机构捕获的演员的表演,并推断该演员的表演的对应的特定于演员的3d网格。所述方法包括:接收由hmc机构捕获的演员运动范围(rom)表演作为输入,hmc捕获的rom表演包括若干帧的高分辨率图像数据,每一帧由多个摄像头捕获以提供每一帧的对应的多个图像;接收或生成包括多个顶点的3d网格拓扑的近似的特定于演员的rom,所述近似的特定于演员的rom包括所述3d网格拓扑的若干帧,每一帧指定所述多个顶点的3d位置;进行所述近似的特定于演员的rom的混合形状分解,以产生混合形状基础或多个混合形状;进行混合形状优化以获得混合形状优化的3d网格,所述混合形状优化包括针对每一帧hmc捕获的rom表演,确定混合形状权重的向量和多个变换参数,所述混合形状权重的向量和所述多个变换参数在应用于所述混合形状基础以重构所述3d网格拓扑时,使将损失归因于重构的3d网格拓扑和该帧hmc捕获的rom表演之间的差异的混合形状优化损失函数最小化;对所述混合形状优化的3d网格进行网格变形细化,以获得网格变形优化的3d网格,所述网格变形细化包括针对每一帧hmc捕获的rom表演,确定多个handle顶点的3d位置,所述多个handle顶点的3d位置在使用网格变形技术应用于所述混合形状优化的3d网格时,使将损失归因于变形的3d网格拓扑和hmc捕获的rom表演之间的差异的网格变形细化损失函数最小化;以及基于所述网格变形优化的3d网格,生成所述训练数据。

3、混合形状优化损失函数可以包括似然项,所述似然项:将相对高的损失归因于如下混合形状权重的向量,该混合形状权重的向量在应用于混合形状基础以重构3d网格拓扑时,导致基于所述近似的特定于演员的rom相对不太可行的重构3d网格;将相对低的损失归因于如下混合形状权重的向量,该混合形状权重的向量在应用于混合形状基础以重构3d网格拓扑时,导致基于所述近似的特定于演员的rom相对更可行的重构3d网格。

4、对于混合形状权重的每个向量,所述似然项可以基于使用混合形状权重的向量而重构的顶点的子集的位置相对于所述近似的特定于演员的rom的顶点的位置的负对数似然。

5、混合形状优化可以包括:对于多帧hmc捕获的rom表演中的每一帧,使用先前针对前一帧hmc捕获的rom表演而优化的混合形状权重的向量和多个变换参数来开始混合形状优化过程。

6、进行网格变形细化可以包括:对于每一帧hmc捕获的rom表演,确定多个handle顶点的3d位置,当针对连续多个n帧hmc捕获的rom表演,使用网格变形技术将所述多个handle顶点的3d位置应用于混合形状优化的3d网格时,这些3d位置使网格变形细化损失函数最小化。

7、网格变形细化损失函数可以将损失归因于在每批连续多个n帧上,变形的3d网格拓扑和hmc捕获的rom表演之间的差异。

8、对于每一帧hmc捕获的rom表演,确定所述多个handle顶点的3d位置可以包括:对于每批连续多个n帧hmc捕获的rom表演,使用来自在当前多个n帧hmc捕获的rom表演之前的一帧hmc捕获的rom表演的所述多个handle顶点的3d位置的估计,以确定所述网格变形细化损失函数的至少一部分。

9、进行网格变形细化可以包括:对于每一帧hmc捕获的rom表演,从来自混合形状优化的3d网格的所述多个handle顶点的3d位置开始。

10、网格变形技术可以包括拉普拉斯网格变形、双拉普拉斯网格变形、以及拉普拉斯网格变形和双拉普拉斯网格变形的组合中的至少一个。

11、网格变形技术可以包括拉普拉斯网格变形和双拉普拉斯网格变形的线性组合。拉普拉斯网格变形和双拉普拉斯网格变形的线性组合的权重可以是用户可配置的参数。

12、基于所述网格变形优化的3d网格生成所述训练数据可以包括进行以下步骤的至少一个附加迭代:进行所述混合形状分解;进行所述混合形状优化;进行所述网格变形细化;以及生成所述训练数据;使用来自这些步骤的先前迭代的网格变形优化的3d网格作为输入来代替所述近似的特定于演员的rom。

13、基于所述网格变形优化的3d网格生成所述训练数据可以包括:接收用户输入;基于所述用户输入修改所述网格变形优化的3d网格的一帧或多帧,从而提供迭代输出的3d网格;以及基于迭代输出的3d网格生成所述训练数据。

14、所述用户输入可以指示对所述网格变形优化的3d网格的一个或多个初始帧的修改,并且基于用户输入修改所述网格变形优化的3d网格的所述一帧或多帧可以包括:将所述修改从所述一个或多个初始帧传播到所述网格变形优化的3d网格的一个或多个其他帧,以提供所述迭代输出的3d网格。

15、将所述修改从所述一个或多个初始帧传播到所述一个或多个其他帧可以包括实现加权姿势空间变形(wpsd)过程。

16、基于迭代输出的3d网格生成所述训练数据可以包括进行以下步骤的至少一个附加迭代:进行所述混合形状分解;进行所述混合形状优化;进行所述网格变形细化;以及生成所述训练数据;使用来自这些步骤的先前迭代的迭代输出的3d网格作为输入来代替所述近似的特定于演员的rom。

17、混合形状优化损失函数可以包括深度项,对于每一帧hmc捕获的rom表演,所述深度项将损失归因于基于重构的3d网格拓扑确定的深度与基于hmc捕获的rom表演确定的深度之间的差异。

18、混合形状优化损失函数可以包括光流项,对于每一帧hmc捕获的rom表演,所述光流项将损失归因于以下之间的差异:对于当前帧和至少一个先前帧基于hmc捕获的rom表演确定的光损失;以及重构的3d网格拓扑的顶点在当前帧和所述至少一个先前帧之间的位移。

19、对于每一帧hmc捕获的rom表演,确定在应用于混合形状基础以重构3d网格拓扑时,使所述混合形状优化损失函数最小化的混合形状权重的向量和多个变换参数可以包括:首先保持混合形状权重的向量恒定,并优化所述多个变换参数以使所述混合形状优化损失函数最小化,从而确定过渡的多个变换参数;以及在确定所述过渡的多个变换参数之后,允许所述混合形状权重的向量变化,并优化所述混合形状权重的向量和所述多个变换参数以使所述混合形状优化损失函数最小化,从而确定优化的所述混合形状权重的向量和所述多个变换参数。

20、对于每一帧hmc捕获的rom表演,确定在应用于混合形状基础以重构3d网格拓扑时,使所述混合形状优化损失函数最小化的混合形状权重的向量和多个变换参数可以包括:首先保持混合形状权重的向量恒定,并优化所述多个变换参数以使所述混合形状优化损失函数最小化,从而确定过渡的多个变换参数;以及在确定所述过渡的多个变换参数之后,允许所述混合形状权重的向量变化,并优化所述混合形状权重的向量和所述多个变换参数以使所述混合形状优化损失函数最小化,从而确定混合形状权重的过渡向量和进一步过渡的多个变换参数;在确定混合形状权重的过渡向量和进一步过渡的多个变换参数之后,在混合形状优化损失函数中引入二维(2d)约束项,以获得修改的混合形状优化损失函数,并优化所述混合形状权重的向量和所述多个变换参数以使修改的混合形状优化损失函数最小化,从而确定优化的所述混合形状权重的向量和所述多个变换参数。

21、对于每一帧hmc捕获的rom表演,所述2d约束项可以将损失归因于基于与重构的3d网格拓扑中的2d关键点关联的顶点的位置与在当前帧的hmc捕获的rom表演中识别的2d关键点的位置之间的差异。

22、所述网格变形细化损失函数可以包括深度项,对于每一帧hmc捕获的rom表演,所述深度项将损失归因于基于使用所述网格变形技术应用于所述混合形状优化的3d网格的所述多个handle顶点的3d位置而确定的深度与基于hmc捕获的rom表演所确定的深度之间的差异。

23、所述网格变形细化损失函数可以包括光流项,对于每一帧hmc捕获的rom表演,所述光流项将损失归因于以下之间的差异:对于当前帧和至少一个先前帧,基于hmc捕获的rom表演而确定的光损失;以及对于当前帧和至少一个先前帧,基于使用所述网格变形技术应用于所述混合形状优化的3d网格的所述多个handle顶点的3d位置而确定的顶点的位移。

24、所述网格变形细化损失函数可以包括位移项,对于每一帧hmc捕获的rom表演,所述位移项包括每顶点参数,所述每顶点参数表示混合形状优化的3d网格的顶点位置的置信度。

25、本发明的另一方面提供一种用于生成与由头戴式摄像头(hmc)机构捕获的演员的表演对应的多帧面部动画的方法,所述多帧面部动画中的每一帧被表示为包括多个顶点的三维(3d)网格,所述方法包括:接收由hmc机构捕获的演员表演作为输入,hmc捕获的演员表演包括若干帧的高分辨率图像数据,每一帧由多个摄像头捕获以提供每一帧的对应的多个图像;接收或生成包括多个顶点的3d网格拓扑的近似的特定于演员的rom,所述近似的特定于演员的rom包括所述3d网格拓扑的若干帧,每一帧指定所述多个顶点的3d位置;进行所述近似的特定于演员的rom的混合形状分解,以产生混合形状基础或多个混合形状;进行混合形状优化以获得混合形状优化的3d网格,所述混合形状优化包括针对每一帧hmc捕获的演员表演,确定混合形状权重的向量和多个变换参数,所述混合形状权重的向量和所述多个变换参数在应用于所述混合形状基础以重构所述3d网格拓扑时,使将损失归因于重构的3d网格拓扑和该帧hmc捕获的演员表演之间的差异的混合形状优化损失函数最小化;对所述混合形状优化的3d网格进行网格变形细化,以获得网格变形优化的3d网格,所述网格变形细化包括针对每一帧hmc捕获的演员表演,确定多个handle顶点的3d位置,所述多个handle顶点的3d位置在使用网格变形技术应用于所述混合形状优化的3d网格时,使将损失归因于变形的3d网格拓扑和hmc捕获的演员表演之间的差异的网格变形细化损失函数最小化;以及基于网格变形优化的3d网格,生成所述多帧面部动画。

26、本发明的这一方面可以包括前述各个方面24中的任一方面的任何特征、特征的组合或特征的子组合,其中用hmc捕获的演员表演替代hmc捕获的rom表演,并且其中用多帧面部动画替代训练数据。

27、本发明的另一个方面提供一种包括处理器的装置,所述处理器(例如,通过适当的编程)被配置为进行前述各个方面中的任一方面的方法。

28、本发明的另一个方面提供一种包括非临时性介质的计算机程序产品,所述非临时性介质携带一组计算机可读指令,所述一组计算机可读指令在由数据处理器执行时使所述数据处理器执行前述各个方面中的任一方面的方法。

29、除了上述示例性方面和实施例之外,通过参考附图和研究以下详细描述,其他的方面和实施例将变得显而易见。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1