从单目视频学习逼真且可动画的全身人形化身的制作方法

文档序号：34079499发布日期：2023-05-06 23:33阅读：36来源：国知局

本公开总体上涉及三维图像处理，并且尤其是，涉及人体的三维重建。

背景技术：

1、人工神经网络(artificial neural network，ann)通常简称为神经网络(neuralnetwork，nn)，人工神经网络是由构成动物大脑的生物神经网络模糊启发的计算系统。ann基于被称为人工神经元的连接单元或节点的集合，这些人工神经元粗略地模拟生物脑中的神经元。每个连接像生物脑中的突触一样，可以将信号传输到其他神经元。人工神经元接收信号，然后对该信号进行处理，并向连接该人工神经元的神经元发送信号。一连接处的“信号”是实数，并且每个神经元的输出是通过该神经元的多个输入之和的某个非线性函数而计算的。这些连接被称为边缘。神经元和边缘典型地具有随着学习的进行而调整的权重。该权重增加或减少连接处的信号的强度。神经元可以具有阈值，使得只有当聚合信号超过该阈值时才会发送信号。通常，多个神经元聚合成多个层。不同的层可以对它们的输入执行不同的变换。信号可能在从第一层(输入层)多次穿过各层之后传输到最后一层(输出层)。生成对抗网络(generative adversarial network，gan)是一种基于输入数据生成新数据(例如，新图像)的ann。

技术实现思路

1、本文所描述的特定实施例涉及用于从粗略的三维几何形状渲染出高质量的虚拟人化身的系统和方法，该粗略的三维几何形状是基于从各个观察方向拍摄的人的视频流而构建的。传统的用于采集真实外观的方法可能需要昂贵且复杂的采集设置。这些设置可能会妨碍所得到的模型的简单数字化和传输。本文公开的方法可以利用适合于一训练视频的简单统计的人体模型，来采集每个帧的身体形状统计和三维姿势信息。该人体模型可仅表示没有衣服和头发的粗略的身体几何形状。可以将该身体几何形状格栅化到图像平面上，并且使用神经潜在纹理来绘制该身体几何形状，然后可以使用卷积渲染网络将该神经潜在纹理转换成红、绿和蓝(rgb)图像。可以优化渲染网络和神经纹理这两者，以产生具有视图相关效果的逼真结果。为了避免不逼真的模糊的纹理渲染，上述方法可以从视频中确定多个表示静态外观的关键帧。可以仅使用所确定的多个关键帧来优化神经纹理。其他帧可以用于学习该外观的受姿势制约的渲染。通过这种方法，本文公开的方法可以考虑粗略的身体几何形状的几何失真和姿势相关的变形。可以同时在多个身份(identity)上训练渲染网络，这可以引起神经纹理和渲染网络的强解耦。结果是，除了身份特定神经纹理图之外，系统还可以仅使用一组渲染网络参数来采集和渲染多个身份。由于该统计的人体模型的一致的表面参数化(consistent surface parameterization)，该系统可以充分利用这样的语义对应，来修改和混合来自多个神经纹理的分量。例如，该方法可以通过改变神经纹理中的区域而用于虚拟试穿。当运动范围是众所周知的或者可以被很好地估计时，经训练的渲染模型连同神经纹理可以用于使化身实现动画化。这些示例可以包括但不限于虚拟助理或游戏角色。

2、根据本公开的第一方面，提供了一种方法，该方法包括由计算装置：调整与第一人对应的三维几何形状的参数，以使该三维几何形状表示第一人的期望姿势；访问对第一人的外观进行编码的神经纹理；基于(1)三维几何形状的从观察方向可见的部分与(2)神经纹理之间的映射，生成第一渲染神经纹理，该第一渲染神经纹理包括多个潜在通道；通过使用第一神经网络对第一渲染神经纹理进行处理，生成第二渲染神经纹理，该第二渲染神经纹理包括多个颜色通道和多个潜在通道；确定与三维几何形状的从观察方向可见的部分相关联的法线信息；通过使用第二神经网络对第二渲染神经纹理和法线信息进行处理，生成处于期望姿势的第一人的渲染图像。

3、在特定实施例中，三维几何形状可以是通过对表示第一人的多个已知姿势的多个三维几何形状插值而构建的。

4、在特定实施例中，三维几何形状可以是基于表示第二人的期望姿势的三维几何形状而构建的。

5、在特定实施例中，神经纹理的每个纹素可以具有k-通道潜在表示(k-channellatent representation)。

6、在特定实施例中，第一人的渲染图像可以是通过将神经纹理的至少一部分与对第二人的外观进行编码的神经纹理的对应部分交换而修改的。

7、在特定实施例中，对第一人的外观进行编码的神经纹理和对第二人的外观进行编码的神经纹理，可以与第一神经网络和第二神经网络一起被同时训练。

8、在特定实施例中，第二神经网络还可以生成掩模，该掩模可以用于将生成的处于期望姿势的第一人的渲染图像与背景混合。

9、在特定实施例中，对第一神经网络、第二神经网络和对第一人的外观进行编码的神经纹理进行训练的过程可以包括：访问从各个观察方向拍摄的第一人的视频流；确定视频流的多个帧中的多个关键帧，该多个关键帧采集了视频流中的第一人的多个静态显著外观；对于所确定的多个关键帧中的每一个关键帧：使用神经纹理、第一神经网络和第二神经网络，生成处于该帧示出的训练姿势的第一人的训练渲染图像；通过将生成的训练渲染图像与该帧中的第一人的地面真值图像(ground truth image)进行比较来计算损失；以及，基于所计算的损失，更新神经纹理的参数、第一神经网络的参数和第二神经网络的参数。

10、在特定实施例中，生成处于该帧示出的训练姿势的第一人的训练渲染图像可以包括：基于身体形状模型，构建用于表示处于该帧示出的训练姿势的第一人的三维训练几何形状；基于(1)三维训练几何形状的从该帧的观察方向可见的部分与(2)神经纹理之间的映射，生成第一训练渲染神经纹理；通过使用第一神经网络对第一训练渲染神经纹理进行处理，生成第二训练渲染神经纹理；确定与三维训练几何形状的从观察方向可见的部分相关联的训练法线信息；以及，通过使用第二神经网络对第二训练渲染神经纹理和训练法线信息进行处理，生成处于训练姿势的第一人的训练渲染图像。

11、在特定实施例中，视频流的每个帧可以包括具有多个颜色通道的图像。

12、在特定实施例中，各个所确定的关键帧与不同的观察方向相关联。

13、在特定实施例中，在使用所确定的多个关键帧对神经纹理、第一神经网络和第二神经网络的训练完成之后，可以使用视频流的多个帧中的多个非关键帧，进一步训练第一神经网络和第二神经网络。

14、在特定实施例中，被使用关键帧优化后的神经纹理可以用于与该多个非关键帧一起对第一神经网络和第二神经网络进行训练。

15、在特定实施例中，第二训练渲染神经纹理可以包括k个通道，其中，第二训练渲染神经纹理的k个通道中的前三个通道可以是颜色通道，并且其中，第二训练渲染神经纹理的k个通道中的其余k-3个通道可以是潜在表示通道。

16、在特定实施例中，作为计算损失的一部分，第二训练渲染神经纹理的k个通道中的前三个通道可以通过以下方式而被实施为颜色通道：将第二训练渲染神经纹理的k个通道中的前三个通道与该帧的多个颜色通道进行比较。

17、在特定实施例中，损失可以包括红、绿和蓝(rgb)损失、特征损失、对抗损失或掩模损失。

18、在特定实施例中，rgb损失可以是基于生成的训练渲染图像的多个rgb通道与该帧中的第一人的地面真值图像的多个rgb通道之间的比较而计算的。

19、在特定实施例中，特征损失可以是基于从生成的训练渲染图像提取的多个潜在特征和从该帧中的第一人的地面真值图像提取的多个潜在特征之间的比较而计算的。

20、根据本公开的第二方面，提供了一个或多个计算机可读非暂态存储介质，该一个或多个计算机可读非暂态存储介质使软件实体化(embody)，该软件在被执行时是可操作的以：调整与第一人对应的三维几何形状的参数，以使该三维几何形状表示第一人的期望姿势；访问对第一人的外观进行编码的神经纹理；基于(1)三维几何形状的从观察方向可见的部分与(2)神经纹理之间的映射，生成第一渲染神经纹理，第一渲染神经纹理包括多个潜在通道；通过使用第一神经网络对第一渲染神经纹理进行处理，生成第二渲染神经纹理，第二渲染神经纹理包括多个颜色通道和多个潜在通道；确定与三维几何形状的从观察方向可见的部分相关联的法线信息；通过使用第二神经网络对第二渲染神经纹理和法线信息进行处理，生成处于期望姿势的第一人的渲染图像。

21、根据本公开的第三方面，提供了一种系统，该系统包括：一个或多个处理器；以及耦接到处理器的非暂态存储器，该非暂态存储器包括可由处理器执行的多个指令，上述处理器在执行这些指令时是可操作的以：调整与第一人对应的三维几何形状的参数，以使三维几何形状表示第一人的期望姿势；访问对第一人的外观进行编码的神经纹理；基于(1)三维几何形状的从观察方向可见的部分与(2)神经纹理之间的映射，生成第一渲染神经纹理，该第一渲染神经纹理包括多个潜在通道；通过使用第一神经网络对第一渲染神经纹理进行处理，生成第二渲染神经纹理，第二渲染神经纹理包括多个颜色通道和多个潜在通道；确定与三维几何形状的从观察方向可见的部分相关联的法线信息；通过使用第二神经网络对第二渲染神经纹理和法线信息进行处理，生成处于期望姿势的第一人的渲染图像。

22、在特定实施例中，计算装置调整与第一人对应的三维几何形状的参数，以使该三维几何形状表示第一人的期望姿势。在特定实施例中，三维几何形状可以是通过对表示第一人的多个已知姿势的多个三维几何形状插值而构建的。在特定实施例中，三维几何形状可以是基于表示第二人的期望姿势的三维几何形状而构建的。计算装置访问对第一人的外观进行编码的神经纹理。在特定实施例中，神经纹理的每个纹素可以具有k-通道潜在表示。计算装置基于(1)三维几何形状的从观察方向可见的部分与(2)神经纹理之间的映射，生成第一渲染神经纹理。第一渲染神经纹理包括多个潜在通道。计算装置通过使用第一神经网络处理第一渲染神经纹理，生成第二渲染神经纹理。第二渲染神经纹理包括多个颜色通道和多个潜在通道。计算装置确定与三维几何形状的从观察方向可见的部分相关联的法线信息。计算装置通过使用第二神经网络对第二渲染神经纹理和法线信息进行处理，生成处于期望姿势的第一人的渲染图像。在特定实施例中，第二神经网络还可以产生掩模，该掩模用于将生成的处于期望姿势的第一人的渲染图像与背景混合。在特定实施例中，第一人的渲染图像可以是通过将神经纹理的至少一部分与对第二人的外观进行编码的神经纹理的对应部分交换而修改的。在特定实施例中，对第一人的外观进行编码的神经纹理和对第二人的外观进行编码的神经纹理，可以已与第一神经网络和第二神经网络一起被同时训练。

23、在特定实施例中，可以使用从各个观察方向拍摄的第一人的视频流，来训练第一神经网络、第二神经网络和对第一人的外观进行编码的神经纹理。在特定实施例中，对第一神经网络、第二神经网络和对第一人的外观进行编码的神经纹理进行训练的过程可以包括如下：在第一步，计算装置可以访问从各个观察方向拍摄的第一人的视频流。该视频流的每一帧可以包括具有多个颜色通道的图像。在第二步，计算装置可以确定视频流的多个帧中的多个关键帧，这些关键帧采集了视频流中的第一人的多个静态显著外观。各个所确定的关键帧可以与不同的观察方向相关联。在第三步，对于所确定的多个关键帧中的每一个关键帧，计算装置可以基于所计算的损失，更新神经纹理的参数、第一神经网络的参数和第二神经网络的参数，该损失是基于将使用神经纹理、第一神经网络和第二神经网络生成的处于该帧示出的训练姿势的第一人的训练渲染图像与该帧中的第一人的地面真值图像之间进行比较而计算的。在特定实施例中，所计算的损失可以包括rgb损失、特征损失、对抗损失或掩模损失。在特定实施例中，rgb损失可以是基于生成的训练渲染图像的多个rgb通道与该帧中的第一人的地面真值图像的多个rgb通道之间的比较而计算的。在特定实施例中，特征损失可以是基于从生成的训练渲染图像提取的多个潜在特征和从该帧中的第一人的地面真值图像提取的多个潜在特征之间的比较而计算的。在特定实施例中，对抗损失可以用于训练对地面真值数据和生成的数据进行分类的二进制分类器。在特定实施例中，掩模损失可以是基于由第二神经网络生成的掩模与该帧中的第一人的地面真值图像中的人的区域之间的比较而计算的。在特定实施例中，为了生成处于该帧中示出的训练姿势的第一人的训练渲染图像，计算装置可以基于身体形状模型，构建用于表示处于该帧中示出的训练姿势的第一人的三维训练几何形状。在特定实施例中，计算装置可以基于(1)三维训练几何形状的从该帧的观察方向可见的部分与(2)神经纹理之间的映射，生成第一训练渲染神经纹理。在特定实施例中，计算装置可以通过使用第一神经网络对第一训练渲染神经纹理进行处理，生成第二训练渲染神经纹理。在特定实施例中，第二训练渲染神经纹理可以包括k个通道。在特定实施例中，第二训练渲染神经纹理的k个通道中的前三个通道可以是颜色通道。在特定实施例中，第二训练渲染神经纹理的k个通道中的其余k-3个通道可以是潜在表示通道。在特定实施例中，作为计算损失的一部分，第二训练渲染神经纹理的k个通道的前三个通道可以通过以下方式而被实施为颜色通道：将第二训练渲染神经纹理的k个通道中的前三个通道与该帧的多个颜色通道进行比较。在特定实施例中，计算装置可以确定与三维训练几何形状的从观察方向可见的部分相关联的训练法线信息。在特定实施例中，计算装置可以通过使用第二神经网络对第二训练渲染神经纹理和训练法线信息进行训练，生成处于训练姿势的第一人的训练渲染图像。在特定实施例中，在使用所确定的多个关键帧对神经纹理、第一神经网络和第二神经网络的训练完成之后，可以使用视频流的多个帧中的多个非关键帧，进一步训练第一神经网络和第二神经网络。在特定实施例中，被使用多个关键帧优化后的神经纹理可以用于与多个非关键帧一起对第一神经网络和第二神经网络进行训练。

24、本文公开的实施例仅是示例，并且本公开的范围不限于这些实施例。特定实施例可以包括本文公开的实施例的所有或一些部件、元件、特征、功能、操作或步骤，或者不包括这些部件、元件、特征、功能、操作或步骤。针对方法、存储介质、系统和计算机程序产品的所附多项权利要求中特别地披露了根据本公开的实施例，其中，可以主张在一个权利要求类别(例如，方法)中提到的任何特征也在另一个权利要求类别(例如，系统)中得到保护。所附权利要求中的从属关系或引用关系仅仅是出于形式上的原因而选择的。然而，也可以主张保护从对任何多项先前权利要求(特别是多项从属权利要求)的有意引用而产生的任何主题，使得披露了多项权利要求及其特征的任何组合，并且不管所附权利要求中选择的从属关系如何，都可以主张保护该多项权利要求及其特征的任何组合。可被主张保护的主题不仅包括所附多项权利要求中阐述的多个特征的组合，还包括该多项权利要求中的多个特征的任何其他组合，其中，该多项权利要求中提到的每个特征可以与该多项权利要求中的任何其他特征或多个其他特征的组合相组合。此外，可以在单个权利要求中主张保护本文描述或描绘的多个实施例和多个特征中的任何，和/或可以主张保护本文描述或描绘的多个实施例和多个特征中的任何与本文描述或描绘的任何实施例或特征的任何组合、或与所附多项权利要求的任何特征的任何组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：克里斯托弗
技术所有人：元平台技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。