基于单张图片下三维人脸重建方法

文档序号：34316478发布日期：2023-05-31 23:57阅读：179来源：国知局

本发明属于图像处理，特别是涉及一种基于单张图片下三维人脸重建方法。

背景技术：

1、近年来，3d人脸重建和人脸对齐已合并为一项任务：3d密集人脸对齐。它广泛用于各种视觉商业项目，例如视频游戏、电影效果、增强现实和虚拟现实，但通常需要在专业工作室中配备多台专业摄像机。来自单目图像的3d密集人脸对齐帮助人们消除对昂贵拍摄设备的需求。

2、传统人脸重建工作通常分解成两个子任务：预测人脸的三维点和预测人脸的六个自由度，其中人脸的三维点是三维重建时用来构造人脸五官的细节信息的，人脸的六个自由度用来构造人脸的朝向角度和相机距离等细节信息，两个子任务需要分别进行，鲁棒性差。

3、自从将深度学习引入3d人脸密集对齐任务以来，卷积神经网络以其高维特征的准确提取和权重共享的优势一直占据主导地位。最近引入的transformer及其改进版本，采用self-attention机制来使得模型能够并行化训练且掌握全局信息，具有强大的全局建模能力。cnn具有平移等变性，即卷积产生一个二维映射来表明某些特征在输入中出现的位置，如果我们移动输入中的对象，它的表示也会在输出中移动同样的量。这一特性使得卷积块可以平移等变地处理图像特征，不管它们出现在图像的哪个地方。而cnn结合群论所演化出的群等变cnn，则同时具有平移等变性和旋转等变性，能够有效地提取各类转动物体的特征。例如日常工作中会接触到人脸识别等3d人脸密集对齐，通常以单摄像头进行正面人脸捕捉作为输入，其模型的输入是0°～30°的人脸，更注重头部绕滚动角旋转时的鲁棒。目前对于如何在0°～30°头部偏航角旋转的情况下优化人脸重建和对齐的研究较少。

技术实现思路

1、本发明实施例的目的在于提供一种单张图片下三维人脸重建方法，引入了旋转等变cnn及transformer结构，能够在能够在在0°～30°头部偏航角旋转的情况下，如何人脸重建和对齐，并保证模型鲁棒性。

2、为解决上述技术问题，本发明所采用的技术方案是，本发明提出一种基于单张图片下三维人脸重建方法，包括以下步骤：

3、s1、对图像进行数据增强；

4、s2、将图像输入主干网络，输出uv位置图；

5、s3、学习特征，并通过损失函数进行回归运算；

6、s4、提取uv位置图中关键点；

7、s5、uv位置图渲染成3d人脸模型。

8、具体的，s1中数据增强的方法为：

9、选择不同人物的不同角度的人脸图像，对这些训练图像进行随机旋转，随机随即调色，添加随机噪声；其中对训练图像分别在-90°～90°范围内随机旋转，在rgb通道上r、g、b值分别乘上0.6～1.4范围内的一个数值进行随机调色，添加随机噪声的方式为随机擦除两个区域。

10、具体的，s2的具体步骤如下：

11、网络采用编码器-解码器结构，网络接收大小为(3,256,256)的数据，通过设计的e2cnn残差网络结构的第0层到第3层，输出大小为(128,32,32)的特征，再通过transformer的自注意力模块，学习图像的全局特征，并输出大小为(512,8,8)的特征，最后将特征(512,8,8)特征输入到由转置卷积层组成解码器中，输出一张(3,256,256)的uv位置图。

12、进一步的，所述编码器包含e2cnn0、e2cnn1、e2cnn2、e2cnn3、tr-ansformer0、transformer1、transformer2，所述解码器部分包含17个反卷积层。

13、进一步的，e2cnn残差网络的残差块使用了跳跃链接，e2cnn块放置在编码器头部，用于捕捉人脸的局部特征，transformer块放置在编码器尾部，用于捕捉人脸的全局特征，在e2cnn网络前部设置4个旋转等变残差卷积层，分别对特征图进行残差卷积操作，学习人脸的特征信息。

14、进一步的，s3中设计的损失函数loss为加权l2函数，其公式如下：

15、

16、其中p(x,y)是指输出的uv图中，点(x,y)的像素值，p～(x,y)指groundtruth uv图点(x，y)的像素值，w(x，y)指点(x，y)的权。

17、进一步的，s4中的uv位置图记录了人脸超过5万个点的三维信息，包括轮廓信息和姿势信息。

18、进一步的，所述s5的具体步骤如下：

19、提取uv图通道信息，进行三维人脸重建，uv图中的点跟三维人脸的点是一一对应的，uv图有256×256个点，重建的三维人脸也有256×256个点，uv图与三维点空间信息关系如下：

20、u(ui,vi)＝(xi,yi,zi)

21、其中(xi,yi,zi)是三维网格中顶点i的三维坐标，u(.,.)是uv图的二维表达，(ui,vi)是该点对应的二维uv坐标；

22、本发明的另一目的，是提供一种客观评估的方法；

23、设计评估指标进行客观评估，对于每一张测试图像，需要预测一张256×256×3的uv位置图；

24、采用归一化平均误差(nme)作为评价指标。nme是样本数为n的数据集中，第i个样本预测结果pi中的每一对对应点与groundtruth点之间的归一化平均欧氏距离；nme的归一化系数d定义为其中h和w是人脸的范围框的高宽；

25、

26、评估对象有两类:68个关键点的nme和45000个点的nme。

27、本发明的有益效果是：本发明为正面重建和对齐问题引入了两个新的神经网络组件；(1)在编码器阶段的前部引入旋转等变cnn，其在正面围绕侧倾角旋转的情况下对高频特征的提取效果较好，(2)将transformer放置在编码器的后半部分。解决了三维人脸重构问题，具有优秀的人脸重构和特征点对齐效果；利用随机调色模拟光照场景，增强模型光线不足或过曝具有鲁棒性。利用随机噪声模拟脸上的遮挡物，使模型对遮挡物具有鲁棒性。同时在本发明中，通过直接预测人脸三维点的空间坐标，端对端完成人脸重建，而无需分别完成子任务，优化了步骤，鲁棒性较强。

技术特征：

1.基于单张图片下三维人脸重建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于单张图片下三维人脸重建方法，其特征在于，所述s1中数据增强的方法具体为：

3.根据权利要求2所述的基于单张图片下三维人脸重建方法，其特征在于，对训练图像分别在-90°～90°范围内随机旋转，在rgb通道上r、g、b值分别乘上0.6～1.4范围内的一个数值进行随机调色，添加随机噪声的方式为随机擦除两个区域。

4.根据权利要求1所述的基于单张图片下三维人脸重建方法，其特征在于，s2具体步骤为：

5.根据权利要求4所述的基于单张图片下三维人脸重建方法，其特征在于，所述e2cnn残差网络的残差块使用了跳跃链接，e2cnn块放置在编码器头部，用于捕捉人脸的局部特征，transformer块放置在编码器尾部，用于捕捉人脸的全局特征，在e2cnn残差网络前部设置4个旋转等变残差卷积层，分别对特征图进行残差卷积操作，学习人脸的特征信息。

6.根据权利要求4所述的基于单张图片下三维人脸重建方法，其特征在于，所述编码器包含e2cnn0、e2cnn1、e2cnn2、e2cnn3、transformer0、transformer1、transformer2，所述解码器部分包含17个反卷积层。

7.根据权利要求1所述的基于单张图片下三维人脸重建方法，其特征在于，所述s3中，设计的损失函数loss为加权l2函数，其公式如下：

8.根据权利要求1所述的基于单张图片下三维人脸重建方法，其特征在于，所述s4中的uv位置图记录了人脸超过5万个点的三维信息，包括轮廓信息和姿势信息。

9.根据权利要求1所述的基于单张图片下三维人脸重建方法，其特征在于，所述s5的具体步骤如下：

10.根据权利要求9所述的基于单张图片下三维人脸重建方法，其特征在于，设计评估指标进行客观评估，对于每一张测试图像，需要预测一张256×256×3的uv位置图；采用归一化平均误差作为评价指标，nme是样本数为n的数据集中，第i个样本预测结果pi中的每一对对应点与groundtruth点之间的归一化平均欧氏距离；nme的归一化系数d定义为其中h和w是人脸的范围框的高宽；

技术总结
本发明提供了一种基于单张图片下三维人脸重建方法，使用数据增强方法，对图像进行随机旋转，随机调色，随机加噪声。将图像输入主干网络，学习特征，并通过损失函数进行回归运算。输出人脸UV位置图，最后将UV位置图渲染成3D人脸模型，并按照评估指标客观指标，并设计评估指标进行客观评估。解决了单张图片下三维人脸重建问题，具有非常理想的重建能力和精准度。

技术研发人员：段清,廖赟,刘俊晖,潘志轩,邸一得
受保护的技术使用者：云南大学
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段清廖赟刘俊晖潘志轩邸一得
技术所有人：云南览易网络科技有限责任公司
我是此专利的发明人

上一篇：一种浮动限位式暂存架的制作方法
上一篇：在呼叫中心处理数据的方法、电子设备及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。