一种基于双流网络的三维人体重建方法

文档序号:35839219发布日期:2023-10-25 14:11阅读:37来源:国知局
一种基于双流网络的三维人体重建方法

本发明属于图像处理,涉及一种基于双流网络的三维人体重建方法。


背景技术:

1、二维人体姿态估计的目标是检测一张人像图片中对应人体关节点的二维坐标。目前的主流方法是通过深度神经网络学习图像到二维关节点坐标的映射关系。

2、toshev提出deeppose算法,该算法需要对标签关节点做归一化处理,使用多网络级联结构将前阶段预测坐标值和相关图片作为后阶段网络输入,通过该方式获得更精细化的定位坐标值。carreia等人提出一种可以增加人体各个结构关联的ief循环迭代结构,实现了自上而下的反馈,将分层特征提取器的表达能力拓展到输入和输出空间,该方法预测当前估算值的偏移量并迭代矫正,使预测的关节点更具鲁棒性。当一张图片中包含多个人像时,也称为多人二维姿态估计,通常分为自上而下和自下而上两种方法,自上而下方法首先检测出图像中所有人体边框再预测各个边框的关节点坐标,而自下而上方法则使用一个模型检测图像中所有关节点坐标,再将不同的关节点分组到不同的人体身上。

3、三维人体姿态估计任务的目标是检测一张人像图片中对应的三维关节点坐标,相比于二维姿态估计增加了空间信息,主要的实现方法有三种,分别是基于回归、基于二维关节点信息和基于融合三种方法。

4、基于回归是一种端到端的方法,即建立输入图像和关节点坐标的映射关系。li等人在2014年首次利用深层神经网络实现了该算法,该算法共实现了两个任务,即三维关节点的坐标位置估计和区域检测。martinez等人在2016年利用二维关节点信息提出了一种多阶段算法,首先,借助检测算法获取原始图片的二维关节点坐标;其次,代替原始图片作为网络输入;最后,利用全连接网络实现三维关节点预测。jahangri等人提出了基于融合的方法,首先,利用预训练好的算法获取到原始图像二维关节点坐标并转化为热力图形式;其次,将热力图与原始图像一同作为网络的输入,即同时使用图片和二维关节点信息提取特征;最后,利用三维关节点和二维关节点构建损失函数。

5、三维人体姿态与形状估计任务的目标是预测二维图片中人像的三维人体模型,可以分为基于顶点[12-15]、迭代优化[38]和参数回归[16-23]三种方法。

6、基于顶点方法不依赖人体模型参数,直接建立图片像素与网格顶点的对应关系,一种利用图卷积预测顶点的方法,该方法将提取的图片特征与模板网格顶点结合作为图卷积网络的输入去预测人体网格顶点坐标。一种从2d关节点预测网格顶点的方法,该方法放弃了丰富的图片信息,同时预测结果依赖2d关节点检测质量。利用uv纹理贴图信息将图片信息转化到uv贴图中并与预测网格建立紧密对应关系,该方法提高了室内场景预测精度,但需要耗费时间制造精细uv贴图。基于顶点的方法计算量较大,同时因缺少人体先验约束,预测的人体网格表面存在不平滑现象。

7、基于迭代优化方法借助2d关节点检测器获取输入图片的关节点信息,之后将人体模型参数迭代拟合到与关节点信息吻合的状态。利用smpl模板参数作为初始值,根据重投影误差、穿模误差和形态先验误差逐步改变smpl参数。基于迭代优化的方法目前仍被用来制造二维数据集的smpl伪标签。该方法可以获得较为精确的对齐效果,但迭代回归速度较慢,且同样依赖关节点检测质量。

8、利用神经网络预测人体模型参数是目前的主流方法,一种端到端从二维图片恢复人体网格的框架hmr,试图建立像素到smpl参数的直接对应关系,因缺少人体先验信息而导致预测的部分三维模型违背人体正常身体构造。改进了hmr网络,将其中ief迭代部分改为按人体结构划分的链式结构,加强了人体各个部位的关联。为带来更多的人体信息,文献[40]将输入图片改为多视角模式,每个视角的相机参数独享,smpl参数共享,在一定程度上缓解了图片信息不足的问题。但以上方法普遍只提取原始图片特征,仍然依赖原始图片质量。训练一个人体分割网络去预测输入图片的人体语义分割图,使预测结果更加符合人体构造,但由于忽略原始图片信息而导致精度不佳。尝试分别训练关节点预测网络和人体轮廓预测网络以回归smpl中的姿势和形状参数,该方法提高了室内场景人体估计精度,但该方法为包含人体轮廓标签,数据集均由人体模型参数随机组合并初始化相机角度渲染而成,并非真实人像,致使该方法无法应对复杂室外场景

9、目前,基于网格的三维人体姿态估计,在人体姿势方面的估计已取得了一定的成功,但是在形态方面的预测仍然有很大的改进空间,原因在于在缺少数据分布先验知识的情况下,从单张rgb图片中估计3d关键点位置是一个病态问题。


技术实现思路

1、本发明提出了一种基于双流网络的三维人体重建方法,可以降低误差,具有更好的预测效果。

2、本发明的技术方案如下:

3、一种基于双流网络的三维人体重建,包括构建训练集s和测试集q,从训练集中抽取图像i,

4、提取图片特征网络,将图像i作为网络的输入,以残差网络作为特征提取器,将图像i转换为图像特征a;

5、三维关节点预测网络,选择关节点检测器,从图像i中选择与与smpl参数位置相似的二位关节点j2d,通过全连接层,将二位关节点j2d与全连接层输出合并为三维关节点j3d;

6、迭代回归网络,输入图像特征a、三维关节点j3d及smpl模板形状参数β0、姿势参数θ0和初始相机参数c0,用三个全连接网络连接w0,生成对应维度的三个分量用形状参数β0、姿势参数θ0和初始相机参数c0逐位相加得到第一阶段输出形状参数β1、姿势参数θ1和初始相机参数c1,应用形状参数β1、姿势参数θ1和初始相机参数c1替换形状参数β0、姿势参数θ0和初始相机参数c0,

7、循环上述迭代回归网络操作,输出预测smpl的形状参数β2、姿势参数θ2和初始相机参数c2,

8、还包括计算损失函数,设定损失函数包括smpl参数,3d关节点和2d关节点三个部分,

9、其中,smpl参数损失的计算包括,使用平均平方误差去约束smpl中的形状参数β、姿势参数θ;

10、3d关节点损失的计算包括,通过预测的形状参数β3、姿势参数θ3和初始相机参数c3,并结合m(β,θ)=w(t(β,θ),j(β),θ,wg),得到预测的人体网格定点,其中m为人体网格,t为受姿势形变和形状形变影响的一种t姿势的中间网格,j(β)表示从中间网格中获取的关节点坐标矩阵,wg代表混合权重矩阵;利用x3d=x(m(θ,β))得到预测的3d关节点xpre,x(m(θ,β))是由神经网络训练的关节点回归器,代表网格顶点间的线性组合,使用平均平方误差去约束预测的3d关节点,对于通过三维关节点预测网络预测到的关节点,使用平均平方误差去对其进行约束;

11、2d关节点损失的计算包括,通过三维节点[x,y,z]按照[tx,ty,tz]平移更新,得到相机偏移量t,对关节点[x,y,z]实施变换得到像素坐标[u,v],将预测的3d关节点映射到2d空间得到预测的2d关节点,最后,使用平均平方误差去约束2d关节点。

12、在提取图片特征网络步骤中,将图像i放入resnet50提取原始图像特征a;

13、在三维关节点预测网络步骤中,应用openpose作为关节点检测器,获取图像i的二维关节点j2d,并通过二维关节点j2d预测三维关节点j3d;

14、在迭代回归网络步骤中,将图像特征a、三维关节点j3d和人体模板网格参数α拼接得到向量x,将x放入迭代回归网络中,得到预测的smpl参数和相机参数c。

15、将图像作为网络的输入,用一个3×3卷积层和一个最大池化层得到中间变量再通过四个阶段的包含残差结构的网络得到使用平均池化和展平操作将p1转化为图片特征

16、从图像中选择17个与smpl参数位置相似的二维关节点通过两个带有batch normalization、relu、dropout层的全连接层,将二维关节点与全连接层输出合并为三维关节点

17、在迭代回归网络步骤中,迭代回归网络的输入包括图像特征三维关节点smpl模板网格参数中形状参数姿势参数和初始相机参数用三个神经元数量为144、10、3的全连接网络连接得到第一阶段输出和进行替换后,完成阶段二和阶段三的网络,最终得到和相机参数

18、将三维关节点转换成维度为2048×1的特征,每层的结构和输出维度如下表所示,

19、表1迭代回归网络结构

20、

21、损失函数与包括smpl参数、3d关节点和2d关节点相关,

22、lloss=μ1lsmpl+μ22l3d+μ33l2d,

23、其中μ1、μ2和μ3代表各损失函数的权重数值。

24、smpl参数损失的计算包括,lsmpl=||θpre-θgt||2+||βpre-βgt||2,其中

25、代表预测的smpl参数,代表smpl实际值。

26、3d关节点损失的计算包括,

27、n代表关节点个数,取值在[17-24]之间,

28、总体三维关节点损失:

29、smpl三维关节点损失:

30、三维关节点预测网络的关节点损失:

31、通过得到相机偏移量t,

32、通过其中u0,v0分别为裁剪后图片的中点,

33、将预测的3d关节点映射到2d空间得到预测的2d关节点使用平均平方误差去约束2d关节点,l2d=||xsmplpre-xgt||2。

34、本发明的工作原理及有益效果为:

35、本方法用于从图像到三维人体重建任务,本章网络由一个原始图片特征提取网络和一个人体三维关节点预测网络构成,对原始图片特征以及三维关节点特征进行融合后,输入到迭代回归网络预测smpl人体参数模型。

36、在三维重建任务中,输入的三维信息都依赖于数据集使用深度相机或者扫描人体直接得到,使用多模态融合的方法实现基于smpl参数回归网络的rgb图像的三维重建,即在smpl参会回归的过程中,首先拟将输入的rgb图片先通过合适的方式[31]映射出三维关节点信息,同时保留图片特征,然后将三维关节点信息与二维信息融合输入star网络,增强输入的三维信息,将其回归出的star参数通过star参数回归网络回归出人体参数,重建人体模型。

37、首先,借助二维关节点检测技术获取人体结构信息;其次,构建双流网络分别提取原始图像特征和三维人体关节点信息;最后,将图像特征和三维人体关节点信息融合输入到迭代回归网络中预测人体模型参数。在human3.6m数据集上本文所提将现有基于人体模型参数方法的重建误差降低了4%。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1