单视图人体三维重建方法与流程

文档序号:35967860发布日期:2023-11-09 08:16阅读:46来源:国知局
单视图人体三维重建方法与流程

本发明属于人工智能、计算机视觉、计算机图形学领域,具体涉及一种单视图人体三维重建方法。


背景技术:

1、人体三维重建技术是一种将人体姿态和形态进行捕捉,并通过计算机将其转化为具有三维形态和结构的技术,在医学、虚拟现实、运动分析等领域具有广泛的应用前景。但传统人体三维重建方法存在以下不足:

2、1)依赖于手工设计,这往往需要大量的领域知识,需要专业人员经过专门培训,成本较大;

3、2)需要大量特定数据的采集,需要更昂贵、专业的采集设备,并且有很多可调参数,具有很高的门槛。对于遮挡、光照变化、姿态变化等问题,传统方法的鲁棒性不好;

4、3)很难捕获细节,比如皮肤纹理或细微的面部特征;

5、4)3d模型的创建和渲染,需要较长的时间周期和处理时间,与可以通过继续学习和适应新数据的深度学习模型相比,传统方法可能缺乏自适应性。

6、基于此,本发明提出了一种单视图人体三维重建方法。


技术实现思路

1、为了解决现有技术中的上述问题,即为了解决现有人体三维重建方法重建的精度、效率鲁棒性较差的问题,本发明提出了一种单视图人体三维重建方法,该方法包括:

2、获取包含待三维重建人体的图像,作为全尺寸图像;

3、对所述全尺寸图像进行人体检测与人体区域分割,将分割得到的区域图像作为输入图像;

4、将所述输入图像输入训练好的人体三维重建模型,得到重建后的人体三维图像;

5、所述人体三维重建模型包括粗粒度重建单元、精细重建单元;

6、所述粗粒度重建单元包括transformer网络、回归网络、人体参数化网络;所述人体参数化网络用于根据提取的3d人体参数以及相机参数生成人体3d模型;

7、所述精细重建单元包括第一残差神经网络、第一加法器、全连接层、第二残差神经网络、第二加法器、多层感知机。

8、在一些优选的实施方式中,所述粗粒度重建单元对所述输入图像的处理过程为:

9、通过所述transformer网络对所述输入图像依次进行embedding、位置编码,将位置编码后的特征向量,作为第一向量;

10、将所述第一向量输入所述回归网络进行3d人体参数以及相机参数的提取;所述相机参数包括缩放参数、旋转参数、平移参数;所述3d人体参数包括形态参数、设定人体关键关节点对应的姿态参数;

11、将所述3d人体参数和所述相机参数输入所述人体参数化网络,生成人体3d模型,作为第一人体模型。

12、在一些优选的实施方式中,所述回归网络为3d回归网络;所述3d回归网络包含有n个网络层,每个网络层包含设定数量的神经元,且每个网络层后连接一个drop-out层;

13、所述3d回归网络为迭代执行的网络,即经过设定次迭代后,再将所述3d回归网络的输出输入至所述人体参数化网络;

14、其中,所述3d回归网络每次迭代的过程为:将所述transformer网络输出的第一向量以及所述3d回归网络第t次迭代输出的相机参数,输入所述3d回归网络,计算第t+1次迭代时所述相机参数的残差;

15、将第t+1次迭代时计算的残差与第t次迭代输出的相机参数相加,作为第t+1次迭代时所述3d回归网络输出的相机参数。

16、在一些优选的实施方式中,所述精细重建单元对所述输入图像的处理过程为:

17、通过所述第一残差神经网络提取所述输入图像的特征,作为第一特征;

18、提取各体素点在所述输入图像中的二维投影点的深度;将所述深度与所述第一特征输入所述第一加法器进行特征融合,将融合后的特征作为第二特征;

19、对所述第一人体模型进行三维体素化,得到三维体素人体;

20、将所述三维体素人体输入所述第二残差神经网络进行特征提取,得到第三特征;其中,所述第二残差神经网络输入的特征维度与所述第一加法器输出的特征维度相同;

21、将所述第二特征经过所述全连接层处理后,与所述第三特征输入所述第二加法器进行特征融合,将融合后的特征作为第四特征;

22、将所述第四特征输入所述多层感知机,得到各体素点的预测值,进而重建人体三维图像。

23、在一些优选的实施方式中,所述人体三维重建模型,其在训练过程中的损失函数为:

24、

25、

26、

27、

28、

29、

30、其中,表示总损失,表示正交投影损失,表示3d人体损失,表示第一残差损失,表示第二残差损失,表示全连接损失,表示多层感知损失,是是否存在的指示函数,即存在的话,,否则,是第个2d人体关键关节点的可见性,是第个2d人体关键关节点的预测值,是第个2d人体关键关节点的真值,表示下标,是所有2d人体关键关节点的损失之和,是正交投影,s是缩放参数,r是旋转参数,t是平移参数,表示人体关键关节点,是二维的人体关键关节点的预测值,、分别表示第个3d人体关键关节点的真值、预测值,、分别表示姿态参数的真值、形态参数的真值,、分别表示姿态参数的预测值、形态参数的预测值,第一残差损失为基于所述第一残差神经网络的输出与对应的真值,通过mse损失函数计算的损失值,第二残差损失为基于所述第二残差神经网络的输出与对应的真值,通过mse损失函数计算的损失值,全连接损失为基于所述全连接层的输出与对应的真值,通过mse损失函数计算的损失值,多层感知损失为基于所述多层感知机的输出与对应的真值,通过mse损失函数计算的损失值,是3d人体关节损失,是3d人体姿态参数和形态参数的损失。

31、在一些优选的实施方式中,所述粗粒度重建单元,其训练方法为:

32、获取包含待三维重建人体的图像,作为全尺寸图像;

33、对所述全尺寸图像进行人体检测与人体区域分割,并对分割得到的区域图像进行尺寸调整,将尺寸调整后的区域图像作为训练样本;所述训练样本标注有关键关节点的位置;

34、将所述训练样本逐像素的输入所述transformer网络中,并对所述训练样本掩码设定百分比的像素点,通过所述transformer网络对像素点掩码后的训练样本进行补全,基于补全后的训练样本、所述transformer网络输入的训练样本,计算损失值,进而训练所述transformer网络的kqv矩阵;

35、循环对所述transformer网络训练,直至训练完成;

36、重新获取训练样本,输入训练完成的transformer网络,将所述训练完成的transformer网络的输出,输入所述3d回归网络进行3d人体参数以及相机参数的提取;

37、将所述3d人体参数和所述相机参数输入所述人体参数化网络,生成人体3d模型,作为第一人体模型,进而计算,更新所述3d回归网络的网络参数。

38、在一些优选的实施方式中,所述第一残差神经网络基于2d的残差网络构建;所述第二残差神经网络基于3d的残差网络构建。

39、本发明的第二方面,提出了一种单视图人体三维重建方法,该方法包括:

40、获取包含待三维重建人体的图像,作为全尺寸图像;

41、对所述全尺寸图像进行人体检测与人体区域分割,将分割得到的区域图像作为输入图像;

42、将所述输入图像输入训练好的人体三维重建模型,得到重建后的人体三维图像;

43、所述人体三维重建模型包括transformer网络、回归网络、人体参数化网络、判别器;所述人体参数化网络用于根据提取的3d人体参数以及相机参数生成人体3d模型。

44、在一些优选的实施方式中,将所述输入图像输入训练好的人体三维重建模型,得到重建后的人体三维图像,其方法为:

45、通过所述transformer网络对所述输入图像依次进行embedding、位置编码,将位置编码后的特征向量,作为第一向量;

46、将所述第一向量输入所述回归网络进行3d人体参数以及相机参数的提取;所述相机参数包括缩放参数、旋转参数、平移参数;所述3d人体参数包括形态参数、设定人体关键关节点对应的姿态参数;

47、对所述人体关节关键点对应的参数输入所述判别器进行判别,当判别结果为真,则将所述3d人体参数和所述相机参数输入所述人体参数化网络,生成人体3d模型,进而重建人体三维图像。

48、在一些优选的实施方式中,所述判别器包括形态判别器、姿态判别器和整体判别器;

49、所述形态判别器,基于第一设定层数的神经网络构建;所述形态判别器,用于判断所述形态参数的真假;

50、所述姿态判别器,基于第二设定层数的神经网络构建;将所述设定人体关键关节点对应的姿态参数通过罗德里格旋转公式进行转换,得到旋转矩阵;将各旋转矩阵输入全连接网络处理,处理后,分别发送至对应的姿态判别器得到所述设定人体关键关节点对应的姿态参数的真假;

51、所述整体判别器,基于第三设定层数的神经网络构建;将所有的设定人体关键关节点对应的姿态参数输入所述整体判别器,进而得到整体形态参数的真假;

52、其中,所述第一设定层数的神经网络、所述第二设定层数的神经网络、所述第三设定层数的神经网络均包含有输入层、隐藏层、输出层。

53、本发明的有益效果:

54、本发明提升了人体三维重建的精度、效率鲁棒性。

55、1)本发明通过粗粒度重建单元构建待重建人体的粗模,对粗模进行三维体素化,然后结合各体素点的深度信息,通过精细重建单元对图像中的人体进一步重建,进而得到精度较高的人体三维图像;

56、2)本发明通过transformer获取局部图像的所有信息,输入回归网络,通过迭代执行回归网络,根据残差更新回归网络提取的人体关节关键点以及相机参数,可以得到更精确的人体参数,进而提升人体三维重建的鲁棒性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1