一种基于Transformer的手部模型重建方法及装置

文档序号:36311461发布日期:2023-12-07 14:52阅读:45来源:国知局
一种基于

本发明涉及人机交互,特别是指一种基于transformer的手部模型重建方法及装置。


背景技术:

1、手部姿态重建是计算机视觉领域的一项重要任务,以往的研究多关注于单手手部三维重建,但是由于人类常常需要利用双手和外界进行交互,双手图像常常存在复杂的交互和遮挡情况,并且双手皮肤材质的相似也进一步提升了重建的难度。对于双手交互状态的手部模型重建任务来说,虽然单手重建方法同样能够实现双手的重建,但是由于双手交互时存在严重遮挡,并且双手之间皮肤材质的相似也进一步增大了重建的难度,之前的单手重建方法无法较好地处理双手交互的情况。一些以往的方法采用深度相机跟踪手部,但是其成本相比于普通相机较高,且应用较难。

2、随着双手交互数据集i nterhand2.6m的推出,一些直接从rgb图像中重建双手的方法被提出。采用两阶段的方式,先利用编码器预测双手的mano参数模型参数和3d关键点,再利用全连接神经网络进一步微调。通过预测初始的参数表示再微调的方式,提升重建效果。但是该方法没有考虑中间表示,并且由于有符号距离场的目标函数较难优化,因此重建效果一般。

3、考虑重建当中图像特征的重要性,引入了多尺度特征提取器,配合2.5d heatmap提取器提取出关节点对齐的特征。由于采用了mano参数模型作为手部的表示,因此同样采用了预测初始参数再微调的方式,通过级联的微调模块得到更加精确的重建结果。但是由于仅仅采用了2.5d heatmap,中间表示较为单一,因此针对一些较为复杂的场景很难较好的重建。

4、直接采用网格顶点作为预测的结果,这种表示方式已被证明能够得到较为对齐的重建结果。并且其预测了多种中间表示作为辅助任务来提取出对重建有用的特征,采用特征金字塔提取多尺度特征。但是由于非参数化表示的不稳定性,其对严重遮挡情况处理得不好。

5、在现有技术中,缺乏一种重建精度高、鲁棒性强以及对真实数据依赖小的手部模型重建方法。


技术实现思路

1、本发明实施例提供了一种基于transformer的手部模型重建方法及装置。所述技术方案如下:

2、一方面,提供了一种基于transformer的手部模型重建方法,该方法由电子设备实现,该方法包括:

3、对手部姿态的生成条件进行设定,获得合成参数;

4、将所述合成参数输入合成数据生成管线,获得合成数据集;

5、基于transformer学习模型进行模型构建,获得待训练手部重建模型;

6、使用所述合成数据集和预设的真实数据集,对所述待训练手部重建模型进行训练,获得手部重建模型;

7、输入目标手部图片,通过所述手部重建模型进行重建,获得目标手部重建模型。

8、其中,所述合成参数包括手部姿态标注的生成方式、相机位置和光照参数。

9、可选地,所述将所述合成参数输入合成数据生成管线,获得合成数据集,包括:

10、基于所述手部姿态标注的生成方式,通过预设的标注生成器,获得合成标注生成数据;

11、基于所述手部姿态标注的生成方式,通过预设的背景生成器,获得合成背景生成数据;

12、采用所述相机位置、所述光照参数、所述合成标注生成数据和所述合成背景生成数据,通过预设的网格渲染器,获得合成数据集。

13、其中,所述待训练手部重建模型包括多层特征提取模块、顶点回归和模型重建模块。

14、其中,所述多层特征提取模块用于提取待训练手部重建模型的输入数据的多尺度图像特征。

15、其中,所述顶点回归和模型重建模块用于回归重建模型的顶点坐标以及根据重建模型的顶点坐标进行模型重建;

16、所述顶点回归和模型重建模块包括3个mano先验迁移子模块;所述mano先验迁移子模块包括1个图卷积神经网络子模块和2个transformer子模块。

17、可选地,所述输入目标手部图片,通过所述手部重建模型进行重建,获得目标手部重建模型,包括:

18、根据输入目标手部图片,获得待重建mano特征和待重建顶点特征;

19、根据待重建mano特征和待重建顶点特征,通过新型的多头自注意力机制和注意力掩码进行回归操作,获得待重建顶点坐标;

20、基于所述待重建顶点坐标进行模型构建,获得目标手部重建模型。

21、另一方面,提供了一种基于transformer的手部模型重建装置,该装置应用于一种基于transformer的手部模型重建方法,该装置包括:

22、参数合成模块,用于对手部姿态的生成条件进行设定,获得合成参数;

23、合成数据生成管线模块,用于将所述合成参数输入合成数据生成管线,获得合成数据集;

24、模型构建模块,用于基于transformer学习模型进行模型构建,获得待训练手部重建模型;

25、模型训练模块,用于使用所述合成数据集和预设的真实数据集,对所述待训练手部重建模型进行训练,获得手部重建模型;

26、手部模型重建模块,用于输入目标手部图片,通过所述手部重建模型进行重建,获得目标手部重建模型。

27、其中,所述合成参数包括手部姿态标注的生成方式、相机位置和光照参数。

28、可选地,所述合成数据生成管线模块,进一步用于:

29、基于所述手部姿态标注的生成方式,通过预设的标注生成器,获得合成标注生成数据;

30、基于所述手部姿态标注的生成方式,通过预设的背景生成器,获得合成背景生成数据;

31、采用所述相机位置、所述光照参数、所述合成标注生成数据和所述合成背景生成数据,通过预设的网格渲染器,获得合成数据集。

32、其中,所述待训练手部重建模型包括多层特征提取模块、顶点回归和模型重建模块。

33、其中,所述多层特征提取模块用于提取待训练手部重建模型的输入数据的多尺度图像特征。

34、其中,所述顶点回归和模型重建模块用于回归重建模型的顶点坐标以及根据重建模型的顶点坐标进行模型重建;

35、所述顶点回归和模型重建模块包括3个mano先验迁移子模块;所述mano先验迁移子模块包括1个图卷积神经网络子模块和2个transformer子模块。

36、可选地,所述手部模型重建模块,进一步用于:

37、根据输入目标手部图片,获得待重建mano特征和待重建顶点特征;

38、根据待重建mano特征和待重建顶点特征,通过新型的多头自注意力机制和注意力掩码进行回归操作,获得待重建顶点坐标;

39、基于所述待重建顶点坐标进行模型构建,获得目标手部重建模型。

40、另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种基于transformer的手部模型重建方法。

41、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种基于transformer的手部模型重建方法。

42、本发明实施例提供的技术方案带来的有益效果至少包括:

43、本发明提出一种基于transformer的手部重建方法,通过合成数据生成管线生成大量合成数据集,合成数据集的生成成本低,标注种类和背景光照符合训练需要;基于transformer网络构建的手部重建模型,提升了重建结果的稳定性和精确性;在采用编码器-解码器的基础上,通过新型的多头自注意力机制,增加了手部顶点特征与mano特征间的注意力交互;采用注意力掩码机制,提升了重建模型的准确性和重建方法的稳定性。本发明是一种重建精度高、鲁棒性强以及对真实数据依赖小的手部模型重建方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1