一种基于自监督学习的单目RGB图像手势重建方法及系统

文档序号：36655541发布日期：2024-01-06 23:42阅读：22来源：国知局

本发明涉及计算机视觉图像识别领域中的自监督手势重建技术，特别是涉及处理单目rgb图像中手势姿态估计，光照纹理估计，自监督信号提取等难点问题的技术方案。

背景技术：

1、手势估计与重建是人机交互、手物交互分析、虚拟现实和增强现实技术应用的基础。其中单目rgb图像手势重建方法近年来得到了众多的关注，相比较于直接使用多视角图像和深度图像，其对在实际应用场景中使用的设备要求更低，更具有可操作性和实用性。然而，单目rgb图像手势重建面临着手势姿态估计、光照纹理估计、自监督信号提取等方面的挑战。具体来说：

2、(1)在手势姿态估计方面，手势姿态一般使用人手骨骼的21个关键点表示，关键点之间基于手部骨骼的层次结构存在广泛的相互关系和运动变化规律。现有模型中基于关节点回归的方法，无法保证回归出的关节点符合人手结构规律，尤其是在存在遮挡和复杂背景情况下的估计结果，而基于mano人手模型的方法，无法准确表达人手不同关节自由度的不同。因此，如何利用这些关系和规律，准确回归21个关键点位置是一大难题。

3、(2)在光照纹理估计方面，对手势的光照和纹理信息进行准确的估计，一方面可以帮助更准确的检测和定位手部关键点，提高手势重建的精度和鲁棒性，另一方面，可以帮助提高重建结果的逼真度和可视化效果，对于下游vr和ar相关应用具有重要意义。然而手势的纹理也存在多样性和复杂性，不同的环境光条件，如室内室外，白天和晚上；以及多样的手部纹理，如不同种族和肤色；如何将这些因素纳入到实现方法当中进行高效建模是一大难题。并且现有公开数据集上缺少对于相应的光照纹理标注，进一步增加了建模的难度。这些原因使得现有方法通常直接忽略光照和纹理估计。

4、(3)自监督信号提取方面，虽然目前深度学习技术在手势估计与重建领域取得了长足进步，但是深度学习需要大量的标注数据和计算资源，而手势重建的标注数据的获得需要依赖人工以及复杂的后处理。有限的标注数据会极大的限制模型的性能和在真实场景下的使用价值。因此研究自监督学习方法，通过利用未标注数据提取自监督信号进行自我监督学习，具有很大的研究价值，不仅可以减少人工标注成本，同时可以提高手势估计的鲁棒性和精度。

技术实现思路

1、针对现有技术面临的以上难题和挑战，本发明提供了一种基于自监督学习的单目rgb图像手势识别技术方案。

2、本发明的技术方案提供一种基于自监督学习的单目rgb图像手势重建方法，首先从rgb图像和视频中提取2d人手关键点检测结果，作为伪标签；然后改进参数化人手模型，注入符合人手运动学规律的姿态先验；接着构建3d人手重建网络和2d关键点检测器网络；最后针对图像和视频训练数据以及的2d关键点伪标签，对3d人手重建网络和可训练的2d关键点检测器设置自监督信号，训练手势估计网络，基于训练结果实现单目rgb图像手势重建。

3、而且，实现过程包括以下步骤，

4、步骤1，训练数据预处理，包括对收集到的视频和图片，利用openpose模型提取2d检测结果，输出多个人手关键点；

5、步骤2，改进参数化人手模型mano，以符合人手运动学规律；

6、步骤3，构建自监督学习框架s2hand和s2hand(v)，分别包含3d人手重建网络分支和2d关键点检测器分支；所述3d人手重建网络分支对输入的图像或单帧视频估计出光照纹理参数、相机参数、姿态参数和形状参数，用来获取带纹理的3d人手重建结果，并且利用可微渲染器得到与输入图像对齐的2d渲染重建结果；所述2d关键点检测器分支则用于估计出输入图像的2d人体关键点；

7、步骤4，针对图像和视频训练数据以及提取到的2d人手关键点检测结果，对3d重建网络和2d人手关键点检测器设置自监督信号，训练手势估计网络，实现单目rgb图像手势重建；其中，s2hand基于图像数据和2d人手关键点检测结果进行训练，s2hand(v)基于视频数据和相应的2d人手关键点检测结果进行训练。

8、而且，步骤1中，利用openpose模型提取2d检测结果时，输出21个人手关键点。

9、而且，步骤2中，将mano模型训练集中的3d人手姿态数据进行基于骨骼进行逆向运动学分解，得到符合关节自由度的各个关节的旋转角；接着使用pca变化得到改进后的姿态先验参数；最后替换掉mano模型中的姿态先验参数，构建新的正向运动学过程。

10、而且，所述3d人手重建网络分支中，对输入的图像或单帧视频通过编解码器估计出光照参数l、纹理参数t、相机参数c、姿态参数θ和形状参数β，这些参数通过改进的mano参数化人手模型得到带纹理的3d人手重建结果，并且通过可微渲染器得到2d图片域上的渲染结果，以及关键点的2d投影结果。

11、而且，所述2d关键点检测器分支中，通过沙漏网络得到各个关键点回归热图，进一步通过热图聚合方式得到各关键点的坐标。

12、另一方面，本发明还提供一种基于自监督学习的单目rgb图像手势重建系统，用于实现如上所述的一种基于自监督学习的单目rgb图像手势重建方法。

13、而且，包括以下模块，

14、第一模块，用于训练数据预处理，包括对收集到的视频和图片，利用openpose模型提取2d检测结果，输出多个人手关键点；

15、第二模块，用于改进参数化人手模型mano，以符合人手运动学规律；

16、第三模块，用于构建自监督学习框架s2hand和s2hand(v)，分别包含3d人手重建网络分支和2d关键点检测器分支；所述3d人手重建网络分支对输入的图像或单帧视频估计出光照纹理参数、相机参数、姿态参数和形状参数，用来获取带纹理的3d人手重建结果，并且利用可微渲染器得到与输入图像对齐的2d渲染重建结果；所述2d关键点检测器分支则用于估计出输入图像的2d人体关键点；

17、第四模块，用于针对图像和视频训练数据以及提取到的2d人手关键点检测结果，对3d重建网络和2d人手关键点检测器设置自监督信号，训练手势估计网络，实现单目rgb图像手势重建；其中，s2hand基于图像数据和2d人手关键点检测结果进行训练，s2hand(v)基于视频数据和相应的2d人手关键点检测结果进行训练。

18、或者，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于自监督学习的单目rgb图像手势重建方法。

19、或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于自监督学习的单目rgb图像手势重建方法。

20、总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

21、(1)使用面广。本设计可以从rgb图像中同时估计出姿态，形状，纹理，相机参数，纹理光照，适用于多种不同的人机交互应用场景。

22、(2)效率高。本设计可同时针对rgb图像和视频进行训练学习，视频数据的自监督学习中不引入新的模块，没有增加额外参数量，同时自监督信号直接作用人手重建的中间表示上而非最终重建结果上，计算量得到减少。

23、(3)精度高。本设计使用改进后的mano人手参数化模型，保证回归得到的人手关键点符合人体结构规律同时满足自由度限制。其次可以利用视频数据中符合人体关节运动规律的自监督信号，相比于之前的同类方法，精度更高。

24、(4)不依赖标注数据。本设计可以适用于从无标注的图像和视频中提取自监督信号学习手势估计网络，不依赖标注数据，同时可以充分利用广泛的未标注数据提高模型泛化性和性能。

25、由此，本发明提供了一种基于自监督学习的单目rgb图像手势重建方案，解决了单目rgb图像手势姿态估计，光照纹理估计，自监督信号提取等难点问题。具有可使用广泛的无标签图像和视频数据，精度高，效率高，泛化性强使用面广等优点。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：涂志刚,黄志胜,张嘉旭,谢伟,明均仁
技术所有人：武汉大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。