手部骨骼姿态估计与动作识别模型训练方法、识别方法和设备

文档序号：37869061发布日期：2024-05-09 21:13阅读：10来源：国知局

本技术涉及图像处理，尤其涉及手部骨骼姿态估计与动作识别模型训练方法、识别方法和设备。

背景技术：

1、随着虚拟现实和增强现实等领域的快速发展，用户对手势动作识别和手部骨骼姿态估计的应用需求越来越大。现有的手部骨骼姿态估计方法主要分为两类：基于图卷积神经网络(graph convolutional networks，gcn)的方法和基于卷积神经网络(convolutional neural networks，cnn)的方法。其中，在基于图卷积神经网络的方法中，提取初始二维坐标，通过图卷积神经网络进行二维手部骨骼姿态估计，最后将二维坐标转换为三维坐标。而在基于卷积神经网络的方法中，使用投影从输入的三维点云生成手的三维体积表示，并以端到端的方式训练三维卷积神经网络以将三维体积表示映射到三维体积中的三维手关节相对位置。deephand系统是基于深度图的方法，采用回归的方法找到手部关键点的位置，并为每根手指训练了一个卷积神经网络。

2、然而，现有的卷积神经网络并不适合处理类似手部骨骼的结构化数据。而现有的基于图神经网络的手部骨骼姿态估计与动作识别方法，虽然可以采用适合处理结构化数据的图卷积神经网络进行手部骨骼关键点的坐标估计，但图卷积神经网络对于节点特征的表示比较固定且不够灵活，需要提前定义图的结构。

3、因此，亟需设计一种能够有效地利用图数据的结构信息的手部骨骼姿态估计与动作识别模型的训练方式。

技术实现思路

1、鉴于此，本技术实施例提供了手部骨骼姿态估计与动作识别模型训练方法、识别方法和设备，以消除或改善现有技术中存在的一个或更多个缺陷。

2、本技术的一个方面提供了一种手部骨骼姿态估计与动作识别模型训练方法，包括：

3、分别获取多种手部动作类型各自对应的连续的多个手部图像数据，以及各个所述手部图像数据各自对应的手部动作类型标签、关键点二维坐标集合和关键点三维坐标集合；

4、基于各个所述手部图像数据和各自对应的关键点二维坐标集合，将图注意力网络训练为用于输出手部图像数据的关键点二维坐标集合估计结果的二维手部骨骼姿态估计模型；

5、采用各个所述手部图像数据各自对应的所述关键点二维坐标集合估计结果和所述关键点三维坐标集合训练医学图像分割模型，并采用各个所述手部图像数据各自对应的所述关键点二维坐标集合估计结果和所述手部动作类型标签训练动作识别网络，以将所述医学图像分割模型训练为用于输出手部图像数据的关键点三维坐标集合估计结果的三维手部骨骼姿态估计模型，并将所述动作识别网络训练为用于输出手部图像数据的手部动作类型识别结果的手部动作识别模型。

6、在本技术的一些实施例中，所述基于各个所述手部图像数据和各自对应的关键点二维坐标集合，将图注意力网络训练为用于输出手部图像数据的关键点二维坐标集合估计结果的二维手部骨骼姿态估计模型，包括：

7、将各个所述手部图像数据输入预设的残差神经网络，以使该残差神经网络分别对各个所述手部图像数据进行各个关键点的特征提取，以得到各个所述手部图像数据各自对应的初始关键点二维坐标集合以及初始特征数据，再将每个所述手部图像数据各自对应的初始关键点二维坐标集合以及初始特征数据分别进行拼接，以输出各个所述手部图像数据各自对应的特征向量；

8、基于各个所述手部图像数据各自对应的所述特征向量和所述关键点二维坐标集合，以关键点二维坐标的均方误差损失作为损失函数训练预设的图注意力网络，以将该图注意力网络训练为一个用于输出手部图像数据的关键点二维坐标集合估计结果的二维手部骨骼姿态估计模型。

9、在本技术的一些实施例中，所述图注意力网络包括：

10、注意力系数学习层，用于根据当前输入的所述手部图像数据对应的所述特征向量，获取并修正该手部图像数据对应的注意力系数矩阵，并根据修正后的注意力系数矩阵对所述特征向量进行加权求和处理，以得到所述手部图像数据对应的经注意力机制处理后的特征向量；

11、多头注意力层，用于基于多头注意力机制，获取所述手部图像数据对应的所述经注意力机制处理后的特征向量对应的多个注意力头的识别结果，并对各个所述注意力头的识别结果进行拼接，以得到所述手部图像数据中各个所述关键点各自对应的拼接后特征向量；

12、图注意力输出层，用于根据所述手部图像数据中各个所述关键点各自对应的拼接后特征向量，生成并输出该手部图像数据对应的关键点二维坐标集合估计结果。

13、在本技术的一些实施例中，所述注意力系数学习层包括：

14、相似系数计算单元，用于根据当前输入的所述手部图像数据对应的所述特征向量，分别计算该手部图像数据中的每个所述关键点与各自相邻的关键点之间的注意力系数；

15、修正线性单元，用于对所述手部图像数据中的每个所述关键点与各自相邻的关键点之间的注意力系数进行归一化处理，以得到该手部图像数据对应的注意力系数矩阵；

16、注意力系数修正单元，用于根据所述手部图像数据当前的各个所述关键点之间的重要程度矩阵，对该手部图像数据对应的所述注意力系数矩阵进行修正，以得到该手部图像数据对应的修正后的注意力系数矩阵；

17、注意力机制处理单元，用于基于所述修正后的注意力系数矩阵，对所述手部图像数据中的各个所述关键点分别与各自相邻的关键点的特征向量进行加权求和，以得到该手部图像数据对应的经注意力机制处理后的特征向量。

18、在本技术的一些实施例中，所述采用各个所述手部图像数据各自对应的所述关键点二维坐标集合估计结果和所述关键点三维坐标集合训练医学图像分割模型，包括：

19、基于各个所述手部图像数据各自对应的所述关键点二维坐标集合估计结果和所述关键点三维坐标集合，以预设的组合损失函数训练预设的医学图像分割模型；

20、其中，所述组合损失函数由关键点二维坐标和关键点三维坐标的均方误差损失以及所述手部动作类型识别结果的交叉熵损失组成。

21、在本技术的一些实施例中，所述动作识别网络包括：

22、时空图卷积网络，用于对当前输入的所述手部图像数据的关键点三维坐标集合估计结果进行特征提取，以得到该手部图像数据对应的时空特征；

23、软注意力层，用于计算所述手部图像数据的注意力系数，并基于该注意力系数对所述时空特征进行加权，以得到所述手部图像数据对应的加权特征；

24、二维平均池化层，用于对所述手部图像数据对应的加权特征进行二维平均池化处理，以得到所述手部图像数据对应的池化特征；

25、二维卷积层，用于根据所述手部图像数据对应的池化特征识别得到该手部图像数据对应的类别概率特征；

26、归一化层，用于根据所述手部图像数据对应的类别概率特征归一化得到所述手部图像数据对应的各个手部动作的概率，以输出该手部图像数据的手部动作类型识别结果。

27、在本技术的一些实施例中，所述分别获取多种手部动作类型各自对应的连续的多个手部图像数据，以及各个所述手部图像数据各自对应的手部动作类型标签、关键点二维坐标集合和关键点三维坐标集合，包括：

28、获取多种手部动作类型各自对应的连续的多个真实手部图像；

29、将各个所述真实手部图像分别进行维度预处理，以得到维度相同的各个手部图像数据；

30、接收各个所述手部图像数据各自对应的手部动作类型标签、关键点二维坐标集合和关键点三维坐标集合，其中，所述关键点二维坐标集合和关键点三维坐标集合中的各个关键点均包含有多个手部关键点和多个物体角点。

31、本技术的另一个方面提供了一种手部骨骼姿态估计与动作识别方法，包括：

32、获取目标手部图像数据；

33、将所述目标手部图像数据输入预设的二维手部骨骼姿态估计模型，以使该二维手部骨骼姿态估计模型输出所述目标手部图像数据对应的关键点二维坐标集合估计结果；

34、将所述目标手部图像数据对应的关键点二维坐标集合估计结果分别输入预设的三维手部骨骼姿态估计模型和手部动作识别模型，以使所述三维手部骨骼姿态估计模型输出所述目标手部图像数据对应的关键点三维坐标集合估计结果，并使得所述手部动作识别模型输出所述目标手部图像数据对应的手部动作类型识别结果；

35、其中，所述二维手部骨骼姿态估计模型、三维手部骨骼姿态估计模型和手部动作识别模型预先基于所述手部骨骼姿态估计与动作识别模型训练方法训练得到。

36、本技术的第三个方面提供一种手部骨骼姿态估计与动作识别模型训练装置，包括：

37、训练数据获取模块，用于分别获取多种手部动作类型各自对应的连续的多个手部图像数据，以及各个所述手部图像数据各自对应的手部动作类型标签、关键点二维坐标集合和关键点三维坐标集合；

38、二维模型训练模块，用于基于各个所述手部图像数据和各自对应的关键点二维坐标集合，将图注意力网络训练为用于输出手部图像数据的关键点二维坐标集合估计结果的二维手部骨骼姿态估计模型；

39、三维及识别模型训练模块，用于采用各个所述手部图像数据各自对应的所述关键点二维坐标集合估计结果和所述关键点三维坐标集合训练医学图像分割模型，并采用各个所述手部图像数据各自对应的所述关键点二维坐标集合估计结果和所述手部动作类型标签训练动作识别网络，以将所述医学图像分割模型训练为用于输出手部图像数据的关键点三维坐标集合估计结果的三维手部骨骼姿态估计模型，并将所述动作识别网络训练为用于输出手部图像数据的手部动作类型识别结果的手部动作识别模型。

40、本技术的第四个方面提供一种手部骨骼姿态估计与动作识别装置，包括：

41、目标数据获取模块，用于获取目标手部图像数据；

42、二维手部骨骼姿态估计模块，用于将所述目标手部图像数据输入预设的二维手部骨骼姿态估计模型，以使该二维手部骨骼姿态估计模型输出所述目标手部图像数据对应的关键点二维坐标集合估计结果；

43、三维手部骨骼姿态估计及动作识别模块，用于将所述目标手部图像数据对应的关键点二维坐标集合估计结果分别输入预设的三维手部骨骼姿态估计模型和手部动作识别模型，以使所述三维手部骨骼姿态估计模型输出所述目标手部图像数据对应的关键点三维坐标集合估计结果，并使得所述手部动作识别模型输出所述目标手部图像数据对应的手部动作类型识别结果；

44、其中，所述二维手部骨骼姿态估计模型、三维手部骨骼姿态估计模型和手部动作识别模型预先基于所述手部骨骼姿态估计与动作识别模型训练方法训练得到。

45、本技术的第五个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述手部骨骼姿态估计与动作识别模型训练方法，和/或，实现所述手部骨骼姿态估计与动作识别方法。

46、本技术的第六个方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述手部骨骼姿态估计与动作识别模型训练方法，和/或，实现所述手部骨骼姿态估计与动作识别方法。

47、本技术的第七个方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现所述手部骨骼姿态估计与动作识别模型训练方法，和/或，实现所述手部骨骼姿态估计与动作识别方法。

48、本技术提供的手部骨骼姿态估计与动作识别模型训练方法，分别获取多种手部动作类型各自对应的连续的多个手部图像数据，以及各个所述手部图像数据各自对应的手部动作类型标签、关键点二维坐标集合和关键点三维坐标集合；基于各个所述手部图像数据和各自对应的关键点二维坐标集合，将图注意力网络训练为用于输出手部图像数据的关键点二维坐标集合估计结果的二维手部骨骼姿态估计模型；采用各个所述手部图像数据各自对应的所述关键点二维坐标集合估计结果和所述关键点三维坐标集合训练医学图像分割模型，并采用各个所述手部图像数据各自对应的所述关键点二维坐标集合估计结果和所述手部动作类型标签训练动作识别网络，以将所述医学图像分割模型训练为用于输出手部图像数据的关键点三维坐标集合估计结果的三维手部骨骼姿态估计模型，并将所述动作识别网络训练为用于输出手部图像数据的手部动作类型识别结果的手部动作识别模型，通过采用图注意力网络gat作为二维手部骨骼姿态估计模型，将手部图像数据转化为合适的输入表示，能够基于注意力机制有效地利用手部图像数据的结构信息，并能够有效提高手部图像数据的结构信息利用的灵活性及可靠性，进而能够使得训练得到的二维手部骨骼姿态估计模型，以及根据二维手部骨骼姿态估计模型的输出训练得到的三维手部骨骼姿态估计模型和手部动作识别模型均能够具备更好的性能和泛化能力，能够有效提高采用二维手部骨骼姿态估计模型进行手部图像的关键点二维坐标估计的准确性，能够有效提高采用三维手部骨骼姿态估计模型进行手部图像的关键点三维坐标估计的准确性，并能够有效提高采用手部动作识别模型进行手部动作类型识别的准确性。

49、本技术的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本技术的实践而获知。本技术的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

50、本领域技术人员将会理解的是，能够用本技术实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本技术能够实现的上述和其他目的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：齐梦实,赵喆,马华东
技术所有人：北京邮电大学
我是此专利的发明人

上一篇：一种用于自动化装配线的托盘输送结构的制作方法
上一篇：一种防氧化富含多酚原料粉碎装置

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。