一种人体手部骨架检测方法及系统

文档序号:28168187发布日期:2021-12-24 23:02阅读:172来源:国知局
一种人体手部骨架检测方法及系统

1.本发明涉及图像处理技术领域,具体涉及一种人体手部骨架检测方法及系统。


背景技术:

2.人体的手部骨架估计长期都是计算视觉领域中的主要内容,通过骨架分析得到人体的关键点,可以简化动作估计的过程,尤其对于一些3d人体手部重建任务,手部骨架估计是先验任务之一。现有技术中,手部骨架检测主要分为自顶而下和自下而上的方法。自顶而下的方法首先检测场景中的所有手部,定位出手部的检测框,每个检测框包含手部骨架的2d关键点,然后对该2d关键点通过全连层估计出3d手部骨架姿势。而自下而上的做法是通过检测整张图片的关键点,再通过聚类对各个关键点分组从而得到每个人的关键点骨架。人体手部骨架估计在抓取的场景下更具挑战性,因为该场景下手部骨架存在着被遮挡的情况,使得关键点的检测不够准确。


技术实现要素:

3.有鉴于此,本发明的目的在于提供一种人体手部骨架检测方法及系统,通过结合人体关节结构之间的基本约束信息以及挖掘出的特征图中包含的被遮挡关键点的相关数据,能够精确地调整被遮挡关键点的位置,因此对于人体手部骨架的检测具有较高的正确率。
4.为实现上述目的,本发明采用如下技术方案:
5.一种人体手部骨架检测方法,包括以下步骤:
6.步骤s1:获取待识别图片,并预处理;
7.步骤s2:根据预处理后的待识别图片,通过检测基础检测框架获取初始化手部主要位置;
8.步骤s3:通过三种热度图编码来获取初始手部姿态;
9.步骤s4:获取处理所述待识别图片过程中不同解码层输出的特征图,得到特征图数据,并在特征图数据中提取与初始手部姿态对应的位置数据;
10.步骤s5:根据初始手部姿态以及位置数据,基于图卷积神经网络,获取所述手部体骨架的最终姿态。
11.进一步的,所述步骤s3具体为:
12.步骤s31:利用检测网络处理待识别图片,并将手部图片切割出来;
13.步骤s32:利用骨架检测网络处理已切割手部图片,生成目标人体骨架的二维热度图,三维位置热度图和三维偏移热度图;
14.步骤s33:将所述热度图转化为坐标数据,作为目标手部骨架的初始姿态。
15.进一步的,所述获取处理所述待识别图片过程中不同解码层输出的特征图,具体为:利用骨架检测网络处理待识别图片,从中提取出至少三个解码层的特征图记为以及并且根据手部骨架初始状态的位置坐标p,来抽出对应关节点的节点特

16.进一步的,所述得到特征图数据,并在特征图数据中提取与初始手部姿态对应的位置数据,具体为:
17.将特征图转化为特征图数据并从所述特征图数据中根据初始坐标p提取位置数据
18.融合特征图并从融合后的特征图数据中根据初始坐标p提取位置数据
19.融合特征图并从融合后的特征图数据中根据初始坐标p提取位置数据
20.进一步的,所述融合特征图的部分,包括:
21.(1)处理所述特征图至相同的分辨率以及通道数;
22.(2)利用自注意力网络融合步骤(1)中处理得到的特征,并进行归一化处理;
23.(3)融合步骤(2)中处理得到的特征与步特征获取特征图数据
24.进一步的,所述图卷积神经网络训练,具体如下:分别将位置数据输入图卷积神经网络的注意力模块,其中,第一个所述注意力模块获取所述初始姿态以及所述位置数据作为输入特征;第二个所述注意力模块获取所述第一个注意力模块的输出特征以及所述位置数据作为输入特征;第三个所述注意力模块获取所述第二个注意力模块的输出特征以及所述位置数据作为输入特征。
25.一种人体手部骨架检测系统,包括
26.第一获取模块,用于处理待识别图片,获取目标人体手部骨架的初始姿态;
27.第二获取模块,用于获取处理所述待识别图片过程中不同解码层输出的特征图;
28.提取模块,用于处理所述特征图得到特征图数据,并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据;
29.第三获取模块,包括训练后的图卷积神经网络,用于将输入初始姿态以及输入数据至经过训练的图卷积神经网络,获取所述目标人体手部骨架的最终姿态。
30.本发明与现有技术相比具有以下有益效果:
31.本发明通过结合人体关节结构之间的基本约束信息以及挖掘出的特征图中包含的被遮挡关键点的相关数据,能够精确地调整被遮挡关键点的位置,因此对于人体手部骨架的检测具有较高的正确率。
附图说明
32.图1是本发明方法流程图;
33.图2是本发明系统网络架构;
34.图3是现有技术与本公开的实施例的人体手部骨架检测方法的对比效果示意图;
35.图4示出现有技术与本公开的实施例的人体手部骨架检测方法在自然场景下对比效果示意图;
36.图5是本发明一实施例中特征图融合的流程图;
37.图6本发明一实施例中特征图融合的流程图;
38.图7本发明一实施例中人体手部骨架检测装置的结构框图;
39.图8本发明一实施例中电子设备的结构框图;
40.图9本发明一实施例中系统的结构示意图。
具体实施方式
41.下面结合附图及实施例对本发明做进一步说明。
42.下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
43.在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
44.另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
45.上文提及,人体手部骨架估计长期都是计算视觉领域中的主要内容,通过骨架分析得到手部的关键点,可以简化动作估计的过程,尤其对于一些3d人体手部重建任务,骨架估计是先验任务之一。现有技术中,骨架检测主要分为自顶而下和自下而上的方法。自顶而下的方法首先检测场景中的所有手部,定位出手部的检测框,每个检测框包含手部骨架的关键点,然后对每个手部进行姿势估计。
46.本公开提出的人体手部骨架检测方法,通过结合人体手部关节结构之间的基本约束信息以及挖掘出的特征图中包含的被遮挡关键点的相关数据,能够精确地调整被遮挡关键点的位置,因此对于人体手部骨架的检测具有较高的正确率。
47.请参照图1,本发明提供一种人体手部骨架检测方法,包括以下步骤:
48.步骤s1:获取待识别图片,并预处理;
49.步骤s2:根据预处理后的待识别图片,通过检测基础检测框架获取初始化手部主要位置;
50.步骤s3:通过三种热度图编码来获取初始手部姿态;
51.步骤s4:获取处理所述待识别图片过程中不同解码层输出的特征图,得到特征图数据,并在特征图数据中提取与初始手部姿态对应的位置数据;
52.步骤s5:根据初始手部姿态以及位置数据,基于图卷积神经网络,获取所述手部体骨架的最终姿态。其中,所述图卷积神经网络的矩阵表示根据人体手部骨架结构的约束关系确定。
53.参考图2,在本实施例中,还提供一种人体手部骨架检测系统,包括初始姿势估计模块110、特征融合模块120和图卷积神经网络130。
54.初始姿势估计模块110用于处理待识别图片,获取目标手势骨架的初始姿态。首先
从待识别图片中获取目标骨架关键点的热度图(heat map)三维位置图(location map)以及三维偏移图(delta map),然后将三个热度图转化为三维坐标表示的目标人体手部骨架的初始姿态。
55.特征融合模块120用于获取处理所述待识别图片过程中不同解码层输出的特征图,并处理所述特征图得到特征图数据。比如,从所述初始姿势估计模块110处理待识别图片得到热度图的后三层解码层中依次提取出特征图1、2、3,然后通过特征融合生成特征图数据。其中,三个解码层提取出的特征图1、2、3的分辨率递增以及通道数递减。不同分辨率以及通道数的特征图1、2、3表示人体骨架被遮挡关键点的不同精确程度的细节特征。
56.特征融合模块120由多个转换子模块121构成。转换子模块121用于将待融合的两个特征图数据转换为相同通道数的特征和用于融合经过转换的特征图数据,生成特征图数据
57.特征融合模块120和所述图卷积神经网络130联合用于调整手部骨架初始姿态,精确地调整待识别图片中被遮挡关键点的位置。其中,所述特征融合模块120在处理特征图的过程中,特征图1、2、3按照分辨率从低至高的顺序被融合,从而能够利用特征图上下文信息,挖掘出不同特征图之间手部骨架被遮挡关键点的细节特征,相应的得到三个特征图数据三个特征图数据分别提取与所述初始姿态对应的位置数据作为输入数据,分别输入到所述图卷积神经网络130中图卷积模块131训练权重,并相应输出目标手部骨架的姿势1、姿势2和最终姿势。联合姿势1、姿势2以及最终姿势的误差确定目标函数训练所述图卷积神经网络130。
58.图卷积神经网络130根据所述初始姿态以及输入数据输出目标人体手部骨架的最终姿态,其中,所述输入数据为从所述特征图数据中提取的与所述初始姿态对应的位置数据。其中,所述图卷积神经网络130中的拉普拉斯矩阵提供人体手部结构关节之间的基本约束信息。
59.现有的手部骨架检测方法很大程度上依赖于热图表示法进行关节位置估计,对于被遮挡关键点的位置估计往往不够准确。如图3所示,图3上层以及图3下层中手部关节存在遮挡,与上图相比较,下侧图为采用本公开的方法正确识别出的骨架位置。图4是该算法用于自然抓取场景下的检测结果。如结果所示,即使在抓取过程中存在着较大面积的遮挡,由于引入了手部骨架图的约束,使得算法能够在一定程度上估计出准确的手部骨架。
60.优选的,在本实施例中,步骤s3具体为:
61.步骤s31:利用检测网络处理待识别图片,并将手部图片切割出来;
62.步骤s32:利用骨架检测网络处理已切割手部图片,生成目标人体骨架的二维热度图,三维位置热度图和三维偏移热度图;
63.步骤s33:将所述热度图转化为坐标数据,作为目标手部骨架的初始姿态。
64.选的,在本实施例中,获取处理所述待识别图片过程中不同解码层输出的特征图,具体为:利用骨架检测网络处理待识别图片,从中提取出至少三个解码层的特征图记为以及并且根据手部骨架初始状态的位置坐标p,来抽出对应关节点的节点特

65.选的,在本实施例中,得到特征图数据,并在特征图数据中提取与初始手部姿态对应的位置数据,具体为:
66.将特征图转化为特征图数据并从所述特征图数据中根据初始坐标p提取位置数据
67.融合特征图并从融合后的特征图数据中根据初始坐标p提取位置数据
68.融合特征图并从融合后的特征图数据中根据初始坐标p提取位置数据
69.选的,在本实施例中,融合特征图的部分,包括:
70.(1)处理所述特征图至相同的分辨率以及通道数;
71.(2)利用自注意力网络融合步骤(1)中处理得到的特征,并进行归一化处理;
72.(3)融合步骤(2)中处理得到的特征与步特征获取特征图数据
73.选的,在本实施例中,图卷积神经网络训练,具体如下:分别将位置数据输入图卷积神经网络的注意力模块,其中,第一个所述注意力模块获取所述初始姿态以及所述位置数据作为输入特征;第二个所述注意力模块获取所述第一个注意力模块的输出特征以及所述位置数据作为输入特征;第三个所述注意力模块获取所述第二个注意力模块的输出特征以及所述位置数据作为输入特征。
74.优选的,本实施例中,图卷积神经网络使用的是deep

gcn的网络结构,其中图卷积神经网络的拉普拉斯矩阵根据人体手部骨架结构自动给出。
75.根据本公开的实施例,通过结合位置数据能够挖掘存储在特征图但可能在初始姿态中丢失的信息,进而来调整目标人体手部骨架的初始姿态,可以改善姿态估计结果。
76.图7示出根据本公开的实施例的人体手部骨架检测装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。
77.如图7所示,所述人体手部骨架检测装置700包括第一获取模块710、第二获取模块720、提取模块730和第三获取模块740。
78.第一获取模块710被配置为处理待识别图片,获取目标人体手部骨架的初始姿态;
79.第二获取模块720被配置为获取处理所述待识别图片过程中不同解码层输出的特征图来获取手部骨架重投影后的节点特征图数据;
80.提取模块730被配置为处理所述特征图得到特征图数据,并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据;
81.第三获取模块740被配置为输入所述初始姿态以及所述输入数据至经过训练的图
卷积神经网络,获取所述目标人体手部骨架的最终姿态;其中,所述图卷积神经网络的矩阵表示根据人体骨架结构的约束关系确定。
82.本公开提供的人体骨架检测装置可以适应于自然场景下的人体手部骨架的检测,通过结合人体手部关节结构之间的基本约束信息以及挖掘出的不同分辨率、通道数的特征图中包含的被遮挡关键点的相关数据,能够精确地调整被遮挡关键点的位置,因此对于人体手部骨架的检测具有较高的正确率。
83.本公开还公开了一种电子设备,图8示出根据本公开的实施例的电子设备的结构框图。
84.如图8所示,所述电子设备800包括存储器801和处理器802,其中,存储器801用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器802执行以实现以下方法步骤:
85.处理待识别图片,获取目标人体骨架的初始姿态;
86.获取处理所述待识别图片过程中不同解码层输出的特征图;
87.处理所述特征图得到特征图数据,并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据;
88.输入所述初始姿态以及所述输入数据至经过训练的图卷积神经网络,获取所述目标人体手部骨架的最终姿态;其中,所述图卷积神经网络的矩阵表示根据人体手部骨架结构的约束关系确定。
89.图9示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。
90.如图9所示,计算机系统900包括处理单元901,其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行上述实施例中的各种方法。在ram 903中,还存储有系统900操作所需的各种程序和数据。处理单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
91.以下部件连接至i/o接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信过程。驱动器910也根据需要连接至i/o接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。其中,所述处理单元901可实现为cpu、gpu、tpu、fpga、npu等处理单元。
92.特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。
93.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标
注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
94.描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
95.作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
96.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1