单视角三维人体骨骼关键点检测方法、装置、设备及介质

文档序号:32566938发布日期:2022-12-16 21:32阅读:112来源:国知局
单视角三维人体骨骼关键点检测方法、装置、设备及介质

1.本发明涉及计算机视觉领域,尤其涉及一种单视角三维人体骨骼关键点检测方法、装置、设备及介质。


背景技术:

2.三维人体骨骼关键点检测是计算机视觉领域的基本问题和研究热点之一,其任务是获取目标视频帧中人体骨骼关键点在三维立体空间中的位置和连接信息,是众多视觉任务如场景理解、行为识别、行人重识别等的基础技术,被广泛应用于视频监控、行为识别、在线教学、动作捕捉、虚拟现实、医疗辅助等领域。
3.在单视角图像三维人体骨骼关键点检测中,由于图像视角的单一性,图像从三维空间投影到二维平面时会丢失深度信息,可能导致多个不同的三维人体骨骼关键点投影到同一个二维关键点。因此单视角图像中,人体骨骼信息从二维空间到三维空间的映射存在深度模糊性和不适定性,二维关键点的微小定位误差也可能导致在三维空间中产生较大的姿态畸变。
4.现有的单视角三维人体骨骼关键点检测方法主要包括直接估计法和二维到三维提升方法。
5.直接估计法一般是设计一个端到端网络直接从输入的二维图像中推断出三维人体骨骼关键点,不需要对二维人体信息表示进行中间估计。该方法虽然能从图像中获取到丰富的信息,但缺乏二维人体骨骼信息到三维人体骨骼信息的中间监督过程,需要较大数量的三维标注数据来训练性能优越的模型。
6.二维到三维提升方法首先采用二维人体骨骼关键点检测模型来估计二维骨骼关键点信息,然后利用二维骨骼信息与三维图像特征融合、三维空间重投影等二维到三维提升方法来获得三维人体骨骼关键点。该方法通常优于直接估计方法,减少了模型在二维骨骼关键点上的学习压力,但由于是直接基于已有的二维信息估计出三维信息,受二维人体骨骼关键点检测器性能的影响较大,且缺乏原始图像特征的监督。


技术实现要素:

7.鉴于以上现有技术存在的问题,本发明提出一种单视角三维人体骨骼关键点检测方法、装置、设备及介质,主要解决现有技术中单视角图像三维人体骨骼关键点检测存在的无中间监督、缺乏原始图像特征监督的问题。
8.为了实现上述目的及其他目的,本发明采用的技术方案如下。
9.可选地,提供了一种单视角三维人体骨骼关键点检测方法,包括:
10.获取单视角人体图像序列,所述单视角人体图像序列包括预设时间段内同一目标对象在不同姿态下的多帧图像,其中一帧图像作为目标图像,其余图像作为所述目标图像的相关图像;
11.分别获取所述目标图像的第一骨骼关键点和所述相关图像的第二骨骼关键点,对
所述第一骨骼关键点进行空间特征提取得到空间语义特征,并对所述第一骨骼关键点和第二骨骼关键点进行时序特征提取得到时序特征,所述空间语义特征包括全局语义特征和局部语义特征;
12.将监督特征与所述空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息,所述监督特征通过特征提取网络提取所述目标图像中的信息得到,所述监督特征包括所述目标图像的深层语义信息、纹理信息和边缘信息。
13.可选地,对所述第一骨骼关键点进行空间特征提取得到空间语义特征,包括:
14.根据所述第一骨骼关键点构建全局空间图和全局邻接矩阵;
15.通过多头注意力机制挖掘所述全局空间图的权重矩阵,并利用空洞卷积网络得到所述全局空间图中多个感受野的多维特征;
16.利用图卷积网络更新所述全局邻接矩阵,得到第一矩阵;
17.结合所述权重矩阵、多维特征和第一矩阵构建多头注意力全局空间图;
18.对所述多头注意力全局空间图进行特征表示,得到所述全局语义特征。
19.可选地,对所述第一骨骼关键点进行空间特征提取得到空间语义特征,包括:
20.根据所述第一骨骼关键点的局部连接关系构建多个局部邻接矩阵,通过图卷积网络更新所述多个局部邻接矩阵,得到多个第二矩阵;
21.根据所述多个第二矩阵构建多个局部空间图,对所述多个局部空间图进行特征表示得到所述局部语义特征。
22.可选地,对所述第一骨骼关键点和第二骨骼关键点进行时序特征提取得到时序特征,包括:
23.构建所述第一骨骼关键点和第二骨骼关键点的时序邻接矩阵,通过图卷积网络更新所述时序邻接矩阵,得到第三矩阵;
24.通过所述第三矩阵构建时序图,对所述时序图进行特征表示,得到所述时序特征。
25.可选地,将监督特征与所述空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息,包括:
26.将所述全局语义特征和局部语义特征作为所述监督特征的注意力因子,联结所述全局语义特征和局部语义特征形成目标图像的第一空间结构特征,利用空间特征调节器对所述第一空间结构特征进行调节,得到第二空间结构特征;
27.将所述时序特征与所述监督特征进行融合,得到融合后的第一时序结构特征,利用时序特征调节器对所述第一时序结构特征进行调节,得到第二时序特征;
28.将第二时序特征作为第二空间结构特征的注意力因子,得到三维人体骨骼关键点特征信息。
29.可选地,获取单视角人体图像序列之前,包括步骤:
30.构建初始网络模型,获取单视角人体图像训练样本;
31.将所述单视角人体图像训练样本输入所述初始网络模型中,根据预设的目标函数对所述初始网络模型的参数进行优化,得到训练后的网络模型,将所述单视角人体图像序列输入所述训练后的网络模型。
32.可选地,分别获取所述目标图像的第一骨骼关键点和所述相关图像的第二骨骼关键点,包括:
33.利用二维骨骼关键点检测器分别检测所述目标图像和所述相关图像中的目标对象,得到目标图像的第一骨骼关键点和相关图像的第二骨骼关键点。
34.可选地,提供了一种单视角三维人体骨骼关键点检测装置,包括:
35.图像获取模块,用于获取单视角人体图像序列,所述单视角人体图像序列包括预设时间段内同一目标对象在不同姿态下的多帧图像,其中一帧图像作为目标图像,其余图像作为所述目标图像的相关图像;
36.特征获取模块,用于分别获取所述目标图像的第一骨骼关键点和所述相关图像的第二骨骼关键点,对所述第一骨骼关键点进行空间特征提取得到空间语义特征,并对所述第一骨骼关键点和第二骨骼关键点进行时序特征提取得到时序特征,所述空间语义特征包括全局语义特征和局部语义特征;
37.特征融合模块,用于将监督特征与所述空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息,所述监督特征通过特征提取网络提取所述目标图像中的信息得到,所述监督特征包括所述目标图像的深层语义信息、纹理信息和边缘信息。
38.可选地,提供了一种计算机装备,包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述单视角三维人体骨骼关键点检测方法的步骤。
39.可选地,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下单视角三维人体骨骼关键点检测方法的步骤:
40.获取单视角人体图像序列,所述单视角人体图像序列包括预设时间段内同一目标对象在不同姿态下的多帧图像,其中一帧图像作为目标图像,其余图像作为所述目标图像的相关图像;
41.分别获取所述目标图像的第一骨骼关键点和所述相关图像的第二骨骼关键点,对所述第一骨骼关键点进行空间特征提取得到空间语义特征,并对所述第一骨骼关键点和第二骨骼关键点进行时序特征提取得到时序特征,所述空间语义特征包括全局语义特征和局部语义特征;
42.将监督特征与所述空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息,所述监督特征通过特征提取网络提取所述目标图像中的信息得到,所述监督特征包括所述目标图像的深层语义信息、纹理信息和边缘信息。
43.上述单视角三维人体骨骼关键点检测方法中,将单视角人体图像序列分为目标图像和相关图像,获取目标图像和相关图像中的骨骼关键点;提取目标图像的全局语义特征、局部语义特征,并提取单视角人体图像序列的时序特征,将监督特征与空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息。通过目标图像的全局语义特征和局部语义特征在空间层面上映射三维人体骨骼关键点的平面信息;通过连续多张同一视角图像的时序特征映射三维人体骨骼关键点的深度信息;另外,在特征融合过程中将监督特征与空间语义特征、时序特征进行融合,可有效减轻单视角图像二维人体骨骼关键点映射三维人体骨骼关键点的深度模糊性和不适定性,提升检测准确性。
附图说明
44.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
45.图1为本发明一实施例中单视角三维人体骨骼关键点检测方法的一流程示意图。
46.图2为图1中步骤s1的一具体实施方式流程示意图;
47.图3为图1中步骤s2的一具体实施方式流程示意图;
48.图4为图1中步骤s2的一具体实施方式流程示意图;
49.图5为图1中步骤s2的一具体实施方式流程示意图;
50.图6为本发明一实施例中单视角三维人体骨骼关键点检测装置的一结构示意图。
具体实施方式
51.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
52.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
53.本发明提供的单视角三维人体骨骼关键点检测方法,针对单视角获取的人体图像序列,利用图卷积网络和注意力机制实现单视角图像三维人体骨骼关键点空间语义特征和时序特征的有效获取以及融合,挖掘具有时空一致性和强表征性的特征表示,另外将监督特征与空间语义特征、时序特征进行融合,以减轻单视角图像从二维到三维人体骨骼关键点映射的深度模糊性和不适定性,提升骨骼关键点检测的准确性。
54.参见图1,图1为本发明实施例提供的单视角三维人体骨骼关键点检测方法的一个流程示意图,包括如下步骤:
55.s1、获得单视角人体图像序列,检测获取目标图像的第一骨骼关键点和相关图像的第二骨骼关键点
56.在对单视角的人体骨骼关键点进行检测时,首先获取单视角的人体图像序列,单视角人体图像序列包括预设时间段内同一目标对象在不同姿态下的多帧图像,其中一帧图像作为目标图像,其余图像作为目标图像的相关图像。然后获取目标图像和相关图像的二维骨骼关键点,本实施例中目标图像的二维骨骼关键点即为第一骨骼关键点,相关图像的二维骨骼关键点即为第二骨骼关键点。
57.本实施例中的单视角人体图像序列可通过剪辑视频中连贯的视频帧获得,或者也可以通过摄像头在预设时间内单视角多次采集图像获得。
58.本实施例中,设单视角人体图像序列为i1,i2,
……
,i
t-2
,i
t-1
,i
t
,i
t+1
,i
t+2

……
,in-1
,in,其中i
t
为目标图像,n为图像样本总数;选取预设时间段内同一目标对象在不同姿态下的多帧图像为相关图像,相关图像表示为i1,i2,
……
,i
t-2
,i
t-1
,i
t+1
,i
t+2

……
,i
n-1
,in,其中n为选取的相关图像样本数,n小于等于图像样本总数n,具体的相关图像样本数可根据实际情况确定。例如,当n=2时,相关图像为i
t-1
、i
t+1

59.其中,如图2所示,步骤s1中,获得单视角人体图像中目标图像和相关图像的二维骨骼关键点,包括如下步骤:
60.s11、获取单视角人体图像序列,将单视角人体图像序列划分为目标图像和相关图像;
61.s12、利用二维骨骼关键点检测器分别检测目标图像和相关图像中的目标对象,得到第一骨骼关键点和第二骨骼关键点。
62.本实施例中,在获取目标图像和相关图像后,将目标图像和相关图像输入二维骨骼关键点检测器中进行检测,以得到目标图像的第一骨骼关键点和相关图像的第二骨骼关键点,二维骨骼关键点检测器不限于cpn、hrnet。
63.s2、对第一骨骼关键点进行空间特征提取得到空间语义特征,并对第一骨骼关键点和第二骨骼关键点进行时序特征提取得到时序特征
64.利用图卷积网络和注意力机制建立相应的空间图提取器、时序图提取器,通过空间图提取器提取目标图像的全局语义特征和局部语义特征,通过时序图提取器提取单视角人体图像序列的时序特征。
65.其中,如图3所示,步骤s2中对第一骨骼关键点进行空间特征提取得到全局语义特征,包括如下步骤:
66.s211、根据第一骨骼关键点构建全局空间图和全局邻接矩阵;
67.s212、通过多头注意力机制挖掘全局空间图的权重矩阵,并利用空洞卷积网络得到全局空间图中多个感受野的多维特征;
68.s213、利用图卷积网络更新全局邻接矩阵,得到第一矩阵;
69.s214、结合权重矩阵、多维特征和第一矩阵构建多头注意力全局空间图;
70.s215、对多头注意力全局空间图进行特征表示,得到所述全局语义特征。
71.其中,利用目标图像i
t
的第一骨骼关键点构建全局空间图,目标图像i
t
的全局空间图结构表示为g=(v,ε),其中,v={v
ti
|i=1,

,m}为图顶点的集合,m为人体骨骼关键点的个数;ε=}e
ij
|i=1,2,......,m;j=1,2,......,m}为图边的集合,表示人体关键点连接形成的骨骼结构,当连接形成的骨骼结构符合人体骨骼逻辑时ε为1,否则ε为0。全局空间图的特征向量为x={x1,x2,
……
,xm|x1∈r1
×
c,其中c为特征通道数。
72.根据semgcn,输入的特征向量经过一层图卷积网络后,特征变化为其中为的归一化对角矩阵;a∈rm×m为邻接矩阵,表示相邻骨骼关键点的连接情况,一阶矩阵表示关节点间的一阶连接情况,其它二阶、三阶矩阵表示关节点间的二阶、三阶连接情况;w={ω
ij
}为一个可学习的权重矩阵,表示各骨骼关键点间的互影响关系;σ一个非线性激活函数。
73.为了关注人体骨骼关键点的整体全局互相影响关系,对任意两个关节点间的连接分配不同的可训练权重值,并构建人体所有骨骼关键点间连接关系的邻接矩阵。利用多头
注意力机制多次随机地从全局空间图结构上挖掘全局空间图的权重矩阵,以挖掘人体骨骼关键点间的互相影响关系,得到骨骼关键点间的全局空间特征;利用空洞卷积网络来实现不同感受野多维特征的提取;通过图卷积网络实现多个全局邻接矩阵元素的更新,可将更新后的全局邻接矩阵定义为第一矩阵;结合权重矩阵、多为特征和第一矩阵,完成多头注意力全局空间图的构建,通过对多头注意力全局空间图进行特征表示,得到全局语义特征。
74.在一实施例中,基于多头注意力全局空间图全局空间语义特征表示为:
75.其中k为注意力头数,通过多头注意力实现对全方位骨骼关键点全局空间语义特征的关注,减轻某些局部干扰因素的影响;为调节矩阵;为可自适应学习的全局邻接矩阵,表征所有骨骼关键点间的连接关系和连接强度,其元素b
ij
不采用简单的1和0表示两个骨骼关键点间是否有连接,而利用骨骼关键点间特征的互影响注意力系数描述,具体表示为:其中θ和为核为1的卷积层,用于调整特征维度;||表示特征联结;γ为一个映射函数,用于将高维特征映射为低维或实数;ρ为激活函数,可采用leakyrelu。
76.参见图4,步骤s2中步骤s2中对第一骨骼关键点进行空间特征提取得到局部语义特征,包括如下步骤:
77.s221、根据第一骨骼关键点的局部连接关系构建多个局部邻接矩阵,通过图卷积网络更新多个局部邻接矩阵,得到多个第二矩阵;
78.s222、根据多个第二矩阵构建多个局部空间图,对多个局部空间图进行特征表示得到所述局部语义特征。
79.除了关注人体骨骼关键点间的整体连接关系,各骨骼关键点间的局部特殊关系也对最终检测精度有影响,可选取骨骼关键点的对称性、一阶连接、二阶连接等为局部特征。对称性有利于区分肢体关节点和躯干关节点,可限定目标关键点的主要区域,根据已知点可推测出相应对称点的对应粗略位置,一阶连接点是与目标关键点直接相连接的点,其位置的变化一般会对目标关键点位置产生最直接的影响。二阶连接点可能会与一阶连接点及目标关键点一起形成一个身体部件,可作为确定目标关键点位置的辅助信息。针对对称性、一阶连接、二阶连接等每一类局部特征,首先利用第一骨骼关键点的局部关系构建多个局部邻接矩阵,然后通过图卷积网络的学习进行多个局部邻接矩阵中元素的更新,得到多个更新后的局部邻接矩阵,可将更新后的局部邻接矩阵定义为第二矩阵;根据多个第二矩阵构建多个局部空间图,对多个局部空间图进行特征表示得到局部语义特征,实现人体骨骼关节点间局部影响关系的描述。
80.在一实施例中,基于多个局部空间图的局部空间语义特征表示为:其中s为局部特征的类别;为第s类局部特征生成的局部邻接矩阵;ms为一个可学习的掩模矩阵,可用于屏蔽掉非s类局部特征的影响,减小模型参数;

为点积操作。其中局部邻接矩阵的元素d
ij
表示为:当关节点i和j间对称时,元素d
ij
=d
ji
=1,其余元素为0。一阶连接邻接矩阵与二阶连接邻接矩阵的元素表示为:当关节点i和j间存在一阶连接或二阶连接时,d
ij
采用全局语义特征表示中的b
ij
表示方式,描述关节
点i和j间的局部连接强度。
81.通过上述操作,可实现单张单视角人体图像中目标图像的骨骼关键点全局语义特征和局部语义特征的获取。
82.其中,如图5所示,步骤s2中对第一骨骼关键点和第二骨骼关键点进行时序特征提取得到时序特征,包括以下步骤:
83.s231、构建第一骨骼关键点和第二骨骼关键点的时序邻接矩阵,通过图卷积网络更新时序邻接矩阵,得到第三矩阵;
84.s232、通过第三矩阵构建时序图,对时序图进行特征表示,得到时序特征。
85.利用第一骨骼关键点和第二骨骼关键点构建每一个关键点的时序邻接矩阵,然后通过图卷积网络的学习进行时序邻接矩阵中元素的更新,得到更新后的时序邻接矩阵,可定义为第三矩阵;通过第三矩阵构建时序图,对时序图进行特征表示,得到时序特征,实现每一个关节点在时域感受野上的位置变化情况和时序上下文相关性描绘。
86.在一实施例中,基于时序图的时序特征表示为:
87.其中为关键点i在时域t内形成的邻接矩阵,其元素采用相关图像与目标图像间的余弦相似度距离表示。时序邻接矩阵的元素采用目标帧与相邻帧相对应的每一个骨骼关键点间的相似度表示,本实施例中采用归一化余弦相似度,表示为:
88.λ
t
=σ(ψ
t
[l(p1,p
t
),

,l(p
t-1
,p
t
)]
t
)
[0089]
其中p
t
为二维关节点坐标,t为目标帧图像的索引,l为余弦距离计算函数。
[0090]
s3、将监督特征与空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息
[0091]
为了形成具有时空一致性和强表征性的人体骨骼关键点特征,构建特征融合器将全局语义特征、局部语义特征和时序特征进行融合,在特征融合过程中采用目标图像的监督特征作为人体背景信息的补充和中间监督。监督特征通过特征提取网络提取所述目标图像中的信息得到,目标图像的监督特征包括所述目标图像的深层信息、浅层信息。深层信息指深层语义信息,指把图像特征语义化为人类可推理和理解的抽象特征,属于人类具备的高级特征,比如通过几个手臂的骨骼关键点就能想象出“手臂”的形状,通过眼框关键点能够想象出“眼睛”,因为神经网络实际上是模仿人类大脑神经学习和推理过程而构建出来的,所以它学习的特征也尽量往人类能够理解的特征靠近;浅层特征一般就是表面信息,比如能直接看到的表面纹理、形状、颜色等信息。深层特征就是在人类学习和理解层面的抽象化信息,比如浅层信息:蓝色,对应深层信息:忧郁;浅层信息:绿灯,对应深层信息:可通行。本发明中深层信息主要为深层语义信息,浅层信息主要为纹理信息和边缘信息。
[0092]
监督特征指利用多尺度卷积层获取的原始目标图像信息,包括目标图像中人体目标和背景的浅层纹理信息、边缘信息及深层语义信息。由于空间语义特征和时序特征都是基于图卷积网络获取,图卷积网络涉及的图特征主要基于人体关键骨骼关节点位置信息获取,缺乏原始图像信息,因此此处目标图像的监督特征可作为空间特征和时序特征的补充。
[0093]
将全局语义特征和局部语义特征作为监督特征的注意力因子,联结全局语义特征和局部语义特征形成目标图像的第一空间结构特征,利用空间特征调节器对空间结构特征进行调节,得到第二空间结构特征;将时序特征与监督特征进行融合,得到第一时序结构特
征,利用时序特征调节器对时序结构特征进行调节,得到第二时序结构特征;将第二时序结构特征作为第二空间结构特征的注意力因子,得到三维人体骨骼关键点特征信息。空间特征调节器和时序特征调节器为卷积网络或全连接层网络,可对空间语义特征和时序特征进行升维或降维,将空间语义特征和时序特征调整为一致的维度。
[0094]
在一实施例中,设原始单视角人体图像中目标图像的监督特征为fs,将全局空间语义特征fg和局部空间语义特征f
l
作为监督特征fs的注意力因子,表征对骨骼关键点的全局空间信息和局部空间信息的关注度,再对全局语义特征和局部语义特征进行联结形成图像的空间结构特征;将时序特征f
t
再与监督特征fs进行融合,经时序特征调节器调整其特征维度,再将调节后的时序结构特征作为调节后的空间结构特征的注意力因子,关注相关图像在时序上对目标图像的深度信息补充,得到三维人体骨骼关键点的融合特征f,融合特征f表示为:f=α(f
t
||fs)

β(fs||fg⊙
(fs||f
l
⊙fs
),其中,α与β为调节函数;||为特征联结;

表示点乘;fs=g(i
t
),表示经过特征提取网络提取的目标图像的监督特征,特征提取网络g可采用常见的resnet等卷积神经网络。
[0095]
s4、对三维人体骨骼关键点特征信息进行特征精炼,得到三维骨骼关键点坐标信息
[0096]
利用特征精炼器对融合后的三维人体骨骼关键点特征信息进行特征优化和调整,得到三维人体骨骼关键点坐标信息。
[0097]
本发明中,在获取单视角人体图像序列之前,还包括以下步骤:
[0098]
构建初始网络模型,并获取单视角人体图像训练样本;
[0099]
将单视角人体图像训练样本输入所述初始网络模型中,根据预设的目标函数对初始网络模型的参数进行优化,得到训练后的网络模型,将单视角人体图像序列输入训练后的网络模型。
[0100]
其中,预设的目标函数为其中,φ
t,i
分别为第t帧目标图像中第i个骨骼关键点的估计位置三维坐标和基准位置三维坐标,估计位置三维坐标即为本发明中的三维骨骼关键点坐标信息,基准坐标即为训练数据中的关键点坐标信息。基于预设的目标函数进行模型训练时,所得到目标函数的值越小,则关键点检测精确度越高。
[0101]
可见,在上述方案中,利用图卷积网络获取空间语义特征和时序特征,空间语义特征和时序特征主要包含人体骨骼关节点的连接和位置信息,它们之间的融合使特征具备时空相关性;而监督特征包含了原始图像信息,是对空间语义特征和时序特征的补充,可进一步提升最后网络获取特征的表征性。单视角单张人体图像中目标图像二维骨骼关键点的全局语义特征和局部语义结构特征能够映射三维人体骨骼关键点的平面信息;连续多张同一视角图像的时序特征联合映射三维人体骨骼关键点的深度信息;利用监督特征作为空间语义特征和时序特征融合过程的中间监督,可有效减轻二维人体骨骼关键点映射三维人体骨骼关键点时的深度模糊性和不适定性,提升三维人体骨骼关键点的检测准确性。
[0102]
在一实施例中,提供一种单视角三维人体骨骼关键点检测装置,该装置与上述实施例中的检测方法一一对应。具体的,该检测装置包括:图像获取模块,用于获取单视角人体图像序列,单视角人体图像序列包括预设时间段内同一目标对象在不同姿态下的多帧图像,其中一帧图像作为目标图像,其余图像作为所述目标图像的相关图像;特征获取模块,
用于分别获取目标图像的第一骨骼关键点和相关图像的第二骨骼关键点,对第一骨骼关键点进行空间特征提取得到空间语义特征,并对第一骨骼关键点和第二骨骼关键点进行时序特征提取得到时序特征,空间语义特征包括全局语义特征和局部语义特征;特征融合模块,用于获用于将监督特征与所述空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息,监督特征包括目标图像的深层语义信息、浅层纹理信息和边缘信息。
[0103]
其中,可通过二维骨骼关键点检测器获取目标图像的第一骨骼关键点和相关图像的第二骨骼关键点;特征获取模块可分别为时序图提取器和空间图提取器;特征融合模块可为特征融合器。参见图6,为一单视角三维人体骨骼关键点检测装置和基于该装置进行的三维人体骨骼关键点检测步骤。
[0104]
二维骨骼关键点检测器,获取目标图像和相关图像后,将目标图像和相关图像输入二维骨骼关键点检测器中进行检测,以得到目标图像第一骨骼关键点和相关图像第二骨骼关键点,二维骨骼关键点检测器不限于cpn、hrnet。
[0105]
空间图提取器,利用图卷积网络和注意力机制构建空间图提取器,获取目标图像第一骨骼关键点的全局语义特征和局部语义特征。根据第一骨骼关键点构建全局空间图和全局邻接矩阵;通过多头注意力机制挖掘全局空间图的权重矩阵,并利用空洞卷积网络得到全局空间图中多个感受野的多维特征;利用图卷积网络更新全局邻接矩阵,得到第一矩阵;结合权重矩阵、多维特征和第一矩阵构建多头注意力全局空间图;对多头注意力全局空间图进行特征表示,得到全局语义特征。根据第一骨骼关键点的局部连接关系构建多个局部邻接矩阵,通过图卷积网络更新多个局部邻接矩阵,得到多个第二矩阵;根据多个第二矩阵构建多个局部空间图,对多个局部空间图进行特征表示得到所述局部语义特征。
[0106]
时序图提取器,利用图卷积网络构建时序图提取器,获取单视角人体图像序列的时序特征。构建第一骨骼关键点和第二骨骼关键点的时序邻接矩阵,通过图卷积网络更新时序邻接矩阵,得到第三矩阵;通过第三矩阵构建时序图,对时序图进行特征表示,得到时序特征。
[0107]
特征融合器,将监督特征与空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息,获取具有时空一致性和强表征性的特征表示。将全局语义特征和局部语义特征作为监督特征的注意力因子,联结全局语义特征和局部语义特征形成目标图像的第一空间结构特征,利用空间特征调节器对第一空间结构特征进行调节,得到第二空间结构特征;将时序特征与监督特征进行融合,得到融合后的第一时序结构特征,利用时序特征调节器对所述第一时序结构特征进行调节,得到调节后的第二时序结构特征;将第二时序结构特征作为第二空间结构特征的注意力因子,得到三维人体骨骼关键点特征信息。本实施例中的空间特征调节器和时序特征调节器为卷积网络或全连接层网络,对空间语义特征和时序特征进行降维或升维,主要负责将两种特征调整为一致的维度。
[0108]
另外,该装置中还包括特征精炼器,特征精炼器利用网络层对三维人体骨骼关键点的融合特征进行特征优化和调节,得到三维人体骨骼关键点坐标信息。
[0109]
本发明提供了一种单视角三维人体骨骼关键点检测装置,该装置通过二维骨骼关键点检测器检测获得第一骨骼关键点和第二骨骼关键点、空间图提取器提取目标图像的全局语义特征和局部语义特征、时序图提取器获取单视角人体图像序列的时序特征、特征融合器将监督特征与空间语义特征、时序特征进行融合,实现单视角图像三维人体骨骼关键
点空间语义特征和时序特征的有效提取及融合,挖掘具有时空一致性和强表征性的特征表示,减轻单视角图像二维到三维人体骨骼关键点映射的深度模糊性和不适定性,提升三维人体骨骼关键点检测的准确性。
[0110]
关于单视角三维人体骨骼关键点检测装置的具体限定可以参加上文中对单视角三维人体骨骼关键点检测方法的限定,在此不再赘述。上述单视角三维人体骨骼关键点检测装置中的各个模块或部分可全部通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0111]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是单视角人体图像处理端,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的单视角人体图像采集端端通过网络连接通信。该计算机程序被处理器执行时以实现一种单视角三维人体骨骼关键点检测方法服务端侧的功能或步骤。处理器执行计算机程序时实现以下步骤:
[0112]
获取单视角人体图像序列,单视角人体图像序列包括预设时间段内同一目标对象在不同姿态下的多帧图像,其中一帧图像作为目标图像,其余图像作为所述目标图像的相关图像;
[0113]
分别获取目标图像的第一骨骼关键点和相关图像的第二骨骼关键点,对第一骨骼关键点进行空间特征提取得到空间语义特征,并对第一骨骼关键点和第二骨骼关键点进行时序特征提取得到时序特征,空间语义特征包括全局语义特征和局部语义特征;
[0114]
将监督特征与空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息,监督特征包括目标图像的深层语义信息、纹理信息和边缘信息;
[0115]
利用特征精炼器对三维人体骨骼关键点特征信息进行精炼,得到三维骨骼关键点坐标信息。
[0116]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0117]
获取单视角人体图像序列,单视角人体图像序列包括预设时间段内同一目标对象在不同姿态下的多帧图像,其中一帧图像作为目标图像,其余图像作为所述目标图像的相关图像;
[0118]
分别获取目标图像的第一骨骼关键点和相关图像的第二骨骼关键点,对第一骨骼关键点进行空间特征提取得到空间语义特征,并对第一骨骼关键点和第二骨骼关键点进行时序特征提取得到时序特征,空间语义特征包括全局语义特征和局部语义特征;
[0119]
将监督特征与空间语义特征、时序特征进行融合,得到三维人体骨骼关键点特征信息,监督特征包括目标图像的深层语义信息、纹理信息和边缘信息。
[0120]
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
[0121]
综上所述,本发明的单视角图像三维人体骨骼关键点检测方法,能够获取具有强表征性和时空一致性的特征,利用目标图像的全局语义特征和局部语义特征映射三维人体骨骼关键点的平面信息,利用连续多张同一视角图像的时序特征映射三维人体骨骼关键点的深度信息,并利用监督特征作为中间监督,将监督特征与所述空间语义特征、时序特征进行融合,可有效减轻单视角图像二维人体骨骼关键点映射三维人体骨骼关键点的深度模糊性和不适定性,提升检测准确性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0122]
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1