一种基于多流三维自适应图卷积的人体行为识别方法

文档序号:27489553发布日期:2021-11-22 14:00阅读:124来源:国知局
一种基于多流三维自适应图卷积的人体行为识别方法

1.本发明涉及图像模式识别和深度神经网络的技术领域,尤其是指一种基于多流三维自适应图卷积的人体行为识别方法。


背景技术:

2.目前,视频中的人体行为识别是目前计算机视觉领域中最活跃的研究主题之一,它在智能视频监控、人机交互、基于内容的视频检索、虚拟现实等方面具有广泛的应用前景和潜在经济价值。
3.传统的行为识别算法多用rgb视频作为输入,但当rgb视频中背景动态干扰较多,光照不稳定,噪声严重时,传统行为识别算法的效果会受到影响。近年来,与传统的使用rgb视频进行识别的方法相比,基于骨架的行为识别因其对动态环境和复杂背景的适应性强而越来越受到关注。
4.提取视频中人体骨架关节为顶点,其在人体中的自然连接为边作为行为识别算法输入能大大降低视频中的环境干扰对算法识别率的影响。现有的基于骨架的行为识别算法输入的骨架连接是根据人体自然连接定义的,没有充分利用骨架关节之间的信息,也没有充分利用关节的前后帧信息,同时对于时间域和空间域信息的利用较为独立,没有充分将关节之间的时空信息有效结合,因此急需提出一种自适应调节骨架连接并且充分融合空间时间信息的自适应图卷积识别方法。


技术实现要素:

5.本发明的目的在于克服现有技术的缺点与不足,提出了一种基于多流三维自适应图卷积的人体行为识别方法,该方法通过搜集大量视频中人体行为的骨架数据,并基于自适应图卷积网络技术,充分结合了原本孤立的骨架时空域相关性信息,实现了有效识别视频中人体行为的目的。
6.为实现上述目的,本发明所提供的技术方案为:一种基于多流三维自适应图卷积的人体行为识别方法,包括以下步骤:
7.1)采集包含人体的视频,标注视频中人体的骨架信息和行为类别,构建训练集;
8.2)利用训练集构建自适应空间域注意力矩阵sam和自适应时间域注意力矩阵tam;
9.3)利用自适应空间域注意力矩阵sam构建自适应空间域注意力图卷积模块asagcm,利用自适应时间域注意力矩阵tam构建自适应时间域注意力图卷积模块atagcm;构建三维时空域图卷积模块gcn

3d;
10.4)利用自适应空间域注意力图卷积模块asagcm、自适应时间域注意力图卷积模块atagcm和三维时空域图卷积模块gcn

3d构建自适应图卷积层;
11.5)利用自适应图卷积层构建自适应图卷积网络;
12.6)利用自适应图卷积网络构建多流三维自适应图卷积网络;
13.7)利用训练集训练多流三维自适应图卷积网络;
14.8)利用训练后的多流三维自适应图卷积网络对视频中的人体进行行为识别。
15.进一步,在步骤1)中,利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域;
16.利用openpose算法检测视频中的人体骨架关键点,利用分区策略构建训练集,包括以下步骤:
17.1.1)提取人体骨架关键点
18.利用openpose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,坐标信息x
i
记录为大小t
×
v的矩阵,记录规则为:x
i
的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积;行为标签记录为t
×
1的向量y
i
,遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签其中,表示实数域,n为视频中不同行为的人体总数,t为行为经历的视频帧数,v为人体骨架关键点个数;
19.得到人体骨架关键点关节训练集x
j
后构建人体骨架关键点骨骼训练集构建规则如下:x
b
的第i元素为x
j
的第i个关键点坐标与第i

1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,x
b
的第一个元素为其中为x
j
的平均值;
20.利用人体骨架关键点关节训练集x
j
构建人体骨架关键点关节动态训练集x
jm
,构建规则如下:x
jm
的第i元素为x
j
的第i个关键点坐标与第i

1个关键点坐标相减得到的关节动态向量,因第一个关键点没有前一序号关键点,x
jm
的第一元素为x
j
的第一个关键点坐标x1;
21.利用人体骨架关键点骨骼训练集x
b
构建人体骨架关键点骨骼动态训练集x
bm
,构建规则如下:x
bm
的第i元素为x
b
的第i个关键点坐标与第i

1个关键点坐标相减得到的骨骼动态向量,因第一个关键点没有前一序号关键点,x
bm
的第一元素为x
b
的第一个关键点坐标
22.1.2)根据分区策略构建训练集
23.根据分区策略将x
j
扩展得到分区骨架关键点关节训练集将x
b
扩展得到分区骨架关键点骨骼训练集将x
jm
扩展得到分区骨架关键点关节动态训练集将x
bm
扩展得到分区骨架关键点骨骼动态训练集k
v
是子集总数;
24.分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点集合即近心点为子集合1,分区范围内比根节点更远离骨架重心的邻节点集合即远心点为子集合2;分区策略公式如下:
[0025][0026]
式中,label
ti
(v
tij
)表示第t帧中第i个根节点邻域中第j个点的子集标签,v
tij
为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,t],i∈[1,v],r
ti
为第t帧中第i个根节点到t帧骨架重心的距离,r
tj
为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
[0027]
进一步,在步骤2)中,自适应空间域注意力矩阵sam的计算方式如下:首先计算输入x的第二维得到空间方差矩阵var
s
∈k
v
×
n,其中,输入x为分区骨架关键点关节训练集分区骨架关键点骨骼训练集分区骨架关键点关节动态训练集分区骨架关键点骨骼动态训练集当中的一种,k
v
是子集总数,n为视频中不同行为的人体总数,根据空间方差矩阵var
s
计算空间域变化幅度矩阵δ
s
∈1
×
v,v为人体骨架关键点个数,其中δ
s
第j个元素为其中c为通道数,表示var
s
中的第i行第j列元素,最终计算自适应空间域注意力矩阵sam,其中第m行第n列的元素为其中为δ
s
第m个元素,为δ
s
第n个元素,max(δ
s
)为δ
s
所有元素中的最大值;
[0028]
自适应时间域注意力矩阵tam的计算方式如下:首先计算输入x的第三维得到空间方差矩阵var
t
∈k
v
×
t,t为行为经历的视频帧数,根据时间方差矩阵var
t
计算时间域变化幅度矩阵δ
t
∈t
×
1,其中δ
t
第j个元素为其中表示var
t
中的第i行第j列元素,最终计算自适应时间域注意力矩阵tam,其中第m行第n列的元素为的第i行第j列元素,最终计算自适应时间域注意力矩阵tam,其中第m行第n列的元素为为δ
t
中的第m个元素。
[0029]
进一步,在步骤3)中,自适应空间域注意力图卷积模块asagcm构建过程为:根据骨架的连接结构得到邻接矩阵,利用自适应系数平衡邻接矩阵和自适应空间域注意力矩阵sam的权重后与输入特征图相乘,叠加通道后经过1
×
1空间域图卷积得到输出特征图;
[0030]
自适应空间域注意力图卷积模块asagcm的实现用公式表示如下:
[0031][0032]
式中,f
in
、f
out
表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,a
k
是根据人体骨架连接关系得到的邻接矩阵,a
k
的计算规则为:骨架中第n个节点和第m个节点若相连,则a
k
中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1;是空间域1
×
1卷积的权重,k是子集序号,k
v
是子集总数;
[0033]
自适应时间域注意力图卷积模块atagcm的构建过程为:利用自适应系数平衡单位矩阵e和自适应时间域注意力矩阵tam的权重后与输入特征图相乘,经过卷积核大小为k
t
×
1时间域图卷积得到输出特征图;
[0034]
自适应时间域注意力图卷积模块atagcm的实现用公式表示如下:
[0035]
f
out
=w
t
f
in
(βe+(1

β)
·
tam)
[0036]
式中,β为随着训练迭代更新的空间自适应系数,e为单位矩阵,w
t
是时间域k
t
×
1图卷积权重,k
t
×
1为卷积核大小;
[0037]
三维时空域图卷积模块gcn

3d构建过程如下:构建三维邻接矩阵a
τ
,与输入特征图相乘,经过卷积核大小为1
×
1三维时空域图卷积得到输出特征图;
[0038]
三维时空域图卷积模块gcn

3d的实现用公式表示如下:
[0039]
f
out
=w
τ
f
in
a
τ
[0040]
式中,a
τ
由a按行和列扩展τ次得到,由a按行和列扩展τ次得到,w
τ
为时空域图卷积权重,其中,表示实数域,v为人体骨架关键点个数。
[0041]
进一步,在步骤4)中,输入特征图f
in
通过自适应图卷积层得到输出特征图f
out
,自适应图卷积层由自适应空间域注意力图卷积模块asagcm、自适应时间域注意力图卷积模块atagcm和三维时空域图卷积模块gcn

3d构成;自适应图卷积层具体结构为:自适应空间域注意力图卷积模块asagcm、bn层、relu层、dropout层、自适应时间域注意力图卷积模块atagcm、bn层和relu层依次串联后并联三维时空域图卷积模块gcn

3d、bn层和relu层。
[0042]
进一步,在步骤5)中,利用自适应图卷积层构建自适应图卷积网络,用于训练输入数据集data,输入数据集data通过自适应图卷积网络训练得到预测结果label;所述自适应图卷积网络由bn层、9个自适应图卷积层l1、l2、l3、l4、l5、l6、l7、l8、l9、全局平均池化层gap和softmax分类器依次连接而成。
[0043]
进一步,在步骤6)中,利用自适应图卷积网络构建多流三维自适应图卷积网络,用于处理多个输入数据集,多个输入数据集通过多流三维自适应图卷积网络得到预测结果;所述多流三维自适应图卷积网络包含四路自适应图卷积网络,具体为:第一路自适应图卷积网络用于处理关键点关节数据,该网络得到的预测结果为p
j
;第二路自适应图卷积网络用于处理关键点骨骼数据,该网络得到的预测结果为p
b
;第三路自适应图卷积网络用于处理关键点关节动态数据,该网络得到的预测结果为p
jm
;第四路自适应图卷积网络用于处理关键点骨骼动态数据,该网络得到的预测结果为p
bm
;将四路自适应图卷积网络的预测结果加权得到预测结果p;加权规则为:p=w
j
p
j
+w
b
p
b
+w
jm
p
jm
+w
bm
p
bm
,其中,w
j
、w
b
、w
jm
、w
bm
分别是关键点关节预测结果加权系数、关键点骨骼预测结果加权系数、关键点关节动态预测结果加权系数、关键点骨骼动态预测结果加权系数。
[0044]
进一步,在步骤7)中,将分区骨架关键点关节训练集分区骨架关键点骨骼训练集分区骨架关键点关节动态训练集分区骨架关键点骨骼动态训练集和训练集标签y输入多流三维自适应图卷积网络进行训练,迭代训练z轮后,得到训练好的多流三维自适应图卷积网络。
[0045]
进一步,在步骤8)中,利用训练好的多流三维自适应图卷积网络进行人体行为识
别,具体操作为:利用openpose算法提取待检测视频中的人体骨架关键点,构建数据集,再将数据集输入到训练好的多流三维自适应图卷积网络即可得到行为预测结果。
[0046]
本发明与现有技术相比,具有如下优点与有益效果:
[0047]
现有的基于图卷积网络识别方法不能有效地对时空图中的空间信息和运动信息进行融合实现端到端的训练,而本发明构建的自适应空间域注意力图卷积模块asagcm和自适应时间域注意力图卷积模块atagcm对运动姿态和骨架关节点在时空域上进行特征融合并自适应特征增强,针对时域内存在的大量干扰信息,构建自适应时间域注意力矩阵tam进行有效的抑制,同时构建自适应空间域注意力矩阵sam进一步提高识别的性能。同时,本发明构建的三维时空域图卷积模块gcn

3d充分利用并融合了孤立的骨架关键点时间域信息和空间域信息,进一步提高识别的性能。总之,本发明在多个大型骨架数据集上进行实验,与常用方法进行比较,实时性和识别准确率上均有明显提高,值得推广。
附图说明
[0048]
图1为人体骨架关键点示意图。
[0049]
图2为分区策略示意图。
[0050]
图3为自适应空间域注意力图卷积模块asagcm架构图。
[0051]
图4为自适应图卷积层架构图。
[0052]
图5为自适应图卷积网络架构图。
[0053]
图6为多流三维自适应图卷积网络架构图。
具体实施方式
[0054]
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0055]
如图1至图6所示,本实施例所提供的基于多流三维自适应图卷积的人体行为识别方法,包括以下步骤:
[0056]
1)利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域。本实施例中选用的摄像头分辨率为1080p。
[0057]
利用openpose算法检测视频中的人体骨架关键点,利用分区策略构建训练集,包括以下步骤:
[0058]
1.1)提取人体骨架关键点
[0059]
利用openpose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,人体骨架关键点序号如图1所示;坐标信息x
i
记录为大小t
×
v的矩阵,记录规则为:x
i
的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积。行为标签记录为t
×
1的向量y
i
,遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签其中,表示实数域,n为视频中不同行为的人体总数,t为行为经历的视频帧数,v为人体骨架关键点个数;本实施例中n=10000,t=300,v=14。
[0060]
得到人体骨架关键点关节训练集x
j
后构建人体骨架关键点骨骼训练集
构建规则如下:x
b
的第i元素为第i个关键点坐标与第i

1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,x
b
的第一个元素为其中为x
j
的平均值;
[0061]
利用人体骨架关键点关节训练集x
j
构建人体骨架关键点关节动态训练集x
jm
,构建规则如下:x
jm
的第i元素为x
j
的第i个关键点坐标与第i

1个关键点坐标相减得到的关节动态向量,因第一个关键点没有前一序号关键点,x
jm
的第一元素为x
j
的第一个关键点坐标x1;
[0062]
利用人体骨架关键点骨骼训练集x
b
构建人体骨架关键点骨骼动态训练集x
bm
,构建规则如下:x
bm
的第i元素为x
b
的第i个关键点坐标与第i

1个关键点坐标相减得到的骨骼动态向量,因第一个关键点没有前一序号关键点,x
bm
的第一元素为x
b
的第一个关键点坐标
[0063]
1.2)根据分区策略构建训练集
[0064]
根据分区策略将x
j
扩展得到分区骨架关键点关节训练集将x
b
扩展得到分区骨架关键点骨骼训练集将x
jm
扩展得到分区骨架关键点关节动态训练集将x
bm
扩展得到分区骨架关键点骨骼动态训练集在本实施例中k
v
=3。
[0065]
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点(近心点)集合为子集合1,分区范围内比根节点更远离骨架重心的邻节点(远心点)集合为子集合2;分区策略公式如下:
[0066][0067]
式中,label
ti
(v
tij
)表示第t帧中第i个根节点邻域中第j个点的子集标签,v
tij
为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,t],i∈[1,v],r
ti
为第t帧中第i个根节点到t帧骨架重心的距离,r
tj
为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
[0068]
一个分区策略例子示意图如图2所示,图中4号节点为根节点,灰色实线包围区域为与4号节点直接相连的邻域,虚线表示各个节点与重心的距离,根据各个节点与重心的距离划分,4号节点为子集0,3号节点为近心点子集1,5号节点为远心点子集2。
[0069]
2)构建自适应空间域注意力矩阵sam和自适应时间域注意力矩阵tam。自适应空间域注意力矩阵sam的计算方式如下:首先计算输入x(根据后续需要为的其中一种)的第二维得到空间方差矩阵var
s
∈k
v
×
n,根据空间方差矩阵var
s
计算空间域变化幅度矩阵δ
s
∈1
×
v,其中δ
s
第j个元素为其中c为通道数,表示var
s
中的第i行第j列元素,最终计
算自适应空间域注意力矩阵sam,其中第m行第n列的元素为其中为δ
s
第m个元素,为δ
s
第n个元素,max(δ
s
)为δ
s
所有元素中的最大值;
[0070]
自适应时间域注意力矩阵tam的计算方式如下:首先计算输入x(根据后续需要为的其中一种)的第三维得到空间方差矩阵var
t
∈k
v
×
t,根据时间方差矩阵var
t
计算时间域变化幅度矩阵δ
t
∈t
×
1,其中δ
t
第j个元素为其中表示var
t
中的第i行第j列元素,最终计算自适应时间域注意力矩阵tam,其中第m行第n列的元素为间域注意力矩阵tam,其中第m行第n列的元素为为δ
t
中的第m个元素。
[0071]
3)利用自适应空间域注意力矩阵sam构建自适应空间域注意力图卷积模块asagcm,具体步骤如下:根据骨架的连接结构得到邻接矩阵,利用自适应系数平衡邻接矩阵和自适应空间域注意力矩阵sam的权重后与输入特征图相乘,叠加通道后经过1
×
1空间域图卷积得到输出特征图;
[0072]
自适应空间域注意力图卷积模块asagcm的实现用公式表示如下:
[0073][0074]
式中,f
in
、f
out
表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,a
k
是根据人体骨架连接关系得到的邻接矩阵,a
k
的计算规则为:骨架中第n个节点和第m个节点若相连,则a
k
中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1。是空间域1
×
1卷积的权重,k是子集序号,k
v
是子集总数。
[0075]
自适应空间域注意力图卷积模块asagcm架构如图3所示。在本实施例中a
k
为14
×
14矩阵,14矩阵,所有元素初始化为0,c
in
、c
out
为输入特征图通道数和输出特征图通道数,α初始化为1。
[0076]
利用自适应时间域注意力矩阵tam构建自适应时间域注意力图卷积模块atagcm,具体步骤如下:
[0077]
利用自适应系数平衡单位矩阵e和自适应时间域注意力矩阵tam的权重后与输入特征图相乘,经过卷积核大小为k
t
×
1时间域图卷积得到输出特征图;
[0078]
自适应时间域注意力图卷积模块atagcm的实现用公式表示如下:
[0079]
f
out
=w
t
f
in
(βe+(1

β)
·
tam)
[0080]
式中,f
in
、f
out
表示输入特征图和输出特征图,β为随着训练迭代更新的空间自适应系数,e为单位矩阵,w
t
是时间域k
t
×
1图卷积权重,k
t
×
1为卷积核大小。
[0081]
在本实施例中w
t
所有元素初始化为0,c
in
,c
out
为输入特征图通道数和输出特征图通道数,k
t
=9,β初始化为1。
[0082]
构建三维时空域图卷积模块gcn

3d,具体步骤如下:
[0083]
构建三维邻接矩阵a
τ
,与输入特征图相乘,经过卷积核大小为1
×
1三维时空域图卷积得到输出特征图;
[0084]
三维时空域图卷积模块gcn

3d的实现用公式表示如下:
[0085]
f
out
=w
τ
f
in
a
τ
[0086]
式中,a
τ
由a按行和列扩展τ次得到,其中表示实数域,v为人体骨架关键点个数,w
τ
为时空域图卷积权重。
[0087]
在本实施例中w
t
所有元素初始化为0,τ=3,a
τ
为42
×
42矩阵,c
in
、c
out
为输入特征图通道数和输出特征图通道数。
[0088]
4)输入特征图f
in
通过自适应图卷积层得到输出特征图f
out
,自适应图卷积层由自适应空间域注意力图卷积模块asagcm、自适应时间域注意力图卷积模块atagcm和三维时空域图卷积模块gcn

3d构成,具体结构为:自适应空间域注意力图卷积模块asagcm、bn层、relu层、dropout层、自适应时间域注意力图卷积模块atagcm、bn层和relu层依次串联后并联三维时空域图卷积模块gcn

3d、bn层和relu层。
[0089]
自适应图卷积层架构如图4所示。在本实施例中,dropout层中丢弃率为0.5。
[0090]
5)利用自适应图卷积层构建自适应图卷积网络,用于训练输入数据集data,输入数据集data通过自适应图卷积网络训练得到预测结果label;所述自适应图卷积网络由bn层、9个自适应图卷积层l1、l2、l3、l4、l5、l6、l7、l8、l9、全局平均池化层gap和softmax分类器依次连接而成。
[0091]
自适应图卷积网络架构如图5所示。在本实施例中,l1的输入通道为3,输出通道为64,步长为1,l2和l3的输入通道为64,输出通道为64,步长为1。l4的输入通道为64,输出通道为128,步长为2,l5和l6的输入通道为128,输出通道为128,步长为1。l7的输入通道为128,输出通道为256,步长为2,l8和l9的输入通道为256,输出通道为256,步长为1。
[0092]
6)利用自适应图卷积网络构建多流三维自适应图卷积网络,用于处理多个输入数据集,多个输入数据集通过多流三维自适应图卷积网络得到预测结果;所述多流三维自适应图卷积网络包含四路自适应图卷积网络,具体为:第一路自适应图卷积网络用于处理关键点关节数据,该网络得到的预测结果为p
j
;第二路自适应图卷积网络用于处理关键点骨骼数据,该网络得到的预测结果为p
b
;第三路自适应图卷积网络用于处理关键点关节动态数据,该网络得到的预测结果为p
jm
;第四路自适应图卷积网络用于处理关键点骨骼动态数据,该网络得到的预测结果为p
bm
;将四路自适应图卷积网络的预测结果加权得到预测结果p;加权规则为:p=w
j
p
j
+w
b
p
b
+w
jm
p
jm
+w
bm
p
bm
,其中,w
j
、w
b
、w
jm
、w
bm
分别是关键点关节预测结果加权系数、关键点骨骼预测结果加权系数、关键点关节动态预测结果加权系数、关键点骨骼动态预测结果加权系数。
[0093]
多流三维自适应图卷积网络架构如图6所示。在本实施例中,w
j
=w
b
=w
jm
=w
bm
=0.25。
[0094]
7)训练多流三维自适应图卷积网络,具体操作是:将分区骨架关键点关节训练集分区骨架关键点骨骼训练集分区骨架关键点关节动态训练集分区骨架关
键点骨骼动态训练集和训练集标签y输入多流三维自适应图卷积网络进行训练,迭代训练z轮后,得到训练好的多流三维自适应图卷积网络。
[0095]
在本实施例中训练参数如下:迭代次数z=60,学习率为0.1,当迭代次数到30次时学习率除以10,当迭代次数到40次时学习率再除以10,权重衰减为0.0001,梯度下降策略为nesterov算法。
[0096]
8)利用训练好的多流三维自适应图卷积网络进行行为识别,具体操作为:利用openpose算法提取待检测视频中的人体骨架关键点,构建数据集,方法如同步骤2),再将数据集输入到训练好的多流三维自适应图卷积网络得到行为预测结果。
[0097]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1