基于多尺度时间特征的行为识别方法

文档序号:37544246发布日期:2024-04-08 13:46阅读:10来源:国知局
基于多尺度时间特征的行为识别方法

本发明属于计算机视觉领域,涉及一种基于多尺度时间特征的行为识别方法。


背景技术:

1、人体行为识别(human action recognition,har)是基于数字图像、视频和传感器数据来对人的一系列行为的自动分析并进行分类的研究。在计算机视觉领域中,行为识别一直是一项热门且具挑战性的研究课题,随着硬件设备的不断提升,使har逐渐成功的应用在各个领域,例如人机交互,视频安全监控,医疗保健,体育运动分析和增强现实。

2、基于骨架数据的行为识别方法的发展主要经历了两个阶段。在早期,研究人员利用关节坐标构建特征向量,并采用手工设计的特征描述符来表示骨架动作序列的特征。随着深度学习的兴起,研究人员逐渐转向手动构建骨架数据,将其转化为伪图像或坐标向量序列,并随后运用卷积神经网络(cnns)或循环神经网络(rnns)进行动作预测。然而,这些方法都未充分考虑人体关节之间的内在关系,因而遗漏了大量的行为信息。图结构以关节作为顶点、关节之间的连接符合人体骨骼结构的特点,能够有效表达关节之间的依赖关系。近年来,图卷积网络(gcns)成功将卷积从图像领域扩展到图结构中,st-gcn模型是首个将图卷积网络成功应用于骨架动作识别的典范,该模型通过在时空维度交替执行图卷积操作,有效地建模了骨架序列的时空图。

3、然而目前的方法大多专注于空间建模方面的研究,在时间建模能力上还有待提升。具体表现在两个方面:(1)人体行为识别中,由于行为的差异,不同行为的持续时间是不同的。有些动作比如“写作”,在较短的时间范围就能识别出来,如“穿上鞋子”,包含弯腰、拿鞋、穿鞋、系鞋带、起身等多个阶段则需要较长的时间才能判断。然而目前大多数模型在时间维度上仍然使用单一尺度的时间特征,在固定感受野上获得的信息非常有限,不利于行为识别精度的提高。(2)在整个行为演变过程中,所有帧对识别行为并不同等重要。对于每个行为类,都存在对行为信息量最大的身体姿势,为提高效率只关注这些关键帧的骨架就可以提取足够的信息进行动作识别。

4、因此,在已具有良好判别力和表达力的空间特征的同时,如何有效提取骨架序列中更有效的多尺度时间特征信息,聚合关键帧的上下文信息是提高行为识别模型性能的关键。


技术实现思路

1、有鉴于此,本发明的目的在于针对行为在时间维度上复杂多变的问题提出一种基于多尺度时间特征的行为识别方法,在时间维度上构造不同尺度的内核和不同的膨胀率以捕获多尺度时间特征信息,丰富感受野的多样性,并利用帧间-帧内注意力自适应融合更重要的关键帧。在早期融合双分支输入(关节点和骨骼的位置信息和速度信息),在保留丰富的输入特征的同时抑制了模型的复杂度。

2、为达到上述目的,本发明提供如下技术方案:

3、一种基于多尺度时间特征的行为识别方法,包括以下步骤:

4、s1:逐帧采集被测试者在测试时间段内的视频图像;

5、s2:提取视频图像连续帧中的人体25个骨骼关键点,排除非必要骨骼点信息,并提取出关节点和骨骼的位置信息和速度信息作为输入数据;

6、s3:通过早期融合双分支网络,将关节点和骨骼的位置信息,以及关节点和骨骼的速度信息分别通过两个分支输入,每个分支通过三个主干网络模块进行特征融合;

7、s4:将早期融合数据馈送到包含六个主干网络模块的主流进行判别处理;

8、s5:最后进行特征融合分类,得到行为分类结果。

9、进一步,步骤s2中,具体包括:

10、s21:基于深度图像获取待评估体育动作对应的人体骨骼的骨骼点坐标,获得人体骨架中25个骨骼关节点信息,在3d坐标系中的点以指标[x,y,z]坐标三元组的形式表示,其中原点为采集点,x轴为采集点指向人体骨骼的方向,y轴为人体骨骼的侧向,z轴为采集点的高度方向,所有关节坐标系是3d坐标系中的绝对坐标系;

11、s22:输入的骨架序列表示为一个四维张量:[b×p,c,t,n],其中b表示批大小,p表示在该序列中的人数,c表示输入的通道数,t表示每个样本序列的帧数,n表示人体关节点数,在t帧中关节点i的三维位置信息表示为:

12、jti={(xti,yti,zti)|t=1,...,t,i=1,...,n}

13、令关节点i为源关节点,关节点j为目的关节点,则骨骼的位置信息为:

14、bt(i,j)={(xti-xtj,yti-ytj,zti-ztj)|t=1,...,t,i,j=1,...,n}

15、将两种信息融合起来,组成以下位置信息:

16、pos={jti,bt(i,j)}

17、s23:通过计算相邻两帧之间的关节点的坐标差提供动力学线索的速度信息,关节点i的速度信息如下:

18、ji={(jti-j(t-1)i)|t=1,...,t,i=1,...,n}

19、骨骼的速度信息如下:

20、b(i,j)={(bt(i,j)-b(t-1)(i,j))|t=1,...,t,i,j=1,...,n}

21、速度信息表示融合为:

22、v={ji,b(i,j)}。

23、进一步,所述主干网络模块由空间图卷积模块和多尺度时间图卷积模块串联而成,并引入残差连接组成;

24、所述空间图卷积模块将骨架抽象为图形,关节点作为图节点,关节点之间的骨骼作为图的边,通过关节点之间的连接关系,即通过划分邻域的策略来决定划分后的子集对应的邻接矩阵,找到需要的卷积参数完成卷积操作,完成空间特征提取;

25、所述多尺度时间图卷积模块在时间维度上,通过连续帧之间相同关节点的连接来构造图的边集,将空间图卷积的卷积域扩展到时间维度上,即同一关节点在不同帧的数据的集合,提出混合并行膨胀卷积(hybrid concurrent dilation convolution,hcdc)在多个时间尺度上提取特征,每个尺度的卷积核可以捕捉到不同时间范围内的信息变化;引入帧间-帧内注意力(inter-frame-intra-frame attention,i2att)模块从帧间动态特征和帧内静态特征两方面关注时间序列中的关键信息,并捕获长距离的依赖关系。

26、进一步,所述空间图卷积模块具体包括:

27、fin以张量的形式作为输入特征,输出特征fout表示为cin和cout为输入和输出通道数,空间图卷积表示为:

28、

29、式中,σ表示线性整流函数(rectified linear unit,relu),qk表示归一化邻接矩阵,由邻接矩阵ak、单位矩阵i和度矩阵dk构成,其中ak表示划分的每个子集的关节点的连接关系,在连接关系中加上关节点的自连接i;dk是一种对角矩阵,主对角线元素是每个关节点包含自身关节点的度,用于归一化邻接矩阵ak+i,qk表示为:

30、

31、其中,wk用于卷积运算的可训练的权重矩阵,表示两个矩阵对应元素相乘,mk为注意力矩阵,表示关节点之间的重要性;

32、在空间维度引入自适应的空间图卷积(agcn),把qk扩展成三个子图的叠加,根据不同的样本,自适应地学习和更新骨架图的结构,表示如下:

33、

34、式中,bk为全局自适应图,该矩阵中的元素为随网络训练而更新的参数,bk可使没有物理连接的关节点之间产生关联,ck为样本自适应图,ck通过使用高斯函数计算两个顶点的相似度来确定两个顶点是否连接以及连接的强度,相似度计算公式如下:

35、

36、其中,θ和φ为1×1的卷积操作。

37、进一步,所述多尺度时间图卷积模块具体包括混合并行膨胀卷积模块和帧间-帧内注意力模块:

38、所述混合并行膨胀卷积模块中,先采用瓶颈结构(bottleneck structure)减少参数的数量,即通过1×1卷积层,bn层和relu激活函数;其中1×1卷积层的作用是在不改变特征图大小的情况下,通过降低输入特征图的通道数,减少模型计算复杂度;通过bn层规范化特征和relu激活函数引入非线性变换增加模型表达能力;通过主干网络,将输出的特征图传送到每个并行分支中,经过瓶颈结构后的输出特征xtemporal维度变为c/8×t×n,其中六条分支分别使用3×1和7×1大小的卷积核并结合膨胀率为1,2,3的膨胀卷积,卷积核先完成一个关节点在其所有帧上的卷积,再移动至下一点,得到不同大小的感受野,丰富多尺度时间特征的表达;给定输入x(i),假设原始卷积核为k,卷积权重为w(k),当膨胀率为d时,其对应的膨胀卷积的输出y(i)由下列公式计算:

39、

40、引入两个支路,即1×1卷积支路和最大池化支路,最后将8条分支的特征输出在通道维度拼接起来,将最终的输出特征的通道数还原为输入特征的通道数大小;利用残差连接让网络学习到从输入到输出的残差信息,通过传递残差信息,网络可以更容易地学习到目标函数的映射关系。混合并行膨胀卷积模块的输出为:

41、yhcdc=concat(f1,...,f8)+yspatial

42、式中,f代表每条分支的输出;

43、所述帧间-帧内注意力模块中,假设输入特征输出特征将输入特征沿着两个方向聚合特征,一个是在连续帧间行为变化的动态信息,捕获远程依赖关系,另一个是在单帧内关节点之间的静态信息,保持精确的位置信息;

44、将全局平均池化分解为帧内平均池化和帧间平均池化,分别沿着关节级和帧级对每个通道进行编码,通道c在t帧内平均池化表示为:

45、

46、通道c在关节点v的帧间平均池化表示为:

47、

48、将池化后的特征表示拼接起来以聚合压缩信息并发送到一个1×1卷积中,得到中间特征映射:

49、

50、式中,δ表示hardswish激活函数,f表示1×1卷积函数,concat表示拼接操作,ψt表示帧内平均池化,ψn表示帧间平均池化,r表示压缩系数,用来减少通道数;然后将中间特征映射拆分成带有压缩信息的帧内特征和帧间特征再分别利用另外的1×1卷积函数fintra和finter将帧内特征和帧间特征的通道数变换为与输入特征x相同,最后将得到的帧内注意力分数和帧间注意力分数与输入特征xin相乘;输出特征yout表示为:

51、

52、式中,σ为sigmoid激活函数;

53、则主干网络模块表示为下列公式:

54、

55、式中,和表示每一个基本块的输出特征和输入特征,i(·)代表残差连接。

56、进一步,步骤s5中,六个主干网络模块的末端经过一个全局平均池化(globalaverage pooling,gap)层,将不同样本的特征映射到相同大小,并将其引入全连接层(fully connected layer,fc)中,最后的输出被送到softmax分类器得到分类结果;采用端到端的结构,以数据驱动的方式自动学习数据的特征表示,使分类误差最小化。

57、本发明的有益效果在于:本发明利用图卷积神经网络,能够高效的构建一种基于多尺度时间特征的行为识别方法,即通过机器视觉与人工智能学习技术相结合进行动作行为的检测并分类。解决了采用单一尺度的时间卷积核在持续时间不同的行为识别任务中并不足以实现准确、全面的时间建模的问题。

58、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1