一种基于文本监督的人体动作识别方法

文档序号:34734107发布日期:2023-07-12 17:53阅读:22来源:国知局
一种基于文本监督的人体动作识别方法

本发明涉及计算机,具体涉及一种基于文本监督的人体动作识别方法。


背景技术:

1、人体动作识别在许多现实应用中有着重要意义。它可用于视频监控领域以识别危险动作,也可用于自动驾驶领域感知行人行为以确保车辆安全行驶。此外,动作识别在其他领域也有重要应用,例如视频检索、人机交互以及娱乐等。通过视觉检测人体动作近年来凭借独特的方便、快捷、简单、实时等优势被很多实际应用场景所青睐。因此,提高动作识别方法的准确率和效率成为重要研究内容。

2、过去人体动作往往基于单一模态数据进行识别,如rgb图像数据、深度图像数据、人体骨架数据等。其中,骨架关节点凭借其具有较高鲁棒性的特点成为主流的识别模式之一。最近,通过多种数据模态的融合以提高动作识别的准确性和鲁棒性,受到广泛的关注。其中文本数据模态拥有丰富的语义信息,但是如何将文本的语义信息和其他模态结合,成为多模态融合的主要课题。

3、当前涉及动作识别方法有:发明专利(公开号:cn113158970a,名称:一种基于快慢双流图卷积神经网络的动作识别方法与系统)该发明提出一种快慢双流图卷积神经网络,通过快分支和慢分支提取动作的时序特征,从而提高动作分类的准确度。但该方法忽略了远距离关节间的外在依赖,可能会导致遗漏动作关键特征。发明专利(公开号:cn115690905a,名称:一种融合内外依赖的人体骨架动作识别方法)该发明通过构建时空骨架图的内在依赖和外在依赖提高各关节的联系。但该发明对相似骨架动作的特征无法严格区分,从而对类似动作的识别准确率不高。

4、综上所述,当前解决方案有一定的局限性,忽略了不相连关节点之间的联系。此外,由于图信息存在稀疏的缺点,导致骨骼动作的特征未能充分表示。为此,提出了通过文本监督的人体动作识别方法。


技术实现思路

1、为了解决上述基于深度学习的动作识别方法存在的问题,本发明提出了通过文本监督的人体动作识别方法;本发明首先通过骨骼编码器网络模型进行人体骨架特征提取,再利用文本编码器生成不同动作的特征向量与骨架特征进行相似度计算,对整个网络进行训练,得到动作识别的结果。

2、一种基于文本监督的人体动作识别方法,包括如下步骤:

3、步骤1:从人体关节数据集中获取图数据g=(v,e),其中,节点集v={vt,i|t=1,2,…,t,i=1,2,…,n}表示骨架序列中的所有关节,由视频第t帧中人体第i个骨骼关节坐标组成;边集e由两个子集组成,第一个子集为每一帧不同骨骼关节点连接,第二个子集为连续帧之间相同关节点的连接;

4、步骤2:将图数据输入到骨骼关节点编码网络中,得到骨骼关节点特征向量,具体步骤为:

5、步骤2.1:将图数据转化为网络训练输入的骨骼关节点特征fin,形状为:(m,t,n,c),其中,m为识别动作人数,t表示动作的帧数,n表示人体关节点的数量,c为特征通道数,表示v的关节点坐标;

6、步骤2.2:将人体骨骼关节点特征fin输入到图transformer网络模块中进行特征学习,图transformer网络模块包括全连接嵌入层,自注意力层和多层感知机;图transformer网络模块的计算使用如下公式描述:

7、fi′n=concat(linear(fin),a)) (1)

8、fi′n′=sa(ln(fi′n)) (2)

9、fgcn_in=linear(mlp(ln(fi′n′))) (3)

10、其中,式(1)为全连接嵌入层,a表示骨架关节图的邻接矩阵,linear表示线性计算,concat表示拼接操作;式(2)为自注意力层,sa表示自注意力模块,ln表示层归一化;式(3)为多层感知机,mlp表示多层感知机计算,fgcn_in为图卷积模块的输入;

11、步骤2.3:输入特征学习后的关节点特征到图卷积网络模块,输入的数据经过9个gcn单元,每经过一个gcn单元将特征dropout,其中前三层的输出有64个通道,中间三层有128个通道,最后三层有256个通道,每个gcn单元包括:注意力模块,图卷积模块,时间卷积模块;经过全局平均池化得到骨架特征向量;步骤3:根据人体关节点数据对应的动作标签生成文本描述,输入到文本编码器网络中,得到文本特征,具体步骤为:

12、步骤3.1:使用带有前缀和后缀的文本模板来生成文本描述,前缀模板为[label],this is an action,后缀模板为human action of[label],其中[label]为人体动作标签;

13、步骤3.2:输入文本描述到文本编码器得到文本特征向量,文本编码器包含12个transformer模块,每个模块包含一个多头自注意力层和前馈网络层,每个模块中间还有层归一化和残差连接;文本编码结构公式表示为:

14、

15、其中表示第l层的第t个时间步的隐状态,fnn为前馈神经网络模块;

16、步骤4:将骨架特征向量和文本特征向量进行相似度计算,根据动作标签的相似度大小得到动作分类结果。

17、本发明的优点为:本发明通过骨骼编码器得到骨架特征向量,在图卷积网络前加入图transformer模块可以分析未相连关节点之间的联系,并与基于rgb的行为分析方法相比,有效增加其泛化能力,最后还通过文本编码器得到的文本特征监督学习骨架特征,有效提高动作识别的准确率。



技术特征:

1.一种基于文本监督的人体动作识别方法,其特征在于,包括如下步骤:


技术总结
本发明涉及计算机技术领域,具体是一种基于文本监督的人体动作识别方法;首先将骨骼数据通过编码器网络模型进行人体骨架特征提取,再利用文本编码器生成不同动作的特征向量与骨架特征进行相似度计算,得到动作识别结果;本发明通过骨骼编码器得到骨架特征向量,在图卷积网络前加入图Transformer模块可以分析未相连关节点之间的联系,并与基于RGB的行为分析方法相比,有效增加其泛化能力,最后还通过文本编码器得到的文本特征监督学习骨架特征,有效提高动作识别的准确率。

技术研发人员:翁立波,楼韦东,高飞
受保护的技术使用者:浙江工业大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1