基于Transformer双流融合网络的多模态人体动作识别方法及装置与流程

文档序号:35994869发布日期:2023-11-16 05:36阅读:152来源:国知局
基于Transformer双流融合网络的多模态人体动作识别方法及装置与流程

本发明属于多模态视频动作理解,涉及一种基于transformer双流融合网络的多模态人体动作识别方法及装置。


背景技术:

1、随着社会经济与科技的不断发展,影像采集技术及设备的持续进步,近年来人体行为数据总量显著增长,采集场景愈发复杂多样,光照、视角、目标姿态、目标比例及背景等成像条件差异巨大,数据采集形式也从单一可见光模态演变为多种模态。人体行为识别技术具有极大应用价值,高效准确的行为识别方法能显著促进人机交互、智慧安防、无人驾驶以及无人系统等多个实际应用领域的发展。

2、基于双流网络的人体行为识别方法包含两个分支网络:时间流分支和空间流分支网络。其中,时间流分支网络将连续帧的光流图像作为输入,空间流分支网络将单张rgb图像作为输入,通过卷积神经网络分别提取光流图像和rgb图像的运动和静态特征,最终将两个网络的预测结果进行融合得到最终的行为分类结果,此方法虽然实现了对人体行为的有效识别,但是这种传统的双流网络缺少对两个支路交互信息的有效建模,只是单纯地做后融合,实质上光流和rgb图像之间的互补特性很难被有效地挖掘。

3、因此需要提出了一种多模态人体动作识别的方法,可以利用transformer进行光流和rgb多模数据的协同学习以解决现有存在的技术问题。


技术实现思路

1、针对现有技术的不足,本发明提供了一种基于transformer双流融合网络的多模态人体动作识别方法及装置,该方法通过提取人体动作视频数据的rgb帧和光流图像,等间隔采样一定长度的视频图像序列,并利用卷积神经网络为rgb帧和光流图像提取时空特征,作为双流网络模型的输入;然后,使用transformer编码器捕捉单个分支网络的显著特性以及它们之间的交互特性;最后,将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分类器实现对人体动作的有效识别。

2、本发明的是通过以下技术方案来实现的:

3、本发明的第一方面:一种基于transformer双流融合网络的多模态人体动作识别方法,该方法包括以下步骤:

4、(1)提取人体动作视频数据的rgb帧和光流图像,等间隔采样若干个视频图像序列,并利用卷积神经网络为rgb帧和光流图像提取时空特征,作为双流网络模型的输入;

5、(2)使用transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互;(3)将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别。

6、进一步地,所述步骤(3)具体为:

7、(3.1)首先使用大小的卷积减少通道数目,得到相应的特征图、,然后在空间维度进行展平操作,得到rgb图像的特征表示和光流图像的特征表示,并将其作为原始输入特征;其中d为通道数,h和w为特征图的高和宽;

8、(3.2)对rgb和flow的特征进行三元组矩阵变换,利用变换得到两种模态对应的查询特征、键特征以及值特征;再利用交叉注意力计算进行两种模态的特征融合,且数学表达式中的查询矩阵和键矩阵k分别来自两个模态;

9、(3.3)通过跳跃连接将得到的多头注意力的输出特征与原始输入特征进行连接,得到与特征;再将与特征通过前馈神经网络ffn后得到交叉模态特征和,然后将交叉模态特征和进行拼接得到融合后的多模态特征表示;

10、(3.4)将多模态特征、以及融合后的特征进行空间维度的平均池化操作,并送入分类器分别得到预测类别的概率得分;

11、(3.5)利用三元组损失函数优化多模态人体动作识别网络,使得通过rgb特征、flow特征以及融合特征预测得到的动作类别的真实类别;

12、(3.6)测试时将输入视频进行特征提取、交叉模态特征融合得到融合后的特征,将在融合后的特征上预测相应的动作类别概率得分,将得分最大的类别作为该视频的动作识别结果。

13、进一步地,所述步骤(3.2)中利用变换得到两种模态对应的查询特征、键特征以及值特征,其变换的数学表达式如下:

14、;

15、其中,分别表示对特征进行线性变换得到的三元组特征表示即查询特征、键特征以及值特征,表示对rgb特征进行线性变换得到的三元组矩阵特征,即rgb特征的查询、键、值矩阵特征;,表示多头注意力的头数,表示矩阵的转置操作;为建模rgb和两个模态之间的交互特性,表示三元组矩阵的第h个注意力头的分量。

16、进一步地,所述步骤(3.2)中利用交叉注意力计算进行两种模态的特征融合,且计算的数学表达式中的查询矩阵q和键矩阵k分别来自两个模态,其数学表达式如下:

17、;

18、;

19、其中,表示特征第i个注意力头的计算结果,表示rgb特征第i个注意力头的计算结果;

20、进而将单头注意力拓展成多头注意力multihead的形式,其表达式如下:

21、;

22、其中,表示多头注意力的个数,为线性变换的参数矩阵,multihead表示多头注意力,为特征拼接操作。

23、进一步地,所述步骤(3.3)中拼接得到融合后的多模态特征表示,其拼接表达式如下:

24、;

25、;

26、其中,表示层归一化layer normalization操作,再将与特征通过前馈神经网络ffn:

27、;

28、;

29、将上述交叉模态特征和进行拼接得到融合后的多模态特征表示:

30、。

31、进一步地,所述步骤(3.5)中利用三元组损失函数优化多模态人体动作识别网络,其优化损失函数表达式如下:

32、;

33、其中,为损失调节项,为类别的真值,c为动作类别数目。

34、进一步地,所述利用三元组损失函数优化多模态人体动作识别网络,即预训练时优化rgb空间分支网络、光流时间分支网络以及融合分支网络的交叉熵损失函数;测试时只使用融合分支网络进行类别预测。

35、本发明的第二个方面:

36、一种基于transformer双流融合网络的多模态人体动作识别装置,该装置包括以下模块:

37、提取模块:提取人体动作视频数据的rgb帧和光流图像,等间隔采样若干个的视频图像序列,并利用卷积神经网络为rgb帧和光流图像提取时空特征,作为双流网络模型的输入;

38、获取特征模块:使用transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互;

39、融合识别模块:将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别。

40、本发明的第三个方面:一种电子设备,包括:

41、一个或多个处理器;

42、存储器,用于存储一个或多个程序;

43、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如一种基于transformer双流融合网络的多模态人体动作识别方法。

44、本发明的第四个方面:一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如一种基于transformer双流融合网络的多模态人体动作识别方法的步骤。

45、本发明的有益效果如下:

46、本发明通过人体动作利用transformer网络中的交叉注意力机制对输入rgb和光流模态的有效融合,进而实现对人体动作的准确识别。可提升多模态人体动作特征的交互能力,进一步提升多模态人体动作识别的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1