一种基于多模态大模型CLIP的视频动作识别方法及装置与流程

文档序号:37934091发布日期:2024-05-11 00:12阅读:7来源:国知局
一种基于多模态大模型CLIP的视频动作识别方法及装置与流程

本发明涉及一种视频动作识别,尤其涉及一种基于多模态大模型clip的视频动作识别方法及装置。


背景技术:

1、视频动作识别是计算机视觉领域的重要研究主题,该任务旨在自动检测和识别视频中的人体动作或行为,在各领域应用广泛。随着深度神经网络的发展,动作识别取得显著进展,包括传统双流模型、3d卷积神经网络和基于transformer的方法。现有方法中的封闭集分类方案在实际应用中面临挑战,难以识别未见类别或在少样本学习中表现较差。视觉—语言模型能有效增强模型泛化能力,并且由于视觉—语言模型的多模态性质引起了学术界和工业界的广泛关注,如何将大规模的视觉-语言预训练模型如clip转移到视频理解任务成为了关注的焦点。

2、由于该任务涉及基于clip来做视频动作识别,但是clip模型参数量庞大,直接从零开始训练模型效率低下,因此目前已有的方法采用预训练模型微调的方式,微调clip模型存在以下问题亟待解决:(1)完全微调clip模型(即在训练期间更新所有模型参数)不可避免地会产生显著的内存和计算成本,并且可能导致灾难性的遗忘;(2)在对下游视频动作识别任务进行端到端微调时,有可能丢失从图像预训练中学到的有价值的视觉特征,导致下游视频缺乏足够信息时性能不佳。


技术实现思路

1、本发明的目的在于针对现有技术的不足,提供了一种基于多模态大模型clip的视频动作识别方法及装置。

2、为实现上述目的,本发明提供了一种基于多模态大模型clip的视频动作识别方法,该方法包括如下步骤:

3、s1:给定一个包含t帧的视频,将每帧视频分割成等大的非重叠正方形图像块,通过线性投影层将每个图像块映射为一个序列的图像块嵌入,并在每个帧的嵌入序列开头添加一个可学习的类别标记,作为transformer模块的输入;

4、s2:给定一个类别标签,对所述类别标签使用文本类别模版生成文本描述,使用字节对编码处理文本描述生成词序列;

5、s3:将步骤s1得到的图像块嵌入和步骤s2得到的文本描述分别传入视觉编码器和文本编码器,得到视觉编码特征与类别编码特征;

6、s4:将步骤s3得到的视觉编码特征传入时序差分注意力模块,得到最终视频表示;

7、s5:将步骤s4获得的最终视频表示与步骤s3获得的类别编码特征,进行粗粒度对比学习和细粒度对比学习;选择最终相似度得分最高的动作类别作为该视频动作识别的预测结果。

8、进一步地,所述步骤s1中,对于长为h,宽为w的视频帧,分割成边长为p的等大的hw/p2个非重叠正方形图形块,在每个帧的嵌入序列开头位置添加一个可学习的类别标记。

9、进一步地,所述步骤s2中,对于类别标签,使用文本类别模版生成“a photo of a{c}”的文本描述。

10、进一步地,所述步骤s3包括以下子步骤:

11、(3.1)在每个transformer模块中的输入序列的前面添加一组可训练的提示词,并与所有输入词元进行交互,将和el-1分别表示第l层transformer模块的视觉提示输入和图像块特征,提示调整将可学习的提示添加到每个transformer模块φl中,第l个transformer模块处理输入的视觉提示表示如下:

12、[xl,cls,_,el]=φ1([xl-1,cls,pl-1,el-1]),l=1,...,l;

13、其中,对应位置的的输出特征被丢弃,记作“_”,m表示文本提示的数量;文本提示被添加到文本编码器的每个层中;第l层的文本提示和词特征嵌入分别为wl-1;对于第l层,输入的文本提示表示为:

14、

15、(3.2)对于第l层的输入特征xl,可训练轻量级瓶颈模块适配器执行以下计算:

16、

17、

18、其中,wdown,wup分别为下采样映射和上采样映射的权重矩阵,表示中间输出值,xl表示第l层的输出特征,xl表示第l层的输入特征,s表示尺度因子;将来自前一层的输出xl-1投影到矩阵pk和pv,然后将计算得到的矩阵pk和pv与原始的键和值矩阵相加,执行多头自注意力操作;该过程的计算描述如下:

19、pk,pv=relu(xl-1wdown)wup;

20、

21、

22、msa(xl-1)=concat(head1,head2,...,headh)wo;

23、其中,分别表示第i个注意力头的查询、键以及值变换的权重矩阵,q,k,v分别表示自注意力机制中的查询、键和值矩阵;h代表注意力头headi的总数目;wo表示线性变换的权重矩阵,concat表示特征拼接;

24、(3.3)采用视觉骨干网络作为视觉编码器,输入视觉图像块得到视觉特征编码ev;采用预训练语言骨干作为文本编码器,对词序列进行编码生成类别编码特征es。

25、进一步地,所述步骤s4具体过程如下:

26、给定一个视频特征序列ef=f0,f1,f2,...,fn-1,其中每个fi表示第i帧的嵌入,计算相邻帧嵌入之间的差异,捕捉短期时序信息;使用sigmoid函数得到增强差分的特征嵌入表达式如下:

27、

28、其中,p代表位置编码,和表示相邻两帧的特征,σ为激活函数,φ表示transformer层;将增强差分的特征嵌入在每对相邻帧之间插入,以获得时间特征编码fte:

29、

30、其中,t为类型编码特征。

31、进一步地,所述步骤s5中,粗粒度对比学习具体为:

32、采用视频句子对比表示粗粒度相似性,使用对称的交叉熵损失来最大化正匹配视频标签对之间的相似度,并最小化其他不匹配对之间的相似度;交叉熵损失的计算如下所示:

33、

34、

35、

36、其中,lv2c、lc2v表示视频与句子之间的双向对比损失,lvc表示视频与句子双向对比损失的平均值,esi表示训练批次b内每个句子级的特征,evi表示训练批次b内每个视频级的特征,b为批次大小,sim(·,·)为余弦相似度函数;τ是一个可学习的温度超参数,用于在softmax函数中缩放。

37、进一步地,所述步骤s5中,细粒度对比学习具体为:

38、采用帧-单词对比作为细粒度相似性,使用矩阵乘法计算帧和单词表示之间的细粒度相似性矩阵sfw,其中sfw=ef·(ew)t包含n个帧和m个单词的相似度分数,ef表示具有n个帧的特征表示,ew表示具有m个单词的特征表示;对相似性矩阵sfw进行两次注意力操作;通过第一次注意力操作获得细粒度的视频级和句子级相似性向量,表达式如下:

39、

40、

41、其中,“*”代表对应维度的所有元素,svid和ssen分别表示视频级和句子级的相似性得分;通过第二次注意力获得细粒度实例级的相似度得分,表达式如下:

42、

43、

44、其中,s′vid和s′sen分别表示视频级细粒度相似度得分、句子级细粒度相似度得分,细粒度相似度分数是通过计算视频实例和句子实例相似度分数的平均值得到的,表示为:

45、

46、为实现上述目的,本发明还提供了一种基于多模态大模型clip的视频动作识别装置,包括一个或多个处理器,用于实现上述的基于多模态大模型clip的视频动作识别方法。

47、为实现上述目的,本发明还提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于多模态大模型clip的视频动作识别方法。

48、为实现上述目的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于多模态大模型clip的视频动作识别方法。

49、本发明的有益效果是:针对视频动作识别这一任务中,一方面现有方法中的封闭集分类方案难以识别未见类别或在少样本学习中表现较差的问题,提出微调clip模型以得到强的泛化性,但由于完全微调clip模型较高的内存和计算成本以及可能导致的灾难性遗忘,本发明提出使用两种改进的少参数微调方法提示调整和可训练轻量级瓶颈模块适配器来引导clip模型适应下游任务;另一方面,在对下游视频动作识别任务进行端到端微调时,有可能丢失从图像预训练中学到的有价值的视觉特征,导致下游视频缺乏足够信息时性能不佳,本发明提出使用时序差分注意力模块来处理帧间时序交互信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1