基于查询的人体行为感知方法、装置及程序产品

文档序号:37920296发布日期:2024-05-10 23:59阅读:5来源:国知局
基于查询的人体行为感知方法、装置及程序产品

本发明涉及计算机,尤其涉及一种基于查询的人体行为感知方法、装置及程序产品。


背景技术:

1、人体行为感知是计算机视觉中的一个重要课题。通常人体行为感知旨在定位、分割、分类和评估给定视频中的人类行为,以实现对人类行为的理解和识别,涉及动作识别,动作分割,动作定位和动作评估等。通过对视频数据中的人体姿势、动作和行为进行准确的分析和理解,可以应用于许多领域,如视频监控、人机交互、视频内容分析等,具有重要的应用前景。

2、现有的人体行为的感知方法,包括用于动作定位的双阶段方法或者单阶段方法,用于动作分割的基于时序卷积网络(temporal convolutional network,tcn)的算法、基于图神经网络(graph neural network,gnn)的算法和基于transformer的算法等,对于不同的人体行为任务只能处理一种任务,对于不同的任务采用不同的处理方式,一个模型只能完成某项特定的人体行为感知,统一化和标准化程度比较一般,虽然在一定程度上能够应对多样化的任务需求,但是无法实现多任务之间的有效融合和协同工作。在实际应用中,针对每个任务单独设计和开发相应的模型和算法,不仅增加了研发成本,还限制了模型的通用性和可扩展性,存在算法的通用性和可拓展性较低的问题。


技术实现思路

1、鉴于此,本发明实施例提供了一种基于查询的人体行为感知方法、装置及程序产品,以消除或改善现有技术中存在的一个或更多个缺陷。能够实现跨任务联合优化,完成人体行为感知领域的多个任务,提高通用性和可拓展性。

2、本发明的一个方面提供了一种基于查询的人体行为感知方法,该方法包括以下步骤:

3、获取预先训练的人体行为感知模型,人体行为感知模型包括视频编码器和动作解码器;视频编码器用于提取视频数据对应的视觉特征;动作解码器用于将视觉特征作为查询键值对,与至少一个预设查询进行关联,优化至少一个预设查询并输出查询任务对应的结果;

4、将视频数据输入人体行为感知模型,得到人体行为感知结果。

5、可选地,视频编码器包括卷积网络层、变换器网络层和编码器层;视频数据包括视频序列或者视频序列的特征;在视频数据为视频序列的特征的情况下,基提取视频数据对应的视觉特征,包括:

6、通过卷积网络层将每个特征拓展成多个维度;

7、通过变换器网络层将卷积网络层处理后的特征映射到输出特征金字塔;

8、通过编码层对特征金字塔进行特征交互处理,得到视觉特征。

9、可选地,在视频数据为视频序列的情况下,通过卷积网络层将每个特征拓展成多个维度之前,还包括:通过卷积网络层提取视频序列对应的特征。

10、可选地,至少一个预设查询包括类别查询、边界查询和/或掩码查询;查询任务包括动作类别查询任务、动作定位查询任务、动作分割查询任务和/或动作评估查询任务;

11、动作类别查询任务是指类别查询与视觉特征在解码层中交互得到预测的动作类别;

12、动作定位查询任务是指类别查询、边界查询与视觉特征在解码层中交互得到预测的时间片段和对应的动作类别;

13、动作分割查询任务是指边界查询、掩码查询、类别查询与视觉特征在解码层中交互得到预测的动作分割片段;

14、动作评估查询任务是指类别查询与视觉特征在解码层中交互得到预测的动作表现分数。

15、可选地,动作解码器包括预设数量的解码器层,将视觉特征作为查询键值对,与预设查询进行关联,优化预设查询并输出人体行为感知结果,包括:

16、在每一层解码层中交叉关注视觉特征;

17、在类别查询、边界查询和掩码查询之间进行自我关注,在类别查询、边界查询和掩码查询之间建立的关联和交互,输出人体行为感知结果。

18、可选地,将视频序列对应的特征输入人体行为感知模型,得到人体行为感知结果之前,还包括:基于查询任务屏蔽类别查询、边界查询和/或掩码查询。

19、可选地,获取预先训练的人体行为感知模型,包括:

20、获取各个查询任务对应的训练数据;训练数据包括:样本视频数据和样本视频数据对应的各个查询任务的标准输出结果;

21、通过各个查询任务对应的主干网络提取样本视频数据的视觉特征,得到样本视觉特征;不同查询任务对应的主干网络提取的样本视觉特征具有相同的形状;

22、将样本视觉特征输入初始人体感知模型,对动作解码器和各个查询任务进行联合预训练,得到联合训练结果;初始人体感知模型与人体感知模型的模型结构相同;

23、将联合训练结果和标准输出结果输入各个查询任务对应的预设的损失函数,得到损失函数值;

24、使用损失函数值对初始人体感知模型进行迭代训练,得到人体感知模型。

25、本发明的另一方面提供了一种基于查询的人体行为感知装置,包括处理器、存储器及存储在存储器上的计算机程序/指令,其特征在于,处理器用于执行计算机程序/指令,当计算机程序/指令被执行时该装置实现上述基于查询的人体行为感知方法的步骤。

26、本发明的另一方面提供了一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现上述基于查询的人体行为感知方法的步骤。

27、本发明的另一方面提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现上述基于查询的人体行为感知方法的步骤。

28、本发明的基于查询的人体行为感知方法、装置及程序产品,能够通过获取预先训练的人体行为感知模型,将视频数据输入人体行为感知模型,得到人体行为感知结果,可以解决现有的人体行为感知算法的通用性和可拓展性较低的问题。通过将不同的任务目标抽象为不同类型的查询,通过统一的解码器根据任务目标得到相应的输出,动作解码器通过编解码器完成统一,即最大限度地共享不同任务的共同部分,同时保持单个任务的剩余部分不变,保证不同任务享有更准确的权重,又能针对特定任务输出不同结果,从而实现跨任务联合优化,最终能够完成人体行为感知领域的多个任务,因此,能够提高通用性和可拓展性。

29、本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

30、本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。



技术特征:

1.一种基于查询的人体行为感知方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述视频编码器包括卷积网络层、变换器网络层和编码器层;所述视频数据包括视频序列或者视频序列的特征;在所述视频数据为所述视频序列的特征的情况下,所述基提取视频数据对应的视觉特征,包括:

3.根据权利要求2所述的方法,其特征在于,在所述视频数据为所述视频序列的情况下,所述通过所述卷积网络层将每个特征拓展成多个维度之前,还包括:通过所述卷积网络层提取所述视频序列对应的特征。

4.根据权利要求1所述的方法,其特征在于,所述至少一个预设查询包括类别查询、边界查询和/或掩码查询;所述查询任务包括动作类别查询任务、动作定位查询任务、动作分割查询任务和/或动作评估查询任务;

5.根据权利要求4所述的方法,其特征在于,所述动作解码器包括预设数量的解码器层,所述将所述视觉特征作为查询键值对,与预设查询进行关联,优化预设查询并输出人体行为感知结果,包括:

6.根据权利要求1所述的方法,其特征在于,所述将所述视频序列对应的特征输入所述人体行为感知模型,得到所述人体行为感知结果之前,还包括:基于所述查询任务屏蔽所述类别查询、所述边界查询和/或所述掩码查询。

7.根据权利要求1所述的方法,其特征在于,所述获取预先训练的人体行为感知模型,包括:

8.一种基于查询的人体行为感知装置,包括处理器、存储器及存储在存储器上的计算机程序/指令,其特征在于,所述处理器用于执行所述计算机程序/指令,当所述计算机程序/指令被执行时该装置实现如权利要求1至7中任一项所述方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。


技术总结
本发明提供一种基于查询的人体行为感知方法、装置及程序产品,所述方法包括:获取预先训练的人体行为感知模型,人体行为感知模型包括视频编码器和动作解码器;视频编码器用于提取视频数据对应的视觉特征;动作解码器用于将视觉特征作为查询键值对,与至少一个预设查询进行关联,优化至少一个预设查询并输出查询任务对应的结果;将视频数据输入所述人体行为感知模型,得到人体行为感知结果。本发明能够实现跨任务联合优化,完成人体行为感知领域的多个任务,提高通用性和可拓展性。

技术研发人员:金磊,杨丰,淦子良,王小娟,何明枢
受保护的技术使用者:北京邮电大学
技术研发日:
技术公布日:2024/5/9
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1