基于开放集的视频动作识别方法、装置、设备及存储介质与流程

文档序号:37462368发布日期:2024-03-28 18:45阅读:11来源:国知局
基于开放集的视频动作识别方法、装置、设备及存储介质与流程

本发明涉及计算机视觉,特别涉及一种基于开放集的视频动作识别方法、装置、设备及存储介质。


背景技术:

1、视频动作识别是指通过对视频序列进行分析和处理,从中提取出动作相关的信息,并将其归类为不同的动作类别。而开放集的视频动作识别是指在识别的动作类别集合中存在未知类别的情况下进行动作识别。相比于封闭集的视频动作识别,开放集的视频动作识别更具挑战性,因为模型需要有能力识别未见过的动作类别。在开放集的视频动作识别中,训练和测试的动作类别不完全重叠,模型需要具备对未知类别进行识别的能力。开放集的视频动作识别的目标是识别和分类已知类别的动作,同时也要能够检测和区分未知类别的动作。而基于零样本学习的视频动作识别则更注重通过学习已知类别的属性信息来推广到未见过的类别,从而实现对未知类别的识别。

2、开放集的视频动作识别具有广泛的应用场景,主要包括:视频监控与安全、交通监管与智能驾驶、运动分析与健身监测、智能辅助与增强现实等。开放集的视频动作识别的意义在于提高对未知动作类别的识别能力,拓宽了视频动作识别的适用范围和实用性。它能够提供更智能化和可靠的影像分析解决方案,为各种领域的监控、分析、辅助决策等任务提供有力支持,并促进人机交互和智能化应用的发展。

3、由此可见,如何对开放集的视频进行动作识别,以及提高动作识别准确率和实用性是本领域要解决的问题。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于开放集的视频动作识别方法、装置、设备及存储介质,可以提高视频动作识别的准确率和实用性。其具体方案如下:

2、第一方面,本技术提供了一种基于开放集的视频动作识别方法,包括:

3、获取待识别视频,并基于预设时间长度将所述待识别视频划分为若干视频片段;

4、基于预设关键帧提取规则从所述若干视频片段中分别提取出相应的若干关键帧;

5、利用预设视觉编码器对所述若干关键帧进行处理,得到包含时间信息和空间信息的视觉编码特征;

6、通过预设文本解码器对所述视觉编码特征进行解码处理,得到与所述待识别视频对应的动作描述文本;所述预设文本解码器由多头自注意力和前馈神经网络构成;

7、从所述动作描述文本中确定出与所述待识别视频对应的若干动作类别。

8、可选的,所述基于预设关键帧提取规则从所述若干视频片段中分别提取出相应的若干关键帧,包括:

9、计算单个视频片段中相邻视频帧之间的像素差异或运动向量差异,并根据所述像素差异或运动向量差异确定出差异值最大的视频帧,以得到与所述若干视频片段分别对应的若干关键帧;

10、或,基于深度学习,并利用预设动作类别从所述若干视频片段中提取出与所述预设动作类别相匹配的视频帧,以得到与所述若干视频片段分别对应的若干关键帧。

11、可选的,所述利用预设视觉编码器对所述若干关键帧进行处理,得到包含时间信息和空间信息的视觉编码特征之前,还包括:

12、获取训练数据集;所述训练数据集为包含图像和/或视频,以及包含相应动作描述文本的数据集;

13、根据预设关键帧提取规则对所述训练数据集中的视频进行处理,以提取出相应的视频关键帧,并将所述训练数据集中的图像确定为相应的图像关键帧;

14、根据预设图像尺寸对所述视频关键帧和/或所述图像关键帧进行调整,得到相应尺寸的调整后关键帧;

15、利用所述调整后关键帧以及相应的动作描述文本对初始transformer模型进行训练,得到目标transformer模型;所述目标transformer模型包括预设视觉编码器和预设文本解码器。

16、可选的,所述根据预设关键帧提取规则对所述训练数据集中的视频进行处理,以提取出相应的视频关键帧,并将所述训练数据集中的图像确定为相应的图像关键帧,包括:

17、根据预设关键帧提取规则从所述训练数据集中的视频中提取出预设数量的视频关键帧;

18、对所述训练数据集中的图像进行复制操作,得到所述预设数量的图像关键帧。

19、可选的,所述利用所述调整后关键帧以及相应的动作描述文本对初始transformer模型进行训练,得到目标transformer模型,包括:

20、根据预设图像块尺寸对所述调整后关键帧进行裁剪,得到若干图像块;

21、基于时间顺序,并通过预设图像编码器对所述图像块进行处理,得到与所述调整后关键帧对应的特征图;

22、利用预设前馈网络对所述时间顺序和所述特征图进行处理,得到包含时间信息和空间信息的视觉编码向量;

23、对与所述调整后关键帧对应的动作描述文本进行tokenize和特征嵌入操作,得到文本编码向量;

24、利用初始文本解码器对所述视觉编码向量和所述文本编码向量进行解码处理,得到初始transformer模型单次训练过程的输出文本;

25、对所述初始transformer模型经过预设训练数量的训练轮次时,得到目标transformer模型。

26、可选的,所述方法还包括:

27、对所述初始transformer模型进行单次训练过程后,利用最新的transformer模型对预设验证数据集进行验证处理,以判断得到的动作描述文本是否与所述预设验证数据集相匹配;

28、若是,则将最新的transformer模型确定为目标transformer模型。

29、可选的,所述从所述动作描述文本中确定出与所述待识别视频对应的若干动作类别,包括:

30、从所述动作描述文本中提取出表征动作的词语;

31、将所述词语对应的动作类别确定为与所述待识别视频对应的若干动作类别。

32、第二方面,本技术提供了一种基于开放集的视频动作识别装置,包括:

33、视频划分模块,用于获取待识别视频,并基于预设时间长度将所述待识别视频划分为若干视频片段;

34、关键帧提取模块,用于基于预设关键帧提取规则从所述若干视频片段中分别提取出相应的若干关键帧;

35、视觉编码模块,用于利用预设视觉编码器对所述若干关键帧进行处理,得到包含时间信息和空间信息的视觉编码特征;

36、文本解码模块,用于通过预设文本解码器对所述视觉编码特征进行解码处理,得到与所述待识别视频对应的动作描述文本;所述预设文本解码器由多头自注意力和前馈神经网络构成;

37、动作类别确定模块,用于从所述动作描述文本中确定出与所述待识别视频对应的若干动作类别。

38、第三方面,本技术提供了一种电子设备,包括:

39、存储器,用于保存计算机程序;

40、处理器,用于执行所述计算机程序以实现如上述的基于开放集的视频动作识别方法。

41、第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如上述的基于开放集的视频动作识别方法。

42、由此可见,本技术首先获取待识别视频,并基于预设时间长度将所述待识别视频划分为若干视频片段;基于预设关键帧提取规则从所述若干视频片段中分别提取出相应的若干关键帧;然后利用预设视觉编码器对所述若干关键帧进行处理,得到包含时间信息和空间信息的视觉编码特征;通过预设文本解码器对所述视觉编码特征进行解码处理,得到与所述待识别视频对应的动作描述文本;所述预设文本解码器由多头自注意力和前馈神经网络构成;从所述动作描述文本中确定出与所述待识别视频对应的若干动作类别。这样一来,本技术中,结合视频数据的时间及空间信息生成与待识别数据对应的动作描述文本,然后直接从动作描述文本中确定出动作类别;可以提高视频动作识别的准确率,同时避免了预先设置动作类别词汇表对识别结果的限制,实现了动作类别开放的视频动作识别,可以得到与待识别视频对应的更精确的动作类别。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1