本申请涉及计算机视觉,特别是涉及动作识别方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、由于视频在安全监视、人类行为分析和许多其他领域的广泛应用,理解视频中的对象行为(如人类行为)已成为计算机视觉的突出研究课题。现有技术中多数的动作识别算法通常首先提取描述视频的局部高维视觉特征,然后,将提取密集的特征融合到一个固定大小的视频级描述符中,最后,使用svm在视觉词袋上进行训练,用来预测最终的结果。现有技术中,提取的描述视频的局部高维视觉特征通常采用密集采样的方式进行特征提取,会导致识别效率低下。
2、可见,现有技术中的动作识别方法还需要改进。
技术实现思路
1、本申请实施例提供一种动作识别方法,有助于提升动作识别效率。
2、第一方面,本申请实施例提供了一种动作识别方法,包括:
3、通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量,其中,所述第一特征向量携带所述视频图像序列中动作的分类信息;
4、获取表征所述视频图像序列中动作相关性的第二特征向量;
5、获取所述视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量,其中,所述第三特征向量用于表征所述视频图像序列匹配的动作描述文本;
6、融合所述第一特征向量,所述第二特征向量,以及,所述第三特征向量,对所述视频图像序列中的动作进行动作识别。
7、第二方面,本申请实施例提供了一种动作识别装置,包括:
8、第一特征向量获取模块,用于通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量,其中,所述第一特征向量携带所述视频图像序列中动作的分类信息;
9、第二特征向量获取模块,用于获取表征所述视频图像序列中动作相关性的第二特征向量;
10、第三特征向量获取模块,用于获取所述视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量,其中,所述第三特征向量用于表征所述视频图像序列匹配的动作描述文本;
11、融合识别模块,用于融合所述第一特征向量,所述第二特征向量,以及,所述第三特征向量,对所述视频图像序列中的动作进行动作识别。
12、第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的动作识别方法。
13、第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的动作识别方法的步骤。
14、本申请实施例公开的动作识别方法,通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量,其中,所述第一特征向量携带所述视频图像序列中动作的分类信息;获取表征所述视频图像序列中动作相关性的第二特征向量;获取所述视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量,其中,所述第三特征向量用于表征所述视频图像序列匹配的动作描述文本;融合所述第一特征向量,所述第二特征向量,以及,所述第三特征向量,对所述视频图像序列中的动作进行动作识别,有助于提升动作识别效率。
15、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
1.一种动作识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量的步骤,包括:
3.根据权利要求1所述的方法,其特征在于,所述获取表征所述视频图像序列中动作相关性的第二特征向量的步骤,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述动作提议之间的相关性构造连接所述节点的边,包括:
5.根据权利要求1所述的方法,其特征在于,所述获取所述视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量的步骤,包括:
6.根据权利要求5所述的方法,其特征在于,所述视觉-语言模型是基于若干图像文本对训练得到的,其中,所述图像文本对中的图像包括图像序列,所述图像文本对中的文本为所述图像序列中动作的描述文本;
7.根据权利要求1至6任一项所述的方法,其特征在于,所述融合所述第一特征向量,所述第二特征向量,以及,所述第三特征向量,对所述视频图像序列中的动作进行动作识别的步骤,包括:
8.一种动作识别装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码,其特征在于,所述处理器执行所述程序代码时实现权利要求1至7任意一项所述的动作识别方法。
10.一种计算机可读存储介质,其上存储有程序代码,其特征在于,该程序代码被处理器执行时实现权利要求1至7任意一项所述的动作识别方法的步骤。