本技术涉及视频,尤其涉及一种视频动作识别方法、装置、电子设备及存储介质。
背景技术:
1、视频动作识别是指对视频中的动作进行识别和分类。目前,视频动作识别技术主要包括基于2d卷积的动作识别技术和基于3d卷积的动作识别技术。其中,基于2d卷积的动作识别技术直接根据各视频帧的图像特征确定视频中包含的动作,忽略了视频中前后帧的动作顺序信息,导致识别结果欠佳;基于3d卷积的动作识别技术通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3d卷积核,由此带来网络参数量和运算量成倍增加,使得3d卷积应用困难。
2、可见,现有视频动作识别技术存在识别效果与运算量难以兼顾的问题。
技术实现思路
1、本技术实施例提供了一种视频动作识别方法、装置、电子设备及存储介质,以解决现有视频动作识别技术存在识别效果与运算量难以兼顾的问题。
2、为了解决上述技术问题,本技术是这样实现的;
3、第一方面,本技术实施例提供了一种视频动作识别方法,所述方法包括:
4、对视频分别采样n次,获得n个不同的采样帧序列,n为大于1的整数;
5、分别获取每个采样帧序列中的每个视频帧的图像特征,所述图像特征包括全局图像特征和局部图像特征,所述局部图像特征为动作区域的图像特征;
6、分别将所述每个采样帧序列中的每个视频帧的图像特征按时序进行融合处理,得到所述每个采样帧序列的融合特征;
7、基于所述每个采样帧序列的融合特征,确定所述视频的动作识别结果。
8、可选地,所述基于所述每个采样帧序列的融合特征,确定所述视频的动作识别结果,包括:
9、分别基于所述每个采样帧序列的融合特征,确定所述每个采样帧序列对应的动作识别结果;
10、融合所述每个采样帧序列对应的动作识别结果,确定所述视频的动作识别结果。
11、可选地,所述融合所述每个采样帧序列对应的动作识别结果,确定所述视频的动作识别结果,包括:
12、分别按照所述每个采样帧序列中的视频帧数,确定所述每个采样帧序列对应的权重系数;
13、利用所述每个采样帧序列对应的权重系数对所述每个采样帧序列对应的动作识别结果进行加权,得到所述视频的动作识别结果。
14、可选地,所述分别获取每个采样帧序列中的每个视频帧的图像特征,包括:
15、获取第一采样帧序列中的每个视频帧的全局图像特征,其中,所述第一采样帧序列为所述n个不同的采样帧序列中的任一个;
16、获取第一视频帧中的运动区域中的图像特征,得到所述第一视频帧的局部图像特征,其中,所述第一视频帧为所述第一采样帧序列中的任一视频帧;
17、对所述第一视频帧的全局图像特征和局部图像特征进行拼接,得到所述第一视频帧的图像特征。
18、可选地,所述获取第一视频帧中的运动区域中的图像特征之前,所述方法还包括:
19、根据第二视频帧的全局图像特征,确定所述第二视频帧中的运动区域,所述第二视频帧为所述n个不同的采样帧序列中的任一视频帧。
20、可选地,所述根据第二视频帧的全局图像特征,确定所述第二视频帧中的运动区域,包括:
21、将所述第二视频帧的全局图像特征输入运动区域提取网络,获得所述运动区域提取网络输出的运动区域的拟合中心点位置;
22、将所述拟合中心点位置映射至所述第二视频帧中,确定所述第二视频帧中的运动区域的目标中心点位置;
23、根据所述目标中心点位置和预设的运动区域边长,确定所述第二视频帧中的所述运动区域。
24、可选地,所述对视频分别采样n次,获得n个不同的采样帧序列,包括:
25、分别按照n个不同的预设间隔,对所述视频进行片段划分,每次划分的片段数量不同;
26、针对每次划分后的多个片段,分别从每个片段中提取一帧视频帧,组成一个采样帧序列。
27、可选地,所述分别将所述每个采样帧序列中的每个视频帧的图像特征按时序进行融合处理,得到所述每个采样帧序列的融合特征,包括:
28、将第一采样帧序列中的每个视频帧的图像特征进行全连接,得到所述第一采样帧序列降维后的图像特征序列;
29、对所述第一采样帧序列降维后的图像特征序列进行时序连接,得到所述第一采样帧序列对应的融合特征。
30、第二方面,本技术实施例还提供了一种视频动作识别装置,包括:
31、采样模块,用于对视频分别采样n次,获得n个不同的采样帧序列,n为大于1的整数;
32、获取模块,用于分别获取每个采样帧序列中的每个视频帧的图像特征,所述图像特征包括全局图像特征和局部图像特征,所述局部图像特征为动作区域的图像特征;
33、融合模块,用于分别将所述每个采样帧序列中的每个视频帧的图像特征按时序进行融合处理,得到所述每个采样帧序列的融合特征;
34、第一确定模块,用于基于所述每个采样帧序列的融合特征,确定所述视频的动作识别结果。
35、可选地,所述第一确定模块具体用于:
36、分别基于所述每个采样帧序列的融合特征,确定所述每个采样帧序列对应的动作识别结果;
37、融合所述每个采样帧序列对应的动作识别结果,确定所述视频的动作识别结果。
38、可选地,所述第一确定模块具体还用于:
39、分别按照所述每个采样帧序列中的视频帧数,确定所述每个采样帧序列对应的权重系数;
40、利用所述每个采样帧序列对应的权重系数对所述每个采样帧序列对应的动作识别结果进行加权,得到所述视频的动作识别结果。
41、可选地,所述获取模块具体用于:
42、获取第一采样帧序列中的每个视频帧的全局图像特征,其中,所述第一采样帧序列为所述n个不同的采样帧序列中的任一个;
43、获取第一视频帧中的运动区域中的图像特征,得到所述第一视频帧的局部图像特征,其中,所述第一视频帧为所述第一采样帧序列中的任一视频帧;
44、对所述第一视频帧的全局图像特征和局部图像特征进行拼接,得到所述第一视频帧的图像特征。
45、可选地,所述视频动作识别装置还包括:
46、第二确定模块,用于根据第二视频帧的全局图像特征,确定所述第二视频帧中的运动区域,所述第二视频帧为所述n个不同的采样帧序列中的任一视频帧。
47、可选地,所述第二确定模块具体用于:
48、将所述第二视频帧的全局图像特征输入运动区域提取网络,获得所述运动区域提取网络输出的运动区域的拟合中心点位置;
49、将所述拟合中心点位置映射至所述第二视频帧中,确定所述第二视频帧中的运动区域的目标中心点位置;
50、根据所述目标中心点位置和预设的运动区域边长,确定所述第二视频帧中的所述运动区域。
51、可选地,所述采样模块具体用于:
52、分别按照n个不同的预设间隔,对所述视频进行片段划分,每次划分的片段数量不同;
53、针对每次划分后的多个片段,分别从每个片段中提取一帧视频帧,组成一个采样帧序列。
54、可选地,所述融合模块具体用于:
55、将第一采样帧序列中的每个视频帧的图像特征进行全连接,得到所述第一采样帧序列降维后的图像特征序列;
56、对所述第一采样帧序列降维后的图像特征序列进行时序连接,得到所述第一采样帧序列对应的融合特征。
57、第三方面,本技术实施例还提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器,用于读取存储器中的程序实现如第一方面所述的视频动作识别方法的步骤。
58、第四方面,本技术实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现如第一方面所述的视频动作识别方法的步骤。
59、本技术实施例中,对视频采样n次以获得n个不同的采样帧序列,分别获取每个采样帧序列中的每个视频帧的图像特征,通过将每个采样帧序列中的每个视频帧的图像特征按时序进行融合处理,能够得到每个采样帧序列的融合特征,每个采样帧序列的融合特征中包括对应的各视频帧的时序信息,可见,本技术无需将每个采样帧序列的各个视频帧堆叠成立方体再利用3d卷核,这样,有利于减少运算量;并且,每个采样帧序列的融合特征包括时序信息,按照每个采样帧序列的融合特征,确定视频的动作识别结果,能够考虑到视频中前后帧的动作时序信息,有利于提高视频的动作识别效果。可见,本技术的视频动作识别方法能够兼顾识别效果与运算量。