动作识别方法以及装置与流程

文档序号:32069521发布日期:2022-11-05 01:50阅读:100来源:国知局
动作识别方法以及装置与流程

1.本说明书实施例涉及计算机技术领域,特别涉及一种动作识别方法。本说明书一个或者多个实施例同时涉及一种动作识别装置,一种计算设备,以及一种计算机可读存储介质。


背景技术:

2.目前在很多场景下,都需要对视频中目标对象(例如人物)的动作进行识别,以确定人物动作的动作类型。例如,在公共场所中,为了避免翻爬、斗殴、违规操作等危害个人及公共安全的恶性事件发生,需要对公共场所获取的视频中的人物动作进行识别。例如,在人机交互系统中,为了对人的行为进行理解,需要对人机交互系统获取的视频中的人物动作进行识别。
3.为了实现对视频中的人物动作的识别,目前多是基于二维姿态估计的动作识别和基于三维姿态估计的动作识别。在基于二维姿态估计的动作识别过程中,由于缺乏人物姿态的深度信息,使得该方法得到的动作识别准确性较低;而在基于三维姿态估计的动作识别过程中,考虑了人物姿态的深度信息,但该方法对计算资源有限及对实时性要求较高的动作识别场景,其在保证姿态估计及动作识别准确性的条件下,无法有效应用。因此,亟需一种有效的方法以解决此类问题。


技术实现要素:

4.有鉴于此,本说明书实施例提供了一种动作识别方法。本说明书一个或者多个实施例同时涉及一种动作识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
5.根据本说明书实施例的第一方面,提供了一种动作识别方法,包括:
6.将待处理视频输入动作识别模型,并通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,其中,所述待处理视频中包含目标对象的待识别动作;
7.通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量;
8.通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出。
9.根据本说明书实施例的第二方面,提供了一种动作识别装置,包括:
10.输入模块,被配置为将待处理视频输入动作识别模型,并通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,其中,所述待处理视频中包含目标对象的待识别动作;
11.处理模块,被配置为通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量;
12.输出模块,被配置为通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出。
13.根据本说明书实施例的第三方面,提供了一种计算设备,包括:
14.存储器和处理器;
15.所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现所述动作识别方法的步骤。
16.根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述动作识别方法的步骤。
17.本说明书一个实施例通过将待处理视频输入动作识别模型,并通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,其中,所述待处理视频中包含目标对象的待识别动作,通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量,通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出。
18.本说明书实施例将二维卷积网络和三维卷积网络组合得到动作识别模型,在保证与三维卷积相似的特征提取效果的同时大幅度化简了计算复杂度,即通过二维卷积网络和三维卷积网络混合的网络结构,在低计算复杂度的前提下能够更好的提取待处理视频的时空特征,有利于实现更好的视频动作识别效果,从而有利于提高动作识别结果的准确率和识别效率。
附图说明
19.图1是本说明书一个实施例提供的一种动作识别过程的示意图;
20.图2是本说明书一个实施例提供的一种动作识别方法的处理流程图;
21.图3a是本说明书一个实施例提供的一种动作识别方法的处理流程图;
22.图3b是本说明书一个实施例提供的一种动作识别方法的处理流程图;
23.图3c是本说明书一个实施例提供的一种动作识别方法的处理流程图;
24.图4是本说明书一个实施例提供的一种动作识别方法的处理过程流程图;
25.图5是本说明书一个实施例提供的一种动作识别装置的示意图;
26.图6是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
27.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
28.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
29.应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
30.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
31.视频动作识别:指通过视频提取时间和空间的三维特征,来判断视频中人体的动作类别,通常动作类别会规定在一定的范围内。
32.3d卷积网络:即三维卷积网络,可同时对图像或视频帧在空间维度进行卷积,同时也在时间维度进行卷积操作,因此3d卷积通常用在视频相关任务中,用来同时提取时序特征及空间特征。
33.在本说明书中,提供了一种动作识别方法,本说明书同时涉及一种动作识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
34.图1示出了根据本说明书一个实施例提供的一种动作识别过程的示意图。
35.随着面部识别系统的不断发展,面部识别系统中的识别环节被逐步化简,例如为了刷脸体验而化简启动环节,为了提高识别速度而减少重复识别次数等等。但随着刷脸体验的逐步优化,也同时暴露出了更多安全问题,从而在实际应用中需要引入更多的安全算法,以对识别过程以及识别结果的安全性加以保证。
36.在实际的面部识别系统中,刷脸过程中会出现类似的情形,例如,用户的手部动作、用户的脸部从未遮挡变成遮挡、刷脸过程中用户转身离开等等。这些都是与用户相关的动作,是可以通过视频进行特征提取和动作识别的。如果可以在整个刷脸过程中,准确的识别用户的完整动作,就可以在面部识别系统中建立更加安全的风险管控底盘。从而为系统的进一步化简优化打下坚实的基础。
37.基于此,本说明书实施例提出了一种基于二维卷积网络和三维卷积网络混合的动作识别方法,用于从面部识别过程的视频中,通过时空特征提取的方式获取用户的动作识别结果,从而辅助系统的安全判定。
38.具体的,在待处理视频中包含至少两帧视频帧的情况下,可在至少两帧视频帧中筛选目标视频帧,并对目标视频帧进行空间特征提取,并对提取的空间特征进行二维卷积处理。
39.其中,筛选目标视频帧时,可先通过第一二维卷积层依次提取待处理视频中每帧视频帧的空间特征,然后基于空间特征的提取结果,在待处理视频所包含的至少两帧视频帧中筛选目标视频帧,该目标视频帧可以是待处理视频中的关键帧,实际应用中,若与某一视频帧之前的视频帧中包含的目标对象的动作信息相比,该视频帧中包含的目标对象的动作信息发生变化,则可将该视频帧确定为目标视频帧;然后可对该目标视频帧的空间特征进行二维卷积处理,得到对应的空间向量。
40.由于待处理视频中包含至少两帧视频帧,而二维卷积网络仅能对单帧图像或单帧视频帧进行处理,因此,无法直接通过二维卷积网络获取待处理视频所包含的时序特征,基于此,本说明书实施例在通过第一二维卷积层对待处理视频进行时序卷积处理时,可先确定待处理视频帧中,该目标视频帧之前的一定数量的视频帧,这部分视频帧组成第一视频
帧集合,以及确定该目标视频帧之后的一定数量的视频帧,这部分视频帧组成第二视频帧集合,且第一视频帧集合中的视频帧两两相邻,并存在一帧视频帧与目标视频帧相邻,同样的,第二视频帧集合中的视频帧两两相邻,并存在一帧视频帧与目标视频帧相邻;然后可确定第一视频帧集合以及第二视频帧集合中各视频帧与目标视频帧之间的光流信息,以基于光流信息提取目标视频帧与第一视频帧集合以及第二视频帧集合中、任意视频帧间的时序特征;然后可对该时序特征进行二维卷积处理,得到对应的时序向量,并将空间向量及时序向量进行融合,生成对应的融合结果,再通过第二二维卷积层对融合结果进行卷积处理,生成对应的第一卷积向量。
41.接着可通过第一三维卷积层,对待处理视频进行时序特征和空间特征提取,将特征提取结果与第一卷积向量进行融合,并对融合结果进行卷积处理,生成第一时空向量,通过第二三维卷积层对第一时空向量进行卷积处理,生成对应的第二时空向量,通过第三三维卷积层对第二时空向量进行卷积处理,生成对应的第二卷积向量;通过池化层对第二卷积向量进行池化处理,生成对应的处理结果;通过所述全连接层对处理结果进行处理,以对待识别视频进行动作识别,生成对应的动作识别结果并输出。
42.本说明书实施例将二维卷积网络和三维卷积网络组合得到动作识别模型,在保证与三维卷积相似的特征提取效果的同时大幅度化简了计算复杂度,即通过二维卷积网络和三维卷积网络混合的网络结构,在低计算复杂度的前提下能够更好的提取待处理视频的时空特征,并充分利用光流和三维卷积网络的时空信息提取能力,有利于实现更好的视频动作识别效果。
43.图2示出了根据本说明书一个实施例提供的一种动作识别方法的处理流程图,包括步骤202至步骤206。
44.步骤202,将待处理视频输入动作识别模型,并通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,其中,所述待处理视频中包含目标对象的待识别动作。
45.具体的,目标对象,即可执行相应肢体动作的对象,包括但不限于人物、动物、机器人等对象;待处理视频,即利用相应设备对目标对象进行动作采集生成的视频,该设备即可以是配置有图像采集设备的设备,待处理视频可以是利用该设备直接进行视频拍摄生成的,也可以是在目标对象执行相应动作时,先对动作执行过程进行图片采集,再将采集的图片进行拼接生成视频,具体可根据实际需求确定,在此不作限制。
46.由于待处理视频中包含目标对象的待识别动作,因此,可通过待处理视频实现对目标对象进行动作识别,具体可将待处理视频输入动作识别模型,利用动作识别模型对待处理视频中各视频帧所包含的特征进行处理,以根据处理结果实现对待处理视频中包含的、目标对象的待识别动作进行识别。
47.实际应用中,该动作识别模型可由二维卷积网络(2d卷积网络)、三维卷积网络(3d卷积网络)以及分类网络组合而成,因此,将待处理视频输入动作识别模型后,首先由二维卷积网络对待处理视频中的各视频帧(一帧、两帧或多帧)进行二维卷积处理,生成对应的第一卷积向量,再由三维卷积网络对第一卷积向量和待处理视频进行处理,以根据处理结果实现对待处理视频中包含的、目标对象的待识别动作进行识别。
48.例如,若待处理视频中包含t帧视频帧,则将待处理视频输入动作识别模型后,可
先由二维卷积网络依次提取t帧视频帧中每帧视频帧的空间特征,提取结果即可以是{x1,x2,x3,
……
,x
t
},其中,x1即为待处理视频中第一帧视频帧的空间特征,x2即为待处理视频中第二帧视频帧的空间特征,以此类推,且该空间特征为二维向量,然后可对各视频帧的空间特征进行二维卷积处理,得到各视频帧对应的空间向量。
49.另外,除提取各视频帧的空间特征外,还可确定t帧视频帧中,任意相邻的两帧视频帧之间的光流信息,以基于光流信息确定这两帧视频帧间的时序特征,确定结果即可以是{y1,y2,y3,
……
,y
t-1
},其中,y1即为待处理视频中第一帧视频帧与第二帧视频帧之间的时序特征,y2即为第二帧视频帧与第三帧视频帧间的时序特征,以此类推。
50.提取空间特征和时序特征后,可将空间特征与时序特征进行融合,生成统一维度的第一卷积向量。
51.除此之外,二维卷积网络依次提取待处理视频中每帧视频帧的空间特征后,可基于空间特征的提取结果,在待处理视频所包含的至少两帧视频帧中筛选目标视频帧,该目标视频帧可以是待处理视频中的关键帧,实际应用中,若与某一视频帧之前的视频帧中包含的目标对象的动作信息相比,该视频帧中包含的目标对象的动作信息发生变化,则可将该视频帧确定为目标视频帧;然后可对该目标视频帧的空间特征进行二维卷积处理,得到对应的空间向量。
52.相应地,确定目标视频帧后,还可确定待处理视频帧中,该目标视频帧之前的一定数量的视频帧,这部分视频帧组成第一视频帧集合,以及确定该目标视频帧之后的一定数量的视频帧,这部分视频帧组成第二视频帧集合,且第一视频帧集合中的视频帧两两相邻,并存在一帧视频帧与目标视频帧相邻,同样的,第二视频帧集合中的视频帧两两相邻,并存在一帧视频帧与目标视频帧相邻;然后可确定第一视频帧集合以及第二视频帧集合中各视频帧与目标视频帧之间的光流信息,以基于光流信息提取目标视频帧与第一视频帧集合以及第二视频帧集合中、任意视频帧间的时序特征;然后可对该时序特征进行二维卷积处理,得到对应的时序向量。
53.生成空间向量和时序向量后,可将空间向量与时序向量进行融合,生成统一维度的第一卷积向量。
54.具体实施时,二维卷积网络包括第一二维卷积层和第二二维卷积层;
55.相应地,所述通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,包括:
56.通过所述第一二维卷积层,对所述待处理视频进行时序卷积处理,生成第一时序向量,并通过所述第一二维卷积层,对所述待处理视频进行空间卷积处理,生成第一空间向量;
57.将所述第一空间向量及所述第一时序向量进行融合,生成对应的融合结果;
58.通过所述第二二维卷积层对所述融合结果进行卷积处理,生成对应的第一卷积向量。
59.进一步的,所述待处理视频包含至少两帧视频帧;
60.相应地,所述通过所述第一二维卷积层,对所述待处理视频进行时序卷积处理,生成第一时序向量,包括:
61.确定所述至少两帧视频帧中任意两帧相邻视频帧对应的光流图像,通过所述第一
二维卷积层,对所述光流图像进行时序特征提取,并对特征提取结果进行卷积处理,生成第一时序向量。
62.本说明书实施例提供的另一种动作识别过程的示意图如图3a所示,图3a中,动作识别模型中包含二维卷积网络,而该二维卷积网络中包含两层二维卷积层,分别为第一二维卷积层和第二二维卷积层。
63.由于待处理视频中包含至少两帧视频帧,而二维卷积网络仅能对单帧图像或单帧视频帧进行处理,因此,无法直接通过二维卷积网络获取待处理视频所包含的时序特征,基于此,本说明书实施例在通过第一二维卷积层对待处理视频进行时序卷积处理时,可先确定至少两帧视频帧中、任意两帧相邻视频帧之间的运动信息,即目标对象在任意两帧视频帧之间的运动信息,然后根据运动信息生成任意两帧相邻视频帧所对应的光流图像,再通过第一二维卷积层,对光流图像进行时序特征提取,并对提取结果进行二维卷积处理,生成对应的时序向量。
64.其中,由于光流是指时变图像中的模式运动速度,即空间运动物体在观察成像平面上的像素运动的瞬时速度,因此,光流是目前运动图像分析的重要方法。
65.在二维卷积网络无法直接获取待处理视频的时序特征的情况下,为保证动作识别模型所输出的动作识别结果的准确性,本说明书实施例可基于待处理视频中、任意两帧相邻视频帧之间所包含的目标对象的运动信息,确定两帧相邻视频帧对应的光流图像。
66.具体可对任意两帧相邻视频帧进行特征点(角点)提取,然后在两帧视频帧中对各特征点进行跟踪,以根据跟踪结果确定各特征点在相邻两帧视频帧之间的运动信息,包括但不限于运动方向和运动速度,然后基于运动信息确定各特征点从相邻两帧视频帧中的视频帧a移动至视频帧b时,其在x方向和y方向的运动偏量,再基于运动偏量对应的光流跟踪效果图,即光流图像,该光流图像不仅包含了各特征点的运动信息,而且还包含相关场景的三维结构信息。然后可基于光流图像提取任意两帧相邻视频帧间的时序特征,并对时序特征进行二维卷积处理,生成对应的时序向量。
67.例如,待处理视频中包含t帧视频帧,则生成任意两帧相邻视频帧对应的光流图像,对应的生成结果即为{p1,p2,p3,
……
,p
t-1
},其中,p1即为待处理视频中第一帧视频帧与第二帧视频帧对应的光流图像,p2即为第二帧视频帧与第三帧视频帧对应的光流图像,以此类推。
68.基于光流图像确定任意两帧相邻视频帧间的时序特征,确定结果即可以是{y1,y2,y3,
……
,y
t-1
},其中,y1即为待处理视频中第一帧视频帧与第二帧视频帧之间的时序特征,y2即为第二帧视频帧与第三帧视频帧间的时序特征,以此类推。
69.生成第一时序向量外,还可通过第一二维卷积层对待处理视频进行空间卷积处理,生成第一空间向量,并将第一空间向量及第一时序向量进行融合,生成对应的融合结果,然后通过第二二维卷积层对融合结果进行卷积处理,生成对应的第一卷积向量。
70.具体实施时,通过所述第一二维卷积层,对所述待处理视频进行空间卷积处理,生成第一空间向量,包括:
71.通过所述第一二维卷积层,对所述至少两帧视频帧中的目标视频帧进行空间特征提取,并对特征提取结果进行卷积处理,生成第一空间向量。
72.进一步的,通过所述第一二维卷积层,对所述至少两帧视频帧中的目标视频帧进
行空间特征提取,并对特征提取结果进行卷积处理,包括:
73.通过所述第一二维卷积层,对每帧视频帧进行空间特征提取,并根据提取结果确定所述至少两帧视频帧中的目标视频帧;
74.通过所述第一二维卷积层,对所述目标视频帧的空间特征进行卷积处理,生成第一空间向量。
75.具体的,在待处理视频中包含至少两帧视频帧的情况下,可在至少两帧视频帧中筛选目标视频帧,并对目标视频帧进行空间特征提取,并对提取的空间特征进行二维卷积处理。
76.其中,筛选目标视频帧时,可先通过第一二维卷积层依次提取待处理视频中每帧视频帧的空间特征,然后基于空间特征的提取结果,在待处理视频所包含的至少两帧视频帧中筛选目标视频帧,该目标视频帧可以是待处理视频中的关键帧,实际应用中,若与某一视频帧之前的视频帧中包含的目标对象的动作信息相比,该视频帧中包含的目标对象的动作信息发生变化,则可将该视频帧确定为目标视频帧;然后可对该目标视频帧的空间特征进行二维卷积处理,得到对应的空间特征。
77.具体的,由于目标视频帧中包含的目标对象的动作信息,与该视频帧之前的视频帧中包含的目标对象的动作信息相比,发生了变化,因此,对目标视频帧进行空间特征提取,以基于提取的空间特征进行动作识别,有利于提高动作识别的识别效率。
78.进一步的,通过所述第一二维卷积层,对所述待处理视频进行时序卷积处理,包括:
79.确定所述至少两帧视频帧中、与所述目标视频帧相邻的、预设数量的待处理视频帧,并根据所述目标视频帧与所述待处理视频帧中包含的、所述目标对象的运动信息,确定对应的光流图像;
80.通过所述第一二维卷积层,对所述光流图像进行时序特征提取,并对特征提取结果进行卷积处理。
81.具体的,本说明书实施例提供的一种二维卷积层的示意图如图3b所示。
82.在从待处理视频的至少两帧视频帧中确定目标视频帧,并对目标视频帧进行空间特征提取的情况下,若需确定待处理视频的时序特征,则可以目标视频帧为基础,并确定待处理视频帧中,该目标视频帧之前的一定数量的视频帧,这部分视频帧组成第一视频帧集合,以及确定该目标视频帧之后的一定数量的视频帧,这部分视频帧组成第二视频帧集合,且第一视频帧集合中的视频帧两两相邻,并存在一帧视频帧与目标视频帧相邻。同样的,第二视频帧集合中的视频帧两两相邻,并存在一帧视频帧与目标视频帧相邻。
83.然后可确定第一视频帧集合以及第二视频帧集合中各视频帧与目标视频帧之间的光流图像,以基于光流图像提取目标视频帧与第一视频帧集合以及第二视频帧集合中、任意视频帧间的时序特征。
84.例如,待处理视频中包含20帧视频帧,若将第10帧视频帧确定为目标视频帧,则可将第5帧至第9帧视频帧确定为第一视频集合,第11帧至第15帧视频帧确定为第二视频集合,然后确定第10帧视频帧与第5帧视频帧对应的光流图像、第10帧视频帧与第6帧视频帧对应的光流图像、
……
、第10帧视频帧与第15帧视频帧对应的光流图像,然后提取每张光流图像的时序特征,并通过第一二维卷积层分别对每张光流图像的时序特征进行二维卷积处
理,生成对应的时序向量。
85.在二维卷积网络无法直接获取待处理视频的时序特征的情况下,本说明书实施例通过确定与目标视频帧相邻的、预设数量的待处理视频帧,并根据目标视频帧与待处理视频帧中包含的、目标对象的运动信息,确定目标视频帧与各待处理视频帧间对应的光流图像,再提取光流图像的时序特征,以基于该时序信息及空间特征进行动作识别,有利于提高动作识别结果的准确率和识别效率。
86.具体实施时,对所述待处理视频进行时序卷积处理,包括:
87.提取所述待处理视频中目标视频帧的空间特征,并根据预设卷积核及第一预设步长对所述空间特征进行卷积处理,生成第一空间向量;
88.相应地,所述通过所述第二二维卷积层对所述融合结果进行卷积处理,包括:
89.通过所述第二二维卷积层,并根据所述预设卷积核及第二预设步长,对所述融合结果进行卷积处理。
90.具体的,本说明书实施例通过第一二维卷积层对时序特征和空间特征进行二维卷积处理,生成对应的时序向量和空间向量后,通过第二二维卷积层对时序向量和空间向量的融合结果进行处理,目的在于对该融合结果进行降维处理,以使得融合结果成为一个固定维度的特征向量,从而满足三维卷积网络的输入条件。
91.实际应用中,第一二维卷积层对时序特征和空间特征进行卷积处理所使用的卷积核数量、卷积核大小以及卷积步进可根据实际需求确定,在此不做限制;同样的,第二二维卷积层对时序向量和空间向量进行卷积处理所使用的卷积核数量、卷积核大小以及卷积步进可根据实际需求确定,在此不做限制。
92.步骤204,通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量。
93.具体的,在通过动作识别模型中的二维卷积网络对待处理视频中的视频帧进行处理,得到对应的时序向量和空间向量的融合结果后,还可通过动作识别模型中的三维卷积网络继续对该融合结果进行处理。
94.另外,由于三维卷积网络可直接提取待处理视频所包含的全部时序特征和空间特征,因此,为保证模型输出结果的准确性,本说明书实施例的待处理视频除了直接输入至二维卷积网络外,还可作为三维卷积网络的输入,使得三维卷积网络可提取待处理视频中的时空特征(时序特征和空间特征的融合结果),然后将该时空特征与二维卷积网络输出的融合结果再次融合,并继续对得到的融合结果进行卷积处理,再根据卷积处理结果对待处理视频中包含的目标对象的待识别动作进行识别。
95.具体实施时,三维卷积网络包括第一三维卷积层、第二三维卷积层和第三三维卷积层;
96.相应地,所述通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量,包括:
97.通过所述第一三维卷积层,对所述待处理视频进行时序特征和空间特征提取,将特征提取结果与所述第一卷积向量进行融合,并对融合结果进行卷积处理,生成第一时空向量;
98.通过所述第二三维卷积层对所述第一时空向量进行卷积处理,生成对应的第二时
空向量;
99.通过所述第三三维卷积层对所述第二时空向量进行卷积处理,生成对应的第二卷积向量。
100.具体的,如图3a所示,动作识别模型中包含三维卷积网络,三维卷积网络又包含三层卷积层,分别为第一三维卷积层、第二三维卷积层和第三三维卷积层。
101.本说明书实施例中,第二二维卷积层输出第一卷积向量后,将第一卷积向量和待处理视频共同作为第一三维卷积层的输入,以通过第一三维卷积层提取待处理视频中的时空特征(时序特征和空间特征的融合结果),然后将该时空特征与第二二维卷积层输出的第一卷积向量再次融合,并继续对得到的融合结果进行三维卷积处理,再根据卷积处理结果对待处理视频中包含的目标对象的待识别动作进行识别。
102.其中,第一三维卷积层对融合结果进行三维卷积处理,生成第一时空向量,第二三维卷积层对第一时空向量进行三维卷积处理,以及第三三维卷积层对第二三维卷积层输出的第二时空向量进行三维卷积处理,目的均是为了对第一时空向量和第二时空向量进行降维处理,以使得最终输出的第二卷积向量成为一个固定维度的特征向量,从而满足分类网络的输入条件。
103.实际应用中,第一三维卷积层对融合结果进行卷积处理所使用的卷积核数量、卷积核大小以及卷积步进可根据实际需求确定,在此不做限制;同样的,第二三维卷积层对第一时空向量进行三维卷积处理,以及第三三维卷积层对第二三维卷积层输出所使用的卷积核数量、卷积核大小以及卷积步进可根据实际需求确定,在此不做限制。
104.另外,为降低三维卷积网络的计算复杂度,本说明书实施例可将三维卷积拆分成顺序的两个二维卷积,具体的三维卷积层的拆分结果如图3c所示,即在对时空特征与第一卷积向量的融合结果(t
×d×
d)进行三维卷积处理时,可先分别对融合结果中包含的各空间特征(t个1
×d×
d的空间特征)进行二维卷积,然后将各空间特征对应的二维卷积结果进行融合,再在时间维度对融合结果(t
×1×
1,t代表维度)进行二维卷积,得到对应的三维卷积结果。
105.通过这种处理方式,在保证与三维卷积相似的特征提取效果的同时大幅度化简了计算复杂度,即通过二维卷积网络和三维卷积网络混合的网络结构,在低计算复杂度的前提下能够更好的提取待处理视频的时空特征,并充分利用光流和三维卷积网络的时空信息提取能力,有利于实现更好的视频动作识别效果。
106.步骤206,通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出。
107.具体的,通过二维卷积网络和三维卷积网络结合的方式提取待处理视频的时空特征后,可再通过对时空特征进行池化操作,接着将池化操作结果通过全连接层进行动作分类处理,以实现对待处理视频中目标对象的待识别动作进行识别。
108.具体实施时,所述分类网络包括池化层和全连接层;
109.相应地,通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出,包括:
110.通过所述池化层对所述第二卷积向量进行池化处理,生成对应的处理结果;
111.通过所述全连接层及所述处理结果对所述待识别视频进行动作识别,生成对应的
动作识别结果并输出。
112.具体的,池化层是通过模仿人的视觉系统对数据进行降维,用更高层次的特征表示图像;而全连接层在整个卷积神经网络中起到“分类器”的作用。因此,本说明书实施例在获得待处理视频的时空特征(第二卷积向量)后,可先将时空特征输入分类网络的池化层进行降维处理,使得降维后的时空特征,其向量维度满足全连接层的输入条件,再将降维后的时空特征输入全连接层进行分类处理,全连接层输出的分类结果即可作为待处理视频中、目标对象的待识别动作的识别结果。
113.此外,在对待处理视频中目标对象的待识别动作进行识别时,除将待处理视频直接作为动作识别网络的输入外,还可以将待处理视频进行分段处理,每一段进行单独的时空特征提取,在通过如lstm等网络结构将各视频片段的时空特征拼接融合,可以得到更好的识别效果。
114.在将本说明书实施例提供的动作识别方法应用于面部识别领域的情况下,即可通过对用户动作的识别,实现对面部识别系统中的安全能力建设。
115.本说明书实施例将二维卷积网络和三维卷积网络组合得到动作识别模型,以实现同时从时序信息的角度,将二维卷积网络提取的时序信息和待处理视频中原始的时序信息相结合得到特征融合的时序信息,有助于提高动作识别模型输出的识别结果的鲁棒性。
116.本说明书一个实施例通过将待处理视频输入动作识别模型,并通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,其中,所述待处理视频中包含目标对象的待识别动作,通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量,通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出。
117.本说明书实施例将二维卷积网络和三维卷积网络组合得到动作识别模型,在保证与三维卷积相似的特征提取效果的同时大幅度化简了计算复杂度,即通过二维卷积网络和三维卷积网络混合的网络结构,在低计算复杂度的前提下能够更好的提取待处理视频的时空特征,并充分利用光流和三维卷积网络的时空信息提取能力,有利于实现更好的视频动作识别效果,从而有利于提高动作识别结果的准确率和识别效率。
118.下述结合附图4,以本说明书提供的动作识别方法在实际场景的应用为例,对所述动作识别方法进行进一步说明。其中,图4示出了本说明书一个实施例提供的一种动作识别方法的处理过程流程图,具体步骤包括步骤402至步骤422。
119.步骤402,将待处理视频输入动作识别模型。
120.其中,待处理视频包含至少两帧视频帧,每帧视频帧中包含目标对象的待识别动作;动作识别模型包括二维卷积网络、三维卷积网络以及分类网络,二维卷积网络包含第一二维卷积层和第二二维卷积层,三维卷积网络包含第一三维卷积层、第二三维卷积层和第三三维卷积层,分类网络包含池化层和全连接层。
121.步骤404,确定至少两帧视频帧中的目标视频帧,并通过第一二维卷积层,对目标视频帧的空间特征进行卷积处理,生成第一空间向量。
122.步骤406,确定至少两帧视频帧中、与目标视频帧相邻的、预设数量的待处理视频帧,并根据目标视频帧与待处理视频帧中包含的、目标对象的运动信息,确定对应的光流图
像。
123.步骤408,通过第一二维卷积层,对光流图像进行时序特征提取,并对特征提取结果进行卷积处理,生成第一时序向量。
124.步骤410,将第一空间向量及第一时序向量进行融合,生成对应的融合结果。
125.步骤412,通过第二二维卷积层对融合结果进行卷积处理,生成对应的第一卷积向量。
126.步骤414,通过第一三维卷积层,对待处理视频进行时序特征和空间特征提取,将特征提取结果与第一卷积向量进行融合,并对融合结果进行卷积处理,生成第一时空向量。
127.步骤416,通过第二三维卷积层对第一时空向量进行卷积处理,生成对应的第二时空向量。
128.步骤418,通过第三三维卷积层对第二时空向量进行卷积处理,生成对应的第二卷积向量。
129.步骤420,通过池化层对第二卷积向量进行池化处理,生成对应的处理结果。
130.步骤422,通过全连接层对处理结果对待识别视频进行动作识别,生成对应的动作识别结果并输出。
131.本说明书实施例将二维卷积网络和三维卷积网络组合得到动作识别模型,在保证与三维卷积相似的特征提取效果的同时大幅度化简了计算复杂度,即通过二维卷积网络和三维卷积网络混合的网络结构,在低计算复杂度的前提下能够更好的提取待处理视频的时空特征,并充分利用光流和三维卷积网络的时空信息提取能力,有利于实现更好的视频动作识别效果,从而有利于提高动作识别结果的准确率和识别效率。
132.与上述方法实施例相对应,本说明书还提供了动作识别装置实施例,图5示出了本说明书一个实施例提供的一种动作识别装置的示意图。如图5所示,该装置包括:
133.输入模块502,被配置为将待处理视频输入动作识别模型,并通过所述动作识别模型中的二维卷积网络,对所述待处理视频进行卷积处理,生成对应的第一卷积向量,其中,所述待处理视频中包含目标对象的待识别动作;
134.处理模块504,被配置为通过所述动作识别模型中的三维卷积网络,对所述待处理视频及所述第一卷积向量进行卷积处理,生成对应的第二卷积向量;
135.输出模块506,被配置为通过所述动作识别模型的分类网络对所述第二卷积向量进行处理,以对所述待识别动作进行识别,生成对应的动作识别结果并输出。
136.可选地,所述二维卷积网络包括第一二维卷积层和第二二维卷积层;
137.相应地,所述输入模块502,进一步被配置为:
138.通过所述第一二维卷积层,对所述待处理视频进行时序卷积处理,生成第一时序向量,并通过所述第一二维卷积层,对所述待处理视频进行空间卷积处理,生成第一空间向量;
139.将所述第一空间向量及所述第一时序向量进行融合,生成对应的融合结果;
140.通过所述第二二维卷积层对所述融合结果进行卷积处理,生成对应的第一卷积向量。
141.可选地,所述待处理视频包含至少两帧视频帧;
142.相应地,所述输入模块502,进一步被配置为:
143.确定所述至少两帧视频帧中任意两帧相邻视频帧对应的光流图像,通过所述第一二维卷积层,对所述光流图像进行时序特征提取,并对特征提取结果进行卷积处理,生成第一时序向量。
144.可选地,所述输入模块502,进一步被配置为:
145.通过所述第一二维卷积层,对所述至少两帧视频帧中的目标视频帧进行空间特征提取,并对特征提取结果进行卷积处理,生成第一空间向量。
146.可选地,所述输入模块502,进一步被配置为:
147.通过所述第一二维卷积层,对每帧视频帧进行空间特征提取,并根据提取结果确定所述至少两帧视频帧中的目标视频帧;
148.通过所述第一二维卷积层,对所述目标视频帧的空间特征进行卷积处理。
149.可选地,所述输入模块502,进一步被配置为:
150.确定所述至少两帧视频帧中、与所述目标视频帧相邻的、预设数量的待处理视频帧,并根据所述目标视频帧与所述待处理视频帧中包含的、所述目标对象的运动信息,确定对应的光流图像;
151.通过所述第一二维卷积层,对所述光流图像进行时序特征提取,并对特征提取结果进行卷积处理。
152.可选地,所述输入模块502,进一步被配置为:
153.提取所述待处理视频中目标视频帧的空间特征,并根据预设卷积核及第一预设步长对所述空间特征进行卷积处理,生成第一空间向量;
154.相应地,所述输入模块502,进一步被配置为:
155.通过所述第二二维卷积层,并根据所述预设卷积核及第二预设步长,对所述融合结果进行卷积处理。
156.可选地,所述三维卷积网络包括第一三维卷积层、第二三维卷积层和第三三维卷积层;
157.相应地,所述处理模块504,进一步被配置为:
158.通过所述第一三维卷积层,对所述待处理视频进行时序特征和空间特征提取,将特征提取结果与所述第一卷积向量进行融合,并对融合结果进行卷积处理,生成第一时空向量;
159.通过所述第二三维卷积层对所述第一时空向量进行卷积处理,生成对应的第二时空向量;
160.通过所述第三三维卷积层对所述第二时空向量进行卷积处理,生成对应的第二卷积向量。
161.可选地,所述分类网络包括池化层和全连接层;
162.相应地,所述输出模块506,进一步被配置为:
163.通过所述池化层对所述第二卷积向量进行池化处理,生成对应的处理结果;
164.通过所述全连接层及所述处理结果对所述待识别视频进行动作识别,生成对应的动作识别结果并输出。
165.上述为本实施例的一种动作识别装置的示意性方案。需要说明的是,该动作识别装置的技术方案与上述的动作识别方法的技术方案属于同一构思,动作识别装置的技术方
案未详细描述的细节内容,均可以参见上述动作识别方法的技术方案的描述。
166.图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
167.计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
168.在本说明书的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
169.计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
170.其中,所述存储器610用于存储计算机可执行指令,处理器620用于执行如下计算机可执行指令实现所述动作识别方法的步骤。
171.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的动作识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述动作识别方法的技术方案的描述。
172.本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于实现所述动作识别方法的步骤。
173.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的动作识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述动作识别方法的技术方案的描述。
174.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
175.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内
容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
176.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
177.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
178.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1