一种行为识别方法、装置和存储介质与流程

文档序号:17549399发布日期:2019-04-30 18:09阅读:172来源:国知局
一种行为识别方法、装置和存储介质与流程

本发明涉及数据处理技术领域,具体涉及一种行为识别方法、装置和存储介质。



背景技术:

随着计算机智能化需求的不断增长以及模式识别技术、图像处理技术和人工智能技术的快速发展,使用计算机视觉技术对视频内容进行分析有着巨大的实际需求,例如对视频中的人类行为进行检测。现有技术中多是借助神经网络层次化的结构,从训练数据中学习复杂多样的特征模式,从而有效地提取输入视频的特征,进行特定行为的识别。

在实际应用中,绝大多数的监控视频和网络视频均为未分割的长视频,而长视频中可能包含多个行为实例,且每个行为实例的时长可能不同,但是,现有的行为识别方案中,一般需要将视频压缩或者扩充为特定帧数的视频片段,采用神经网络从视频片段中提取单一时域尺度的特征对视频行为进行识别,这样会使得神经网络的分类器的感受野只能和特定时长的行为匹配,导致对于时长过长或者过短的行为,识别精确度比较差。



技术实现要素:

本发明实施例提供一种行为识别方法、装置和存储介质,旨在提高对多种时间跨度的行为识别的精确度。

本发明实施例提供一种行为识别方法,包括:

获取待检测视频,为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;

基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图;

确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图;

根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;

根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。

本发明实施例还提供一种行为识别检测装置,包括:

视频获取单元,用于获取待检测视频;

视频加窗单元,用于为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;

特征获取单元,用于基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图;

尺度匹配单元,用于确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图;

特征选择单元,用于根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;

行为识别单元,用于根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。

本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一行为识别方法中的步骤。

本发明实施例获取待检测视频,为待检测视频添加多个候选窗,每一个候选窗对应待检测视频的一个视频片段,然后,基于特征提取网络,生成包含多个候选窗的待检测视频在多个时域尺度上的三维特征图,其中,时域尺度越大,三维特征图中的特征对应的时长也越长,确定与候选窗内的视频片段匹配的时域尺度以及获取确定的时域尺度对应的三维特征图,根据获取的三维特征图获取视频片段对应的局部特征图,若候选窗内视频片段的长度较小,则可以选择时域尺度小的三维特征图提取局部特征图,反之,则选择时域尺度大的三维特征图提取局部特征图,提取到每一候选窗内的视频片段的局部特征图后,根据局部特征图和预设的行为识别网络对候选窗内的视频片段进行行为识别,确定视频片段中行为特征对应的行为类别。该方案能够对待检测视频中多种时长的行为进行识别,即使一段视频中包含有多个时长不同的行为,也可以使用特征提取网络从待检测视频中获取其在多个时域尺度上的三维特征图,使得分类器的感受野能够适应不同时间长度的行为特征,提高了对多种时间跨度的行为识别的精确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的信息交互系统的场景示意图;

图1b是本发明实施例提供的行为识别方法的第一流程示意图;

图1c是本发明实施例提供的特征提取网络结构示意图;

图1d是本发明实施例提供的空间域和时域分离的特征提取网络的卷积核示意图;

图1e是本发明实施例提供的行为识别方法的第一种网络结构示意图;

图1f是本发明实施例提供的行为识别方法的第二种网络结构示意图;

图1g是本发明实施例提供的插值操作示意图;

图1h是本发明实施例提供的行为识别方法的第三种网络结构示意图;

图1i是本发明实施例提供的行为识别方法的第四种网络结构示意图;

图1j是本发明实施例提供的网络训练流程示意图;

图1k是本发明实施例提供的网络另一训练流程示意图;

图2a是本发明实施例提供的行为识别应用场景流程图;

图2b是本发明实施例提供的行为识别应用场景示意图;

图3a是本发明实施例提供的行为识别装置的第一种结构示意图;

图3b是本发明实施例提供的行为识别装置的第二种结构示意图;

图3c是本发明实施例提供的行为识别装置的第三种结构示意图;

图3d是本发明实施例提供的行为识别装置的第四种结构示意图;

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种行为识别方法、装置和存储介质。

本发明实施例还提供一种信息交互系统,该系统包括本发明实施例提供的任一行为识别装置,该行为识别装置具体可以集成在网络设备中,如终端或服务器等设备中;此外,该系统还可以包括其他设备,例如,视频采集设备或终端等,终端可以是手机、平板电脑或者个人计算机等,用于上传待检测视频至网络设备。

参考图1a,本发明实施例提供一种信息交互系统,该系统包括视频采集设备和行为识别装置;行为识别装置和视频采集设备通过无线网络或者有线网络连接,行为识别装置接收视频采集设备发送的待检测视频,行为识别装置获取待检测视频,为待检测视频添加多个候选窗,每一候选窗对应待检测视频的一个视频片段;基于特征提取网络,生成包含多个候选窗的待检测视频在多个时域尺度上的三维特征图;然后,确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图,从确定的三维特征图上截取视频片段对应的局部特征图;接下来,根据局部特征图和预设的行为识别网络对候选窗内的视频片段进行行为识别,确定视频片段中行为特征对应的行为类别。

由此,通过特征提取网络可以提取一段长视频中的多个时域尺度上的三维特征图,为候选窗内的视频片段选择匹配的时域尺度及对应的三维特征图,进而在该三维特征图中提取局部特征图,根据局部特征图和行为识别网络进行行为识别,确定视频片段中行为特征对应的行为类别。本方案可以使用特征提取网络从待检测视频中获取其在多个时域尺度上的三维特征图,对于时长较短的视频片段,可以获取时域尺度小的局部特征图,对于时长较长的视频片段,可以选择时域尺度大的局部特征图,使得行为识别网络中分类器的感受野能够适应不同时间长度的行为特征,提高了对多种时间跨度的行为识别的精确度。

上述图1a的例子只是实现本发明实施例的一个系统架构实例,本发明实施例并不限于上述图1a所示的系统结构,基于该系统架构,提出本发明各个实施例。

在本实施例中,将从行为识别装置的角度进行描述,该行为识别装置具体可以集成在终端设备如服务器、个人计算机等设备中。

如图1b所示,该行为识别方法的具体流程可以如下:

101、获取待检测视频,为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段。

待检测视频是由一系列连续的视频帧图像组成的,本实施例中使用一段视频中包含的视频帧的帧数来衡量待检测视频、以及下文中的长视频或者视频片段的长度。在获取到待检测视频后,可以采用多尺度滑动窗口在时间维度上为待检测视频添加候选窗。其中,候选窗为在待检测视频的时间维度上的添加的、包含有一帧或者多帧视频帧图像的选框,每一候选窗对应待检测视频的一个视频片段。例如,候选窗的长度可以有以下几种大小:8、16、32、64、128;或者,7、10、15、18、25等,其中,候选窗的多种尺度可以根据需要预先设置,其单位为帧。比如,候选窗的长度为8,则该候选窗内是包含有8帧视频帧图像的视频片段。为了提高行为识别的准确度,相邻两个候选窗之间可以有重叠,重叠度可以设置为25%-75%,此处候选窗的单位也为帧。

102、基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图。

本申请实施例中的时域尺度是指三维特征图中的一个特征对应于待检测视频中的视频帧图像的数量,用来衡量三维特征图在时间维度上的尺寸大小。时域尺度越大,三维特征图本身在时间维度上的尺寸越小,而三维特征图中的一个特征所对应的待检测视频中的视频帧图像的数量越多,或者说,时域尺度越大,三维特征图中的一个特征所对应的待检测视频的时长越长。

例如,一段800*800*256的待检测视频,可以从中提取尺寸分别为195*195*128、195*195*64、195*195*32的三种时域尺度的三维特征图,上述尺寸均以长*宽*帧数的形式表示。128、64、32表示三种不同时域尺度的三维特征图在时间维度上的尺寸,尺寸为195*195*128的三维特征图的时域尺度最小,该三维特征图中的一个特征对应于原始的待检测视频中的2帧图像,即该三维特征图的时域尺度为2。尺寸为195*195*32的三维特征图的时域尺度最大,该三维特征图中的一个特征对应于原始的待检测视频中的8帧图像,即该三维特征图的时域尺度为8。

在特征提取阶段,候选窗并不用于对待检测视频进行分割,特征提取网络的输入数据仍然为完整的长视频,将包含多个候选窗的待检测视频输入至预先训练好的特征提取网络中,进行特征提取。

该特征提取网络为三维卷积神经网络(3d-convolutionalneuralnetworks,3d-cnn),一般的三维卷积神经网络主要包括卷积层、池化层以及全连接层等,本实施例中的特征提取网络包括多个卷积层,没有全连接层,可以在每个卷积层之后设置池化层,也可以不设置池化层,其中,池化层可以对输入的特征图压缩,简化网络的计算复杂度,同时对特征进行压缩,提取主要特征,例如,使用最大池化层。若待检测视频的分辨率较高,但是长度较短,则可以设置池化层,在空间维度上对视频进行压缩,以减少网络的权重参数,减小计算复杂度,在时间维度上不进行池化,尽可能保留时间维度上的更多特征。该卷积神经网络中的如卷积核尺寸、步长、零填充数量等超参数,卷积层中卷积核的数量等参数,以及卷积层的数量等均可以根据经验设置。

其中,为了实现对连续的视频帧图像之间的时间维度上的特征挖掘,卷积层采用三维卷积核对本层输入的三维特征图进行特征提取,即该卷积核在时间维度上的尺寸大于或等于2。一个卷积层的一个神经元只与上一层中的部分神经元相连接,逐层进行卷积操作,输出三维的特征图(featuremap);例如,一段800*800*256帧的视频,经过8*8*2的卷积核按照2*2*2的步长(即在三个维度上的步长均为2)进行卷积操作后,输出的特征图为397*397*128的三维特征图,即由连续的128帧397*397的图像构成。需要说明的是,由于本方案中是对视频进行三维卷积,因此,卷积层输出的特征图均为三维特征图,即由连续多帧二维特征图叠加而成。

由于本方案中的三维特征图的多尺度体现在时域上,即体现在时间维度上,因此,接下来主要对卷积层输出的三维特征图在时间维度上的情况进行详细说明,至于视频帧图像在空间域卷积后的尺寸变化情况不再详细说明。其中,在空间维度上可以采用常规尺寸的卷积核进行运算,例如,卷积核在空间维度上的尺寸设置为3*3或2*2,步长为1,卷积核的数量根据经验设置。卷积核在时间维度上的尺寸,可以根据需要观察的局部特征的大小进行设置,若要保持在时间维度上卷积后数据体的尺寸不变,可以将卷积操作在时间维度上的步长设置为1,并根据卷积核在时间维度上的尺寸设置对应的零填充数量。若要减小输出数据体在时间维度上的尺寸,可以使用大于1的步长,或者,卷积核在时间维度上的步长设置为1,在卷积层之后添加池化层进行降采样,以缩小输出数据体的尺寸。

例如,参照图1c,由上至下依次为待检测视频、第一层卷积层和第二层卷积层;在待检测视频中,每一格为一帧视频帧图像,在第一层卷积层和第二层卷积层中,每一格为一个卷积核(即一个神经元),需要说明的是,该示意图上,只展示了在时间维度上的卷积操作。输入的待检测视频的长度为256帧,第一个卷积层的卷积核在时间维度上的尺寸为2,步长为2,在第一层卷积层中,一个神经元对应原始输入的待检测视频中2帧的视频帧图像,观察到的是这2帧视频帧图像之间的特征,则经过卷积操作后,输出的三维特征图在时间维度上的长度为128。第二层卷积层的卷积核在时间维度上的尺寸为2,步长为2,则在第二层卷积层中,一个神经元与第一层卷积层中的两个神经元相连接(假设这两个卷积层之间没有设置池化层)、与对应原始输入的待检测视频中4帧的视频帧图像,观察到的是这4帧视频帧图像之间的特征,经过卷积操作后,输出的三维特征图在时间维度上的长度为64。随着卷积层的层数加深,输出的特征图在时间维度上的尺寸逐渐减小,卷积层中一个神经元连接的原始视频(即待检测视频)的帧数逐渐增多,即卷积层中一个神经元在原始视频的时间维度上的感受野逐渐增大,则该卷积层输出的三维特征图的时域尺度也逐渐增大。

具体地,在一些实施例中,特征提取网络为包含多个卷积层的三维卷积神经网络,“基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图”的步骤,包括:

将包含所述多个候选窗的所述待检测视频输入所述特征提取网络,依次在所述多个卷积层进行卷积运算;

获取最后连续多个卷积层输出的三维特征图,作为所述待检测视频在多个时域尺度上的三维特征图,其中,卷积层的层数越深,时域尺度越大。

例如,特征提取网络包含有7个卷积层,可以提取最后5个卷积层的输出数据作为待检测视频在五个时域尺度上的三维特征图。

可选地,在一些实施例中,该卷积神经网络采用空间域和时域分离的三维卷积神经网络。参照图1d,为本发明实施例提供的特征提取网络中的卷积核结构示意图。在空间域使用1*d*d尺寸的卷积核(假设视频帧图像的宽与高相等),在时域使用1*1*t尺寸的卷积核,即一个卷积层包含一个二维空间域卷积核和一个一维时域卷积核。需要说明的是,在一个卷积层中对输入数据进行卷积操作时,空间域卷积和时域卷积运算分别进行,可以先进行时域卷积运行,也可以先进行空间域卷积运算。例如,在所述特征提取网络的卷积层进行卷积运算时,对输入的三维特征图依次使用所述二维空间卷积核和所述一维时域卷积核进行卷积操作。具体地,若先进行空间域卷积运算,则卷积层对输入的连续多帧视频帧图像,分别使用1*d*d的二维空间卷积核对每一帧视频帧图像进行二维空间卷积操作,得到连续多张二维特征图;然后,使用1*1*t的一维时域卷积核对连续多张二维特征图,在时间维度上进行卷积操作,即在深度方向上,对连续多张二维图上同一位置处的像素数据进行卷积操作。

由于本方案是对三维的视频数据进行卷积,并且采用的是未分割的长视频,导致特征提取网络需要学习的权重参数非常多,甚至存在冗余,容易造成过拟合。因此,采用空间域和时域分离的三维卷积神经网络,能够在减少参数、提升计算速度的同时,降低网络的过拟合程度,提高行为检测的准确度。

在一些实施例中,还可以采用卷积膨胀操作获取多个时域尺度上的三维特征图。具体地,特征提取网络为包含多个膨胀卷积层的三维卷积神经网络;“基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图”的步骤包括:

将包含所述多个候选窗的所述待检测视频输入所述特征提取网络,依次在所述多个膨胀卷积层中按照对应的膨胀系数进行卷积运算;

获取最后连续多个膨胀卷积层输出的三维特征图,作为所述待检测视频在多个时域尺度上的三维特征图。

其中,该特征提取网络为包含有多个膨胀卷积层的三维卷积神经网络。在膨胀卷积层,按照该卷积层设置的膨胀系数进行膨胀卷积操作,通过膨胀卷积的方式,可以在不做池化损失信息的情况下,扩大神经元的感受野,让每个卷积输出都包含较大范围的信息。可以根据需要的时域尺度设置各个膨胀卷积层的膨胀系数,以使输出的三维特征图具有需要的时域尺度。需要说明的是,此处的膨胀卷积操作可以只在时间维度上进行,也可以在空间维度和时间维度上都进行。

103、确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图。

包含多个候选窗的待检测视频经过特征提取后,获取到待检测视频在多个时域尺度上的三维特征图。直观来看,每一个候选框内的视频片段可以对应于多个时域尺度的三维特征图。接下来,根据各个候选窗的长度的不同,为各个候选窗内的视频片段选择匹配的时域尺度以及对应的三维特征图。具体地,“确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图”的步骤包括:确定所述候选窗内的视频片段包含的视频帧图像的数量;按照所述数量,确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图。

其中,由于本实施例采用的是多尺度滑动窗口为待检测视频添加候选窗,因此,候选窗具有多种长度。关于候选窗匹配的时域尺度的选择,主要涉及到如下参数:候选窗的长度,卷积核在时间维度上的长度,以及卷积操作的步长。对于一个卷积层来说,可以根据卷积核在时间维度上的长度f和卷积操作的步长s,以及上一个卷积层中一个神经元对应的时域尺度,计算得到该卷积层中一个神经元对应的时域尺度。候选窗内的视频片段的长度等于候选窗的长度,选择与该候选窗的长度最接近的时域尺度,作为与该候选窗内的视频片段对应的时域尺度,进而将该时域尺度上的三维特征图作为与该候选窗内的视频片段对应的三维特征图。若候选窗的尺度过长,如大于最大的时域尺度的三维特征图中包含的原始视频中的帧数,则选择最大的时域尺度作为与该候选窗内的视频片段对应的时域尺度。

104、根据获取的所述三维特征图,获取所述视频片段对应的局部特征图。

在确定时域尺度后,从多个三维特征图中获取与确定的时域尺度对应的三维特征图,进而根据获取的三维特征图,获取与视频片段对应的局部特征图。例如,某一候选窗内的视频片段为待检测视频中的第80帧至第102帧,则在确定其对应的三维特征图后,从该三维特征图上截取第80帧至第102帧对应的部分三维特征图,作为与该视频片段对应的局部特征图。按照上述操作,可以提取每个候选窗的视频片段对应的局部特征图。

105、根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。

在获取到各视频片段的局部特征图之后,根据局部特征图和行为识别网络对视频片段内的行为特征进行识别,确定视频片段中的行为特征对应的行为类别。具体地,“根据所述局部特征图和预设的行为识别网络对所述候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别”的步骤包括:

根据所述局部特征图和预设的时域提名网络,从所述多个候选窗内的视频片段中选择包含行为特征的视频片段,作为提名片段;

根据所述提名片段的局部特征图和所述行为识别网络,确定所述提名片段对应的行为类别。

将获取到的候选窗内的视频片段的局部特征图输入至预设的时域提名网络中,进行初步行为检测,即判断一个候选窗内的视频片段是行为片段还是背景片段,从全部视频片段中筛选出包含有特定行为特征的视频片段,作为提名片段。其中,若一段视频中不包含有任何行为特征,则该视频片段为背景片段。

在筛选出提名片段后,将提名片段的局部特征图作为输入数据,基于行为识别网络进行行为识别,以确定提名片段对应的行为类别。

其中,由于局部特征图是经过多次卷积操作得到的,该行为识别网络可以不设置卷积层,设置至少一个全连接层。该方案在实际应用中,可以设置多个全连接层,最后一个全连接层为分类器,包含有m+1个结点,m为大于1的正整数,共有m个行为类别和一个背景类别。将提名片段对应的局部特征图输入该网络中,输出各结点的置信度,置信度最高的结点对应的类别即为该视频片段对应的行为类别。

参照图1e,本方案综合如下三个网络构成一个完整的行为识别模型:特征提取网络,时域提名网络和行为识别网络。其中,上一个网络的输出作为下一个网络的输入,最终实现从一段长视频中识别出其包含的多个行为,确定这些行为的行为类别。

参照图1f,为了提高行为识别网络的识别准确度,该行为识别网络还设置有插值(interpolation)层,用于将各提名片段的局部特征图在时间维度上调整为预设长度。具体地,所述行为识别网络包括插值层和全连接层;“根据所述提名片段的局部特征图和所述行为识别网络,确定所述提名片段对应的行为类别”的步骤,包括:

将所述提名片段的局部特征图输入至所述行为识别网络,在所述插值层将所述局部特征图在时间维度上调整为预设长度;

将所述插值层输出的局部特征图输入至所述全连接层进行行为识别,确定所述提名片段对应的行为类别。

其中,插值层的作用在于将全部提名片段在时间维度上的长度均resize为预设长度,以使全连接层的输入数据在时间维度上具有相同的尺寸,同时保留精细的位置信息,提高全连接层分类的精确度。具体地,例如要将一个视频片段的长度由8帧resize为12帧,则可以每间隔两帧图像进行一次插帧。请参照图1g,虚线表示的框为插值后增加的图像帧,其中,插帧图像可以根据与其相邻的两帧图像计算得到,例如,可以采用线性插值算法或者双线性插值算法对提名片段的长度进行调整。

参照图1h,在一些实施例中,所述时域提名网络包括第一全连接层和第二全连接层;“根据所述局部特征图和预设的时域提名网络,从所述多个候选窗内的视频片段中选择包含行为特征的视频片段,作为提名片段”的步骤包括:

根据所述局部特征图和所述第一全连接层,检测所述多个候选窗内的视频片段中是否包含行为特征;

将包含行为特征的视频片段作为所述提名片段;

从所述多个候选窗内的视频片段中选择包含有行为特征的视频片段,作为提名片段之后,所述方法还包括:

在所述第二全连接层对所述提名片段进行边界回归,获取所述提名片段的第一时间边界。

其中,时域提名网络包括至少一个第一全连接层和至少一个第二全连接层,其中,最后第一全连接层用于行为检测,从全部视频片段中选择出提名片段,最后一个第二全连接层用于边界回归,初步确定提名片段中行为发生的第一时间边界。将全部提名片段的局部特征图输入至时域提名网络中,通过第一全连接层进行行为检测,检测所述视频片段中是否包含有行为特征,将包含有行为特征的视频片段作为所述提名片段;在第二全连接层对提名片段进行边界回归,确定各提名片段的第一时间边界,即确定提名片段中的行为发生的开始帧和结束帧。由此,不仅能够识别出一段长视频中包含有哪些类别的行为,还能够确定行为发生的时间段。

参照图1i,在一些实施例中,所述行为识别网络的全连接层包括第三全连接层和第四全连接层;“将所述插值层输出的局部特征图输入至所述全连接层,对所述提名片段进行行为识别,确定所述提名片段对应的行为类别”的步骤可以包括:

将所述插值层输出的局部特征图输入至所述第三全连接层,对所述提名片段进行行为识别,确定所述提名片段对应的行为类别;

确定所述提名片段对应的行为类别之后,所述方法还包括:

将所述提名片段的局部特征图输入至所述第四全连接层,对所述提名片段进行边界回归,获取所述提名片段的第二时间边界。

其中,行为识别网络的全连接层可以包括第三全连接层和第四全连接层,第三全连接层用于确定提名片段的行为类别,第四全连接层用于对行为类别后的提名片段再次进行边界回归获取第二时间边界。以实现在第一时间边界的基础上更加精确地确定提名片段中行为发生的时间段,即精确定位行为开始帧和行为结束帧。

可选地,本申请实施例还包括网络的训练过程。在本实施中,由三个网络构成一个完整的行为识别模型,因此,将三个网络作为一个整体进行训练。该方法还包括:

采集样本视频,为所述样本视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;

为每一候选窗内的视频片段添加二分类标签和多分类标签,其中,所述二分类标签包括行为标签和背景标签;

根据添加二分类标签和多分类标签后的所述样本视频以及初始化权重后特征提取网络,生成包含多个候选窗的样本视频在多个时域尺度上的三维特征图;

确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图;

根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;

将具有行为标签的局部特征图作为正样本,将具有背景标签的局部特征图作为负样本,将所述正样本和所述负样本输入至时域提名网络中进行训练;

将具有多分类标签的所述局部特征图输入至行为识别网络中进行训练;

重复执行上述步骤进行迭代训练,直至所述时域提名网络和所述行为识别网络的损失函数小于预设阈值,确定所述特征提取网络、所述时域提名网络和所述行为识别网络的参数。

参照图1j,将添加有二分类标签和多分类标签的样本视频作为训练样本。其中,二分类标签用于时域提名网络的训练阶段,多分类标签用于行为识别网络的训练阶段。其中,预先设置好特征提取网络的结构和必要的超参数,按照预设算法对网络进行权重初始化,例如,采用xavier初始法、高斯分布初始化方法等进行权重初始化。

在该实施例中,时域提名网络解决的是一个二分类问题,即判断一个视频片段中是否包含特定的行为特征。时域提名网络包含卷积层和至少一个全连接层,全连接层有两个结点,每个结点均与前一个层的神经元全连接。卷积层的数量可以根据需要设置,不作具体限定。所述时域提名网络由具有二分类标签的样本视频的局部特征图训练得到。行为识别网络解决的是一个多分类问题。该网络由具有多分类标签的样本视频的局部特征图训练卷积神经网络得到。

采集大量包含有一个或者多个特定动作的长视频作为样本视频,按照步骤101所示的方法为样本视频添加候选窗,并为每一候选窗内的视频片段添加二分类标签和多分类标签,其中,二分类标签包括行为标签和背景标签,以标注该候选框对应的视频片段中是否有行为发生。例如,若标签为label=1,则为行为标签,表示该候选框内的视频片段中包含行为特征,若标签为label=0,则为背景标签,表示该候选框内的视频片段中不包含行为特征,该视频片段为背景片段。行为识别网络的训练使用的样本标签是多分类标签,即m+1类标签,当标签为label=1、2、3……m时,候选窗内的视频片段中有对应类别的特定行为发生,当标签label=0时,候选窗内的视频片段为背景片段。

将具有二分类标签和多分类标签的样本视频输入初始化权重后的特征提取网络,提取多个时域尺度上的三维特征图,并根据候选窗的长度选择对应的时域尺度,进而从完整的三维特征图上截取与候选窗内的视频片段匹配的局部特征图。获取到各候选窗内的视频片段的局部特征图后,由于每一个候选窗都对应于一个行为标签或者背景标签,则每个局部特征图对应一个行为标签或者背景标签;将具有行为标签的局部特征图作为正样本,将具有背景标签的局部特征图作为负样本,将正样本和负样本输入至预先构建好的卷积神经网络中进行训练。关于行为识别网络,该网络的训练方法与时域提名网络的训练方式相似。区别在于每一候选窗内的视频片段采用的是多分类标签。将具有多分类标签的行为片段的局部特征图输入至行为识别网络进行训练。按照上述过程进行迭代训练,直至述时域提名网络和所述行为识别网络的损失函数小于预设阈值。由于卷积神经网络的训练过程就是一个在不断最小化损失函数的过程,当损失函数的大小达到目标,即小于预设阈值,则完成网络的训练,此时,可以确定上述三个网络的权重参数。

可以理解的是,在其他实施例中,也可以由特征提取网络和行为识别网络构成一个完整的行为识别模型,将这两个网络作为一个整体进行训练。对于样本视频,只需添加多分类标签即可。具体地,训练过程包括:

采集样本视频,为所述样本视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;

为每一候选窗内的视频片段添加分类标签;

根据添加分类标签后的所述样本视频以及初始化权重后特征提取网络,生成包含候选窗的样本视频在多个时域尺度上的三维特征图;

确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图;

根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;

将具有分类标签的所述局部特征图输入至行为识别网络中进行训练;

重复执行上述步骤进行迭代训练,直至所述行为识别网络的损失函数小于预设阈值,确定所述特征提取网络和所述行为识别网络的参数。

在一些实施例中,在神经网络的训练阶段,采用检测加分割的多任务训练方案。参照图1k,在时域提名网络之后添加一个视频分割网络,用于将视频片段分割为视频帧图像,并根据视频片段对应的标签,为分割得到的视频帧图像添加标签。通过该分割网络引入精确帧的分割任务,能够使模型学习到每一帧的行为分类,能够对特征提取网络和时域提名网络以及行为识别网络的权重参数的优化,进而可以显著提高行为检测的精确度。并且,可以通过sigmoid函数和交叉熵损失来训练每一类别的分割任务,不同类别间没有竞争关系。

由上可知,本发明实施例通过获取待检测视频,为待检测视频添加多个候选窗,每一候选窗对应待检测视频的一个视频片段;基于特征提取网络,生成包含多个候选窗的待检测视频在多个时域尺度上的三维特征图;然后,确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图,根据确定的三维特征图获取视频片段对应的局部特征图,若候选窗内视频片段的长度较小,则可以选择时域尺度小的三维特征图提取局部特征图,反之,则选择时域尺度大的三维特征图提取局部特征图,提取到每一候选窗内的视频片段的局部特征图后,根据局部特征图和预设的行为识别网络进行行为识别,确定视频片段中行为特征对应的行为类别。该方案能够对待检测视频中多种时长的行为进行识别,即使一段视频中包含有多个时长不同的行为,也可以使用特征提取网络从待检测视频中获取其在多个时域尺度上的三维特征图,使得分类器的感受野能够适应不同时间长度的行为特征,提高了对多种时间跨度的行为识别的精确度。

根据前面实施例所描述的方法,以下将举例作进一步详细说明。

例如,参照图2a和图2b,在本实施例中,以视频行为检测装置集成在网络设备服务器中为例进行说明。

(一)训练卷积神经网络。

该阶段主要包括特征提取网络、时域提名网络和行为识别网络的训练。该方案中将上述三个网络作为一个整体进行训练,具体的训练方法参照上述实施例,在此不再赘述。

(二)获取待检测视频。

服务器接收视频采集设备发送的待检测视频。

(三)为待检测视频添加候选窗。

基于多尺度滑动窗口为待检测视频添加多个不同尺寸的候选窗,候选窗之间可以有重叠。参照图2b,在待检测视频上添加第一候选窗至第n候选窗,共n个候选窗。

(四)获取与各候选窗内的视频片段匹配的局部特征图。

将获取的待检测视频输入到预先训练好的特征提取网络中,输出待检测视频在多个时域尺度上的三维特征图,参照图2b,根据特征提取网络提取第一时域尺度、第二时域尺度……第i时域尺度等i个时域尺度的三维特征图,其中,i的具体数值可以由用户根据需要设置,例如,i=3~7。然后,从三维特征图中提取第一候选窗至第n候选窗内的视频片段对应的局部特征图。至此,获取到各候选窗内的视频片段匹配的局部特征图。

此处列举一具体的特征提取网络来进行说明。假设在一实施例中,特征提取网络包括如下六个卷积层:卷积层1、卷积层2、卷积层3、卷积层4、卷积层5和卷积层6,上述六个卷积层的卷积核在时间维度上的尺寸f=2,步长s=2。一个卷积层输出的三维特征图的时域尺度为:该卷积层的一个神经元中连接的原始视频中视频帧图像的数量,故,在卷积层1,一个神经元(即卷积核)与待检测视频中的两帧视频帧图像相连接,该层输出的三维特征图的时域尺度为2;在卷积层2,一个神经元与卷积层1中的两个神经元连接,与待检测视频中的连续四帧的视频帧图像相连接,经过卷积操作后,该层输出的三维特征图的时域尺度为4;以此类推,可以计算出卷积层3输出的三维特征图的时域尺度为8;卷积层4输出的三维特征图的时域尺度为16;卷积层5输出的三维特征图的时域尺度为32;卷积层6输出的三维特征图的时域尺度为64。故该网络能够输出的三维特征图的最大时域尺度为64。

此外,针对该特征提取网络,可以根据如下公式计算候选框对应的时域尺度l。

其中,k0为基准值,设置为6,即最后一个卷积层的层数,64为该层输出的三维特征图的时域尺度,ω为候选窗的长度。该公式适用于步长为2的卷积操作,其中,64可以根据最后一个卷积层的输出的特征图的具体时域尺度替换为其他数值。假设候选窗长度为32,可以计算得到,对应的k=4,时域尺度l=32,即可以选择卷积层4输出的三维特征图作为与该候选窗内的视频片段匹配的三维特征图,此时可以从第四个卷积层输出数据中提取出与该候选窗内的视频片段对应的局部特征图。例如,若待检测视频的长度为512帧,其中一个候选窗的所在的位置为第33帧至第64帧,长度为32帧,则从完整的三维特征图中提取出该32帧视频帧图像对应的局部特征图即可。

可以理解的是,上述例子中的滑动窗口的尺度与时域尺度刚好匹配,若采用其他的滑动窗口尺度,例如,窗口尺寸为10、20、30、40等,则按照上述公式计算的k值可能存在小数,要进行取整操作。

(五)从待检测视频中筛选提名片段,并确定行为发生的第一时间边界。

通过预先训练好的时域提名网络从上述候选窗中筛选出可能包含有特定行为的片段作为提名片段,并初步确定该片段中行为发生的时间段,即确定第一时间边界。具体实施方式可参照上述行为识别方法实施例步骤104中的描述,在此不再赘述。参照图2b,从待检测视频中筛选出提名片段1、提名片段2……提名片段k,共k个提名片段。

(六)确定提名片段的行为类别,并确定行为的第二时间边界。

该行为识别网络包含有分类子网络和回归子网络,分类子网络中的最后一个全连接层起到分类器的作用,能够识别包含背景片段在内的m+1类行为类别,对筛选出的提名片段中行为的类别进行精确的识别,若检测到提名片段中没有包含任何类别的行为,则判定该提名片段为背景片段。在确定各提名片段对应的行为类别后,通过回归子网络对确定行为类别的提名片段(不包含背景片段)进行边界回归,以确定行为的第二时间边界,进而根据第二时间边界确定行为发生的具体时间段。

通过上述方案,服务器可以对视频采集设备发送的一段长视频进行行为识别,确定该长视频中发生的一个或者多个特定行为的行为类别,以及每一行为的发生时间段。并将行为类别和行为发生时间段发送至视频采集设备。

为了实施以上方法,本发明实施例还提供一种行为识别装置,该行为识别装置具体可以集成在终端设备如服务器或个人计算机等设备中。

例如,如图3a所示,该行为识别装置可以包括视频获取单元301、视频加窗单元302、特征获取单元303、尺度匹配单元304、特征选择单元305和行为识别单元306,如下:

(一)视频获取单元301;

视频获取单元301,用于获取待检测视频。其中,待检测视频可以是视频采集设备实时采集的,也可以是用户通过终端上传的。

(二)视频加窗单元302;

视频加窗单元302,用于为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段。

待检测视频是由一系列连续的视频帧图像组成的,本实施例中,使用一段视频中包含的视频帧的帧数来衡量长视频或者视频片段的长度。在视频获取单元301获取到待检测视频后,视频加窗单元302采用多尺度滑动窗口在时间维度上为待检测视频添加候选窗,例如,可以采用如下几种大小的窗口:8、16、32、64、128。为了提高行为识别的准确度,相邻两个候选窗之间可以有重叠,重叠度可以设置为25%-75%。

(三)特征获取单元303;

特征获取单元303,用于基于特征提取网络,生成包含多个候选窗的待检测视频在多个时域尺度上的三维特征图。

该特征提取网络为三维卷积神经网络,本实施例中的特征提取网络包括多个卷积层,没有全连接层。特征获取单元303采用三维卷积核对本层输入的三维特征图进行特征提取,即该卷积核在时间维度上的尺寸大于或等于2。一个卷积层的一个神经元只与上一层中的部分神经元相连接,逐层进行卷积操作,输出三维的特征图。具体的实施方式可参照上述行为识别方法实施例步骤102中的描述,在此不再赘述。

参照图3b,在一些实施例中,特征提取网络为包含多个卷积层的三维卷积神经网络,特征获取单元303可以包括卷积运算子单元3031和特征获取子单元3032,其中:

卷积运算子单元3031,用于将包含多个候选窗的所述待检测视频输入所述特征提取网络,依次在所述多个卷积层进行卷积运算;

特征获取子单元3032,用于获取最后连续多个卷积层输出的三维特征图,作为所述待检测视频在多个时域尺度上的三维特征图,其中,卷积层的层数越深,时域尺度越大。

在一些实施例中,该卷积神经网络采用空间域和时域分离的三维卷积神经网络。参照图1d,为本发明实施例提供的特征提取网络中的卷积核结构示意图。在空间域使用1*d*d尺寸的卷积核,在时域使用1*1*t尺寸的卷积核。即一个卷积层包含一个二维空间域卷积核和一个一维时域卷积核,需要说明的是,在一个卷积层中对输入数据进行卷积操作时,空间域卷积和时域卷积运算分别进行,可以先进行时域卷积运行,也可以先进行空间域卷积运算。卷积运算子单元还用于在所述特征提取网络的卷积层进行卷积运算时,对输入的三维特征图依次使用所述二维空间卷积核和所述一维时域卷积核进行卷积操作。具体地,若先进行空间域卷积运算,则卷积层对输入的连续多帧视频帧图像,分别使用1*d*d的二维空间卷积核对每一帧视频帧图像进行二维空间卷积操作,得到连续多张二维特征图;然后,使用1*1*t的一维时域卷积核对连续多张二维特征图,在时间维度上进行卷积操作,即在深度方向上,对连续多张二维图上同一位置处的像素数据进行卷积操作。

由于本方案是对三维的视频数据进行卷积,并且采用的是未分割的长视频,导致特征提取网络需要学习的权重参数非常多,甚至存在冗余,容易造成过拟合。因此,采用空间域和时域分离的三维卷积神经网络,能够在减少参数、提升计算速度的同时,降低网络的过拟合程度,使得检测效果也相比普通的三维卷积有所提升。

在一些实施例中,还可以采用卷积膨胀操作获取多个时域尺度上的三维特征图。具体地,特征提取网络为包含多个膨胀卷积层的三维卷积神经网络;特征获取单元303还可以用于:

将包含多个候选窗的所述待检测视频输入所述特征提取网络,依次在所述多个膨胀卷积层中按照对应的膨胀系数进行卷积运算;

获取最后连续多个膨胀卷积层输出的三维特征图,作为所述待检测视频在多个时域尺度上的三维特征图。

其中,该特征提取网络为包含有多个膨胀卷积层的三维卷积神经网络。在膨胀卷积层,按照该卷积层设置的膨胀系数进行膨胀卷积操作,通过膨胀卷积的方式,可以在不做池化损失信息的情况下,扩大神经元的感受野,让每个卷积输出都包含较大范围的信息。故,可以根据需要的时域尺度设置各个膨胀卷积层的膨胀系数,以使输出的三维特征图具有需要的时域尺度。

(四)尺度匹配单元304;

尺度匹配单元304,用于确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图。

获取到长视频在多个时域尺度上的三维特征图后,直观来看,每一个候选框内的视频片段可以对应于多个时域尺度的三维特征图。接下来,尺度匹配单元304根据各个候选窗的长度的不同,为各个候选窗内的视频片段选择匹配的时域尺度的三维特征图。

参照图3c,在一些实施例中,特征提取网络为包含多个卷积层的三维卷积神经网络,尺度匹配单元304可以包括数量确定子单元3041和尺度确定子单元3042,其中:

数量确定子单元3041,用于确定所述候选窗内的视频片段包含的视频帧图像的数量;

尺度确定子单元3042,用于按照所述数量,确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图。

(五)特征选择单元305;

特征选择单元305,用于根据获取的所述三维特征图,获取所述视频片段对应的局部特征图。

在确定时域尺度及对应的三维特征图之后,特征选择单元305从该确定的三维特征中截取与视频片段对应的局部特征图。

具体的实施方式可参照上述行为识别方法实施例步骤103和步骤104中的描述,在此不再赘述。

(六)行为识别单元306;

行为识别单元306,用于根据所述局部特征图和预设的行为识别网络对候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。

在获取到各视频片段的局部特征图之后,根据局部特征图和行为识别网络对视频片段内的行为特征进行识别,确定视频片段中的行为特征对应的行为类别。参照图3d,在一些实施例中,行为识别单元306包括片段筛选子单元3061和行为识别子单元3062,其中:

片段筛选子单元3061,用于根据所述局部特征图和预设的时域提名网络,从所述多个候选窗内的视频片段中选择包含行为特征的视频片段,作为提名片段;

行为识别子单元3062,用于根据所述提名片段的局部特征图和所述行为识别网络,确定所述提名片段对应的行为类别。

通过片段筛选子单元3061将获取到的候选窗内的视频片段的局部特征图输入至预设的时域提名网络中,进行初步行为检测,即判断一个候选窗的视频片段是行为片段还是背景片段,从全部视频片段中筛选出包含有特定行为特征的视频片段,作为提名片段。其中,若一段视频中不包含有任何行为特征,则该视频片段为背景片段。

在片段筛选子单元3061筛选出包含有行为特征的提名片段后,行为识别子单元3062将提名片段的局部特征图作为输入数据,基于行为识别网络进行行为识别,以确定提名片段对应的行为类别。其中,由于局部特征图为经过多次卷积操作得到的,该行为识别网络可以不设置卷积层,设置至少一个全连接层。该方案在实际应用中,可以设置多个全连接层,最后一个全连接层为分类器,包含有m+1个结点,m为大于1的正整数,共有m个行为类别和一个背景类别。将提名片段对应的局部特征图输入该网络中,输出各结点的置信度,置信度最高的结点对应的类别即为该视频片段对应的行为类别。

由上可知,本发明实施例通过视频获取单元301获取待检测视频,然后,视频加窗单元302为待检测视频添加多个候选窗,每一候选窗对应待检测视频的一个视频片段;特征获取单元303基于特征提取网络,生成包含多个候选窗的待检测视频在多个时域尺度上的三维特征图;然后,尺度匹配单元304确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图,特征选择单元305根据确定的三维特征图获取视频片段对应的局部特征图,若候选窗内视频片段的长度较小,则可以选择时域尺度小的三维特征图提取局部特征图,反之,则选择时域尺度大的三维特征图提取局部特征图,提取到每一候选窗内的视频片段的局部特征图后,行为识别单元306根据局部特征图和预设的行为识别网络进行行为识别,确定视频片段中行为特征对应的行为类别。该方案能够对待检测视频中多种时长的行为进行识别,即使一段视频中包含有多个时长不同的行为,也可以使用特征提取网络从待检测视频中获取其在多个时域尺度上的三维特征图,使得分类器的感受野能够适应不同时间长度的行为特征,提高了对多种时间跨度的行为识别的精确度。

在一些实施例中,所述时域提名网络包括第一全连接层和第二全连接层;片段筛选子单元3061还可以用于:

根据所述局部特征图和所述第一全连接层,检测所述视频片段中是否包含有行为特征;

将包含有行为特征的视频片段作为所述提名片段;

该行为识别装置还包括第一回归单元,第一回归单元用于在所述第二全连接层对所述提名片段进行边界回归,获取所述提名片段的第一时间边界。

在一些实施例中,所述行为识别网络包括插值层和全连接层;行为识别子单元3062还可以用于:

将所述提名片段的局部特征图输入至所述行为识别网络,在所述插值层将所述局部特征图在时间维度上调整为预设长度;

将所述插值层输出的局部特征图输入至所述全连接层,对所述提名片段进行行为识别,确定所述提名片段对应的行为类别。

在一些实施例中,所述行为识别网络的全连接层包括第三全连接层和第四全连接层;行为识别子单元3062还可以用于:将所述插值层输出的局部特征图输入至所述第三全连接层进行行为识别,将所述插值层输出的局部特征图输入至所述第三全连接层,对所述提名片段进行行为识别,确定所述提名片段对应的行为类别。该行为识别装置还包括第二回归单元,第二回归单元用于将所述提名片段的局部特征图输入至所述第四全连接层,对所述提名片段进行边界回归,获取所述提名片段的第二时间边界。

在一些实施例中,该行为识别装置还可以包括网络训练单元,该网络训练单元可以用于:采集样本视频,为所述样本视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;为每一候选窗内的视频片段添加二分类标签和多分类标签,其中,所述二分类标签包括行为标签和背景标签;根据添加二分类标签和多分类标签后的所述样本视频以及初始化权重后特征提取网络,生成包含多个候选窗的样本视频在多个时域尺度上的三维特征图;确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图;根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;将具有行为标签的局部特征图作为正样本,将具有背景标签的局部特征图作为负样本,将所述正样本和所述负样本输入至时域提名网络中进行训练;将具有多分类标签的所述局部特征图输入至行为识别网络中进行训练;重复执行上述步骤进行迭代训练,直至所述时域提名网络和所述行为识别网络的损失函数小于预设阈值,确定所述特征提取网络、所述时域提名网络和所述行为识别网络的参数。具体的实施方式可参照上述行为识别方法实施例中的描述,在此不再赘述。

本发明实施例还提供一种服务器,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

其中:

处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

获取待检测视频,为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;

基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图;

确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图;

根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;

根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。

在一些实施例中,所述特征提取网络为包含多个卷积层的三维卷积神经网络,处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:

将包含所述多个候选窗的所述待检测视频输入所述特征提取网络,依次在所述多个卷积层进行卷积运算;

获取最后连续多个卷积层输出的三维特征图,作为所述待检测视频在多个时域尺度上的三维特征图,其中,卷积层的层数越深,时域尺度越大。

在一些实施例中,特征提取网络中的卷积层包括二维空间卷积核和一维时域卷积核;处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:

在所述特征提取网络的卷积层进行卷积运算时,对输入的三维特征图依次使用所述二维空间卷积核和所述一维时域卷积核进行卷积运算。

在一些实施例中,所述特征提取网络为包含多个膨胀卷积层的三维卷积神经网络;处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:

将包含所述多个候选窗的所述待检测视频输入所述特征提取网络,依次在所述多个膨胀卷积层中按照对应的膨胀系数进行卷积运算;

获取最后连续多个膨胀卷积层输出的三维特征图,作为所述待检测视频在多个时域尺度上的三维特征图。

在一些实施例中,处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:

确定所述候选窗内的视频片段包含的视频帧图像的数量;

按照所述数量,确定与所述视频片段匹配的时域尺度,并获取与确定的时域尺度对应的三维特征图。

在一些实施例中,处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:

根据所述局部特征图和预设的时域提名网络,从所述多个候选窗内的视频片段中选择包含行为特征的视频片段,作为提名片段;

根据所述提名片段的局部特征图和所述行为识别网络,确定所述提名片段对应的行为类别。

在一些实施例中,所述时域提名网络包括第一全连接层和第二全连接层;处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:

根据所述局部特征图和所述第一全连接层,检测所述多个候选窗内的视频片段中是否包含行为特征;

将包含行为特征的视频片段作为所述提名片段;

以及,在从所述多个候选窗内的视频片段中选择包含有行为特征的视频片段,作为提名片段之后,在所述第二全连接层对所述提名片段进行边界回归,获取所述提名片段的第一时间边界。

在一些实施例中,所述行为识别网络包括插值层和全连接层;处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:

将所述提名片段的局部特征图输入至所述行为识别网络,在所述插值层将所述局部特征图在时间维度上调整为预设长度;

将所述插值层输出的局部特征图输入至所述全连接层,对所述提名片段进行行为识别,确定所述提名片段对应的行为类别。

在一些实施例中,所述行为识别网络的全连接层包括第三全连接层和第四全连接层;处理器401运行存储在存储器402中的应用程序,还可以实现如下功能:

将所述插值层输出的局部特征图输入至所述第三全连接层,对所述提名片段进行行为识别,确定所述提名片段对应的行为类别;

以及,在确定所述提名片段对应的行为类别之后,将所述提名片段的局部特征图输入至所述第四全连接层,基于所述第一时间边界对所述提名片段进行边界回归,获取所述提名片段的第二时间边界。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种行为识别方法中的步骤。例如,该指令可以执行如下步骤:

获取待检测视频,为所述待检测视频添加多个候选窗,其中,每一候选窗对应所述待检测视频的一个视频片段;

基于特征提取网络,生成包含所述多个候选窗的所述待检测视频在多个时域尺度上的三维特征图;

确定与所述候选窗内的视频片段匹配的时域尺度,并获取与确定的所述时域尺度对应的所述三维特征图;

根据获取的所述三维特征图,获取所述视频片段对应的局部特征图;

根据所述局部特征图和预设的行为识别网络对所述多个候选窗内的视频片段进行行为识别,确定所述视频片段中行为特征对应的行为类别。

以上操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种行为识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种行为识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。以上对本发明实施例所提供的一种行为识别方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1