一种基于双流卷积神经网络的行为识别方法及设备与流程

文档序号:20876196发布日期:2020-05-26 16:34阅读:472来源:国知局
一种基于双流卷积神经网络的行为识别方法及设备与流程

本申请属于计算机视觉领域,涉及一种基于双流卷积神经网络的特定行为的识别方法及设备,用于复杂背景下特定行为的识别,尤其在包括多种与特定行为的区别微小的应用场景下。



背景技术:

近年来,随着科技水平的逐步提高,人工智能的应用越来越广泛和具体,动作检测、行为识别领域的发展越来越受到关注。视频中的动作的检测和识别具有广泛的应用,例如监控、人机交互和基于特定条件的检索。在工业、医疗、军事和生活等领域均需要使用人体动作检测和识别方法及相应装置来进行模拟训练、监控行为及规范指导。在动作检测和识别领域中,帧级动作检测的质量直接影响视频中的动作检测的质量和识别判断的准确率。尤其是,在有些应用场景中,大量个体的行为相近似,区别之处非常细微,更需要精细地区分是否符合标准行为规范,并做后续的识别和监控。

例如,在物流领域,需要在库房等应用场景中准确快速筛选出是否存在暴利分拣行为,以做到更精确及时的提醒和指导。而现有的暴力分拣行为识别算法主要分为两类:一类是基础传统计算机视觉和机器学习的方法,如多尺度合成算法、支持向量机、k均值聚类算法、小波包分析方法等,这类算法均基于人工设计的特征进行学习,无法从复杂多变的原始监控视频提取到有效的特征,准确率低,泛化力弱,可扩展性差;另一类则基于卷积神经网络的方法,将视频视为连续的多帧图像,视频的特征视为图像特征的相加,虽然可以有效地学习到图像的空间信息,但是破坏了视频中的时序性,无法学习到时序特征,而时序特征对暴力分拣行为的识别至关重要。

因此,现有技术存在的问题在于,常用的机器学习算法均基于人工设计的特征进行学习,无法从复杂多变的原始监控视频提取到有效的特征,准确率低,泛化力弱,可扩展性差等;或者忽略了时序性特征,诸多不足之处,以待改进。

鉴于此,本申请的发明人提出一种基于双流卷积神经网络的行为识别方法、设备及存储介质,适用于复杂的应用场景,尤其适用于在包括多种与特定行为的区别较小的应用场景下某一特定行为的识别,以便于进一步智能指导、规范行为。

该方法,将监控视频转化为数帧有序的图像,然后计算出连续两帧图像之间的光流图;利用两组卷积神经网络,一组输入rgb图像,提取空间特征,而另一组输入光流图,提取时间特征;然后,将两组特征串联起来,进行识别。整个算法不需要对原始图像提前设计人工特征,基于一个端对端的深度神经网络模型可以自主学习,针对性地从原始视频图像和光流图像中提取特定行为(例如,暴力分拣行为)的时间和空间特征,以达到快速识别行为的目的。该方法大幅提高识别效率和准确率。



技术实现要素:

基于上述目的,本发明创新性地提出一种从包括复杂场景的视频流中检测和识别特定行为的方法,该方法采用双流卷积神经网络训练模型,不需要对原始图像人工设计特征,就可以直接深度学习监控视频流,提高了行为或动作识别的效率和准确率,以便于进一步或同步地智能指导、规范行为。

第一方面,本发明提供了一种基于双流卷积神经网络的行为识别方法,所述方法包括:数据准备阶段、模型训练阶段和识别阶段,其中,

数据准备阶段,其包括:

数据收集,其收集原始监控视频;

构建训练集:数据标注,从包含多种特定行为的原始监控视频中提取多个包含一种特定行为的视频片段,并做标注;以及将所述经标注的视频片段转换为连续的图像帧,所述图像帧为rgb图像;并且从所述连续的两帧rgb图像计算光流图像;数据预处理,其包括数据归一化处理和增强处理;

模型训练阶段,其包括:

构建模型:搭建双流卷积神经网络模型;以及

训练模型:拟合训练数据,利用所述双流卷积神经网络对rgb图像和光流图像分别学习并获得空间特征和时间特征,然后将这些特征融合,并输入到最后的分类层;

识别阶段:将待识别的监控视频或视频片段输入所述训练后的双流卷积神经网络模型,经训练后的所述双流卷积神经网络自判断、识别行为,并输出识别结果。

基于本申请第一方面所述的技术方案,使用构建的所述双流卷积神经网络算法对历史监控视频进行学习,并拟合训练参数,作为训练后的双流卷积神经网络模型的输入参数,从而将所述训练后的用于判断在其他待识别视频中是否出现存在一个或多个包含特定行为的图像或视频片段,并自动输出视频中存在的行为类别结果。

具体地,本发明提供的一种基于双流卷积神经网络的行为识别方法,所述行为包括人的动作行为、自动驾驶车辆的行驶或机器人或机械臂的操作动作等。进一步地,所述特定行为可以包括人的动作幅度、速率、机械臂操作幅度、速率或自动驾驶车辆的行驶路径、速率等,例如,物流行业库房中大量分拣行为中是否存在暴力分拣行为,以识别、指导或规范行为。

所述数据收集还包括对原始视频图像的切割处理,以去除不包括所述特定行为的图像区域区域或视频图像。

在所述数据标注中,所述标注是对图像中行为进行真实类别的标注。具体地,人工地将所述样本用正负形式做真实类别的样本标注,0表示非暴力行为,1表示暴力行为。

所述归一化处理方法包括减均值或除方差处理;所述增强处理方法包括随机翻转、随机加入高斯白噪声、随机进行亮度、对比度或色度变化等。

所述双流卷积神经网络模型中的卷积神经网络是三维卷积神经网络。

在所述模型训练阶段中,使用所述双流卷积神经网络模型预测输入所述视频片段中图像的特定行为的类别,其中,三维卷积神经网络模型的计算遵循下述公式1:之后,遵循下述公式2计算一组ω′,使损失函数最小:

公式1中,设所述视频x,连续图像帧为i1,i2,...,in,n为视频帧数,连续两帧计算的光流图为f1,f2,...,fn-1,真实类别为y,模型预测类别为ω为模型参数,l为损失函数,||·,·||为相似性度量函数;

公式2中,m为训练集样本的总数目;ω′的求解使用小批量随机梯度下降法。

优选地,所述三维卷积神经网络还包括特征提取部分和行为类别输出部分。

所述三维卷积神经网络中第一个卷积核的输入是连续16或更多帧每秒。优选地,选用16帧每秒。

所述三维卷积神经网络的层数设置为34层,其中,分别为resnet34-i和resnet34-f。

所述双流卷积神经网络训练模型采用残差网络resnet为基本骨架,以解决网络加深时梯度消失的问题。

所述残差网络resnet进一步包括一个恒等映射(identitymapping),把当前输出直接传输给下一层网络,跳过本层运算。由此既不产生额外的参数,也不增加计算的复杂度,所述直接连接命名为“skipconnection”;同时,在后向传播过程中,也是将下一层网络的梯度直接传递给上一层网络,由此解决了深层网络的梯度消失问题,可以搭建更深的卷积网络,最深已经突破1000层。

所述识别阶段,将待识别的监控视频或视频片段转换为多个连续的图像帧,然后,求出连续两帧图像之间的光流图;利用所述卷积神经网络模型(例如,resnet34-i和resnet34-f)分别对rgb图像和光流图像进行学习,以分别提取空间特征和时间特征,然后将这些特征数据融合,并输入到最后的分类层进行识别,输出判断结果。

具体地,所述融合包括将所述空间特征和时间特征合并或相加。

第二方面,本发明还提供了一种设备,包括一个或多个处理器和存储器,其中存储器包含可由所述一个或多个处理器执行的指令以使得所述一个或多个处理器执行根据本发明各种实施方式提供的识别方法。

第三方面,本发明还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行根据本发明各实施方式提供的方法。

有益效果

与现有技术相比较,本发明提供的技术方案具有如下几方面的有益效果:

1、与现有技术中暴力分拣行为识别方法相比较,例如基础传统计算机视觉和机器学习的方法,其克服了原来无法从复杂多变的原始监控视频提取到有效的特征,而且准确率高,泛化力强,可扩展性好;

2、现有技术中卷积神经网络cnn算法将视频视为连续的多帧图像,视频的特征视为图像特征的相加,虽然可以有效地学习到图像的空间信息,但是破坏了视频中的时序性,无法学习到时序特征的问题,而本申请搭建并训练的所述双流卷积神经网络模型学习并获得了到视频中的时序特征;

3、本申请的上述技术方案运用双流卷积神经网络,将监控视频转化为数帧有序的图像,然后求出连续两帧图像之间的光流图,搭建了两个卷积神经网络模型,一组输入rgb图像,提取空间特征,一组输入光流图,提取时间特征,然后将这些特征融合起来输入最后一层,以进行结果输出;

4、本申请的技术方案不需要提前设计人工特征,仅需要在训练阶段,对输入的视频图像进行标注,再通过训练后的双流卷积神经网络模型,针对性地从原始视频中提取的rgb图像和光流图像中提取特定行为的时间和空间特征,可大幅提高识别准确率;

5、所述检测方法无需额外硬件支持:仅需现场监控图像即可完成车厢识别任务,节约了成本。

附图说明

为了更清晰地了解本发明,请参照以下附图所作的对非限制性示例性说明,本文将对本申请的特征、目的和优点做全面的说明:

图1为本发明提供的一种基于双流卷积神经网络的行为识别方法中一种实施方式的流程图。

图2为本发明提供的一种基于双流卷积神经网络的行为识别方法中所述网络模型的一种实施方式的结构示意图,其中,所述特定行为是指暴力分拣行为。

图3为本申请提供的一种设备的一种实施方式,包括一个或多个处理器(cpu)和存储器。

其中,图1中,i1,i2,...,in为连续图像帧,n为视频帧数,f1,f2,...,fn-1为连续两帧计算的光流图。

具体实施方式

下面结合附图和实施方式对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明的技术方案、发明构思,而非对本发明所做的限制性说明。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。其它未明确示出或未明确说明的部分均应理解为现有技术常规手段或方案,其结合本发明示出的技术特征可以实现本发明的技术效果。

需要说明的是,在不冲突的情况下,本发明中的实施方式及实施方式中的具体的附加技术特征可以相互组合或替换。下面将参考附图并结合实施方式来详细说明本申请。

图1为图1为本发明提供的一种基于双流卷积神经网络的行为识别方法中一种实施方式的流程图。

图2为本发明提供的一种基于双流卷积神经网络的行为识别方法中所述网络模型的一种实施方式的结构示意图,其中,所述特定行为是指暴力分拣行为。

正如图1和图2所示,该方法包括:数据准备阶段、模型训练阶段和识别阶段,具体方式如下所述:

数据准备阶段,其包括:数据收集,其收集原始监控视频;数据标注,从包含多种行为的原始监控视频中裁剪成数个仅包含一种特定行为的视频片段或图像,并进行人工标注,其用正负表示的真实类别标注,例如,在一种实施方式中,0表示非暴力行为,1表示暴力行为;以及数据处理,其包括数据归一化处理和增强处理;以及将经人工标注的视频片段转换为连续的图像帧,该图像帧为rgb图像;并且从连续的两帧rgb图像计算光流图像;归一化处理方法包括减均值或除方差处理;所述增强处理方法包括随机翻转、随机加入高斯白噪声、随机进行亮度、对比度或色度变化等。

模型训练阶段,其包括:构建模型,搭建双流卷积神经网络模型,分别为卷积神经网络resnet34-i和resnet34-f;训练模型:拟合训练数据,将所述经人工标注的视频片段转换为连续的图像帧,所述图像帧为rgb图像;并且从所述连续的两帧rgb图像计算光流图像;然后,使用该双流卷积神经网络模型预测输入的视频片段中图像的特定行为的类别,其中,三维卷积神经网络模型的计算遵循下述公式1:之后,遵循下述公式2计算一组ω′,使损失函数最小,并以此优化后的参数作为所述训练后双流卷积神经网络模型的参数;拟合训练数据,利用训练后的两个卷积神经网络对rgb图像和光流图像分别学习空间特征和时间特征,然后将这些特征合并,并输入到最后的分类层;

公式1中,设视频x,连续图像帧为i1,i2,...,in,n为视频帧数,连续两帧计算的光流图为f1,f2,...,fn-1,真实类别为y,模型预测类别为ω为模型参数,l为损失函数,||·,·||为相似性度量函数;

公式2中,m为训练集样本的总数目;ω′的求解使用小批量随机梯度下降法。

识别阶段:将待识别监控视频或视频片段转换为连续的图像帧,然后,求出连续两帧图像之间的光流图;利用卷积神经网络模型(resnet34-i和resnet34-f)分别对rgb图像和光流图像提取空间特征和时间特征,然后将这些特征数据融合并输入到最后的分类层进行识别,输出判断结果。

该行为可以选择识别人的动作行为、自动驾驶车辆的行驶或机器人或机械臂的操作动作等的任一种。

进一步地,该特定行为可以包括人的动作幅度、速率、机械臂操作幅度、速率或自动驾驶车辆的行驶路径、速率等,例如,物流行业库房中大量分拣行为中是否存在暴力分拣行为,以识别、指导或规范行为。

具体地,数据收集还包括对原始视频图像的区域的切割处理,以去除显著不同于特定行为的特征区域或视频图像。

该三维卷积神经网络还包括特征提取部分和行为类别输出部分。

该三维卷积神经网络中第一个卷积核的输入是连续16或更多帧每秒。

该三维卷积神经网络的层数设置为34层,其中,分别为resnet34-i和resnet34-f。

该双流卷积神经网络训练模型采用残差网络resnet为基本骨架的三维卷积神经网络,以解决网络加深时梯度消失的问题。

该残差网络resnet进一步包括一个恒等映射(identitymapping),把当前输出直接传输给下一层网络,跳过本层运算。

基于上述方法,使用双流卷积神经网络算法对历史监控视频进行学习,获得参数,并优化参数,用于判断在新的视频数据中是否出现存在某一个或多个特定行为。

残差网络resnet进一步包括一个恒等映射(identitymapping),把当前输出直接传输给下一层网络,跳过了本层运算,既不产生额外的参数,也不增加计算的复杂度,直接连接命名为“skipconnection”,同时,在后向传播过程中,也是将下一层网络的梯度直接传递给上一层网络,由此解决了深层网络的梯度消失问题,可以搭建更深的卷积网络,最深已经突破1000层,如图1所示的网络已达到1000层。

图3为本发明提供的一种设备的一种实施方式,即计算机系统,该计算机系统包括中央处理单元(cpu)1。其可以根据存储在只读存储器(rom)2中的程序或者从存储部分加载到随机访问存储器(ram)3中的程序而执行各种适当的动作和处理。在ram3中,还存储有系统操作所需的各种程序和数据。cpu1、rom2以及ram3通过总线4彼此相连。输入/输出(i/o)接口5也连接至总线4。

以下部件连接至i/o接口5:包括键盘、鼠标等的输入部分6;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分;包括硬盘等的存储部分8;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分9。通信部分9经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至i/o接口5。可拆卸介质11,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器10上,以便于从其上读出的计算机程序根据需要被安装入存储部分8。

特别地,根据本申请的实施方式,上述任一实施方式描述的过程可以被实现为计算机软件程序。例如,本申请的实施方式包括一种计算机程序产品,其包括有形地承载在计算机可读介质上的计算机程序,该计算机程序包含用于基于双流卷积神经网络模型的行为识别方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)1执行时,执行本申请的系统中限定的上述功能。

需要说明的是,本申请所示的计算机可读存储介质可以是计算机可读信号介质或计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程示意图和框图,图示了按照本发明一些实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及结构示意图的组合,可以通过执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以通过专用硬件与计算机指令的组合来实现。

描述于本申请实施方式中所涉及到的单元或模块可以通过软件的方式实现。所描述的单元或模块也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一生成模块、获取模块、查找模块、第二生成模块及合并模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块还可以被描述为“用于在该基础表中获取多个待探测实例的获取模块”。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施方式中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施方式中所述的特定行为的识别方法。

例如,该电子设备可以实现图1中所示的步骤,即数据准备阶段中的构建训练集:数据标注,从包含多种特定行为的原始监控视频中提取多个包含特定行为的视频片段,并做标注;以及将所述经标注的视频片段转换为连续的图像帧,所述图像帧为rgb图像;并且从所述连续的两帧rgb图像计算光流图像;数据预处理:其包括数据归一化处理和增强处理;模型训练阶段,其包括:构建模型:搭建双流卷积神经网络模型;以及训练模型:拟合训练数据,利用所述双流卷积神经网络分别对rgb图像和光流图像进行学习以获得相应的空间特征和时间特征,然后将所述空间特征和时间特征融合并输入到最后的分类层;以用于识别阶段。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。

以上描述仅为本申请的较佳实施方式以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离本申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1