目标体的动作行为识别方法及装置与流程

文档序号:15616363发布日期:2018-10-09 21:29阅读:225来源:国知局

本发明涉及计算机视觉技术领域,具体涉及一种目标体的动作行为识别方法及装置。



背景技术:

人体动作行为识别技术广泛应用于人机智能交互、虚拟实现和视频监控等领域,其能够对人在不同场景下面的动作行为进行区分和判断。传统的动作行为识别方法,如基于双流卷积神经网络的动作行为识别方法,主要是通过提取并分析视频特征来识别动作行为的。

基于双流卷积神经网络的动作行为识别方法主要包括如下步骤:首先,将视频拆分成空域和时域两种模态,并对这两种模态的数据分别进行处理。其次,对处理后的两种模态数据进行特征融合。最后,根据特征融合结果判断当前视频所对应的动作行为类别标签。这种动作行为识别方法虽然能够准确识别出视频所对应的动作行为类别,但是其往往利用视频的单帧信息对双流卷积神经网络进行网络训练(即只能学习视频的局部信息),因此在提取视频特征时也只能提取视频的局部特征。当对具有相似背景(如打球和灌篮)的视频进行动作识别时,将不能准确识别出动作行为类别。



技术实现要素:

为了解决现有技术中的上述问题,即为了解决如何准确识别具有相似背景的视频中动作行为的技术问题。为此目的,本发明的第一方面,提供了一种目标体的动作行为识别方法,所述动作行为识别方法包括:

基于预先构建的行为识别模型,获取所述目标体的时序视频特征,并根据所获取的时序视频特征,预测每个预设的所述目标体的动作行为类别对应的类属概率;

根据预测结果,确定所述目标体的动作行为类别;

其中,所述行为识别模型为基于预设的目标体视频样本,并利用机器学习算法所构建的双流卷积神经网络模型。

进一步地,本发明提供的一个优选技术方案为:

“获取所述目标体的时序视频特征”的步骤包括:

获取所述目标体视频的空域视频信息和时域视频信息;

基于预设的特征获取方法,并根据所述空域视频信息,获取所述目标体视频在空域模态下的时序视频特征;

基于所述特征获取方法,并根据所述时域视频信息,获取所述目标体视频在时域模态下的时序视频特征。

进一步地,本发明提供的一个优选技术方案为:

所述特征获取方法包括:

对特定视频信息进行抽帧处理,得到多个视频段信息;所述特定视频信息是空域视频信息或时域视频信息;

对多个所述视频段信息分别进行编码,得到每个所述视频段信息对应的特征编码,并将所有视频段信息的特征编码合并,得到第一全局视频特征;

对所述特定视频信息进行编码,得到该特定视频信息对应的第二全局视频特征;

将所述第一全局视频特征和第二全局视频特征合并,得到所述特定视频信息对应的时序视频特征。

进一步地,本发明提供的一个优选技术方案为:

“根据所获取的时序视频特征,预测所述目标体的每个预设的动作行为类别对应的类属概率”的步骤包括:

根据所述目标体视频在空域模态下的时序视频特征,预测每个所述动作类别对应的第一概率值;

根据所述目标体视频在时域模态下的时序视频特征,预测每个所述动作类别对应的第二概率值;

对所述第一概率值和第二概率值进行融合,得到每个所述动作类别对应的类属概率。

进一步地,本发明提供的一个优选技术方案为:

“对所述第一概率值和第二概率值进行融合,得到每个所述动作类别对应的类属概率”的步骤包括:

对所述第一概率值和第二概率值进行加权求和,得到所述类属概率。

进一步地,本发明提供的一个优选技术方案为:

所述行为识别模型包括空域神经网络和时域神经网络;在“基于预先构建的行为识别模型,获取所述目标体的时序视频特征,并根据所获取的时序视频特征,预测所述目标体的每个预设的动作行为类别对应的类属概率”的步骤之前,所述方法还包括:

分别对所述空域神经网络与时域神经网络进行参数权重初始化;

获取所述目标体视频样本的时序视频特征;

根据所获取的时序视频特征,并利用机器学习算法对所述行为识别模型进行模型训练。

进一步地,本发明提供的一个优选技术方案为:

“分别对所述空域神经网络与时域神经网络进行参数权重初始化”的步骤包括:

获取预先完成网络训练的第一神经网络的参数权重,并根据所获取的参数权重对所述空域神经网络进行参数权重初始化;

获取预先完成网络训练的第二神经网络的参数权重,并根据所获取的参数权重对所述时域神经网络进行参数权重初始化;

其中,所述第一神经网络是基于imagenet数据集,并利用所述机器学习算法进行网络训练得到的神经网络;所述第二神经网络是利用所述机器学习算法完成网络训练的tsn网络中的光流模态神经网络。

进一步地,本发明提供的一个优选技术方案为:

“根据所获取的时序视频特征,并利用机器学习算法对所述行为识别模型进行模型训练”的步骤包括根据所述时序视频特征与下式所示的目标函数e,并利用机器学习算法对所述行为识别模型进行模型训练:

其中,zj为第j个动作行为类别对应的真实类属标签,zj的取值为0到n-1,pj为第j个动作行为类别对应的类属概率,fj-1(x)为第j个动作行为类别对应的节点值。

本发明的第二方面,还提供了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的目标体的动作行为识别方法。

本发明的第三方面,还提供了一种控制装置,包括:

处理器,适于执行各条程序;

存储设备,适于存储多条程序;

所述程序适于由处理器加载并执行以实现上述的目标体的动作行为识别方法。

与最接近的现有技术相比,上述技术方案至少具有如下有益效果:

在本发明的技术方案中,通过行为识别模型,获取目标体的时序视频特征,并根据该时序视频特征,预测目标体的动作行为类别,这种方法能够很好的捕捉一个视频整体的特征,对于背景相似的动作行为类别和易混淆的动作行为类别都能够很好的识别;本发明中的时序视频特征获取方法可以提取时序视频特征,该特征能够体现不同尺度的视频信息,基于此可以较好的区分哪些背景相似的动作行为类别。

附图说明

图1为本发明实施例中一种目标体的动作行为识别方法的主要步骤示意图;

图2为本发明实施例中一种行为识别模型的主要结构示意图;

图3为本发明实施例中一种时序视频特征的编码方法的主要步骤示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

目前比较主流的基于深度神经网络进行动作行为识别的方法,是先将视频拆分成两个模态,分别为空域和时域两种模态,之后分别进行处理,在网络最后的输出端进行概率层面的特征融合来最后判断一个视频所对应的类别标签,例如基于two-stream、tsn等双流网络的方法。但绝大部分基于双流网络方法都是建立在帧级别上的特征,例如two-stream训练的时候是单帧的输入同时单帧的测试,即使tsn在训练的时候是一段视频的输入,网络在进行训练的时候也有进行特征融合,但是融合也仅仅是对单帧的特征进行融合,完全没有考虑视频所包含的时序的信息甚至于整体的信息。这种网络在表现上仅仅是做了一个场景分类,所以对于游泳和踢球这类动作可以很好的区分。但是如果遇到背景相似的类别比如投篮和灌篮,绝大部分双流网络方法都是无法区分的。

为了解决上述问题,本发明公开了一种目标体的动作行为识别方法,能够广泛的用于自然场景下面的行为分类问题。本方法利用深度神经网络来对不同行为类别的视频样本进行区分判断,在大规模的视频数据集中仍然可以保证较高的识别准确率。

下面结合附图,对本发明提供的目标体的动作行为识别方法进行说明。

参阅附图1,图1示例性示出了本实施例中一种目标体的动作行为识别方法的主要步骤,如图1所示,本实施例中目标体的动作行为识别方法可以包括下述内容:

步骤s101:基于预先构建的行为识别模型,获取目标体的时序视频特征。

本实施中预先构建的行为识别模型为基于预设的目标体视频样本,并利用机器学习算法所构建的双流卷积神经网络模型。且目标体的视频被分解成空域和时域两个模态。

参阅附图2,附图2示例性示出了本实施中行为识别模型的主要结构,如图2所示,本实施中的行为识别模型是一个双流卷积神经网络,其基础网络选用的是bn-inception。行为识别模型包括空域神经网络和时域神经网络,其中,空域神经网络是先提取视频的空域视频信息,并通过一个深度特征编码层对空域视频信息进行时序特征编码,得到目标体视频在空域模态下的时序视频特征。同理,时域神经网络是先提取视频的时域视频信息,并通过一个深度特征编码层对时域视频信息进行时序特征编码,得到目标体视频在时域模态下的时序视频特征。最后以加权融合的方式将空域模态下的时序视频特征与时域模态下的时序视频特征进行融合,得到每个动作类别的类属概率,通过比较所有动作类别对应的类属概率的相对大小,选出概率值最高的动作类别,作为目标体的动作行为识别结果。需要说明的是,空域视频信息为视频空域模态的特征,是每一帧图片即rgb信息;时域视频信息为视频时域模态的特征,是视频的光流特征即光流图片,时域模态的特征体现了一个视频的运动信息特征。本实施例中是采用dense-flow的方法提取空域视频信息和时域视频信息的。

具体地,本实施例中行为识别模型,获取目标体的时序视频特征的步骤包括:

获取目标体视频的空域视频信息和时域视频信息;其中,目标体视频包括空域和时域两种模态,本实施例是基于空域神经网络提取空域模态下的空域视频信息,基于时域神经网络提取时域模态下的时域视频信息。

基于预设的特征获取方法,并根据所提取的空域视频信息,获取目标体视频在空域模态下的时序视频特征。

基于所述特征获取方法,并根据所提取的时域视频信息,获取目标体视频在时域模态下的时序视频特征。

具体地,本实施中特征获取方法是通过上述行为识别模型的深度特征编码层来实现的,特征获取方法为:

对目标体的视频信息进行抽帧处理,得到多个视频段信息;对多个视频段信息分别进行编码,得到每个视频段信息对应的特征编码,并将所有视频段信息的特征编码合并,得到第一全局视频特征;对整个目标体的视频信息进行编码,得到该目标体的视频信息对应的第二全局视频特征;将第一全局视频特征和第二全局视频特征合并,得到目标体的视频信息对应的时序视频特征。需要说明的是,这里的目标体的视频信息可以是空域视频信息,也可以是时域视频信息。

参阅附图3,图3示例性示出了本实施例中时序视频特征的编码方法的主要步骤,如图3所示,在bn-inception的最后一层卷积特征图上进行特征编码,该卷积特征图即为空域视频信息或时域视频信息。因为本发明实施例是对视频进行了抽帧处理,为了体现视频不同尺度的信息,构建了基于局部特征的编码层和基于全局特征的编码层。其中,局部特征的编码层的编码方法如公式(1)-(4)所示:

s(i->j/4)=max{xi,x(i+1),...,x(j/4)}(1)

s(j/4+1->j/2)=max{x(j/4+1),x(j/4+2),...,x(j/2)}(2)

s(j/2+1->3*j/4)=max{x(j/2+1),x(j/2+2),...,x(3*j/4)}(3)

s(3*j/4+1->j)=max{x(3*j/4+1),x(3*j/4+2),...,x(j)}(4)

其中xi表示视频帧的特征,s(i->j/4),s(j/4+1->j/2),s(j/2+1->3*j/4),s(3*j/4->j)表示每段视频信息经过编码后的特征,这里主要采用最大池化的方法对每段视频信息进行编码,在编码完成之后,将每段视频信息编码连接到一起成为一个整体,即第一全局视频特征。

全局特征的编码层是对整个视频信息的编码,全局特征的编码层的编码方法如公式(5)所示:

s(i->j)=max{xi,xi+1,...,xj}(5)

全局特征编码层是对所有的视频帧进行最大池化得到一个全局的特征表示,即第二全局视频特征。至此,我们分别完成了第一全局视频特征和第二全局视频特征的特征表示,最后将第一全局视频特征和第二全局视频特征连接到一起得到目标体的时序视频特征,该特征表示可以体现视频的时序信息。因此可以区分那些背景相似的类别。

具体地,本实施中对行为识别模型的网络训练方法包括:

步骤sa1:分别对空域神经网络与时域神经网络进行参数权重初始化。本实施中对空域神经网络与时域神经网络进行参数权重初始化的方法为:获取预先完成网络训练的第一神经网络的参数权重,并根据所获取的参数权重对空域神经网络进行参数权重初始化;获取预先完成网络训练的第二神经网络的参数权重,并根据所获取的参数权重对时域神经网络进行参数权重初始化。其中,第一神经网络是基于imagenet数据集,并利用机器学习算法进行网络训练得到的神经网络;第二神经网络是利用机器学习算法完成网络训练的tsn(temporalsegmentnetwork)网络中的光流模态神经网络。本实施例中行为识别模型通过加载训练好的神经网络的参数权重,在训练过程中可以使行为识别模型快速收敛,以节省模型的训练时间。需说要说明的是,在行为识别模型训练过程中,也可以省去步骤sa1,基于训练集直接对行为识别模型进行网络训练。

步骤sa2:获取目标体视频样本的时序视频特征;具体地,基于上述的时序视频特征的编码方法分别获取目标体视频样本的空域模态下的时序视频特征和时域模态下的时序视频特征。

步骤sa3:根据步骤sa2所获取的时序视频特征,并利用机器学习算法对所述行为识别模型进行模型训练;具体地,根据获取的时序视频特征与公式(6)所示的目标函数e,并利用反向传播法有监督地最小化目标函数e,从而完成对行为识别模型的网络训练:

其中,zj为第j个动作行为类别对应的真实类属标签,zj的取值为0到n-1,pj为第j个动作行为类别对应的类属概率,fj-1(x)为第j个动作行为类别对应的节点值。

步骤s102:根据所获取的时序视频特征,预测每个预设的目标体的动作行为类别对应的类属概率。

具体地,本实施是根据目标体视频在空域模态下的时序视频特征,预测每个所述动作类别对应的第一概率值;根据目标体视频在时域模态下的时序视频特征,预测每个动作类别对应的第二概率值;对第一概率值和第二概率值进行融合,得到每个动作类别对应的类属概率。

本实施例中,空域模态下的时序视频特征或时域模态下的时序视频特征在softmax之后会输出一个概率值,然后采用一种概率层面特征加权融合的方式,得到每个动作类别对应的类属概率。其中,特征的融合分为earlyfusion和latefusion,earlyfusion指的是在featuremap即特征图进行融合,因此earlyfusion实际参与到了网络模型的训练和测试过程。而latefusion指的是在进行测试时,因为不同模态特征在softmax之后会输出一个概率值,只需对概率值再进行加权来判断当前视频样本所属的类别,这种融合方式称为基于概率层面的特征加权融合。需要说明的是这种加权融合也可以理解为加权求和,即将得到的第一概率值和第二概率值分别进行加权,然后再求和,最终得到每个动作行为的类属概率。

步骤s103:根据预测结果,确定目标体的动作行为类别。

具体地,通过对比每个动作行为类别对应的类属概率的相对大小,选出概率值最高的类属标签,作为目标体的动作行为类别。

下面以某动作识别数据集为例说明本发明一种实施例的目标体的动作行为识别方法。该数据集包含13000个视频片段,总共属于101个类别,包括行走、跑步、打篮球等。每个视频仅仅属于某个固定类别。得到的模型可以自动对这些视频进行动作类别标注。

具体地,本实施例的目标体的动作行为识别方法包括如下步骤:

步骤sb1,将数据集中的9000个视频样本作为训练集,剩下的4000个作为测试集。

步骤sb2,使用一个bn-inception网络作为整个框架的基本网络。具体地,建立一个能够对视频样本进行行为类别判断的时序视频特征编码神经网络(行为识别模型),网络的任务定义为一个多分类的问题,设置该网络的层数和每层的节点数。该网络的输出层节点数量与需要识别的行为类别的数量相等,每一个节点对应一种行为的类别,给定一个视频样本v,输出层输出类别标签l相关的节点值为:f1(v),f2(v)...fn(v),其中,f(v)是由时序视频特征编码神经网络定义的映射函数。单层神经网络对应的映射函数如公式(8)所示:

其中,g(v)=1/(1+e-x)表示一个激活函数,其输入x。而一个复杂的网络是由多层简单的网络叠加而成,进而可以得到时序视频特征编码神经网络输出层的表达式如(9)所示:

其中,为视频时序特征编码神经网络的权重。

步骤sb3,基于在imagenet数据集上预训练好的神经网络的参数权重作为时序视频特征编码神经网络的初始化参数权重,并采用自底向上的方式逐层加载每层网络的参数权重。

步骤sb4,通过最小化时序视频特征编码神经网络的目标函数,利用传统的神经网络反向传播算法来调整时序视频特征编码神经网络的权重。在每次准确率不再上升的时候调整一下学习速率,直到最后准确率不再上升为止。行为识别模型的目标函数e为数据真实标签与模型预测标签之间的交叉熵,目标函数e如公式(6)所示。

步骤sb5,把测试视频样本输入训练好的模型,计算所属类别的节点值,比较节点值的相对大小来确定测试视频样本所属的类别。需要说明的是节点值为模型输出层各节点的输出值。

具体地,通过步骤sb4得到训练好的模型,向模型输入测试视频v,模型会分别计算空域模态和时域模态对应每个类别标签j的节点的值,其中,空域模态下的神经网络输出层节点的值为时域模态下神经网络输出层节点的值为将两个模态的节点的值按照固定的比例进行加权融合,得到最终的类别标签节点的值fj(v),通过比较所有节点值的相对大小即我们可以通过对每个样本所属不同类别的概率的相对大小来判定测试视频v所属的类别标签j。

进一步地,基于上述目标体的动作识别方法实施例,本发明还提供了一种存储装置,该存储装置中可以存储有多条程序,程序适于由处理器加载并执行如上述的目标体的动作识别方法。

再进一步地,基于上述目标体的动作识别方法实施例,本发明还提供了一种处理装置,该处理装置可以包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;程序适于由处理器加载并执行如上述的目标体的动作识别方法。

所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,本发明实施例的装置的具体工作过程以及相关说明,可以参考前述实施例方法中的对应过程,且与上述方法具有相同的有益效果,在此不再赘述。

本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法所固有的要素。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1