一种基于深特征提取异步融合网络的动作识别方法与流程

文档序号:14941182发布日期:2018-07-13 20:51阅读:109来源:国知局

本发明涉及计算机视觉分析领域,尤其是涉及了一种基于深特征提取异步融合网络的动作识别方法。



背景技术:

动作识别,旨在识别输入动作视频的动作类标签。由于它在许多应用中的重要性,动作识别已经引起了很多研究人员的关注,并成为计算机视觉分析领域的热点方向。动作识别技术可以满足智能视频监控、基于内容的视频分析等任务对自动分析以及智能化的需求,推动社会发展进步。动作识别技术可以应用在智能监护上,提高监护质量,节约大量人力资源;还可以运用在智能家居中,实时监测人体动作,对危险动作做出预计,避免意外造成的伤害;动作识别技术还可以协助监控社会治安,如对打架斗殴动作、偷窃动作等进行检测和识别,阻断社会恶性事件的进一步发展,对维护社会安全和降低犯罪率有着巨大的实用价值。然而由于视频场景的变化巨大以及与视频主题无关的嘈杂内容的干扰,卷积网络自动习得特征技术在动作识别上取得的进步相对较少;且大多数人关注的是如何学习特征以直接描述动作类的行为、如何引入更多的信息流或加强流之间的相关性,因此,现有的技术在区分动作类的模糊性方面有着局限性。

本发明提出了一种基于深特征提取异步融合网络的动作识别方法,先将输入视频外观流的每个空间帧和运动流的每个短期光流堆栈输入到粗粒度到细粒度网络,集成多个动作类粒度的深度特征,并创建了一个更精确的特征表示,然后将提取出的特征输入集成不同时间点信息流特征的异步融合网络,获得一个动作类预测结果,最后深特征提取异步融合网络组合不同的动作预测结果,确定输入视频的最终动作类标签。本发明能从多个动作类粒度中提取并集成深层特征,获得更精确的动作表示,同时异步融合能更好地利用多个信息流中的互补信息,提高动作识别的准确度。



技术实现要素:

针对区分动作类模糊性方面存在局限性的问题,本发明的目的在于提供一种基于深特征提取异步融合网络的动作识别方法,先将输入视频外观流的每个空间帧和运动流的每个短期光流堆栈输入到粗粒度到细粒度网络,集成多个动作类粒度的深度特征,并创建了一个更精确的特征表示,然后将提取出的特征输入集成不同时间点信息流特征的异步融合网络,获得一个动作类预测结果,最后深特征提取异步融合网络组合不同的动作预测结果,确定输入视频的最终动作类标签。

为解决上述问题,本发明提供一种基于深特征提取异步融合网络的动作识别方法,其主要内容包括:

(一)粗粒度到细粒度网络;

(二)异步融合网络;

(三)深特征提取异步融合网络;

其中,所述的粗粒度到细粒度网络,主要由特征提取模块、自适应类群形成模块和粗粒度到细粒度集成模块这三个模块组成;特征提取模块应用于一个卷积网络上,用于从不同的动作类粒度中提取深度特征;自适应类群形成模块用于保证特征提取模块中适当的特征提取;粗粒度到细粒度集成模块用于逐步集成从粗粒度到细粒度的特征,并为输入帧/光学流堆栈输出一个精确的特征。

进一步地,所述的特征提取模块,从vgg-16卷积网络的第3、4和5级的最后一个卷积层分别获取侧输出映射,分别切割这三个侧输出映射,并连接到三个特定标度的侧映射组,其中每个侧映射组对应一个动作类粒度,同时为了确保不同级的输出映射具有相同的大小,在映射连接之前,将超采样层应用于侧输出映射,最后,特定标度的侧映射组分别被输入到一个完全连接(fc)层,以获得三个动作类粒度的特征。

进一步地,所述的自适应类群形成模块,首先利用一个较小的卷积网络事先预测输入的动作类标签/光学流栈帧的动作类标签,然后分别使用第五、第三和第一个动作类预测结果形成三个动作类粒度的动作类组,然后通过交叉熵损失函数指导特征提取过程,这迫使特征提取模块尽可能生成能在多个粒度描述构造好的动作类组的共同特征:

其中,w是为多粒度特征提取模块设立的参数,n是动作类的总数,gk是构建的第k个动作类粒度组,αk是衡量第k个动作类粒度相对重要性的权重,是第k个动作类粒度特征预测到第n个动作类的概率,同时为了得到动作预测结果在训练阶段的多粒度特征提取模块的特征输出层中额外添加了两个完全连接层。

进一步地,所述的较小的卷积网络,是在同一数据集上预先训练,且为了创建稳定的动作类群,这个卷积网络在训练过程中是固定的;在形成动作类组时,如果一个输入帧/光流堆栈的标签不在这个卷积网络预测结果的前几级动作类组中,标签会被强制性地添加进去,避免网络给输入帧/光流堆栈生成无关的特征。

进一步地,所述的粗粒度到细粒度集成模块,使用一个三单元的长短时记忆模型(lstm),其中每个单元都从一个动作类粒度中获取特征xt,并创建隐藏的状态输出ht,以影响下一个单元,最后一个单元的隐藏状态输出将是输入帧/光学流堆栈的最终集成特征,整个过程可描述为:

其中,xt和ht(t=1,2,3)是第t个lstm单元的输入特征和隐藏状态输出,φt={mt,bt}是第t个单元的参数,是对第t个单元的动作,以创建隐藏状态输出;同样在训练阶段,可以利用以下的损失函数训练lstm以获取期望的结果:

其中,φ1,φ2,φ3是lstm的三个单元的参数,β是衡量lstm的相对重要性的权重,ng是一个输入示例的参考动作类标签,n是动作类的总数,是第t个单元预测到参考动作类的概率;而为了得到动作预测概率训练阶段在每个lstm单元的输出中额外增加一个完全连接层。

其中,所述的异步融合网络,先使用沿着信息流方向的特征融合模块融合来自不同流的两个输入特征;然后使用异步集成模块集成不同时间点的输出特征,并为一个周期的输入创建动作类预测结果,整个异步融合网络可以用以下公式训练:

其中,ng是一个输入示例的参考动作类标签,n是动作类的总数,t=5是lstm的单元和单层卷积网络的总数,φt和kt分别是第t个lstm单元和单层卷积网络的参数,ψa={φ1,..,φt,k1,..,kt}和γ分别是整个异步融合网络参数和权重,是第t个单元预测到参考动作类的概率。

进一步地,所述的沿信息流方向的特征融合模块,用5个1层的卷积来融合沿着信息流方向的特征,将一个流中的输入特征与来自另一个流的5个输入特征融合在一起;融合的5个输入特征也有δ(δ=5)的时间间隔,这使模块能够捕获信息流之间较长期的异步模式。

进一步地,所述的异步集成模块,利用了一个五单元的lstm按顺序集成不同时间点的输出特征,并为一个周期的输入特征创建一个动作预测结果。

其中,所述的深特征提取异步融合网络(三),将粗粒度到细粒度网络和异步融合网络集成为一个框架并通过以下公式表示:

其中,分别是第一和第二个信息流的参数分别是粗粒度到细粒度网络和异步融合网络的损失函数,t=5是第一个流中的输入总数;由于第一个流中的五个粗粒度到细粒度网络是一样的权重,所以使用相同的参数集来计算每个输入的损失,t是1到5的整数;需要注意的是实际上需要构建两个独立的模型,其中一个模型将一个外观流输入与多个动作流输入融合在一起,另一个模型将一个动作流输入与多个外观流输入融合在一起,两个模型和不同时间段的动作预测结果被组合在一起来决定输入视频的最终标签,利用主流的双流方法来组合动作预测结果,将不同模型不同周期的动作预测结果结合在一起,并选择具有最大总体预测分数的动作类作为最终结果。

附图说明

图1是本发明一种基于深特征提取异步融合网络的动作识别方法的系统框架图。

图2是本发明一种基于深特征提取异步融合网络的动作识别方法的不同动作类粒度和异步模式。

图3是本发明一种基于深特征提取异步融合网络的动作识别方法的粗粒度到细粒度网络。

图4是本发明一种基于深特征提取异步融合网络的动作识别方法的异步融合网络的结构及其与粗粒度到细粒度网络的关系。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于深特征提取异步融合网络的动作识别方法的系统框架图。主要包括粗粒度到细粒度网络、异步融合网络、深特征提取异步融合网络。先将输入视频外观流的每个空间帧和运动流的每个短期光流堆栈输入到粗粒度到细粒度网络,集成多个动作类粒度的深度特征,并创建一个更精确的特征表示,然后将提取出的特征输入集成不同时间点信息流特征的异步融合网络,获得一个动作类预测结果,最后,深特征提取异步融合网络组合不同的动作预测结果,确定输入视频的最终动作类标签。

图2是本发明一种基于深特征提取异步融合网络的动作识别方法的不同动作类粒度和异步模式。主要包括不同动作类粒度的说明、信息流之间异步模式的说明。图(a)从同一个输入视频提取了粗粒度、中等粒度、细粒度三种粒度的共享特征,经过集成模块后形成更具识别力的深层特征。图(b)是同一个视频片段的外观信息流和运动信息流,外观流最具识别力的是最后一个时刻,而运动流则是第三个时刻,通过异步融合网络可以充分利用两股信息流中分别最具识别力的信息,提高动作识别的准确度。

图3是本发明一种基于深特征提取异步融合网络的动作识别方法的粗粒度到细粒度网络。主要包括特征提取模块、自适应类群形成模块和粗粒度到细粒度集成模块这三个模块;特征提取模块应用于一个卷积网络上,用于从不同的动作类粒度中提取深度特征;自适应类群形成模块用于保证特征提取模块中适当的特征提取;粗粒度到细粒度集成模块用于逐步集成从粗粒度到细粒度的特征,并为输入帧/光学流堆栈输出一个精确的特征。

特征提取模块从vgg-16卷积网络的第3、4和5级的最后一个卷积层分别获取侧输出映射,分别切割这三个侧输出映射,并连接到三个特定标度的侧映射组,其中每个侧映射组对应一个动作类粒度,同时为了确保不同级的输出映射具有相同的大小,在映射连接之前,将超采样层应用于侧输出映射,最后,特定标度的侧映射组分别被输入到一个完全连接(fc)层,以获得三个动作类粒度的特征。

自适应类群形成模块首先利用一个较小的卷积网络事先预测输入的动作类标签/光学流栈帧的动作类标签,然后分别使用第五、第三和第一个动作类预测结果形成三个动作类粒度的动作类组,然后通过交叉熵损失函数指导特征提取过程,这迫使特征提取模块尽可能生成能在多个粒度描述构造好的动作类组的共同特征:

其中,w是为多粒度特征提取模块设立的参数,n是动作类的总数,gk是构建的第k个动作类粒度组,αk是衡量第k个动作类粒度相对重要性的权重,是第k个动作类粒度特征预测到第n个动作类的概率,同时为了得到动作预测结果在训练阶段的多粒度特征提取模块的特征输出层中额外添加了两个完全连接层。

其中较小的卷积网络是在同一数据集上预先训练的,且为了创建稳定的动作类群,这个卷积网络在训练过程中是固定的;在形成动作类组时,如果一个输入帧/光流堆栈的标签不在这个卷积网络预测结果的前几级动作类组中,标签会被强制性地添加进去,避免网络给输入帧/光流堆栈生成无关的特征。

粗粒度到细粒度集成模块使用一个三单元的长短时记忆模型(lstm),其中每个单元都从一个动作类粒度中获取特征xt,并创建隐藏的状态输出ht,以影响下一个单元,最后一个单元的隐藏状态输出将是输入帧/光学流堆栈的最终集成特征,整个过程可描述为:

其中,xt和ht(t=1,2,3)是第t个lstm单元的输入特征和隐藏状态输出,φt={mt,bt}是第t个单元的参数,是对第t个单元的动作,以创建隐藏状态输出;同样在训练阶段,可以利用以下的损失函数训练lstm以获取期望的结果:

其中,φ1,φ2,φ3是lstm的三个单元的参数,β是衡量lstm的相对重要性的权重,ng是一个输入示例的参考动作类标签,n是动作类的总数,是第t个单元预测到参考动作类的概率;而为了得到动作预测概率训练阶段在每个lstm单元的输出中额外增加一个完全连接层。

图4是本发明一种基于深特征提取异步融合网络的动作识别方法的异步融合网络的结构及其与粗粒度到细粒度网络的关系。

主要包括异步融合网络和深特征提取异步融合网络。

异步融合网络先使用沿着信息流方向的特征融合模块融合来自不同流的两个输入特征,然后使用异步集成模块集成不同时间点的输出特征,并为一个周期的输入创建动作类预测结果,整个异步融合网络可以用以下公式训练:

其中,ng是一个输入示例的参考动作类标签,n是动作类的总数,t=5是lstm的单元和单层卷积网络的总数,φt和kt分别是第t个lstm单元和单层卷积网络的参数,ψa={φ1,..,φt,k1,..,kt}和γ分别是整个异步融合网络参数和权重,是第t个单元预测到参考动作类的概率。

沿信息流方向的特征融合模块用5个1层的卷积来融合沿着信息流方向的特征,将一个流中的输入特征与来自另一个流的5个输入特征融合在一起,因此,融合的5个输入特征也有δ(δ=5)的时间间隔,这使模块能够捕获信息流之间较长期的异步模式。

异步集成模块利用了一个五单元的lstm按顺序集成不同时间点的输出特征,并为一个周期的输入特征创建一个动作预测结果。

深特征提取异步融合网络将粗粒度到细粒度网络和异步融合网络集成为一个框架并通过以下公式表示:

其中,分别是第一和第二个信息流的参数分别是粗粒度到细粒度网络和异步融合网络的损失函数,t=5是第一个流中的输入总数;由于第一个流中的五个粗粒度到细粒度网络是一样的权重,所以使用相同的参数集来计算每个输入的损失,t是1到5的整数;需要注意的是实际上需要构建两个独立的模型,其中一个模型将一个外观流输入与多个动作流输入融合在一起,另一个模型将一个动作流输入与多个外观流输入融合在一起,两个模型和不同时间段的动作预测结果被组合在一起来决定输入视频的最终标签,利用主流的双流方法来组合动作预测结果,将不同模型不同周期的动作预测结果结合在一起,并选择具有最大总体预测分数的动作类作为最终结果。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1