一种基于时空上下文分析的在线视频行为检测系统及其方法与流程

文档序号:17007073发布日期:2019-03-02 02:05阅读:154来源:国知局
一种基于时空上下文分析的在线视频行为检测系统及其方法与流程
本发明涉及视频行为分析
技术领域
,具体涉及到一种基于时空上下文分析的在线视频行为检测系统及其方法,该方法采用深度学习框架并结合时空上下文分析技术实现了输入视频中发生行为的在线检测,且该检测是在时间域和空间域联合进行的。
背景技术
:视频行为检测不仅要对给定视频中出现的行为进行正确地分类,还要对行为进行时间域和空间域上的定位,是视频人类行为理解研究中的关键一步。简单地说,目前存在的方法通常采用一个二步处理的程序来解决这个问题:用经过重新训练的动作检测器产生单帧的动作检测结果,包括经过回归的物体框和相应的动作分类得分;通过在整个视频持续时间内连接或者追踪单帧的动作检测结果形成最终的时空动作链,通常这些连接或者追踪是在一些约束条件下进行的,比如:要求相邻帧的动作检测框重叠区域要尽可能的大。这种处理的局限性主要体现在两个方面:1)它仅仅利用当前的图像或者运动信息进行单帧的行为检测,而忽略了动作行为在时间上的连续性;2)连接算法通常用一种离线和批处理的方式进行,也即:动作链从视频的开始一直被延续到视频结尾,再用另外的时间域剪枝算法来消除虚假的检测结果。在本发明中,通过以下途径解决上述两个问题:1)联合当前帧和时空下上文信息进行动作检测;2)采用在线检测的方式,在一次处理中完成行为链生成和行为分类预测。2017年,zhu等人(zhuh.,vialr.,andlus.2017.“aspatio-temporalconvolutionalregressionnetworkforvideoactionproposal”,ieeeinternationalconferenceoncomputervision,pp.5814-5822)提出了一种回归网络模型用于产生动作行为提议,该模型以convlstm(convolutionallongshort-termmemory)为基础进行构建,融合了时空动态信息和当前帧信息进行动作检测。这种方法的缺陷在于在一小段视频内,通常只有位置靠后的视频帧能利用到时空动态信息辅助当前的检测。技术实现要素:本发明的目的是提供一种基于时空上下文分析的在线视频行为检测系统,使得对当前帧的动作行为进行检测时可以利用视频序列上下文信息,同时随着视频帧的不断输入可以增量式地产生行为链,并对视频行为进行动态地分类。本发明的另一目的是提供一种基于时空上下文分析的在线视频行为检测方法。本发明提出的方法和与现有方法相比有两点主要的改进:1)本发明的方法基于convgru(convolutionalgatedrecurrentunit),相比于convlstm,它是一种轻量级的循环记忆模型,具有少得多的参数,在小样本数量集上减少了过拟合的风险;2)他们的模型是单一的前向模型,因此只有位于输入视频序列后端的视频帧做行为检测时才能利用融合的时空动态信息,而本发明提出的方法是一种编码-解码模型,视频序列的时空上下文信息在解码时可以在每一帧都被使用到。本发明的原理是:1)利用深度卷积神经网络提取单帧视频特征,将连续若干帧视频特征输入到convgru构建编码-解码的视频序列描述模型,在前向传递中行为时空上下文信息被编码,在后向传递中编码的时空动态信息被解码到每一帧,结合当前帧信息完成动作检测;2)维持一个动态的行为类别候选池,随着输入视频序列的不断增长,逐渐缩小可能的行为类别范围,同时对当前生成的行为链进行动态地修剪,包括:增长、终止和时间域修剪。本发明提供的技术方案如下:本发明提出的时间-空间域行为检测方法包括两个部分:视频片段内的行为检测和视频片段间的链接。在视频片段内算法利用编码-解码模型,结合当前帧和时空动态信息,产生候选动作区域;视频片段间链接把候选动作区域链接成行为链,该链持续关注指定的动作对象,从它出现直到结束,同时以在线的方式预测出行为的类别。一种基于时空上下文分析的在线视频行为检测系统,包括视频行为时空上下文信息融合网络和运动框在线链接和分类算法;其中:所述视频行为时空上下文信息融合网络,用于将当前帧信息和一个视频片段内行为时空上下文信息进行融合;所述运动框在线链接和分类算法,用于以在线的方式把对应于同一运动目标的运动框链接起来,形成一条完整的行为链,并对其行为类别进行分类。所述视频行为时空上下文信息融合网络具体包括:单帧特征提取网络,用于提取视频片段内当前帧rgb图像和光流图像深度表述特征;视频片段时空上下文信息融合网络,构建基于convgru模型的编码-解码模块用于提取视频片段时空上下文表述特征,并使之与视频当前帧特征进行融合,得到融合特征;行为检测网络,用于在融合特征上进行单帧行为检测,得到行为分类得分和对行为发生的位置进行定位,产生运动框。所述运动框在线链接和分类算法具体包括:构建行为类别侯选池,用于维持对于给定视频当前最有可能出现的指定数目的行为类别;行为类别候选池更新算法,用于对行为类别进行打分,逐渐缩小当前视频可能所属的行为类别范围,实现行为链在线快速分类;行为链在线增长算法,用于将视频片段对应的行为候选区域链接于已存在的行为链,实现行为链在线增长;或者将行为候选区域确定为新的行为链。一种基于时空上下文分析的在线视频行为检测方法,包括以下若干步骤:步骤1:对当前帧计算光流图像,提取rgb图像和光流图像的深度表述特征;步骤2:构建编码-解码网络提取视频行为时空上下文信息,并与当前帧信息进行融合,得到融合特征;步骤3:对融合特征进行分类和位置回归,产生运动框,用viterbi算法对运动框进行链接,得到行为候选区域;步骤4:构建行为类别候选池,更新可能出现的行为类别;步骤5:把行为候选区域以在线的方式链接于已存在的行为链或者产生新的行为链;步骤6:把rgb图像分支和光流图像分支的检测结果进行融合,得到最终的检测结果。与现有的技术相比,本发明的有益效果是:利用本发明提供的技术方案,在对视频单帧图像进行行为检测时,利用了视频片段内行为时空上下文信息,提高了行为检测的准确率;同时可以对视频行为进行在线的检测,相比于以往离线的基于批处理方式的方法,提升了视频行为检测的及时性,可应用于对实时性要求比较高的场合,如智能机器人、人机交互系统等。同现有的视频行为检测技术相比,在目前流行的公开测试集上,本发明提供的技术在利用更少候选提议的情况下,取得了更好的检测效果。下面结合附图,通过实施例对本发明进一步说明:附图说明图1为本发明的流程图。图2为视频单元运动信息编码-解码器en-decoder模型框架图。图3为基于时空上下文分析的视频行为单帧检测模型框架图。图4为视频行为链集合td在线动态更新操作流程图。附图中:1—单帧图像表述特征p′i、2—convgru单元、3—融合表述特征pd、4—视频单元所包含图像序列、5—特征提取网络、6—降维网络、7—rpn网络、8—detectionnetwork、9—行为分类结果、10—位置调整量、11—运动提议得分、12—运动提议、13—时间域裁剪、14—计算行为得分、15—构建行为侯选池、16—构建候选集合pt、17—更新行为链、18—增加新的行为链。具体实施方式本发明的一种基于时空上下文分析的在线视频行为检测方法,其实施例方式按如下步骤进行:1)一段待检测的视频序列被均匀划分为若干视频片段(8帧为一个片段,相邻片段之间有一帧重叠);2)对每个视频片段提取光流信息,原始的rgb图像和optical-flow光流图像分别输入到模型中构成两个独立的计算分支,以下以其中一个rgb分支为例进行说明,optical-flow分支情况相同;3)视频片段中每帧图像分别输入到一个预先训练的深度卷积网络(用作行为分类)进行运动特征提取;4)提取到的运动特征输入到一个由convgru构成的编码-解码网络中提取视频行为时空上下文信息,并与当前帧的运动信息进行融合,每帧输出融合特征;5)融合特征被接入一个行为分类网络和一个位置回归网络,对每帧出现的行为进行分类,同时对行为发生的位置进行定位,产生行为框;6)用viterbi算法对视频片段内每帧检测到的行为框按行为类别进行链接,构成若干行为候选区域,以下步骤(7-9)循环执行,直到输入视频序列结束;7)若当前视频片段序数为10的倍数,执行行为链时间域修剪算法,计算行为链相对于每个行为类别的得分,更新行为类别候选池,使其只包含得分最大的若干行为类别;8)对当前某行为链,若存在行为候选区域与其重叠面积(重叠面积指行为链最后一个行为框与候选区域第一个行为框之间的重合面积)大于指定阈值,则把得分最大的行为候选区域链接到该行为链;若不存在行为候选区域与其重叠面积大于指定阈值,则终止该行为链。此步骤操作针对行为类别候选池中的不同类别分别执行;9)若存在行为候选区域没和任何行为链构成链接,则把该行为候选区域作为一条新的行为链;10)把rgb分支和optical-flow分支的行为链检测结果进行融合,得到最终的检测结果。图1为本发明的流程图,其中,s1—s8依次对应于具体实施方式步骤1)—8)。一种基于时空上下文分析的在线视频行为检测方法,具体操作流程现分述如下:1)视频均匀划分成片段s1:给定一段输入视频,将其均匀地划分为若干视频片段,每段包含8帧图像。每一段作为独立的视频单元,提取行为候选区域;2)提取rgb图像或者光流s2:对于每个视频单元,提取其中每帧optical-flow光流图像,作为运动信息描述。原始的rgb图像和光流图像分别输入到模型中作为两个独立的分支进行计算。以下以rgb图像分支为主进行说明,optical-flow光流分支与其相同;3)提取单帧表述特征p′is3:单帧图像的行为检测网络框架如附图3所示。图3中显示了一个视频单元所包含的图像4。每帧图像用特征提取网络5提取表述特征,记为pi。特征提取网络基于vgg-16模型(simonyank.andzissermana.2014.verydeepconvolutionalnetworksforlargescaleimagerecognition.arxiv(2014).https://doi.org/arxiv:1409.1556)微调训练得到,取其conv5层特征。构建一个降维网络6,将pi的特征层数目从512降到128,记为p′i,防止整体网络模型过拟合。降维网络是由128层卷积层构成的卷积模块;4)提取融合表述特征pds4:将每帧图像的表述特征p′i输入到convgru网络2,来构建视频单元时空融合运动编码。运动信息编解码器en-decoder模型结构如附图2所示,图2显示了当前帧输入特征p′i1和融合表述特征pd2。en-decoder模型作用时间范围为整个视频单元,包括前向编码和后向解码过程。特征p′i同时参与前向编码和后向解码过程,具体输入方式如图2所示。前向编码对单帧的特征p′i随时间进行积累,得到对视频单元运动序列的表征;后向解码把运动序列表征反向传播到视频单元中的每一帧并与特征p′i进行融合,得到融合了当前帧和时空上下文信息的特征pd;5)计算detectionnetworka和rpn网络的输出s5:把特征pd输入到rpn网络7,经过运算得到运动提议得分11,记为sr,和运动提议12,记为pr。rpn网络是一个2层的3*3卷积网络,其在pd上滑动,在每个位置处计算运动提议得分sr,得分值大于一指定值(例如0.5)的区域被认为是运动提议pr。detectionnetwork8接受pd和pr作为输入,输出行为分类结果9,记为sc,和位置调整量10,记为δr。detectionnetwork由2层包含1024个隐单元的全连接层构成,行为分类结果sc包含对每一类行为和背景类的分类得分,位置调整量δr对每一类行为给出相应的3个位置偏差(中心位置、宽和高)。由pr和δr可以计算出经过修正的行为候选框bt;6)计算机视频单元行为候选区域ps6:记bt所对应的rpn运动提议得分为sr(bt),使用viterbi算法把同一视频单元中不同图像帧上bt链接起来,得到行为候选区域p,如式(1)所示:tp是视频单元持续长度,这里取为8;为bt和bt-1之间的交并比intersectionoverunion(iou);为调和系数,取为0.5;7)计算视频行为链集合tds7:随着视频不断地输入,得到对应于每个视频单元的行为候选区域p,通过以下规则(a)-(f)得到动态增加的视频行为链集合td。图4为视频行为链集合td在线动态更新操作流程图,对于执行规则(a)-(f),其主要思想为:维持一个动态更新的行为类别候选池,根据对不断输入的视频进行判别,逐步缩小行为类别候选数目;根据设定的链接方法来决定新产生的候选区域p是链接到原有的视频行为链还是作为新的行为链。如图4所示,具体步骤是:(a)时间域裁剪13。若当前集合td的元素个数>上限nd,更新结束。否则,利用viterbi算法对t进行时间域裁剪,如式(2)所示:tl为行为链t所包含bt的数目;lt∈{0,c}为bt所属类别,0代表背景类,c代表行为类别c;若lt=c,则为bt所对应的detectionnetwork类别c分类得分sc(bt),若lt=0,定义为1-sc(bt);若lt=lt-1,ω(lt,lt-1)=0,否则,ω(lt,lt-1)=0.7;λω=0.4;经过时间域裁剪,t中所包含的背景块将被减除;(b)计算行为得分14:对于t,计算其相对于每个行为类别的得分s(t),s(t)定义为属于t的所有p得分s(p)的平均值;同理,p的得分s(p)定义为属于p的所有bt得分sc(bt)平均值;(c)构建行为侯选池15:按照s(t)从高到低顺序构建一个行为类别侯选池,具体为:i)开始时,保留所有类别;ii)处理第10个视频单元时,保留前5个行为类别;iii)处理第20个视频单元时,保留前3个行为类别;iv)处理第30个视频单元及以后,只保留排名第一的行为类别。设当前侯选池行为类别上限为np,对于侯选池中的每一个行为类别j≤np,执行规则(d)-(e):(d)构建候选集合pt16:设新产生行为候选区域p,若t和p之间的iou大于指定阈值(例如0.5),则把p加入集合pt(初始pt为空)。t和p间的iou定义为属于t的最后一个行为候选框与p的第一个行为候选框之间的iou;(e)更新行为链17:若pt不为空,则把得分最大s(p′)所对应的p′(p′∈pt)链接到t,即把p′加到t的后面,形成新的行为链t′,更新t=t′;(f)增加新的行为链18:若存在pnew(pnew∈pt)没有链接于任何一个t,则把pnew作为一条新的行为链加入集合td;8)rgb和optical-flow检测结果融合s8:把rgb分支和optical-flow分支的行为链检测结果进行融合,得到最终的检测结果。融合的方法是:设trgb为rgb分支的一条行为链,topt为optical-flow分支的一条行为链,若trgb与topt间的iou大于一指定阈值(例如0.7),则取max(s(trgb),s(topt))所对应的那条行为链,删除另外一条;否则,保留这两条行为链。取map(meanaverageprecision)为评价标准时,本发明提出的方法在j-hmdb-21数据集上取得了目前最好的行为检测结果,与目前其他方法的比较如表1所示:map0.50.5:0.95gurkirtetal.[1]72.041.6act[2]72.243.2pengandschmid[3]73.1-harkiratetal.[4]67.336.1本发明75.944.8表1.与其他方法的比较,‘-’表示没有提及,结果数值越高越好表1中所比较的方法列举如下:[1]s.g.,s.s.,andc.f.,“onlinerealtimemultiplespatiotemporalactionlocalisationandpredictiononasingleplatform,”arxiv,2016.[2]v.kalogeiton,p.weinzaepfel,v.ferrari,andc.schmid,“actiontubeletdetectorforspatio-temporalactionlocalization,”inieeeinternationalconferenceoncomputervision,2017,pp.4415–4423.[3]p.x.ands.c.,“multi-regiontwo-streamr-cnnforactiondetection,”europeanconferenceoncomputervision,pp.744–759,2016.[4]b.h.,s.m.,s.g.,s.s.,c.f.,andt.p.h.,“incrementaltubeconstructionforhumanactiondetection,”arxiv,2017.需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1