本发明涉及一种视频识别技术,特别是一种基于排序池化融合空间特征的视频动作识别方法。
背景技术:
当今视频动作识别技术已经广泛应用于多媒体内容分析、人机交互、智能实时监控等领域中,该技术可以通过对视频进行特征提取生成特征向量,用分类器对特征向量进行分类的方法来实现。传统的视频动作识别方法中通常将视频三维时空域作为一个整体来捕捉视频动态变化特征,这种做法存在片面性,会导致丢失大量属于二维图像空间域或一维时序域特有的变化特性,因此,视频动作识别技术需要对视频时间、空间结构分开处理以便更加全面地捕捉视频动态变化中的时空特征信息,本文提出了一种基于排序池化融合空间特征的视频动作识别方法。
技术实现要素:
本发明提供一种基于排序池化融合空间特征的视频动作识别方法,该方法通过使用分类器对时空特征提取方法所得到的视频特征向量进行分类的视频动作识别。
实现本发明目的的技术方案为:一种基于排序池化融合空间特征的视频动作识别方法,其特征在于,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
本发明将二维图像空间特征融入排序池化算法中,既继承了排序池化算法可以捕捉丰富的视频时序变化特征的优点,又弥补了其缺乏二维图像空间结构特征的缺点,不仅能够捕捉视频整体运动信息,还能更详细地捕捉到视频一维时序域、二维图像空间域的各自维度特有特征信息,补充视频特征描述子更丰富的动作动态变化信息,使得视频最终的特征向量包含更多属于该视频自身的动态变化特征,拥有更高的描述性能,进而提高视频动作的识别精确度。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1是视频帧序列每帧图像二维空间多尺度分割示意图。
图2是本发明基于排序池化融合空间特征的视频动作识别方法流程图。
具体实施方式
结合图2,一种基于排序池化融合空间特征的视频动作识别方法,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
步骤1中的视频局部特征描述子算法可以使用方向梯度直方图或光流直方图算法。
步骤2中对视频的每一帧图像构建一个两层的空间金字塔模型,对图像的二维空间结构进行多尺度分割,金字塔的第一层是对每帧图像不作任何分割,即每帧图像的第一层尺度是一个完整的图像,金字塔的第二层是对每帧图像分别对横轴和纵轴做二等分,即把每帧图像的二维空间分成四等分,分割示意图如图1所示。
步骤3中将金字塔每层的每个子空间内的基本特征向量序列按照每个基本特征向量所属的帧图像的时间顺序排列,获得有序的基本特征向量序列,用
步骤4单独地对步骤三所得到的每个子空间的有序基本特征向量序列
其中
步骤5以子空间为单位,单独对每个子空间的经smooth操作后有序的特征向量序列
ξij≥0
当目标函数达到最优时,学习到的函数参数w(s,n)可以作为该子空间内的视频序列新的特征描述符。
步骤6中将步骤五所得到的该视频金字塔模型中所有子空间的模型参数w(s,n)串联,得到的特征向量w作为该视频最终特征向量。
步骤7中使用的分类器是支持向量机,支持向量机本身是一个二分类分类器,本发明中通过使用one-against-rest方法实现了多分类的功能,获得每个视频的动作类别。