融合深度神经网络模型和二进制哈希的人体动作识别方法与流程

文档序号：14572170发布日期：2018-06-01 22:59阅读：来源：国知局

技术特征：

1.一种融合深度神经网络模型和二进制哈希的人体动作识别方法，其特征在于，包括以下步骤：

101、获取包含有人体动作的短视频，并将该短视频切分成视频帧序列；

102、使用光流算法计算步骤101视频帧序列中相邻帧的光流图；

103、对101视频帧序列使用姿态估计算法得到人体关节点的坐标；

104、使用步骤103得到的关节点坐标截取不同人体部位的RGB与光流区域图，得到视频的RGB帧序列与光流帧序列；

105、使用牛津大学视觉几何组的VGG-16模型与光流网络模型对步骤104得到的RGB帧序列与光流帧序列中的每一帧提取的全连接层特征，本层特征维度为4096维；

106、使用步骤105得到的FC特征进行池化操作进行聚集，得到n×4096维的视频特征表示；

107、将步骤106得到的视频特征进行l₂归一化后送入线性SVM分类器进行分类。

2.根据权利要求1所述的融合深度神经网络模型和二进制哈希的人体动作识别方法，其特征在于，所述步骤102使用光流算法计算步骤101相邻视频帧序列的光流图，具体包括步骤：

201.提取两个相邻视频帧之间的光流矢量；

202.对生成的光流矢量的所有像素点处水平方向和垂直方向的绝对值分别求和，得到帧的水平方向和垂直方向的两个光流绝对值的和；

203.将所有帧的光流绝对值和按时间排序生成整个视频水平方向和垂直方向的光流序列。

3.根据权利要求1所述的融合深度神经网络模型和二进制哈希的人体动作识别方法，其特征在于，所述步骤104选取视频的RGB帧序列与光流帧序列关的步骤包括：

选取不同的尺寸的滑动窗口尺寸h，并动态的根据视频帧数|F|采集S数目的样本帧并提取特征，f_T表示原始视频帧序列中的一帧，其中原始视频共有T帧；表示所选关键帧序列中的一帧，关键帧选取使用公式(2)所示方法，每间隔S帧选取一帧，共选取h帧；

[ f t 1 , f t 2 , ... , f t h ] &SubsetEqual; F F = [ f 1 , f 2 , ... , f T ] - - - ( 1 ) ]]>

4.根据权利要求3所述的融合深度神经网络模型和二进制哈希的人体动作识别方法，其特征在于，所述步骤105为了区分RGB序列与光流序列，使用两种不同架构的卷积网络模型，每个网络均包含了五层的卷积层和三层的全连接层，使用第二个全连接层的输出作为FC特征即视频帧特征，将输入图像统一调整为224×224的大小，这样可以得到一致的FC层特征，使用min和max池化操作对一个视频的所有帧特征进行聚合后就得到了视频的特征表示。

5.根据权利要求4所述的融合深度神经网络模型和二进制哈希的人体动作识别方法，其特征在于，对选取的关键帧以及对应的4096维的FC特征进行相邻差值计算，使用0，1表示特征的变化趋势，这样就得到一个4096×h大小的矩阵，矩阵中每个元素为0或为1，提取每一行的二进制序列作为输入，使用公式(3)计算输出，这样就得到了视频对应的4096维的二进制哈希特征。

6.根据权利要求4所述的融合深度神经网络模型和二进制哈希的人体动作识别方法，其特征在于，所述步骤106计算视频特征值具体包括：比较两个相邻关键帧和特征值变化，对应于视频帧对应的特征向量f_t^p，比较相邻两帧同一维度上特征值的变化，增加用1表示，减小用0表示，这样可以得到一个4096*h的特征值矩阵M，矩阵元素仅包含0或1，对于矩阵的每一行特征向量[x_h-1,x_h-2,...,x₀]使用以下公式(3)计算其二进制哈希映射，公式(3)将由0和1组成的数字串转化为一个无符号的整数；

B 2 U w ( x &RightArrow; ) = Σ i = 0 w - 1 x i × 2 i - - - ( 3 ) ]]>

最终得到了人体不同部位的RGB流与光流帧特征变化的二进制哈希特征。

7.根据权利要求6所述的融合深度神经网络模型和二进制哈希的人体动作识别方法，其特征在于，步骤107除了使用l₂归一化以外，还使用了融合l₁+β·l₂的特征归一化方式，l₂表示对特征的二阶归一化，l₁表示对特征的一阶归一化，β表示融合归一化系数。当最终把通过深度神经网络提取的特征与二进制哈希得到的特征融合后得到视频的特征表示p，由于不同来源的特征值尺度存在差异，归一化所有特征值到一个尺度再使用分类器分类。

8.根据权利要求7所述的融合深度神经网络模型和二进制哈希的人体动作识别方法，其特征在于，所述使用了l₁+β·l₂融合的归一化方式，即

p＝p/(||p||₁+β·||p||₂) (4)。

完整全部详细技术资料下载

当前第2页1 2 3