基于光流引导及双流网络的动作识别方法、系统及装置与流程

文档序号:33022691发布日期:2023-01-20 18:56阅读:82来源:国知局
基于光流引导及双流网络的动作识别方法、系统及装置与流程

1.本发明涉及动作识别技术领域,具体涉及一种基于光流引导及双流网络的动作识别方法、系统及装置。


背景技术:

2.动作识别是视频理解方向很重要的一个问题,至今已经研究了很多年。动作识别和图像分类有相似之处,图像分类是根据图像中的目标进行软分类,早期动作识别与之类似,并且一个视频只有一个标签,代表视频中的动作。但是动作识别需要处理的是视频数据,每个视频包含大量的视频帧,并且每个视频长度很难一样,在开放环境下,很可能出现多尺度、多目标、视角移动等常见问题。想要处理一个视频数据需要大量的计算,在硬件资源还不够好的年代,动作识别任务很难有重大的突破。在深度学习之前,idt方法应用较广,idt算法基于dt算法改进,dt算法的基本思路为利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取hof、hog、mbh、trajectory四种特征,其中hof基于灰度图计算,另外几个均基于dense optical flow计算。最后利用fv方法对特征进行编码,再基于编码结果训练svm分类器。而idt改进的地方在于它利用前后两帧视频之间的光流以及surf关键点进行匹配,从而消除、减弱运动所带来的影响,改进后的光流图像被称为warp optical flow。
3.在深度学习广泛应用后,双流法成为动作识别方向的一大主流方向。双流法将动作识别中的特征提取分为两个分支,一个是rgb分值提取空间特征,另一个是光流分支提取时间上的光流特征,最后结合两种特征进行动作识别,代表性方法有tsn、trn。虽然双流法在当时数据集上展现了优势,但是双流法的密集光流提取特征计算量巨大,于是提出了c3d。c3d直接将2d卷积扩展到3d卷积,直接提取空间和时间两方面的特征,这一类也是目前比较火的一个topic,在c3d后陆续提出p3d、eco,但是这些3d卷积方法都有一个很大的问题就是相比于模型的参数量巨大,且不容易训练。后来通过对光流的扩展研究,提出了光流引导特征,它能使网络快速且稳健地提取时间信息。并且现有动作识别算法,几乎都应用在人体动作上,对于宠物犬的动作研究基本没有,也没有现成的宠物犬动作视频数据集。


技术实现要素:

4.针对上述问题,本发明的目的在于构建宠物犬动作视频数据集,改进双流网络,减少计算量,并将光流引导特征融入双流网络,强化对于时间特征的提取,提高动作识别的准确率。
5.基于上述目的,本发明提出了一种基于光流引导特征和双流网络的宠物犬动作识别方法,本发明的技术方案包括如下步骤:
6.采集含有宠物犬动作的视频数据,对视频进行处理后划分为训练集和测试集;
7.搭建特征生成子网络,用于提取视频图像序列的空间外观信息,所述特征生成子网络的输入为视频图像序列,输出为提取的空间特征图;对所述视频图像序列的处理包括:先进行随机抖动和角裁剪,再将所有图像缩放到224*224;
8.基于光流引导特征搭建off子网络,用于提取视频图像序列的时间运动信息,所述off子网络输入为所述特征生成子网络输出的空间特征图,输出为时间特征图;
9.搭建时空信息融合网络模型,融合所述空间特征图和时间特征图,输出视频级的特征矢量;
10.基于光流场搭建lk光流神经网络;
11.设置模型训练超参数,利用训练集训练模型,保存训练得到的权重文件;
12.利用权重文件对测试集中视频进行动作预测,根据预测得分判断视频中宠物犬的动作类别,并利用acc指标评估模型性能。
13.进一步地,所述宠物犬动作包括以下类别:sit、down、come、free、heel、place、bite;所述视频数据的采集环境包括实验室环境和生活环境,实验室环境的视频数据由人向宠物犬发出动作指令,再通过摄像机记录宠物犬反应的动作视频,在互联网搜集人与宠物犬在日常生活中互动的视频作为生活环境的视频数据;所述视频数据按照7:3的比例分为训练集和测试集。
14.进一步地,所述特征生成子网络包括:cp模块、c3c模块、ccp_x模块;
15.所述cp模块由3x3 conv(stride=2)、bn正则化层、frelu函数组成;
16.所述c3c模块由1x1 conv、bn、frelu、3x3 conv(stride=1)、bn、frelu、1x1 conv、bn和空层残差连接组成;
17.所述ccp_x模块由3x3 conv(stride=1)、bn、frelu、x个c3c模块、cp模块和cp模块残差连接组成,x取值为4、8。
18.进一步地,所述随机抖动和角裁剪的具体步骤包括:对图像的像素值分布进行轻微扰动,调整所述图像的亮度、锐度、饱和度和对比度,从所述图像的四个角裁剪占比所述图像20%的区域,得到新图像。
19.进一步地,所述光流引导特征包括水平方向和垂直方向的特征映射的空间梯度,以及从不同帧的特征映射之间的差异获得的时间梯度;
20.所述off子网络由五个off单元组成,并且不同分辨率级别的off单元之间含有几个残差块,这些残差块构成resnet-25;
21.所述off单元将光流引导特征与较低级别的特征连接在一起,得到组合后的特征并输出到邻近的残差块中;
22.所述off单元包含off层以产生光流引导特征,所述off层包含1*1conv、sobel层和涉及元素减法的一组运算符,sobel层用于生成光流引导特征,运算符用于计算时间梯度。
23.进一步地,所述时空信息融合网络模型包括时空信息融合层、rnn层、时间池化层;所述时空信息融合层采用级联融合的方式,融合空间外观特征与时间运动特征;所述rnn层采用门控循环单元使得不同时间步的时空信息相互流通;所述时间池化层采用平均池化的方式汇总所述rnn层中每一个时间步的输出获得视频级的特征矢量。
24.进一步地,所述lk光流神经网络用于提取时间流特征,输入为连续视频帧之间的光流位移场i,i包含垂直维度光流和水平维度光流,对i进行随机裁剪和水平翻转,再进入alexnet网络提取时间特征,得到输出结果为各动作score,并采用加权平均的方式融合所述特征矢量和各动作score,得到预测结果。
25.进一步地,所述设置模型训练超参数包括:设置小批次随机梯度下降算法更新反
向梯度,设置标准分类交叉熵作为损失函数,设置batch size为256,设置momentum为0.9,设置初始learning rate为0.01,每1000次迭代下降为10%,对各个网络进行单独训练,每次训练时固定其余网络参数,训练epoch均为100。
26.与现有技术相比,本发明提出的一种基于光流引导特征和双流网络的宠物犬动作识别方法,具有如下有益效果:
27.1.引入光流引导特征和信息融合网络,优化了对于时间流的提取和时空特征的融合;
28.2.通过改进双流网络的整体架构,优化特征生成子网络,强化了网络提取特征的能力,提高了动作识别的准确率。
附图说明
29.图1为本发明整体流程步骤图;
30.图2为特征生成子网络中c3c模块结构图;
31.图3为特征生成子网络中ccp_x模块结构图;
32.图4为特征生成子网络整体结构图。
具体实施方式
33.为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
34.如图1为本发明整体流程步骤图,一种基于光流引导特征和双流网络的宠物犬动作识别方法,包括以下步骤:
35.步骤一,采集含有宠物犬动作的视频数据,宠物犬动作包括以下类别:sit、down、come、free、heel、place、bite;所述视频数据的采集环境包括实验室环境和生活环境,实验室环境的视频数据由人向宠物犬发出动作指令,再通过摄像机记录宠物犬反应的动作视频,在互联网搜集人与宠物犬在日常生活中互动的视频作为生活环境的视频数据;所述视频数据按照7:3的比例分为训练集和测试集。
36.步骤二,搭建特征生成子网络,用于提取视频图像序列的空间外观信息,所述特征生成子网络的输入为视频图像序列,输出为提取的空间特征图;对所述视频图像序列的处理包括:先进行随机抖动和角裁剪,具体为:对图像的像素值分布进行轻微扰动,调整所述图像的亮度、锐度、饱和度和对比度,从所述图像的四个角裁剪占比所述图像20%的区域,得到新图像;再将所有图像缩放到224*224;所述特征生成子网络包括:cp模块、c3c模块、ccp_x模块;所述cp模块由3x3 conv(stride=2)、bn正则化层、frelu函数组成;所述c3c模块由1x1 conv、bn、frelu、3x3 conv(stride=1)、bn、frelu、1x1 conv、bn和空层残差连接组成;所述ccp_x模块由3x3 conv(stride=1)、bn、frelu、x个c3c模块、cp模块和cp模块残差连接组成,x取值为4、8。
37.步骤三,基于光流引导特征搭建off子网络,用于提取视频图像序列的时间运动信息,off子网络输入为所述特征生成子网络输出的空间特征图,输出为时间特征图;off子网络由五个off单元组成,并且不同分辨率级别的off单元之间含有几个残差块,这些残差块构成resnet-25;off单元将光流引导特征与较低级别的特征连接在一起,得到组合后的特
征并输出到邻近的残差块中;off单元包含off层以产生光流引导特征,所述off层包含1*1conv、sobel层和涉及元素减法的一组运算符,sobel层用于生成光流引导特征,运算符用于计算时间梯度。
38.步骤四,搭建时空信息融合网络模型,融合所述空间特征图和时间特征图,输出视频级的特征矢量;时空信息融合网络模型包括时空信息融合层、rnn层、时间池化层;所述时空信息融合层采用级联融合的方式,融合空间外观特征与时间运动特征;所述rnn层采用门控循环单元使得不同时间步的时空信息相互流通;所述时间池化层采用平均池化的方式汇总所述rnn层中每一个时间步的输出获得视频级的特征矢量。
39.步骤五,基于光流场搭建lk光流神经网络,所述lk光流神经网络用于提取时间流特征,输入为连续视频帧之间的光流位移场i,i包含垂直维度光流和水平维度光流,对i进行随机裁剪和水平翻转,再进入alexnet网络提取时间特征,得到输出结果为各动作score,并采用加权平均的方式融合所述特征矢量和各动作score,得到预测结果。
40.步骤六,设置模型训练超参数,利用训练集训练模型,保存训练得到的权重文件;利用权重文件对测试集中视频进行动作预测,根据预测得分判断视频中宠物犬的动作类别,并利用acc指标评估模型性能;训练超参数包括:设置小批次随机梯度下降算法更新反向梯度,设置标准分类交叉熵作为损失函数,设置batch size为256,设置momentum为0.9,设置初始learning rate为0.01,每1000次迭代下降为10%,对各个网络进行单独训练,每次训练时固定其余网络参数,训练epoch均为100;
41.上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1