一种基于小波的深度多特征融合分类方法与流程

文档序号:13642202阅读:427来源:国知局

本发明涉及机器人视觉图像处理,尤其涉及一种基于小波的深度多特征融合分类方法。



背景技术:

最近几年,深度学习成为了科技圈最火的词汇。它逐渐颠覆了语音识别,图像分类,文本理解等众多领域的算法设计思路,逐渐形成了一种从训练数据出发,经过一个端到端的模型,然后直接输出得到最终结果的一种新模式。随着大数据时代的到来以及gpu等各种更加强大的计算设备的发展,深度学习如虎添翼,可以充分利用各种海量数据,完全自动地学习到抽象的知识表达,即把原始数据浓缩成某种知识。其中卷积神经网络又是深度学习中最常见的框架。

随着卷积神经网络框架的不断拓展,网络层数的不断深化,各模块提取的featuremap逐渐增加,通过简单的将卷积层flatten为一个向量再进行全连接不仅计算量巨大而且会造成特征模糊,从而影响图像视频的分类识别的准确率。



技术实现要素:

为了解决现有技术中的问题,本发明提供了一种提高了图像视频的分类识别的准确率的基于小波的深度多特征融合分类方法。

本发明提供了一种基于小波的深度多特征融合分类方法,包括线下训练阶段和线上识别阶段,其中,线下训练阶段通过构建卷积神经网络对n类标签的样本进行训练,在模型末端的卷积层和全连接层加入离散小波变换对深度多特征映射进行分解,将得到的高低频分量线性融合,从而获得最优权重;线上识别阶段用该卷积神经网络搭配支持向量机对图像以及视频里的动作进行识别和分类。

作为本发明的进一步改进,线下训练阶段包括以下步骤:

步骤一:首先构建卷积神经网络进行训练;

步骤二:在第一层设置3个通道,分别为:1个灰度通道,2个光流通道,其中灰度通道包含视频片段的灰度图像组,光流通道包含视频片段两帧间的运动关系信息;

步骤三:构建多模块卷积神经网络;

步骤四:采用离散小波变换,从各模块全连接层的featuremap中提取高频和低频分量,将三个模块中的高低频分量各自融合;

步骤五:将融合后的高低频分量通过merge层进行串联并与下一层进行全连接,得到一组128维的featuremap;

步骤六:设置n个输出节点,对应n种分类行为,每个节点与上一层所有featuremap全连接;

步骤七:通过反向传播算法对各层之间计算参数进行调整,使得每个样本的输出与标签之间的误差下降,当误差满足要求后,训练完毕,再对各输出向量根据其对应的样本视频行为名称设置标签。

作为本发明的进一步改进,线上训练阶段包括以下步骤:

步骤八:输入需要识别的视频流,对视频进行步骤一中的预处理,通过线下训练中得到的最优模型,载入权重,将需要识别的视频流经过步骤二到步骤八的网络层,提取特征向量;

步骤九:将步骤十中的特征向量采用支持向量机进行分类,找到与之最匹配的标签,得到最优准确率。

作为本发明的进一步改进,包括以下步骤:

s1:获取训练样本图像;

s2:图像预处理;

s3:构建灰度,光流多通道网络通道;

s4:分别构建灰度,光流x和y通道网络;

s5:对各通道末端全连接层特征映射进行离散小波变换;

s6:提取高频和低频分量,进行通道间的特征融合;

s7:通过merge层串联融合后的特征;

s8:训练并提取最优权重;

s9:将视频送入训练好的最优模型进行特征提取;

s10:使用支持向量机进行在线识别。

作为本发明的进一步改进,在步骤s1中,从数据集中获取训练样本以及样本标签;在步骤s2中,对训练样本集中的视频流进行分辨率统一,采用lanczos插值法进行分辨率统一,在插值过程中沿x,y方向分别对相邻的八个点进行插值,也就是计算加权和,lanczos插值法的窗函数为:

二维形式则为:l(x,y)=l(x)l(y)。

作为本发明的进一步改进,在步骤s3中,通过对视频流的灰度化建立灰度通道,灰度图保留原始图像最基本的信息,对视频流中帧间运动信息的提取建立x和y两个方向的光流通道,采用改进的l-k光流法提取帧间的光流信息,使用卷积核来代替金字塔下采样,首先从f(x,y,t)求得偏导数fx,fy,ft,卷积核选用prewitt滤波器,即:

ix=i*dx,iy=i*dy,it=i*dt

使用最小二乘法进行速度估计:

作为本发明的进一步改进,在步骤s4中,每个通道经过采样处理,图片尺寸变为150*100,构建5层卷积层,3层池化层,之后再连接一层全连接层,第一层卷积层卷积核尺寸为5*5*5,之后的卷积层卷积核尺寸均为3*3*3,步长设置为1,池化层采用3dmaxpooling,池化层的核选择2*2*2与2*2*1两种,,激活函数选择relu。

作为本发明的进一步改进,在步骤s5中,将各通道末端全连接层的特征映射采用离散小波变换进行提取高低频分量,通过连续小波函数ψa,b(t)即可写成离散小波函数:

得出离散小波变换形式为:

作为本发明的进一步改进,在步骤s6中,将灰度通道,光流x和y通道全连接层的512维featuremap分解为3对含有高低频分量的128维featuremap,再将各通道的128维featuremap进行向量积运算,得到两组含有128维的featuremap;在步骤s7中,通过增设merge层,mode设置concat,将融合的高频分量和低频分量进行串联,设置n个输出节点,对应n种分类行为与上层所有featuremap进行全连接。

作为本发明的进一步改进,在步骤s8中,将训练样本集投入网络中进行训练,回调损失值最小的模型,保存最优权重;在步骤s10中,将输入的视频流经过卷积神经网络提取128维的featuremap,选择核函数为线性函数,构建支持向量机进行分类识别。

本发明的有益效果是:通过上述方案,对经典的卷积神经网络训练过程中进行改进,加入了离散小波变换对训练过程中的深度特征进行分解,提取多分辨率特征,再将各个深度特征中相应的多分辨率特征就行融合,增强底层信息,强化高层信息,减少了网络计算的复杂度,同时增强了网络训练的鲁棒性,提高了图像视频的分类识别的准确率。

附图说明

图1是本发明一种基于小波的深度多特征融合分类方法的流程图。

图2是单通道网络图。

图3是基于小波改进的卷积神经网络总体结构图。

具体实施方式

下面结合附图说明及具体实施方式对本发明作进一步说明。

一种基于小波的深度多特征融合分类方法,分两个阶段:线下训练阶段和线上识别阶段。通过构建卷积神经网络对n类标签的样本进行训练,在模型末端的卷积层和全连接层加入离散小波变换对深度多特征映射进行分解,将得到的高低频分量线性融合,从而获得最优权重,再用该神经网络搭配支持向量机对图像以及视频里的动作进行识别和分类。

(一)线下训练阶段

步骤一:首先构建卷积神经网络进行训练,以动作识别为例,采用行为识别数据集hmdb51为训练集,对视频片段进行预处理,统一视频分辨率;

步骤二:在第一层设置3个通道,分别为:1个灰度通道,2个光流通道,其中灰度通道包含视频片段的灰度图像组,光流通道包含视频片段两帧间的运动关系信息;

步骤三:构建多模块卷积神经网络

步骤四:采用离散小波变换,从各模块全连接层的featuremap中提取高频和低频分量,将三个模块中的高低频分量各自融合;

步骤五:将融合后的高低频分量通过merge层进行串联并与下一层进行全连接,得到一组128维的featuremap;

步骤六:设置n个输出节点,对应n种分类行为(标签),每个节点与上一层所有featuremap全连接;

步骤七:通过反向传播算法对各层之间计算参数进行调整,使得每个样本的输出与标签之间的误差下降,当误差满足要求后,训练完毕,再对各输出向量根据其对应的样本视频行为名称设置标签;

(二)在线识别

步骤八:输入需要识别的视频流,对视频进行步骤一中的预处理,通过线下训练中得到的最优模型,载入权重,将需要识别的视频流经过步骤二到步骤八的网络层,提取特征向量;

步骤九:将步骤十中的特征向量采用支持向量机进行分类,找到与之最匹配的标签,得到最优准确率。

本发明提供的一种基于小波的深度多特征融合分类方法,该方法对经典的卷积神经网络训练过程中进行改进,加入了离散小波变换对训练过程中的深度特征进行分解,提取多分辨率特征,再将各个深度特征中相应的多分辨率特征就行融合,增强底层信息,强化高层信息,减少了网络计算的复杂度,同时增强了网络训练的鲁棒性。

如图1所示,一种基于小波的深度多特征融合分类方法,具体包括以下步骤:

s1:获取训练样本图像:

从hmdb51数据集中获取训练样本以及样本标签。

s2:图像预处理:

对训练样本集中的视频流进行分辨率统一,在进行分辨率统一操作时,图像边缘会模糊,总而造成信息损失。此处采用lanczos插值法进行分辨率统一,在插值过程中沿x,y方向分别对相邻的八个点进行插值,也就是计算加权和,所以它是一个8*8的描述子。虽然lanczos插值法计算量较其他插值法更复杂,但是由于在gpu上运行,对总体性能影响不大,同时效果也比其他插值法更显著。其窗函数为:

二维形式则为:l(x,y)=l(x)l(y)。

s3:构建灰度,光流多通道网络通道:

通过对视频流的灰度化建立灰度通道,灰度图保留原始图像最基本的信息,所以灰度通道是必不可少的。对视频流中帧间运动信息的提取建立x和y两个方向的光流通道。光流是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。对于动作识别中,光流通道同样是必不可少的。此处采用改进的l-k光流法提取帧间的光流信息。使用卷积核来代替金字塔下采样可以减少计算量,同时效果更优。首先从f(x,y,t)求得偏导数fx,fy,ft,卷积核选用prewitt滤波器,即:

ix=i*dx,iy=i*dy,it=i*dt

使用最小二乘法进行速度估计:

s4:分别构建灰度,光流x和y通道网络:

图2为单通道网络结构图,每个通道经过下采样处理,图片尺寸变为150*100,构建5层卷积层,3层池化层,之后再连接一层全连接层。第一层卷积层卷积核尺寸为5*5*5,之后的卷积层卷积核尺寸均为3*3*3,步长设置为1。池化层采用3dmaxpooling,池化层的核选择2*2*2与2*2*1两种,防止后期时间上维度下降过快。激活函数选择relu,该函数能模拟脑神经元接受信号更精确的激活模型,相比较sigmoid函数具有单侧抑制,相对宽阔的兴奋边界和稀疏激活性的特点。

s5:对各通道末端全连接层特征映射进行离散小波变换:

将各通道末端全连接层的特征映射采用离散小波变换进行提取高低频分量,通过连续小波函数ψa,b(t)即可写成离散小波函数:

得出离散小波变换形式为:

s6:提取高频和低频分量,进行通道间的特征融合:

图3中dwt操作将灰度通道,光流x和y通道全连接层的512维featuremap分解为3对含有高低频分量的128维featuremap,再将各通道的128维featuremap进行向量积运算,得到两组含有128维的featuremap。

s7:通过merge层串联融合后的特征:

通过增设merge层,mode设置concat,将融合的高频分量和低频分量进行串联,设置n个输出节点,对应n种分类行为(标签)与上层所有featuremap进行全连接.

s8:训练并提取最优权重:

将训练样本集投入网络中进行训练,回调损失值最小的模型,保存最优权重。

s9:将视频送入训练好的最优模型进行特征提取。

s10:使用支持向量机进行在线识别:

将输入的视频流经过卷积神经网络提取128维的featuremap,选择核函数为线性函数,构建支持向量机进行分类识别。

比较没有加入小波进行深度特征融合的卷积神经网络模型,本发明的方法能够达到更好的效果,在公共数据集上进行测试,也达到较高的准确率。同时,本发明并不局限具体实施方案中对于动作的识别,可以广泛用于图像视频的分类识别。

本发明提供的一种基于小波的深度多特征融合分类方法,采用离散小波变换从featuremap中提取低频与高频分量,将高低频分量分别融合,达到增强底层信息,强化高层信息的目的,从而提高了网络识别的准确率和鲁棒性。

本发明提供的一种基于小波的深度多特征融合分类方法,适用于机器人视觉图像处理技术领域,尤其适用于深度学习,特征提取,视频图像处理。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1