一种基于迁移学习和图像增强的人体特征提取方法与流程

文档序号:17937525发布日期:2019-06-18 22:44阅读:282来源:国知局
一种基于迁移学习和图像增强的人体特征提取方法与流程

本发明属于图像处理与计算机视觉技术领域,涉及一种基于迁移学习和图像增强的人体特征提取方法。



背景技术:

图像监控通过图像来监控目标,在视频安防监控、电力、交通、金融、电信等行业实施大范围的集中监控服务方面已经得到了广泛的应用。由于该技术给特定区域的安全保障带来很大的便利性,已经受到人们的欢迎。与此同时,用户对图像监控的准确性也提出了更高的要求。当前的人体特征技术主要基于原始未处理的图像信息,因此,该技术准确性较低。

另一方面,直接对未处理的图像信息进行识别,文件较大,消耗的计算资源较多。因此实时性不强,在突发事件发生时不能够及时发出警报。如果不需要原始图像信息,只需要含有监控实例或实体图像信息那么可以节省大量计算资源,实时性也能有显著提高。

为解决以上问题,本发明提出了一种基于迁移学习和图像增强的人体特征提取方法,经过图像增强和使用迁移学习处理之后的图像信号,是标注出监控图像中人体特征的图像而不是原始图像,可以使用这些图像来完成监控任务。



技术实现要素:

有鉴于此,本发明的目的在于提供一种于迁移学习和图像增强的人体特征提取方法,迁移学习能够快速建立模型并降低计算资源和时间的花费,图像增强模型可以很好地描述图像的空间特征;结合迁移学习方法和图像增强来提升人体特征提取的准确率。

为达到上述目的,本发明提供如下技术方案:

基于图像扩散速度模型和色彩特征的人脸活体检测方法,包括以下步骤:

s1:提取视频的所有帧并保存,对所保存的视频帧进行归一化处理,并将其分为训练集和测试集;

s2:在3d卷积神经网络的卷积层后增加两层全连接层和softmax层,形成标签神经网络,将训练集数据送入该标签神经网络中,从而训练出标签分类器;并提取出训练集的特征提取结果;

s3:提取视频帧图像色彩特征,训练svm模型,并使用该模型获取测试集的特征提取结果;

s4:根据训练集在3d卷积神经网络模型和svm模型中的特征提取结果,分别训练权重网络,得到各自最优权重;

s5:将测试集在卷积神经网络和svm中的特征提取结果进行加权融合,得到最终检测结果。

进一步的,步骤s1所述提取视频的所有帧并保存,具体包括:

从视频序列中抽取每一帧图像或者从一系列图像中抽取每一张图像作为原始图像;使用人体检测算法检测出人体的位置,并将位置结果用矩形框在图中标出。

进一步的,步骤s2中的3d卷积神经网络具体包括:

所使用3d卷积神经网络,第i层的卷积核为wi×hi×ti,ti是单次输入帧的数量,wi×hi是卷积核的空间大小;3d卷积操作的计算公式为:

其中,表示第i卷积层中的第c2个特征在点(l,j,k)的输出值,是3d卷积神经网络中第i层中的第c1特征到第c2特征在点(m,n,p)的权重,是在第c2个特征在第i个卷积层的偏置;表示第i卷积层中的第c2个特征在点(l,j,k)的输入值;σ(·)是非线性激活函数;点(l,j,k)、点(m,n,p)以及点(l+m,j+n,k+p)均属于所述空间中的点;表示第c-1卷积层中第c1个特征在点(l+m,j+n,k+p)的输入值。

进一步的,步骤s3提取视频帧图像的色彩特征,具体包括:

将视频帧图像的色彩空间从rgb(红绿蓝)三通道模式转换为hsv(色调h、饱和度s、明度v)模式;计算hsv色彩空间视频帧图像的均值、方差、偏度,同时计算视频帧图像的方向梯度直方图;将图像的均值、偏度,以及图像颜色矩和图像颜色熵作为视频帧图像的色彩特征。

进一步的,训练权重网络,得到最优权重,步骤s4具体包括:

1)采用批量标准法初始化输出提取特征的权重w1、w2以及网络节点的权重wq;

2)利用误差反向传播算法更新权重w1、w2;

3)固定w1、w2,利用误差反向传播算法更新wq;

4)迭代进行第2)和第3)步,直到损失函数收敛,得到最优权重。

进一步的,步骤s5具体包括:

获取测试集在卷积神经网络和svm模型中的特征提取结果,根据最优权重将两种概率值加权求和,图像最终提取结果表达式:

p=p1w1+p2w2

其中:由于图片输入卷积神经网络或svm模型时均用矩阵进行表示,p1为图像经过卷积神经网络提取人体特征后的矩阵表示;w1为卷积神经网络下的最优权重;p2为图像经过svm模型提取人体特征后的矩阵表示;w2为svm下的最优权重;取p为最终人体特征提取结果。

本发明的有益效果在于:

1)本发明提出一种基于迁移学习和图像增强的人体特征提取方法,该方法能够快速准确的提取图像上的人体特征。

2)本方法在使用迁移学习方法的同时使用图像增强,能够快建立模型,更加全面的利用图像信息,提高人体特征提取的准确率。

附图说明

图1为本发明整体流程示意图;

图2为本发明采用的卷积神经网络结构示意图;

图3为本发明中特征提取卷积神经网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

在本发明中,首先提取视频的所有帧并保存,对所保存的视频帧做归一化处理,并将其分为训练集和测试集。然后将3d卷积神经网络的卷积层后增加两层全连接层和softmax层,形成标签神经网络,将训练集数据送入该标签神经网络中,从而训练出标签分类器;并提取视频帧图像色彩特征,训练svm模型,并使用该模型获取测试集的特征提取结果,接着根据训练集和svm模型中的特征提取结果分别训练权重网络,得到各自最优权重;最后将测试集在卷积神经网络和svm中的特征提取结果进行加权融合,得到最终检测结果。

下面结合说明书附图对本发明一种基于迁移学习和图像增强的人体特征提取方法进行进一步的说明。

本次使用的数据集共有6849段视频,覆盖了各种姿态的人体,视频场景有3120类。

如图1所示,本发明提出的方法具体包括以下步骤:

s1:提取视频的所有帧并保存,对所保存的视频帧进行归一化处理,并将其分为训练集和测试集。

从视频序列中抽取每一帧图像或者从一系列图像中抽取每一张图像作为原始图像;接着使用方向梯度直方图(histogramoforientedgradient,hog)特征对原始图像进行人体检测,首先对图片进行灰度化,采用gamma校正对图像进行颜色空间进行归一化;目的是调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时可以抑制噪音的干扰。接着计算每个像素的梯度,图像中像素点(x,y)的梯度为:

gx(x,y)=h(x+1,y)-h(x-1,y)

gy(x,y)=h(x,y+1)-h(x,y+1);

式中gx(x,y),gy(x,y),h(x,y)分别表示输入图像中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值。像素点(x,y)处的梯度幅值和梯度方向分别为:

其中,gx(x+1,y)表示输入图像中像素点(x+1,y)的水平方向梯度;gy(x-1,y)表示输入图像中像素点(x+1,y)的垂直方向梯度;接下来将图像以8*8像素的大小进行分块,统计每块的梯度直方图,将每块的直方图特征向量合并得到hog特征向量,将hog特征向量输入svm分类器,得到人体位置坐标向量,并将位置结果用矩形框在图中标出。

s2:在3d卷积神经网络的卷积层后增加两层全连接层和softmax层,形成标签神经网络,将训练集数据送入该标签神经网络中,从而训练出标签分类器。

3d卷积神经网络相比2d卷积神经网络在卷积的过程中能够保留更多的信息,除了运动特征之外时间特征也能很好的保留。

本发明中,首先搭建3d卷积神经网络第i层的卷积核为wi×hi×ti,ti是单次输入帧的数量,wi×hi是卷积核的空间大小;3d卷积操作的计算公式为:

其中,表示第i卷积层中的c2个特征在点(l,j,k)的输出值,是3d卷积神经网络中第i层中的第c1特征到第c2特征在点(m,n,p)的权重,是在第c2个特征在第i个卷积层的偏置,表示第i卷积层中的c2个特征在点(l,j,k)的输入值;σ(·)是非线性激活函数。

作为一种可选方式,3d卷积神经网络的网络模型如图2所示,共有8个3d卷积层,7个池化层,模型的损失函数采用leakyrelu,在训练的过程中随机将部分神经元的权值设置为0用来防止过拟合。3d卷积神经网络不仅能够提取图像的空间信息还包含了图像间的时间信息,用3d卷积神经网络提取照片的信息,更全面的包含了图像的特征信息。

特征提取网络结构如图3所示,在3d卷积神经网络的基础上,添加了2层全连接层和softmax层。定义输入数据x=rm,网络隐藏层映射函数为gf,gf:x→rd,隐含层网络之间的矩阵表示关系为:gf(x,w,b)=sigm(wx+b);

其中w为网络的权值矩阵形式,b为网络的偏置矩阵形式。

在最后的softmax层定义为gy,gy:rd→[0,1]l,最后输出层的矩阵表示为:

gy(gy(x;v,c)=softmax(vgf(x)+c);

最后把带有人体区域的图像数据,送到搭建好的网络中,使特征提取损失函数最小化,完成训练后即可得到提取人体特征的网络。

s3:提取视频帧图像色彩特征,训练svm模型,并使用该模型获取测试集的特征提取结果;

将含有人图像的色彩空间从红r、绿g、蓝b的rgb模式转换为色调s、饱和度s、明度v的hsv模式;计算hsv色彩空间人体图像的均值、方差、偏度,同时计算人体图像的方向梯度直方图;将人体图像的均值、方差、偏度,以及方向梯度直方图的最小值和最大值作为人体图像的色彩特征。

其中,rgb色彩模式是工业界的一种颜色标准,是通过对红(r)、绿(g)、蓝(b)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,rgb即是代表红、绿、蓝三个通道的颜色。hsv是根据颜色的直观特性由a.r.smith在1978年创建的一种颜色空间,也称六角锥体模型。这个模型中颜色的参数分别是:色调(h),饱和度(s),明度(v)。

s4:根据训练集在3d卷积神经网络中和svm模型中的特征提取结果分别训练权重网络,得到各自最优权重;

具体包括使用误差反向传播算法训练权重网络,得到最优权重,权重网络训练过程如下:

1)随机初始化输出概率权重w1、w2以及网络节点的权重wq。

2)利用误差方向传播算法更新权重w1、w2。

3)固定w1、w2,利用误差反向传播算法更新wq。

4)迭代进行第2)和第3)步,直到损失函数收敛,得到最优权重。

s5:根据最优权重,将测试集在卷积神经网络和svm中的分类结果进行加权融合,得到最终检测结果。

作为一种可选方式,获取测试集在卷积神经网络和svm模型中的特征提取结果,根据最优权重将两种概率值加权求和,图像最终提取结果表达式:

p=p1w1+p2w2

其中:由于图像输入卷积神经网络或svm模型时均用矩阵进行表示,p1为图像经过卷积神经网络提取人体特征后的矩阵表示;w1为卷积神经网络下的最优权重;p2为图像经过svm模型提取人体特征后的矩阵表示;w2为svm下的最优权重;取p为最终人体特征提取结果。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:rom、ram、磁盘或光盘等。

以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1