一种融合型神经网络的人员再检测方法与流程

文档序号:19787942发布日期:2020-01-24 13:51阅读:222来源:国知局
一种融合型神经网络的人员再检测方法与流程

本发明涉及人员再检测技术领域,尤其涉及一种融合型神经网络的人员再检测方法。



背景技术:

随着对跨境跟踪技术的关注不断增加,人员再检测技术也是一大研究热点。在实践中,由于许多外界因素的影响,更是加大了人员再检测技术的挑战。近年来,公共安全越来越受重视,马路上随处可见摄像监控。在安全和执法相关应用中,迫切需要在监控摄像机中识别行人的能力。传统方法中,识别行人的操作是由相关操作人员执行的,通常有边缘,梯度等手动设计特征,称为手动筛选;但是,在现在互联网的世界中,数据规模愈来愈大,手动筛选的方法已经不能满足人们的需要,因此,期望在不同摄像机中自动而又准确的匹配到行人,通常称为人员再检测,或称为行人再识别。在早期的研究中,由于图像处理,模式识别等相关技术的不成熟,人员再检测技术的发展也止步不前;近些年,高清摄像头的出现,图像处理技术的发展,使得人员再检测技术得到快速前进。然而,在发展前进的道路中,人员再检测技术面临着极大的挑战。不同的摄像装置存在着拍摄差异;同时行人在运动中也存在多样性的变化,其外观容易受到衣着、体型、姿势、实物的遮挡、光照背景等影响。



技术实现要素:

针对现有技术的不足,本发明的目的是提供了一种融合型神经网络的人员再检测方法,首先针对数据集小,训练样本不足问题,提出利用改进型的生成式对抗网络(gan)扩大数据集;然后利用颜色模型hsv和尺度不变局部三元模式结合神经网络特征融合的方案有效地解决提取特征的问题;再者,在分类模型中,利用交叉熵损失来进行计算相似度量。此外,神经网络选用了收敛速度快,提取效果好的残差网络,并在最后的卷积层前加入了dropout层,旨在防止过拟合。实验结果表明,在样本较少时,通过该特征融合方案有效的提取特征,具有一定的应用价值。

本发明提供一种融合型神经网络的人员再检测方法,所述方法分为三个部分组成,第一部分涉及生成式对抗网络,利用生成式对抗网络gan扩大数据集;第二部分为卷积神经网络,利用卷积,池化,激活函数基本操作来处理利用gan网络产生的生成图像,结合额外的手动特征来提取输入图像,然后外接一个融合层,将卷积神神经网络和手动提取的特征进行融合,得到一个表征更完备的图像描述特征;第三部分为将最小化交叉熵应用于分类模型中,对人员再检测进行精度排序。

生成式对抗网络(gan)属于无监督式学习网络,迅速应用于各类计算机视觉领域,在深度学习乃至机器学习中取得巨大成功。gan包含生成式模型g和判别式模型d。生成器g学习如何从一个输入图像生成一张图像,而判别器d学习判断生成的图像是真实的图片还是由生成器g生成的“假的图像”,两个模型在互相博弈中取得学习,也称对抗式学习,使得生成图像逐渐逼近原始图像。为了进一步提升gan的稳定性能和生成图片的质量性能,可以从两个方面考虑:一是如何寻找更好的模型来训练gan网络;二是如何改进gan中的损失函数。由此得到改进网络deepconvolutionalgenerativeadversarialnetworks(dcgan)和leastsquaresgenerativeadversarialnetworks(lsgan),本发明使用dcgan。

进一步改进在于:所述gan中的g和d为两个卷积神经网络,利用生成器g中用反卷积进行上采样,判别器d中用加入stride的卷积代替pooling,并且生成器g中使用relu层,判别器d中使用leakyrelu。第一大特色模块为相比于gan在细节方面做了一下改进,把经典gan中的g和d换成了两个卷积神经网络(cnn)。但是,并不是直接替换,利用生成器g中用反卷积进行上采样,判别器d中用加入stride的卷积代替pooling,并且生成器g中使用relu层,判别器d中使用leakyrelu。首先从一个100维的随机向量开始,然后用一个线性函数将它放大到4×4×1024。为了扩大这个张量,使用了4个步幅为2的微步幅卷积函数,它的内核大小为5×5。每一个微步幅卷积函数之后都有一个修正的线性单元和批处理单元。此外,还有一个可选步幅为1的反卷积层,它的内核大小为5×5,并加入了一个tanh激活函数来微调结果。最后可以生成一个大小为64×64×3的样本。后可接双线性采样方法将生成的图像调整大小为256×256×3。这些图片是dcgan在人脸数据集以及风景数据集上训练之后的生成图片,可以看到利用dcgan再迭代次数高的情况下可以生成质量非常高的图片集,可达到扩充数据集的效果。

dcgan的训练框架来对原始数据集的图像进行训练,训练前调整所有图像大小为128×48,并将其随机翻转,以便获得更随性的数据。训练迭代次数设置为50次,生成26000张256×256大小的图像。

将特征提取模块分为两部分:传统手动提取特征和卷积神经网络提取特征。采用传统的颜色描述符hsv和尺度不变局部三元模式(siltp)来提取输入图像集。siltp是众所周知的局部二元模式(lbp)的改进算子,lbp在单调灰度变换下具有良好的不变性,但它对图像噪声不稳健。siltp通过引入尺度不变的局部比较容差来改善lbp,实现强度尺度变化的不变性和图像噪声的鲁棒性。

进一步改进在于:第一部分前对图像进行预处理,对图像进行等效分割处理,将图像水平方向分为六个条带,并对每一水平条带构建图像金字塔,计算单个直方图,旨在拥有更完善的多尺度信息。得到的直方图实现了视点变化的一些不变性,同时捕获了人的局部区域特征。具体操作如下:对原始128×48图像进行下采用,由两个2×2的滑动子窗口进行局部平均合并操作来描述人物图像的局部细节,子窗口步长为5像素,并重复上述过程,根据计算局部最大出现次数,最终得到两个siltp直方图和8×8×bin的联合hsv直方图,每个直方图箱表示子窗口中一个模式的发生概率。为了解决视点变化,检查相同水平位置的所有子窗口,并最大化这些子窗口中每个模式的局部出现(即相同的直方图框)。得到的直方图实现了视点变化的一些不变性,同时捕获了人的局部区域特征。将得到的两者单一直方图,采用l1-norm进行标准化处理,将两者连成一个整体得到融合特征,称为联合描述子ffd(fusionfeaturedescription)大小为960尺寸。然而,也可能丢失条带内的空间信息,从而缺少必要的特征表示,影响分辨效果。

进一步改进在于:生成图片采用残差网络resnet来提取特征。

大部分的身体部位可以在图像中找到,但存在一些严重的扭曲和错位,因此,网络中的最后一个全连接层采用更高级别的卷积层,卷积层由预定义大小的过滤器堆叠组成,这些过滤器与层的输入卷积。卷积层使用的参数共享比密集矩阵乘法更有效(需要更少的计算和存储器存储)。参数共享还可以使卷积层与线性平移等效(即,输入中的任何移位将导致输出中的类似移位)。另外,池化层也多采用相应的非线性表达,这有助于特征提取的归一化。

dcgan生成图像数据集运用神经网络resnet18来进行特征提取,没有选取更深的网络,是防止梯度爆炸,以及层数增多所带来的训练要求高,时间长等缺点。此外,残差网络能通过残差函数很好的解决退化等问题,实现网络优化,收敛更快的效果。

本发明中所有训练图像在神经网络训练前被调整为256×256大小,然后随机水平翻转并裁剪为224×224大小。神经网络训练时,先给定学习率为0.05,然后在40次迭代训练后降低为0.001,训练集上分别迭代训练40次。训练策略应用小批量随机梯度下降sgd(stochasticgradientdesent)来修正参数,以实现更快的反向传播和更快的收敛。并在最后的卷积层前加入了dropout层用来防止过拟合。绘制训练和校验损失曲线,可见当迭代30-40次以后训练效果基本达到最优。

进一步改进在于:手动特征提取的算子与cnn提取算子结合,经过一个融合层,两个特征提取通道互补得到一个2048的张量的特征来表征图像输入为:x=[hs,rn_features],通过下述公式计算输出:其中h(·)表示激活函数。

进一步改进在于:采用下采样层和relu层,下采样率设置为0.5,神经网络采用反馈传播算法,迭代公式为:

目标是有效的提取每张图像上的完备特征,而不是利用神经网络网络提取特征进行对比。因此,不是采用验证模型,而是选取分类模型。高效的特征表示会带来更低的损失。此处,选用softmax损失函数应用于模型中。对于单个输入向量x和单个输出节点最后一层,损失可以通过以下公式计算:网络的最后一层设计为最小化交叉熵损失:

本发明的有益效果是:首先采用改进过的gan网络对viper数据集进行扩充,得到26000张256×256图像集,这对于特征提取有很好的减小过拟合情况;再者,用手动提取和神经网络提取相结合,对输入数据集和生成数据集进行特征提取,经过融合层得到更完备的特征表述;最后经过分类模型,采用rank-k评价指标,通过计算交叉熵损失来对指定图像和测试集中图像的相似度进行排序。得到的结果与传统算法结果相较,性能有一定的提升。利用深度神经网络由以端到端方式同时学习的多层线性和非线性操作的学习方法。为准确地提取出具有鲁棒性能好的语义特征,通过多次迭代学习这些层的参数。为扩充数据集,采用生成式对抗网络gan生成大量高质量的清晰图片。因此,在大量级的特征提取下,有效的改进了最初方法,性能得到了一定的提升。

附图说明

图1是本发明的re-id框架图。

图2是本发明的dcgan网络结构图。

图3是本发明的残差网络设置单元图。

图4是本发明的残差网络训练精度和校验损失曲线。

具体实施方式

为了加深对本发明的理解,下面将结合实施例对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。如图1-4所示,本实施例提供一种融合型神经网络的人员再检测方法,所述方法分为三个部分组成,第一部分涉及生成式对抗网络,利用生成式对抗网络gan扩大数据集;第二部分为卷积神经网络,利用卷积,池化,激活函数基本操作来处理利用gan网络产生的生成图像,结合额外的手动特征来提取输入图像,然后外接一个融合层,将卷积神神经网络和手动提取的特征进行融合,得到一个表征更完备的图像描述特征;第三部分为将最小化交叉熵应用于分类模型中,对人员再检测进行精度排序。

所述gan中的g和d为两个卷积神经网络,利用生成器g中用反卷积进行上采样,判别器d中用加入stride的卷积代替pooling,并且生成器g中使用relu层,判别器d中使用leakyrelu。

第一部分前对图像进行预处理,对图像进行等效分割处理,将图像水平方向分为六个条带,并对每一水平条带构建图像金字塔,计算单个直方图,得到的直方图实现了视点变化的一些不变性,同时捕获了人的局部区域特征。

生成图片采用残差网络resnet来提取特征。

手动特征提取的算子与cnn提取算子结合,经过一个融合层,两个特征提取通道互补得到一个2048的张量的特征来表征图像输入为:x=[hs,rn_features],通过下述公式计算输出:其中h(·)表示激活函数。

采用下采样层和relu层,下采样率设置为0.5,神经网络采用反馈传播算法,迭代公式为:

目标是有效的提取每张图像上的完备特征,而不是利用神经网络网络提取特征进行对比。因此,不是采用验证模型,而是选取分类模型。高效的特征表示会带来更低的损失。此处,选用softmax损失函数应用于模型中。对于单个输入向量x和单个输出节点最后一层,损失可以通过以下公式计算:网络的最后一层设计为最小化交叉熵损失:

相较与传统人员再检测算法,本实施例在构建网络框架的时候做了相应的优化:(1)当图像集较少时,在特征提取模块会缺少有用的信息描述,从而导致过拟合等现象,本实施例采用了dcgan网络生成大量图片,扩充了输入数据集,可有效减消这一情况;(2)在特征提取的模块运用传统手工特征提取和神经网络相结合,颜色信息和纹理信息相结合,能提取更完备的特征表征,采用resnet网络,并加入额外的卷积层,下采样等操作,可以达到更好的训练效果;(3)分类模型中通过交叉熵模型引入dropout,可以达到减小过拟合现象。因此,在viper数据集上训练精度比传统算法的训练精度要高,具体情况如下表1:

表1单行人检索评估表

根据上表可以看出,提出的结合手动提取与神经网络提取特征融合的方法要比传统的特征学习和度量学习所检测的效果要好。传统单一的特征提取的精度不能满足于需求。未来进一步可在缩短训练运行时间上继续发展,可对得到的融合特征进行再处理。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1