一种基于改进udn提取联合特征的行人检测方法

文档序号:9579604阅读:588来源:国知局
一种基于改进udn提取联合特征的行人检测方法
【技术领域】
[0001] 本发明属于计算机视觉的技术领域,具体地涉及一种基于改进UDN提取联合特征 的行人检测方法,主要用于车辆辅助驾驶、智能视频监控和人体行为分析等行业。
【背景技术】
[0002] 近年来,随着深度学习的发展,深度学习中的卷积神经网络(Convolutional NeuralNetworks,CNN)在行人检测中取得了很好的效果。CNN的特点在于,直接基于图像 检测行人区域,避免了传统识别算法中复杂的特征提取过程;卷积层利用局部感受视野策 略获取的特征与对象的平移、缩放和旋转无关,因此所获得的特征具有较好的鲁棒性;卷积 核的权值共享结构减少了权值的数量进而降低了网络模型的复杂度,这一点在输入特征图 是高分辨率图像时表现的更为明显;同时,下采样阶段利用图像局部相关性原理对特征图 进行的子抽样在保留有用结构信息的同时,有效地减少了数据的处理量,因此CNN被广泛 应用于特征提取。
[0003]PierreSermanet等人在2013年提出无监督多级特征学习的行人检测模型 ConvNet。该网络包含三个卷积层,并将第二层卷积下采样后获得的特征与第三次卷积得到 特征进行融合,最后通过全连接实现行人检测。在训练方法上,提出了无监督卷积稀疏自 编码方法对网络参数进行预训练,然后采用end-to-end的有监督方法进行微调,该方法在 Caltech上的平均漏检率为77. 20%。
[0004]同年WanliOuyang等人结合CNN和DBN构建了UDN(UnifiedDeepNet,统一深度 模型),将行人检测的平均漏检率降到了 39.32%。但是,UDN在进行分类时,容易把树木、 电线杆等与行人有相似整体轮廓的非行人物体误判为行人,因此行人检测的平均漏检率还 是比较高。

【发明内容】

[0005] 本发明的技术解决问题是:克服现有技术的不足,提供了一种基于改进UDN提取 联合特征的行人检测方法,所提方法能够有效降低行人检测的平均漏检率。
[0006] 本发明的技术解决方案是:这种基于改进UDN提取联合特征的行人检测方法,该 方法包括以下步骤:
[0007] (1)图像预处理:对原始输入图像中人体的整体特征和头部特征进行不同的预处 理,使图像的边缘和颜色特征更加突出,便于神经网络的特征提取;
[0008] (2)基于卷积神经网络CNN模型对预处理的图像提取人体整体特征;
[0009] (3)基于卷积神经网络CNN模型对预处理的图像的上1/3部分提取局部特征;
[0010] (4)对步骤⑵和⑶输出的类别概率进行加权平均得到最终概率值,根据最终概 率值判断原始输入图像是否包含行人。
[0011] 由于行人检测场景主要是针对户外道路交通图像/视频,而该场景下最容易与人 体图像混淆的是树木、电线杆等柱状物体,而这些物体与人体图像相比在头部区域位置的 特征差别较大,因此提出联合人体整体图像特征和头部图像特征来进行行人检测,并且以 图像的上1/3部分作为头部图像,因此能够降低行人检测的平均漏检率。
【附图说明】
[0012] 图1是根据本发明的步骤(1)图像预处理的流程图。
[0013] 图2是根据本发明的步骤⑵-⑷的结构示意图。
[0014] 图3是本发明在Caltech数据库上的检测结果。
【具体实施方式】
[0015] 这种基于改进UDN提取联合特征的行人检测方法,该方法包括以下步骤:
[0016] (1)图像预处理:对原始输入图像中人体的整体特征和头部特征进行不同的预处 理,使图像的边缘和颜色特征更加突出,便于神经网络的特征提取;
[0017] (2)基于卷积神经网络CNN模型对预处理的图像提取人体整体特征;
[0018] (3)基于卷积神经网络CNN模型对预处理的图像的上1/3部分提取局部特征;
[0019] (4)对步骤⑵和⑶输出的类别概率进行加权平均得到最终概率值,根据最终概 率值判断原始输入图像是否包含行人。
[0020] 由于行人检测场景主要是针对户外道路交通图像/视频,而该场景下最容易与人 体图像混淆的是树木、电线杆等柱状物体,而这些物体与人体图像相比在头部区域位置的 特征差别较大,因此提出联合人体整体图像特征和头部图像特征来进行行人检测,并且以 图像的上1/3部分作为头部图像,因此能够降低行人检测的平均漏检率。
[0021] 优选地,所述步骤(1)中将原图像转换到YUV颜色空间,对转换后的图像提取边 缘特征,利用原图像和边缘图像组合得到CNN输入的三个通道;其中对于人体的整体特征, 第一个通道是原图的Y通道;第二个通道被均分为四个block,分别是Y通道,U通道,V通 道,和全0;第三个通道是对原图像进行高斯滤波后提取的边缘特征图像,也是分为四个 block,其中前三个block是利用sobel算子针对原图像YUV三个通道分别计算的图像边 缘,第四个block是YUV三个通道的边缘的最大值;其中对于人体的头部特征,第一个通道 是原图的Y通道;第二个通道是输入图像的H0G特征;第三个通道被均分为4个block,前 三个block是利用sobel算子针对源图像YUV三个通道分别计算出图像边缘,第四个block 是YUV三个通道的边缘的最大值。
[0022] 优选地,在所述步骤(1)中还包括:将预处理后的图像作为正样本,对正样本进行 镜像翻转,并将翻转后得到的图像标定为训练集的正样本的扩充。
[0023] 优选地,所述步骤(2)包括:卷积层特征提取、进行形变计算、通过分类估计模型 进行分类估计。
[0024] 优选地,所述步骤(3)包括:第一次卷积、池化、第二次卷积。
[0025] 现在给出一个本发明的详细实施例。
[0026] 本发明主要涉及基于多特征的行人检测方法。行人检测的关键点是找到可能包含 人体的图像区域。考虑到人体头部相对于多变的人体姿势而言具有更好的不变性和相对于 树、电线杆等物体具有很好的区分性,本发明通过提取人体头部图像区域的特征辅助行人 检测。
[0027] 本发明所用到的基础数据来自Caltech数据库,训练和测试样本图像均为Wanli Ouyan等人利用H0G+CSS+SVM对Caltech数据库中的图像进行区域划分和分类后得到的图 像集,每张图像是数据库中原图像分割得到的84X28大小的区域图像,正样本图像是包含 行人的图像,负样本是不包含行人的图像。
[0028] 本发明提出的行人检测网络模型包含两个子网,分别用于提取行人的整体特征和 区域特征,行人的整体特征提取采用类似于UDN的网络结构。基于两个子网提取的特征分 别计算该图像属于行人类别的得分,对两部分得分进行加权求和求出该样本是行人类别的 概率。
[0029] 1、图像预处理
[0030] 适当的图像预处理方法,可以消除原始图像中的天气、光照等环境影响,使图像的 边缘和颜色特征更加突出,便于神经网络的特征提取。由于人体的整体特征和头部特征的 分布不同,我们对这两个特征图的原始输入进行不同的预处理。
[0031] 1.1卷积网络输入数据
[0032] 本发明首先将源图像转换到YUV颜色空间,对转换后的图像提取边缘特征,利用 源图像和边缘图像组合得到CNN输入的三个通道(如图1)。
[0033] 整体特征CNN:第一个通道是原图的Y通道;第二个通道被均分为四个block,分 别是Y通道,U通道,V通道,和全0 ;第三个通道是对源图像进行高斯滤波后提取的边缘特 征图像,也是分为四个block,其中前三个block是利用sobel算子针对源图像YUV三个通 道分别计算的图像边缘,第四个block是YUV三个通道的边缘的最大值。
[0034] 局部特征CNN:该网络使用的源图像是整体特征CNN网络所用源图像的上1/3区 域图像。网络输入第一个通道是原图的Y通道;第二个通道是输入图像的H0G特征;第三个 通道被均分为4个block,前三个block是利用sobel算子针对源图像YUV三个通道分别计 算出图像边缘,第四个block是YUV三个通道的边缘的最大值。
[0035] 1. 2训练样本扩充
[0036] 由于所用数据集为车载摄像头拍摄的街景视频,正样本数量较少,为了提高算法 的泛化能力,本发明采用对正样本进行镜像翻转并将反转后得到的图像标定为训练集的正 样本的扩充方法。网络训练时,输入样本为随机选择得到,每组实验输入60个样本,包括50 个负样本和10个正样本。
[0037] 2、行人检测网络模型
[0038] 本发明的网络结构联合考虑图像区域整体特征与图像上1/3区域的局部特征,网 络结构如图2所示。
[0039] 2. 1待检测区域整体特征提取
[0040] 基于图像提取人体整体特征是指将源图像作为网络的输入,提取行人特征,便于 行人与非行人的判别。
[0041] 2. 1. 1卷积层特征提取
[0042] 本发明中整体特征提取由2个卷积层和1个池化层交替完成。卷积操作实现输入 信号在特定模式下的观测。第一层卷积操作的输入^是84X28大小的图像,卷积核大小 为9X9,输出特征图7]的计算公式如式(2. 1)所示:
[0043] yj=bj+Σ (2. 1)
[0044] 其中,i表示输入特征图的数量,j表示输出特征图的数量,Wg为待求的卷积核参 数,b,是偏置参数,wu和b,在实验开始时采用随机初始化的方式获取。
[0045] 接下来对卷积阶段得到的特征按照一定的原则进行筛选,通常采用非线性变换函 数作为筛选策略。本发明采用的非线性变换函数是softplus,因为softplus与神经学领 域提出的脑神经元激活频率函数有相似的特性,且在训练梯度下降时,softplus比传统的 sigomid等饱和非线性函数有更快的收敛速度,其公式如式(2. 2)所示:
[0046]softplus:y=log(l+ex) (2. 2)
[0047] 其中,x表示卷积阶段得到的特征,y表示激活函数的输出结果。池化阶段采用的 是平均池化方式,通过计算每4X4邻域内像素的均值
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1