一种基于图像的行人检测方法及装置与流程

文档序号:13422455阅读:262来源:国知局
一种基于图像的行人检测方法及装置与流程

本发明涉及计算机视觉技术领域,具体涉及一种基于图像的行人检测方法及装置。



背景技术:

近年来,以机器学习为主导的人工智能发展迅猛,在众多领域都取得了重大突破。计算机视觉就是人工智能领域下一个非常重要的研究热点和难点,在计算机视觉领域下目标的检测又是研究的重点,其中最为活跃的一个研究方向就是关于行人的检测。行人检测即是将图像中出现的行人从背景中区分出来并精准定位。但是由于人体姿态各异,衣着变化多样,图像容易受到光照和环境影响,以及人体部位被遮挡等因素,行人检测一直是计算机视觉领域研究的难点。在现实生活中,行人检测在许多领域都有广泛应用。如视频监控领域、智能机器人领域、汽车辅助驾驶和自动驾驶领域,这些领域中行人检测是必不可少的技术。在社会迈向智能化的道路上,行人检测会发挥越来越大的作用,然而当前的行人检测方法的准确性却达不到应用要求,所以针对行人检测的困难研究设计具有鲁棒性方法是非常重要的。

因此,如何有效提高行人检测方法的准确性和检测效率是一个亟待解决的问题。



技术实现要素:

针对现有技术中的缺陷,本发明实施例提供一种基于图像的行人检测方法及装置。

第一方面,本发明实施例提供一种基于图像的行人检测方法,所述方法包括:

接收原始图像,并对所述原始图像进行处理得到所述原始图像的图像特征图;

提取所述原始图像的通道特征,并对所述通道特征进行处理得到通道深度特征图;

将所述图像特征图和所述通道深度特征图依次连接,并输入所述图像特征图和所述通道深度特征图到改进后的区域建议网络rpn模型中,以使所述改进后的区域建议网络rpn模型输出候选目标区域;

输入所述候选目标区域到图像判别模型中,以使所述图像判别模型输出定位行人的矩形框,从而输出行人检测结果。

可选的,所述对所述原始图像进行处理得到所述原始图像的图像特征图具体包括:

使用在图像识别网络imagenet上预先训练过的图像分类模型vgg16网络作为主体网络对所述原始图像进行特征提取,经过四层深度卷积神经网络对所述原始图像进行处理得到所述原始图像的图像特征图。

可选的,所述对所述通道特征进行处理得到通道深度特征图具体包括:

对所述原始图像进行预处理,在所述预处理阶段对所述原始图像进行一系列的线性和非线性的变换,每个图像经过不同的变换得到一个通道,再输入所述通道特征到一个三层的卷积神经网络中进行处理得到所述通道深度特征图。

可选的,所述图像判别模型具体包括:

一个感兴趣区域模型roi层,两个全连接层,一个逻辑回归层和一个边框bbox回归层。

可选的,所述通道具体包括:

颜色空间luv通道、梯度强度通道和梯度直方图通道。

第二方面,本发明实施例提供一种基于图像的行人检测装置,所述装置包括:

图像特征图获取模块,用于接收原始图像,并对所述原始图像进行处理得到所述原始图像的图像特征图;

通道深度特征图获取模块,用于提取所述原始图像的通道特征,并对所述通道特征进行处理得到通道深度特征图;

候选目标区域输出模块,用于将所述图像特征图和所述通道深度特征图依次连接,并输入所述图像特征图和所述通道深度特征图到改进后的区域建议网络rpn模型中,以使所述改进后的区域建议网络rpn模型输出候选目标区域;

检测结果输出模块,用于输入所述候选目标区域到图像判别模型中,以使所述图像判别模型输出定位行人的矩形框,从而输出行人检测结果。

可选的,所述图像特征图获取模块具体用于:

使用在图像识别网络imagenet上预先训练过的图像分类模型vgg16网络作为主体网络对所述原始图像进行特征提取,经过四层深度卷积神经网络对所述原始图像进行处理得到所述原始图像的图像特征图。

可选的,所述通道深度特征图获取模块具体用于:

对所述原始图像进行预处理,在所述预处理阶段对所述原始图像进行一系列的线性和非线性的变换,每个图像经过不同的变换得到一个通道,再输入所述通道特征到一个三层的卷积神经网络中进行处理得到所述通道深度特征图。

可选的,所述图像判别模型具体包括:

一个感兴趣区域模型roi层,两个全连接层,一个逻辑回归层和一个边框bbox回归层。

可选的,所述通道具体包括:

颜色空间luv通道、梯度强度通道和梯度直方图通道。

第三方面,本发明实施例提供了一种电子设备,所述电子设备包括:

至少一个处理器;以及

与所述处理器通信连接的至少一个存储器,其中:

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述对应的任一方法。

第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述对应的任一方法。

本发明实施例提供的基于图像的行人检测方法及装置,通过将处理获得的图像特征图和通道深度特征图依次连接,输入到改进后的区域建议网络rpn模型中,获得候选目标区域,并通过将候选目标区域输入到图像判别模型中处理,输出定位行人的矩形框从而获得行人检测结果,本发明实施例实现了行人检测的准确性和实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于图像的行人检测方法的流程示意图;

图2为本发明实施例中基于图像的行人检测装置的结构示意图;

图3为本发明一个实施例提供的电子设备的逻辑框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种基于图像的行人检测方法,图1为本发明实施例中基于图像的行人检测方法的流程示意图,如图1所示,所述方法包括:

步骤s101、接收原始图像,并对所述原始图像进行处理得到所述原始图像的图像特征图;

其中,所述图像特征图(或者叫地标图)是指利用参数化特征(如点和线)的全局位置来表示环境。机器人的外部环境被一系列参数化的特征,即二维坐标点表示。这些静态的地标点被观测器(装有传感器的机器人)利用多目标跟踪的方法跟踪,从而估计机器人的运动。

步骤s102、提取所述原始图像的通道特征,并对所述通道特征进行处理得到通道深度特征图;

其中,所述通道是指,对于一个给定的输入图像,其所对应的通道就是原图的某种映射,对通道的一个简单解释就是灰度图,对灰度图而言,其通道就是灰度图本身;对于彩图而言,每一个颜色通道就意味着一个通道,其他的通道可以通过对原图进行各种线性和非线性的变换得到。通过大量文献发现,以下通道是常用的:灰度和彩图,线性滤波,非线性变化,逐点变化,积分直方图和梯度直方图等。

所述通道深度特征图是指,低阶通道特征通过多层卷积神经网络处理后,自动学习得到的高阶深度特征图。

步骤s103、将所述图像特征图和所述通道深度特征图依次连接,并输入所述图像特征图和所述通道深度特征图到改进后的区域建议网络rpn模型中,以使所述改进后的区域建议网络rpn模型输出候选目标区域;

其中所述区域建议网络rpn是指一个全卷积网络,在每个位置同时预测目标边界和objectness得分,rpn是端到端训练的,生成高质量区域建议框。

所述改进后的区域建议网络rpn模型是指将原rpn模型做了一些改进,每个anchor使用固定的宽高比0.4,然后从40像素开始以1.3倍的步长生成9个不同大小的anchor。

步骤s104、输入所述候选目标区域到图像判别模型中,以使所述图像判别模型输出定位行人的矩形框,从而输出行人检测结果。

其中,所述图像判别模型具体包括一个感兴趣区域模型roi层,两个全连接层,一个逻辑回归层和一个边框bbox回归层。

本发明实施例提供的基于图像的行人检测方法,通过将处理获得的图像特征图和通道深度特征图依次连接,输入到改进后的区域建议网络rpn模型中,获得候选目标区域,并通过将候选目标区域输入到图像判别模型中处理,输出定位行人的矩形框从而获得行人检测结果,本发明实施例实现了行人检测的准确性和实时性。

在上述实施例的基础上,所述对所述原始图像进行处理得到所述原始图像的图像特征图具体包括:

使用在图像识别网络imagenet上预先训练过的图像分类模型vgg16网络作为主体网络对所述原始图像进行特征提取,经过四层深度卷积神经网络对所述原始图像进行处理得到所述原始图像的图像特征图。

在上述实施例的基础上,所述对所述通道特征进行处理得到通道深度特征图具体包括:

对所述原始图像进行预处理,在所述预处理阶段对所述原始图像进行一系列的线性和非线性的变换,每个图像经过不同的变换得到一个通道,再输入所述通道特征到一个三层的卷积神经网络中进行处理得到所述通道深度特征图。

在上述实施例的基础上,所述图像判别模型具体包括:

一个感兴趣区域模型roi层,两个全连接层,一个逻辑回归层和一个边框bbox回归层。

在上述实施例的基础上,所述通道具体包括:

颜色空间luv通道、梯度强度通道和梯度直方图通道。

本发明实施例的具体实施方式为:

获取原始图像数据,通过一个四层深度卷积神经网络对整幅图像进行处理,得到图像的特征图;提取原始图像的通道特征,然后将通道特征输入一个三层的深度卷积神经网络,得到通道的特征图;将图像特征图和通道深度特征图依次连接输入改进的rpn网络中,生成候选目标区域;然后将候选目标区域输入一个两层的全连接神经网络,再分别输入到一个逻辑回归分类器和一个边框bbox回归模型中,得到每个候选目标区域的置信度和边界信息;使用置信度阈值0.6来筛选候选目标区域,去掉低于阈值的候选目标区域,然后使用非极大值抑制技术,处理叠加的候选目标区域,得到最优预测结果;将置信度和边界信息在原始图像中展现处理,输出行人置信度和定位行人的矩形框,达到对行人进行检测的目的。

所述方法首先使用在imagenet上预训练过的vgg16网络作为主体网络对原始图片进行特征提取。采用vgg16模型的前四层卷积层,这样既能有比较高的抽象能力,又能克服卷积池化层过多带来的感受野过大影响小目标检测效果的问题。

第一层卷积层使用卷积核大小为3*3,步长为1,通道数为64的双层卷积神经网络进行处理;然后将结果送入最大池化层,最大池化层设定池化窗口为2*2,步长为2,通道数不变;

第二层卷积层使用卷积核大小为3*3,步长为1,通道数为128的双层卷积神经网络进行处理;然后将结果送入最大池化层,最大池化层设定池化窗口为2*2,步长为2,通道数不变;

第三层卷积层使用卷积核大小为3*3,步长为1,通道数为256的三层卷积神经网络进行处理;然后将结果送入最大池化层,最大池化层设定池化窗口为2*2,步长为2,通道数不变;

第四层卷积层使用卷积核大小为3*3,步长为1,通道数为512的三层卷积神经网络进行处理,这一层不使用池化层,直接输出结果。

经过卷积后,原始图片生成一个有512个通道的特征图(conv4_3)。

其次提取图像的通道特征,通道特征是针对输入图像进行预处理,在预处理阶段对原始图像进行一系列的线性和非线性的变换,每一个图像经过不同的变换得到一个通道。在行人检测中,luv通道、梯度强度通道和梯度直方图通道等都是非常有效的通道。

然后将通道特征输入一个三层的卷积神经网络中,每层都包含两个卷积层和一个最大池化层,卷积层卷积核大小为3,步长为1,最大池化层卷积核大小为2,步长为2。

第一层输出通道数为64,第二层通道数为128,第三层通道数为256,最终输出一个256通道的激活图,大小为输入通道特征的1/8。

然后将所有得到的通道深度特征图依次连接起来,输入到rpn模型中,rpn模型相对于原始版本进行一些改进,每个anchor使用固定的宽高比0.4,然后从40像素开始以1.3倍的步长生成9个不同大小的anchor。以特征图上的每个点为中心利用3*3的滑动窗口在特征图上滑动,得到w*h*9个anchor,每个3*3的滑动窗口用卷积神经网络生成一个768维的特征,分别连接分类层和回归层。分类层输出18个分类结果,用于判断对应滑动窗口的9个anchor是目标还是背景;回归层输出36个结果,分别对应每个anchor所预测的候选目标区域的4个位置信息。最后选取目标置信度最高的300个区域作为最终候选目标区域。

将生成的候选目标区域投入到图像判别模型中,模型含有一个感兴趣区域模型roi层、两个全连接层、一个逻辑回归层和一个边框bbox回归层构成。

roi层对不同大小的候选目标区域进行处理,生成一个相同维数的向量。然后将这个向量输入到两个全连接的神经网络中,每层神经网络都有4096个参数,然后将这个全连接神经网络的输出分别输入逻辑回归层和边框bbox回归层。

逻辑回归层用于行人分类,y=0代表候选目标区域是背景,y=1代表候选目标区域是行人,最终结果输出两者的概率。

其中候选目标区域为行人的概率为

损失函数为:

最终输出行人的概率(置信度)和背景的概率;

其中,yi表示第i个候选目标区域的预测结果,0表示是背景,1表示是行人;xi表示第i个候选目标区域的输入值,这里面就是候选目标区域经过处理在全连接神经网络层后得到的一个4096维的向量(x向量);

ωt是w向量的转置,w向量与x向量维数相同,w向量里面的每一参数于对应位置x向量的参数相乘,w就相当于x的权重,最后乘出来得到的是一个常数;

p(yi=1|xi)表示在xi的条件下yi=1的概率,也就是输入第i个候选目标区域,该区域是行人的概率。

损失函数l(ω)是用来评价模型的预测值和真实值的不一致程度,是一个非负实值函数。损失函数越小,模型的性能就越好。

边框bbox回归层通过回归预测得到行人的边界信息;使用置信度阈值0.6来筛选候选目标区域,去掉低于阈值的候选目标区域,然后使用非极大值抑制技术,处理叠加的候选目标区域,得到最优预测结果;

将置信度和边界信息在原始图像中展现处理,输出行人置信度和定位行人的矩形框,达到对行人进行检测的目的。

本发明实施例提供的基于图像的行人检测方法,通过将处理获得的图像特征图和通道深度特征图依次连接,输入到改进后的区域建议网络rpn模型中,获得候选目标区域,并通过将候选目标区域输入到图像判别模型中处理,输出定位行人的矩形框从而获得行人检测结果,本发明实施例实现了行人检测的准确性和实时性。

本发明实施例提供一种基于图像的行人检测装置,图2为本发明实施例中基于图像的行人检测装置的结构示意图,如图2所示,所述装置包括:图像特征图获取模块201、通道深度特征图获取模块202、候选目标区域输出模块203和检测结果输出模块204;其中,

图像特征图获取模块201用于接收原始图像,并对所述原始图像进行处理得到所述原始图像的图像特征图;通道深度特征图获取模块202用于提取所述原始图像的通道特征,并对所述通道特征进行处理得到通道深度特征图;候选目标区域输出模块203用于将所述图像特征图和所述通道深度特征图依次连接,并输入所述图像特征图和所述通道深度特征图到改进后的区域建议网络rpn模型中,以使所述改进后的区域建议网络rpn模型输出候选目标区域;检测结果输出模块204用于输入所述候选目标区域到图像判别模型中,以使所述图像判别模型输出定位行人的矩形框,从而输出行人检测结果。

本发明实施例提供的基于图像的行人检测装置,通过候选目标区域输出模块将处理获得的图像特征图和通道深度特征图依次连接,输入到改进后的区域建议网络rpn模型中,获得候选目标区域,并通过检测结果输出模块将候选目标区域输入到图像判别模型中处理,输出定位行人的矩形框从而获得行人检测结果,本发明实施例实现了行人检测的准确性和实时性。

在上述实施例的基础上,所述图像特征图获取模块具体用于:

使用在图像识别网络imagenet上预先训练过的图像分类模型vgg16网络作为主体网络对所述原始图像进行特征提取,经过四层深度卷积神经网络对所述原始图像进行处理得到所述原始图像的图像特征图。

在上述实施例的基础上,所述通道深度特征图获取模块具体用于:

对所述原始图像进行预处理,在所述预处理阶段对所述原始图像进行一系列的线性和非线性的变换,每个图像经过不同的变换得到一个通道,再输入所述通道特征到一个三层的卷积神经网络中进行处理得到所述通道深度特征图。

在上述实施例的基础上,所述图像判别模型具体包括:

一个感兴趣区域模型roi层,两个全连接层,一个逻辑回归层和一个边框bbox回归层。

在上述实施例的基础上,所述通道具体包括:

颜色空间luv通道、梯度强度通道和梯度直方图通道。

本发明提供的基于图像的行人检测装置是用来实现上述基于图像的行人检测方法的,所述基于图像的行人检测方法已经详细描述其具体实施方式,故在此不再赘述。

本发明实施例提供的基于图像的行人检测方法,通过将处理获得的图像特征图和通道深度特征图依次连接,输入到改进后的区域建议网络rpn模型中,获得候选目标区域,并通过将候选目标区域输入到图像判别模型中处理,输出定位行人的矩形框从而获得行人检测结果,本发明实施例实现了行人检测的准确性和实时性。

图3为本发明一个实施例提供的电子设备的逻辑框图,如图3所示,所述电子设备,包括:处理器(processor)301、存储器(memory)302和总线303;

其中,所述处理器301和存储器302通过所述总线303完成相互间的通信;所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1