基于网格划分及神经网络的目标物入侵检测方法及装置与流程

文档序号:12035775阅读:341来源:国知局

本发明涉及图像识别领域,具体地涉及一种基于网格划分及神经网络的目标物入侵检测方法及装置。



背景技术:

在狭义上目标检测算法统称为目标定位算法,但目标检测算法可以同时定位出不同物体的位置。起重机检测属于目标检测的一种,对于人类来说看到并区分与其他物体的区别并不困难,通过对图片中不同颜色模块和对比度的分布以及很容易定位并分类出其中目标物体。对于计算机来说,研究人员也研究了大量的目标检测算法,在图片质量足够清晰、目标足够大时,这些检测算法勉强能够让人满意。传统的目标检测一般使用滑动窗口的框架,利用不同尺寸的滑动窗口提取候选区域,在获选区域中根据经验来提取明显特征,该特征作为区分候选区域中是否存在需要检测的目标。

在目标检测算法领域,最初使用的目标检测算法是利用图像处理的方法,在二值化的基础上找到起重机的大概位置,并把疑似位置的图片与库中相比,得到与起重机的相似度;其次利用传统目标检测算法,采用的是滑动窗口框架,结合传统机器学习方法,检测效果相比图像处理的方法有较大的改善;随着深度学习和卷积网络的广泛使用,基于卷积网络的目标检测算法也开始逐渐出现,进一步提高检测目标在复杂环境下的检测率。

在高压线下,起重机升起吊臂时经常会威胁到电线安全,引起大面积断电。但是传统目标检测算法不能检测出距离较远的起重机,特别是出现在大量树木、建筑物、光照较强时大大降低了算法的鲁棒性。同时,起重机车身有不同颜色,吊杆升起前后也有不同形状,所以使用传统的单一算法不适合用于起重机检测。



技术实现要素:

本发明旨在提供一种基于网格划分及神经网络的目标物入侵检测方法,以解决目前算法无法在各种环境下对诸如起重机的目标物实现准确检测的问题。为此,本发明采用的具体技术方案如下:

基于网格划分及神经网络的目标物入侵检测方法,可包括以下步骤:

s1、采集目标物图片样本并对其进行预处理,记录目标物在图片样本中的外接矩形框坐标;

s2、将图片样本划分为等分化成w*h个网格,再将其分类为正样本网格、部分样本网格和负样本网格,其比例记为n1:n2:n3,同时记录正样本网格和部分样本网格中目标物的实际外接矩形框坐标,其中,n1+n2+n3=1;

s3、通过线性加权求和以及非线性降维分别提取正样本网格、部分样本网格、负样本网格的特征热图谱并通过外接矩形框得到目标物在网格中的初始位置,将得到的初始位置、s2中的实际外接矩形框坐标以及相对应的特征热图谱作为输入,通过神经网络对每个网格中目标物的外接矩形框做回归运算,得到每个网格中目标物的预测外接矩形框坐标,其中,特征热图谱每个位置的数值表示每个像素属于目标物的概率,用于区分每个网格中是否包含目标物;

s4、选择最佳网格比例作为样本训练模型并将其作为最终运用模型,具体地,包括:

s41、计算分类误差closs,框误差rloss以及损失loss,其中,分类误差closs表示每个网格被分类正确与否的值,框误差表示目标物的外接矩形框的实际外接矩形框坐标与预测外接矩形框坐标之间的欧式距离,损失loss=0.5*closs+0.5*rloss;

s42、将n1、n2、n3的比例范围从0.01逐渐增大到0.99,重复步骤s2-s41,每选取一种比例,得到一个损失loss,选取所有损失loss中最小损失loss所对应的网格比例作为样本训练模型并将其作为最终运用模型;

s5、将样本训练模型的网格中的小于预定阈值的矩形框删除,然后将剩余矩形框根据属于目标物的概率从大到小排序,利用nms算法融合出少量的矩形框和对应的概率;如果这些矩形框之间没有叠加,则保留所有的矩形框;如果有叠加,则根据iou再次做框融合;当所有的网格融合成原图片大小时,剩下的矩形框就是目标物所在位置。

进一步的,所述步骤s5中的框融合具体为:将经过nms方法融合后的矩形框根据属于目标物的概率从大到小排序,遍历取出概率较大的两个矩形框,如果这两个矩形框的iou大于0.2,则融合这两个矩形框,并根据叠加区域的大小以加权求和的方式更新概率,直到所有的矩形框之间的iou小于等于0.2。

进一步的,所述神经网络包括输入层、4个线性加权求和层、3个非线性降维层和2个全连接层。

进一步的,线性加权求和的核大小为3,并采用xavier均匀分布来初始化权重;非线性降维采用局部最大值方法,核大小为2,步长为2,在每次非线性运算后,特征热图谱大小减少到原来的一半,以达到降维目的。

进一步的,所述线性加权求和的层数为2个;所述非线性降维的层数为2个。

进一步的,所述分类误差loss采用softmaxloss进行计算。

进一步的,所述目标物图片样本的采集包括从网络图库下载目标图片、实际拍摄目标图片以及人工合成目标图片。

进一步的,所述目标物为起重机。

进一步的,本发明还提出了一种基于网格划分及神经网络的目标物入侵检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法的步骤。

进一步的,本发明还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本发明采用上述技术方案,具有的有益效果是,本发明可以有效检测出起重机的位置,框出在其图片中的坐标点,准确率高。因此在监控起重机等的危险车辆方面具有极大的应用价值。

附图说明

图1是本发明实施例的流程图。

具体实施方式

为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

图1示出了本发明实施例的流程图。下面以起重机为例,对本发明的基于网格划分及神经网络的目标物入侵检测方法进行说明。但应该理解,本发明不限于此。

s1、图片样本采集及预处理

(1)采集起重机图片样本。起重机图片样本由三部分组成,第一部分来自于网络图库下载的一些不同种类、不同颜色、不同尺寸的起重机。第二部分是在现实生活中拍摄的起重机照片。第三部分为人工合成,现实中,不包含起重机的图片远比包含起重机的图片多,所以为了能够充分利用不包含起重机的图片,采用人工将起重机拼接到其他图片当中。例如添加了海边、小区、森林、天空、道路、不同天气、不同光照的起重机图片样本,从远到近、从模糊到清晰的起重机图片样本,以及添加了随机干扰噪声的起重机图片样本。其中第一部分占总样本容量的20%,第二部分占20%,第三部分占60%。总样本大概30000张图片。同时准备不同环境下的起重机图片作为测试样本,总量在8000张。

(2)起重机样本预处理。为了学习起重机与其他目标的区别和精确定位出起重机的位置,不仅要把起重机样本与非起重机样本分开,同时还需要用外接矩形框框出起重机并记录该外接矩形框的坐标点,把起重机的图谱特征和位置点作为训练输入,找到图谱特征与坐标点的联系。

s2、图片样本网格划分

为了保持原图片尽量不丢失细节,将图片按宽高比例划分成w*h个小网格,每个小网格的大小与网络输入近似。网格的大小与起重机有如下关系:有些网格包含整个起重机、有些网格包含起重机的一部分、有些网格不包含起重机,所以将网格分成三类,分别为正样本网格、部分样本网格、负样本网格,对于包含起重机的一部分的网格,将比例小于0.2时分为负样本网格,否则分成部分样本网格,这三类用于训练图谱生成(分类)网络。当然,应该理解,本发明的部分样本网格与负样本网格的分类不限于比例小于0.2。将正样本网格、部分样本网格、负样本网格的比例记为n1:n2:n3,满足n1+n2+n3=1。同时记录正样本网格和部分样本网格中起重机的实际外接矩形框坐标,形式为(xmin、ymin、xmax、ymax),用于训练神经网络。

s3、对网格提取特征热图谱并预测外接矩形框坐标

(1)网络设计。第一网络生成特征热图谱的分类网络,由于原图片被分成了w*h个网格,所以为了减少每个网格的运算量,我们只采用了两层的线性加权求和以及两层非线性降维。线性加权求和的核大小为3,并采用xavier均匀分布来初始化权重;在非线性降维层中,采用局部最大值方法,核大小为2,步长为2,在每次非线性运算后,特征热图谱大小减少到原来的一半,以达到降维目的;偏置初始化为常量0。当然,应当理解,本发明的分类网络不限于上述构造。

第二个网络为神经网络,该网络由输入层、4个线性加权求和层、3个非线性降维层、2个全连接层组成,采用xavier均匀分布来初始化权重。由于起重机在画面中所占的比例较小,所以需要减小网络的核,以便能够提取更细节的特征,同时增大网络的输入图片,图片宽高为512*512,考虑到检测起重机属于二分类问题,所以可以减少每层输出的特征热图谱,减少每层运算量,提高了效率。当然,应当理解,本发明的神经网络不限于上述构造。

(2)正样本网格、部分样本网格、负样本网格中的每个网格通过第一个网络的线性加权求和以及非线性降维生成特征热图谱,并通过外接矩形框得到起重机在网格中的初始位置。在第二个网络中,把第一个网络得到的初始位置、s2中的实际外接矩形框坐标以及相对应的特征热图谱作为输入,通过神经网络对每个网格中起重机的外接矩形框做回归运算,得到每个网格中起重机的预测外接矩形框坐标。其中,特征热图谱每个位置的数值表示每个像素属于起重机的概率,用于区分每个网格中是否包含起重机。

s4、选择最佳网格比例作为样本训练模型并将其作为最终运用模型

(1)误差函数设计

误差函数由分类误差closs和坐标数据之间的框误差rloss的加权求和得到,对于不同的网格个数和样本,使损失loss最小化:

loss=0.5*closs+0.5*rloss

(a)计算分类误差closs。分别提取正样本网格、部分样本网格、负样本网格的特征热图谱,计算每个网格被分类正确与否作为loss值。优选地,该分类loss值使用了最基本的softmaxloss进行计算。

(b)框误差rloss。框误差也称为坐标误差,计算预测四点坐标与实际四点坐标之间的欧式距离,距离越大误差越大。假设预测四点坐标分别为:(x0_min,y0_min,x0_max,y0_max),实际四点坐标为(x1_min,y1_min,x1_max,y1_max),rloss=[(x0_min-x1_min)^2+(y0_min-y1_min)^2+(x0_max-x1_max)^2+(y0_max-y1_max)^2]

(2)误差最小化和选取最佳网格比例

不同的网格比例得出不同的loss值,通过调整网格比例,选取最小loss,得到最佳网格比例并将其作为样本训练模型。具体地,将n1、n2、n3的比例范围从0.01逐渐增大到0.99,并且n1+n2+n3=1,每选取一种比例,得到一个最小平均loss,选取所有损失loss中最小损失loss所对应的网格比例作为样本训练模型并将其作为最终运用模型。

s5、网格融合以得到目标物位置

每个网格都包含此网格中有起重机的概率以及起重机的外接矩形框,将训练模型的网格中的概率小于预定阈值的矩形框删除,其中,预定阈值根据实际需要范围在0.35至0.75之间;然后将剩余的矩形框按概率从大到小排序,利用nms(非极大值抑制)算法融合出少量的矩形框和对应的概率。如果这些矩形框之间没有叠加,则保留所有的矩形框;如果有叠加,则根据叠加比例(iou)再次做框融合:具体地,按概率从大到小排序,遍历取出较大的两个矩形框,如果这两个矩形框的iou大于预定值(例如,优选地0.2),则融合这两个矩形框,并根据区域的大小加权求和的方式更新概率,直到所有的矩形框之间的iou小于等于该预定值。当将所有的网格融合成原图片大小时,剩下的矩形框就是起重机所在位置。

本发明利用30000张起重机图片作为样本进行训练,8000张起重机图片作为测试,其中测试的8000张测试样本不在30000张训练样本中。利用训练后的起重机检测模型测试新录制视频或者图片,其中检测准确率达到了97%以上,误检率在1%左右。后续如果通过增加训练样本,还可以继续提高检测准确率和降低误检率。

此外,本发明一实施例提供了一种基于网格划分及神经网络的目标物入侵检测装置。该实施例的基于网格划分及神经网络的目标物入侵检测装置包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如目标物入侵检测程序。所述处理器执行所述计算机程序时实现上述基于网格划分及神经网络的目标物入侵检测方法实施例中的步骤,例如图1所示的步骤s1-s5。

示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在基于网格划分及神经网络的目标物入侵检测装置中的执行过程。

基于网格划分及神经网络的目标物入侵检测装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。基于网格划分及神经网络的目标物入侵检测装置可包括但不仅限于,处理器、存储器。例如其还可以包括输入输出设备、网络接入设备、总线等。

处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于网格划分及神经网络的目标物入侵检测装置的控制中心,利用各种接口和线路连接整个基于网格划分及神经网络的目标物入侵检测装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于网格划分及神经网络的目标物入侵检测装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

此外,本发明还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述的方法的步骤,例如图1所示的步骤s1-s5。

所述基于网格划分及神经网络的目标物入侵检测装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1