一种结合定位信息的大场景内运动目标检测方法与流程

文档序号：19741550发布日期：2020-01-18 05:18阅读：165来源：国知局

本发明涉及一种结合定位信息的大场景内运动目标检测方法。

背景技术：

近年来，在诸如大型广场安防、机场场面活动引导与控制、港口生产作业区运行状态监控、工业园区管控等大型场景管控中,增强现实(augmentedreality,ar)技术得到了越来越多的应用。比如，在机场飞行区的航空器、车辆、人员管控中，为了便于管理人员理解和指挥，往往需要对这些运动目标进行增强显示，即在视频画面中运动目标的对应位置显示目标的相关信息，如飞机航班号、车辆类型、作业人员个人信息等。为了保证信息增强显示的准确性，需要对运动目标进行高精度的定位。

目前，实现位置信息增强显示的通常的方法是利用通过gps、北斗等系统获得运动目标的空间坐标，把空间坐标映射到视频画面上的像素点坐标。但是由于gps、北斗等系统获取的数据一般都有较大误差，再加上数据获取频率低(如每秒发送一次)，并且与视频之间不同步，导致通过坐标映射得到的像素点坐标和运动目标的实际坐标之间有较大的差异，不但影响使用体验，而且会出现较多的错误显示。

针对上述问题，人们开始探讨解决方案。例如，采用先在视频画面中检测出运动目标、之后再与gps等定位数据融合的方法。在大场景视频中，为了保证目标检测达到可实用的准确度，要求运动目标具有一定的像素分辨率，也就是要求整个大场景画面具有超高的分辨率，比如为了在机场飞行区画面中检测到远处的车辆，整个飞行区画面的像素数会达到一个或多个4k超高清(分辨率为3840×2160)。目前目标检测性能最好的是基于深度学习的检测方法。基于区域的卷积神经网络(regionbasedconvolutionalneuralnetwork，rcnn)^[1]成功连接目标检测与深度卷积网络，将目标检测的准确率提升到一个新的层次。rcnn由3个独立的步骤组成:产生候选窗口、特征提取、svm分类及窗口回归。由于rcnn分为3个独立的过程，所以检测效率很低，因此无法用在大场景视频中。为了提高目标检测的实时性，有学者提出了单阶段的目标检测算法。这种方法的特点是端到端(end-to-end)，从输入图像到检测结果一步到位，中间的过程全部由神经网络学习得到。典型的方法是yolo(youonlylookonce)^[2]与ssd(singleshotmultiboxdetector)^[3]。这种方法用轻量级的网络实现输入端到输出端的直接相连，极大提高了图像检测的速度。当输入图像的尺寸是512×512时，处理速度可达30fps(framepersecond)左右,实现了实时检测。但对于大场景视频,分辨率通常可达一个或多个4k，其像素点数是上述图像尺寸的数十倍甚至上百倍，远远达不到实时。

大场景中运动目标检测的另一个困难是，根据运动目标距离摄像机的位置不同，运动目标在画面上的尺度大小差异极大。如在近处时可能占有半个画面，而在远处是可能只有几个像素。这会导致深度学习算法中模型训练难度增加和最终检测精度的下降。

如上所述，现有技术下，单纯基于gps等定位信息进行增强信息显示，误差较大，而各种基于运动检测与定位信息融合的方法，在大场景高分辨率画面中难以达到实时处理，并且由于尺度变化导致检测性能下降。因此，有必要做进一步的研发，提出更为有效、实用的解决方案。

技术实现要素：

为克服现有技术的上述缺陷，本发明提供了一种结合定位信息的大场景内运动目标检测方法，以保障检测性能，提高实时性。

本发明的技术方案是：一种结合定位信息的大场景内运动目标检测方法，包括：

1)获取大场景图像；

大场景图像可以由一体化全景摄像机拍摄生成，或由一组摄像头拍摄生成的具有重叠区域的局部场景图像拼接而成。

2)对大场景图像进行经纬度标定，在场景内选择若干标志点，建立标志点的图像坐标与经纬度坐标之间的对应关系；

对大场景图像进行经纬度标定的具体方式可以为：在大场景图像中选取若干易于分辨的标志点，例如，道路角点、道路标记角点、地面装饰物角点等，选取的标志点分布区域要尽可能覆盖整个场景且尽可能均匀分布，从大场景图像中获得各标志点的图像坐标，从显示经纬度数据的地图上的相应区域找到这些标志点，获取标志点的经纬度坐标，由此实现各标志点的图像坐标与经纬度坐标的对应；

例如，选取n个标志点，对于图像坐标为(xi,yi)的第i个标志点(i＝1,2,3,...,n)，在显示经纬度数据的地图上找到该标志点，查出该标志点的经纬度坐标为(li,ti),则图像坐标(xi,yi)与经纬度坐标(li,ti)对应，为同一个标志点在相应坐标系下的坐标，可记为数组(xiyiliti)，对选定的所有标志点逐一进行上述操作，即建立起这些标志点图像坐标与经纬度坐标之间的对应关系，用作对任意点图像坐标与经纬度坐标转换的依据。

3)对运动目标的经纬度定位信息，依据定位信息的误差范围和运动目标特征，确定进行相应目标检测的经度范围和纬度范围，将误差范围内的区域均包含在目标检测区域内且能够涵盖整个运动目标，由此形成经纬度坐标下的目标检测区域，该目标检测区域在经纬度坐标下是矩形区域；

4)依据图像坐标与经纬度坐标之间的关联或对应关系，将经纬度坐标下的目标检测区域转换为大场景图像下的图像检测区域；

具体方式为：将经纬度坐标下的矩形目标检测区域的四个顶点的经纬度坐标转换为图像坐标，在大场景图像中选定包含这四个图像坐标的像素点的最小矩形，以该最小矩形限定的图像区域为图像检测区域；

将经纬度坐标转换为图像坐标的方式为：对于任意点的经纬度坐标(l,t),选取8个与该点距离最小的最邻近标志点，依据下列公式计算其图像坐标(x,y)：

其中，

其中，(xj,yj)和(li,ti)分别为第j个最邻近标志点图像坐标和经纬度坐标，j＝1,2,3,4,5,6,7,8。因此，对于任何确定的经纬度坐标，通过上述公式可计算出对应的图像坐标，实现相应点的经纬度坐标到图像坐标的转换。

对经纬度坐标下的矩形目标检测区域的四个顶点的经纬度坐标进行上述转换，获得这四个顶点的图像坐标，即获得这四个顶点在大场景图像中的像素点位置。

对需要转换坐标的任意一点，基于该点和各标志点的经纬度坐标，计算该点与各标志点之间的经纬度距离或经纬度距离平方(实践中常用距离平方，以简化计算)，依此确定与该点距离最小的8个标志点。

5)依据设定的尺寸要求矩形对图像检测区域进行缩放，形成具有固定尺寸的检测用图像块；

6)在检测用图像块进行运动目标检测，获得运动目标在检测用图像块内的位置；

7)依据图像检测区域在大场景图像中的位置，将检测获得的运动目标在检测用图像块内的位置转换为在大场景图像中的位置，由此实现运动目标的检测和定位。

根据需要，通常应针对每一个带有经纬度定位信息的运动目标进行检测。

本发明事先建立大场景图像中的坐标点和准确的gps的经纬度间的对应关系，检测时根据目标的类型及其带有误差的经纬度数据(运动目标的经纬度定位信息)，对运动目标所在区域进行预测，将该区域映射到大场景视频的画面内，得到画面内包含运动目标的图像块，将图像块缩放成事先设定的大小，送入目标检测处理模块进行目标检测，得到目标在该图像块中的坐标位置。将该坐标位置还原为大场景图像上的坐标位置，完成该目标的检测。

本发明的定位信息不只是用于目标检测之后的融合阶段，而且在目标检测之前用于限定检测范围和确定尺度变换，通过限定检测范围，剔出无目标区域，提高检测速度；通过尺度变换，既可以提高检测的精度，又可以提高检测速度，当运动目标过大时可以降低图像的分辨率，目标检测可以在较低分辨率图像上进行。以在分辨率为4个4k(3840*2160)的飞行区大场景图像上检测飞机为例，如果把每一个运动目标的存在范围进行限定，并且把目标存在范围缩放为如512*512的图像，单个目标检测的运算量为直接在大场景图像上进行检测时的约126分之1(512*512/(4*3840*2160)＝1/126)，考虑到飞行区内同时只有很少的飞机和车辆在运动，本发明具有显著的效果。

本发明针对每一个带有gps信息的运动目标进行，能够得到大场景图像中所有运动目标的精确位置，不仅大大提高了处理速度，而且提高了检测准确率。

本发明解决了单纯gps数据-图像映射固有的无法获得目标大小范围、以及因gps数据误差导致的映射位置偏离等问题。

附图说明

图1是本发明的流程示意图。

具体实施方式

参见图1，本发明的整体流程主要为：首先，大场景视频采集设备(一体化全景摄像机或一组拼接摄像头)固定安装之后，对场景空间中的点与其在视频画面中的图像坐标进行标定，即建立大场景图像中的坐标点(x,y)和gps的经纬度信息(l,t)(经纬度坐标)之间的对应关系，将其表示为若干个四元组(x,y,l,t)。其次，运动目标检测启动后，针对每一个带有gps经纬度信息(含有误差)的运动目标，根据经纬度误差数据和目标本身的类型，对目标所在区域进行预测，并且将该区域映射到大场景视频的画面内，得到画面内的预测区域(图像检测区域)。然后，对画面内的预测区域进行尺度变换，缩放成事先设定的大小。接下来，把尺度变换后的图像块(检测用图像块图像)送入目标检测处理模块，即可得到目标在该图像块中的坐标位置。最后，将该坐标位置还原为大场景图像上的坐标位置，完成该目标的检测。上述目标检测处理针对每一个带有gps信息的运动目标进行，得到大场景图像中所有运动目标的精确位置。由于目标检测只在可能的运动目标周围一个限定的区域内进行，大大提高了处理速度；同时，大小目标都缩放成统一的图像尺寸，有利于提高检测的准确率。

下面是几个主要步骤的介绍：

a)图像标定

采集到大场景图像后，首先要进行图像坐标和经纬度进行关联的gps标定。在图像上寻找明显的标志点(如道路标志的角点或安装点，交通车道线的角点，地面装饰物的角点等)，并记录坐标(x，y)，然后在可以显示经纬度数据的地图上记录这些点的经纬度坐标(l，t)，记为(x，y，l，t)。标志点要尽可能覆盖整个场景且尽可能均匀分布。标注点数量越多，后面的目标位区域预测越准确，一幅大场景图像需要标注至少100个点左右。

b)目标位置区域预测

针对每一条gps经纬度信息(l，t)，考虑以下因素对目标位置区域进行预测。

(a)经纬度信息自身的误差。包括gps、北斗等系统获取数据的误差，或采集频率低以及传输带来的误差。记为(δex，δey)。比如，现在gps系统定位的误差在10米左右，相当于经纬度误差为3×10^-7°。

(b)待检测目标尺寸大小。在本发明涉及的应用场景中，待检测目标的类型(如飞机、车辆、人员等)是已知的，所以我们可以对其大小尺寸进行合理限定。。该尺寸大小同样用地面经纬度表示，记为(δsx，δsy)。如，飞机、车辆、行人的大小分别大致为100米，10米，1米。对应的经纬度范围分别为3×10^-6°，3×10^-7°，3×10^-8°。

根据上面的分析，可以将目标区域限定如下：

(l±(δex+δsx)，t±(δey+δsy))式(1)

这在经纬度坐标平面是一个矩形区域，现在计算其4个顶点对应的图像图像坐标，方法如下：

假设已经标定好的n个四元组(xi，yi，li，ti)(i＝1，2...n)(各标志点的图像坐标和经纬度坐标数组)，待转化坐标的点(下面称为目标点)经纬度坐标为(l，t)。首先计算已标定的各标志点的经纬度和目标点的距离di：

找出距离目标点最近的8个标定点，然后通过此8个标定点的坐标求解基于最小二乘法的非线性模型参数，进而求得目标点的图像坐标。

非线性模型有很多种，这里使用二次多项式模型，即

x＝a*l+b*t+c*l*t+d式(3)

其中x代表目标点(l，t)在图像坐标系中的横坐标值，a，b，c，d均为对应的模型参数。

下面求解这个模型。

不失一般性地，假设距离目标点(l，t)最近的8个已标定的标志点的四元组为

(xj，yj，lj，tj)(j＝1，2...8)式(4)

系数a，b，c，d，满足下列方程：

上式可以写作

au＝v式(6)

其中

对式(6)进行变换可得

u＝a^-1v式(10)

由于矩阵a不是方阵，所以此处a^-1为矩阵a的伪逆矩阵(又称广义逆矩阵)，即

a^-1＝(a^ta)^-1a^t式(11)

这样就求得了从经纬度坐标到图像坐标的转化系数。所以对于选定的点(l，t)，其图像横坐标值x为

x＝[ltlt1]u式(12)

将式(10)和(11)代入式(12)，可得

同理可得图像纵坐标y

将经纬度范围的四个顶点全部转换为图像坐标后，这四个图像坐标不一定能构成矩形，为此在图像中构建一个将这四个点全部包含在内的最小矩形。这个矩形即为待检测目标的预测区域。把这个矩形的左上角位置记为(xp，yp)，尺寸为wp×hp。

c)尺度变换由于主流的目标检测算法要求输入图像具有固定大小，所以这里对上述待检测目标的预测区域进行尺度变换，缩放固定的大小w×h，如512×512像素。

d)目标检测

采用已有的目标检测算法(如参考文献[2]、[3])进行目标检测，得到目标在缩放后图像中的位置。目标以外接矩形表示，左上角记为(xr，yr)，宽高为(wr，hr)。

e)坐标还原

将上述目标检测得到的目标位置映射至原始图像，可得到该目标在大场景图像中的位置，即左上角(xq，yq)和宽高为(wq，hq)如下。

经过上述计算后，得到相应运动目标的图像坐标及跟踪框，亦可得到运动目标的经纬度坐标或其他世界坐标系坐标，进而在大场景图像上增强位置信息或其他相关信息。

本说明书所称图像坐标系是指针对图像的坐标系，包括通常所称的图像坐标系，也包括通常所称的像素坐标系。

参考文献

[1]girshickross,donahuejeff,darrelltrevor,malikjitendra.region-basedconvolutionalnetworksforaccurateobjectdetectionandsegmentation.[j].ieeetransactionsonpatternanalysisandmachineintelligence,2016,38(1).

[2]redmonj,divvalas,girshickr,etal.youonlylookonce:unified,real-timeobjectdetection[j].2015.

[3]liuw,anguelovd,erhand,etal.ssd:singleshotmultiboxdetector[j].2015.

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李申达;林姝含;郑文涛
技术所有人：北京天睿空间科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。