一种目标定位方法、装置、电子设备及存储介质与流程

文档序号:20115082发布日期:2020-03-17 19:45阅读:143来源:国知局
一种目标定位方法、装置、电子设备及存储介质与流程

本发明属于目标定位技术领域,尤其涉及一种目标定位方法、装置、电子设备及存储介质。



背景技术:

机载光电成像平台是集可见光摄像机、红外热像仪、电视跟踪器、激光测距机、角度传感器等高精度测量设备于一体,用于实现航空侦察、目标瞄准、跟踪、定位等功能的全天候光电侦察设备。

一般机载光电平台采用单点定位法,通过姿态测量/激光测距定位模型对图像中心十字丝指向目标进行定位;对多个目标实施定位则需要频繁改变机载光电平台的空间指向进行多次定位,消耗时间长,难以同时对多个目标实施实时或准实时定位。

现有技术中,为同时对多个目标实施实时或准实时定位,建立机载光电成像平台多目标自主定位系统,给出了一种基于像元视线向量的多目标自主定位模型。通过目标检测算法得到视场中各目标的像素坐标,根据单面阵电荷耦合器件(ccd)传感器的成像原理,构造各目标的视线向量并计算其与图像中心主目标的像元视线角,结合已测得的主目标相对光电平台的方位角、高低角和距离,计算出各目标与机载光电平台的角度与距离关系,应用全球定位系统(gps)、航姿测量技术获取载机的位置姿态信息,通过齐次坐标变换方法计算出单幅图像中多个目标的大地坐标。

光电平台搜索到地面目标后,将主目标锁定在视场中心,输出视轴相对航姿测量系统的方位角和高低角、主目标相对光电平台的距离等信息,同时采集gps定位系统输出的定位数据、航姿测量系统输出的光电平台姿态数据进行坐标转换,计算出主目标的大地坐标。对于视场内的其他目标(这里称为次目标),可利用目标检测模块输出它们的像素坐标,构造各目标的视线向量并计算其与主目标的像元视线角,结合主目标相对光电平台的方位角、高低角和距离,计算出各目标与光电平台的距离与角度关系,通过齐次坐标变换,输出次目标的大地坐标。

目标检测模块采用图像分割法、帧差法或光流法同时检测出多个静止或运动目标的像素坐标。



技术实现要素:

为克服上述现有问题或者至少部分地解决上述问题,本发明实施例提供一种目标定位方法、装置、电子设备及存储介质。

根据本发明实施例的第一方面,提供一种目标定位方法,包括:

基于双目摄像头捕捉的包含待定位目标的左视图和右视图,计算视差图;

将所述左视图输入训练后的深度学习网络,输出所述左视图中的目标掩码;

基于所述视差图和所述左视图中的目标掩码,利用三维重建投影方法计算待定位目标的三维空间坐标。

在上述技术方案的基础上,本发明还可以作出如下改进。

优选的,所述基于双目摄像头捕捉的包含待定位目标的左视图和右视图,计算视差图包括:

对所述双目摄像头进行标定,获取所述双目摄像头的内外参数;

基于所述双目摄像头的内外参数,对所述左视图和所述右视图进行立体矫正,使得所述左视图和所述右视图保持行对准;

基于矫正后的所述左视图和所述右视图,采用立体匹配法对所述左视图和所述右视图进行匹配,获取视差图。

优选的,所述立体匹配法为高效大规模立体匹配法。

优选的,通过如下方式对深度学习网络进行训练:

基于左视图训练集对所述深度学习网络进行训练,其中,所述左视图训练集中包括多张左视图以及每一张左视图中的目标的像素点位置,所述目标的像素点位置组成目标掩码,所述左视图为采用所述双目摄像头捕捉。

优选的,所述基于所述视差图和所述左视图中的目标掩码,利用三维重建投影方法计算待定位目标的三维空间坐标包括:

根据立体视觉原理及所述双目摄像头的内外参数,计算重投影矩阵;

基于所述重投影矩阵、所述视差图和所述左视图中的目标掩码,计算得到待定位目标的三维空间坐标。

优选的,所述基于所述重投影矩阵、所述视差图和所述左视图中的目标掩码,计算得到待定位目标的三维空间坐标包括:

通过如下公式计算目标的三维空间坐标:

其中,q为重投影矩阵,(x,y)表示左视图中待定位目标的像素点坐标,d为左视图中待定位目标的像素点坐标为(x,y)处的视差,(x/w,y/w,z/w)为场景中待定位目标对应的三维空间坐标。

优选的,所述深度学习网络为maskrcnn深度神经网络。

优选的,所述左视图和右视图中的待定位目标包含一个或多个。

根据本发明实施例第二方面提供一种目标定位装置,包括:

第一计算模块,用于基于双目摄像头捕捉的包含待定位目标的左视图和右视图,计算视差图;

输出模块,用于将所述左视图输入训练后的深度学习网络,输出所述左视图中的目标掩码;

第二计算模块,用于基于所述视差图和所述左视图中的目标掩码,利用三维重建投影方法计算待定位目标的三维空间坐标。

根据本发明实施例的第三个方面,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的目标定位方法。

根据本发明实施例的第四个方面,还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的目标定位方法。

本发明实施例提供一种目标定位方法、装置、电子设备及存储介质,该方法将双目立体视觉与深度学习结合,利用双目摄像头,根据三角测量原理计算左右视图对应点间的位置偏差,利用深度学习方法对图像进行特定目标识别处理,在目标识别的基础上结合三维重建信息对场景目标进行实时定位,简化目标定位过程,不区别主次目标,同时计算出视场内所有目标位置;深度学习可针对特定目标和普通目标从而扩大目标定位应用的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的目标定位方法整体流程示意图;

图2为本发明实施例提供的获取左右视图的视差图的流程图;

图3-1为立体矫正模型示意图;

图3-2为双目光轴平行模型示意图;

图4为本发明实施例提供的三维重建投影流程图;

图5为本发明实施例提供的目标定位装置整体结构示意图;

图6为本发明实施例提供的电子设备整体结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

在本发明的一个实施例中提供一种目标定位方法,图1为本发明实施例提供的目标定位方法整体流程示意图,该方法包括:

基于双目摄像头捕捉的包含待定位目标的左视图和右视图,计算视差图;

将所述左视图输入训练后的深度学习网络,输出所述左视图中的目标掩码;

基于所述视差图和所述左视图中的目标掩码,利用三维重建投影方法计算待定位目标的三维空间坐标。

可以理解的是,本发明实施例中采用双目摄像头对包含待定位目标的图像进行拍摄捕捉,即采用双目摄像头捕捉包含待定位目标的左视图和右视图,根据左视图和右视图计算得到视差图,利用训练后的深度学习网络提取左视图中的待定位目标对应的目标掩码。最后基于视差图和左视图中的目标掩码,利用三维重建投影法计算出待定位目标的三维空间坐标。

本发明实施例将双目立体视觉与深度学习结合,利用双目摄像头,根据三角测量原理计算左右视图对应点间的位置偏差,利用深度学习方法对图像进行特定目标识别处理,在目标识别的基础上结合三维重建信息对场景目标进行实时定位,简化目标定位过程,不区别主次目标,同时计算出视场内所有目标位置;深度学习可针对特定目标和普通目标从而扩大目标定位应用的。

参见图2,在上述实施例的基础上,本发明实施例中,所述基于双目摄像头捕捉的包含待定位目标的左视图和右视图,计算视差图包括:

对所述双目摄像头进行标定,获取所述双目摄像头的内外参数;

基于所述双目摄像头的内外参数,对所述左视图和所述右视图进行立体矫正,使得所述左视图和所述右视图保持行对准;

基于矫正后的所述左视图和所述右视图,采用立体匹配法对所述左视图和所述右视图进行匹配,获取视差图。

可以理解的是,本发明实施例根据包含目标的左视图和右视图计算视差图的方法为,第一步,对双目摄像头(双目光轴平行模型)进行标定,获取双目摄像头的内外参数。本发明实施例中双目标定采用matlab标定工具箱直接对双目摄像头进行标定,获得左右摄像机的内参数和右摄像机相对于左摄像机的姿态。

第二步,基于双目摄像头的内外参数,对左视图和右视图进行图像立体矫正,使得左视图和右视图保持行对准。具体的,在实际应用中双目立体视觉需要进行图像畸变矫正,并对左右视图进行立体校正,使其成为标准光轴平行模型,两个成像平面共面且行对齐,使得匹配点的搜索只需要按行进行,为立体匹配做基础。

第三步,基于矫正后的左视图和右视图,采用立体匹配法对左视图和右视图进行匹配,获取视差图。立体匹配是获取三维信息的关键步骤,为保证实时、可靠,本发明实施例采用高效大规模立体匹配(elas,efficientlarge-scalestereomatching)方法,该方法是一种贝叶斯过程,能够以接近实时的帧速率计算高分辨率图像的精确视差图。

在上述各实施例的基础上,本发明实施例中,通过如下方式对深度学习网络进行训练:

基于左视图训练集对所述深度学习网络进行训练,其中,所述左视图训练集中包括多张左视图以及每一张左视图中的目标的像素点位置,所述目标的像素点位置组成目标掩码,所述左视图为采用所述双目摄像头捕捉。

可以理解的是,双目光轴平行模型是一种简单的立体视觉模型。为了获得空间中某一点的三维坐标,对双目光轴平行模型进行建模。在实际情况中,单靠严格摆放摄像头使得左右摄像头成像平面处于同一平面难以实现,因此必须进行立体矫正,两摄像头光轴平行的双目立体成像示意图如图3-1和图3-2所示,图3-1为左右视图的立体矫正模型示意图,图3-2为双目光轴平行模型示意图。

摄像机成像符合小孔成像模型,左右摄像头基线距离t一定,假设左右摄像机完全相同,焦距f1=f2=f。并且主点clcr(光轴与像平面的交点)已经校准,在左右图像上具有相同的像素坐标。以左、右摄像头的光心分别作为左、右目摄像机坐标系的原点ol,or,它们之间的连线作为它们共同的x轴,以它们的光轴作为各自的z轴,它们的y轴垂直于xz平面(示意图未画出)。图1中sl,sr分别为左右目成像平面坐标系rcs(retinalcoordinatesystem)在x轴的投影,成像平面坐标系以图像左上顶点为坐标系原点,物理世界一点p(xw,yw,zw)在左右目像平面坐标系中的交点分别为(xl,yl)与(xr,yr)。由图1可知:

dxl=xl-cl;

dxr=cr-xr;

令d=dxl-dxr,d为视差。

由相似三角形可得到:

推导出:

当以左目摄像机坐标系作为世界参考坐标系wcs(worldcoordinatesystem)时,

同理

其中,xl与xr单位为毫米。在实际应用中,采用像素点来表示:

其中,xpl与xpr分别为像素表征的坐标位置,单位为个,cpl与cpr分别表示为左右视图像素中心坐标,单位为个,sx为像元大小,单位为毫米。

由上述的分析可知,只要求出任意空间点在左视图和右视图中的像素点坐标即可求得该点的三维空间坐标。

因此,要对场景中的目标进行定位,即得到场景中目标的三维空间坐标,需要先得到目标的各个点在左右视图中的像素点位置坐标。

本发明实施例中,利用深度学习网络来提取视图中的目标以及目标的像素点坐标。其中,本发明实施例中,深度学习网络采用maskrcnn深度神经网络,首先对该深度学习网络进行训练,具体为,采用双目摄像头对目标进行拍摄,得到包含有目标的左视图和右视图,本发明实施例基于左视图进行训练,其中,对每一张左视图提取其中的目标以及对目标的像素点坐标进行标注,目标的像素点坐标形成目标掩码,多张左视图以及每一张左视图中的目标掩码组成左视图训练集,利用左视图训练集对深度学习网络进行训练,得到训练后的深度学习网络。

对于待定位目标,利用双目摄像头拍摄捕捉待定位目标的左视图和右视图,将左视图输入训练后的深度学习网络,输出左视图中目标的目标掩码。

参见图4,在上述各实施例的基础上,本发明实施例中,所述基于所述视差图和所述左视图中的目标掩码,利用三维重建投影方法计算待定位目标的三维空间坐标包括:

根据立体视觉原理及所述双目摄像头的内外参数,计算重投影矩阵;

基于所述重投影矩阵、所述视差图和所述左视图中的目标掩码,计算得到待定位目标的三维空间坐标。

可以理解的是,上述实施例中得到待定位目标的左视图中目标的目标掩码,利用三维重建投影法得到待定位目标的三维空间坐标。环境的三维重建通常以非接触方式完成,按照对目标物体深度信息的获取方法的不同,将非接触式三维重建方法分为两种:主动式与被动式。主动式三维重建是指利用激光、红外线等光源或能量源发射到环境物体,直接获取环境中目标物体的深度信息,主要有莫尔条纹法、飞行时间(tof)法和结构光法。与主动三维重建技术相比,被动式三维重建没有用到任何特定光源,而是利用周围环境如太阳光的反射,使用相机获取对象的图像信息,然后通过特定算法实现对象的三维建模,被动式三维重建具有结构相对简单,成本低等特点,将来会成为解决非接触式目标探测的主要方法。本发明实施例采用被动式三维建模方法,三维建模的具体过程为,根据立体视觉原理及双目摄像头的内外参数,计算重投影矩阵;基于重投影矩阵、视差图和左视图中的目标掩码,计算得到目标的三维空间坐标。

在上述各实施例的基础上,本发明实施例中,基于重投影矩阵、视差图和左视图中的目标掩码,计算得到待定位目标的三维空间坐标包括:

通过如下公式计算目标的三维空间坐标:

其中,q为重投影矩阵,(x,y)表示左视图中待定位目标的像素点坐标,d为左视图中待定位目标的像素点坐标为(x,y)处的视差,(x/w,y/w,z/w)为场景中待定位目标对应的三维空间坐标。

通过深度学习网络提取出左视图中待定位目标的目标掩码(由目标掩码能够得到待定位目标的每个像素点坐标),由待定位目标的每个像素点坐标并根据上述公式计算得到待定位目标的每个像素点坐标对应的三维空间坐标。

在上述各实施例的基础上,本发明实施例中,左视图和右视图中的待定位目标包含一个或多个。当场景中的待定位目标有多个时,基于双目摄像头捕捉的包含多个待定位目标的左视图和右视图,计算视差图;将左视图输入训练后的深度学习网络,输出左视图中的每一个目标的目标掩码;基于视差图和左视图中的每一个目标的目标掩码,利用三维重建投影方法计算每一个目标的三维空间坐标,即对场景中的每一个目标进行定位,实现对场景中的多个目标进行定位,采用本发明实施例提供的目标定位方法,相比现有的机载光电成像平台多目标自主定位系统,各个目标之间不分主次,能够同时对场景中的多个目标进行定位。

在本发明的另一个实施例中提供一种目标定位装置,该装置用于实现前述各实施例中的方法。因此,在前述目标定位方法的各实施例中的描述和定义,可以用于本发明实施例中各个执行模块的理解。图5为本发明实施例提供的目标定位装置整体结构示意图,该装置包括第一计算模块51、输出模块52和第二计算模块53。

第一计算模块51,用于基于双目摄像头捕捉的包含待定位目标的左视图和右视图,计算视差图;

输出模块52,用于将所述左视图输入训练后的深度学习网络,输出所述左视图中的目标掩码;

第二计算模块53,用于基于所述视差图和所述左视图中的目标掩码,利用三维重建投影方法计算待定位目标的三维空间坐标。

本发明实施例提供的目标定位装置与上述各实施例提供的目标定位方法相对应,提供的目标定位装置的相关技术特征可参考目标定位方法的相关技术特征,在此不再赘述。

图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)01、通信接口(communicationsinterface)02、存储器(memory)03和通信总线04,其中,处理器01,通信接口02,存储器03通过通信总线04完成相互间的通信处理器01可以调用存储器03中的逻辑指令,以执行如下方法:基于双目摄像头捕捉的包含待定位目标的左视图和右视图,计算视差图;将左视图输入训练后的深度学习网络,输出左视图中的目标掩码;基于视差图和左视图中的目标掩码,利用三维重建投影方法计算待定位目标的三维空间坐标。

此外,上述的存储器03中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:基于双目摄像头捕捉的包含待定位目标的左视图和右视图,计算视差图;将左视图输入训练后的深度学习网络,输出左视图中的目标掩码;基于视差图和左视图中的目标掩码,利用三维重建投影方法计算待定位目标的三维空间坐标。

本发明实施例提供的一种目标定位方法、装置、电子设备及存储介质,利用双目光轴平行模型(双目摄像头),实时获取左右两幅视图(左视图和右视图)并进行立体矫正;根据三角测量原理计算两视图对应点间的位置偏差,获取场景信息之后,对图像进行特定目标识别处理,在目标识别的基础上结合三维重建信息对场景目标进行实时定位,具有如下优点:

双目视觉模仿了人类双眼感知空间中的目标物体信息的过程,利用两台摄像机,基于视差和三角几何关系,通过空间中一点在左右成像平面上的坐标来得到空间点的三维信息;双目视觉的三维重建,由于和其它设备相比不必加入复杂的光源设备,具有可靠便捷、精度合适、成本低、符合大众化要求等诸多可取优点。

目标的像素点位置的检测只需要提前采集目标的图像信息并对目标进行标注(对图像中目标的像素点位置坐标进行标注),将采集得到的大量目标图像标注完成之后交由深度学习网络进行训练和学习,得到满足要求的参数模型,将训练完成之后的参数模型应用于新输入的图像即可得到目标检测结果,目标检测的输出是目标在左视图中的像素位置坐标。

基于深度学习算法的目标检测是当前计算机视觉领域主流的目标检测算法,其依赖多层神经网络学习图像的层次化特征表示,与传统检测方法相比,可以实现更高的准确率;本文将双目视觉与深度学习网络结合,深度学习网络识别出图像中的目标并输出目标在图像中的像素位置,最终结合双目视觉三维重建信息完成对目标的实时定位;maskrcnn提取目标以及目标的像素位置,结合双目立体视觉利用三维重投影求解目标位置,计算量较小。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1