基于生成查询网络的物体被遮挡部分成像方法与流程

文档序号:17844200发布日期:2019-06-11 21:33阅读:198来源:国知局
基于生成查询网络的物体被遮挡部分成像方法与流程

本发明涉及人工智能及控制技术领域,具体涉及一种基于生成查询网络的物体被遮挡部分成像方法。



背景技术:

在很多场景和应用中,需要观察物体的全貌。然而在某些特定的场合中,为了获取物体的全貌,不得不借助于带微小型摄像头的设备。如检查部署在地板下的线缆,检查有辐射区域或者高压区域的设备等。但是很多时候,因为遮挡和拍摄角度的现实等原因,使得摄像设备无法获取所检查物品的某部分的图像。



技术实现要素:

本发明的目的是提供一种基于生成查询网络的物体被遮挡部分成像方法,能够基于人工智能的方法,根据现有的一些图像,生成缺失部分的图像,进而形成物体的全景图。

为实现上述发明目的,本发明提供以下的技术方案:一种基于生成查询网络的物体被遮挡部分成像方法,包括如下步骤:

(1)提供一场景图像获取子系统、一三维模型生成子系统以及一位置查找系统,所述场景图像获取子系统包括相机,所述三维模型生成子系统包括生成查询网络,所述位置查找子系统包括反向生成查询网络;

(2)通过所述相机对包含被观察物体的当前实际场景进行图片采集,形成带有空间姿态信息的图片序列;

(3)将步骤(2)获得的图片序列作为所述生成查询网络表现层的输入,生成与当前实际场景相互映射的三维模型;

(4)将步骤(2)获得的图片中的残缺待补全的目标图片作为所述反向生成查询网络的输入,获得目标图片的姿态信息;

(5)将步骤(4)获得的目标图片的姿态信息作为所述生成查询网络生成层的输入,获得目标图片补全后的预测图片。

优选的,通过在不同拍摄姿态间切换的一台相机或分别处于不同拍摄姿态的多台相机获取当前场景的图片序列。

优选的,所述相机为单目相机。

优选的,带有空间姿态信息的图片序列其中,i∈{1,…,n},k∈{1,…,k},i是数据中场景的数目,k是每个场景中图片的数目,是拍摄方位信息,是从拍摄方位拍摄到的图像。

优选的,拍摄方位用五个维度的向量(pos_x,pos_y,pos_z,yaw,pitch)表示,pos_x表示相机在三维坐标系中的x轴位置,pos_y表示相机在三维坐标系中的y轴位置,pos_z表示相机在三维坐标系中的z轴位置,yaw表示相机的偏航角,pitch表示相机的俯仰角。

优选的,所述生成查询网络选用值逼近方法,即最小化上界,作为代价函数,采用小批量自适应梯度下降的更新方式更新参数,即将训练集划分为很多批,对每一批计算误差并更新参数,即所述生成查询网络的损失函数公式为:

其中,

θ是模型的待训练的参数;

表示当前函数有两个参数,分别为θ和φ;

(x,v)~d是待训练的准备数据d;

z~qφ表示来自qφ的高维隐变量;

表示在d和qφ的条件下的期望;

gθ(x|z,vq,r):生成模型,在隐变量z,视角v,从d中采样本处理后的r的条件下,生成的分布x,其参数为θ,在公式中为g;

πθ(z|vq,r):先验模型,在视角v,从d中采样本处理后的r的条件下,生成的隐变量z,其参数为θ,在公式中为π;

qφ(z|xq,vq,r):推理模型,在预测图片xq,视角v,从d中采样本处理后的r的条件下,生成的隐变量z,其参数为φ,在公式中为q;

l表示把隐变量z分成l组变成zl,其中l∈[1,l];

中η是卷积网络,将其输入ul映射到高斯分布的均值g,其中u0表示模型的初始状态;

相当于即在视角v,从d中采样本处理后的r的条件,生成的隐变量z的组小于l下,对预测图片分布xq的先验模型;

表示取该模型的负对数;

相当于即在预测图片分布xq,视角v,从d中采样本处理后的r的条件,生成的隐变量z的组小于l下的推理模型,其中是推理模型的初始状态;

相当于即在视角v,从d中采样本处理后的r的条件,生成的隐变量z的组小于l下,对预测图片分布xq的先验模型,其中,表示生成模型的初始状态;

中kl用来表示两个模型的相似度,也称kl散度;

将模型的所有kl散度相加求和;

求取期望。

优选的,所述反向生成查询网络中,目标图片与其所在环境e和相机的姿态p有关,在此情况下,获得的图像表示为pr(x|p,e),而预先的环境通过图片序列和获取的摄像头的姿态来感知,用c={xi,pj}来表示图片和相机姿态,用c来建立场景预估模型z是隐变量:

把一个训练好的生成查询网络作为相似度函数,给出一个优先的相机姿态pr(p|c),定位问题就可以通过最大化后验概率来解决,argmax表示取当前最大的概率:

这样,就能计算出拍摄该目标图片的相机在场景模型中位置,在场景中进行绝对定位,获取该位置信息。

由于上述技术方案运用,本发明与现有技术相比具有以下优点:本发明公开的基于生成查询网络的物体被遮挡部分成像方法,是计算机视觉领域的方法,具体来说是利用生成查询网络对图像进行补全的办法。本发明涉及生成查询网络和反向生成查询网络,获取环境信息,自我学习,可以实现图像补全。利用生成查询网络对图像生成场景再生成图像的特性,结合显示网络(representationnetwork)、生成网络(generationnetwork)和反向生成查询网络,集成一套完整的图片补全方法。

附图说明

图1为本发明公开的基于生成查询网络的物体被遮挡部分成像方法的流程图;

图2为本发明公开的生成查询网络的结构图;

图3为本发明公开的反向生成查询网络的结构图;

图4为本发明公开的生成查询网络的表现层网络架构;

图5为本发明公开的生成查询网络的生成层网络核心架构。

具体实施方式

下面结合本发明的原理、附图以及实施例对本发明进一步描述

参见图1至图5,如其中的图例所示,一种基于生成查询网络的物体被遮挡部分成像方法,包括如下步骤:

(1)提供一场景图像获取子系统、一三维模型生成子系统以及一位置查找系统,上述场景图像获取子系统包括相机,上述三维模型生成子系统包括生成查询网络,上述位置查找子系统包括反向生成查询网络,上述相机为单目相机;

(2)通过上述相机对包含被观察物体的当前实际场景进行图片采集,形成带有空间姿态信息的图片序列,通过在不同拍摄姿态间切换的一台相机或分别处于不同拍摄姿态的多台相机获取当前场景的图片序列,带有空间姿态信息的图片序列其中,i∈{1,…,n},k∈{1,…,k},i是数据中场景的数目,k是每个场景中图片的数目,是拍摄方位信息,是从拍摄方位拍摄到的图像,拍摄方位用五个维度的向量(pos_x,pos_y,pos_z,yaw,pitch)表示,pos_x表示相机在三维坐标系中的x轴位置,pos_y表示相机在三维坐标系中的y轴位置,pos_z表示相机在三维坐标系中的z轴位置,yaw表示相机的偏航角,pitch表示相机的俯仰角;

(3)将步骤(2)获得的图片序列作为上述生成查询网络表现层的输入,生成与当前实际场景相互映射的三维模型;

(4)将步骤(2)获得的图片中的残缺待补全的目标图片作为上述反向生成查询网络的输入,获得目标图片的姿态信息;

(5)将步骤(4)获得的目标图片的姿态信息作为上述生成查询网络生成层的输入,获得目标图片补全后的预测图片。

上文中,上述生成查询网络选用值逼近方法,即最小化上界,作为代价函数,采用小批量自适应梯度下降的更新方式更新参数,即将训练集划分为很多批,对每一批计算误差并更新参数,即所述生成查询网络的损失函数公式为:

其中,

θ是模型的待训练的参数;

表示当前函数有两个参数,分别为θ和φ;

(x,y)~d是待训练的准备数据d;

z~qφ表示来自qφ的高维隐变量;

表示在d和qφ的条件下的期望;

gθ(x|z,vq,r):生成模型,在隐变量z,视角v,从d中采样本处理后的r的条件下,生成的分布x,其参数为θ,在公式中为g;

πθ(z|vq,r):先验模型,在视角v,从d中采样本处理后的r的条件下,生成的隐变量z,其参数为θ,在公式中为π;

qφ(z|xq,vq,r):推理模型,在预测图片xq,视角v,从d中采样本处理后的r的条件下,生成的隐变量z,其参数为φ,在公式中为q;

l表示把隐变量z分成l组变成zl,其中l∈[1,l];

中η是卷积网络,将其输入ul映射到高斯分布的均值g,其中u0表示模型的初始状态;

相当于即在视角v,从d中采样本处理后的r的条件,生成的隐变量z的组小于l下,对预测图片分布xq的先验模型;

表示取该模型的负对数;

相当于即在预测图片分布xq,视角v,从d中采样本处理后的r的条件,生成的隐变量z的组小于l下的推理模型,其中是推理模型的初始状态;

相当于即在视角v,从d中采样本处理后的r的条件,生成的隐变量z的组小于l下,对预测图片分布xq的先验模型,其中,表示生成模型的初始状态;

中kl用来表示两个模型的相似度,也称kl散度;

将模型的所有kl散度相加求和;

求取期望。

上文中,上述反向生成查询网络中,目标图片与其所在环境e和相机的姿态p有关,在此情况下,获得的图像表示为pr(x|p,e),而预先的环境通过图片序列和获取的摄像头的姿态来感知,用c={xi,pi}来表示图片和相机姿态,用c来建立场景预估模型z是隐变量:

把一个训练好的生成查询网络作为相似度函数,给出一个优先的相机姿态pr(p|c),定位问题就可以通过最大化后验概率来解决,argmax表示取当前最大的概率:

这样,就能计算出拍摄该目标图片的相机在场景模型中位置,在场景中进行绝对定位,获取该位置信息。

本发明提供一种的图片缺失部分补全方法,输入带缺失部分的图像,生成完全的图像。这种方法解决了传统机器学习和一般神经网络学习下生成图像精度不高的问题,基于生成查询网络网络,采用人工智能的方法补全图片。

基于生成查询网络的缺失部分图像生成的方法,包括多个步骤,场景数据准备,是针对目标图片所在的场景拍摄的一系列的照片,也就是作为生成查询网络的输入的图片序列。生成查询网络训练后,内部生成该图片序列的场景模型,供后期使用。此时输入待补全的目标图片。使用反向生成查询网络计算出待补全的目标图片的拍摄位置信息,然后将位置信息再次输入到生成查询网络,输出预测图片,即是目标图片的补全图片。详细步骤如下:

步骤一:场景数据准备

在一个场景中,使用摄像机拍摄一系列的照片。且是多角度的拍摄同个场景,所拍摄的照片越多后期图片补全的效果越好。所拍摄的照片同时要带有五个维度的信息,这五个维度分别是摄像机的x轴,摄像机的y轴,摄像机的z轴,摄像机的俯仰角(pitch)和摄像机的偏航角(yaw)。这五个维度表示的是该张照片被拍摄时摄像机的方位以及角度。也就是说每张照片与摄像机的姿态一一对应。而这一系列照片形成的照片集合被称为照片序列,它所包括的内容有照片和摄像机的姿态,整个照片序列作为生成查询网络的训练数据。对于该序列,使用来表示,其中,i∈{,…,n},k∈{1,…,k},n是数据中场景的数目,k是每个场景中记录的图片的数目,是从视角拍摄到的图像。其中,用五个维度的向量(pos_x,pos_y,pos_z,yaw,pitch表示,其中pos_x是摄像机的x轴坐标,pos_y是摄像机的y轴坐标,pos_z是摄像机的z轴坐标,yaw表示摄像机的偏航角(yaw),pitch表示摄像机的俯仰角(pitch)。

步骤二:生成查询网络生成模型

在条件生成模型中,由于交叉熵作为代价函数需要对高维度的隐变量进行积分过于困难,所以选用值逼近方法,即最小化上界,作为代价函数。

采用小批量自适应梯度下降的更新方式更新参数,即将训练集划分为很多批,对每一批计算误差并更新参数。损失函数技术方式如下:

观察到的训练样本模型:

后验因子:

先验因子:

后验样本:

其中,是值逼近中的最小化上界方法,用来替代难以优化的交叉熵代价函数。θ是模型参数;xq表示预测的图片;是六层卷积网络,[k=2,s=2]->[k=3,s=1]->[k=2,s=2]->[k=3,s=1]->[k=3,s=1]->[k=3,s=1],其中k表示卷积核,s表示步长,为将输入映射到高斯分布的均值。是六层卷积网络,[k=2,s=2]->[k=3,s=1]->[k=2,s=2]->[k=3,s=1]->[k=3,s=1]->[k=3,s=1],其中k表示卷积核,s表示步长将各自的输入映射到高斯分布的充分统计量(标准差和均值)。是卷积网络,卷积核为2x2,步长2x2,将推理网络状态映射到隐变量的变分后验的充分统计。

训练完成即可将元输入的二维图片序列生成一个三维场景模型。

步骤三:输入信息残缺待补全的图片

输入一张信息残缺待补全的图片,该图片作为输入,被称为目标图片。

步骤四:反向生成查询网络查找位置

把目标图片作为反向生成查询网络的输入,我们需要得到反向生成查询网络的结果,即拍摄该图片在场景模型中的位置信息,包括摄像机的x轴、y轴、z轴,摄像机的偏航角和俯仰角。也就是数据准备阶段的信息量

定位问题可以作为包含概率的推理任务进行处理。在所在的环境e中,目标图片x,目标图片与环境e和摄像机的姿态p有关,在此情况下,获得的图像可表示为pr(x|p,e)。而预先的环境只能通过图片序列和获取的摄像头的姿态来感知,所以用c={xi,pi}来表示图片和摄像机姿态。用c来建立场景预估模型z是隐变量:

把一个训练好的生成查询网络作为相似度函数,给出一个优先的摄像机姿态pr(p|c),定位问题就可以通过最大化后验概率来解决,argmax表示取当前最大的概率:

这样,就能计算出拍摄该目标图片的摄像机在场景模型中位置,在场景中进行绝对定位,获取该位置信息。

步骤五:生成查询网络位置信息输入

基于已经训练完成的生成查询网络,输入是位置信息,输出是该位置信息下拍摄的图片。

生成查询网络中分为表现层和生成层,表现层负责场景建模表达,生成层负责图片预测。而得到的位置信息作为生成查询网络中生成层的输入,就可以得到在此位置下所拍摄的场景的预测照片。

步骤六:输出补全图片

基于训练完成的生成查询网络,输入位置信息,输出在此位置下拍摄场景模型的照片。该照片与原目标图片相比,补全缺失的信息。

基于生成查询网络的物体被遮挡部分成像的方法,与传统办法完成图像补全任务相比,涉及到维度的转化,降维的过程中带有更多信息,更适合做图片补全的任务。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1