基于场景坐标回归网络的视觉重定位方法、系统、装置

文档序号:26285067发布日期:2021-08-17 13:38阅读:236来源:国知局
基于场景坐标回归网络的视觉重定位方法、系统、装置

本发明属于服务机器人技术领域,具体涉及一种基于场景坐标回归网络的视觉重定位方法、系统、装置。



背景技术:

近年来,随着人工智能、传感技术、计算处理等技术的迅猛发展,服务机器人也朝着智能化方向发展,其中,机器人定位是完成任务的前提,这就需要机器人通过自身携带的传感器(例如视觉传感器即相机)确定自己的当前位置。对于基于视觉的机器人定位来说,在机器人运动过程中,有时会出现定位失败的情况,此时,可以根据事先构建好的环境地图和相机在当前时刻获取的图像信息对机器人进行重新定位(即视觉重定位)。为了保障机器人任务执行的质量,视觉重定位方法受到普遍关注。视觉重定位一般分为三类:基于特征匹配的方法、基于场景坐标回归的方法和直接位姿回归方法。基于特征匹配的方法通过特征点提取和描述、特征匹配来获得特征点像素坐标和场景中3d点的2d-3d对应关系,再通过pnp算法求解出机器人位姿;但是该方法主要适合特征较为丰富的环境,在特征较少的弱纹理区域或者特征区分性较弱的重复纹理区域效果较差。基于场景坐标回归的方法利用随机森林或者神经网络直接逐像素回归出稠密的3d坐标,从而获得2d-3d匹配对,然后通过pnp算法求解机器人位姿,该类方法避免了特征点提取和描述这一过程,在中小规模环境下可以实现较高的重定位精度。直接位姿回归方法通过神经网络直接回归出当前时刻采集图像所对应的位姿,由于没有显式利用摄影几何知识,该类方法获得的重定位精度较低。

近年来随着卷积神经网络(cnn)的发展,基于场景坐标回归的方法逐渐采用卷积神经网络逐像素回归出稠密的3d坐标,此称之为基于场景坐标回归网络的视觉重定位。卷积神经网络通常采用卷积层和非线性激活函数(例如elu、relu等激活函数)的结构,由于卷积层采用固定的卷积核结构,这使得卷积特征对于大的相机视角变化引起的图像变换不具有内在的不变性,为此,现有的场景坐标回归网络通常使用数据增强加以缓解,但是数据增强方案不能完全模拟现实环境下的图像变换。如何设计一种对大的相机视角变化具有较好鲁棒性的场景坐标回归网络,进而提升视觉重定位的质量仍有待于进一步研究。

因此,如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。



技术实现要素:

为了解决现有技术中的上述问题,即为了解决现有基于场景坐标回归网络的视觉重定位方法难以适应大的相机视角变化的问题,本发明提出一种基于场景坐标回归网络的视觉重定位方法,包括以下步骤:

步骤s100,服务机器人通过相机获取周围环境的原始彩色图像;

步骤s200,基于所述原始彩色图像,构建三个维度为h×w×1的张量,对第一个张量中(n,m,0)位置处的值用m填充,构成第一坐标图;对第二个张量中(n,m,0)位置处的值用n填充,构成第二坐标图;对第三个张量中(n,m,0)位置处的值用该位置与坐标原点的欧式距离进行填充,构成距离图;其中,n=0,1,…,h-1,m=0,1,…,w-1,h和w分别为原始彩色图像的高度和宽度;

步骤s300,将原始彩色图像与构建的第一坐标图、第二坐标图以及距离图拼接起来,并送入场景坐标回归网络的特征提取器进行特征提取,得到源特征图;

步骤s400,通过所述场景坐标回归网络的特征变换器对所述源特征图进行特征变换,得到变换后的特征图;

步骤s500,将变换后的特征图与源特征图相加,作为最终的特征图,最终的特征图送入所述场景坐标回归网络的回归器进行回归,得到3d坐标图和不确定性图;所述不确定性图的每一个元素反映了该元素在3d坐标图中对应的3d坐标的不确定度;

步骤s600,对原始彩色图像对应的第一坐标图、第二坐标图进行8倍下采样,分别得到第三坐标图和第四坐标图;对第三坐标图和第四坐标图进行拼接,作为2d像素坐标图;基于所述不确定性图,对3d坐标图和2d像素坐标图分别进行过滤处理,得到3d坐标集合和2d像素坐标集合;

步骤s700,基于所述3d坐标集合和对应的2d像素坐标集合,通过pnp算法获取服务机器人的位姿,从而实现服务机器人的视觉重定位。

在一些优选的实施方式中,所述特征提取器基于八个依次连接的卷积层构建;其中,各卷积层均采用3×3的卷积核和relu激活函数,步长分别为(1,1)、(2,2)、(2,2)、(1,1)、(2,2)、(1,1)、(1,1)和(1,1),输出维度分别为h×w×64、其中符号为向上取整符号。

在一些优选的实施方式中,所述特征变换器包括三个卷积操作、四个维度变换操作、一个矩阵乘法操作和一个加权求和操作。

在一些优选的实施方式中,“通过所述场景坐标回归网络的特征变换器对所述源特征图进行特征变换”,其方法为:

将源特征图经过特征变换器的第一卷积操作和第二卷积操作分别处理后得到第一关键特征图k和第一查询特征图q;

k和q分别通过第一维度变换操作和第二维度变换操作得到第二关键特征图k’和第二查询特征图q’;

对q’和k’进行矩阵乘法操作,得到第一动态卷积核ker’;

ker’通过第三维度变换操作得到第二动态卷积核ker;

以ker为第三卷积操作的动态卷积核,对源特征图进行卷积操作处理,得到注意力参数矩阵a;

a经过softmax归一化后获得归一化后的注意力参数矩阵anorm;

对于源特征图的每个空间位置(i,j),取以(i,j)为中心的a×a大小的局部块na(i,j),并从anorm中获得(i,j)对应的局部注意力参数矩阵anorm(i,j)进而将anorm(i,j)经过第四维度变换操作得到维度为a×a的局部注意力块p(i,j);其中,a为第二预设常数;

通过将na(i,j)与p(i,j)进行加权求和操作,获得(i,j)位置处的变换后的特征,所有变换后的特征构成变换后的特征图。

在一些优选的实施方式中,所述回归器基于三个依次连接的卷积层构建;其中,三个依次连接的卷积层均采用1×1的卷积核,步长均为(1,1),输出维度分别为h×w×4096、h×w×4096、h×w×4,且前两个卷积层采用relu激活函数,其中h、w分别表示源特征图的高度和宽度,

在一些优选的实施方式中,步骤s600中“基于所述不确定性图,对3d坐标图和2d像素坐标图分别进行过滤处理”,其方法为:

判断不确定性图u中(i,j,0)位置处的值是否大于σth,若大于,则分别滤除3d坐标图和2d像素坐标图中(i,j)位置处的3d坐标和2d像素坐标;其中,i=0,1,…,h-1,j=0,1,…,w-1,σth为第三预设常数。

在一些优选的实施方式中,所述场景坐标回归网络,其在训练过程中的损失函数l为:

其中,xs、ys、zs分别是rgb图像对应的3d坐标图y的第s个3d坐标的三个分量,分别是3d坐标图y的第s个3d坐标对应的坐标真值的三个分量,us是不确定性图u中与3d坐标图y的第s个3d坐标相对应的不确定度。

本发明的第二方面,提出了一种基于场景坐标回归网络的视觉重定位系统,该系统包括:获取模块、构建模块、特征提取模块、特征变换模块、回归模块、过滤模块、位姿解算模块;

所述获取模块,配置为服务机器人通过相机获取周围环境的原始彩色图像;

所述构建模块,配置为基于所述原始彩色图像,构建三个维度为h×w×1的张量,对第一个张量中(n,m,0)位置处的值用m填充,构成第一坐标图;对第二个张量中(n,m,0)位置处的值用n填充,构成第二坐标图;对第三个张量中(n,m,0)位置处的值用该位置与坐标原点的欧式距离进行填充,构成距离图;其中,n=0,1,…,h-1,m=0,1,…,w-1,h和w分别为原始彩色图像的高度和宽度;

所述特征提取模块,配置为将原始彩色图像与构建的第一坐标图、第二坐标图以及距离图拼接起来,并送入场景坐标回归网络的特征提取器进行特征提取,得到源特征图;

所述特征变换模块,配置为通过所述场景坐标回归网络的特征变换器对所述源特征图进行特征变换,得到变换后的特征图;

所述回归模块,配置为将变换后的特征图与源特征图相加,作为最终的特征图,最终的特征图送入所述场景坐标回归网络的回归器进行回归,得到3d坐标图和不确定性图;所述不确定性图的每一个元素反映了该元素在3d坐标图中对应的3d坐标的不确定度;

所述过滤模块,配置为对原始彩色图像对应的第一坐标图、第二坐标图进行8倍下采样,分别得到第三坐标图和第四坐标图;对第三坐标图和第四坐标图进行拼接,作为2d像素坐标图;基于所述不确定性图,对3d坐标图和2d像素坐标图分别进行过滤处理,得到3d坐标集合和2d像素坐标集合;

所述位姿解算模块,配置为基于所述3d坐标集合和对应的2d像素坐标集合,通过pnp算法获取服务机器人的位姿,从而实现服务机器人的视觉重定位。

本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于场景坐标回归网络的视觉重定位方法。

本发明的第四方面,提出了一种处理装置,包括处理器和存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于场景坐标回归网络的视觉重定位方法。

本发明的有益效果:

本发明提高了基于场景坐标回归网络的视觉重定位方法对大的相机视角变化的鲁棒性,进而提升视觉重定位的定位质量。本发明通过特征提取器进行特征提取,获得源特征图,并通过特征变换器对源特征图进行变换从而获得变换后的特征图;将该变换后的特征图与源特征图相加后送入回归器进行回归,得到3d坐标图和不确定性图;基于该不确定性图,对3d坐标图和3d坐标图对应的2d像素坐标图分别进行过滤处理,得到3d坐标集合和对应的2d像素坐标集合,进而通过pnp算法求解位姿,实现服务机器人的视觉重定位,为服务机器人在家庭、办公等环境下的重定位提供技术支持。

附图说明

图1是本发明一种实施例的基于场景坐标回归网络的视觉重定位方法的流程示意图;

图2为本发明一种实施例的场景坐标回归网络的特征变换器的结构示意图;

图3是本发明一种实施例的基于场景坐标回归网络的视觉重定位系统的框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于场景坐标回归网络的视觉重定位方法,如图1所示,包括以下步骤:

步骤s100,服务机器人通过相机获取周围环境的原始彩色图像;

步骤s200,基于所述原始彩色图像,构建三个维度为h×w×1的张量,对第一个张量中(n,m,0)位置处的值用m填充,构成第一坐标图;对第二个张量中(n,m,0)位置处的值用n填充,构成第二坐标图;对第三个张量中(n,m,0)位置处的值用该位置与坐标原点的欧式距离进行填充,构成距离图;其中,n=0,1,…,h-1,m=0,1,…,w-1,h和w分别为原始彩色图像的高度和宽度;

步骤s300,将原始彩色图像与构建的第一坐标图、第二坐标图以及距离图拼接起来,并送入场景坐标回归网络的特征提取器进行特征提取,得到源特征图;

步骤s400,通过所述场景坐标回归网络的特征变换器对所述源特征图进行特征变换,得到变换后的特征图;

步骤s500,将变换后的特征图与源特征图相加,作为最终的特征图,最终的特征图送入所述场景坐标回归网络的回归器进行回归,得到3d坐标图和不确定性图;所述不确定性图的每一个元素反映了该元素在3d坐标图中对应的3d坐标的不确定度;

步骤s600,对原始彩色图像对应的第一坐标图、第二坐标图进行8倍下采样,分别得到第三坐标图和第四坐标图;对第三坐标图和第四坐标图进行拼接,作为2d像素坐标图;基于所述不确定性图,对3d坐标图和2d像素坐标图分别进行过滤处理,得到3d坐标集合和2d像素坐标集合;

步骤s700,基于所述3d坐标集合和对应的2d像素坐标集合,通过pnp算法获取服务机器人的位姿,从而实现服务机器人的视觉重定位。

为了更清晰地对本发明一种基于场景坐标回归网络的视觉重定位方法进行说明,下面对本发明方法一种实施例中各步骤进行展开详述。

该实施例为一种较优的实现方式,预先构建一个包含特征提取器、特征变换器和回归器的场景坐标回归网络,基于预先构建的训练样本集并结合预先设计的损失函数(具体损失函数的设置会在下文具体展开说明)对该场景坐标回归网络进行训练,获取特征提取器、特征变换器和回归器的参数,并应用到本发明的一种基于场景坐标回归网络的视觉重定位方法中。为了表述方便,假设原始彩色图像的维度为h×w×3,其中h和w分别为原始彩色图像的高度和宽度。

步骤s100,服务机器人通过相机获取周围环境的原始彩色图像;

在本实施例中,服务机器人通过安装在自身的kinect相机获取周围环境的原始彩色图像。

步骤s200,基于所述原始彩色图像,构建三个维度为h×w×1的张量,对第一个张量中(n,m,0)位置处的值用m填充,构成第一坐标图;对第二个张量中(n,m,0)位置处的值用n填充,构成第二坐标图;对第三个张量中(n,m,0)位置处的值用该位置与坐标原点的欧式距离进行填充,构成距离图;其中,n=0,1,…,h-1,m=0,1,…,w-1,h和w分别为原始彩色图像的高度和宽度;

在本实施例中,构建三个维度为h×w×1的张量;对第一个张量中(n,m,0)位置处的值用m填充,构成第一坐标图u,其中n=0,1,…,h-1,m=0,1,…,w-1;对第二个张量中(n,m,0)位置处的值用n填充,构成第二坐标图v;对第三个张量中(n,m,0)位置处的值用该位置与坐标原点(0,0,0)的欧式距离即进行填充,构成距离图r。

步骤s300,将原始彩色图像与构建的第一坐标图、第二坐标图以及距离图拼接起来,并送入场景坐标回归网络的特征提取器进行特征提取,得到源特征图;

在本实施例中,将原始彩色图像与构建的第一坐标图u、第二坐标图v以及距离图r在第三个维度上拼接起来,并送入场景坐标回归网络的特征提取器f中进行特征提取,得到源特征图xs。

其中,特征提取器f包括八个卷积层:f_conv1、f_conv2、f_conv3、f_conv4、f_conv5、f_conv6、f_conv7和f_conv8,这八个卷积层依次连接,设置方式如下:这八个卷积层都采用3×3的卷积核和relu激活函数,步长分别为(1,1)、(2,2)、(2,2)、(1,1)、(2,2)、(1,1)、(1,1)和(1,1),输出维度分别为h×w×64、其中符号为向上取整符号。原始彩色图像与u、v、r在第三个维度上拼接起来,依次经过f_conv1、f_conv2、f_conv3、f_conv4、f_conv5、f_conv6、f_conv7和f_conv8处理后得到源特征图xs。令h、w、c分别表示源特征图xs的高度、宽度和通道数,从而c=512。

步骤s400,通过所述场景坐标回归网络的特征变换器对所述源特征图进行特征变换,得到变换后的特征图;

在本实施例中,通过所述场景坐标回归网络的特征变换器t对所述源特征图xs进行特征变换,得到变换后的特征图xt。

场景坐标回归网络的特征变换器t的结构示意图如图2所示,其中有三个卷积操作(第一卷积操作t_conv1、第二卷积操作t_conv2、第三卷积操作t_conv3)、四个维度变换操作(第一维度变换操作、第二维度变换操作、第三维度变换操作、第四维度变换操作)、一个矩阵乘法操作和一个加权求和操作。第一卷积操作t_conv1和第二卷积操作t_conv2均采用1×1的卷积核,步长都设置为(1,1);第三卷积操作t_conv3是一个卷积核内容随源特征图xs变化的动态卷积,卷积核尺寸是k×k,步长为(1,1),其中k为第一预设常数,本发明中优选设置为3。t_conv1的输出通道数为c,t_conv2的输出通道数为k2a2,t_conv3的输出通道数为a2,其中a为第二预设常数,本发明中优选设置为3。定义由q+1维张量ds1降维到q维张量dt1的变换为drq(·),从而dt1=drq(ds1),dt1中元素的位置用(r1,r2,...,rq)表示,drq(·)的具体实现如下:dt1中(r1,r2,...,rq)位置处的值用ds1中(int(r1/l1),r1%l1,r2,...,rq)位置处的值填充,其中l1表示ds1的第二个维度的长度。定义由q-1维张量ds2升维到q维张量dt2的变换为diq(·),从而dt2=diq(ds2),diq(·)的具体实现如下:dt2中(r1,r2,...,rq)位置处的值用ds2中(l2r1+r2,r3,...,rq)位置处的值进行填充,其中l2表示dt2的第二个维度的长度。第一维度变换操作指通过dr2(·)将维度为h×w×c的三维张量变换成维度为hw×c的二维张量。第二维度变换操作指首先通过dr2(·)将维度为h×w×k2a2的三维张量变换成维度为hw×k2a2的二维张量,然后对该二维张量进行矩阵转置,从而维度变为k2a2×hw。第三维度变换操作指首先通过di3(·)将维度为k2a2×c的二维张量变换成维度为k2×a2×c的三维张量,再针对该三维张量通过di4(·)将它变换成维度为k×k×a2×c的四维张量;对该四维张量进行矩阵转置将维度变为k×a2×k×c,然后再进行一次矩阵转置将维度最终变为a2×k×k×c。第四维度变换操作通过dr2(·)将维度为1×1×a2的张量变换成维度为1×a2的二维张量,再通过dr1(·)将该二维张量变换成维度为a2的一维张量,最后通过di2(·)将该一维张量变换成维度为a×a的二维张量。

本实施例中,源特征图xs经过特征变换器t的t_conv1和t_conv2分别处理后得到第一关键特征图k和第一查询特征图q,k和q的维度分别为h×w×c和h×w×k2a2。k和q分别通过第一维度变换操作和第二维度变换操作得到第二关键特征图k’和第二查询特征图q’,维度分别为hw×c和k2a2×hw。对q’和k’进行矩阵乘法操作,得到第一动态卷积核ker’=q’k’,其维度为k2a2×c。ker’通过第三维度变换操作得到第二动态卷积核ker,其维度为a2×k×k×c。将源特征图xs送入t_conv3,以ker为t_conv3的动态卷积核,从而得到注意力参数矩阵a,其中a的维度为h×w×a2;a经过softmax归一化后获得归一化后的注意力参数矩阵anorm,维度仍为h×w×a2。对于源特征图xs的每个空间位置(i,j),其中i=0,1,…,h-1,j=0,1,…,w-1,取以(i,j)为中心的a×a大小的局部块na(i,j(维度为a×a×c),并从anorm中获得(i,j)对应的局部注意力参数矩阵anorm(i,j)(维度为1×1×a2),进而将anorm(i,j)经过第四维度变换操作得到维度为a×a的局部注意力块p(i,j)。通过将na(i,j)与p(i,j)进行加权求和操作,获得(i,j)位置处的维度为1×1×c的变换后的特征xt(i,j),其中加权求和操作的具体实现为:将na(i,j)的每一个通道的a×a个元素分别与p(i,j)中对应位置的值相乘后求和。所有变换后的特征构成变换后的特征图xt={xt(i,j)|i=0,1,...,h-1,h=0,1,...,w-1}。

步骤s500,将变换后的特征图与源特征图相加,作为最终的特征图,最终的特征图送入所述场景坐标回归网络的回归器进行回归,得到3d坐标图和不确定性图;所述不确定性图的每一个元素反映了该元素在3d坐标图中对应的3d坐标的不确定度;

在本实施例中,将变换后的特征图xt与源特征图xs相加即将xt和xs中的对应元素相加,得到最终的特征图x,最终的特征图x送入场景坐标回归网络的回归器r中进行回归,得到3d坐标图y和不确定性图u。

其中,回归器r包括三个卷积层:r_conv1、r_conv2和r_conv3,这三个卷积层依次连接,设置方式如下:这三个卷积层都采用1×1的卷积核,前两个卷积层采用relu激活函数,第三个卷积层不采用激活函数;r_conv1、r_conv2和r_conv3的步长均为(1,1),输出维度分别为h×w×4096、h×w×4096、h×w×4。x依次经过r_conv1、r_conv2和r_conv3处理后得到3d坐标图y和不确定性图u,将r_conv3的输出的前三个通道记为3d坐标图y,y的维度为h×w×3;将r_conv3的输出的第四个通道记为不确定性图u,u的维度为h×w×1。u的每一个元素反映了该元素在3d坐标图y中对应的3d坐标的不确定度。

步骤s600,对原始彩色图像对应的第一坐标图、第二坐标图进行8倍下采样,分别得到第三坐标图和第四坐标图;对第三坐标图和第四坐标图进行拼接,作为2d像素坐标图;基于所述不确定性图,对3d坐标图和2d像素坐标图分别进行过滤处理,得到3d坐标集合和2d像素坐标集合;

在本实施例中,对原始彩色图像对应的第一坐标图u、第二坐标图v进行8倍下采样,分别获得下采样后的第三坐标图u’和第四坐标图v’,u’和v’的维度均为即h×w×1。将第三坐标图u’和第四坐标图v’在第三个维度上进行拼接,获得3d坐标图y对应的2d像素坐标图p,其维度为h×w×2。如果不确定性图u中(i,j,0)位置处的值大于σth,其中i=0,1,…,h-1,j=0,1,…,w-1,则分别滤除3d坐标图和2d像素坐标图中(i,j)位置处的3d坐标和2d像素坐标,σth为第三预设常数,本发明中优选设置为0.035。过滤之后3d坐标图中剩余的3d坐标组成3d坐标集合,过滤之后2d像素坐标图中剩余的2d像素坐标组成与3d坐标集合中的元素一一对应的2d像素坐标集合。

步骤s700,基于所述3d坐标集合和对应的2d像素坐标集合,通过pnp算法获取服务机器人的位姿,从而实现服务机器人的视觉重定位。

在本实施例中,基于所述3d坐标集合和对应的2d像素坐标集合,通过pnp算法求得最优的位姿[r*,t*],其中r*和t*分别表示最优位姿的旋转分量和平移分量。该最优位姿即作为服务机器人的位姿,从而完成对服务机器人的视觉重定位。

下面对本发明实施例包含特征提取器、特征变换器和回归器的场景坐标回归网络的训练样本、损失函数进行说明。

本实施例中,场景坐标回归网络采用7-scenes室内数据集中的训练集进行训练,该数据集包含7个室内场景,对每个场景,提供了kinect相机运动过程中每个位置处的rgb图像、深度图像以及每个位置处的相机位姿真值,其中rgb图像和深度图像的分辨率都是640×480。各rgb图像中每个像素对应的3d坐标真值根据针孔相机模型进行计算,其中是rgb图像中像素的坐标,d是位置处的深度值,是7-scenes室内数据集所采用的kinect相机中的彩色相机的内参矩阵,分别是7-scenes室内数据集给出的rgb图像对应的相机位姿真值的旋转分量和平移分量。需要注意的是,深度图像的目的是仅在场景坐标回归网络的训练前计算3d坐标的真值。由于网络训练的是特定场景下的3d坐标信息,因此,不同的场景需要分别训练相应的场景坐标回归网络。

上述场景坐标回归网络的训练过程采用adam优化器,其损失函数l如公式(1)所示:

其中,xs、ys、zs分别是rgb图像对应的3d坐标图y的第s个3d坐标的三个分量,分别是3d坐标图y的第s个3d坐标对应的坐标真值的三个分量,us是不确定性图u中与3d坐标图y的第s个3d坐标相对应的不确定度。

采用本发明能够使得服务机器人在进行重定位时,有效应对大的相机视角的变化,提高视觉重定位的鲁棒性,进而提升视觉重定位的质量,为服务机器人在家庭、办公等环境下的重定位提供技术支持,实现较好的技术效果。

本发明第二实施例的一种基于场景坐标回归网络的视觉重定位系统,如图3所示,包括:获取模块100、构建模块200、特征提取模块300、特征变换模块400、回归模块500、过滤模块600、位姿解算模块700;

所述获取模块100,配置为服务机器人通过相机获取周围环境的原始彩色图像;

所述构建模块200,配置为基于所述原始彩色图像,构建三个维度为h×w×1的张量,对第一个张量中(n,m,0)位置处的值用m填充,构成第一坐标图;对第二个张量中(n,m,0)位置处的值用n填充,构成第二坐标图;对第三个张量中(n,m,0)位置处的值用该位置与坐标原点的欧式距离进行填充,构成距离图;其中,n=0,1,…,h-1,m=0,1,…,w-1,h和w分别为原始彩色图像的高度和宽度;

所述特征提取模块300,配置为将原始彩色图像与构建的第一坐标图、第二坐标图以及距离图拼接起来,并送入场景坐标回归网络的特征提取器进行特征提取,得到源特征图;

所述特征变换模块400,配置为通过所述场景坐标回归网络的特征变换器对所述源特征图进行特征变换,得到变换后的特征图;

所述回归模块500,配置为将变换后的特征图与源特征图相加,作为最终的特征图,最终的特征图送入所述场景坐标回归网络的回归器进行回归,得到3d坐标图和不确定性图;所述不确定性图的每一个元素反映了该元素在3d坐标图中对应的3d坐标的不确定度;

所述过滤模块600,配置为对原始彩色图像对应的第一坐标图、第二坐标图进行8倍下采样,分别得到第三坐标图和第四坐标图;对第三坐标图和第四坐标图进行拼接,作为2d像素坐标图;基于所述不确定性图,对3d坐标图和2d像素坐标图分别进行过滤处理,得到3d坐标集合和2d像素坐标集合;

所述位姿解算模块700,配置为基于所述3d坐标集合和对应的2d像素坐标集合,通过pnp算法获取服务机器人的位姿,从而实现服务机器人的视觉重定位。

所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

需要说明的是,上述实施例提供的基于场景坐标回归网络的视觉重定位系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。

本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于场景坐标回归网络的视觉重定位方法。

本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于场景坐标回归网络的视觉重定位方法。

所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。

本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1