一种可消除干扰物体影响的位姿确定方法及装置

文档序号：30663759发布日期：2022-07-06 02:18阅读：89来源：国知局

1.本发明涉及视觉定位的技术领域，尤其涉及一种可消除干扰物体影响的位姿确定方法及装置。

背景技术：

2.视觉定位(visual localization)，是提供位置服务的一种技术，是计算机视觉领域的关键任务，其目的是在只给定一张查询图像的条件下，确定拍摄图像的相机在世界坐标系中的绝对位姿，即位置及姿态(简称：位姿)。随着智能科技的发展和应用，视觉定位在智能机器人、自动驾驶、增强现实(ar)等领域中均起到关键作用。
3.其中一种常用的位姿确定技术是间接定位技术。其定位方式是先借助图像检索技术在图像库中查找与当前图像相类似的参考图像，然后分别确定参考图像的参考位姿，以及当前图像与参考图像之间的相对位姿，最后根据参考位姿和相对位姿进行对极约束估计或者利用深度学习的方式进行相对位姿估计。
4.但目前常用的位姿确定方法有如下技术问题：由于所采集的环境图像可能对应各种不同的场景，而不同场景里的人或物可能处于移动状态，若采用处于移动状态的人或物作为位置的参照物，会对定位造成严重干扰，进而导致定位出错；而且采集的环境图像中可能还包含各种不同的无纹理物体(例如，天空或云)，而无纹理物体没有特定的形状，增加无法定位的参照物数量，从而增加了定位的干扰因素，降低了定位的准确率。

技术实现要素：

5.本发明提出一种可消除干扰物体影响的位姿确定方法及装置，所述方法可以区分与消除查询图像和参考图像中的干扰物体，以减少干扰物体对定位处理的影响，从而提高定位准确率。
6.本发明实施例的第一方面提供了一种可消除干扰物体影响的位姿确定方法，所述方法包括：
7.获取查询图像后，在预设的图像库中查找若干张与所述查询图像对应的参考图像；
8.将所述查询图像与每一张所述参考图像组成图像集合，并分别对每个所述图像集合内的图像进行消除干扰物处理，得到每个所述图像集合对应的相对位姿；
9.结合若干个所述相对位姿确定目标位姿。
10.在第一方面的一种可能的实现方式中，所述分别对每个所述图像集合内的图像进行消除干扰物处理，得到每个所述图像集合对应的相对位姿，包括：
11.对所述图像集合内的图像分别进行语义分割和偏置转换，得到融合图像，所述融合图像包括所述查询图像对应的融合查询图像，以及所述参考图像对应的融合参考图像；
12.利用注意力机制从所述融合图像里提取注意力特征，所述注意力特征包括查询特征图像和参考特征图像；
13.关联所述查询特征图像和所述参考特征图像得到相对位姿。
14.在第一方面的一种可能的实现方式中，所述对所述图像集合内的图像分别进行语义分割和偏置转换，得到融合图像，包括：
15.分别对所述查询图像和所述参考图像进行语义分割处理，分别得到分割查询图像和分割参考图像；
16.调用预设的偏置网络分别将所述分割查询图像和所述分割参考图像转换生成偏置查询图像和偏置参考图像；
17.将所述偏置查询图像与所述查询图像进行元素级对应相加得到融合查询图像，以及将所述偏置参考图像与所述参考图像进行元素级对应相加融合参考图像。
18.在第一方面的一种可能的实现方式中，所述利用注意力机制从所述融合图像中提取注意力特征，包括：
19.将所述融合查询图像和所述融合参考图像分别输入至预设的注意力特征提取网络，分别得到查询特征图像和参考特征图像，其中，预设的注意力特征提取网络由残差网络和cbam通道空间注意力模块组成。
20.在第一方面的一种可能的实现方式中，所述关联所述查询特征图像和所述参考特征图像得到相对位姿，包括：
21.将所述查询特征图像的每个像素点位处的特征和所述参考特征图像的每个像素点位处的特征进行点积得到关联图像；
22.将所述关联图像输入至预设的回归网络得到相对位姿。
23.在第一方面的一种可能的实现方式中，所述结合若干个所述相对位姿确定目标位姿，包括：
24.将若干个所述相对位姿进行两两组合，得到多个组合位姿；
25.对每个所述组合位姿内的两个相对位姿进行三角化处理得到假设位姿；
26.计算每个所述假设位姿的内点数量值，从多个所述内点数量值筛选数值最大的内点数量值，以最大的内点数量值对应的假设位姿为目标位姿。
27.在第一方面的一种可能的实现方式中，所述在预设的图像库中查找若干张与所述查询图像对应的参考图像，包括：
28.利用densevlad算法为所述查询图像编辑对应的查询描述子，以及利用densevlad算法为预设的图像库存储的每张图像编辑对应的预设描述子；
29.计算所述查询描述子与每个所述预设描述子之间的欧式距离，得到多个欧式距离值；
30.从多个所述欧式距离值中筛选若干个小于预设距离值的欧式距离值，并以小于预设距离值的欧式距离值对应的图像为参考图像。
31.本发明实施例的第二方面提供了一种可消除干扰物体影响的位姿确定装置，所述装置包括：
32.获取与查找模块，用于获取查询图像后，在预设的图像库中查找若干张与所述查询图像对应的参考图像；
33.消除干扰模块，用于将所述查询图像与每一张所述参考图像组成图像集合，并分别对每个所述图像集合内的图像进行消除干扰物处理，得到每个所述图像集合对应的相对
位姿；
34.确定模块，用于结合若干个所述相对位姿确定目标位姿。
35.相比于现有技术，本发明实施例提供的一种可消除干扰物体影响的位姿确定方法及装置，其有益效果在于：本发明可以在筛选查询图像对应的参考图像后，可以分别识别与筛选查询图像和参照图像中的干扰物，从而消除图像中的干扰物，降低干扰物对定位的影响，以提高定位的准确率。
附图说明
36.图1是本发明一实施例提供的一种可消除干扰物体影响的位姿确定方法的流程示意图；
37.图2是本发明一实施例提供的偏置网络的结构示意图；
38.图3是本发明一实施例提供的注意力特征提取网络的结构示意图；
39.图4是本发明一实施例提供的图像关联的效果示意图；
40.图5是本发明一实施例提供的回归网络的结构示意图；
41.图6是本发明一实施例提供的生成相对位姿的步骤操作流程图；
42.图7是本发明一实施例提供的一种可消除干扰物体影响的位姿确定装置的结构示意图。
具体实施方式
43.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
44.目前常用的位姿确定方法有如下技术问题：由于所采集的环境图像可能对应各种不同的场景，而不同场景里的人或物可能处于移动状态，若采用处于移动状态的人或物作为位置的参照物，会对定位造成严重干扰，进而导致定位出错；而且采集的环境图像中可能还包含各种不同的无纹理物体(例如，天空或云)，而无纹理物体没有特定的形状，增加无法定位的参照物数量，从而增加了定位的干扰因素，降低了定位的准确率。
45.为了解决上述问题，下面将通过以下具体的实施例对本技术实施例提供的一种可消除干扰物体影响的位姿确定方法进行详细介绍和说明。
46.参照图1，示出了本发明一实施例提供的一种可消除干扰物体影响的位姿确定方法的流程示意图。
47.其中，作为示例的，所述可消除干扰物体影响的位姿确定方法，可以包括：
48.s11、获取查询图像后，在预设的图像库中查找若干张与所述查询图像对应的参考图像。
49.查询图像可以为用户需要进行视觉定位的图像，参考图像可以是与查询图像相似的图像。
50.预设的图像库可以是通过多张由用户采集并标注了绝对位姿的环境图像组合生成的参考图像库。具体地，用于可以按照一定的密度采集环境图像，然后通过sfm技术标定
环境图像的绝对位姿，将这些带有绝对位姿的环境图像组合成可以作为视觉定位的参考图像库。
51.为了能准确定位，可以在图像库存储的多张用户标注了绝对位姿的图像中筛选若干张图像作为参考图像，以供查询图像进行定位参考。
52.由于图像库中所包含的图像有多张，为了能准确筛选所需要的参考图像，以提高定位的准确率，其中，作为示例的，步骤s11可以包括以下子步骤：
53.子步骤s111、利用densevlad算法为所述查询图像编辑对应的查询描述子，以及利用densevlad算法为预设的图像库存储的每张图像编辑对应的预设描述子。
54.densevlad是众多的生成图像描述子的算法中的一种，是一种大同小异的编码算法。
55.描述子可以为对图像的一种压缩表示，可以是一种图像标记。通过编辑图像对应的描述子，可以基于描述子来衡量查询图像与图像库所存储的每张图像相互之间的相似度，从而可以进行图像检索，以提高图像筛选的效率。
56.子步骤s112、计算所述查询描述子与每个所述预设描述子之间的欧式距离，得到多个欧式距离值。
57.可以计算查询描述子与每个预设描述子之间的欧式距离，从而可以得到多个欧式距离值。
58.子步骤s113、从多个所述欧式距离值中筛选若干个小于预设距离值的欧式距离值，并以小于预设距离值的欧式距离值对应的图像为参考图像。
59.在一实施例中，若有多个欧式距离值小于预设距离值，可以按照预设数量在多个欧式距离值选取数值最大的几个欧式距离值，以该欧式距离值对应的图像为参考图像。
60.可选地，预设数量可以是3、5、8、10等等。
61.s12、将所述查询图像与每一张所述参考图像组成图像集合，并分别对每个所述图像集合内的图像进行消除干扰物处理，得到每个所述图像集合对应的相对位姿。
62.在一实施例中，可以将查询图像与每一张参考图像作为一个图像集合，对该图像集合内的图像进行消除干扰物处理，以消除图像内的各个干扰物，以降低干扰物对后期定位的影响，提高定位的准确率；并且，在消除干扰物的同时，可以计算这个图像集合所对应的相对位姿，从而可以利用多个图像集合对应的相对位姿确定最后的目标位姿。
63.为了能区分图像中不同种类的物体，以消除干扰物体影响，以及为了能从消除干扰后的物体中筛选具有显著特性的图像特征，其中，作为示例的，步骤s12可以包括以下子步骤：
64.子步骤s121、对所述图像集合内的图像分别进行语义分割和偏置转换，得到融合图像，所述融合图像包括所述查询图像对应的融合查询图像，以及所述参考图像对应的融合参考图像。
65.其中，融入语义分割可以得到图像中不同的语义信息，从而可以区分查询图像和参考图像中所包含的不同种类的物体，从而可以很好的区分干扰物与非干扰物，进而能消除干扰物体影响。
66.偏置转换可以将图像中的不同语义信息融入到图像当中，使得图像中不同区域有了类别的属性，从而可以快速直观地分辨干扰物与非干扰物。
67.在一可选的实施例中，子步骤s121可以包括以下子步骤：
68.子步骤s1211、分别对所述查询图像和所述参考图像进行语义分割处理，分别得到分割查询图像和分割参考图像。
69.具体地，可以同时对查询图像和参考图像进行语义分割处理，同时区分查询图像和参考图像不同物体对应的不同语义信息，从而可以得到分割查询图像和分割参考图像。
70.子步骤s1212、调用预设的偏置网络分别将所述分割查询图像和所述分割参考图像转换生成偏置查询图像和偏置参考图像。
71.可以将分割查询图像和分割参考图像分别输入至预设的偏置网络中，让预设的偏置网络对输入图像进行编码，从而得到与输入图像尺寸相同的偏置特征图，分别得到偏置查询图像和偏置参考图像。
72.参照图2，示出了本发明一实施例提供的偏置网络的结构示意图。
73.在一实施例中，使用偏置网络将图像里的不同语义信息融入到图像当中后，图像中不同区域有了类别的属性，而干扰物的类别对应到的图像中的内容部分会被抑制，并且不同干扰物体被抑制的程度不同。在对这些干扰物体所在区域的图像像素值进行偏置之后，相当于在图像中剔除了这些干扰物体。降低干扰物对后续处理的影响。
74.此外，对其他并非干扰物体的内容也可以进行语义信息的标注，这使得在后续的处理中，可以提高匹配与关联的准确率，有助于提高定位的准确率。
75.子步骤s1213、将所述偏置查询图像与所述查询图像进行元素级对应相加得到融合查询图像，以及将所述偏置参考图像与所述参考图像进行元素级对应相加融合参考图像。
76.在得到偏置处理的图像后，可以将偏置处理的图像与其原图进行叠加融合，从而得到相应的融合图像。
77.具体地，可以将偏置查询图像与查询图像进行元素级对应相加得到融合查询图像，同理，可以将偏置参考图像与参考图像进行元素级对应相加融合参考图像。
78.子步骤s122、利用注意力机制从所述融合图像里提取注意力特征，所述注意力特征包括查询特征图像和参考特征图像。
79.在一实施例中，利用注意力机制的筛选方式可以从图像中筛选出更具有显著性的图像特征，过滤了其他非显著的图像特征，这样就相当于只使用显著性的特征来定位，过滤大多数非显著的特征，继而可以降低在定位时受到图像中干扰物影响到可能性。
80.在一可选的实施例中，子步骤s122可以包括以下子步骤：
81.子步骤s1221、将所述融合查询图像和所述融合参考图像分别输入至预设的注意力特征提取网络，分别得到查询特征图像和参考特征图像，其中，预设的注意力特征提取网络由残差网络和cbam通道空间注意力模块组成。
82.参照图3，示出了本发明一实施例提供的注意力特征提取网络的结构示意图。
83.在一实施例中，注意力特征提取网络可以是由残差网络resnet34和cbam通道空间注意力模块组成，其结构如图3所示。
84.其中，cbam通道空间注意力模块包括通道注意力模块和空间注意力模块。
85.在实际操作中，可以分别将融合查询图像和融合参考图像输入至注意力特征提取网络，经过注意力特征提取网络后，可以分别输出得到查询特征图像和参考特征图像。
86.子步骤s123、关联所述查询特征图像和所述参考特征图像得到相对位姿。
87.在得到查询特征图像和参考特征图像后，可以将查询特征图像和参考特征图像进行关联回归操作，从而得到查询图像和参考图像之间的相位位姿。
88.在一可选的实施例中，子步骤s123可以包括以下子步骤：
89.子步骤s1231、将所述查询特征图像的每个像素点位处的特征和所述参考特征图像的每个像素点位处的特征进行点积得到关联图像。
90.参照图4，示出了本发明一实施例提供的图像关联的效果示意图。
91.关联操作时，可以计算查询特征图像的每个特征相对于参考特征图像的每个特征的点积，从而实现对查询特征图像和参考特征图像的关联，从而基于计算的点积结果生成一个关联结果特征图，得到关联图像，具体图如4所示。
92.子步骤s1232、将所述关联图像输入至预设的回归网络得到相对位姿。
93.参照图5，示出了本发明一实施例提供的回归网络的结构示意图。
94.在一实施例中，回归网络使用由两个卷积层，一个全连接层组成。
95.具体地，将关联图像输入至回归网络后，可以输出得到相位位姿。其中，相对位姿的结果可以使用本质矩阵表示。本质矩阵是3
×
3维的一个矩阵，是相对位姿的一种表示形式，本质矩阵可以分解得到位移和旋转。可选地，也可以使用其他形式，如用三维向量表示位移、用四维的四元数表示旋转，或用三维向量表示位移、用3
×
3维的旋转矩阵表示旋转。
96.参照图6，示出了本发明一实施例提供的生成相对位姿的步骤操作流程图。
97.在实际操作中，对每一个图像集合进行操作时，可以同时对图像集合内的查询图像和参考图像进行处理，可以同时对查询图像和参考图像进行语义分割、偏置转换、图像融合、特征提取，最后两个特征进行特征关联和回归处理，从而得到查询图像和参考图像的相对位姿。
98.s13、结合若干个所述相对位姿确定目标位姿。
99.在对每一个图像集合进行上述操作后，以得到每个图像集合对应的相对位姿，从而得到若干个相对位姿，最后结合若干个相对位姿可以确定最终的目标位姿。
100.为了准确评估最后的目标位姿，在其中一种的实施例中，步骤s13可以包括以下子步骤：
101.子步骤s131、将若干个所述相对位姿进行两两组合，得到多个组合位姿。
102.在一实施例中，假设相对位姿有5个，将5个相对位姿两两组合后，可以得到10个组合位姿。
103.子步骤s132、对每个所述组合位姿内的两个相对位姿进行三角化处理得到假设位姿。
104.可以将每个组合位姿内的两个相对位姿进行三角化处理，从而可以得到这两个相对位姿的对应的一个假设位姿。
105.其计算过程具体如下：根据前文描述可知，相对位姿是一个本质矩阵，一个本质矩阵可以分解出两种可能的相对位移(即两种可能的位移数值符合相反)和两种可能的相对旋转，一共2乘2共4种可能。
106.两种可能的相对旋转与产生该本质矩阵的图像对中的参考图像的绝对旋转相乘，可以得到两个绝对旋转。同理，两个相对位姿对应了两个本质矩阵，每个本质矩阵可以对应
两个绝对旋转，两个本质矩阵则可以对应四个绝对旋转。在这四个绝对旋转中，筛选欧式距离最小的两个绝对旋转视为正确的绝对旋转。在确定了绝对旋转的基础上，继续用三角化按照上述方式从两个相对位移中选择一个视为正确的相对位移，最后，基于确定的绝对旋转和位移就构成了一个绝对位姿假设。
107.子步骤s133、计算每个所述假设位姿的内点数量值，从多个所述内点数量值筛选数值最大的内点数量值，以最大的内点数量值对应的假设位姿为目标位姿。
108.在一实施例中，内点数量计算过程如下：对于一个绝对位姿假设，逐个判断五组图像对是否属于内点。设图像对为(ik，iq),ik表示参考图像，iq表示查询图像。
109.利用反余弦函数值判断是否为内点，计算如下式所示：
[0110][0111]
上式中，其中r表示旋转矩阵，t表示位移。
[0112]
在一可选的实施例中，α的上限可以为α
max
＝10
°
，若计算出的α小于此数值，便视为内点。
[0113]
另外，在应用前，可以预先训练所需要的各个神经网络。具体地，可以将采集的环境图像与所使用的位姿输入卷积神经网络进行训练。在训练过程中，训练过程中，不涉及假设检验步骤，而是在回归得到相对位姿(本质矩阵表示)后结束，损失函数为：
[0114][0115]
即预测的本质矩阵和真实本质矩阵的均方差损失。
[0116]
在本实施例中，本发明实施例提供了一种可消除干扰物体影响的位姿确定方法，其有益效果在于：本发明可以在筛选查询图像对应的参考图像后，可以分别识别与筛选查询图像和参照图像中的干扰物，从而消除图像中的干扰物，降低干扰物对定位的影响，以提高定位的准确率。
[0117]
本发明实施例还提供了一种可消除干扰物体影响的位姿确定装置，参见图7，示出了本发明一实施例提供的一种可消除干扰物体影响的位姿确定装置的结构示意图。
[0118]
其中，作为示例的，所述可消除干扰物体影响的位姿确定装置可以包括：
[0119]
获取与查找模块701，用于获取查询图像后，在预设的图像库中查找若干张与所述查询图像对应的参考图像；
[0120]
消除干扰模块702，用于将所述查询图像与每一张所述参考图像组成图像集合，并分别对每个所述图像集合内的图像进行消除干扰物处理，得到每个所述图像集合对应的相对位姿；
[0121]
确定模块703，用于结合若干个所述相对位姿确定目标位姿。
[0122]
可选地，所述消除干扰模块还用于：
[0123]
对所述图像集合内的图像分别进行语义分割和偏置转换，得到融合图像，所述融合图像包括所述查询图像对应的融合查询图像，以及所述参考图像对应的融合参考图像；
[0124]
利用注意力机制从所述融合图像里提取注意力特征，所述注意力特征包括查询特
征图像和参考特征图像；
[0125]
关联所述查询特征图像和所述参考特征图像得到相对位姿。
[0126]
可选地，所述消除干扰模块还用于：
[0127]
分别对所述查询图像和所述参考图像进行语义分割处理，分别得到分割查询图像和分割参考图像；
[0128]
调用预设的偏置网络分别将所述分割查询图像和所述分割参考图像转换生成偏置查询图像和偏置参考图像；
[0129]
将所述偏置查询图像与所述查询图像进行元素级对应相加得到融合查询图像，以及将所述偏置参考图像与所述参考图像进行元素级对应相加融合参考图像。
[0130]
可选地，所述消除干扰模块还用于：
[0131]
将所述融合查询图像和所述融合参考图像分别输入至预设的注意力特征提取网络，分别得到查询特征图像和参考特征图像，其中，预设的注意力特征提取网络由残差网络和cbam通道空间注意力模块组成。
[0132]
可选地，所述消除干扰模块还用于：
[0133]
将所述查询特征图像的每个像素点位处的特征和所述参考特征图像的每个像素点位处的特征进行点积得到关联图像；
[0134]
将所述关联图像输入至预设的回归网络得到相对位姿。
[0135]
可选地，所述确定模块还用于：
[0136]
将若干个所述相对位姿进行两两组合，得到多个组合位姿；
[0137]
对每个所述组合位姿内的两个相对位姿进行三角化处理得到假设位姿；
[0138]
计算每个所述假设位姿的内点数量值，从多个所述内点数量值筛选数值最大的内点数量值，以最大的内点数量值对应的假设位姿为目标位姿。
[0139]
可选地，所述获取与查询模块还用于：
[0140]
利用densevlad算法为所述查询图像编辑对应的查询描述子，以及利用densevlad算法为预设的图像库存储的每张图像编辑对应的预设描述子；
[0141]
计算所述查询描述子与每个所述预设描述子之间的欧式距离，得到多个欧式距离值；
[0142]
从多个所述欧式距离值中筛选若干个小于预设距离值的欧式距离值，并以小于预设距离值的欧式距离值对应的图像为参考图像。
[0143]
所属技术领域的技术人员可以清楚地了解到，为方便的描述和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0144]
进一步的，本技术实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的一种可消除干扰物体影响的位姿确定方法。
[0145]
进一步的，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述实施例所述的一种可消除干扰物体影响的位姿确定方法。
[0146]
以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为
本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李图南詹昭焕谭光
技术所有人：中山大学
我是此专利的发明人

上一篇：一种用于建设工程施工的监控设备
上一篇：一种具有清洁功能的服装纺织设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。