图像处理模型的训练方法、装置、电子设备及存储介质与流程

文档序号:33348524发布日期:2023-03-04 04:16阅读:40来源:国知局
图像处理模型的训练方法、装置、电子设备及存储介质与流程

1.本公开涉及图像处理技术领域,尤其涉及一种图像处理模型的训练方法、装置、电子设备及存储介质。


背景技术:

2.自动驾驶或机器人定位领域中,通常基于高精度视觉特征图进行车辆或机器人视觉定位,包括建图和定位两个阶段;在建图阶段需要生成高精度视觉特征地图;在定位阶段,则需要提取实时采集的图像中的特征点,然后与高精度视觉特征地图进行匹配,以获得车辆或机器人的实时位姿;然而实时采集的图像由于亮度、清晰度等原因与高精度视觉特征地图差异较大时,很难实现实时采集的图像与高精度视觉特征地图之间的匹配,导致车辆或机器人定位失败。


技术实现要素:

3.本公开提供了一种图像处理模型的训练方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
4.根据本公开的第一方面,提供一种图像处理模型的训练方法,所述模型包括视觉变换网络和类别权重网络,所述方法包括:
5.将增强样本图像对应的至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图像;
6.将任一个编码子图像、所述编码子图像对应的裁剪子图像以及全部所述编码子图像拼接得到的编码图像输入至类别权重网络中,获取所述增强样本图像对应的反增强样本图像;
7.基于所述增强样本图像对应的标准样本图像和所述反增强样本图像调整所述视觉变换网络和所述类别权重网络的参数。
8.上述方案中,所述将所述增强样本图像对应的至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图之前,所述方法还包括:
9.对原始样本图像进行预处理,获得标准样本图像;
10.对所述标准样本图像进行增强处理,获得增强样本图像;
11.对所述增强样本图像进行裁剪,获得所述增强样本图像对应的至少一个裁剪子图像。
12.上述方案中,所述将所述增强样本图像对应的至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图,包括:
13.将所述至少一个裁剪子图像输入至所述视觉变换网络包括的线性层中,确认所述线性层的输出为每一个裁剪子图像分别对应的线性投影;
14.将所述每一个裁剪子图像对应的线性投影,以及每一个裁剪子图像在所述增强样本图像中的分类标识输入至所述视觉变换网络包括的编码器中,确认所述编码器的输出,
为所述至少一个裁剪子图像分别对应的编码子图。
15.上述方案中,所述将任一个编码子图像、所述编码子图像对应的裁剪子图像以及全部所述编码子图像拼接得到的编码图像输入至类别权重网络中,获取所述增强样本图像对应的反增强样本图像,包括对每一个编码子图像,以及所述每一个编码子图像对应的裁剪子图像进行如下处理:
16.将所述编码子图像输入至所述类别权重网络包括的第一神经网络层,获取所述编码子图像对应的第一编码特征;
17.将所述编码子图像对应的裁剪子图像输入至所述类别权重网络包括的第二神经网络层,获取所述裁剪子图像对应的第二编码特征;
18.将所述编码图像输入至所述类别权重网络包括的第三神经网络层,获取所述编码图像对应的第三编码特征。
19.上述方案中,所述将任一个编码子图像、所述编码子图像对应的裁剪子图像以及全部所述编码子图像拼接得到的编码图像输入至类别权重网络中,获取所述增强样本图像对应的反增强样本图像,包括对每一个编码子图像,以及所述每一个编码子图像对应的裁剪子图像进行如下处理:
20.基于所述第一编码特征,获取所述第一编码特征的自相关强度;
21.对所述第三编码特征进行掩码处理获得第一矩阵;
22.基于第一矩阵将所述自相关强度划分为非掩码区域和掩码区域。
23.上述方案中,所述将任一个编码子图像、所述编码子图像对应的裁剪子图像以及全部所述编码子图像拼接得到的编码图像输入至类别权重网络中,获取所述增强样本图像对应的反增强样本图像,包括对每一个编码子图像,以及所述每一个编码子图像对应的裁剪子图像进行如下处理:
24.基于所述非掩码区域的像素加权权重,以及所述第二编码特征,确认所述非掩码区域的像素加权输出;
25.基于所述掩码区域的像素加权权重,以及所述第一编码特征,确认所述掩码区域的像素加权输出;
26.基于所述非掩码区域和所述掩码区域,确认第一拼合系数和第二拼合系数;
27.基于所述第一拼合系数、所述第二拼合系数、所述非掩码区域的像素加权输出和所述掩码区域的像素加权输出确认所述裁剪子图像对应的反增强编码子图像;
28.确认每一个裁剪子图像对应的反增强编码子图像的拼接处理结果,为所述反增强编码样本图像;
29.对所述反增强样本图像进行卷积解码,获得反增强样本图像。
30.上述方案中,所述基于所述增强样本图像对应的标准样本图像和所述反增强样本图像调整所述视觉变换网络和所述类别权重网络的参数,包括:
31.基于所述标准样本图像中每一个像素的值,以及所述反增强样本图像中每一个像素的值,确认所述图像处理模型的损失函数;
32.基于所述图像处理模型的损失函数,调整所述视觉变换网络和所述类别权重网络的参数。
33.上述方案中,所述基于所述标准样本图像中每一个像素的值,以及所述反增强样
本图像中每一个像素的值,确认所述图像处理模型的损失函数,包括:
34.基于所述标准样本图像中每一个像素的值、所述反增强样本图像中每一个像素的值,以及l1损失函数,确认重建损失子函数;
35.基于所述标准样本图像中每一个像素的值、所述反增强样本图像中每一个像素的值,以及可视化激活热力图,确认感知损失子函数;
36.基于反增强样本图像中每一个像素的值,确认生成器损失子函数;
37.基于所述重建损失子函数、所述感知损失子函数以及所述生成器损失子函数,确认所述图像处理模型的损失函数。
38.根据本公开的第二方面,提供一种定位方法,基于上述第一方面所述的图像处理模型的训练方法所得到的图像处理模型实现,所述方法包括:
39.基于所述图像处理模型分别对实时图像和建图图像进行归一化处理,分别获得所述实时图像对应的实时特征和所述建图图像对应的建图特征;
40.对所述实时图像对应的全球导航卫星系统(global navigation satellite system,gnss)与建图特征进行特征融合,基于特征融合的结果确认特征地图;
41.基于所述特征地图和所述实时特征,确认采集所述实时图像的设备的定位信息。
42.根据本公开的第三方面,提供了一种图像处理模型的训练装置,所述图像处理模型包括视觉变换网络和类别权重网络,所述装置包括:
43.第一训练单元,用于将增强样本图像对应的至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图像;
44.第二训练单元,用于将任一个编码子图像、所述编码子图像对应的裁剪子图像以及全部所述编码子图像拼接得到的编码图像输入至类别权重网络中,获取所述增强样本图像对应的反增强样本图像;
45.调整单元,用于基于所述增强样本图像对应的标准样本图像和所述反增强样本图像调整所述视觉变换网络和所述类别权重网络的参数。
46.根据本公开的第四方面,提供了一种定位装置,基于上述第一方面所述的图像处理模型的训练方法所得到的图像处理模型实现,所述装置包括:
47.第一训练单元,用于将增强样本图像对应的至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图像;
48.第二训练单元,用于将任一个编码子图像、所述编码子图像对应的裁剪子图像以及全部所述编码子图像拼接得到的编码图像输入至类别权重网络中,获取所述增强样本图像对应的反增强样本图像;
49.调整单元,用于基于所述增强样本图像对应的标准样本图像和所述反增强样本图像调整所述视觉变换网络和所述类别权重网络的参数。
50.根据本公开的第五方面,提供了一种电子设备,包括:
51.至少一个处理器;以及
52.与所述至少一个处理器通信连接的存储器;其中,
53.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
54.根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
55.本公开的图像处理模型的训练方法,通过将增强样本图像对应的至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图像;将任一个编码子图像、所述编码子图像对应的裁剪子图像以及全部所述编码子图像拼接得到的编码图像输入至类别权重网络中,获取所述增强样本图像对应的反增强样本图像;基于所述增强样本图像对应的标准样本图像和所述反增强样本图像调整所述视觉变换网络和所述类别权重网络的参数。通过此模型,可以降低不同环境条件下采集的图像之间的差异,使图像之间更具备一致性,提升图像与高精度视觉特征地图之间的匹配成功率,提升车辆或机器人的定位效果。
56.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
57.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
58.在附图中,相同或对应的标号表示相同或对应的部分。
59.图1示出了本公开实施例提供的图像处理模型的训练方法的一种可选流程示意图;
60.图2示出了本公开实施例提供的图像处理模型的训练过程的可选示意图;
61.图3示出了本公开实施例提供的图像处理模型的可选结构示意图;
62.图4示出了本公开实施例提供的类别权重网络的一种可选结构示意图;
63.图5示出了本公开实施例提供的类别权重网络的另一种可选结构示意图;
64.图6示出了基于本公开实施例提供的图像处理模型处理图像的效果示意图;
65.图7示出了本公开实施例提供的定位方法的一种可选流程示意图;
66.图8示出了本公开实施例提供的定位方法的示意图;
67.图9示出了本公开实施例提供的图像处理模型的训练装置的可选结构示意图;
68.图10示出了本公开实施例提供的定位装置的可选结构示意图;
69.图11示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
70.为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
71.在当前的自动驾驶或者机器人定位领域中,通常基于已有高精度视觉特征地图进行视觉定位。其主要包括建图和定位两个阶段。在建图阶段,通过同时采集gnss/惯性测量单元(inertial measurement unit,imu)/激光雷达(lidar)/相机(camera)的数据,然后再对图像进行一定的预处理,比如矫正畸变/变换大小等,然后在图像中提取特征点,并计算
此时车辆的位姿状态,最后通过和gnss坐标的时间对齐,形成与gnss对应的高精度视觉特征地图。在定位阶段,则首先对实时采集到的图像进行预处理,然后提取图像特征点,再通过和建图过程得到的高精度视觉特征地图进行比较,得到当前车辆或机器人的实时位姿。
72.当实时定位过程中获取的图像亮度/清晰度等参数与高精度视觉特征地图建图过程中的图像差异较大时,很难实现实时图像与预先建立地图之间的匹配,从而导致定位失败。
73.针对相关技术中存在的缺陷,本公开提供一种图像处理模型的训练方法和基于所述图像处理模型的定位方法,可以解决上述部分或全部技术问题。
74.图1示出了本公开实施例提供的图像处理模型的训练方法的一种可选流程示意图,图2示出了本公开实施例提供的图像处理模型的训练过程的可选示意图,图3示出了本公开实施例提供的图像处理模型的可选结构示意图。
75.如图2所示,图像处理模型的训练装置(以下简称第一装置)对采集的原始样本图像进行预处理获得标准样本图像,所述预处理可以包括直方图归一化esrgan处理、调整原始图像的大小和校正畸变等至少之一;然后对所述标准样本图像进行增强处理,获得增强样本图像,其中所述增强模型可以使用surfelgan;增强处理的目的是调整标准样本图像的亮度、清晰度、增加遮挡物等,也就是说使标准样本图像更接近于自然采集到的现实图像;然后利用所述增强样本图像训练所述图像处理模型,并获得反增强样本图像(即去掉了增强模型的处理结果,更接近标准样本图像或与标准样本图像一样),然后继续基于标准样本图像或反增强样本图像训练所述图像处理模型。所述图像处理模型的具体训练过程如下:
76.步骤s101,将增强样本图像对应的至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图像。
77.在一些实施例中,所述第一装置获取所述增强样本图像之后,对所述增强样本图像进行裁剪,获得所述增强样本图像对应的至少一个裁剪子图像。其中,每一个裁剪子图像的大小均相同,且全部裁剪子图像可以拼接为增强样本图像。
78.如图3所示,假设增强样本图像(image)的大小为720
×
720,则每一个裁剪子图像(patch)的大小可以为16
×
16,即将所述增强样本图像划分为大小相等的2025个裁剪子图像。需要理解,图3仅为示意,并未示出全部的裁剪子图像。
79.在一些实施例中,所述第一装置将所述至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图像。
80.所述视觉变换网络的结构可以如图3所示,为标准视觉变换器网络(standard vision transformer,standard vit),其包括线性层和编码器。
81.具体实施时,所述第一装置将所述至少一个裁剪子图像输入至所述视觉变换网络包括的线性层中,确认所述线性层的输出为每一个裁剪子图像分别对应的线性投影;
82.具体实施时,所述第一装置将所述每一个裁剪子图像输入至所述线性层中,对每一个裁剪子图像进行线性投影,获取所述每一个裁剪子图像对应的线性投影;然后,将所述每一个裁剪子图像对应的线性投影以及每一个裁剪子图像在所述增强样本图像中的分类标识(cls token)输入至所述视觉变换网络包括的编码器中,确认所述编码器的输出,为所述至少一个裁剪子图像分别对应的编码子图。其中,分类标识可以包括每一个裁剪子图像的位置嵌入值(position embedding),即图3中带有数字1,2,3,
……
7的椭圆示意。此外,所
述编码器的输入还可以包括额外的patch和class token,即图3中0的椭圆示意。
83.步骤s102,将任一个编码子图像、所述编码子图像对应的裁剪子图像以及全部所述编码子图像拼接得到的编码图像输入至类别权重网络中,获取所述增强样本图像对应的反增强样本图像。
84.在一些实施例中,所述类别权重网络(class guided aware network)的输入包括任一编码子图像,所述任一编码子图像对应的裁剪子图像,以及全部编码子图像拼接得到的编码图像。
85.图4示出了本公开实施例提供的类别权重网络的一种可选结构示意图。
86.如图4所示,所述类别权重网络包括第一神经网络层、第三神经网络层、掩板(suftgate)、分类编码层和卷积解码器。在一些可选实施例中,所述权重类别网络还可以包括第二神经网络层。
87.具体实施时,所述第一装置将所述编码子图像输入至所述类别权重网络包括的第一神经网络层,获取所述编码子图像对应的第一编码特征;将所述编码子图像对应的裁剪子图像输入至所述类别权重网络包括的第二神经网络层,获取所述裁剪子图像对应的第二编码特征;将所述编码图像输入至所述类别权重网络包括的第三神经网络层,获取所述编码图像对应的第三编码特征。进一步,所述第一装置将所述第三编码特征输入至掩板进行掩码处理,获得第一矩阵。
88.在一些可选实施例中,所述掩板可以对第三掩码特征中,所述编码子图像对应的区域进行掩码处理,也可以根据自身逻辑对一个或多个子图像对应的区域进行掩码处理。
89.将所述第一编码特征、所述第二编码特征和所述第一矩阵输入至所述分类编码层中,确认所述分类编码层的输出为所述编码子图像对应的反增强编码子图像。将全部编码子图像分别输入至所述类别权重网络中,获取对应的反增强编码子图像,对全部反增强编码子图像进行拼接处理获得反增强编码图像,经过所述卷积解码器后,获取反增强样本图像。
90.步骤s103,基于所述增强样本图像对应的标准样本图像和所述反增强样本图像调整所述视觉变换网络和所述类别权重网络的参数。
91.在一些实施例中,所述第一装置基于所述标准样本图像中每一个像素的值,以及所述反增强样本图像中每一个像素的值,确认所述图像处理模型的损失函数;基于所述图像处理模型的损失函数,调整所述视觉变换网络和所述类别权重网络的参数。具体的,所述图像处理模型的损失函数可以包括重建损失子函数、感知损失子函数和生成器损失子函数,所述图像处理模型的损失函数l可以通过下式表示:
92.l=l
pixel
+l
per
+l
gan
93.其中,l
pixel
为重建损失子函数,l
per
为感知损失子函数,l
gan
为生成器损失子函数。可选的,所述图像处理模型的损失函数还可以基于重建损失子函数、感知损失子函数、生成器损失子函数,以及三个子函数对应的权重系数确定,其中,三个子函数对应的权重系数之和为1。
94.具体实施时,所述第一装置基于所述标准样本图像中每一个像素的值、所述反增强样本图像中每一个像素的值,以及l1损失函数,确认重建损失子函数。所述重建损失子函数可以通过下式表示:
95.l
pixel
=||i
gt-ig||196.其中,ig为反增强样本图像中每一个像素的值,i
gt
为标准样本图像中每一个像素的值。
97.具体实施时,所述第一装置基于所述标准样本图像中每一个像素的值、所述反增强样本图像中每一个像素的值,以及可视化激活热力图,确认感知损失子函数。所述感知损失函数可以通过下式表示:
98.l
per
=||φn(i
gt
)-φn(ig)||199.其中,φn为vgg的n阶layer激活图(可视化激活热力图)。
100.具体实施时,所述第一装置基于反增强样本图像中每一个像素的值,确认生成器损失子函数;所述生成器子函数可以通过下式表示:
101.l
gan
=log(1+exp(-d(ig)))
102.其中,d为styleganv2的生成器损失函数。
103.如此,通过本公开实施例提供的图像处理模型的训练方法,利用图像处理模型,可以将不同条件下采集到的图像(如光照/动态障碍物/雨/雾/雪)统一形成标准图像。一方面可以减少高精度视觉地图制作时需要采集的时长,因为不再需要采集不同环境条件下的图像数据进行制图;另一方面可以提高实时定位的鲁棒性,因为环境条件不会再导致定位图像与地图图像的差异。
104.图5示出了本公开实施例提供的类别权重网络的另一种可选结构示意图,将根据各个部分进行说明。
105.如图5所示,所述类别权重网络包括第一神经网络层、第二神经网络层、第三神经网络层、掩板、分类编码层和卷积解码器。
106.在一些实施例中,以标准样本图像的尺寸为720
×
720为例,所述第一神经网络层、第二神经网络层和第三神经网络层的卷积核尺寸(size)为3
×
3,stride=0,激活函数为gelu。
107.在一些实施例中,所述第一装置将所述编码子图像输入至所述类别权重网络包括的第一神经网络层,获取所述编码子图像对应的第一编码特征xe,尺寸为b
×c×
d;将所述编码子图像对应的裁剪子图像输入至所述类别权重网络包括的第二神经网络层,获取所述裁剪子图像对应的第二编码特征xo,尺寸为b
×c×
d。其中,c为卷积核数目,如256个。
108.然后,所述第一装置对所述第一编码特征xe进行处理,获取所述第一编码特征的自相关强度a,其中所述自相关强度a可以通过下式确定:
109.a=φ(xe)
t
θ(xe)
110.其中,φ和θ均为1
×
1卷积核。其中,a的尺寸为b
×d×
d。
111.在一些实施例中,所述编码图像经过多层感知机(mlp)后,输入至所述第三神经网络层,获取第三编码特征。所述第三编码特征的维度为d
×
d/8,然后将第三编码特征输入至掩板,然后扩展,得到d
×
d维矩阵,即第一矩阵k。其中,d=hw,h=16,w=16。
112.在一些实施例中,所述第一装置基于第一矩阵将所述自相关强度划分为非掩码区域av和掩码区域am。具体的,
113.av=k
·a114.am=(1-k)
·a115.然后所述第一装置基于softmax对自相关强度a划分的非掩码区域av和掩码区域am进行处理,其目的是希望区分动态障碍物与静态障碍物,对于动态障碍物,可以认为希望尽量少的采信原图像,尽量多的通过其他区域图像进行生成。
116.经过softmax对非掩码区域av处理,得到非掩码区域的像素加权权重softmax(av),结合softmax(av)和第二编码特征xo,确认非掩码区域的像素加权输出zv=softmax(av)
×
xo。当xo
ij
为静态障碍物时,希望softmax(aij)的输出尽可能接近1。
117.经过softmax对掩码区域am处理,得到掩码区域的像素加权权重softmax(am),结合softmax(am)和第一编码特征xe,确认掩码区域的像素加权输出ze=softmax(am)
×
xe。
118.在一些实施例中,所述第一装置基于所述非掩码区域和所述掩码区域,确认第一拼合系数和第二拼合系数;具体的:
119.[wv,wm]=softmax[γ(max(av),ζ(max(am)))]
[0120]
其中,γ和ζ均为1x1卷积核,wv+wm=1。wv和wm的尺寸均为b
×1×h×
w。
[0121]
在一些实施例中,所述装置基于所述第一拼合系数wv、所述第二拼合系数wm、所述非掩码区域的像素加权输出zv和所述掩码区域的像素加权输出zm确认所述裁剪子图像对应的反增强编码子图像z;其中,z=wv

zv+wm

zm。其中,wv,wm通过broadcast扩展到c通道。zv和zm的尺寸为b
×c×h×
w,最终生成的z尺寸为b
×c×h×
w。
[0122]
在一些实施例中,所述第一装置确认每一个裁剪子图像对应的反增强编码子图像的拼接处理结果,为所述反增强编码样本图像;对所述反增强样本图像进行卷积解码,获得反增强样本图像。
[0123]
图6示出了基于本公开实施例提供的图像处理模型处理图像的效果示意图。
[0124]
如图6所示,本公开实施例提供的图像处理模型的用途为去除图像中的遮挡物,调整图像的亮度和清晰度,使其与高精度视觉特征地图相对应;提取的图像特征点有更大概率与高精度视觉特征地图中的图像特征点匹配成功,得到当前车辆或机器人的实时位姿。
[0125]
图7示出了本公开实施例提供的定位方法的一种可选流程示意图,图8示出了本公开实施例提供的定位方法的示意图。所述定位方法基于上述步骤s101至步骤s103训练得到的图像处理模型实现。
[0126]
步骤s201,基于所述图像处理模型分别对实时图像和建图图像进行归一化处理,分别获得所述实时图像对应的实时特征和所述建图图像对应的建图特征。
[0127]
在一些实施例中,定位装置(以下简称第二装置)分别对实时图像和建图图像进行归一化处理,得到遮挡物情况、亮度和清晰度相同的实施增强图像和建图增强图像;获取所述实施增强图像对应的实时特征(即实时图像对应的实时特征),和建图增强图像对应的建图特征(即建图图像对应的建图特征)。
[0128]
步骤s202,对所述实时图像对应的全球导航卫星系统与建图特征进行特征融合,基于特征融合的结果确认特征地图。
[0129]
所述第二装置对应的gnss与所述建图特征进行融合,基于融合结果,获取特征地图(即高精度视觉特征地图)。
[0130]
步骤s203,基于所述特征地图和所述实时特征,确认采集所述实时图像的设备的定位信息。
[0131]
在一些实施例中,所述第二装置对所述实时特征对应的特征点与所述特征地图包
括的特征点进行匹配,基于匹配结果,确认采集所述实时图像的设备的定位信息。
[0132]
如此,通过本公开实施例提供的图像处理模型调整实时图像的亮度和清晰度,使其与高精度视觉特征地图的建图图像相对应;提取的实时特征有更大概率与高精度视觉特征地图中的图像特征匹配成功,得到当前车辆或机器人的实时位姿。
[0133]
图9示出了本公开实施例提供的图像处理模型的训练装置的可选结构示意图。
[0134]
在一些实施例中,所述图像处理模型包括视觉变换网络和类别权重网络;所述图像处理模型的训练装置400包括第一训练单元401、第二训练单元402和调整单元403。
[0135]
所述第一训练单元401,用于将增强样本图像对应的至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图像;
[0136]
所述第二训练单元402,用于将任一个编码子图像、所述编码子图像对应的裁剪子图像以及全部所述编码子图像拼接得到的编码图像输入至类别权重网络中,获取所述增强样本图像对应的反增强样本图像;
[0137]
所述调整单元403,用于基于所述增强样本图像对应的标准样本图像和所述反增强样本图像调整所述视觉变换网络和所述类别权重网络的参数。
[0138]
在一些实施例中,所述图像处理模型的训练装置400还可以包括处理单元404。
[0139]
所述处理单元404,在所述将所述增强样本图像对应的至少一个裁剪子图像输入至所述视觉变换网络中,获取所述至少一个裁剪子图像分别对应的编码子图之前,用于对原始样本图像进行预处理,获得标准样本图像;对所述标准样本图像进行增强处理,获得增强样本图像;对所述增强样本图像进行裁剪,获得所述增强样本图像对应的至少一个裁剪子图像。
[0140]
所述第一训练单元401,具体用于将所述至少一个裁剪子图像输入至所述视觉变换网络包括的线性层中,确认所述线性层的输出为每一个裁剪子图像分别对应的线性投影;
[0141]
将所述每一个裁剪子图像对应的线性投影,以及每一个裁剪子图像在所述增强样本图像中的分类标识输入至所述视觉变换网络包括的编码器中,确认所述编码器的输出,为所述至少一个裁剪子图像分别对应的编码子图。
[0142]
所述第二训练单元402,具体用于对每一个编码子图像,以及所述每一个编码子图像对应的裁剪子图像进行如下处理:
[0143]
将所述编码子图像输入至所述类别权重网络包括的第一神经网络层,获取所述编码子图像对应的第一编码特征;
[0144]
将所述编码子图像对应的裁剪子图像输入至所述类别权重网络包括的第二神经网络层,获取所述裁剪子图像对应的第二编码特征;
[0145]
将所述编码图像输入至所述类别权重网络包括的第三神经网络层,获取所述编码图像对应的第三编码特征。
[0146]
所述第二训练单元402,具体用于对每一个编码子图像,以及所述每一个编码子图像对应的裁剪子图像进行如下处理:
[0147]
基于所述第一编码特征,获取所述第一编码特征的自相关强度;
[0148]
对所述第三编码特征进行掩码处理获得第一矩阵;
[0149]
基于第一矩阵将所述自相关强度划分为非掩码区域和掩码区域。
[0150]
所述第二训练单元402,具体用于对每一个编码子图像,以及所述每一个编码子图像对应的裁剪子图像进行如下处理:
[0151]
基于所述非掩码区域的像素加权权重,以及所述第二编码特征,确认所述非掩码区域的像素加权输出;
[0152]
基于所述掩码区域的像素加权权重,以及所述第一编码特征,确认所述掩码区域的像素加权输出;
[0153]
基于所述非掩码区域和所述掩码区域,确认第一拼合系数和第二拼合系数;
[0154]
基于所述第一拼合系数、所述第二拼合系数、所述非掩码区域的像素加权输出和所述掩码区域的像素加权输出确认所述裁剪子图像对应的反增强编码子图像;
[0155]
确认每一个裁剪子图像对应的反增强编码子图像的拼接处理结果,为所述反增强编码样本图像;
[0156]
对所述反增强样本图像进行卷积解码,获得反增强样本图像。
[0157]
所述调整单元403,具体用于基于所述标准样本图像中每一个像素的值,以及所述反增强样本图像中每一个像素的值,确认所述图像处理模型的损失函数;
[0158]
基于所述图像处理模型的损失函数,调整所述视觉变换网络和所述类别权重网络的参数。
[0159]
所述调整单元403,具体用于基于所述标准样本图像中每一个像素的值、所述反增强样本图像中每一个像素的值,以及l1损失函数,确认重建损失子函数;
[0160]
基于所述标准样本图像中每一个像素的值、所述反增强样本图像中每一个像素的值,以及可视化激活热力图,确认感知损失子函数;
[0161]
基于反增强样本图像中每一个像素的值,确认生成器损失子函数;
[0162]
基于所述重建损失子函数、所述感知损失子函数以及所述生成器损失子函数,确认所述图像处理模型的损失函数。
[0163]
图10示出了本公开实施例提供的定位装置的可选结构示意图,将根据各个部分进行说明。
[0164]
在一些实施例中,所述定位装置500包括归一化单元501、特征融合单元502和定位单元503。
[0165]
所述归一化单元501,用于基于所述图像处理模型分别对实时图像和建图图像进行归一化处理,分别获得所述实时图像对应的实时特征和所述建图图像对应的建图特征;
[0166]
所述特征融合单元502,用于对所述实时图像对应的全球导航卫星系统gnss与建图特征进行特征融合,基于特征融合的结果确认特征地图;
[0167]
所述定位单元503,用于基于所述特征地图和所述实时特征,确认采集所述实时图像的设备的定位信息。
[0168]
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
[0169]
图11示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在
限制本文中描述的和/或者要求的本公开的实现。
[0170]
如图11所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0171]
电子设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0172]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如图像处理模型的训练方法和定位方法。例如,在一些实施例中,图像处理模型的训练方法和定位方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的图像处理模型的训练方法和定位方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理模型的训练方法和定位方法。
[0173]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0174]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0175]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0176]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0177]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0178]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0179]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0180]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0181]
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1