面向多视角视觉系统的深度估计方法、电子设备及介质

文档序号:32115298发布日期:2022-11-09 06:01阅读:35来源:国知局
面向多视角视觉系统的深度估计方法、电子设备及介质

1.本发明涉及多视角视觉系统深度估计技术领域,特别是涉及一种面向多视角视觉系统的深度估计方法、电子设备及计算机可读存储介质。


背景技术:

2.近年来,随着计算机、无线通讯等技术的飞速发展以及人工智能方法在各个领域的成功应用,以无人车、无人机和无人艇为代表的无人系统顺应时代发展的浪潮,愈发成为重点研究对象。无人系统对未知场景的感知需要借助各种传感器,如激光雷达、毫米波雷达和视觉传感器等。考虑到各种传感器本身存在的优缺点以及保障无人系统的稳定性和安全性,无人系统通常会搭载多种不同类型的传感器实现场景的全方位感知。同时,为了获得丰富的场景结构信息以增强场景信息的还原能力,无人系统通常需要搭载视觉传感器。
3.由于视觉传感器的透镜长期与外界接触,其镜头表面极容易被沙尘、水渍等污渍遮挡而导致场景信息缺失,这些外界不可控因素极大降低相机的成像质量,导致无人系统对外界复杂环境的感知出现偏差,影响无人系统决策的正确性,甚至导致事故的发生。为了保障视觉系统数据采集的准确性和高场景还原性,采用基于多视角的图像修复方法对污损图像进行修复。然而,经过修复的图像无法提供自身与环境中物体间的距离信息,容易导致无人系统与周围环境发生碰撞。为了避免与场景发生碰撞,无人系统需要实时测量自身与场景中的物体的距离,从而与场景中的物体保持一定的距离。因此,需要一种在多视角图像修复的基础上测量无人系统与场景中物体的距离的方法。


技术实现要素:

4.为了解决具有多视角的无人系统与场景中物体的距离测量问题,本发明提供了一种面向多视角视觉系统的深度估计方法、电子设备及介质。
5.为实现上述目的,本发明提供了如下方案:
6.第一方面,本发明提供了一种面向多视角视觉系统的深度估计方法,包括:
7.获取经过修复的目标视角图像和辅助视角图像;
8.将所述目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中,得到视差图;所述视差图用于估计场景深度值;
9.所述面向多视角图像修复的深度估计模型包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。
10.可选地,所述基于可变形卷积和空洞金字塔卷积的特征提取模块为u型网络结构;所述u型网络结构的主干部分为编码器-解码器结构;
11.所述编码器-解码器结构包括依次连接的编码器、连接层以及解码器;
12.所述编码器包括多个编码层,所述解码器包括多个解码层,且每个所述编码层和所述解码层均嵌入有与可变形卷积结合的残差模块;所述连接层嵌入有膨胀率递增的空间
金字塔卷积。
13.可选地,所述编码器用于对所述目标视角图像和所述辅助视角图像进行处理,得到编码器输出结果;
14.所述连接层用于采用膨胀率递增的空间金字塔卷积对所述编码器输出结果并行处理,并将并行处理后得到的不同支路的输出结果沿通道方向进行拼接融合,得到融合结果;
15.所述解码器用于对所述融合结果进行处理,得到不同分辨率的目标视角特征图和辅助视角特征图。
16.可选地,所述基于多尺度结构的匹配代价计算模块,用于将所述基于可变形卷积和空洞金字塔卷积的特征提取模块输出的多对特征图分别进行初始匹配代价计算,得到多个初始匹配代价体;
17.所述初始匹配代价体的个数与所述特征图的对数相同,且每对所述特征图均包括目标视角特征图以及所述目标视角特征图对应的辅助视角特征图;其中,不同对的特征图对应不同的分辨率,不同的所述初始匹配代价体对应不同的尺度。
18.可选地,所述初始匹配代价体的计算过程为:
19.当搜索的视差k为0时,将所述目标视角特征图以及对应的所述辅助视角特征图逐通道进行对应元素相乘,构建视差为0的单视差代价体;
20.当搜索的视差k大于0且小于最大视差值时,将所述目标视角特征图在宽度方向上的像素与所述目标视角特征图对应的所述辅助视角特征图在宽度方向上的像素的相似性,并基于所述相似性构建视差为k的单视差代价体;
21.将不同视差的单视差代价体组合,得到初始匹配代价体。
22.可选地,所述基于自注意力机制的多尺度代价聚合模块用于对所述基于多尺度结构的匹配代价计算模块输出的不同尺度的初始匹配代价体进行代价聚合操作,得到多个聚合代价体特征图;
23.所述基于自注意力机制的多尺度代价聚合模块至少包括三个分支,其中,第一分支和第二分支均包括依次连接的编码器、自注意力机制模块以及解码器,第三分支包括依次连接的编码器和解码器;
24.所述编码器由步长为2的堆叠的残差3d卷积模块串联而成;所述解码器由上采样率为2的堆叠的3d转置卷积串联而成。
25.可选地,所述自注意力机制模块,用于:
26.利用三个不共享参数的1
×
1的3d卷积核对经过所述编码器处理的初始匹配代价体进行预处理,得到三个代价体q、代价体k、代价体v;
27.将所述代价体q、所述代价体k和所述代价体v分别进行维度变换得到代价体q

、代价体k

和代价体v


28.对所述代价体q

和所述代价体k

进行矩阵乘法处理,得到代价体所有取样点的相关关系描述矩阵s;
29.利用softmax函数将所述相关关系描述矩阵s横向方向的数值映射为权重序列,得到代价注意力图s


30.将所述代价体v

与所述代价注意力图s

进行矩阵乘法操作,得到加权后的代价
体;
31.采用维度变换还原加权后的代价体的维度,得到输出结果o,并将所述输出结果o输入至所述解码器。
32.可选地,所述视差回归操作模块,用于:
33.采用三线性插值法将所述基于自注意力机制的多尺度代价聚合模块输出的降采样率为k的聚合代价体特征图放大k倍;
34.采用softmax函数对放大后的聚合代价体特征图进行归一化操作,得到权重化的代价体;
35.将所述权重化的代价体沿着所述权重化的代价体的视差维度与离散的视差搜索范围[0,d
max
/k)内进行加权求和,得到最终的视差图;d
max
为视差搜索范围的最大值。
[0036]
第二方面,本发明提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据第一方面所述的面向多视角视觉系统的深度估计方法。
[0037]
第三方面,本发明提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的面向多视角视觉系统的深度估计方法。
[0038]
根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0039]
本发明提供了一种面向多视角视觉系统的深度估计方法、电子设备及介质,本发明将目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中,得到视差图;视差图用于估计场景深度值;面向多视角图像修复的深度估计模型包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。本发明通过多尺度网络结构实现网络对不同尺度物体的捕捉生成更清晰、锐利的视差边缘,为无人系统实现高精度场景深度估计提供可靠技术。
附图说明
[0040]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0041]
图1为本发明实施例提供的面向多视角视觉系统的深度估计方法的流程示意图;
[0042]
图2为本发明实施例提供的面向多视角图像修复的深度估计模型的主体结构示意图;
[0043]
图3为本发明实施例提供的基于可变形卷积和空洞金字塔卷积的特征提取模块的结构示意图;
[0044]
图4为本发明实施例提供的与可变形卷积结合的残差模块的结构示意图;
[0045]
图5为本发明实施例提供的多尺度匹配代价计算过程示意图;
[0046]
图6为本发明实施例提供的初始匹配代价计算过程示意图;
[0047]
图7为本发明实施例提供的基于自注意力机制的多尺度代价聚合模块和视差回归操作模块的结构示意图;
[0048]
图8为本发明实施例提供的多尺度代价聚合模块中的自注意力机制计算过程示意图;
[0049]
图9为本发明实施例提供的softmax视差回归计算流程示意图。
具体实施方式
[0050]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0052]
实施例一
[0053]
如图1所示,本发明实施例提供的一种面向多视角视觉系统的深度估计方法,包括如下步骤。
[0054]
步骤100:获取经过修复的目标视角图像和辅助视角图像。所述目标视角图像与所述辅助视角图像一一对应。
[0055]
步骤200:将所述目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中,以确定视差图。所述视差图用于估计场景深度值。
[0056]
如图2所示,本发明实施例所述的面向多视角图像修复的深度估计模型,包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。
[0057]
作为一种优选的实施方式,本发明实施例提供的基于可变形卷积和空洞金字塔卷积的特征提取模块能有效捕捉多尺度上下文信息,且该特征提取模块为u型网络结构;此u型网络结构将浅层特征与高级特征进行融合能同时增强网络对细节信息和全局语义信息的捕获能力。
[0058]
所述u型网络结构的主干部分为编码器-解码器结构,所述编码器-解码器结构包括依次连接的编码器、连接层以及解码器;所述编码器包括多个编码层,所述解码器包括多个解码层;且每个所述编码层和所述解码层均嵌入有与可变形卷积结合的残差模块以增强特征捕捉能力;所述连接层嵌入有膨胀率递增的空间金字塔卷积,即编码器的输出采用膨胀率递增的空间金字塔卷积处理,以增强网络对不同尺度上下文信息的表征能力,最大程度保留了特征的边缘信息;在解码器的不同阶段各输出分辨率不同的特征图,为后续操作构建出代价体做准备。
[0059]
进一步地,所述编码器用于对所述目标视角图像和所述辅助视角图像进行处理,得到编码器输出结果;所述连接层用于采用膨胀率递增的空间金字塔卷积对所述编码器输出结果并行处理,并将并行处理后得到的不同支路的输出结果沿通道方向进行拼接融合,得到融合结果;所述解码器用于对所述融合结果进行处理,得到不同分辨率的目标视角特征图和辅助视角特征图。
[0060]
一个示例为:将经过修复的目标视角图像与辅助视角图像作为如图3所示的特征提取模块的输入。特征提取模块以编码器-解码器结构为主干,每个编码层和解码层由与可
变形卷积结合的残差模块组合而成,与可变形卷积结合的残差模块如图4所示。在特征提取模块中,首先利用编码器对输入图像进行处理,接着利用膨胀率分别为{2,4,8,16}的空间金字塔卷积并行处理编码器的输出结果,然后将不同支路的输出结果沿通道方向进行拼接并使用1
×
1大小的卷积核将其融合作为解码器的输入,最后在解码器的不同阶段输出{1/16,1/8,1/4}分辨率的特征图,即得到{1/16,1/8,1/4}分辨率的目标视角和辅助视角特征图。其中,图4中的dcn表示可变形卷积。
[0061]
作为一种优选的实施方式,本发明实例提供的基于多尺度结构的匹配代价计算模块,用于将所述基于可变形卷积和空洞金字塔卷积的特征提取模块输出的多对特征图分别进行初始匹配代价计算,得到多个初始匹配代价体(即四维代价体),以加强网络对不同尺度物体的感知能力;四维指输入特征图的高度大小h、输入特征图的宽度大小w、特征图的通道数量c以及最大的视差搜索范围d
max

[0062]
所述初始匹配代价体的个数与所述特征图的对数相同,且每对所述特征图均包括目标视角特征图以及所述目标视角特征图对应的辅助视角特征图;其中,不同对的特征图对应不同的分辨率,不同的所述初始匹配代价体对应不同的尺度。
[0063]
进一步地,本发明实施例所述的初始匹配代价体的计算过程为:
[0064]
利用对应元素相乘的方式计算极线方向上所有匹配点对的相似度以构建初始匹配代价体;在[0,d
max
)视差范围内,根据视差的不同,利用对应元素相乘的方式构建对应视差的单视差代价体,该计算过程实现高度并行化处理;不同视差的单视差代价体共同构建初始匹配代价体。其详细过程如下。
[0065]
步骤(1):当搜索的视差k为0时,将所述目标视角特征图以及对应的所述辅助视角特征图逐通道进行对应元素相乘,构建视差为0的单视差代价体。
[0066]
步骤(2):当搜索的视差k大于0且小于最大视差值时,将所述目标视角特征图在宽度方向上的像素与所述目标视角特征图对应的所述辅助视角特征图在宽度方向上的像素的相似性,并基于所述相似性构建视差为k的单视差代价体。
[0067]
步骤(3):将不同视差的单视差代价体组合,得到初始匹配代价体。
[0068]
一个示例为:将特征提取模块输出的降采样率为{1/16,1/8,1/4}的三对特征图(目标视角特征图以及对应的辅助视角特征图)进行多尺度匹配代价计算,其计算过程如图5所示。而多尺度匹配代价计算由三个初始匹配代价计算构成,初始匹配代价计算过程如图6所示。当搜索的视差为0时,直接将目标视角特征图以及对应的辅助视角特征图逐通道进行对应元素相乘,构建视差为0的单视差代价体;当搜索的视差k大于0且小于最大的视差搜索范围d
max
时,需要计算目标视角特征图在宽度方向上[n:w)的像素与辅助视角特征图在宽度方向上[0:w-n)的像素的相似性,构建视差为k的单视差代价体。然后将视差在[0,d
max
)范围内的单视差代价体组合成初始匹配代价体。降采样率为{1/16,1/8,1/4}的三对特征图经过多尺度匹配代价计算后,得到三个不同尺度的初始匹配代价体cost1、cost2、cost3。
[0069]
本发明设计的多尺度匹配代价计算结构,考虑到不同尺度匹配代价体对不同尺度物体的感知能力是不同的,顾全大尺度代价体和小尺寸代价体所具有的特性,提高视差估计的全局连续性且保留大量细节信息,有利于提高视差估计的整体精度。
[0070]
作为一种优选的实施方式,本发明实例提供的基于自注意力机制的多尺度代价聚合模块,用于采用基于3d卷积的编码器-解码器结构和改进的基于3d卷积的编码器-解码器
结构对多个不同尺度的初始匹配代价体进行代价聚合操作,得到多个聚合代价体特征图。
[0071]
所述基于自注意力机制的多尺度代价聚合模块至少包括三个分支,其中,第一分支和第二分支均为改进的基于3d卷积的编码器-解码器结构,该改进的基于3d卷积的编码器-解码器结构包括依次连接的编码器、自注意力机制模块以及解码器,所述第三分支为基于3d卷积的编码器-解码器结构,该基于3d卷积的编码器-解码器结构包括依次连接的编码器和解码器。其中,该基于3d卷积的编码器-解码器结构增加网络容量,同时稳定网络训练过程。
[0072]
该编码器由步长为2的堆叠的残差3d卷积模块串联而成,该解码器由上采样率为2的堆叠的3d转置卷积串联而成的解码器,且编码器与解码器之间采用了残差连接,保证了深层网络的正常训练过程。
[0073]
自注意力机制模块用于对各初始匹配代价体间的相关关系进行显示建模,以实现代价体的动态聚合。
[0074]
进一步地,该自注意力机制模块,用于:
[0075]
将经过编码器处理的初始匹配代价体作为输入,利用三个不共享参数的1
×
1的3d卷积核对其进行预处理,得到三个代价体q、代价体k、代价体v。
[0076]
将代价体q、代价体k和代价体v分别进行维度变换得到代价体q

、代价体k

和代价体v


[0077]
对代价体q

和代价体k

进行矩阵乘法处理,得到代价体所有取样点的相关关系描述矩阵s。
[0078]
利用softmax函数将相关关系描述矩阵s横向方向的数值映射为权重序列,即可得到代价注意力图s


[0079]
将代价体v

与代价注意力图s

进行矩阵乘法操作,得到加权后的代价体。
[0080]
采用维度变换还原加权后的代价体的维度,得到输出结果o,并将输出结果o输入至所述解码器。
[0081]
一个示例为:为降低自注意力机制模块的计算时间和空间复杂度,仅在1/16尺度的编码器-解码器结构和1/8尺度的编码器-解码器结构的交接处嵌入自注意力机制模块。
[0082]
将初始匹配代价体作为如图7所示的多尺度代价聚合模块的输入。该多尺度代价聚合模块至少包括三个分支,其中,第一分支和第二分支均包括依次连接的编码器、自注意力机制模块以及解码器,第三分支包括依次连接的编码器和解码器,编码器由步长为2的堆叠的残差3d卷积模块串联而成,解码器由上采样率为2的堆叠的3d置卷积串联而成。对于降采样率为1/4的初始匹配代价体cost3而言,通过编码器处理后直接输入解码器,从而获得对应的输出结果;对于降采样率为1/16和1/8的初始匹配代价体cost1、cost2而言,编码器的输出在输入解码器前,利用自注意力机制模块进行处理,自注意力机制模块的计算过程如图8所示。
[0083]
如图8所示,将经过编码器处理后的初始匹配代价体i,利用三个不共享参数的1
×
1的3d卷积核对其进行预处理,得到三个代价体q、k、v;代价体q,、代价体k和代价体v分别进行维度变换得到代价体q

、代价体k

和代价体v

;对代价体q

和代价体k

进行矩阵乘法处理,得到代价体所有取样点的相关关系描述矩阵s;利用softmax函数将相关关系描述矩阵s横向方向的数值映射为权重序列即可得到代价注意力图s

;将代价体v

与代价注意力图s

进行矩阵乘法操作,得到加权后的代价体;采用维度变换还原加权后的代价体的维度,得到输出结果o。将自注意力机制模块的输出结果o作为解码器的输入,进而获得与初始匹配代价体cost1、cost2、cost3相对应的聚合代价体的特征图
[0084]
作为一种优选的实施方式,本发明实施例所述的视差回归操作模块,用于:采用三线性插值法将多尺度代价聚合模块输出的降采样率为k的聚合代价体特征图在其三个维度的尺寸均放大k倍,然后采用softmax函数对放大后的聚合代价体特征图进行归一化操作,获得权重化的代价体;将权重化的代价体沿着其视差维度与离散的视差搜索范围[0,d
max
/k)内进行加权求和,得到最终的视差图。
[0085]
一个示例为:
[0086]
为了提高不同尺度下的代价体对不同层级语义信息的捕获能力,本发明实施例对{1/16,1/8,1/4}三个分别经过编码器-解码器聚合后的聚合代价体特征图进行联合训练,如图7右半部分所示。代价聚合在训练和推理阶段输出不同的结果。
[0087]
在训练阶段,分别利用视差回归的方法对三个不同分支的聚合代价体特征图进行独立处理,输出三个不同分辨率大小的视差图disp1、视差图disp2、视差图disp3,然后用平滑l1损失分别计算三个尺度的视差估计图与其真实视差之间的损失值并将三个损失值按照一定的权重相加,获得总的损失值。
[0088]
视差回归计算如图9所示,首先采用三线性差值将多尺度代价聚合模块输出的降采样率为k的聚合代价体特征图在其三个维度的尺寸均放大了k倍,得到代价体然后采用softmax函数对放大后的代价体进行归一化操作,获得权重化的代价体最后将权重化的代价体沿着其视差维度与离散的视差搜索范围[0,d
max
/k)内进行加权求和,得到最终的视差图disp。
[0089]
描述的是softmax函数对放大后的代价体进行归一化操作的计算过程;其中,代表由代价聚合模块输出的降采样率为k的代价体像素点p处在视差维度的第i个代价值,其中k∈{4,8,16};为经过softmax函数映射得到权重值;ε为保障运算稳定性的极小数,是计算机中浮点运算引起的相对误差的上限数值;为降采样率为k的代价体像素点p处在视差维度的所有代价值之和。
[0090]
描述了视差回归的计算过程;其中,k∈{4,8,16},j为视差搜索范围[0,d
max
/k)的离散值,是上式处理后的权重序列代价体像素点p处
在视差维度的第j个权重值,dk(p)为代价体像素点p处的视差回归结果,即最后的视差估计值。
[0091]
实施例二
[0092]
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种面向多视角视觉系统的深度估计装置。
[0093]
本发明实施例提供的一种面向多视角视觉系统的深度估计装置,包括:
[0094]
数据采集单元,用于获取经过修复的目标视角图像和辅助视角图像。
[0095]
视差图计算单元,用于将所述目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中,得到视差图。所述视差图用于估计场景深度值。
[0096]
所述面向多视角图像修复的深度估计模型包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。
[0097]
实施例三
[0098]
本发明实施例提供一种电子设备包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一的一种面向多视角视觉系统的深度估计方法。
[0099]
可选地,上述电子设备可以是服务器。
[0100]
另外,本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的一种面向多视角视觉系统的深度估计方法。
[0101]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0102]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1