面向多视角视觉系统的深度估计方法、电子设备及介质

文档序号：32115298发布日期：2022-11-09 06:01阅读：来源：国知局

技术特征：
1.一种面向多视角视觉系统的深度估计方法，其特征在于，包括：获取经过修复的目标视角图像和辅助视角图像；将所述目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中，得到视差图；所述视差图用于估计场景深度值；所述面向多视角图像修复的深度估计模型包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。2.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法，其特征在于，所述基于可变形卷积和空洞金字塔卷积的特征提取模块为u型网络结构；所述u型网络结构的主干部分为编码器-解码器结构；所述编码器-解码器结构包括依次连接的编码器、连接层以及解码器；所述编码器包括多个编码层，所述解码器包括多个解码层，且每个所述编码层和所述解码层均嵌入有与可变形卷积结合的残差模块；所述连接层嵌入有膨胀率递增的空间金字塔卷积。3.根据权利要求2所述的一种面向多视角视觉系统的深度估计方法，其特征在于，所述编码器用于对所述目标视角图像和所述辅助视角图像进行处理，得到编码器输出结果；所述连接层用于采用膨胀率递增的空间金字塔卷积对所述编码器输出结果并行处理，并将并行处理后得到的不同支路的输出结果沿通道方向进行拼接融合，得到融合结果；所述解码器用于对所述融合结果进行处理，得到不同分辨率的目标视角特征图和辅助视角特征图。4.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法，其特征在于，所述基于多尺度结构的匹配代价计算模块，用于将所述基于可变形卷积和空洞金字塔卷积的特征提取模块输出的多对特征图分别进行初始匹配代价计算，得到多个初始匹配代价体；所述初始匹配代价体的个数与所述特征图的对数相同，且每对所述特征图均包括目标视角特征图以及所述目标视角特征图对应的辅助视角特征图；其中，不同对的特征图对应不同的分辨率，不同的所述初始匹配代价体对应不同的尺度。5.根据权利要求4所述的一种面向多视角视觉系统的深度估计方法，其特征在于，所述初始匹配代价体的计算过程为：当搜索的视差k为0时，将所述目标视角特征图以及对应的所述辅助视角特征图逐通道进行对应元素相乘，构建视差为0的单视差代价体；当搜索的视差k大于0且小于最大视差值时，将所述目标视角特征图在宽度方向上的像素与所述目标视角特征图对应的所述辅助视角特征图在宽度方向上的像素的相似性，并基于所述相似性构建视差为k的单视差代价体；将不同视差的单视差代价体组合，得到初始匹配代价体。6.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法，其特征在于，所述基于自注意力机制的多尺度代价聚合模块用于对所述基于多尺度结构的匹配代价计算模块输出的不同尺度的初始匹配代价体进行代价聚合操作，得到多个聚合代价体特征图；所述基于自注意力机制的多尺度代价聚合模块至少包括三个分支，其中，第一分支和第二分支均包括依次连接的编码器、自注意力机制模块以及解码器，第三分支包括依次连
接的编码器和解码器；所述编码器由步长为2的堆叠的残差3d卷积模块串联而成；所述解码器由上采样率为2的堆叠的3d转置卷积串联而成。7.根据权利要求6所述的一种面向多视角视觉系统的深度估计方法，其特征在于，所述自注意力机制模块，用于：利用三个不共享参数的1
×
1的3d卷积核对经过所述编码器处理的初始匹配代价体进行预处理，得到三个代价体q、代价体k、代价体v；将所述代价体q、所述代价体k和所述代价体v分别进行维度变换得到代价体q
′
、代价体k
′
和代价体v
′
；对所述代价体q
′
和所述代价体k
′
进行矩阵乘法处理，得到代价体所有取样点的相关关系描述矩阵s；利用softmax函数将所述相关关系描述矩阵s横向方向的数值映射为权重序列，得到代价注意力图s
′
；将所述代价体v
′
与所述代价注意力图s
′
进行矩阵乘法操作，得到加权后的代价体；采用维度变换还原加权后的代价体的维度，得到输出结果o，并将所述输出结果o输入至所述解码器。8.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法，其特征在于，所述视差回归操作模块，用于：采用三线性插值法将所述基于自注意力机制的多尺度代价聚合模块输出的降采样率为k的聚合代价体特征图放大k倍；采用softmax函数对放大后的聚合代价体特征图进行归一化操作，得到权重化的代价体；将所述权重化的代价体沿着所述权重化的代价体的视差维度与离散的视差搜索范围[0，d
max
/k)内进行加权求和，得到最终的视差图；d
max
为视差搜索范围的最大值。9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至8中任一项所述的面向多视角视觉系统的深度估计方法。10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的面向多视角视觉系统的深度估计方法。

技术总结
本发明公开了一种面向多视角视觉系统的深度估计方法、电子设备及介质，涉及多视角视觉系统深度估计技术领域，该方法主要包括将目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中，得到用于估计场景深度值的视差图；其中，面向多视角图像修复的深度估计模型包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。本发明能够准确估计场景深度值，为无人系统实现高精度场景深度估计提供可靠技术。场景深度估计提供可靠技术。场景深度估计提供可靠技术。

技术研发人员：李恒宇许晓俊刘靖逸谢永浩王曰英谢少荣罗均
受保护的技术使用者：上海大学
技术研发日：2022.08.29
技术公布日：2022/11/8

完整全部详细技术资料下载

当前第2页1 2