一种彩色引导的深度图超分辨率重建方法

文档序号:31677619发布日期:2022-09-28 03:05阅读:81来源:国知局
一种彩色引导的深度图超分辨率重建方法

1.本发明涉及一种彩色引导的深度图超分辨率重建方法。


背景技术:

2.深度图描述了场景的距离关系,包括物体的遮挡和重叠,对于三维理解任务至关重要,如自主驾驶、三维物体检测、三维重建、显著物体检测等众多领域。然而,由于现有深度采集设备的限制,采集到的深度图分辨率相对较低,尤其是智能手机上配备的低功耗深度传感器。低分辨率(lr)深度图在分辨率上无法与高分辨率(hr)彩色图像匹配,从而阻碍了面向深度应用的进一步拓展。因此,深度图超分辨率重建(dsr)技术应运而生,具有实际研究价值和工业应用价值。深度图超分辨率是一个病态逆问题,因为lr深度图和hr深度图之间没有一对一的对应关系,而且在较大的上采样因子时,也很难恢复清晰的边界等细节。因此,考虑到hr彩色图像相对容易获取,且彩色图像的亮度边界与深度图像的深度边界有着明显的结构相似性,现有的许多dsr模型都使用hr彩色图像作为辅助输入,提供更全面的附加指导信息。wen等人使用一个粗到细的dcnn网络学习具有不同卷积核大小的不同滤波器,从而使数据驱动的训练取代手工设计的滤波器。huang等人提出了一种金字塔结构的深度密集残差网络,通过密集连接和残差学习,利用多尺度特征预测高频残差。guo等为深度重构任务设计了一个残差unet结构,引入了层次特征驱动的残差学习。zuo等人提出了一种基于全局和局部残差学习的数据驱动超分辨率网络。sun等人提出了一种递进式的多分支聚合网络,利用多尺度信息和高频特征,逐级重建深度图。他们还表明,低层级彩色信息只适合早期的特征融合,且在
×
2和
×
4的情况下,对dsr没有太大帮助。
3.发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
4.彩色图像亮度边界与深度图像深度边界之间的结构相似性并不总是存在。彩色图像不仅包含物体边界,还包含物体内部的纹理边界,而深度图只有物体边界,因此彩色图像包含的边界信息远多于深度图,这可能会在为dsr提供指导的同时引入额外的噪声。现有方法以引导的形式设计了一些模式和策略,如使用低层级彩色特征作为细节引导,或同等对待不同层级的彩色特征作为指导等。然而,这些方法并没有考虑到不同彩色信息在引导过程中的作用和多样性,因此,充分利用颜色引导信息还需要进一步探索。


技术实现要素:

5.针对现有技术中存在的缺陷,本发明旨在充分挖掘彩色对深度的跨模态信息引导,并降低彩色信息中的冗余与额外噪声影响,设计一种用于深度图超分辨率重建的层次化彩色引导投影网络,该网络根据不同层级建模不同的彩色引导角色,获得更优的重建性能。
6.本发明探索了一种彩色引导的深度图超分辨率重建方法,即一种层次化彩色引导投影网络,该网络从低层和高层特征两方面实现了彩色信息对深度超分辨率的分治引导。具体实现步骤如下:
7.一种深度图超分辨率重建网络,包括:特征提取模块、基于注意力的特征投影模块、低层细节嵌入模块和高层语义引导模块;
8.特征提取模块包括5个渐进卷积块,每个渐进卷积块包括两个3
×
3卷积层和一个1
×
1卷积层。基于注意力的特征投影模块包括多尺度内容增强块和四个级联的自适应注意力投影块;
9.特征提取模块用于从lr深度图和hr彩色图提取多层次的彩色特征和深度特征;
10.多尺度内容增强块用于增强投影前的深度特征,利用不同的感受野尽可能多地恢复不同尺度下的细节特征,从而提升退化较为严重区域(如深度边界和精细物体处)的重建效果;自适应注意力投影块用于将有效信息投影到注意力域,保证投影特征的有效性和紧凑性,四个级联的自适应注意力投影块以由粗到细的方式逐步恢复深度特征。
11.低层细节嵌入模块用于引入hr彩色图较低层次(即前两层)的彩色特征,通过学习一个残差掩码来突出彩色特征与深度特征最一致的空间位置,以残差注意力的方式用高频彩色引导来补充深度特征,从而更好恢复细节。
12.高层语义引导模块用于利用hr彩色图顶层的语义信息生成一个编码了全局语义引导信息的语义掩码,并进一步对初始的深度重建特征进行语义校正。
13.多尺度内容增强块包含了4个膨胀率不同的卷积层的叠加,用于捕捉不同感受野尺度的细节。
14.一种彩色引导的深度图超分辨率重建方法,利用上述dsr投影网络,包括以下步骤:
15.步骤1、通过特征提取模块从lr深度图和hr彩色图提取多层次的彩色特征和深度特征;
16.步骤2、在基于注意力的特征投影模块、低层细节嵌入模块和高层语义引导模块的协同下,实现彩色引导的深度特征学习和细节恢复;
17.步骤3、根据不同层次的特征划分为多个重建层级,聚合不同重建层级的恢复特征的同时,渐进式实现深度图的重建,最终得到精度准确、细节丰富的超分辨率重建深度图(sr深度图)。
18.在上述方案的基础上,彩色特征和深度特征分别表示为和i={1,2,3,4,5};在不同重建层级,基于注意力的特征投影模块的输入特征不同,具体表示为:
[0019][0020]
其中,concat表示沿通道维度的拼接操作,表示第i层的深度特征,为第i层低层细节嵌入模块生成的低层细节特征,表示第k层重建完成后的传输特征,由以下步骤计算得到:
[0021][0022]
其中,为第k个高层语义引导模块的输出特征,

为下采样操作,k={i+1,i+2,

,5}。
[0023]
然后,将顶层彩色特征和深度特征送入高层语义引导模块,修正初始的深度重建特征生成最终重建特征最后,对和进行亚像素卷积运算,得到最终上采样的超分辨率重建深度图。
[0024]
同时,dsr投影网络是通过计算超分辨率重建深度图和真实深度图之间的l1范数来构造训练的损失函数:
[0025]
loss=||d
sr-d
hr
||1ꢀꢀ
(3)
[0026]
其中,d
sr
、d
hr
分别为超分辨率重建深度图和真实深度图,||
·
||1为l1范数函数。
[0027]
在上述方案的基础上,
[0028][0029]
式中,md表示膨胀率为1、2、3、4的多尺度膨胀卷积运算,是第i层基于注意力的特征投影模块的输入,是每个多尺度膨胀卷积的输出。最后,将所有的多尺度膨胀特征通过1
×
1的卷积层进行级联融合:
[0030][0031]
其中conv1×1表示卷积核大小为1
×
1的卷积层,是多尺度内容增强块的输出。
[0032]
在上述方案的基础上,自适应注意力投影块的输入统一表示为:
[0033][0034]
其中,deconv表示由反卷积层执行的上采样操作,为第i层自适应注意力投影块的第j个hr输出。由式(6)看出,第一个自适应注意力投影块的输入是多尺度内容增强块的上采样输出特征,而其他自适应注意力投影块的输入是前一个自适应注意力投影块的输出。
[0035]
投影的注意力图计算公式为:
[0036][0037]
其中,relu为线性整流单元,conv为下投影的卷积层,deconv为反卷积层。
[0038]
有了投影的注意力图,当前自适应注意力投影块的输出描述为:
[0039][0040]
其中,表示元素级的乘法。
[0041]
利用4个连续的自适应注意力投影块,由粗到细生成4个hr重构特征。结合得到基于注意力的特征投影模块的最终输出特征:
[0042][0043]
其中,表示初始的深度重建特征。
[0044]
在上述方案的基础上,将彩色特征和深度特征映射到同一个域,然后将它们相减,得到彩色信息相对于深度信息的冗余部分,随后残差掩码由归一化后取反生成:
[0045][0046]
其中,rmi表示残差掩码,wc和wd表示彩色特征和深度特征的映射矩阵,sigmoid是归一化操作,i取1或2。
[0047]
低层细节嵌入模块的最终输出特征表示为:
[0048][0049]
其中,表示元素级的乘法,为低层细节嵌入模块生成的低层细节特征。
[0050]
在上述方案的基础上,将空间注意力应用于顶层彩色特征从而生成突出重要位置的增强彩色特征将增强彩色特征与初始的深度重建特征进行拼接,生成语义掩码:
[0051][0052]
式中prelu为参数线性整流单元,conv3×3为卷积核大小为3
×
3的卷积层。
[0053]
利用语义掩码,可以通过以下方法对初始的深度重建特征进行细化:
[0054][0055]
其中,为每个重建层级的最终重建特征。
[0056]
本发明的有益效果:本发明探索了一种彩色引导的深度图超分辨率重建方法,并提出了一种层次化彩色引导投影网络,该网络从低层和高层特征两方面实现了彩色信息对深度超分辨率的分治引导。为此,设计了低层细节嵌入(lde)模块和高层语义引导(hsg)模块来实现层次化彩色引导。此外,本发明还提出了一个自适应注意力投影(aap)块,用于强化注意力域中的关键恢复区域,抑制冗余信息。实例表明,本发明的方法在许多具有挑战性的场景中实现了出色的视觉效果,在物体边界以及微小物体的细节处都有较高的准确性。
附图说明
[0057]
本发明有如下附图:
[0058]
图1本发明的dsr投影网络整体架构示意图。
[0059]
图2本发明在8倍超分辨率下的可视化实例示意图。
具体实施方式
[0060]
以下结合附图对本发明作进一步详细说明。
[0061]
本发明重新思考彩色引导的作用,并提出一种层次化彩色引导的dsr投影网络。我们认为不同层次的颜色信息对dsr任务都是有指导意义的,但它们扮演的角色和使用方式应该加以区分。为此,本发明的彩色分支在网络中的低层和高层特征两方面实现了对深度超分辨率分支的分而治之引导:1)低层细节嵌入(lde)模块,以残差注意力的方式用高频彩色引导来补充深度特征,从而恢复边界等细节;2)高层语义引导(hsg)模块,通过使用一个对全局语义引导信息进行编码的语义掩码来修正初始重构特征。此外还设计了基于注意力的特征投影(afp)模块,包括一个多尺度内容增强块,通过多尺度感受野获得更全面的特征,以及一种自适应注意力投影块,以注意力的方式将有价值的信息从lr域投影到hr域。
[0062]
图1为dsr投影网络整体架构示意图。首先将lr深度图和hr彩色图像嵌入到特征提取模块中,提取多层次特征;然后,通过afp模块、lde模块和hsg模块协同工作,逐步恢复低
分辨率深度特征中的细节,生成hr深度图。彩色信息的运用表现在两个方面:一方面,在低层重建阶段利用低层彩色特征,通过lde模块恢复细节;另一方面,在afp模块末尾使用高层语义特征,通过hsg模块提供语义指导。
[0063]
1、技术路线
[0064]
本发明设计的dsr投影网络概述如图1所示,这是一种双流渐进重建架构。给定lr深度图和对应的hr彩色图像作为输入,网络的目标是重建生成与彩色图像分辨率相同的sr(超分辨率重建)深度图。
[0065]
网络首先通过5个渐进卷积块提取多层次的彩色特征和深度特征,每个卷积块包括两个3
×
3卷积层和一个1
×
1卷积层。得到的彩色特征和深度特征分别表示为和(i={1,2,3,4,5})。然后,在基于注意力的特征投影(afp)模块、低层细节嵌入(lde)模块和高层语义引导(hsg)模块的协同下,实现颜色引导的深度特征学习和细节恢复。值得注意的是,有三个输入(如果存在)被发送到afp模块:(1)对应层级的深度特征(2)lde模块生成的低层细节特征用于低层重建阶段的细节恢复;(3)所有已完成重建层的传输特征在不同重建层级,afp模块的输入特征不同,具体表示为:
[0066][0067]
其中,concat表示沿通道维度的拼接操作,表示第i层的深度特征,为第i层lde模块生成的低层细节特征,表示第k层重建完成后的传输特征,可由以下步骤计算得到:
[0068][0069]
其中,为第k个hsg模块的输出特征,

为下采样操作,k={i+1,i+2,

,5}。需要注意的是,lde模块的输入包括对应层的深度特征和彩色特征
[0070]
然后,将顶层彩色特征和深度特征送入hsg模块,修正afp模块的输出特征生成重建特征最后,对和进行亚像素卷积运算,得到最终的上采样的sr深度图。
[0071]
同时,本发明的dsr投影网络是通过计算超分辨率重建深度图和真实深度图之间的l1范数来构造训练的损失函数:
[0072]
loss=||d
sr-d
hr
||1ꢀꢀ
(3)
[0073]
其中,d
sr
、d
hr
分别为超分辨率重建深度图和真实深度图,||
·
||1为l1范数函数。
[0074]
2、基于注意力的特征投影模块
[0075]
为了实现深度图的超分辨率,需要将低分辨率的特征映射到需要的高分辨率重建特征上。具体来说,有两个问题需要注意:(1)为了恢复退化较严重的局部细节(如深度边界和精细物体),单纯增加网络深度是不够的,也是不明智的。因此,本发明引入了一个多尺度内容增强块来增强投影前的深度特征,利用不同的感受野尽可能多地恢复不同尺度下的细节特征。(2)lr和hr域之间的信息在投影过程中并不是绝对一对一的对应,过多的冗余信息
的干扰容易引入额外的误差,从而影响重构精度。为此,本发明提出了一种自适应注意力投影(aap)块,将有效信息投影到注意力域,保证投影特征的有效性和紧凑性。需要注意的是,afp模块中使用了四个级联的aap块,以获得更好的性能。
[0076]
1)多尺度内容增强(mce)块。多尺度信息能够有效地感知和建模不同的细节,这对于dsr中的细节恢复具有重要意义。mce模块包含了4个膨胀率不同的卷积层的叠加,用于捕捉不同感受野尺度的更多细节。此外,还利用密集连接从所有层获得完整的信息,整个流程可以表示为:
[0077][0078]
式中,md表示膨胀率为1、2、3、4的多尺度膨胀卷积运算,是第i层afp模块的输入,是每个多尺度膨胀卷积的输出。最后,将所有的多尺度膨胀特征通过1
×
1的卷积层进行级联融合:
[0079][0080]
其中conv1×1表示卷积核大小为1
×
1的卷积层,是mce块的输出,它感知不同尺度的内容信息。
[0081]
2)自适应注意力投影(aap)块。深度图的超分辨率处理需要弥补lr域和hr域之间的巨大鸿沟。事实上,dsr任务的重点不是从零开始生成内容,而是对诸如边界等细节进行补充、改进和增强。从这个角度来看,盲目地、不加区分地对所有区域进行超分辨率重建是一种次优的方式,也难以达到优化退化较严重的重要区域的目的。也就是说,在将信息从lr域恢复到hr域的过程中(也称为投影过程),可能会引入冗余干扰而不进行滤波,从而引入额外的误差,影响重建精度。因此,本发明设计了aap块,注意加强关键恢复区域,从而抑制干扰,提高重建性能。
[0082]
具体来说,采用下投影和上投影两种方法模拟dsr过程,从而得到较差条件下的重构hr特征图。然后,从原始hr特征中减去重构后的hr特征,生成残差特征,残差特征对重建过程中需要恢复的内容信息进行编码。最后,将残差图激活为投影的注意力图,并用于自适应地细化原始hr特征。投影的注意力图可以纠正重建过程中的错误,避免lr和hr域之间的特征投影造成的退化。
[0083]
为了进一步提高恢复性能,本发明将四个aap块堆叠在一起,并通过1
×
1卷积集成每个aap块的输出。
[0084]
因此,aap块的输入可以统一表示为:
[0085][0086]
其中,deconv表示由反卷积层执行的上采样操作,为第i层aap块的第j个hr输出(下文中将进一步推导)。由式(6)可以看出,第一个aap块的输入是mce块的上采样输出特征,而其他aap块的输入是前一个aap块的输出。投影的注意力图计算公式为:
[0087]
[0088]
其中,relu为线性整流单元,conv为下投影的卷积层,deconv为反卷积层。
[0089]
有了投影的注意力图,当前aap块的输出可以描述为:
[0090][0091]
其中,表示元素级的乘法。
[0092]
利用4个连续的aap块,由粗到细生成4个hr重构特征。结合它们,可以得到afp模块的最终输出特征:
[0093][0094]
其中,表示初始的深度重建特征。
[0095]
3、低层细节嵌入模块
[0096]
众所周知,高分辨率彩色图像是很容易获得的,并包含许多有用的信息,如边界、纹理、语义等。因此,在dsr模型中引入彩色引导已成为该领域的主流思想。然而,对于使用哪种彩色信息以及如何使用,目前还没有完全的共识。考虑到彩色特征在不同层次上的不同作用,本发明提出了一种差异化的彩色引导策略解决方案。具体而言,在低层重建阶段设计了低层细节嵌入(lde)模块,利用低层次彩色特征来补充深度特征的高频引导,从而恢复边界等细节。此外,本发明还设计了一个高层语义引导(hsg)模块,利用高层彩色特征对原始重建特征进行语义校正,防止深度重建过程中的语义偏移。本节将介绍lde模块,下节将详细介绍hsg模块。
[0097]
对于深度图的超分辨率,精确、清晰的边界重建一直是研究者们不懈努力的重点。恰巧彩色分支的底层学习的是纹理、边界等细节信息。因此,本发明通过lde模块引入hr彩色分支较低层次(即前两层)的彩色特征,并将其输出作为afp模块的输入之一。然而,深度边界与彩色边界并不完全一致。实际上,深度图中的边界主要是物体边界,而彩色图像除了物体边界外,还包括物体内部丰富的纹理边界。显然,纹理边界对dsr来说是冗余甚至干扰的。那么选择合适的彩色信息作为指导就迫在眉睫了。因此,网络学习一个残差掩码来突出彩色特征与深度特征最一致的空间位置,并利用残差掩码来引导彩色特征向深度特征的信息传递。
[0098]
首先将彩色特征和深度特征映射到同一个域,然后将它们相减,得到彩色信息相对于深度信息的冗余部分,这是网络需要抑制的部分。随后残差掩码可由归一化后取反生成:
[0099][0100]
其中,rmi表示残差掩码,wc和wd表示彩色特征和深度特征的映射矩阵,sigmoid是归一化操作,i取1或2。
[0101]
这样,残差掩码突出了彩色和深度信息中最相关的部分,因此将其与初始彩色特征相乘,得到可以用于深度重建指导的有效彩色特征。因此,lde模块的最终输出可表示为:
[0102][0103]
其中,表示元素级的乘法,为lde模块生成的低层细节特征。
[0104]
4、高层语义引导模块
[0105]
正如前面分析的,现有的方法主要是通过提取彩色特征来补充深度重建的细节,
就像lde模块所实现的功能一样。然而,这种细节指导策略是否足够?事实上,高层彩色特征对于许多任务都是非常重要的,它可以提供丰富的语义信息。在dsr任务中,现有方法忽略了一个问题,即重构特征的全局语义保持能力。随着重建过程的进行,语义信息有可能发生偏移或模糊,这对后续面向深度的应用任务非常不利。这主要是由于在重构过程中缺乏语义引导。受此启发,本发明设计了一个hsg模块来保持深度重建过程中的语义属性,该模块在每个afp模块之后都配置。具体来说,利用hr彩色图顶层的语义信息生成一个编码了全局语义引导信息的语义掩码,并进一步用于修正初始的深度重建特征(即afp模块的输出特征)。
[0106]
首先将空间注意力应用于顶层彩色特征从而生成突出重要位置的增强彩色特征考虑到语义特征的辅助作用,网络在指导过程中仍然以深度重建特征为主导。因此,将增强彩色特征与初始的深度重建特征进行拼接,生成语义掩码:
[0107][0108]
式中prelu为参数线性整流单元,conv3×3为卷积核大小为3
×
3的卷积层。
[0109]
利用语义掩码,可以通过以下方法对初始的深度重建特征进行细化:
[0110][0111]
其中,为对应hsg模块的输出特征。应该注意的是,是每个重建层级的最终重建特征,最后一层的重建特征将直接用于生成上采样的sr深度图,而其他层的重建特征将通过密集连接的传输模块实现整个网络的渐进学习。
[0112]
附图2给出了本发明在8倍超分辨率下的可视化实例。第一列为hr真实深度图和彩色图像,第二列为真实深度图像块,第三列为为本发明重建的sr深度图像块。从结果可以看出,本发明方法在许多具有挑战性的场景中实现了出色的视觉效果,在物体边界以及微小物体的细节处都有较高的准确性。
[0113]
深度图描述了场景的距离关系,与彩色图像构成两种模态的信息。彩色引导的深度图超分辨率重建是将低分辨率深度图在彩色信息补充下重建出高分辨率深度图。
[0114]
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的实质和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的保护范围。
[0115]
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1