基于联合隐式图像函数的RGB图像引导深度图超分辨率方法

文档序号:28215679发布日期:2021-12-28 22:04阅读:338来源:国知局
基于联合隐式图像函数的RGB图像引导深度图超分辨率方法
基于联合隐式图像函数的rgb图像引导深度图超分辨率方法
技术领域
1.本发明涉及一种基于联合隐式图像函数的rgb图像引导的深度图超分辨率(图像恢复)方法,可应用于rgb图像引导的深度图超分辨率任务,具体涉及一种联合隐式图像函数的定义以及一个用于从数据中学习此函数的深度神经网络模型,用于将低分辨率、含有噪声的深度图恢复为高分辨率、无噪声的深度图,属于计算机视觉图像处理技术领域。


背景技术:

2.rgb图像引导的深度图超分辨率任务指的是从一张低分辨率、含有噪声的深度图以及一张对应的高分辨率的rgb图像中恢复高分辨率、无噪声的深度图的任务,在三维重建等任务中有着实际的应用。受限于深度传感器的精度,采集到的深度图通常质量较低,但rgb相机的发展使得高质量的rgb图像可以较容易地获取。现有的深度图超分辨率图像恢复方法通常将这个深度图超分辨率图像恢复任务视为引导滤波(guided filtering)问题,通过构建显式的滤波器,将rgb图像中的结构细节转移到深度图中,从而提高深度图的质量,例如文献[1](he,kaiming et al.“guided image filtering.”ieee transactions on pattern analysis and machine intelligence 35,2013:1397

1409.)。但由于rgb图像中信息的复杂性,这种方法可能会将不正确的信息转移到深度图中。另一种常见的方法将这个图像恢复任务视为一个稠密回归问题,通过监督学习的方法训练神经网络,直接对高分辨率的深度图进行回归,例如文献[2](li,yijun et al.“deep joint image filtering.”eccv,2016.)与[3](su,hang et al.“pixel

adaptive convolutional neural networks.”cvpr,2019:11158

11167.)等。这种方法可以利用cnn的特征提取能力,取得了更好的效果,但可解释性通常较差。
[0003][0004]


技术实现要素:

[0005]
为了克服上述技术存在的不足,本发明提供一种基于联合隐式图像函数的rgb图像引导的深度图超分辨率方法及系统,创建应用于深度图超分辨率图像恢复任务的深度神经网络模型,具体采用的联合隐式图像函数表示是一种适用于引导图像超分辨率任务的隐式图像表示形式,用于从对应的rgb图像中提取细节信息,从而更好的完成深度图的超分辨率图像恢复任务。
[0006]
本发明提出的联合隐式图像函数(joint implicit image function,jiif),从隐式神经表示(implicit neural representation)的视角处理rgb图像引导的深度图超分辨率任务。具体而言,我们采用图像插值的形式解决深度图超分辨率问题,并使用一个由多层感知机(multi

layer perceptron)实现的深度隐函数(deep implicit function,dif)学习插值过程中使用的权重与值,最后通过插值公式计算预测的像素值。将本发明方法应用于深度图超分辨率图像恢复任务,恢复得到的图像在具有较好的可解释性的同时,通过利
用深度神经网络的特征提取能力,取得了较好的图像恢复效果。
[0007]
本发明的技术方案是:
[0008]
一种基于联合隐式图像函数的rgb图像引导深度图超分辨率方法,包括:建立深度神经网络模型;通过两个编码器从rgb图像以及输入的低分辨率深度图中分别提取特征;通过联合隐式图像函数,对于输出的高分辨率深度图中每一个像素,预测插值公式中的权重与值;按照插值公式对每个像素的特征进行插值,再通过解码器输出每个像素深度值的预测。本发明创建的用于深度图超分辨率图像恢复的深度神经网络模型包含rgb图像编码器,深度图编码器,以及jiif解码器三个部分。
[0009]
基于联合隐式图像函数的rgb图像引导的深度图超分辨率恢复方法包括如下步骤:
[0010]
创建用于深度图超分辨率图像恢复的深度神经网络模型,包含rgb图像编码器,深度图编码器,以及jiif解码器三个部分。本方法首次将隐式神经表示的方法应用于rgb引导的深度图超分辨率任务,提出了适用于此任务的联合隐式图像函数,对多模态的输入(rgb图像,低分辨率深度图)进行建模,并用于对高分辨率下的每一个像素的值进行预测,结合了cnn编码器提取特征的能力以及dif的空间表达能力,在取得了更准确的预测结果的同时具有较好的解释性。
[0011]
a.从输入的rgb图像以及低分辨率深度图中提取特征;
[0012]
a1.通过rgb图像编码器e
φ
提取高分辨率rgb图像中每个像素处的特征;
[0013]
a2.通过深度图编码器e
ψ
提取低分辨率深度图像中每个像素处的特征;
[0014]
b.通过jiif解码器输出预测的高分辨率深度图;
[0015]
b1.对于高分辨率深度图中的每一个像素(目标像素),寻找低分辨率深度图中坐标最近的四个像素(近邻像素)以及提取的深度特征;
[0016]
b2.在高分辨率rgb图像中找到目标像素对应的坐标处的rgb特征,以及四个近邻像素对应的坐标处的rgb特征;
[0017]
b3.使用一个统一的联合隐式图像函数,输入上述目标像素以及近邻像素的坐标、深度特征以及rgb特征,输出目标像素与每个近邻像素间的插值权重以及值。
[0018]
b4.通过插值公式,计算b3中的插值权重以及值在目标像素处的插值结果,作为目标像素处预测的深度值。
[0019]
在步骤a中,我们通过两个编码器分别提取输入的高分辨率rgb图像与低分辨率深度图的特征,此处提取的特征的分辨率保持不变,即与输入的图像分辨率相同,从而可以视为位于每个像素处的特征。
[0020]
在步骤b中,我们通过提出的jiif解码器预测高分辨率深度图。对于高分辨率图像中的每一个目标像素,我们分别对其进行预测。首先,我们在低分辨率深度图中寻找坐标最近的四个近邻像素及其深度特征。传统的插值算法通常通过手工设计的规则计算插值权重,例如双线性插值,没有考虑rgb引导图像的信息。在本方法中,由于高分辨率rgb图像中目标像素与四个近邻像素的rgb特征是已知的,我们可以通过神经网络学习目标像素与任一近邻像素的rgb特征之间的相似性,归一化处理后作为深度特征的插值权重,从而利用了rgb引导图像中的先验知识。进一步的,我们使用一个统一的联合隐式图像函数同时学习插值权重与值。最后,我们使用学习得到的权重与值进行加权求和,输出最终的深度值预测。
[0021]
与现有技术相比,本发明可以更好的利用rgb引导图像中的信息,并且具有较好的可解释性,在rgb图像引导的深度图像超分辨率恢复任务上取得了优于现有技术的图像恢复效果。
附图说明
[0022]
图1是rgb图像引导的深度图超分辨率方法的流程示意图。
[0023]
图2是本发明建立的用于深度图超分辨率图像恢复的深度神经网网络模型的结构示意图。
具体实施方式
[0024]
下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚完整的描述。
[0025]
本发明提出一种基于联合隐式图像函数引导的深度图超分辨率图像恢复方法,图1所示是本发明提供的rgb图像引导的深度图超分辨率方法的流程;通过提出一种联合隐式图像函数(joint implicit image function,jiif),从隐式神经表示(implicit neural representation)的视角处理rgb图像引导的深度图超分辨率恢复任务。具体而言,我们采用图像插值的形式解决超分辨率问题,并且使用一个mlp学习插值过程中使用的权重与值,最后通过插值公式计算预测的像素值。将本发明方法应用于深度图超分辨率图像恢复任务,恢复得到的图像在具有较好的可解释性的同时,通过利用深度神经网络的特征提取能力,取得了较好的图像恢复效果。
[0026]
本发明是一种基于联合隐式图像函数的rgb图像引导的深度图超分辨率方法,包括:建立深度神经网络模型;本发明创建的用于深度图超分辨率图像恢复的深度神经网络模型包含rgb图像编码器,深度图编码器,以及jiif解码器三个部分。通过两个编码器从rgb图像以及输入的低分辨率深度图中分别提取特征;通过联合隐式图像函数,对于输出的高分辨率深度图中每一个像素,预测插值公式中的权重与值;按照插值公式对每个像素的特征进行插值,再通过解码器输出每个像素深度值的预测。
[0027]
图2所示是本发明建立的用于深度图超分辨率图像恢复的深度神经网网络模型的结构示意;首先是编码器部分,包括rgb图像编码器和深度图编码器。对于输入的高分辨率rgb图像g与低分辨率深度图m,我们分别使用两个结构相同的rgb图像编码器e
φ
以及深度图编码器e
ψ
对其提取特征。两个编码器提取的特征图的分辨率与输入图像的分辨率相同,从而可以得到每一个输入像素处的特征:
[0028][0029]
其中,x
i
与x
j
分别代表像素i与j的坐标,z
i
代表像素i处的rgb特征,g
j
代表像素j处的深度图特征。我们使用连续的图像表示形式,将坐标放缩到[

1,1]内,从而使得不同分辨率下的坐标可以共享。这些rgb特征与深度图特征可以被视为输入图像空间中一系列的隐式编码(latent codes),用来编码对应像素处的局部特征。具体实施时,编码器由一系列的残差模块(residual block)构成,具体包含12个残差模块,每个模块提取的特征维度为128维。
[0030]
接下来,我们从广义的图像插值公式出发,引出联合隐式图像函数的定义。对于低分辨率的输入图像m,输出的高分辨率图像i中任一像素x
q
的值i(x
q
)可以通过如下插值公式得到:
[0031][0032]
其中,n
q
是像素q的邻域,二维图像问题中通常选取坐标距离最近的四个像素。i为此邻域中的任一像素,v
q,i
是i处的像素值,w
q,i
是q与i之间的插值权重,通常要求∑
i
w
q,i
=1。现有传统的图像插值算法通过人为规定w
q,i
与v
q,i
的方式进行插值,例如双线性插值中采用:
[0033][0034]
不同于现有的传统方法,本方法使用神经网络模型学习w
q,i
与v
q,i
。对于值v
q,i
,我们使用隐式神经表示的方法从提取的特征中进行学习:
[0035]
v
q,i
=f
θ
(z
i
,g
i
,x
q

x
i
)
[0036]
此处f
θ
为一个通过mlp实现的深度隐函数。此函数输入i处的深度特征以及rgb特征,并且考虑了q与i之间的相对距离x
q

x
i
,输出通过i处的隐式编码预测的q处的值。接下来对于w
q,i
,我们使用图注意力机制的方法进行学习:
[0037]
w
q,i
=f
η
(g
i
,g
q

g
i
)
[0038]
同样,此处f
η
为一个通过mlp实现的函数。此函数输入q与i处的rgb特征,输出q与i之间的相似度。为了区别w
q,i
与w
i,q
,使得权重具有不对称性,我们输入q与i处的rgb特征之差。由于w
q,i
与v
q,i
都是通过mlp结构的函数进行学习的,我们可以将这个两个函数统一起来,只使用一个函数同时学习w
q,i
与v
q,i

[0039]
v
q,i
,w
q,i
=f
θ
(z
i
,g
i
,g
q

g
i
,x
q

x
i
)
[0040]
深度隐函数f
θ
同时利用了提取的rgb特征以及深度特征,用来表示输出的高分辨率深度图。并且通过耦合插值权重与值的学习过程,我们减少了模型需要的参数量。具体实施时,f
θ
共包含五层,特征维度分别为(1024,512,256,128,2)。最后,我们对w
q,i
进行归一化处理,并通过插值公式计算出最终的预测结果,作为目标像素处的深度值。
[0041]
我们通过监督学习的方式对上述创建的用于深度图超分辨率图像恢复的深度神经网络模型进行训练,使用的损失函数为预测的高分辨率深度图与真实的高分辨率深度图之间的l1误差:
[0042][0043]
其中n为总的像素数量,i
gt
(x
i
)表示x
i
处的深度图真值,i
pred
(x
i
)表示x
i
处预测的深度图。
[0044]
利用训练好的用于深度图超分辨率图像恢复的深度神经网络模型,输入待恢复的rgb图像,进行深度图超分辨率图像恢复,即输出恢复好的深度图超分辨率图像。
[0045]
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技
术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1