基于深度学习的深度图超分辨率方法与流程

文档序号:15350317发布日期:2018-09-04 23:15阅读:328来源:国知局

本发明属于计算机图像处理领域,具体涉及一种基于卷积神经网络的利用深度彩色图像对的深度图超分辨率方法。



背景技术:

深度信息是三维目标视觉感知的一个重要信息,在自动驾驶,人机交互,三维场景重建及虚拟现实等方面的应用都依赖于高性能高质量的深度图。但是,目前的消费级的深度相机,包括微软的kinect,华硕的xtionpro以及其它基于飞行时间法(timeofflight,tof)技术的tof相机,由于硬件条件的限制,获得的深度图像分辨率都非常低,远远低于彩色图像的分辨率。这在实际应用中带来很大的限制,因此,为了更有效地利用深度信息数据,深度图的超分辨率方法发挥着重要的作用。

传统的深度图超分辨率方法包括局部滤波的方法,空域正则项方法和字典学习的方法。用以上方法获取的高分辨率的深度图过程中,一部分方法存在着计算复杂度大,需要很长的计算时间的问题,一部分方法也存在着在一些情况下结果会出现人工痕迹,效果不理想的问题。随着卷积神经网络的出现和迅速推广,卷积神经网络在图像处理领域有了广泛的应用和快速的发展,深度图超分辨率的方法也因为引入卷积神经网络而获得了很大的提升。



技术实现要素:

为克服现有技术的不足,本发明旨在提出一种利用对应的高分辨率的彩色图像,可以有效对深度图进行超分辨率,获得锐利的深度图边缘的方法。为此,本发明采取的技术方案是,基于深度学习的深度图超分辨率方法,包括下列步骤:

1)从公共数据集中选取一定数量的纹理丰富的深度图和与之对应的彩色图,将每对深度彩色图像命名一致;

2)数据增强:将每一对图片都进行旋转90°,180°和270°的操作,图片数量增大为原来的4倍;

3)将得到的深度彩色图像对进行数据预处理:首先将深度图进行下采样后,再利用双三次插值方法将图像恢复到原来大小的尺寸,得到低分辨率的深度图;其中,需要将图片裁剪成128×128的小块,裁剪过程中步长设定为100,分别对原深度图,彩色图和低分辨率的深度图进行裁剪,三种类型的图像块命名都一一对应;其中从彩色图和低分辨率的深度图裁剪出来的图像块作为训练卷积神经网络的输入数据,从原深度图裁剪出来的图像块作为训练卷积神经网络的数据标签,也就是真值;特别的,对彩色图做相关处理,即利用canny边缘检测算子获取低分辨率的深度图的边缘区域,利用高斯核模糊平滑这些区域的边缘以后,只保留对应的彩色图的这些区域的内容;

用ih表示由高分辨率彩色图得到的灰度图,先将彩色图进行预处理的操作得到边缘引导图eh。利用canny边缘检测算子,从低分辨率深度图dl中获取其中的边缘位置,也就是对应高分辨率彩色图中有用的信息的位置,由于用canny边缘检测算子得到的边缘信息宽度只有一个像素,因此卷积上一个高斯模糊核扩宽边缘区域,接下来进行二值化的操作,将之前的值为1的区域的宽度由1个像素值扩大为带状,为了避免引入新的边界,再次卷积一个高斯模糊核将边缘区域的边界模糊化,将高分辨率强度图ih与边缘区域相对应的位置的值相乘,将多余的信息滤除掉;

4)设计深度卷积神经网络结构:网络结构为两路,将网络设计成全卷积形式,每个卷积层的步长都设为1,这样网络的输入、每一层的特征图以及输出都保持尺寸一致;

卷积神经网络在高分辨率彩色图的引导下,学习低分辨率深度图和高分辨率深度图之间一个端到端的映射,该映射表示为:

dh=f(dl,gh,{w,b})+dl(2)

其中,dh表示高分辨率深度图,dl表示低分辨率深度图,gh表示用来做引导的由对应的高分辨率彩色图得到的强度图,f(·)代表要学习的映射,w和b分别表示卷积神经网络中的权重和偏置,具体的,该网络可以分为三个部分:特征提取部分、映射和融合部分、重建部分;

训练该网络的时候使用的损失函数为均方差函数,表示如下:

其中,θ=(w,b)表示的是网络中的参数,代表的是高分辨率深度图的真值。训练过程中,用随机梯度下降的方法来最小化损失函数;

5)用预处理好的数据集训练所设计的卷积神经网路,训练好卷积神经网络后,将低分辨率的深度图和对应的彩色图输入到训练好的网络中,在输出层输出完成超分辨率后的深度图。

步骤3)将得到的深度彩色图像对进行数据预处理中,为了避免图中包含太多值为0的像素点,造成能量太低,再将所有值为0的像素值正则化为128,具体过程表示为:

其中,g表示的是高斯卷积核,表示的是直积操作,t(·)表示的是二值化操作,其阈值为图像的最大值的0.1。

步骤4)中具体地:

41)特征提取部分:此部分为神经网络的输入部分。神经网络的输入为双三次插值方法得到的与目标尺寸相同的低分辨率深度图dl和对应的高分辨率彩色图得到的强度图gh,在提出的网络中,两个分支的第一层分别将输入的dl和gh分解成一组特征图,该过程用公式表示为:

f1(y)=σ(w1*y+b1)(3)

其中,*表示卷积操作,y表示dl或者gh,σ表示激活函数,网络中应用的是纠正线性单元relu(rectifiedlinearunit)激活函数,这样能获得很好的结果,同时能够获得更快的收敛速度;

42)映射和融合部分:网络中的主分支上的每一层在引导分支上都有一个相对应的层,为了充分利用gh和dh之间的关联信息,把这些相对应的层在网络中都合并起来,并且是每一级都建立这样的连接,这样就有足够的空间可以把高分辨率彩色图的有用信息融合进来,这一部分表示为:

其中,k={1,2,3,...,9},也就是说,网络中包含9对这样的连接;

43)重建部分:经过前面的部分可以得到一些列的dl和gh的特征图,同时这些特征图随着网络的深度逐渐地融合,重建部分将这些特征图结合起来,恢复出低分辨率深度图dl和高分辨率深度图dh之间的残差信息,将得到的残差信息加到dl上,就可以得到输出dh,重建部分表示为:

dh=σ(wr*fr-1+br)+dl(5)

其中,r=10。

本发明的技术特点及效果:

本发明方法针对深度相机获取的深度图分辨率较低的问题,利用对应的高分辨率的彩色图,通过训练一个设计好的全卷积的深度卷积神经网络,解决了深度图的超分辨率问题,具有以下特点:

1、本发明设计的卷积神经网络为两路结构,利用与深度图对应的高分辨率彩色图的信息,能够得到边缘锐利的高分辨率深度图。

2、本发明设计的卷积神经网络为全卷积结构。训练好网络后,输入到网路中的低分辨率深度图可以为任意尺寸,即可以将整张图直接输入到训练好的网络中输出得到高分辨率深度图,而不需要将图像裁剪按块进行超分辨率操作。

3、本发明可以利用gpu进行加速计算,完成深度图超分辨率的用时极短。

4、本发明对各种不同的深度图的超分辨率都有较好的结果,具有一定的普适性。

附图说明

图1是步骤流程图;

图2是设计的深度卷积神经网络的网络结构图;

图3是对高分辨率彩色图像的预处理过程;

图4是用4倍超分辨率时的峰值信噪比作为评价标准来比较分别用和作引导训练神经网络时的收敛速度;

图5、图6是输出结果对比图,左边是彩色图像和参考标准,(a)是广义总变差(tgv)方法,(b)是联合强度和深度(jid)方法,(c)是本发明中使用高分辨率强度图ih的结果,(d)是本发明中使用高分辨率边缘引导图eh的结果。

具体实施方式

为了解决现有技术的缺陷,本发明提供了一种基于深度学习的深度图超分辨率方法,本发明采用的技术方案是:

1)参阅图1,其为本发明的步骤流程图,包括以下步骤:

11)从公共数据集中选取一定数量的纹理丰富的深度图和与之对应的彩色图,选取大概900多张,将每对深度彩色图像命名一致。

12)数据增强。为了增大数据集样本,将每一对图片都进行旋转90°,180°和270°的操作,图片数量增大为原来的4倍。

13)将得到的深度彩色图像对进行数据预处理。首先将深度图进行下采样后,再利用双三次插值方法将图像恢复到原来大小的尺寸,得到低分辨率的深度图。由于图像尺寸比较大,在训练卷积神经网络的时候会占用大量的资源,不能够直接输入整张图像,需要将图片裁剪成128×128的小块。裁剪过程中步长设定为100,分别对原深度图,彩色图和低分辨率的深度图进行裁剪,三种类型的图像块命名都一一对应。每种类型的图像裁剪出来大概二十多万的图像块,其中从彩色图和低分辨率的深度图裁剪出来的图像块作为训练卷积神经网络的输入数据,从原深度图裁剪出来的图像块作为训练卷积神经网络的数据标签,也就是真值。特别的,本发明作了进一步的改进,对彩色图做了相关处理,即利用canny边缘检测算子获取低分辨率的深度图的边缘区域,利用高斯核模糊平滑这些区域的边缘以后,只保留对应的彩色图的这些区域的内容。经过这样处理后,代替原先的直接将彩色图输入卷积神经网络进行训练。本发明对两种处理前和处理后的结果进行了对比,处理后的彩色图输入卷积神经网络进行训练可以减少训练所需要的时间,同时在2倍和4倍超分辨率的时候能够提升结果质量。

14)设计深度卷积神经网络结构。由于输入数据为彩色图和低分辨率的深度图,因此网络结构为两路。因为低分辨率的深度图尺寸已经和高分辨率的深度图尺寸一样,因此可以将网络设计成全卷积形式,每个卷积层的步长都设为1,这样网络的输入、每一层的特征图以及输出都保持尺寸一致。

15)用预处理好的数据集训练所设计的卷积神经网路。由于裁剪出的图像块相邻之间基本都来自于同一张图像,因此将图像块的顺序随机打乱后再输入的网络中进行训练。训练好卷积神经网络后,将低分辨率的深度图和对应的彩色图输入到训练好的网络中,在输出层输出完成超分辨率后的深度图。

2)参阅图2,其为本发明提出的对高分辨率彩色图像的预处理过程。

用ih表示由高分辨率彩色图得到的灰度图,用来作为引导用的高分辨率强度图。由于在深度图的超分辨率中,对应的高分辨率彩色图中的有用信息只有与深度图纹理对应的部分,因此包含了许多多余的边缘信息。在神经网络中,从深度彩色图像对提取的特征图在融合的过程中,需要逐渐地把这些多余的信息滤除掉。因此,为了缩短训练时间和提高结果质量,先将彩色图进行预处理的操作得到边缘引导图eh。利用canny边缘检测算子,可以从低分辨率深度图dl中获取其中的边缘位置,也就是对应高分辨率彩色图中有用的信息的位置。由于用canny边缘检测算子得到的边缘信息宽度只有一个像素,因此可以卷积上一个高斯模糊核扩宽边缘区域。为了使区域更大,高斯模糊核设置得比较大,因此边缘区域的值变得比较低,因此接下来进行二值化的操作,将之前的值为1的区域的宽度由1个像素值扩大为带状。为了避免引入新的边界,再次卷积一个高斯模糊核将边缘区域的边界模糊化。将高分辨率强度图ih与边缘区域相对应的位置的值相乘,就可以将多余的信息滤除掉。为了避免图中包含太多值为0的像素点,造成能量太低,再将所有值为0的像素值正则化为128。具体过程可以表示为:

其中,g表示的是高斯卷积核,表示的是直积操作,t(·)表示的是二值化操作,其阈值为图像的最大值的0.1。

参阅图3,用4倍超分辨率时的峰值信噪比(peaksignaltonoiseratio,psnr)作为评价标准来比较分别用ih和eh作引导训练神经网络时的收敛速度。纵轴表示的是峰值信噪比的大小,横轴表示的是迭代次数。由表可知,对高分辨率彩色图作预处理得到高分辨率边缘引导图eh,可以对结果质量和网络训练速度都有提升。

2)参阅图4,其为本发明设计的深度卷积神经网络的网络结构图。由于输入数据为彩色图和低分辨率的深度图,因此网络结构为两路。因为低分辨率的深度图尺寸已经和高分辨率的深度图尺寸一样,因此可以将网络设计成全卷积形式,每个卷积层的步长都设为1,这样网络的输入、每一层的特征图以及输出都保持尺寸一致。该提出的网络在高分辨率彩色图的引导下,可以学习低分辨率深度图和高分辨率深度图之间一个端到端的映射,该映射可以表示为:

dh=f(dl,gh,{w,b})+dl(2)

其中,dh表示高分辨率深度图,dl表示低分辨率深度图,gh表示用来做引导的由对应的高分辨率彩色图得到的强度图,f(·)代表要学习的映射,w和b分别表示卷积神经网络中的权重和偏置。具体的,该网络可以分为三个部分:特征提取部分、映射和融合部分、重建部分。

21)特征提取部分:此部分为神经网络的输入部分。神经网络的输入为双三次插值方法得到的与目标尺寸相同的低分辨率深度图dl和对应的高分辨率彩色图得到的强度图gh。在提出的网络中,两个分支的第一层分别将输入的dl和gh分解成一组特征图,该过程用公式表示为:

f1(y)=σ(w1*y+b1)(3)

其中,*表示卷积操作,y表示dl或者gh,σ表示激活函数,网络中应用的是纠正线性单元(rectifiedlinearunit,relu)激活函数,这样能获得很好的结果,同时能够获得更快的收敛速度。

22)映射和融合部分:映射和融合的步骤对输出的结果的好坏影响是最大的。网络中的主分支上的每一层在引导分支上都有一个相对应的层。为了充分利用gh和dh之间的关联信息,把这些相对应的层在网络中都合并起来,并且是每一级都建立这样的连接,这样就有足够的空间可以把高分辨率彩色图的有用信息融合进来。这一部分可以表示为:

其中,k={1,2,3,...,9},也就是说,网络中包含9对这样的连接。

23)重建部分:经过前面的部分可以得到一些列的dl和gh的特征图,同时这些特征图随着网络的深度逐渐地融合。重建部分将这些特征图结合起来,恢复出低分辨率深度图dl和高分辨率深度图dh之间的残差信息。将得到的残差信息加到dl上,就可以得到输出dh。重建部分可以表示为:

dh=σ(wr*fr-1+br)+dl(5)

其中,r=10。

24)所提出的深度卷积神经网络不需要经过预训练与后期微调参数就能够达到很好的结果。训练该网络的时候使用的损失函数为均方差函数,表示如下:

其中,θ=(w,b)表示的是网络中的参数,代表的是高分辨率深度图的真值。训练过程中,用随机梯度下降的方法来最小化损失函数。

3)训练完网络后,可以用训练好的网络模型对深度图进行超分辨率操作。下表是本发明与其他几种方法的超分辨率结果比较,实验数据为middlebury数据集中的四张深度图,衡量标准为均方根误差(root-mean-squareerror,rmse)。

表1四种方法深度图超分辨率结果比较

可以看到,本发明的方法基本可以得到具有更小的均方根误差的结果。

参阅图5和图6,其为输出结果对比图,其中,左边是彩色图像和参考标准,(a)是广义总变差(tgv)方法,(b)是联合强度和深度(jid)方法,(c)是本发明中使用高分辨率强度图ih的结果,(d)是本发明中使用高分辨率边缘引导图eh的结果。

当前第1页1 2 
网友询问留言 已有1条留言
  • 访客 来自[北京市北京交通大学] 2018年10月24日 21:28
    我写的专利为什么会在这里
    0
1