一种基于定向回归损失函数的立体视觉虚拟图像空洞填补方法与流程

文档序号:24290540发布日期:2021-03-17 00:38阅读:203来源:国知局
一种基于定向回归损失函数的立体视觉虚拟图像空洞填补方法与流程

本发明涉及三维视频技术领域,尤其涉及一种基于定向回归损失函数的立体视觉虚拟图像空洞填补方法。



背景技术:

三维(3d)视频逐渐普及,已经逐渐成为了当前的一种发展趋势。然而,视频源不足成为制约这一产业兴起的主要瓶颈。在这种情况下,将2d视频转为3d视频是解决此问题的有效途径。dibr渲染是基于深度图的2d/3d转换方法中的重要步骤,它可以利用深度信息渲染出虚拟的立体视频,从而最终完成2d到3d“质的转变”。虽然这种技术有很多的优势,但是仍然有其局限性。由于dibr从参考图像中根据深度图转换的映射关系虚拟出左右眼图像,视点的变化可能导致原图像中被前景物体遮挡的部分背景区域在新图像中暴露出来,而这部分区域在变换过程中没有对应的纹理映射,因此就会在目标图像上产生空洞现象。

cn109472764a公开了一种图像合成和图像合成模型训练的方法、装置、设备和介质,解决图像添加特效单一且无法自定义的问题,实现为用户提供多种图像属性选择;但是无法根据图像的已知部分对缺失的未知部分进行填补,也并未针对立体合成图像的特点进行特别的设计,待补全的图像一般有较大的缺失空白区域,由于对大块空白区域的补全不仅涉及到图像的结构信息,还涉及到纹理信息的补全。



技术实现要素:

为克服上述缺陷,本发明的目的在于提供一种基于定向回归损失函数的立体视觉虚拟图像空洞填补方法,构建空洞填补框架网络,以明显提升基于深度学习的网络模型对立体合成图像中空洞的修复效果。

为实现上述目的,本发明采用如下技术方案:

一种基于定向回归损失函数的立体视觉虚拟图像空洞填补方法,包括步骤:

构建一个由生成器网络和判别器网络组成的生成对抗网络模型;

对生成器网络和判别器网络分别构造不同的损失函数;

利用分步训练对生成对抗网络进行空洞填补训练得到空洞填补框架网络;

把需要修复的立体合成图放入空洞填补框架网络中进行修复得到生成图像;

其中,所述生成器网络用于预测原始图像空洞区域纹理映射;所述判别器网络用于对生成图像的质量进行判断。

可选的,所述生成器网络为编码解码型网络结构,包括编码模块和解码模块;所述编码模块下采样2次,中间依次连接8个扩张卷积层;所述解码模块上采样2次;所述判别器网络由5个卷积层堆叠而成。

可选的,所述生成器网络的损失函数和所述判别器网络的损失函数包括:

lg=lg1+lg2

lg1=λddrlddr

lg2=λadvladv+λperclperc+λstylelstyle

ld=-[ey~p(y)[logd(y,mh)]+ex~p(x)[log(1-d(g(x,mh),mh))]]]

其中,lg为生成器网络的损失函数;lg1为主损失函数;lg2为辅助损失函数;lddr为定向回归损失函数;lperc为感知损失;lstyle为风格损失;ladv为对抗损失;λddr,λadv,λperc,λstyle为平衡因子;ld为判别器网络的损失函数;x为有空洞的立体合成图像;y为作为真值的无空洞立体合成图像;mh为二值化的空洞掩模矩阵;1为空洞区域;0为其它区域;y~p(y)为真值图像从p(y)分步中采样取得;x~p(x)为真值图像从p(x)分步中采样取得。

可选的,所述平衡因子λddr,λadv,λperc,λstyle范围分别为[0.5,5],[0.05,0.5],[0.05,0,5],[100,500]。

可选的,所述定向回归损失函数lddr=||mh⊙md⊙(g(x,mh)-y)||;其中,⊙为像素乘法;||.||为欧氏距离;md为定向折损重建掩膜;所述定向折损重建掩膜中对应所述空洞区域的每个像素的权重定义为,其中,ω为含有空洞的原始图像上一个闭合空洞区域;δωf表示空洞区域与相邻前景区域的边界,δωb表示空洞区域与相邻背景区域的边界;p为ω内的任一像素点;wp为像素点p在md上的权重;p0为前景端点;p1为背景端点;为前景端点的固定预设权重;为背景端点的固定预设权重,且

可选的,利用分步训练对生成对抗网络进行空洞填补训练得到空洞填补框架网络包括步骤:

将有空洞的立体合成图像及空洞掩模图像输入到生成器网络中得到生成图像;

将生成图像、空洞掩膜图像和作为真值的无空洞的立体合成图像作为判别器网络的输入;

依次迭代训练使生成器网络的损失函数和判别器网络的损失函数降至趋于稳定;

交替训练生成对抗网络中的生成器网络和判别器网络,当损失函数趋于稳定后得到最终的立体合成图像的空洞填补框架网络。

处理立体合成图像空洞修复问题的传统方法较多,但是各种方法的修复效果对场景特征有一定的要求并有明显的缺点。传统方法通过在dibr前加入深度图预处理环节或者在dibr后基于图像修复技术来完成空洞的填补。但是这些方法的修复效果往往受到场景特征条件的限制,无法很好的自适应复杂场景中的空洞修复。卷积神经网络凭借其对图像底层特征的理解以及图像高层语义特征的抽象能力,在图像分割、目标检测等任务中表现出了优异的结果。卷积神经网络尤其是对抗学习网络也被应用于通用型的图像修复,由于基于大量数据的训练,修复鲁棒性与传统方法相比有所提高。通用型的图像修复方法所要填充的缺失区域信息可以来自周边任何有语义或视觉相关性的区域。而立体视觉合成中产生的空洞主要集中在不同深度图层的过度区域,该类区域是被前景物体遮挡的部分背景区域在新图像中暴露出来产生的,因此被填充的合理信息应该来自未被遮挡的背景区域中。但现有的基于深度学习的图像修复方法并没有对此特别优化设计,并不能很好的对立体视觉合成中产生的空洞进行填补修复,从而影响了3d视频的实际转换效果。

本发明的积极有益效果:

针对现有基于深度学习的图像修复方法在处理立体合成图像空洞问题中约束不足的问题,特别提出一种基于定向回归损失函数的立体视觉虚拟图像空洞填补方法,可以针对立体图像中空洞的分布特点,通过定向回归损失函数中的修复方向性约束,在训练过程中引导空洞的填充优先从未被遮挡的背景区域中获取纹理信息,从而有效避免现有网络在修复过程中出现的填充内容语义混淆问题,从而提升3d虚拟图像渲染效果。

附图说明

图1是本发明实施例1提供的一种基于定向回归损失函数的立体视觉虚拟图像空洞填补方法的示意图;

图2是本发明实施例1提供的一种用于立体合成图像空洞修复的生成对抗网络示意图;

图3是本发明实施例1提供的一种定向回归损失函数作用示意图;

图4是本发明实施例1提供的一种通过标准dibr算法合成的一幅右眼立体虚拟图像示意图;

图5是本发明实施例1提供的一种示例性应用传统方法获得的修复效果示意图;

图6是本发明实施例1提供的另一种示例性应用传统方法获得的修复效果示意图;

图7是本发明实施例1提供的一种训练出模型后得到的修复效果示意图。

具体实施方式

下面结合一些具体实施方式,对本发明做进一步说明。

实施例1

如图1所示,公开了一种基于定向回归损失函数的立体视觉虚拟图像空洞填补方法,包括步骤:

s1、构建一个由生成器网络和判别器网络组成的生成对抗网络模型;

s2、对生成器网络和判别器网络分别构造不同的损失函数;

s3、利用分步训练对生成对抗网络进行空洞填补训练得到空洞填补框架网络;

s4、把需要修复的立体合成图放入空洞填补框架网络中进行修复得到生成图像;

其中,所述生成器网络用于预测原始图像空洞区域纹理映射;所述判别器网络用于对生成图像的质量进行判断。

生成器网络生成的结果图就为最终修复后的结果图,针对立体合成图像中空洞分布特点提出定向回归损失函数,对现有基于深度学习的通用图像修复模型进行特别优化训练,在训练过程中引导网络模型优先从非空洞的背景区域提取出相关纹理语义信息来填补空洞,从而通过定向的约束减少填补内容的语义混淆,通过定向回归损失函数强化背景非缺失纹理特征对立体合成图像空洞所处的多图层过度区域的修复作用,显著提高立体合成图像中的空洞修复质量。

具体的,所述生成器网络为编码解码型网络结构,包括编码模块和解码模块;所述编码模块下采样2次,中间依次连接8个扩张卷积层;所述解码模块上采样2次;所述判别器网络由5个卷积层堆叠而成。如图2所示为本发明所使用的网络结构,可以使用计算机来进行网络的训练和推断,在cpu为intel(r)xeon(r)gold5122cpu@3.60ghz,gpu为nvidiaquadrogv100,内存24g,操作系统为ubuntu18.04的实验条件下,使用python3.6和tensorflow1.2.1深度学习框架实现。使用的数据以middleburystereo2014数据库为基础。该数据库中每个样本集含有左右眼图像及其对应的深度图。用标准dibr算法从每个样本集的左眼图像及其对应的深度图中合成出含有空洞的右眼虚拟图像,同时可以得到空洞的掩模,并将这两类数据作为网络的输入,同时原始数据集中的右眼图像作为网络训练时的真值。为了扩充样本集数量,将原始数据集中的高分辨率样本图像,按照0.8,1,1.2三个缩放比共采集分割出27280个分辨率大小为256*256的小分辨率样本,从而实现了数据集的制作。

生成器网络的主损失函数为一种新的定向回归损失函数,所述生成器网络的损失函数和所述判别器网络的损失函数包括:

lg=lg1+lg2

lg1=λddrlddr

lg2=λadvladv+λperclperc+λstylelstyle

ld=-[ey~p(y)[logd(y,mh)]+ex~p(x)[log(1-d(g(x,mh),mh))]]]

其中,lg为生成器网络的损失函数;lg1为主损失函数;lg2为辅助损失函数;lddr为定向回归损失函数;lperc为感知损失;lstyle为风格损失;ladv为对抗损失;λddr,λadv,λperc,λstyle为平衡因子;ld为判别器网络的损失函数;x为有空洞的立体合成图像;y为作为真值的无空洞立体合成图像;mh为二值化的空洞掩模矩阵;1为空洞区域;0为其它区域;y~p(y)为真值图像从p(y)分步中采样取得;x~p(x)为真值图像从p(x)分步中采样取得。e(*)表示取平均操作。所述平衡因子λddr,λadv,λperc,λstyle范围分别为[0.5,5],[0.05,0.5],[0.05,0,5],[100,500],优选的,设所述平衡因子分别为1、0.1、0.1和200,鲁棒性较好。在这两部分中,主损失函数lg1在网络训练中起主导作用,主要影响空洞区域纹理结构的填补和恢复,而辅助损失函数lg2则起到进一步的优化作用,使填补区域能够达到更好的视觉效果。本实例中辅助损失函数lg2包含感知损失lperc、风格损失lstyle和对抗损失ladv三部分,它们的具体实现来自2019年的论文“edgeconnect:generativeimageinpaintingwithadversarialedgelearning”中图像补全网络的相关损失函数设计。由于lg2仅起到辅助作用,在实际使用中可以在三部分中选择其中的任意部分。

所述定向回归损失函数lddr=||mh⊙md⊙(g(x,mh)-y)||;其中,⊙为像素乘法;||.||为欧氏距离;md为定向折损重建掩膜;所述定向折损重建掩膜中对应所述空洞区域的每个像素的权重定义为,其中,该损失函数本质上是在传统l1回归损失函数的基础上加上了定向折损重建掩模md,其作用示意图如图3所示。ω为含有空洞的原始图像上一个闭合空洞区域;前景非空洞区域用φf表示,背景非空洞区域用φb表示,p为ω内的任一像素点;wp为像素点p在md上的权重;p0为前景端点;p1为背景端点;为前景端点的固定预设权重;为背景端点的固定预设权重,且p所在的水平线与ω的边缘相交的两个点分别定义为前景端点p0和背景端点p1,它们对应在空洞与非空洞前景区域的边界线δωf上和空洞与非空洞背景区域的边界线δωb上。假设该图描述的空洞为右眼合成图像中的一个空洞,则ω的左侧与φf相邻,左半边界为ω与φf的边界线δωf;右侧与φb相邻,右半边界为ω与φb的边界线δωb。显然,p所在的水平线与ω的边缘相交于的两个点,分别是在δωf上的前景端点p0和在δωb上的背景端点p1。优选的,设所述前景端点的固定预设权重以及背景端点的固定预设权重的具体取值经实验验证得到的推荐值,鲁棒性较好。

所述的前景端点、背景端点的区分过程如下:

由于立体合成图像中的空洞位于场景中不同深度图层的过度区域,是被前景物体遮挡的部分背景区域在新图像中暴露出来产生的,因此空洞必然位于前背景区域的交界处。如果带有空洞的立体合成原始图像为右视角图像,则δωf是空洞边界的左边界,δωb是右边界,且前景端点p0是p所在的水平线与空洞边缘相交的左侧端点,p1是右侧端点;反之,如果是左视角图像,则p0是右侧端点,p1是左侧端点。

利用分步训练对生成对抗网络进行空洞填补训练得到空洞填补框架网络包括步骤:

s31、将有空洞的立体合成图像及空洞掩模图像输入到生成器网络中得到生成图像;

s32、将生成图像、空洞掩膜图像和作为真值的无空洞的立体合成图像作为判别器网络的输入;

s33、依次迭代训练使生成器网络的损失函数和判别器网络的损失函数降至趋于稳定;

s34、交替训练生成对抗网络中的生成器网络和判别器网络,当损失函数趋于稳定后得到最终的立体合成图像的空洞填补框架网络。

如图4至图7所示,为一组实验图像处理时的情况。其中,图4是通过标准dibr算法合成的一幅右眼立体虚拟图像,可见空洞区域主要出现在前景物体(距离较近的照相反光伞)与背景场景的分界部分(在图像中用纯黑色表示),方框所圈区域为本实验的感兴趣区域,图5-图7将讨论该感兴趣区域的不同方法修复效果。图5是应用2004年论文“regionfillingandobjectremovalbyexemplar-basedimageinpainting”中的传统方法获得的修复效果。该方法利用图像本身的冗余通过设定修复优先级用图像已知部分的信息来补全未知部分,可以看到由于该方法通过匹配图像已知部分的最佳“候选图像块”来修复空洞,导致方框所示的区域内修复后倾斜的反光伞边缘出现了不规则的图像块,影响了图像的视觉效果。图6是利用2017年论文“globallyandlocallyconsistentimagecompletion”中一种基于深度学习的通用图像修复算法得到的修复效果。虽然该方法在论文提供的通用的图像补全实验中取得了较好的效果,但在本实验中由于缺少约束,在图6方框所示的区域内用周边多个区域信息,包括前景区域信息修复了部分空洞区域,导致了修复结果语义逻辑的错误。图7是用本发明方法训练出模型后得到的修复效果,可见与图5相比,由于基于大数据训练,修复效果更加稳定,避免了不规则的图像块的出现;与图6相比,定向回归损失函数在训练时强化了以背景区域的信息来更多的修复空洞区域,从而避免了语义逻辑上的错误。由此可见本发明提出的方法对改善3d视觉效果质量所起到的提升作用。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1