一种基于深度学习的立体图像重定向方法

文档序号：24622615发布日期：2021-04-09 20:28阅读：176来源：国知局

本发明涉及图像处理以及立体视觉技术领域，尤其涉及一种基于深度学习的立体图像重定向方法。

背景技术：

随着立体显示技术的发展和不同立体显示终端的出现，经常需要将3d内容重定向到不同显示终端。与2d图像重定向不同，立体图像重定向不但需要保持图像中显著对象的形状结构，还需要保持3d场景的深度一致性。因此，如何保证重定向后的立体图像的内容质量和视差范围，是立体图像重定向的主要挑战。

近年来，研究人员提出了大量的2d图像重定向方法。2d图像重定向技术分为离散方法和连续方法。离散方法是通过重复地从图像中的每一行/列中移除像素，实现图像的水平或者垂直缩放，例如：基于裁剪的方法、seam-carving等。连续方法是通过合并相邻像素或将图像分割成变形网格，并利用像素插值使图像变形，包括基于缩放的方法、网格变形方法等。与2d图像不同，立体图像包含深度信息。因此，有效的立体图像重定向方法不仅需要适应具有不同显示尺寸和宽高比的设备，还需要保持立体图像的深度和视差一致性。早期的立体图像重定向方法主要是对2d图像重定向方法的扩展。例如，basha等人考虑了立体图像中像素之间的匹配关系，将2d图像的seam-carving方法推广到立体图像实现几何一致性。yoo等人提出了一种基于四边形网格的立体图像重定向方法，该方法可以减少重要区域的变形扭曲，保持3d场景的深度。然而，这些立体图像重定向方法的性能仍需要进一步改进。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

现有的立体图像重定向方法，无法同时有效地保持显著对象的形状结构和视差关系，可能导致重定向后的立体图像在显著区域出现不连续伪影，并进一步造成立体图像的视差不一致性。

技术实现要素：

本发明提供了一种基于深度学习的立体图像重定向方法，本发明利用深度学习框架，进一步挖掘立体图像的显著信息和视差信息，针对立体图像进行注意力特征提取，并结合立体图像的视差信息，构建图像一致性和视差一致性损失实现对立体图像的重定向，避免图像内容失真并保持立体图像的视差一致性，详见下文描述：

一种基于深度学习的立体图像重定向方法，所述方法包括以下步骤：

利用交叉注意力提取模块获取左右图像的注意力图；

利用立体图像视差图的深度信息，构建视差辅助3d重要性图生成模块，生成左右图像的3d重要性图，将3d重要性图送入到偏移层，使立体图像的深层特征缩放至目标尺寸；

利用图像一致性损失保持立体图像中的显著区域，减少几何失真，并利用视差一致性损失保持立体图像的视差关系，减少视差失真；

将图像一致性损失和视差一致性损失结合，获得整体损失函数，并利用整体损失函数对立体图像重定向模型进行训练，获得最终高质量的重定向立体图像。

其中，所述利用交叉注意力提取模块获取左右图像的注意力图具体为：

交叉注意力模块由通道注意力和空间注意力构成，每个通道注意力由一个最大池化层、两个卷积层、一个elu层和一个sigmoid层组成，每个空间注意力由两个卷积层、一个elu层和一个sigmoid层组成；

结合通道注意力和空间注意力，左右图像中每个交叉注意力模块的最终输出的加权特征图fi^l和fi^r如下所示：

其中

其中，和表示左右图像的输入特征图，和表示由输入特征图和通道注意力掩膜相乘得到的左右图像的通道级的特征图，和表示左右图像的交叉空间注意力掩膜，该掩膜是由左右图像的空间注意力掩膜相乘得到的，mc(·)表示通道注意力掩膜，ms(·)表示空间注意力掩膜，表示逐像素相乘。

进一步地，所述图像一致性损失用于促进反变换的左右图像与对应的原始图像具有相似的结构，图像一致性损失lr定义如下：

和

其中，和分别表示反变换的左右图像，两者均是通过将输出的目标立体图像重新送入所设计的深度网络，和分别表示原始左右图像，和分别表示重定向后的左右图像的3d重要性图，s^l(1/λ,·)和s^r(1/λ,·)分别表示在反变换纵横比1/λ条件下，对重定向后的左右图像的3d重要性图进行偏移映射操作；和分别表示重定向后的左右图像的注意力图，和分别表示重定向后的左右图像的视差图，||·||表示l1范数操作。

其中，所述视差一致性损失包括：视差重建项和视差细化项，视差重建项用于保留重定向立体图像的深度信息，视差细化项用于生成3d重要性图；

视差重建项lrec定义为：

其中，和分别表示反变换的左右图像的视差图；

视差细化项lref定义为：

其中，和分别表示原始左右图像的真实视差图；

将图像一致性损失lr和视差一致性损失ld结合，获得整体损失函数ltotal定义如下：

lall＝lr+τld

其中，τ表示相对权重。

本发明提供的技术方案的有益效果是：

1、本方法能够有效保持图像中的显著区域结构，减少图像的形状失真；同时，能够保持立体图像的视差关系和3d场景的深度，最终获得高质量的重定向立体图像；

2、本发明是首次使用深度学习框架解决立体图像重定向问题，能够有效提取立体图像的注意力信息和视差信息，进一步保持立体图像中对象比例以及避免深度失真。

附图说明

图1为一种基于深度学习的立体图像重定向方法的流程图；

其中，(a)为交叉注意力，其中表示像素级乘法；(b)为通道注意力；(c)为空间注意力，其中conv表示滤波器大小为1×1的卷积运算，表示sigmoid函数。

图2为交叉注意力模块示意图；

图3为重定向后立体图像的深度失真得分对比结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例设计了一种基于深度学习的立体图像重定向方法。该方法由三个模块组成：交叉注意力提取模块用于生成视觉注意力图，以保持显著物体的形状；视差辅助3d重要性图生成模块，用于生成精确的3d重要性图，进一步保存深度信息；图像一致性损失和视差一致性损失模块，最小化几何结构失真和深度失真，进而预测高质量的重定向立体图像。该立体图像的重定向方法实现了对立体图像的尺寸缩放，避免视觉失真同时保持了立体图像的视差一致性，详见下文描述：

一种基于深度学习的立体图像重定向方法，参见图1，该方法包括以下步骤：

步骤1：利用交叉注意力提取模块获取左右图像的注意力图；

对于图像重定向，最基本的任务是保持显著对象的形状结构，并尽可能均匀地拉伸背景区域。由于深度学习模型中的注意力图能够更加关注显著对象，并且左右图像中的显著对象具有相同内容。因此，本发明实施例设计了交叉注意力提取模块，以保持左右图像的显著内容特征，促进左右图像之间的协作。

给定一幅立体图像，大小为w×h(w代表宽度，h代表高度)的左右图像和被送入vgg-16网络中，用于提取图像的特征图，并采用反变换vgg-16网络，将特征图扩展到原始尺度。此外，在vgg-16网络的每两个卷积层之间引入交叉注意力模块，提高特征表示能力，防止深度失真。交叉注意力模块由通道注意力和空间注意力构成，其细节如图2所示，其中每个通道注意力由一个maxpooling(最大池化)层、两个卷积层、一个elu(指数线性单元)层和一个sigmoid(激活函数)层组成，每个空间注意力由两个卷积层、一个elu层和一个sigmoid层组成。

结合通道注意力和空间注意力，左右图像中每个交叉注意力模块的最终输出的加权特征图fi^l和fi^r如下所示：

其中

其中，和表示左右图像的输入特征图。和表示由输入特征图和通道注意力掩膜相乘得到的左右图像的通道级的特征图。和表示左右图像的交叉空间注意力掩膜，该掩膜是由左右图像的空间注意力掩膜相乘得到的。mc(·)表示通道注意力掩膜，ms(·)表示空间注意力掩膜。表示逐像素相乘。

步骤2：利用立体图像视差图的深度信息，构建视差辅助3d重要性图生成模块，生成左右图像的重要性图；

考虑到立体图像的视差图可以作为保留原始深度分布的附加约束，本发明实施例利用视差辅助3d重要性图生成模型，提高重定向后的立体图像的深度精度。具体地，视差生成网络用于生成左右视差图，然后将其作为辅助分别生成左右图像的3d重要性图。

视差生成网络采用对称的网络架构预测左右视差图，其包括：卷积层单元、相关层和视差预测。在视差生成网络中，采用卷积层单元提取左右图像两个分支的特征图。每个分支有八个卷积层，每一层之后是批标准化和relu。然后，利用相关层计算左右图像的每两个对应特征映射之间的代价-体积关系。同时，为了生成精确的视差图，将左右分支中卷积层单元的最后一个特征图与代价-体积关系融合，分别生成左右图像对应的代价-体积。最后，利用winner-take-all策略计算出左右图像的视差图。

在立体图像重定向任务中，应该尽可能保持立体图像中显著目标的全局深度感知。本发明实施例采用2d注意力图和视差图的线性组合生成3d重要性图，与2d注意力图相比，3d重要性图提供了更多有价值的形状和深度信息。左右图像的3d重要性图和分别定义如下：

其中，a^l和a^r分别表示左右图像的注意力图，d^l和d^r分别表示左右图像的视差图，ε用来平衡注意图和视差图对3d重要性图的贡献，表示逐像素相加。在获得左右图像的3d重要性图之后，将3d重要性图送入到偏移层，使立体图像的深层特征缩放至目标尺寸。

步骤3：利用图像一致性损失保持立体图像中的显著区域，减少几何失真，并利用视差一致性损失保持立体图像的视差关系，减少视差失真。

立体图像重定向旨在没有明显的几何和视差失真的情况下，获得重定向的立体图像。为了保持立体图像中的显著区域，同时减少非自然的几何失真，本发明实施例设计了图像一致性损失，以促进反变换的左右图像与对应的原始图像具有相似的结构。图像一致性损失lr定义如下：

和

其中，和分别表示反变换的左右图像，两者均是通过将输出的目标立体图像重新送入所设计的深度网络，和分别表示原始左右图像，和分别表示重定向后的左右图像的3d重要性图，s^l(1/λ,·)和s^r(1/λ,·)分别表示在反变换纵横比1/λ条件下，对重定向后的左右图像的3d重要性图进行偏移映射操作。和分别表示重定向后的左右图像的注意力图，和分别表示重定向后的左右图像的视差图，||·||表示l1范数操作。

为了确保立体图像的视差一致性，本发明实施例设计了视差一致性损失，强制采用与重定向立体图像一致的方式处理场景的视差，进而避免深度失真。具体地说，视差一致性损失包括视差重建项和视差细化项，其中视差重建项用于保留重定向立体图像的深度信息，视差细化项用于生成精确的3d重要性图。视差一致性损失ld定义如下：

ld＝lrec+lref

其中，lrec和lref分别表示视差重建项和视差细化项。

在理想情况下，如果能很好地保留重定向立体图像的深度信息，则原始左右图像之间的视差应与反变换的左右图像之间的视差应相似。因此，视差重建项lrec定义为：

其中，和分别表示反变换的左右图像的视差图。

另外，为了生成更精确的3d重要性图，原始左右图像的视差图应尽可能接近真实视差图。视差细化项lref定义为：

其中，和分别表示原始左右图像的真实视差图。

最后，将图像一致性损失lr和视差一致性损失ld结合，获得整体损失函数ltotal定义如下：

lall＝lr+τld

其中，τ表示相对权重。

图3列出了重定向后立体图像的深度失真得分对比结果，对比算法包括：cho的方法和li的方法，其中cho的方法是2d图像重定向算法，li的方法是立体图像重定向算法。深度失真越小，3d视觉体验越高。由图3可以看出，与cho的方法相比，本发明实施例的深度失真得分更小，说明视差辅助模型在立体图像重定向中的重要作用。此外，li的方法在深度失真得分方面的表现也比本发明差。主要原因在于li的方法受到几何结构变形的影响，会产生不理想的视差失真。相比之下，受益于视差辅助模型和视差一致性损失，本发明减少了重定向后立体图像的深度失真。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷建军;范晓婷;徐立莹;彭勃
技术所有人：天津大学
我是此专利的发明人

上一篇：一种重组木聚糖酶及其应用的制作方法
上一篇：导航手术系统、计算机可读存储介质及电子设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。