基于改进虚拟视点合成的多视点视频超分辨率重建算法的制作方法

文档序号：13950062阅读：346来源：国知局

本发明涉及图像视频处理领域，特别是涉及一种应用于混合分辨率多视点视频的超分辨率重建算法。

背景技术：

近年来，以3d立体视频(stereovideo)和自由视点视频(freeviewpointvideo，ftv)为代表的多视点视频(multi-viewvideo)成为数字多媒体技术研究的热门方向。在多视点视频系统中，需要同时传输多个视点的视频序列，存储和带宽负担很大。混合分辨率(mixedresolution，mr)多视点视频架构是解决这一问题的有效方法。采用混合分辨率视频架构，至少一个视点采用低分辨率视频进行传输，其余视点以高分辨率方式进行传输，能够有效地降低传输数据量，达到了节省带宽的目的，并且可以显著的减少处理时间。低分辨率视频清晰度较低，会影响观看者视觉体验，导致视觉上的不舒适感。为了保证观看者的视觉体验，需要在接受端对低分辨率视点进行超分辨率重建。

深度图像绘制(depthimagebasedrendering，dibr)技术，是一种计算简单且效果优秀的虚拟视点合成技术。通过dibr技术可得到该低分辨率视点的高分辨虚拟视点，进而虚拟视点的高频信息，并与低分辨率插值视图进行相加，完成超分辨率重建。但是，由于dibr技术映射得到的视图像素渗透、投影重叠和空洞等一些问题，合成虚拟视图的部分高频信息并不准确，而且可能与原图存在亮度差异，故需要对重建结果进一步改进。

在附加深度图的混合分辨率多视点视频格式(mr-mvd)中，提供了每个视点的原深度图，参考视点的原图和合成虚拟视点的低分辨率彩图。对于附加深度图的混合分辨率多视点视频格式(mixedresolutionmulti-viewvideoplusdepths，mr-mvd)，可利用高分辨率视点的深度信息和相机参数，通过虚拟视点合成技术得到相邻的低分辨率视点的高分辨初始估计，这为多视点视频的超分辨率重建提供了新的思路。

技术实现要素：

针对传统dibr技术合成虚拟视图存在的像素渗透、投影重叠和空洞等问题，导致合成虚拟视图部分高频信息失真，本发明提出一种基于改进虚拟视点合成的多视点视频超分辨率重建算法，采用虚拟视点向参考视点逆向投影与参考视点向虚拟视点前向投影相结合的方式，来解决dibr合成虚拟视点过程中出现的像素渗透和投影重叠问题，再对虚拟视点低分辨率彩图进行插值，用得到的插值图像完成对合成虚拟视图空洞的填补，由此完成了超分辨率重建的过程

通过双向dibr技术改善合成虚拟视图质量，提升多视点视频的超分辨率重建效果。

本发明的基于改进虚拟视点合成的多视点视频超分辨率重建算法，该方法包括以下步骤：

步骤1、基于dibr的虚拟视点合成，在参考视点的深度图的辅助下，建立虚拟视点图像和参考视点图像之间的映射关系；该步骤的具体处理如下：

已知视点个数n的高分辨率图像vn及其对应的深度图dn，利用vn内某一像素点(u,v)的深度值d以及拍摄该视点摄像机的摄像机内部参数矩阵an、旋转矩阵以及转移矩阵tn，映射为世界坐标系的(x,y,z)点，表达式如下：

其中，参数矩阵表示摄像机成像的内部参数矩阵，fx和fy分别是水平和竖直方向以像素为单位的焦距，(cx,cy)是基准点(通常在图像的中心)。摄像机内部参数矩阵不依赖于场景，只要焦距固定，可以被重复使用。为摄像机的旋转矩阵，为摄像机平移矩阵，矩阵[rntn]为摄像机外部参数矩阵，将客观世界中某一点pw映射到一个相对于摄像机固定的坐标系，它描述了目标景物围绕摄像机的刚性运动或者摄像机相对于一个固定场景的运动。

像素点(u,v)的深度值d通过以下公式计算得出：

其中，zmin和zmax表示深度图中最小和最大景深；

将世界坐标点(x,y,z)重新映射到视点n+1的摄像机像素平面上某点(u',v')，表达式如下：

其中，d′表示像素点(u',v')的深度值，(u',v')即为视点n中像素点(u,v)经过dibr映射后得到的像素点位置。

步骤2、基于双向dibr的投影一致性检查，该步骤的具体处理如下：

找到虚拟视点的原深度图dr中某像素点，将虚拟视点的原深度图dr中某像素点p(u,v)投影到参考视点深度图的映射位置p'(u',v')；找到距离p'(u',v')最近的四个像素坐标为整数的点；将得到的四个参考视图中点p'(u',v')的四个邻近点p'1、p'2、p'3、p'4映射到虚拟视图，得到四个映射虚拟视图像素点；

找到与p(u,v)欧式距离最近的映射虚拟视图像素点记为若与p(u,v)的欧式距离小于投影一致性检查阈值k＝1，则该像素点在参考视点中的像素坐标原投影点即为p(u,v)的最终映射位置,否则认为p(u,v)在参考视图中没有正确的对应像素点，p(u,v)对应的像素点用插值虚拟视点彩图进行填充；

步骤3、高频信息提取与超分辨率重建，该步骤的具体处理如下：

通过均值为μ，方差为σ的高斯核函数g对经过双向dibr的合成虚拟视图提取高频分量，并与低分辨率视图的双三次插值结果进行融合，得到最终的超分辨率重建结果:

其中，均值μ＝0，方差σ＝1.6。

与现有技术相比，本发明提出的基于改进虚拟视点合成的多视点视频超分辨率重建算法相比传统dibr虚拟视图合成方法，可以有效的去除小裂痕，消除背景与前景之间的像素渗透现象；对空洞部分，通过提取插值图像的对应像素点进行填充，取得了较好的视点合成效果，在此基础上通过高频提取与插值视图相融合取得了良好的超分辨率重建结果。

附图说明

图1为本发明的基于改进虚拟视点合成的多视点视频超分辨率重建算法流程图；

图2为基于双向dibr的超分辨率重建示意图；

图3为投影一致性检查dibr流程；

图4为ballet超分辨率重建结果：(3a)传统dibr结果，(3b)基于投影正确性检查的双向dibr结果，(3c)原图，(3d)基于双向dibr的超分辨率重建结果；

图5为doorflower超分辨率重建结果：(4a)双三次插值，(4b)ne，(4c)scsr，(4d)本专利结果。

具体实施方式

下面将结合附图对本发明的实施方式作进一步的详细描述。

如图1所示，为本发明的基于改进虚拟视点合成的多视点视频超分辨率重建算法流程，具体分为以下三个步骤。

步骤1、基于dibr的虚拟视点合成，该步骤的具体处理如下：

dibr技术的核心思想是利用参考视点和虚拟视点的摄像机参数，在参考视点的深度图的辅助下，建立虚拟视点图像和参考视点图像之间的映射关系。基于dibr的虚拟视点合成过程如下：

已知视点个数n的高分辨率图像vn及其对应的深度图dn，利用vn内某一像素点(u,v)的深度值d以及拍摄该视点摄像机的摄像机内部参数矩阵an、旋转矩阵rn以及转移矩阵tn，映射为世界坐标系的(x,y,z)点，表达式如下：

其中参数矩阵表示摄像机成像的内部参数矩阵，fx和fy分别是水平和竖直方向以像素为单位的焦距，(cx,cy)是基准点(通常在图像的中心)。摄像机内部参数矩阵不依赖于场景，只要焦距固定，可以被重复使用。为摄像机的旋转矩阵，为摄像机平移矩阵。矩阵[rntn]为摄像机外部参数矩阵，将客观世界中某一点pw映射到一个相对于摄像机固定的坐标系，它描述了目标景物围绕摄像机的刚性运动或者摄像机相对于一个固定场景的运动。

像素点(u,v)的深度值d通过以下公式计算得出：

其中，zmin和zmax表示深度图中最小和最大景深；

将世界坐标点(x,y,z)重新映射到视点n+1的摄像机像素平面上某点(u',v')，表达式如下：

其中，d′表示像素点(u',v')的深度值，(u',v')即为视点n中像素点(u,v)经过dibr映射后得到的像素点位置。

步骤2、基于双向dibr的投影一致性检查，该步骤的具体处理如下：

在双向dibr映射过程中，引入了投影正确性检查的步骤，通过虚拟视点向参考视点逆向投影来检查参考视点向虚拟视点前向投影的过程是否准确，有效地解决了投影像素点重叠和像素渗透等问题，结合图2、图3对该步骤进行说明：

参考视点的彩图为cr，虚拟视点的原深度图为dr，低分辨率彩图为按照该实例流程，通过参考视点的彩图cr与虚拟视点的原深度图dr，完成基于投影正确性检查的dibr虚拟视点合成。

利用式(1)和式(3)得到将虚拟视点的原深度图dr中某像素点p(u,v)投影到参考视点深度图的p'(u',v')位置：

按照式(5)找到距离p'(u',v')最近的四个像素坐标为整数的点,其中表示向下取整，表示向上取整。

将得到的四个参考视图中点p'(u',v')的四个邻近点p'1、p'2、p'3、p'4映射到虚拟视图，得到四个映射虚拟视图像素点：

找到与p(u,v)欧式距离最近的映射虚拟视图像素点记为若与p(u,v)的欧式距离小于投影一致性检查阈值k＝1，则该像素点在参考视点中的像素坐标原投影点即为p(u,v)的最终映射位置,否则认为p(u,v)在参考视图中没有正确的对应像素点，p(u,v)对应的像素点需要用插值虚拟视点彩图进行填充。通过公式(7)，计算出距离点p(u,v)欧式距离最近的映射点pi"(u",v")，将该点下标标记为imin：

步骤3、高频信息提取与超分辨率重建，该步骤的具体处理如下：

通过均值为μ，方差为σ的高斯核函数g对经过双向dibr的合成虚拟视图提取高频分量，并与低分辨率视图的双三次插值结果进行融合，得到最终的超分辨率重建结果。

其中，均值μ＝0，方差σ＝1.6。

在本发明算法的效果评价实验中，所用的多视点视频序列包括各个视点的rgb视频序列、深度序列及摄像机参数；所用高斯核函数的大小为5×5，均值μ＝0，方差σ＝1.6。投影一致性检查阈值k＝1。为了评价重建效果，除了采用主观的视觉评价外，还采用峰值信噪比(psnr)和图像结构相似度(ssim)评价不同算法的超分辨率重建性能。psnr是一种基于统计特性的客观图像质量评价方法，较大的峰值信噪比表示重构图像与原始图像之间的相似性较高。ssim是一种通过感知图像结构信息来进行图像质量评价的方法，ssim值越大说明图像间的结构越相似。

表1与表2分别表示不同算法的psnr和ssim，双三次插值算法作为基准。与基于稀疏表示的超分辨率重建算法scsr以及基于邻域嵌入的超分辨率重建算法ne做了比较。相较scsr算法，本发明算法在psnr指标上平均提升2.06db，ssim指标上平均提升0.0173。相较ne算法，本发明算法在psnr指标上平均提升0.84db，ssim指标上平均提升0.0060。

如图4所示，相比传统dibr虚拟视图合成方法，本发明的基于双向dibr的虚拟视图合成算法可以有效的去除小裂痕，消除背景与前景之间的像素渗透现象。通过高频提取与插值视图融合得到的超分辨率重建结果有效的恢复了视频帧的高频细节，图像纹理清晰细腻额，并且有效的抑制了振铃效应和块效应。

如图5所示，相比其他超分辨率重建结果的主观视觉，本发明的基于双向dibr的虚拟视图合成算法，双三次插值恢复的结果表现最差，图像的纹理细节没能得到有效恢复，scsr以及ne结果恢复了部分高频信息，但存在部分区域过于平滑的问题。本专利提出的算法可以有效恢复缺失的高频信息，且图像纹理清晰，细节真实，取得了最佳的超分辨率重建效果。因此从评价指标上看，本发明算法明显优于其余几种算法，主观评价与客观评价结果完全一致。表中，dataset表示数据集，bicubic表示双三次插值结果，ne表示邻域嵌入结果，scsr表示稀疏表示重建结果，proposed表示本专利结果。

表1、不同超分辨率重建结果psnr值(db)比较

表2、不同超分辨率重建结果ssim值比较

实验结果表明，本专利提出的算法能够更好地抑制了锯齿效应和振铃效应，重建出的高分辨率视图更接近于真实图像，具有更好的主观和客观质量。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周圆;张业达;杨鸿宇;冯丽洋;杨晶
技术所有人：天津大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。