基于光场子孔径图像相对位置关系的快速运动搜索方法与流程

文档序号:12498276阅读:233来源:国知局
基于光场子孔径图像相对位置关系的快速运动搜索方法与流程

本发明涉及光场图像压缩技术领域,尤其涉及一种基于光场子孔径图像相对位置关系的快速运动搜索方法。



背景技术:

光场是用来描述通过空间中每一个点和每一个方向的光的量的一个函数。离散化的光场可以用四维参数表示,包含了光在空间中的位置和方向信息。目前,获取光场信息的手段颇多,有基于相机阵列[1]和基于微透镜阵列[2]的诸多采样方法。本发明专利讨论的光场图像是基于微透镜阵列的Lytro Illum光场相机[3]拍摄得到的。

光场图像记录了四维光场信息,而非传统相机记录的二维光强信息。如果我们将光场图像转换为子孔径图像(subaperture image),那么各个子孔径图像之间仅仅是存在微小的视角变换而已,它们的信息冗余非常大。传统的图像压缩标准如JPEG等已不适合光场图像的压缩,我们需要根据光场图像的特性开发针对光场图像数据的高效压缩方法。

目前的视频压缩的方法中,为了提高压缩效率,一般要对编码块进行运动补偿,从而消除时(空)域冗余信息。在基于块运动补偿的视频编码框架中,运动搜索是极其重要的环节之一,同时也是复杂度最高的部分。H.265/HEVC的官方测试编码器给出了两种搜索算法:全搜索算法、TZSearch[4]算法。但是,这两种算法的复杂度仍然非常大,特别是前者,虽然性能略有增加,但是运动搜索时间为TZSearch的5倍。



技术实现要素:

本发明的目的是提供一种基于光场子孔径图像相对位置关系的快速运动搜索方法,加快了运动搜索过程,并降低了编码的复杂度。

本发明的目的是通过以下技术方案实现的:

一种基于光场子孔径图像相对位置关系的快速运动搜索方法,包括:

将光场图像转换为子孔径图像序列,并按照一定的顺序将子孔径图像序列转换为视频序列;

利用视频压缩的方法对视频序列进行编码,在编码过程的运动搜索环节中,利用当前帧与参考帧的在子孔径图像序列中的位置关系,来确定运动矢量搜索方向,从而获得最佳搜索起始点,并结合最佳搜索起始点在其邻域的若干点中进行亚像素搜索。

所述按照一定的顺序将子孔径图像序列转换为视频序列包括:

将子孔径图像序列的不规则区域使用横向zigzag扫描方式,在规则区域使用U形扫描方式,从而获得相应的视频序列。

所述利用当前帧与参考帧的在子孔径图像序列中的位置关系,来确定运动矢量搜索方向,从而获得最佳搜索起始点,并结合最佳搜索起始点在其邻域的若干点中进行亚像素搜索包括:

从视频序列的当前帧中的预测单元PU的左、上、右上PU的运动矢量MV,三者中值MV以及零运动矢量zero MV中选取匹配误差最小的像素点作为搜索起始点,并确定搜索步长N;

计算当前帧以及参考帧在子孔径图像序列中的坐标,确定参考帧相对于当前帧的位置,从而确定运动矢量搜索方向;

按照运动矢量搜索方向,取与搜索起始点相邻的像素点,并进行匹配误差比较;若搜索起始点的匹配误差最小,则运动矢量搜索结束,最佳搜索起始点即为所述搜索起始点;否则,将搜索到的匹配误差最小的像素点作为新的搜索起始点,搜索步长加1,并重复搜索上述运动矢量搜索过程;运动矢量搜索的终止条件为新的搜索起始点的匹配误差小于其运动矢量搜索方向中所有相邻像素点的匹配误差,或者达到设定的搜索步长N;

以获得最佳搜索起始点为中心,在其邻域的三个点(0,0),(0,y/|y|),(x/|x|,0)进行1/n和1/m亚像素搜索;其中,(x,y)表示最佳搜索起始点对应像素点的运动矢量。

由上述本发明提供的技术方案可以看出,以当前帧和参考帧之间的相对位置关系作为先验知识,指导每一步的运动搜索方向。在整像素搜索阶段,本专利提出的方法只进行两点或三点搜索,相比于HEVC中的全搜索以及TZSearch中的菱形搜索、正方向搜索有了很大的简化;而在亚像素搜索时,本专利提出的方法仅在三个点进行搜索,相比于HEVC中的8点搜索,该方法进一步降低了编码的复杂度。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于光场子孔径图像相对位置关系的快速运动搜索方法的流程图;

图2为本发明实施例提供的确定参考帧相对于当前帧的位置的示意图;

图3为本发明实施例提供的确定参考帧相对于当前帧的位置的示意图;

图4为本发明实施例提供的根据运动矢量搜索方向与搜索起始点来搜索最佳搜索起始点的示意图;

图5为本发明实施例提供的亚像素搜索的示意图;

图6为本发明实施例提供的将子孔径图像序列转换为视频序列的示意图;

图7为本发明实施例提供的实验结果对比图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

图1为本发明实施例提供的一种基于光场子孔径图像相对位置关系的快速运动搜索方法的流程图。如图1所示,其主要包括:

步骤11、将光场图像转换为子孔径图像序列,并按照一定的顺序将子孔径图像序列转换为视频序列。

本发明实施例中,可以将子孔径图像序列的不规则区域使用横向zigzag扫描方式,在规则区域使用U形扫描方式,从而获得相应的视频序列。

步骤12、利用视频压缩的方法对视频序列进行编码,在编码过程的运动搜索环节中,利用当前帧与参考帧的在子孔径图像序列中的位置关系,来确定运动矢量搜索方向,从而获得最佳搜索起始点,并结合最佳搜索起始点在其邻域的若干点中进行亚像素搜索。

由于进行完亚像素运动搜索后,就可以将搜索得到的像素块作为当前编码像素块的预测块,从而采用常规方式进行预测编码。

本发明实施例中,光场图像的每幅子孔径图像是对光场某一方向的采样,也可看作在不同视角下拍摄的同一场景的图像,因此各个子孔径图像之间存在着一定的视差。在将光场图像转换为视频序列进行压缩时,我们可以利用当前帧(当前子孔径图像)和参考帧(参考子孔径图像)的视差,对运动搜索算法进行优化。在实现的过程中,为了进一步简化,我们没有直接计算视差,而是直接利用了当前帧和参考帧的位置关系;具体如下:

1、从视频序列的当前帧中的预测单元PU的左、上、右上PU的运动矢量MV,三者中值MV以及零运动矢量zero MV中选取匹配误差最小的像素点作为搜索起始点,并确定搜索步长N。

2、计算当前帧以及参考帧在子孔径图像序列中的坐标,确定参考帧相对于当前帧的位置,从而确定运动矢量搜索方向。

示例性的,可以参见图2与图3。图2与图3为子孔径图像序列,每个方格均表示一个子孔径图像,其中的标记1表示当前帧(当前子孔径图像),标记2表示参考帧(参考子孔径图像)。黑色的方格是因为成像过程中的渐晕效应等导致子孔径图像不清晰,在进行压缩编码的时,已经将黑色的子孔径图像剔除。如图2中,参考帧相对于当前帧的位置为左、下,则运动矢量搜索方向为右、上;同理,图3中,运动矢量搜索方向为左、上和下。

3、按照运动矢量搜索方向,取与搜索起始点相邻的像素点,并进行匹配误差比较;若搜索起始点的匹配误差最小,则运动矢量搜索结束,最佳搜索起始点即为所述搜索起始点;否则,将搜索到的匹配误差最小的像素点作为新的搜索起始点,搜索步长加1,并重复搜索上述运动矢量搜索过程;运动矢量搜索的终止条件为新的搜索起始点的匹配误差小于其运动矢量搜索方向中所有相邻像素点的匹配误差,或者达到设定的搜索步长N。

示例性的,如图4所示,假设通过上述步骤1获得的搜索起始点为像素点A,步骤2确定的运动矢量搜索方向为右、上,则取与搜索起始点相邻的像素点B1与B2,并进行匹配误差比较;如果像素点A的匹配误差最小(即运动矢量最佳),则运动矢量搜索结束,最佳搜索起始点即为像素点A;否则,以搜索到的匹配误差最小的像素点作为新的搜索起始点;如果像素点B2匹配误差最小,则以像素点B2为新的搜索起始点,搜索步长加1,并继续进行搜索,获得像素点C1与C2;如果还没有满足运动矢量搜索的终止条件,则继续搜索获得像素点D1与D2,直至满足运动矢量搜索的终止条件,从而获得最佳搜索起始点。

本领域技术人员可以理解,上述搜索过程中,最终搜索到的像素点为整像素点。

4、如图5所示,以获得最佳搜索起始点为中心,在其邻域的三个点(0,0),(0,y/|y|),(x/|x|,0)进行1/n和1/m亚像素搜索;其中,(x,y)表示最佳搜索起始点对应像素点的运动矢量。

上述的1/n和1/m可以为1/2和1/4,也可以根据实际需求适当调整亚像素搜索的精度。

本发明实施例的上述方案中,以当前帧和参考帧之间的相对位置关系作为先验知识,指导每一步的运动搜索方向。在整像素搜索阶段,本专利提出的方法只进行两点或三点搜索,相比于HEVC中的全搜索以及TZSearch中的菱形搜索、正方向搜索有了很大的简化;而在亚像素搜索时,本专利提出的方法仅在三个点进行搜索,相比于HEVC中的8点搜索,该方法进一步降低了编码的复杂度。

另一方面,为了验证本发明的性能,对公开光场数据集EPFL中的光场图像进行了实验。本实验采用的编码软件是H.266的参考软件HM-16.6-JEM-1.0rc1;同时,本实验采用图6所示的顺序将子孔径图像序列转换为伪视频序列,即子孔径图像序列的不规则区域使用横向zigzag扫描方式,在规则区域使用U形扫描方式。

实验配置:选取EPFL中的4幅光场图像,GOPsize为10的条件下分别用两种TZSearch搜索算法压缩,比较两种TZSearch搜索算法用时和压缩质量,实验结果如下图7所示。

图7中,ME Time(sec)表示Motion Estimation花费的时间;TZ Time(sec)表示在Motion Estimation中用TZ算法搜索花费的时间;subpixelME Time(sec)表示在Motion Estimation中用亚像素搜索费的时间,TZ in ME表示TZ search搜索方法所用时间占运动估计(Motion Estimation)所用时间的比例,subpixelME in ME表示亚像素运动估计(subpixel Motion Estimation)所用时间占运动估计(Motion Estimation)所用时间的比例。JEM和本方案都只进行了1/2和1/4亚像素搜索;后三列中负号(-)表示时间减少的比例;ΔME(%)表示本方案相对于JEM中的运动估计算法减少的时间比例;ΔTZ(%)表示我们的算法相对于JEM中的TZsearch算法减少的时间比例;ΔsubpixelME(%)表示本方案中的亚像素搜索算法相对于JEM中的亚像素搜索算法减少的时间比例。

从图7中可以看出,我们的方法相比于JEM中的TZSearch算法,运动搜索(ME)的复杂度平均降低了30.18,而平均PSNR仅仅降低了0.0288dB。很明显,虽然性能上略有降低,但是复杂度却有了很大的提升。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1