多视角视频编码方法

文档序号:7668438阅读:222来源:国知局
专利名称:多视角视频编码方法
技术领域
本发明涉及数字图像处理和视频编解码技术,具体涉及视图合成预测编码。
背景技术
多视角视频(Multi-view video)是指不同位置和方向的多个摄像机对同一场景拍摄得 到的视频信号,它是立体电视(3DTV)和任意视角视频系统(FVV, Free Viewpoint Video System)等新型应用的基础。利用多视角视频和图像合成技术可以产生摄像机覆盖范围内的 任意视角的视频信息,观察者可根据自己的喜好自由地切换观察视角,从而得到具有交互功 能的高质量的视频观看体验。由于多视角视频数据随摄像机数目的增加而成倍增加,所以高 效压縮编码多视角视频中的海量数据已成为目前视频处理领域的一个研究热点。国际标准组 织MPEG在2002年开始3D音视频(3DAV)方面的探索研究,并发展为对多视角视频编码(MVC, Multi-view Video Coding)的研究(ISO/IEC JTC1/SC29/WG11, "Call for Evidence on Multi-View Video Coding" , Doc. N6720, 2004) ; 2006年MVC成为国际联合视频小组JVT 视频编解码标准H. 264/AVC的扩展部分。
多视角视频的一种最简单的编码方法就是采用传统的单视频序列的编码技术,对每个视 角的视频序列进行独立编码,如图1所示。目前,常用的单视频序列的编码标准有运动图像 专家组MPEG推出的系列标准如MPEG-2、 MPEG-4,国际电信联盟ITU推出的H. 261、 H. 263,以及 MPEG与ITU联合成立的JVT推出的最新的H. 264标准。独立编码方法采用运动补偿预测 (Motion Compensation Prediction, MCP)消除了同一视角视频图像之间的相关性即时间相 关性,但是没有利用不同视角的视频图像之间的相关性即空间相关性,所以编码效率不高。
多视角视频的另 一种编码方法是利用不同视角图像之间的空间相关性进行视差补偿预测 (Disparity Compensation Prediction, DCP)编码。该方法先对一个或若干个视角的视频序 列进行独立编码,其他视频序列以独立编码的视频序列为参考图像进行空间域上的视差补偿 预测,同时考虑同一视频序列内部在时间轴上的运动补偿预测,并根据一定的代价函数在视 差补偿和运动补偿中选择最优的一种,如图2所示,视频序列2采用运动补偿预测编码;视频 序列1和3以视频序列2为参考进行视差补偿预测,并与运动补偿预测比较,在两者之间选择 较优的预测模式。
MPEG-2标准中的多视角档次(Multi-View Profile, MVP)和2007年6月公开的公开号为CN 1984335A的专利文献"编码多视角视频的方法和装置"就是采用了这种视差补偿预测编码技 术。2005年1月公开的公开号为CN 1568015A的专利文件"多视角视频编解码预测补偿方法及 装置"提出的全局运动预测补偿实质上也是利用不同视角的空间相关性进行预测编码。当同 一视角图像间的时间相关性小于不同视角图像间的空间相关性时,如遮挡区域、物体进入或 离开场景时,当前图像在同一视频序列的邻近图像中找不到匹配块,而在邻近视角的图像中 有合适的匹配块,此时视差补偿比运动补偿能达到更高的编码效率。视差补偿预测编码方法 适用于相机视角密集、视角之间旋转不大的相机系统,如图3所示的平行相机系统,此时不 同视角的图像之间只存在水平或垂直方向的视差、基本没有变形差异,所以使用块匹配的视 差估计并进行补偿预测的方法能够达到较好的预测效果。然而,对于相机之间存在较大旋转 运动的汇聚相机系统,如图4所示,不同视角的图像之间由于相机角度的不同存在较大变形 ,利用未考虑变形影响的视差补偿预测编码效果不理想。所以,研究利用不同视角图像之间 的空间相关性的同时,结合考虑图像之间由于旋转运动等造成的变形影响,能够进一步提高 多视角视频的编码效率,具有重要意义。

发明内容
本发明所要解决的技术问题是,提供一种能适用于不同相机系统的多视角视频编码方法
技术领域
本发明为解决上述技术问题所采用的技术方案是,多视角视频编码方法,其特征在于, 包括以下步骤
a、 对一个或若干个视角的视频序列采用运动补偿预测进行独立编码;
b、 其它视频序列在视差补偿预测、视图合成预测、运动补偿预测三种预测模式中选择 代价最小的来进行编码。
具体的,所述预测模式的代价采用拉格朗日代价函数计算J=D+XR;其中D为编码失真 ,所述编码失真为原始图像(编码块)与重建图像(解码块)之间的差;R为编码码率,所 述编码码率为编码原始图像(编码块)所用的比特数,包括编码预测残差和附属信息如运动 向量、视差向量和深度值的比特数;入为拉格朗日乘子。
所述编码失真可以用平方差之和(Sum of Squared Difference, SAD),或绝对差值之 禾口 (Sum of Absolute Difference, SAD)来表示。
进一步的,为了快速判定步骤b中的预测模式,具体采用以下步骤
bl、在同一视角视频中,求得图像的背景区域并对待编码的编码块采用运动补偿预测模 式进行编码,求得相应的运动补偿预测模式代价;
b2、判断待编码的编码块是否属于背景区域;若是,则采用运动补偿预测模式;若否, 则进入步骤b3;
b3、若多视角视频的相机系统为平行相机系统,进入步骤b4;若多视角视频的相机系统
为汇聚相机系统,进入步骤b5;
b4、进行视差补偿预测编码,求得相应视差补偿预测编码的代价,与步骤bl中求得的运 动补偿预测模式代价比较,选择代价较小的预测模式;
b5、进行视图合成预测编码,求得相应视图合成预测编码的代价,与步骤bl中求得的运 动补偿预测模式代价比较,选择代价较小的预测模式。
本发明的有益效果是,能适用于不同相机系统的多视角视频编码,使得视图编码得到更 好的效果。


图l为现有技术中采用运动补偿预测对每个视频序列进行独立编码的示意图; 图2为现有技术中采用运动补偿和视差补偿联合预测编码的示意图; 图3为平行相机系统示意图4为汇聚相机系统示意图; 图5为本发明多视角视频编码示意图; 图6为本发明快速判定预测模式的流程图; 图7为单视角视频的预测结构;
图8为实施例中多视角视频编码的预测结构。
具体实施例方式
H.264中关于利用不同视角图像间的相关性进行编码的提案视图合成预测编码(VSP, View Synthesis Prediction):在编码端进行块的深度信息估计,然后进行视图合成得到 预测块,对深度信息和预测残差进行编码(IS0/IEC JTC1/SC29/WG11, Doc. JVT-T123, 2006,ISO国际标准化组织(International Organization for Standardization)/IEC国 际电工委员会(International Electronic Committee)下的第一届联合技术委员会JTC1 ( Joint Technology Committee)下的分技术委员会SC29 (subcommittee)下的工作组 WGll(Work Group)的文档JVT-T123, 2Q06年)。该方法适用于视角之间存在较大旋转、视 图存在较大投影变形的情形,如视角稀疏的汇聚相机系统。
所以,多视角视频编码存在三种预测模式,即运动补偿预测、视差补偿预测和视图合成 预测。对应于三种预测模式,多视角视频存在三种类型的参考图像,即时间参考图像、空间 参考图像和合成参考图像。时间参考图像就是把单一视角视频内时间轴上邻近的图像作为参 考图像;空间参考图像就是把空间域上邻近的不同视角的图像作为参考图像;合成参考图像 就是把利用深度和相机参数并根据邻近视角图像信息合成的图像作为参考图像。在运动补偿 预测和视差补偿预测中,编码块需要分别进行运动估计和视差估计得到运动向量(Motion Vector)和视差向量(Disparity Vector),并对预测残差和运动向量或视差向量进行编码。 视图合成预测编码中,需要进行深度估计得到深度值(D印th),并对预测残差和深度值进 行编码。
为了得到最好的编码效率,采用三种预测模式分别进行编码并计算相应的代价,选取最 小代价的预测模式进行编码。联合使用运动补偿、视差补偿和视图合成三种预测模式的多视 角视频的编码,如图5所示,视频序列2采用运动补偿预测编码(MCP);视频序列1和3以视 频序列2为参考进行视差补偿预测(DCP)与视图合成预测(VSP),并与视频序列内部的运 动补偿预测(MCP)比较,在三者之间选择较优的预测模式,即代价最小的预测模式。
预测模式的代价J采用以下拉格朗日代价函数计算
J=D+入R;
其中D是编码失真,指原始图像(编码块)与重建图像(解码块)之间的差,常用的失 真度度量有平方差之和(Sum of Squared Difference, SSD),绝对差之和(Sum of Absolute Difference, SAD); R是编码码率,即编码原始图像(编码块)所用的比特数,包括编码预 测残差和附属信息如运动向量、视差向量和深度值的比特数;入拉格朗日乘子,实际应用时 根据统计数据确定。
分别用运动补偿、视差补偿和视图合成三种预测模式对编码块进行编码,然后利用率失 真函数计算每一种预测模式的编码代价求得最佳预测模式的方法,计算量很大造成编码速度 慢。因此,需要采用预测模式的快速判定方法,在提高编码速度的同时又不降低压縮编码效 率。分析多视角视频图像的特征,发现同一个视角视频中相邻图像间的相似性和相关性在大 多数区域比不同视角视频图像间的相关性要高。例如,静止不动的背景区域,在同一个视角 视频图像间的相似性很高,利用运动补偿能够取得很好的预测效果,而在不同视角的视频图 像中,由于不同的拍摄相机和可能的光照差异等,利用视差补偿或视图合成的预测效果通常
没有运动补偿的效果好,因此根据计算的编码代价求得最佳预测模式通常是运动补偿模式。 对于运动区域、遮挡和出现区域,在同一视角视频相邻图像中难以找到相似块,利用运动补 偿的预测效果不好,但是这些区域在其它不同视角视频图像中容易找到相似块,利用视差补 偿或视图合成预测能得到较好的效果。而视差补偿和视图合成预测模式的选择,可根据获取 视频的相机系统的性质来判定,例如平行相机系统的多视角视频图像间的只有水平或垂直方 向的平移,图像变形差异小,用视差补偿预测编码就能获得较好的预测效果,而存在旋转运 动的汇聚相机系统的多视角视频图像间存在较大的变形,使用视图合成预测编码能得到更好 的预测效果。
根据以上分析,我们提出多视角视频编码的预测模式的快速判定方法,如图6所示,具 体步骤如下
步骤l:在同一视角视频中,利用相邻图像求绝对差的方法或其它利用视频序列求图像 背景区域的方法,求得图像的背景区域;
步骤2:对待编码的编码块采用运动补偿预测模式进行编码,求得相应的运动补偿预测 模式代价J-motion ;
步骤3:若待编码的编码块属于背景区域,则该编码块的预测模式判定为运动补偿预测 步骤4:若待编码的编码块不属于背景区域,则进行以下步骤
步骤4. 1:若多视角视频的相机系统为平行相机系统,则进行视差补偿预测编码,并求 得相应的视差补偿预测编码代价J-disparity;比较J-motion和J-disparity:若 J-motion"-disparity,则预测模式为视差补偿预测模式;若J-motion《J-disparity,则 预测模式为运动补偿预测模式;退出。
步骤4. 1:若多视角视频的相机系统为汇聚相机系统,则进行视图合成预测编码,并求 得相应的视图合成预测编码代价J-d印th;比较J-motion和J-d印th:若J-motion"-d印th, 则预测模式为视图合成预测模式;若J-motion《J-d印th,则预测模式为运动补偿预测模式 ;退出。
实施例
单视角视频有帧内预测编码的I、前向预测的P和双向预测的B三种图像,常用的预测结 构如图7所示初始时刻为帧内编码的10图像,以I0图像为参考图像预测编码P1图像,以IO 和P1为参考图像双向预测B1和B2图像,以此类推,编码顺序则为IO, Pl, Bl, B2, P2, B3, B4。改变I图像和P图像的放置位置或设置不同数目的连续B图像,可以产生不同格式的单视 角视频预测结构。 由于多视角视频存在三种不同的预测模式以及不同视角的多个视频序列,所以多视角视 频编码的预测结构就更加复杂多样。单视角视频在时间轴上把图像分为三种I、 P和B三种类 型,类似地,多视角视频在空间域上可分为三种类型的视频,S卩I视频、P视频和B视频。I视 频是指只利用视频序列内部时间轴上的图像为参考图像进行预测编码的视频序列,即与普通 的单视频序列采用相同的预测结构;P视频是指除了利用视频序列内部时间轴上的图像为参 考图像外还以邻近一个视角的视频图像为参考图像进行预测编码的视频序列;B视频与P视频 类似,但利用邻近两个视角的视频图像进行双向预测。
图8所示的是5个视角的视频序列的预测结构,中间视角的视频为I视频,最外侧两个视 角的视频为P视频,夹在中间的视频为B视频。沿着时间轴的水平方向的图像间的箭头表示运 动补偿预测,沿着垂直方向的不同视角图像间的箭头表示空间预测,包括视差补偿预测或 视图合成预测。图8所示的只是5个视角视频的预测结构的一种,改变I、 P和B视频类型的放 置位置以及视频序列内部I、 P、 B图像的位置,可得到各种不同的预测结构。
权利要求
1.多视角视频编码方法,其特征在于,包括以下步骤a、对一个或若干个视角的视频序列采用运动补偿预测进行独立编码;b、其它视频序列在视差补偿预测、视图合成预测、运动补偿预测三种预测模式中选择代价最小的来进行编码。
2.如权利要求l所述多视角视频编码方法,其特征在于,步骤b具体 包括以下步骤bl、在同一视角视频中求得图像的背景区域,并对待编码的编码块采用运动补偿预测 模式进行编码,求得相应的运动补偿预测编码代价;b2、判断待编码的编码块是否属于背景区域;若是,则采用运动补偿预测模式;若否 ,则进入步骤b3;b3、若多视角视频的相机系统为平行相机系统,进入步骤b4;若多视角视频的相机系统为汇聚相机系统,进入步骤b5;b4、进行视差补偿预测编码,求得相应视差补偿预测编码的代价,与步骤bl中求得的 运动补偿预测编码代价比较,选择代价较小的预测模式;b5、进行视图合成预测编码,求得相应视图合成预测编码的代价,与步骤bl中求得的 运动补偿预测编码代价比较,选择代价较小的预测模式。
3.如权利要求2所述多视角视频编码方法,其特征在于,在步骤b4中 ,当视差补偿预测编码代价大于或等于运动补偿预测编码代价时,采用运动补偿预测模式; 否则,采用视差补偿预测编码;在步骤b5中,当视图合成预测编码代价大于或等于运动补偿预测编码代价时,采用运 动补偿预测模式;否则,采用视图合成预测编码。
4.如权利要求l、 2或3任意一项所述多视角视频编码方法,其特征在 于,所述预测模式的代价采用拉格朗日代价函数计算J=D+XR;其中,J为代价;D为编码 失真;R为编码码率;入为拉格朗日乘子。
5.如权利要求4所述多视角视频编码方法,其特征在于,所述编码失 真采用平方差之和表示。
6.如权利要求4所述多视角视频编码方法,其特征在于,所述编码失 真采用绝对差值之和表示。
全文摘要
本发明涉及数字图像处理和视频编解码技术,具体涉及视图合成预测编码。本发明所要解决的技术问题是,提供一种能适用于不同相机系统的多视角视频编码方法。多视角视频编码方法,其特征在于,包括以下步骤a.对一个或若干个视角的视频序列采用运动补偿预测进行独立编码;b.其它视频序列在视差补偿预测、视图合成预测、运动补偿预测三种预测模式中选择代价最小的来进行编码。本发明使得视图编码得到更好的效果。
文档编号H04N7/26GK101170702SQ20071020265
公开日2008年4月30日 申请日期2007年11月23日 优先权日2007年11月23日
发明者张小云 申请人:四川虹微技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1