一种高压缩性能分层b预测结构配置方法

文档序号:7710131阅读:202来源:国知局

专利名称::一种高压缩性能分层b预测结构配置方法
技术领域
:本发明涉及视频编码领域,尤其涉及一种高压縮性能分层B预测结构配置方法。
背景技术
:数字视频与模拟视频相比,具有质量高、易处理、易校正、容量大、节目多等诸多优点。随着人们对视频质量需求的不断提升并得益于技术的进步,数字视频今已得到了越来越广泛的应用。然而,数字视频所包含的信息量非常大,对存储容量和传输网络的带宽要求很高。为使数字视频得到更有效的应用,压縮编码是首先需要解决的问题。为此,学术界和业界在视频压縮编码
技术领域
展开了广泛和深入的研究。目前,视频压縮编码的主要方法有基于波形的编码和基于内容的编码两大类。自上世纪80年代以来,国际标准组织(ISO)和国际电信联盟电信标准部(ITU-T)陆续推出了一系列数字视频压縮编码的国际标准,大大推动了视频通信和数字电视广播的发展。这些标准大多采用以预测编码、变换编码和熵编码为主的混合编码框架,属于基于波形的编码方法。2003年3月,ITU-T/ISO正式公布了视频编码标准H.264/AVC。H.264/AVC不仅显著提高了压縮性能,而且具有良好的网络亲和性,被人们称作新一代的视频编码标准。与以往的视频编码标准相比,H.264/AVC标准也是采用混合编码框架,但增添了很多特性。在这些特性中,图像层级的灵活性也是H.264/AVC获得高效性能的原因之一。数字视频信号由分布在离散时间上的一幅幅图像前后相继而成。由于邻近图像中的景物存在着一定相关性,可以采用帧间预测的编码方法。预测法是简单实用的压縮编码方法。帧间预测通过将当前编码的图像划分为若干块或宏块,设法搜索出每个块或宏块在邻近已编码图像中对应的位置,得到预测值。经过编码后,只需要传输预测值和实际值之差,达到压縮的效果。不采用帧间预测编码的图像称为I图,只采用一个参考图像进行编码的图像称为P图,而采用多个参考图像进行编码的图像称为B图。在采用H.264/AVC标准进行编码时,与以往的视频编码标准有很大区别的是,图像的编码顺序和显示顺序可以任意配置,而且任意图像包括双向参考的B图也可以用作参考。H.264/AVC还提供了强大的参考图管理功能,在运动估计中可以通过多参考帧预测来提供预测精度。这些灵活的特性使得视频编码时可以任意地选择预测结构,包括具有优异压縮性能的分层B预测结构。分层B预测结构在一个图像组中采用了若干个层级的B图,这些B图采用双向预测,且高层级的B图可用作低层级B图的参考。视频序列的第一个图像采用I图编码,在其后等间隔地采用关键图像。关键图像可采用I图或P图编码,一般采用I图编码。对关键图像而言,编码顺序在前的图像显示顺序也必然在前。位于这些关键图像之间的图像则采用分层级B图的编码方式。每个B图采用前向和后向比自身层级更高且最近的一个图像用作参考图。将关键图像视作最高层级,则第1层级的B图只能采用前后两个关键图像作为参考图,最低层级的B图不用做参考。一个关键图像以及它之前和上一个关键图像之后的所有B图组成一个图像组(GOP)。长度为L的GOP,拥有B图的数量为L-l个。与其他方式的时间方向上的预测结构相比,分层B结构能够显著地提高压縮性能。分层B预测结构不但在传统的视频应用领域内非常重要,也在一些前沿的视频应用和研究领域扮演着重要的角色,比如可分级视频编码和多视点视频编码。可分级视频编码是针对在日益增长的因特网业务中,不同用户所需的视频服务的种类和内容都不尽相同,因此视频编码技术需要在只编码一次的条件下能够以不同的码率和视频质量来满足不同的应用需求。分层B预测结构中各图像层级正好提供了时间上不同的分辨率。多视点视频编码是三维立体视频技术研究领域中的一项关键技术。多视点视频信号是由一组相机阵列从不同视点同时对场景进行拍摄,利用其中的1个或多个视点信息可以合成虚拟视点的信息,达到提供立体感观以及自由切换任意视点的目的。多视点视频信号的海量数据对压縮技术提出了更高的需求。由于分层B结构优越的压縮性能,多视点视频编码标准中采用其作为时间方向上的预测结构。HHI的学者最早提出了分层B预测结构,并就其压縮性能、编码延迟以及存储容量需求等各方面进行了分析。目前,已经有两种设定好的分层B预测结构被H.264/AVC的参考软件JM所支持,使用的方法为在JM的配置文件中将参数HierarchicalCoding分别设置为1和2。HierarchicalCoding等于1的分层B预测结构的配置方法为,将GOP中B图按照显示顺序的奇偶分类。距离该GOP之前的关键图像的间隔为奇数的B图,均不用作参考,且采用其紧邻的前后两个图像作为参考;距离该GOP之前的关键图像的间隔为偶数的B图,均用作参考,且层级按照显示顺序从前往后递降。HierarchicalCoding等于2的分层B预测结构的配置方法为,若GOP的长度为L,则划分B图的层级数/v4log2丄丄首先将所有的B图标注为最低层级;而后将距离该GOP之前的关键图像的间隔为21的正整数倍的B图作为倒数第二层级;如此类推,将距离该GOP之前的关键图像的间隔为2lv—2的正整数倍的B图作为第二层级;最后将距离该GOP之前的关键图像的间隔为2lv—1的正整数倍的B图作为第一层级。以上两种分层B预测结构的配置方法,均为二分法,即首先用一个B图将GOP划分为两个部分,该B图采用GOP首尾端的图像作为参考;而后又将这两个部分分别用一个B图划分为两个部分,分别采用各自部分首尾端的图像作为参考;如此往下进行直至无可划分。
发明内容本发明的目的是克服现有技术的不足,提供了一种高压縮性能分层B预测结构配置方法。高压縮性能分层B预测结构配置方法是采用递归的二分法对分层B预测结构进行配置,即首先用一个B图将图像组划分为两个子图像组,该B图采用图像组首尾端的图像作为参考,而后又将这两个子图像组分别用一个B图划分为两个更小的子图像组,分别采用各自部分首尾端的图像作为参考,如此往下进行直至无可划分;若图像组或子图像组长度为L,L>l,则将该图像组或子图像组划分为两个更小的子图像组的B图距离该图像组或子图像组首尾图像其中之一的距离应为2的整数次幂D工=2m,m为正整数且取值方法为令"4log2丄」—1,|_」代表向下取整,若L>2nX3,则m二n+l,否则m=n,该B图到首尾图像中另一个图像的距离为D2=L_Dlt)本发明提出的高压縮性能的分层B预测结构的配置方法与现有的两种配置方法相比,均是采用二分法递归进行划分,且配置难易度以及划分的规则性相当。但本发明中的配置方法是在对分层B预测结构的压縮性能进行数学建模的基础上,经动态规划搜索得到的最优预测结构,实验结果表明在各种图像组长度下本发明的配置方法具有更好的平均编码率失真性能。图1为一个典型的分层B预测结构示意图(图像组长度为8,拥有4个图像层级);图2(a)为news序列实际的归一化码率NR值与通过线性模型估计出来的数值之间的比较;图2(b)为basket序列实际的归一化码率NR值与通过线性模型估计出来的数值之间的比较;图3为图像组长度为8的一种分层B预测结构映射为二叉树的分步示意图;图4为图像组长度为8的另一种分层B预测结构映射为二叉树示意图;图5为图像组长度为8的最优二叉树的递归结构;图6为图像组长度为10的最优预测结构配置示意图。具体实施例方式高压縮性能分层B预测结构配置方法是采用递归的二分法对分层B预测结构进行配置,即首先用一个B图将图像组划分为两个子图像组,该B图采用图像组首尾端的图像作为参考,而后又将这两个子图像组分别用一个B图划分为两个更小的子图像组,分别采用各自部分首尾端的图像作为参考,如此往下进行直至无可划分;若图像组或子图像组长度为L,L>l,则将该图像组或子图像组划分为两个更小的子图像组的B图距离该图像组或子图像组首尾图像其中之一的距离应为2的整数次幂D工=2m,m为正整数且取值方法为令w4log2丄」一l,L」代表向下取整,若L>2nX3,则m二n+l,否则m=n,该B图到首尾图像中另一个图像的距离为D2=L_Dlt)分析和比较不同分层B预测结构的性能,以及寻求一个高压縮性能的预测结构,首先对其进行数学建模是一个有效的办法。视频编码预测结构对压縮性能所产生的影响主要取决于在帧间预测中对于邻近图像之间的相关性的发掘和利用。一般而言,在活动的视频图像序列没有发生场景突变或者场景周期性重复过程时,邻近图像之间的相关性都与其时间间隔有关,间隔越近,相关性越高,帧间预测编码取得的性能也越好。因此,将帧间预测编码图像的压縮码率表示为参考间隔的函数,可以在统计意义上保证其有效性。对于以图像组(GOP)的形式周期性重复的预测结构,其整体压縮性能可以表示为一个图像组中所有图像的码率之和。本发明采用如下的两参数模型来表示含有两个参考图像的B图的压縮码率RB=R工X(9,92logD2))(1)D工和D2表示B图的两个参考间隔,e工和e2为待估参数。RB和R工为在相同的编码条件下对同一图像分别进行B图编码和I图编码得到的输出输出码率。在使用H.264/AVC编码器得到不同的参考间隔下的数据后,通过最小二乘法估计参数,实验结果表明该模5型非常符合B图压縮码率的变化规律,如图2所示。图中标注为NR的实线代表着归一化的B图压縮码率IVX的实际数据,标注为LSE的虚线代表着通过最小二乘估计得到的线性模型产生的数值。选用的序列分别是分辨率为352x288的news以及分辨率为720x576的basket。横坐标代表了两个参考间隔和D2在GOP长度L=2,3...8时的各种组合情况。对于一个分层B预测结构,其整体压縮性能可表示为一个图像组(GOP)中所有B图的码率之和再加上I图的码率。GOP长度为L的分层B预测结构整体压縮性能如下式所示<formula>formulaseeoriginaldocumentpage6</formula>式中Dn和Di2分别表示第i(i=1...L-l)个B图的参考间隔。如果仅仅关注预测结构本身,且在相同的GOP长度下比较不同分层B预测结构之间性能的优劣,则可以省去(2)式中的参数,并且只保留最后一项,即所有B图参考间隔的乘积,如下式所示i-i<formula>formulaseeoriginaldocumentpage6</formula>使用(3)式,就可以非常方便地分析和比较任何分层B预测结构的压縮性能。且将其用作代价,可以使用动态规划的方法找出任何GOP长度下的最优预测结构。由于B图压縮码率的函数是单调递增的,所以采用二分法来配置分层B预测结构具有更好的压縮性能。即首先用一个B图将GOP划分为两个部分,该B图采用GOP首尾端的图像作为参考;而后又将这两个部分分别用一个B图划分为两个部分,分别采用各自部分首尾端的图像作为参考;如此往下进行直至无可划分。如果不采用二分法,假设某一次划分时,用两个B图将该部分划分为三个部分,这两个B图都采用该部分首尾端的图像作为参考。则可以将其改造为二分,使得其中一个B图在更小的部分中拥有更短的参考间隔,而获得更好的压縮性能。所以寻求最好压縮性能的分层B预测结构只需要在二分法配置结构中寻找。采用二分法配置的分层B预测结构可以映射为一一对应的二叉树。映射方法为,将GOP的长度作为树的根节点。在一个B图将GOP划分为两部分后,用根的两个子节点表示各部分的长度。如此继续划分,也继续用子节点的子节点来表示各部分的长度。图3展示了GOP长度为8的一种分层B预测结构映射为二叉树的分步示意图。图4展示了GOP长度为8的另一种分层B预测结构映射为二叉树的示意图。在二叉树上,各节点的值既是各子部分的长度,又是各B图的参考间隔。运用(3)式,分层B预测结构的压縮性能可以用二叉树上除去根之外的所有节点的值相乘再取对数来表示。在此基础上,运用动态规划的方法,可以方便地找出各个GOP长度下的最优预测结构对应的最优二叉树。任何一颗最优二叉树,必定是由递归的最优二叉子树所构成的。比如GOP长度L二8,对应二叉树的根为8,其下的子节点有4种可能(1,7),(2,6),(3,5),(4,4),如图5所示。对于每一种可能来说,都是由子节点作为根的最优子树构成的。因此当GOP长度为2到L-l的最优结构都已经得到时,可以方便地推出GOP长度为L的最优结构。将根的子节点所对应的一颗或两颗最优子树的代价(当子节点为1时,不存在子树),加上这对子节点的代价,就可以得到这种分法的总的代价。再从这L丄/2」:种分法中找出最好的一个,即得到GOP长度为L的最优二叉树以及最优预测结构。因为对数相加等于相乘再取对数,在计算代价时可直接使用乘法。令&为GOP长度为i时最优树的代价,对于GOP长度为L的最优树具体的推算方法如下(1)从GOP长度为2开始递推,此时只有一个B图,也只有一种预测结构,C2=11;(2)当&(i=2..丄_1)已经获得,(^可在如下数值中选取最小值获得1(L-l)Ch,2(L-2)C2CL—2,,(L/2)(L/2)CL/2CL/2(当L为偶数)或者((L-1)/2)((L+l)/2)C(h)/2Ca+1)/2(当L为奇数)。使用这种动态规划的方法,得出GOP长度为2到16的最优预测结构,将第一层级划分后左右子树的根(即左右部分的长度)列于下表表1G0P长度为2到16的最优树划分<table>tableseeoriginaldocumentpage7</column></row><table>该表中左子树和右子树的长度可以互换。由于是采用递归的二分法配置分层B预测结构,因此通过该表的查询就可以将GOP长度为2到16的任意长度饿最优结构配置出来。比如G0P长度为10,首先通过查询该表得知第一层级划分为4和6,而后再分别查询G0P长度为4和6应该如何划分,如此往下递推就可以配置出完整的预测结构,如图6所示。在某些特定的GOP长度上,通过最优树找出的预测结构与现有预测结构HierarchicalCoding=2是相同的(比如GOP长度为2的整数次幂时),但划分的准则却并不相同。再继续动态规划的过程可以推出GOP长度更大的最优分层B预测结构。通过总结以上模型所推出的最优分层B预测结构的划分规律,得到高压縮性能分层B预测结构配置方法。本发明的配置方法可以在H.264/AVC中添加C语言代码,作为一个附加的HierarchicalCoding选项实现;也可以通过将HierarchicalCoding设置为3,并在E邓licitHierarchyFormat参数中手动配置B图的层级来实现。就配置的难易度以及划分的规则性来看,本配置方法也与现有配置方法相当。使用H.264/AVC参考软件版本JM11.0进行编码,并与HierarchicalCoding设置为1和2的两种现有分层B预测结构进行比较,实验结果表明本发明的配置方法在各个GOP长度下比现有预测结构具有更好的平均编码率失真性能。实现结果比较表2新配置方法与原有配置方法实验结果比较<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>上表列出了不同分辨率的8个序列,在G0P长度为7,11,15时编码的实验结果。表中HCl代表HierarchicalCoding设置为1的分层B预测结构,HC2代表HierarchicalCoding设置为2的分层B预测结构。在GOP长度为7时,本发明的配置方法与HCl的预测结构相近,但是与HC2的预测结构相差较大,有平均0.ldB的增益;在GOP长度为11和15时,本发明的配置方法与HC2的预测结构要相近一些,但平均来看仍有增益,与HCl预测结构相比,相差越来越大,在GOP长度为15时,有0.10.4dB的增益。总的来看,本发明的配置方法具有更好的压縮性能。权利要求一种高压缩性能分层B预测结构配置方法,其特征在于包括采用递归的二分法对分层B预测结构进行配置,即首先用一个B图将图像组划分为两个子图像组,该B图采用图像组首尾端的图像作为参考,而后又将这两个子图像组分别用一个B图划分为两个更小的子图像组,分别采用各自部分首尾端的图像作为参考,如此往下进行直至无可划分;若图像组或子图像组长度为L,L>1,则将该图像组或子图像组划分为两个更小的子图像组的B图距离该图像组或子图像组首尾图像其中之一的距离应为2的整数次幂D1=2m,m为正整数且取值方法为令代表向下取整,若L≥2n×3,则m=n+1,否则m=n,该B图到首尾图像中另一个图像的距离为D2=L-D1。F2009101558832C00011.tif,F2009101558832C00012.tif全文摘要本发明公开了一种高压缩性能分层B预测结构的配置方法。本方法采用递归的二分法对分层B预测结构进行配置,将图像组用第一层级的B图划分为两个子图像组,其后再将长度大于1的各子图像组用更低层级的B图各自划分为更小的两个子图像组,如此递归直至划分结束,每次划分对于B图的选取通过简单表达式得出。本发明适用于任意图像组长度,与现有的配置方法相比,配置难易度以及划分的规则性相当。但本发明中的配置方法是在对分层B预测结构的压缩性能进行数学建模的基础上,经动态规划搜索得到的最优预测结构,实验结果表明在各种图像组长度下本发明的配置方法具有更好的平均编码率失真性能。文档编号H04N7/26GK101710987SQ20091015588公开日2010年5月19日申请日期2009年12月29日优先权日2009年12月29日发明者张明,朱政,李东晓申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1