交织模式下的视频分层编码方法

文档序号:7959725阅读:211来源:国知局
专利名称:交织模式下的视频分层编码方法
技术领域
本发明涉及视频分层编码方法,特别涉及交织模式下的视频分层编码方法。
背景技术
随着计算机互联网(Internet)和移动通信网络的飞速发展,多媒体压缩及通信技术的应用越来越广泛,从网上广播、电影播放到远程教学以及在线的新闻网站等都用到了流媒体技术。当前网上传送视频、音频主要有下载和流式传送两种方式。流式传送是连续传送视/音频信号,当流媒体在客户机播放时其余部分在后台继续下载。流式传送有顺序流式传送和实时流式传送两种方式。实时流式传送是实时传送,特别适合现场事件,实时流式传送必须匹配连接带宽,这意味着图像质量会因网络速度降低而变差,以减少对传送带宽的需求。
尤其是随着第三代移动通信系统(3rd Generation,简称“3G”)的出现和普遍基于网际协议(Internet Protocol,简称“IP”)的网络迅速发展,视频通信正逐步成为通信的主要业务之一。而双方或多方视频通信业务,如可视电话、视频会议、移动终端多媒体服务等,更对多媒体数据流的传送及服务质量提出苛刻的要求。不仅要求网络传送实时性更好,而且等效地也要求视频数据压缩编码效率更高。
鉴于媒体通信的需求现状,国际电信联盟标准部(InternationalTelecommunication Union Telecommunication Standardization Sector,简称“ITU-T”)继制定了H.261、H.263、H.263+等视频压缩标准后,并于2003年正式发布了H.264标准。这是ITU-T和国际标准化组织(InternationalStandardization Organization,简称“ISO”)的运动图像专家组(Moving PictureExperts Group,简称“MPEG”)一起联合制定的适应新阶段网络媒体传送及通信需求的高效压缩编码标准。它同时也是MPEG-4标准第10部分的主要内容。
制定H.264标准的目的在于更加有效地提高视频编码效率和它对网络的适配性。事实上由于其优越性,H.264视频压缩编码标准很快就已经逐渐成为当前多媒体通信中的主流标准。大量采用H.264标准的多媒体实时通信产品(如会议电视,可视电话,3G移动通信终端)和网络流媒体产品先后问世,是否支持H.264已经成为这个市场领域中决定产品竞争力的关键因素。可以预测,随着H.264的正式颁布和广泛使用,基于IP网络和3G、后3G无线网络的多媒体通信必然进入一个飞跃发展的新阶段。
最近,鉴于各种媒体业务服务质量的不同,MPEG-21希望发展一种高效率的视频分层编码标准(Scalable Video Coding,简称“SVC”)以适用于通用多媒体接入(Universal Multimedia Access,简称“UMA”)的目标,并计划将此标准纳入其第13部分。这种可调性编码器必须符合下列需求高信噪比,时域、空域、复杂度、感兴趣区域的可调性,基于对象以及组合可调性、错误强韧性、基本层(Base Layer,简称“BL”)兼容性、低传输延迟、随机存取功能、良好的编码效率、支技交织(interlaced)模式等等。
SVC是MPEG制定的最新编解码技术,可根据用途改变像素和帧速率。SVC已被定位于产品化进程正在迅速发展的H.264的扩展标准,其特点是根据终端种类和无线状态,改变分辨率与帧速率。分辨率与帧速率的多种组合,比如可在122Kbit~699Kbit/秒的范围改变编码数据速度。SVC的另一优点是只要准备一个视频源,就能发送给多个终端和服务。服务运营商得到的好处是能够有效运用存储设备。
SVC是一项十分具有吸引力的视频编码技术,它能够通过编码之后的处理来实现视频码流任意的裁减。视频分层编码的码流中包括一个基本层和一个以上的增强层(Enhanced Layer,简称“EL”)。在由ITU和MPEG联合制定的先进视频压缩标准(Advanced Video Coding,简称“AVC”)标准的SVC扩展部分中,规定基本层是可以和H.264/AVC兼容的。
从2005年1月的第MPEG71次会议到2006年底,MPEG与ITU-T联合标准制定工作组(Joint Video Team,简称“JVT”)将进行H.264/AVC的分层编码扩展SVC标准的制定工作,基本层兼容H.264主要框架,可以较好地实现空间(spatial)分层、时间(temporal)分层、质量(quality或信噪比SNR)分层、复杂度(complexity)分层等功能。另外,SVC标准还将引入交织(interlace)模式视频。
图1示出了其基本算法框图。当视频流数据进入编码器时,在经过二维的空间采样得到分辨率更低的图像作为基本层及各个低级的增强层,显然越底层的图像其时间或空间分辨率或者其他指标越低。在各个层面上,各自进行时间上的运动估计等独立的编码方式,在底层完成编码后的图像经过插值恢复到与上一层的图像相同的分辨率级别,在传给上一层,使得上一层核心编码器可以利用下一层的图像进行预测,提高编码效率。这就是SVC的层间预测编码的原理。在编码完成后多媒体源将各层复用在信道上发送,当然接收方也可以根据服务质量要求或带宽条件预订或临时选择接收各个层次媒体数据,高效实现UMA目的。
而在目前SVC编码中,层间信息的预测主要由纹理预测和运动信息预测两部份组成。层间纹理预测主要是利用基本层或前一层对应块的纹理信息来作为当前块的帧内预测信息的预测方式。如图2所示,为了得到高层中宏块对应的基本层预测信息,还需要对基本层对应位置上的块进行去块效应和插值。插值的比例根据基本层和增强之间空间分辨率的大小决定,这种模式也称为帧内基本层(intra_BL)模式,即根据同一时刻中,下一层的纹理信息进行预测。
这里需要提及的几个基本概念是普通的非分层的视频编码中,往往存在两种预测模式——帧内(intra)和帧间(inter),其中帧内预测不设计时间轴上前后帧的关联,而帧间即根据前一帧进行预测。这里SVC中只是新引入了一个层次的概念,但在同一层中,仍然依照传统的视频编码模式,因此为了区别帧内(intra)模式,采用帧内基本层(intra_BL)指示这里的层间同一时间点上下一层对上一层的预测模式。
与纹理信息不同的是,运动信息本身就涉及时间轴上前后帧的关系,但由于时间点上对应的各个层次之间的帧具有对应关系,因此运动信息也具有对应关系。于是,层间运动信息的预测也是利用基本层或前一层对应块的运动信息来作为当前块的运动信息的预测的方式。不过在对增强层的运动信息进行编码时,在H.264原有的编码模式下增加了2种新的宏块模式基本层模式和1/4象素精度模式。
当使用基本层模式时,当前宏块不必再传输更多的运动信息,直接代替无需预测。这种模式下将使用来自前一层对应宏块的运动/预测信息以及宏块分块信息。当前一层的空间分辨率较小时,运动矢量将被放大。如果前一层的对应宏块是一个intra宏块,那么当前宏块模式就被设置为intra_BL模式。对于当前宏块的各个分块,使用的参考帧索引与前一层中的对应宏块分区也是一致的。在增强层与其基本层之间,相应的运动矢量要乘以一个因子,该因子是与空间分辨率比例有关的。
而1/4象素精度模式一般只是在前一层的空间分辨率较小时使用。这种模式与基本层模式类似,宏块分区、参考帧索引和运动矢量的获得也与基本层模式一样。然而,对每个运动矢量,都会额外地传输一个1/4抽样值并叠加到运动矢量上。
上面详细介绍了SVC层间预测中纹理信息和运动信息两种预测模式的技术细节。但是需要提及的是以上的层间的预测方法都是在增强层和基本层以帧编码的模式下实现的。然而,新的标准中SVC将引入交织(interlace)模式时,对应的层间预测必需要进行一些改变才能适用或者不降低编码效率。
这里需要介绍SVC将要引入的交织模式的原理。交织模式是指在原先的前后两帧图像考虑到其相似性,将其合并为一帧进行编码以提高编码效率,这种交织模式在静止或运动缓慢的视频流中产生的效果非常好。比如视频流在时间轴上前后两幅图像经过采样得到垂直分辨率减半的半幅图像,然后两幅图像隔行交叉,得到交织后的图像,这个过程即称为交织,其中交织后的图像成为帧(frame),交织之前的半幅图像称为场(field)。
此外,还需要介绍宏块的概念,宏块就是帧中某小块图像,往往是编码处理过程的操作单位,比如是4×4。而在交织模式下,帧和场由于在垂直分辨率上相差一倍,因此宏块的对应关系也存在一倍的缩放。
现在要介绍交织模式下的两种编码方式,一种是基于宏块级别的帧、场编码模式自适应(MBAFF),另一种是基于场级别的帧、场编码模式自适应(PAFF)。注意,这里要需要引入两个概念即帧编码模式和场编码模式,分别是指统一编码和独立编码,其中帧编码模式(统一编码)是指两个场的对应内容一起编码,这种模式适应于静止图像流或者缓慢运动图像,而场编码模式(独立编码)是指两个场的对应内容独立编码,这种模式反之适应于运动剧烈的图像。这里帧编码模式和场编码模式只是借用帧和场的概念,不要和帧、场混淆。
可见,MBAFF和PAFF事实上只是一个编码级别的不同,基本原理完全一样,PAFF也可以看成以宏块为单位,只不过所有宏块的编码方式选择必须一致,而MBAFF则可以独立选择。
交织模式不仅可以在基本层实行,也可以在增强层实行。相对于交织模式(interlace,简称“i模式”),普通的称为串行模式(progress,简称“p模式”)。另外,由于引入交织模式,基本层和增强层的速率或帧率可能会不同,比如引入交织模式后的基本层速率会减半。
综上所述,在引入交织模式后,能够有效提高媒体流编码效率和压缩率,但是,由于i模式改变了该层(基本层或增强层)的内容结构,使得其与其他层可能产生不一致的对应内容或者速率,则对于原先的层间预测中的纹理信息或运动信息预测变得不实用。因此,需要提出一种在交织模式下层间运动和纹理预测的方法和设备,能够提高交织模式下的层间预测的效率,从而能够保证甚至提高SVC的压缩效率。
针对增强层和基本层不同的隔行interlace模式和逐行progress模式(帧模式)的组合,Vieron等人在文献[Vieron,Bottreau,Francois,Lopez,JVT-R014,Inter-layer prediction for scalable interlace/progressive videocoding,18th MeetingBangkok,January,2006]中给出了一个i模式下层间预测的总体方案,通过构建虚拟基本层(Virtual Base Layer,简称“VBL”)来完成层间各种模式之间的一个转换和对应,虚拟基本层保留了基本层的纹理和运动信息,同时又和增强层的帧场编码结构模式一样,有利于在不改变原来系统框架的基础上完成i模式下的层间预测。
该文中在基本层和增强层的组合为i->p时,即基本层是以i模式编码(包括PAFF模式和MBAFF模式),而增强层输入序列是逐行扫描的即以p模式编码,则从基本层预测增强层称为i->p。该文给出的虚拟基本层的形成过程如图3所示。
在图3中上面一部分的路径为非交织模式下的普通层间预测,这一部分与前面所述的过程相同,这里不再赘述;下一部分就是i->p模式下虚拟基本层的形成过程,注意到其中有一个合并(Merging)过程,首先在最左边为两种级别的i模式(上面为MBAFF、下面为PAFF)的基本层的场或帧中对应宏块位置的示意图,图中场假设为顶场(TOP)和底场(Bottom,简称“BOT”),然后经过合并的过程后得到一个与右侧EL增强层的结构一致的VBL虚拟基本层,VBL与EL的差别仅在于分辨率的缩放,因此一旦完成合并过程后,即可采用原先的p模式下的层间预测,即完成从VBL到EL的预测,而不需要改变现有的设备及其算法。
可见,该方法的关键在于如何实现合并步骤将i模式BL对应到VBL,文中给出的方法是以宏块为单位的根据编码方式(intra或inter)选择的方法,即根据不同场的对应宏块,按照其编码方式选择其中一个宏块放大后最为VBL对应宏块,这样可以在所有宏块中选择并垂直放大得到一个完整的VBL。
在实际应用中,上述方案存在以下问题在实际视频流压缩应用中,往往在i模式下的每帧所对应的场在时间轴上对应于实际视频的不同时间点,比如原先在p模式下的时间先后的连续两帧经过重采样形成两个场,再进行交织才对应为i模式下一个帧,这样的话i模式下的帧实际上包含的是时间点不同的两个图像的交织。
这就对于现有的基于VBL的预测框架带来问题,假设基本层每一帧包含一个顶场和一个底场,在基本层和增强层的对应中将会发现,当基本层的帧率和增强层相同时,每个基本层的帧对应一个增强层的帧,而基本层帧的两场并不都是和增强层对应帧在时间轴上对应的,只有一个场是和增强层对应的,另一个场则是夹在前后两个增强层帧的时间点中间。
根据原始序列顶场和底场采样时间点不同,假设时间点靠前的一场和增强层对应的帧对应,并假设是顶场靠前,则每个顶场对应的存在一个相同时间点的增强层的帧,而底场则不对应任何帧。根据层间预测的原理,应当最好使用相同时间点的帧进行预测,这样会更接近,特别是运动剧烈的情况下,如果采用时间点相差的帧预测,会得到适得其反的效果。可见,图3的现有技术中根据编码方式选择合并两场作为VBL预测的方法在运动剧烈的情况下可能会降低压缩编码效率。
此外,在i->p模式下,实际应用中往往增强层的帧率和基本层原先未交织前的帧率是一致的,即基本层的一帧对应增强层的两帧,其中顶场和底场在时间轴上分别对应一个增强层帧,而这种模式将是实际应用中使用得最广泛的模式。这种情况下,现有技术在两场中选择合并得到一帧VBL,将只能对应于一帧增强层,导致增强层另一帧没有基本层对应帧进行预测,无法实现层间预测,不利于压缩效率的提高。

发明内容
有鉴于此,本发明的主要目的在于提供一种交织模式下的视频分层编码方法,使得交织模式下层间预测的效率得以提高,进而提高视频压缩效率。
为实现上述目的,本发明提供了一种交织模式下的视频分层编码方法,包含以下步骤,A将交织后的当前层的帧拆分为场;B根据时间轴对应关系,确定与上层的帧的时间点一致的所述当前层的场;C用该场预测该对应的上层的帧,实现层间预测编码。
其中,所述当前层为基本层,所述上层为第一层增强层。
此外在所述方法中,所述步骤B中,当当前层与上层的帧速率一致时,当前层的每一帧所拆分的场中仅有一场与上层的帧对应,并用于层间预测;当当前层帧速率为上层帧速率的一半时,当前层的每一帧所拆分的两场中分别与上层的帧对应,并用于层间预测。
此外在所述方法中,还包含以下步骤,D根据待编码视频流数据的特点,判断决定直接用交织后的当前层的帧预测时间对应的上层的帧。
此外在所述方法中,所述步骤D中,当当前层与上层的帧速率一致时,当前层的每一帧仅与上层的一帧对应,并用于层间预测;当当前层帧速率为上层帧速率的一半时,当前层的每一帧与上层的前后连续每两帧对应,并用于层间预测。
此外在所述方法中,还包含以下步骤,根据所述步骤D和所述步骤C的两种层间预测编码的效率,自适应地选择效率最优的编码方式。
此外在所述方法中,所述步骤C中的层间预测包含以下子步骤,C1从所述用于层间预测的场所在当前层的帧中分割其纹理信息得到该场的纹理信息,然后使用视频分层编码的图像伸缩方法进行伸缩得到和上层的帧相同尺寸的帧的纹理信息,用于上层对应帧的纹理信息预测;C2从所述用于层间预测的场所在当前层的帧中分割其运动信息得到该场的运动信息,然后使用视频分层编码的图像伸缩方法进行伸缩得到和上层的帧相同尺寸的帧的运动信息,用于上层对应帧的运动信息预测。
此外在所述方法中,所述步骤C中的层间预测包含以下子步骤,C3先将所述用于层间预测的场所在当前层的帧用视频分层编码的图像伸缩方法进行伸缩,得到和上层的帧相同尺寸的帧,再从该帧分割其纹理信息得到该场的纹理信息,用于上层对应帧的纹理信息预测;C4先将所述用于层间预测的场所在当前层的帧用视频分层编码的图像伸缩方法进行伸缩,得到和上层的帧相同尺寸的帧,再从该帧分割其运动信息得到该场的运动信息,用于上层对应帧的运动信息预测。
此外在所述方法中,所述步骤C2或C4中的从当前层的帧的运动信息中拆分场的运动信息的过程包含以下步骤,如果该帧中对应宏块对是按“场编码模式”编码的,则将该宏块对各自的运动信息通过参考帧转换后分别直接复制给对应场。
此外在所述方法中,所述步骤C2或C4中的从当前层的帧的运动信息中拆分场的运动信息的过程还包含以下步骤,如果该帧中对应宏块对是按“帧编码模式”编码的,则合并该宏块对的运动信息,并复制给所有拆分的场,其中合并该宏块对的运动信息的步骤依据以下准则进行当该宏块对中有一个是帧内预测模式、另一个是非帧内预测模式时,合并得到的运动信息为无效;当该宏块对都是帧间预测模式时,首先对该宏块对进行垂直方向合并,使得合并得到的运动信息块的垂直长度至少为最小运动信息块垂直长度的两倍;且在合并所述帧间预测模式的宏块对时,若两宏块的参考帧不同,则取数值小的一个参考帧作为合并后的参考帧,而两宏块的运动矢量的平均值作为合并后的运动矢量。
此外在所述方法中,当当前层为非交织模式而上层为交织模式时,用当前层的前后连续两帧进行采样、交织操作得到一个当前层的交织帧,并用该帧预测上层的对应时间点的帧。
通过比较可以发现,本发明的技术方案与现有技术的主要区别在于,在i->p模式下,把基本层交织帧分拆成场,再按照时间轴对应关系,用时间对应的场预测增强层的帧,当然对于p->i模式,则反过来基本层中时间轴对应于增强层两场的连续两帧通过交织组合得到一帧,再预测增强层的交织帧,这一组合的过程刚好为拆分场的逆过程;对于不同特性——静止或者运动剧烈的视频流,提供可选的帧预测方法,即不选择将交织帧拆分成场,而直接用交织帧预测对应的增强层帧,这种预测模式在静止或运动缓慢的图像流中效率将会更高,因此还可以根据编码效率选择是否采用帧预测或者场预测;对于层间帧率一致的情况,采用时间对应的进行预测,而对于帧率不一致的情况,则可以采用时间轴上相邻的帧或场进行预测;在具体的层间预测过程中,用场来构成对应帧的预测信息,包括纹理,运动信息的具体形成,实现层间预测。
这种技术方案上的区别,带来了较为明显的有益效果,即根据时间轴对应的关系,用对应场来预测,可以达到更高的预测效率,从而提高压缩率,对于运动剧烈的图像而言效果更加明显,预测精度提高,压缩效率大大提高;而若可选地采用交织帧进行直接预测时间轴对应帧的方法,即可以用对应场预测、对应帧预测,以及帧场自适应的方法来预测,由于用帧预测比用场预测在静止情况下效果好,(因为帧的尺寸比场大,因此插值放大以后预测更精确),所以帧场自适应的方法不但适用于运动图像也适用于静止图像,可以自动的选择较佳的方式预测,达到层间预测的最高效率,同时可以简化系统降低复杂度;而对于纹理信息和运动信息的具体预测方法,则实现了场预测的目的,充分有效地利用基本层的运动和纹理信息,提高层间的预测效率,从而提高了系统的编码效率,保证系统可行性,提高系统可靠性和兼容性。


图1是SVC算法结构示意图;图2是非交织模式下SVC层间纹理预测原理示意图;图3是现有技术实现交织模式下SVC层间预测的原理示意图;图4是根据本发明的第一实施方式的帧速率一致情况下层间场预测原理示意图;图5是根据本发明的第二实施方式的帧速率不一致情况下层间场预测原理示意图;图6是根据本发明的第五实施方式的场编码模式下层间预测运动信息形成示意图;图7是根据本发明的第五实施方式的层间预测运动信息组合示意图;图8是根据本发明的第五实施方式的层间预测运动信息形成示意图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
在H.264/AVC的分层扩展部分SVC引入了交织模式后,层间信息预测有所改变,为了充分利用层间的对应信息,本发明描述了一种交织模式下层间预测方法,利用层间的对应关系,采用帧场分拆合并的方法,根据时间对应关系将帧场信息与增强层对应,然后进行层间预测。它能够提高层间预测的效率,从而提高系统的压缩效率。
本发明的基本原理就是根据时间对应关系来选择下层对上层的预测,由于引入交织模式后,基本层的交织帧实际上包含的两个不同时刻的场,因此根据场的时间点对应关系,选择时间点完全对应的一场(比如是顶场)来预测增强层的该时间点的帧,预测之前需要进行转换,首先要将顶场经过上采样转化为与基本层帧大小,然后插值放大成与增强层帧一般大小。这样预测大大提高了预测精度,即提高压缩效率,特别对于运动剧烈的图像流而言效果尤其明显。
在基于时间对应这一关键点之上,还有很多扩展的发明点,比如当增强层帧速率为基本层帧速率的两倍时,基本层的一个交织帧相对的有两个增强层的帧,这时候除了顶场以外,正好可以采用底场预测另外一个增强层的帧,这个方法对于这种速率不一致的情况非常合适,可以提高预测效率近一倍,优势非常明显,而且注意到底场与多出来的增强层的这一帧在时间点上应该也是一致的。
此外,考虑到视频流可能出现静止图像或缓慢运动序列,这种情况下基本层的两个场(顶场和底场)虽然在时间轴上有偏差,但内容变化非常小,这时候如果采用交织之后的整个帧来直接预测,效果将会更好,因为交织之后的帧不需要进行上采样,这样分辨精度不会降低,相对的只用一场来预测会好一些,因此本发明还提出采用可选的帧预测方法。同样的在处理器资源允许的情况下,还可以采用帧场自适应的机制,即同时用帧或场预测,然后根据预测结果选择效率最好的一种方式。
最后,本发明还设计了具体的层间预测方法,包括运动信息、纹理信息的转化、预测的步骤。另外,对于反过来p->i的模式,比如增强层经过交织,而基本层没有交织,则仅需将拆分为场的过程反过来,将基本层的连续两帧反过来,合并交织为一帧进行预测。
为了系统说明本发明的技术方案,下面按层次给出各个包含发明点的实施方式。
本发明的第一实施方式包含的最基本的发明点,即根据时间对应关系用基本层的场进行预测,以最常见的i->p模式,即基本层为i模式,增强层为p模式,基本层的帧由顶场和底场交织而成,基本层与增强层的帧率相同,即每帧基本层即对应一个增强层的帧。在该i->p模式下,本发明的层间预测过程距离如图4所示。
图4中假设基本层有5帧,则对应的增强层也有5帧,基本层每一帧由一个顶场和一个底场,在基本层和增强层的对应中,基本层的两场并不都是和增强层对应帧对应的,只有一场是和增强层对应的,根据原始序列顶场和底场采样时间点不同,时间点靠前的一场和增强层对应的帧对应。这里假设是顶场靠前,所以在层间预测时使用顶场信息。
图4中顶场用实线标注,底场用虚线标注。如前所述,由于顶场垂直分辨率为整帧的一半,因此再用顶场预测增强层的帧之前,需要先将顶场在垂直方向进行上插值,然后放大到增强层的分辨率,才能进行预测。
整个过程包含三个基本步骤将交织后的基本层的帧拆分为场,顶场和底场;根据时间轴对应关系,确定与增强层的帧的时间点一致的场,这里假设是顶场,实际应用中根据时间顺序确定;用该场预测该对应的增强层的帧,实现层间预测编码。
熟悉本领域的技术人员可以理解,这里实施方式的表述中许多都为表述方便采用最常见的配置,但实际应用中可以有其他配置,比如基本层预测增强层可以是上下两个增强层之间的预测,交织帧拆分之后可以有多个场,以及时间对应的场也可以使底场等,这些情况下均能实现发明目的,不影响本发明的实质和范围。
在i->p模式下,当增强层和基本层帧率不一致时,比如基本层的帧率为增强层的一半时,按照时间顺序每个增强层的帧对应一个基本层的场,这种模式将是实际应用中使用得最广泛的模式。因此图4中增强层每一帧之间就会再增加一帧,然而这些增加的帧就会出现没有基本层对应帧的情况,也就没有层间预测,不利于压缩效率的提高。
因此在本发明的第二实施方式中,针对帧速率不一致的情况,给出利用底场和顶场各自预测对应增强层的帧的方法,即顶场还是对应原先的帧,底场采用对应的方法去预测多出来的增强层的帧。如图5所示,按照实际时间顺序将各帧依次对齐,并将基本层按照顶场和底场分开显示,基本层中实线表示顶场,虚线表示底场,带箭头的虚线表示底场与顶场分拆开,按时间顺序对齐。根据原始序列顶场和底场采样时间点的前后,时间在前的放在前面,这里假定顶场在前。在这种情况下,可以直接用基本层每一场与增强层对应的帧作层间预测。
图5中基本层的0,1,2,3,4帧与增强层的0,2,4,6,8帧对应,现在不但可以用原来增强层对应基本层的帧预测,还可以利用0,1,2,3,4帧的顶场,直接用顶场的信息来形成增强层的预测信息,包括纹理和运动信息。
图5中的增强层1,3,5,7帧在现有方案中由于没有对应帧是没有层间预测的,但是由于基本层帧的分拆,是可以找到其在在时间上对应帧的,基本层1,2,3帧的底场可以分拆来作为增强层3,5,7帧的基本层对应帧,从而形成层间预测。由于不能跨画面群组(Group of Pictures,简称“GOP”)预测,基本层0帧不能分拆作为增强层1帧的层间预测帧。同样基本层第4帧也不能分拆作为下一个增强层GOP的预测帧。
前已述及,在视频流为运动图像时,时间轴上的对应关系会给层间预测带来更好的效果,但视频流多为静止或者运动缓慢的图像序列时,时间轴上的偏移不会带来太大的变化,也就是说交织以后的两场图像差别不大,因此经过交织的整帧图像可以代表当前时刻的图像,因此本发明采用整帧图像进行层间预测,这样对比场的情况的好处是,不需要进行上采样,垂直分辨率没有牺牲,而且降低复杂度,简化系统。
由于场信息在时间上和增强层对应帧是一致的,所以对于运动的基本层交织序列,使用顶场预测效果要好,而对于静止的序列使用帧预测效果较好。因此本发明的第三实施方式中,包括三种可选的方案直接使用对应帧预测的方法,用基本层0,1,2,3,4帧来预测增强层的0,2,4,6,8帧,没有分拆成场,这种情况适合于静止图像序列;直接使用对应场预测的方法,用基本层0,1,2,3,4帧的顶场来预测增强层的0,2,4,6,8帧,底场则预测3、5、7帧,这种情况适合于运动图像序列;另外,还可以采用自适应的帧场预测机制,使用帧还是场进行预测,可以进行自适应条件的判别,例如判断编码效率方法,用帧和场分别进行预测并对增强层对应帧编码,取编码效率最高的一种。或者根据基本编码模式的判断方法,当基本层是PAFF时,如果采用场编码,说明运动比较大,用场预测比较好,反之用帧预测;当基本层是MBAFF时,通过统计基本所有层宏块对按照场编码模式的比例β,当β大于某个比例时,例如50%,时说明运动比较大,用场预测,反之用帧预测。这种方法虽然耗费处理器资源,但是能够达到最优层间预测和压缩效率。
注意到,上述方案中对于用帧预测的情况,如果基本层和增强层的帧速率相差一倍时,增强层中多出来的帧将会没有对应的帧进行预测,因此本发明的第四实施方式中,采用同一个帧进行两次预测,即一个基本层的交织帧对应两个增强层中前后连续的帧,这种方法是合理的,因为采用帧预测的前提是图像序列多为静止或变化缓慢,因此增强层上前后连续两帧差异很小,完全可以用同一个基本层的交织帧预测。
可见,层间预测中,一般运动的序列,使用场预测效果较好,静止的序列使用帧效果较好,增强层3,5,7帧同样可以选择基本层1,2,3帧或者其底场作为基本层的对应帧。
以下描述本发明的第五实施方式,该实施方式在前述实施方式的基础上,详细给出了纹理信息及运动信息组合的技术细节,这是层间预测过程的关键步骤。
根据前面的方法,可以获得增强层每一帧对应基本层的帧或场(图5中增强层1号帧在边界外),当选择基本层的场作为对应帧时,与现有SVC编码系统中只能用帧作参考有所不同,因为场从帧中分拆开来,纹理和运动信息需要在垂直方向减少一半,而作为预测信息必须要与增强层对应的帧要保持对应,所以存在一个下采样、上采样、模式对应的过程,这一过程前面已经述及。这一过程中涉及到的纹理信息和运动信息的转换就是下面实施方式中提到的内容,包括预测纹理信息的形成和场预测运动信息的形成。
(1)场预测纹理信息的形成场的纹理信息可以很容易从所在帧中分割出来,然后可以直接使用SVC的图像放缩方法,在增强层和基本层水平和垂直方向的比例因子为Fh和Fv时,对基本层场在图像级进行Fh和Fv*2的大小进行放缩,从而得到和增强层同样大小的帧,然后进行层间纹理的预测。
(2)场预测运动信息的形成与纹理类似首先在基本层帧到场模式的分拆时,先形成帧到场的运动模式分割,然后进行运动信息的缩放形成增强层的对应预测信息。具体的说,基本层场的运动信息可以按照如下方法从帧中分拆获得a.如果帧中对应宏块对是按照场编码的,就直接分别拷贝基本层宏块对顶场和底场的运动矢量和块模式给对应场,如图6所示;b.如果帧中对应宏块对是按照帧编码的,说明该宏块对运动不剧烈,顶场、底场纹理接近一致,两场的运动信息交织在一起,这时判断两场的运动信息相同。当帧中宏块对都是INTRA预测时,顶场和底场的预测模式也是INTRA模式。
当帧中宏块对有一个是INTRA模式,另外一个不是INTRA模式时,顶场和底场的运动模式为无效模式,即没有预测运动信息。
当帧中宏块对都是INTER预测时,首先对帧中宏块对的运动矢量进行垂直方向合并和归类,去处在垂直方向上长度为4的块,统一合并成垂直方向上长度至少为8的块,原理如下图7所示。
合并时,上下两块如果参考帧不同,就取其中数值较小的一个,运动矢量取上下两块的平均值。通过合并之后,帧和场的运动信息就可以产生对应关系,场宏块中的运动信息可以拷贝宏块对中的对应块的信息。合并是为了拆封时至少能对应场中的一块,如宏块对中存在大小为x×y的块(y>4),则对应的场宏块中的块为x×(y/2),除了在垂直方向上分块信息要除以2之外,场宏块将拷贝对应宏块对中的所有运动信息。
宏块中的对应关系如图8所示,将宏块对分割成形成四个8×16的小块,然后按照下图方式分别拷贝顶场和底场的运动矢量和块模式给对应场的小块。然后可以直接使用SVC的运动信息放缩方法,在增强层和基本层水平和垂直方向的比例因子为Fh和Fv时,对基本层场运动信息进行Fh和Fv*2的大小进行放缩,从而得到和增强层同样大小的帧。然后进行层间运动信息的预测。
本发明的第六实施方式针对第五实施方式中增强层帧的运动信息预测,采用反过来的流程,即先进行放大,然后在这个分辨率级别上操作。具体的说就是在场运动信息形成增强层帧运动信息预测时,先用SVC的运动信息放缩方法,使场大小和帧大小一样,然后再进行运动矢量的合成和对应,具体的步骤和方法与上述第五实施方式相同,仅仅所在分辨率级别不同。
前面针对将来SVC的交织模式应用最广的情况下,即基本层是交织模式,增强层是帧编码模式,而且增强层和基本层帧率一样,给出解决方案。前已述及,实际应用中交织模式还可能是高层使用底层不同,比如基本层为p模式,增强层为i模式,即p->i,针对这种情况,本发明第七实施方式给出解决方案,即用基本层的连续两帧通过采样、交织的流程得到交织组合后的一个基本层交织帧,用这一帧去预测增强层的对应帧。
熟悉本领域的技术人员可以理解,前面以常见的配置描述的各种情况下的上下层层间预测的视频编码压缩方法,在实际应用中各种情况比如可以是底层增强层与上层增强层之间,或者上下层速率不一致情况,或者上层为i模式下层为p模式等等,包括各种参数的配置都可以不同,但采用本发明的方案可以实现发明目的,精确完成层间预测,针对运动剧烈或缓慢静止图像均提高视频编码压缩效率,降低系统复杂度,简化编解码机制。
虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
权利要求
1.一种交织模式下的视频分层编码方法,其特征在于,包含以下步骤A将交织后的当前层的帧拆分为场;B根据时间轴对应关系,确定与上层的帧的时间点一致的所述当前层的场;C用该场预测该对应的上层的帧,实现层间预测编码。
2.根据权利要求1所述的交织模式下的视频分层编码方法,其特征在于,所述当前层为基本层,所述上层为第一层增强层。
3.根据权利要求1所述的交织模式下的视频分层编码方法,其特征在于,所述步骤B中,当当前层与上层的帧速率一致时,当前层的每一帧所拆分的场中仅有一场与上层的帧对应,并用于层间预测;当当前层帧速率为上层帧速率的一半时,当前层的每一帧所拆分的两场中分别与上层的帧对应,并用于层间预测。
4.根据权利要求3所述的交织模式下的视频分层编码方法,其特征在于,还包含以下步骤,D根据待编码视频流数据的特点,判断决定直接用交织后的当前层的帧预测时间对应的上层的帧。
5.根据权利要求4所述的交织模式下的视频分层编码方法,其特征在于,所述步骤D中,当当前层与上层的帧速率一致时,当前层的每一帧仅与上层的一帧对应,并用于层间预测;当当前层帧速率为上层帧速率的一半时,当前层的每一帧与上层的前后连续每两帧对应,并用于层间预测。
6.根据权利要求5所述的交织模式下的视频分层编码方法,其特征在于,还包含以下步骤,根据所述步骤D和所述步骤C的两种层间预测编码的效率,自适应地选择效率最优的编码方式。
7.根据权利要求6所述的交织模式下的视频分层编码方法,其特征在于,所述步骤C中的层间预测包含以下子步骤,C1从所述用于层间预测的场所在当前层的帧中分割其纹理信息得到该场的纹理信息,然后使用视频分层编码的图像伸缩方法进行伸缩得到和上层的帧相同尺寸的帧的纹理信息,用于上层对应帧的纹理信息预测;C2从所述用于层间预测的场所在当前层的帧中分割其运动信息得到该场的运动信息,然后使用视频分层编码的图像伸缩方法进行伸缩得到和上层的帧相同尺寸的帧的运动信息,用于上层对应帧的运动信息预测。
8.根据权利要求6所述的交织模式下的视频分层编码方法,其特征在于,所述步骤C中的层间预测包含以下子步骤,C3先将所述用于层间预测的场所在当前层的帧用视频分层编码的图像伸缩方法进行伸缩,得到和上层的帧相同尺寸的帧,再从该帧分割其纹理信息得到该场的纹理信息,用于上层对应帧的纹理信息预测;C4先将所述用于层间预测的场所在当前层的帧用视频分层编码的图像伸缩方法进行伸缩,得到和上层的帧相同尺寸的帧,再从该帧分割其运动信息得到该场的运动信息,用于上层对应帧的运动信息预测。
9.根据权利要求7或8所述的交织模式下的视频分层编码方法,其特征在于,所述步骤C2或C4中的从当前层的帧的运动信息中拆分场的运动信息的过程包含以下步骤,如果该帧中对应宏块对是按“场编码模式”编码的,则将该宏块对各自的运动信息通过参考帧转换后分别直接复制给对应场。
10.根据权利要求9所述的交织模式下的视频分层编码方法,其特征在于,所述步骤C2或C4中的从当前层的帧的运动信息中拆分场的运动信息的过程还包含以下步骤,如果该帧中对应宏块对是按“帧编码模式”编码的,则合并该宏块对的运动信息,并复制给所有拆分的场,其中合并该宏块对的运动信息的步骤依据以下准则进行当该宏块对中有一个是帧内预测模式、另一个是非帧内预测模式时,合并得到的运动信息为无效;当该宏块对都是帧间预测模式时,首先对该宏块对进行垂直方向合并,使得合并得到的运动信息块的垂直长度至少为最小运动信息块垂直长度的两倍;且在合并所述帧间预测模式的宏块对时,若两宏块的参考帧不同,则取数值小的一个参考帧作为合并后的参考帧,而两宏块的运动矢量的平均值作为合并后的运动矢量。
11.根据权利要求1至8中任一项所述的交织模式下的视频分层编码方法,其特征在于,当当前层为非交织模式而上层为交织模式时,用当前层的前后连续两帧进行采样、交织操作得到一个当前层的交织帧,并用该帧预测上层的对应时间点的帧。
全文摘要
本发明涉及视频分层编码方法,公开了一种交织模式下的视频分层编码方法,使得交织模式下层间预测的效率得以提高,进而提高视频压缩效率。本发明中,在i->p模式下,把基本层交织帧分拆成场,再按照时间轴对应关系,用时间对应的场预测增强层的帧;对于p->i模式,则把基本层中时间轴对应于增强层两场的连续两帧通过交织组合得到一帧,再预测增强层的交织帧;对于不同特性的视频流,提供可选的帧预测方法,即不选择将交织帧拆分成场,而直接用交织帧预测对应的增强层帧;对于层间帧率一致的情况,采用时间对应的进行预测,而对于帧率不一致的情况,则可以采用时间轴上相邻的帧或场进行预测。
文档编号H04N7/26GK101047860SQ20061007344
公开日2007年10月3日 申请日期2006年3月27日 优先权日2006年3月27日
发明者谢清鹏, 熊联欢, 林四新, 曾鹏鑫, 周建同 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1