用于编码双向预测视频对象面的方法及其解码装置的制作方法

文档序号:7591808阅读:171来源:国知局
专利名称:用于编码双向预测视频对象面的方法及其解码装置的制作方法
技术领域
本发明涉及为数字视频序列中包括视频对象面的视频图像提供时间和空间缩放的方法和装置。特别是提出一种适用于可缩放帧模式或场模式视频的运动补偿方案。也提出一种利用空间变换如离散余弦变换(DCT)对场模式视频进行自适应压缩的方案。
背景技术
本发明尤其适用于各种多媒体应用,且与此处作为参考引用的文献ISO/IEC/JTC1/SC29/WG11 N1642中标题为″MPEG-4视频校验模式7.0版″,1997年4月,所描述的MPEG-4校验模式(VM)7.0标准兼容。本发明还可提供立体视频编码、画中画、预览频道和异步传输模式(ATM)传送。
MPEG-4是一种提供灵活框架及用于对数字音频视频数据进行传送、访问和操作的开放式编码工具集合的新编码标准。这些工具支持广泛的特征。MPEG-4灵活的框架支持编码工具的各种组合及其由计算机、远程传送和娱乐(如,电视和电影)业所要求应用的相应功能,如数据库浏览、信息检索和交互式传送。
MPEG-4提供标准核心技术,允许在多媒体环境中高效存贮、发送和操纵视频数据。MPEG-4取得高效的压缩、目标缩放、空间和时间缩放及误差回弹。
MPEG-4视频VM编码器/解码器(编码解码器)是带有运动补偿的基于块和目标的混合编码器。通过采用重叠块运动补偿用9×9DCT对纹理进行编码。目标形状被表示为alpha图并利用基于内容的算术编码(CAE)算法或改进的DCT编码器进行编码,二者均利用时间预测。该编码器可处理由计算机图形得到的子图形。其它编码方法,如小波和子图形编码,也可用于特殊应用。
运动补偿纹理编码是众所周知的视频编码方法。该方法可构造成三级过程模型。第一级是包括运动估计和补偿(ME/MC)和二维空间变换的信号处理。ME/MC和空间变换的目标是利用视频序列中时间和空间相关性优化复杂限制情况下量化和熵编码的率失真性能。最常见的ME/MC技术是块匹配,最常见的空间变换是DCT。然而,对于任意形状VOP边界块的ME/MC和DCT编码产生特殊的关注。
MPEG-2主要轮廓是MPEG-4标准的前身,且在文献ISO/IECJTC1/SC29/WG11 N0702中,标题为″信息技术-运动图像和相关音频通用编码,建议H.262″,1994年3月25日,中描述,此处作为参考文献引用。对MPEG-2主要轮廓进行可缩放延伸已被定义,其为两个或更多独立位流或层提供。每一层可被结合以形成单个高质量信号。例如,基层可提供低质量视频信号,而增强层提供可增强基层图像的附加信息。
尤其是,时间和空间可缩放可提供不同视频标准或解码器功能间的兼容性。通过空间可缩放,基层视频可具有比输入视频序列低的空间分辨率,在该情况下,增强层载有将基层分辨率恢复到输入序列的分辨率水平的信息。例如,对应国际电信联盟-无线电部(ITU-R)601标准(分辨率720×576像素)的输入视频序列可载于对应公共交换格式(CIF)标准(分辨率360×299像素)的基层。在该情况下,增强层载有被解码器用来将基层视频恢复到ITU-R601标准的信息。或者,增强层可能具有减小的空间分辨率。
利用时间可缩放,基层可具有比输入视频序列低的时间分辨率(即,帧频),而增强层载有丢失帧。当在解码器结合时,原有的帧频可被恢复。
因此,期望提供用于视频信号(包括视频对象面(VOP),如用于MPEG-4标准中的)编码的时间和空间可缩放功能。期望具备立体视频编码、画中画、预览频道和异步传输模式(ATM)传送功能。
还期望具有较低复杂性和低成本的编码解码器设计,其中,搜索范围被减小,用于对双向预测VOP(B-VOP)进行增强层预测编码的运动估计。还期望在确定残余并对数据进行空间转换之前通过自适应重排序增强层VOP的像素线对交错视频输入信号进行高效编码。本发明提供一具备上述和其它优点的系统。

发明内容
根据本发明,提出一种为数字视频序列中的视频图像如视频对象面提供时间和空间的缩放的方法和装置。VOP可包括整个帧和/或帧的子集,且可为任意形状。此外,多个VOP可在一帧中提供或瞬时重合。
按照本发明的一个方面,提出一种用于对包含视频对象面(VOP)的输入视频序列进行缩放的方法,用以在相应的基层和增强层中进行传送,其中,向下取样数据被载于基层。输入视频序列中的VOP具有相关的空间分辨率和时间分辨率(例如帧频);输入视频序列的第一特定VOP的像素数据被向下取样,以提供具有减小的空间分辨率的第一基层VOP;第一基层VOP的至少一部分的像素数据被向上取样,以在增强层提供第一向上取样VOP;第一向上取样VOP利用输入视频序列的第一特定VOP被进行差分编码,且被提供于增强层中对应于第一基层VOP的时间位置;差分编码包括根据第一向上取样VOP的像素数据与输入视频序列的第一特定VOP的像素数据间的差确定残余的步骤,残余利用例如DCT被空间转换以提供转换因子;其中输入视频序列的VOP是场模式VOP时,若像素数据行满足重排序准则,差分编码包括在确定残余之前,将第一向上取样VOP的像素数据行重排序为场模式。该准则是,是否对立场行(例如,奇对偶,偶对奇)的亮度值之差的和值大于相同场行(奇对奇,偶对偶)的亮度数据之差与偏差项的和值。
第一基层VOP的向上取样像素数据可为整个第一基层VOP的子集,以致于未向上取样的第一基层VOP的余下部分比已向上取样的像素数据具有较低的空间分辨率。
第二基层VOP和增强层中的向上取样VOP可以类似方式提供。第一基层VOP和第二基层VOP之一或两者可被用于预测对应于第一和第二向上取样VOP的中间VOP。中间VOP被编码,用于在增强层中进行第一和第二向上取样VOP间的传送。
而且,当在第一和第二基层VOP间无中间基层VOP时,增强层可能比基层具有较高的时间分辨率。
在特定应用中,基层和增强层提供画中画(PIP)功能(其中,PIP图像被载于基层),或预览频道功能(其中,预览图像被载于基层)。在此应用中,可以接受PIP图像或自由预览图像具有减少的空间和/或时间分辨率。在ATM应用中,较高优先级、低比特率数据可在基层中提供,而较低优先级、高比特率数据可在增强层中提供。在此情况下,基层被分配一保用带宽,但增强层可能偶然丢失。
一种用于对包括视频对象面的输入视频序列进行可缩放的方法(其中,向下取样数据被载于增强层,而不是基层)被提出。通过此方法,输入视频序列的第一特定VOP被作为第一基层VOP提供于基层,例如不改变空间分辨率。至少一部分第一基层VOP的像素数据被向下取样,以在增强层中对应于第一基层VOP的时间位置提供相应的第一向下取样VOP。第一特定VOP的相应像素数据被向下取样,以提供一比较VOP,且第一向下取样VOP利用比较VOP被差分编码。
基层和增强层可提供立体视频功能,其中,增强层中的图像数据比基层中的图像数据具有较低的空间分辨率。
一用于对双向预测视频对象面(B-VOP)编码的方法也被提出。对应输入视频序列VOP的第一和第二基层VOP被提供于基层中。第二基层VOP是P-VOP(其可根据运动向量MVP从第一基层VOP预测)。B-VOP被提供于增强层中第一和第二基层VOP之间。
B-VOP利用通过对运动向量MVp按缩放所得的向前运动向量MVf和向后运动向量MVB中的至少一个编码。此高效编码技术避免需在参考VOP中进行独立的耗时的搜索。时间间隔TRP分离第一和第二基层VOP,而时间间隔TRB分离第一基层VOP和B-VOP。
比值m/n被定义为第一和第二基层VOP的空间分辨率与B-VOP的空间分辨率的比值。即,基层VOP或增强层中的B-VOP可相对输入视频序列的VOP以比值m/n被向下取样。假定基层或增强层VOP与输入视频序列具有相同的空间分辨率。向前运动向量MVf根据关系式MVf=(m/n)·TRB·MVP/TRP确定,向后运动向量MVb根据关系式MVb=(m/n)·(TRB-TRP)·MVP/TRP确定。m/n是任一正数,包括分数值。
B-VOP利用第一基层VOP的搜索区(其中心根据向前运动向量MVf确定)和第二基层VOP的搜索区(其中心根据向后运动向量MVB确定)编码。
相应的解码器方法和装置也被提出。


图1是根据本发明的视频对象面(VOP)编码和解码过程图。
图2是根据本发明的VOP编码器和解码器框图。
图3是根据本发明的像素向上取样图。
图4是基层与增强层VOP间预测过程的示例图。
图5是根据本发明的VOP空间和时间缩放图。
图6描述根据本发明由帧到场模式像素行重排序。
图7是根据本发明的带有空间和时间缩放的画中画(PIP)或预览频道应用图。
图8是根据本发明的立体视频应用图。
具体实施例方式
提出一种为数字视频序列中包括视频对象面的视频图像提供时间和空间缩放的方法和装置。
图1描述了根据本发明的对视频目标进行编码和解码过程的图。帧105包括三个图形单元,包括方形前景单元107,椭圆形前景单元109,和背景单元109。在帧115中,该单元是采用分段掩膜设计,从而VOP117代表方形前景单元107,VOP118代表椭圆形前景单元109,VOP119代表背景单元109。VOP可具有任意形状,一系列VOP被称作一视频目标。一整个矩形视频帧也可被称作一VOP。由此,术语″VOP″在此处使用以表明任意或非任意图像区域形状。可利用已知技术获得分段掩膜,且具有类似于ITU-R601亮度数据的格式。每一像素被确认为属于视频帧中某一区域。
帧105和来自帧115的VOP数据被提供给独立的编码功能。尤其是,VOP117、118和119分别在编码器137、139和139处进行形状、运动和纹理编码。通过形状编码,二进制和灰度级形状信息被编码。通过运动编码,利用一帧中的运动估计来编码形状信息。通过纹理编码,进行空间变换如DCT以获取可被变长编码而用于压缩的变换系数。
编码的VOP数据此后在多路器(MUX)140结合以通过信道145传输。或者,该数据可被存贮于记录媒质。所接收到的编码VOP数据通过解多路复用器150分离,以便被分离的VOP117-119被解码并恢复。帧155、165和175分别示出VOP117、118和119已被解码和恢复,且由此可利用合成器160(其例如与视频库170接口)各自独立处理。
合成器可为一例如可安放于用户家中的个人计算机以允许编辑所接收的数据从而提供特制的图像。例如,用户的个人视频库170可包括先前存贮的与所接收VOP不同的VOP179(例如,一个圆)。用户可制作其中圆形VOP179替换方形VOP117的帧195。帧195由此包括所接收的VOP118和119,和当地存贮的VOP179。
在另一例中,背景VOP109可由用户所选择的背景取代。例如,当观看电视新闻时,播讲员可被作为与背景,如新闻演播室分离的VOP编码。用户可由库170或其它电视节目,如带有股票价格或天气信息的频道,选择背景。用户由此可作为视频编辑者。
视频库170也可存贮通过信道145所接收的VOP,且可通过网络如Internet访问VOP或其它图像单元。
可以理解,帧105可能包括不是VOP的区域,由此不能被独立操作。而且,帧105无需具有VOP。通常,一视频段可包含单个VOP,或一个VOP序列。
图1中的视频目标编码和解码过程可带来许多娱乐、商业和教育应用,包括个人计算机游戏、虚拟环境、图形用户界面、可视会议、Internet应用及其它。尤其是,根据本发明的VOP时间和空间缩放的能力可提供更强大的功能。
图2是根据本发明的视频目标编码器和解码器的框图。编码器201,其对应图1所示单元137-139,包括接收输入视频数据序列″in″的可缩放预处理器205。为对比增强层具有较低空间分辨率的基层取得空间缩放,″in″被空间向下取样,以获得信号″in_0″,它又通过路径217被提供给基层编码器220。″in_0″在基层编码器220处编码,且被编码的数据被提供给多路器(MUX)230。MPEG-4系统和描述语言(MSDL)MUX可被使用。
应注意,当输入视频序列″in″是场(交错)模式时,由于向下取样不保留奇和偶场的像素数据,向下取样信号″in_0″将处于帧(顺序)模式。当然,″in″为帧模式时,″in_0″也将处于帧模式。
经路径218将重建的图像数据从基层编码器220提供给完成像素向上取样的中处理器215,联系图3下文将详细描述。处于帧模式的向上取样图像数据此后经路径212提供给增强层编码器210,在其中利用从预处理器205经路径207提供给编码器210的输入图像数据进行差分编码。具体说,该向上取样像素数据(例如,亮度数据)从输入图像数据中减去以获得残余,此后利用DCT或其它空间变换可对该残余编码。
根据本发明,当输入视频序列为场模式时,通过将对应输入视频序列的初始偶(顶部)和奇(底部)场的向上取样增强层图像的像素行分组,编码效率可被提高。这样在某些情形下可减小残余幅度,因为一场内的像素数据与相同场内其它像素数据常具有比对立场数据更大的相关性。因此,通过减小残余的幅度,更少的比特被要求用于对图像数据编码。参考图6和相关讨论,下面进行更详尽的描述。
增强层中向上取样图像的编码残余被提供给MUX230,用以通过信道245与基层数据一起传输。或者数据可本地存贮。注意,MUX230、信道245和DEMUX250分别对应图1中的单元140、145和150。
注意,从基层编码器220提供给中处理器215的图像数据可为整个视频图像,如全帧VOP,或为整个图像一子集的VOP。而且,多个VOP可提供给中处理器215。MPEG-4目前支持到256VOP。
在解码器299,编码数据在解多路复用器(DEMUX)250,如一MPEG-4MSDL DEMUX被接收。在本例中比基层数据具有更高的空间分辨率的增强层数据被提供给增强层解码器260。基层数据被提供给基层解码器270,其中信号″out_0″被恢复并经路径267提供给中处理器265,经路径277提供给缩放后处理器290。该中处理器通过对基层数据向上取样来恢复全分辨率图像,以与编码器侧的中处理器215类似的方式工作。该图像经路径262被提供给增强层解码器260用于恢复增强层数据信号″out_1″,其此后经路径272被提供到缩放后处理器290。缩放后处理器290完成例如对解码基层数据进行空间向上取样以作为信号″outp_0″显示,增强层数据被输出以作为信号″outp_1″显示的操作。
当编码器201被用于时间缩放时,预处理器205对于例如基层完成时间分路(例如,拉开过程或帧抛弃)以减小帧频。例如,为将帧频由30帧/秒减小到15帧/秒,每隔一帧被抛弃。
下面的表1示出中处理器215和265、缩放预处理器205和缩放后处理器290的24个可能的配置。
表1

表1中,第一列指明配置数,第二列指明层,第三列指明层的时间分辨率(例如,高或低)。当″低(高)″被列出,基层和增强层的时间分辨率或均为高或均为低。第四列指明空间分辨率。第五、第六和第七列指明缩放预处理器205、中处理器215和265及后处理器290的相应动作。″N/C″表示在时间或空间分辨率上无变化,即进行通常处理过程。″N/A″意味着″不可用″。中处理器215、265动作不影响增强层。
空间可缩放编码采用配置1作为实例描述。如上所述,当可缩放编码器201被用于编码VOP时,预处理器205生成两个具有不同空间分辨率的VOP子流。如表1所示,基层具有较低的空间分辨率,增强层具有对应输入序列分辨率的较高的空间分辨率。因此,基层序列″in_0″在可缩放预处理器205处由输入视频序列″in″的向下取样过程生成。增强层序列通过在可缩放中处理器215、265处对向下取样基层序列进行向上取样滤波生成,以取得与″in″相同的高空间分辨率。后处理器290完成常规过程,即,它不改变″out_1″或″out_0″的时间或空间分辨率。
例如,基层CIF分辨率序列(360×298像素)可由对ITU-R 601分辨率输入序列(720×576像素)进行2∶1向下取样滤波生成。可使用任意整数或非整数比率向下取样。
时间和空间可缩放编码采用配置2作为实例描述。此处,输入视频序列″in″,其具有较高的空间和时间分辨率,被转换为具有较低的空间和时间分辨率的基层序列,和具有较高的空间和时间分辨率的增强层序列。由表1所示,通过在预处理器205进行向下取样滤波和拉开处理以提供信号″in_0″,在中处理器215和265中进行向上取样滤波,在后处理器290中进行常规处理,来获得上述转换。
通过配置3,具有低或高时间分辨率和高空间分辨率的输入视频序列″in″被转换为具有相应的低或高的时间分辨率和高空间分辨率的基层序列,和具有相应低或高时间分辨率和低空间分辨率的增强层序列。通过在预处理器205进行对于增强层序列″in_1″的向下取样滤波,在中处理器215和265进行向下取样滤波,在后处理器280进行增强层序列″out_1″的向上取样滤波,来获得上述转换。
其它配置可由上述实例理解。
图3是根据本发明的像素向上取样图。向上取样滤波可通过表1的配置1由中处理器215和265完成。例如,具有CIF分辨率(360×298像素)的VOP可通过2∶1向上取样转换为ITU-R 601分辨率(720×576像素)。CIF图像的像素310、320、330和340可被取样以生成ITU-R 601图像的像素355、360、365、370、375、390、395和390。具体说,ITU-R 601的像素360通过分别如箭头312和322所示对CIF像素310和320取样获得。类似地,ITU-R 601的像素365也通过分别如箭头314和324所示对CIF像素310和320取样获得。
图4是基层和增强层中VOP间预测过程的示例图。在图2所示增强层编码器210中,增强层VOP可被编码为P-VOP或B-VOP。在本例中,增强层中的VOP具有比基层VOP更大的空间分辨率,由此被画成较大区域。时间分辨率(例如帧频)对于两层是相同的。VOP以出现顺序从左到右示出。
基层包括I-VOP405,B-VOP415和420,及P-VOP430。增强层包括P-VOP450和490,B-VOP460和490。B-VOP415如箭头410和440所示由其它基层VOP预测,B-VOP420如箭头425和435所示也由其它基层VOP预测。P-VOP430如箭头445所示由I-VOP405预测。P-VOP450如箭头455所示通过对基层VOP向上取样来得到,P-VOP490如箭头495所示通过对基层VOP向上取样得出。B-VOP460如箭头465和475所示由基层VOP预测,B-VOP490如箭头470和495所示由基层VOP预测。
通常,与基层I-VOP瞬间重合(如在显示或出现顺序中)的增强层VOP被编码为P-VOP。例如,VOP450与I-VOP405瞬时重合,由此被编码为P-VOP。与基层P-VOP瞬间重合的增强层VOP被编码为P-或B-VOP。例如,VOP490与P-VOP430瞬间重合而被编码为P-VOP。与基层B-VOP瞬间重合的增强层VOP被编码为B-VOP。例如,见B-VOP460与490。
I-VOP405和P-VOP430已知为固定(anchor)VOP,因为它们被用作增强层VOP的预测参考。I-VOP405和P-VOP430由此在增强层对应预测VOP编码之前被编码。增强层P-VOP的预测参考由MPEG-4兼容语法中的向前(预测)时间参考指示器forward_temporal_ref指定。该指示器是指向瞬时重合的基层I-VOP的非负整数。增强层B-VOP的预测参考由ref_select_code、forward_temporal_ref和backward_temporal_ref指定。如下面表2所示。注意该表对于MPEG-2和MPEG-4 VM 3.0可缩放方案是不同的。
表2

表2示出了对于增强层中B-VOP的预测参考选择。例如,假定基层中的I-VOP405和P-VOP430的时间参考码temporal_ref分别为0和3。同时,令增强层中P-VOP450的temporal_ref为0。则图4中,对于P-VOP 450有forward_temporal_ref=0。分别如箭头465和475,470和495所指示的B-VOP460和490的预测参考由ref_select_code=00,forward_temporal_ref=0和backward_temporal_ref=3确定。P-VOP490的预测参考由ref_select_code=10,forward_temporal_ref=0和backward_temporal_ref=3指定。
在对基层和增强层编码中,预测模式可由下面表3所示2位字VOP_prediction_type指明。
表3

″I″预测类型指明一内部编码VOP,″P″预测类型指明一预测的VOP,″B″预测类型指明双向预测VOP。基层序列″in_0″的编码与非可缩放编码过程相同,例如,根据MPEG-2主框架或H.263标准。
图6描述根据发明将像素行由帧到场重排序或置换。如上所述,当输入VOP为场模式且被向下取样时,所产生的VOP将为帧模式。由此,当向下取样图像被在空间向上取样时,所产生的VOP也将为帧模式。然而,当向上取样VOP通过从向上取样VOP中减去输入VOP而被差分编码时,若空间变换如DCT被随后在残余上操作时,所产生的残余可能不会产生最优的编码效率。即,在许多情形下,残余值可通过对向上取样图像行置换(即重排序)以对偶数和奇数行分组而减小,因为在相同场的像素之间比对立场像素间可能有更大的相关性。
一代表增强层中向上取样像素(例如亮度)数据的图像示于600。例如,假定图像600是一通过对一9×9的块进行2∶1向上取样而得到的16×16的宏块。该宏块包括偶数行602、604、606、609、610、612、614和616,以及奇数行603、605、607、609、611、613、615和617。偶数和奇数行分别组成顶部场和底部场。宏块600包括四个9×9的亮度块,包括由区域620与行602至609相交所定义的第一块,由区域625与行602至609相交所定义的第二块,由区域620与行610至617相交所定义的第三块,由区域625与行610至617相交所定义的第四块。
根据本发明,在确定残余并进行DCT之前,当图像600中的像素行被置换以形成相同场亮度块时,650处所示的宏块被形成。示于645的箭头指明行602至617的重排序。例如,偶数行602,其为宏块600的第一行,也是宏块650的第一行。偶数行604为宏块650的第二行。类似地,偶数行606、609、610、612、614和616被分别作为宏块650的第三行至第八行。因此,带有偶数行的16×9的亮度区690被作成。第一9×9块由区域690与670相交定义,而第二9×9的块由区域690与675相交定义。
类似地,奇数行被移至16×9的区域695。区域695包括由区域695与670相交所定义的第一9×9的块,而第二9×9的块由区域695与675相交所定义。区域695由此包括奇数行603、605、607、609、611、613、615和617。
根据宏块600是否如宏块650所示被重排序,作用于残余的DCT此处被称为″场DCT″或″帧DCT″或其它。但是,应当理解,本发明可适用于其它空间变换。当采用场DCT时,宏块空间域的亮度行(或亮度误差)被由帧DCT取向置换到顶部(偶)和底部(奇)场DCT配置。所产生的宏块被按常规转换、量化并变长编码。当一场DCT宏块被解码时,在所有亮度块由反向DCT(IDCT)获得之后进行反向置换。4∶2∶0的色度数据不受该模式影响。
根据本发明选择场模式或帧模式DCT的准则如下所述。在下面情况下应选择场DCTΣi=06Σj=015|P2i,j-P2i+1,j|+|P2i+1,j-P2i+2,j|>Σi=06Σj=015|P2i,j-P2i+2,j|+|P2i+1,j-P2i+3,j|+bias]]>其中,pi,j是在DCT作用于每一9×9亮度块之前的空间亮度差分(如残余)数据。其优势在于,该式仅使用一阶差分,由此可使运算简便而廉价。项″bias″是考虑未被计算在内的非线性影响的因子。例如,bias=64可被采用。若上述关系不成立,则采用帧DCT。
注意,在上式的左手侧,误差项指对立场像素差(如,偶对奇,奇对偶)。因此,左手侧是对立场行亮度值之差的和。在右手侧,误差项指相同场像素差(如,偶对偶,奇对奇)。因此,右手侧是相同场行亮度数据差值与偏差项的和。
或者,通过修正上式以取每一误差项的平方值而不是绝对值,二阶式可被用于确定是帧还是场DCT可被使用。在此情况下,″bias″项不被要求。
图5是描述根据本发明的VOP空间和时间缩放的图。通过基于目标的缩放,所选VOP的帧频和空间分辨率可被增强,以使其比其余区域具有更高的质量,例如,所选目标的帧频和/或空间分辨率可比其余区域高。例如,新闻播讲员的VOP可被提供比演播室背景更高的分辨率。
轴505和506指明帧数。在基层,包括VOP520的帧510被提供于帧0的位置,而带有VOP532(对应于VOP520)的帧530被提供于帧3的位置。而且,帧530由帧510预测,如箭头512所示。增强层包括VOP522、524、526和542。这些VOP相对于VOP520和532具有增加的空间分辨率,由此被画成较大区域。
P-VOP522如箭头570所示由向上取样VOP520得出。B-VOP524和526由基层VOP520和532预测,分别如箭头572和576,及574和579所示。
用于生成基层和增强层序列的输入视频序列具有全分辨率(例如,对于对应国家电视标准委员会(NTSC)的ITU-R 601为720×490或对于对应相位变化线(PAL)的ITU-R为720×576)和全帧频(对于对应NTSC的ITU-R为30帧/60场或对于对应PAL的ITU-R 601为25帧/50场)。可缩放编码被实行,以通过利用增强层编码使物体的分辨率和帧频被保留。基层的视频目标,包括VOP520和532,具有较低的分辨率(如全分辨率VOP的四分之一)和较低的帧频(如初始帧频的三分之一)。而且,在增强层,只有VOP520被增强。帧510的其余部分未被增强。虽然仅一个VOP被示出,实际上,可提供任意数量的VOP。而且,当两个或更多数量的VOP被提供时,所有或只有所选择的VOP可被增强。
基层序列可由对原始序列进行向下取样和帧抛弃而生成。然后基层VOP通过顺序编码工具被编码为I-VOP或P-VOP。当输入视频序列是交错的,交错的编码工具如场/帧运动估计和补偿,及场/帧DCT不被使用,因为输入交错视频序列的向下取样生成顺序视频序列。增强层VOP利用时间和空间可缩放工具编码。例如,在增强层,VOP522和VOP542被利用空间可缩放编码为P-VOP。VOP524和VOP526利用时间可缩放工具分别由基层参考VOP的向上取样VOP,即VOP520和VOP532,被编码为B-VOP。
本发明的另一方面揭示了一种通过减少运动向量搜索范围以减少B-VOP的运动估计编码复杂性的技术。该技术可应用于帧模式和场模式输入视频序列。尤其是,参考VOP的搜索中心通过对相应基层VOP的运动向量调整,而不是通过在参考VOP中进行独立的耗时的搜索来确定。该耗时的搜索一般覆盖,例如水平+/-64像素和垂直+/-49像素的范围,因此没有所揭示技术高效。
增强层B-VOP 524和526的运动向量搜索中心由下式决定MVf=(m/n·TRB·MVP)/TRPMVb=(m/n·(TRB-TRP)·MVP)/TRP其中,MVf是向前运动向量,MVb是向后运动向量,MVp是基层中P-VOP(如VOP 532)的运动向量,TRB是已往参考VOP(如VOP520)与增强层中当前B-VOP之间的时间间隔,TRP是已往参考VOP与基层未来参考P-VOP(如VOP532)之间的时间间隔。m/n是基层VOP空间分辨率对增强层VOP空间分辨率之比值。即,基层VOP或增强层中的B-VOP可相对于输入视频序列以比值m/n被向下取样。在图5的实例中,m/n是随后被向上取样以提供增强层VOP的基层VOP的向下取样率。m/n可能小于、等于或大于1。例如,对于B-VOP524,TRB=1,TRP=3,且2∶1向下取样(即,m/n=2),我们可得MVf=2/3MVp,且MVb=-4/3MVp。注意所有运动向量是二维的。运动向量搜索范围是16×16方形区域,例如,其中心由MVf和MVb确定。运动向量与传输数据流中的增强层和基层视频数据传送,且由用于对视频数据解码的解码器恢复。
通常,为根据本发明对交错视频编码,交错编码工具被用于获取更好的性能。这些工具包括用于宏块内和差分间宏块的场/帧DCT,以及场预测,即,顶部场到底部场、顶部场到顶部场、底部场到顶部场和底部场到底部场。
对于上述表1中的配置,这些交错编码工具被结合如下。
(1)对于两层均具有低空间分辨率的配置,只有顺序(帧模式)编码工具被使用。在此情况下,两层将编码不同的视频序列,例如,在立体视频信号中。为编码立体视频,对右视图(增强层)序列的运动估计搜索范围是9×9像素。该9×9(全像素)搜索范围集中于对应VOP的基层中相应宏块的同类型运动向量周围。
(2)对于基层具有低空间分辨率、增强层具有高空间分辨率的配置,交错编码工具只用于增强层序列。用于对增强层序列编码的运动估计搜索范围是9×9(全像素)。该9×9搜索范围集中于对应VOP的基层中相应宏块的重可缩放(即因子为2)同类型运动向量周围。基于场的估计和预测将仅被用于增强层的搜索和补偿。
(3)对于基层具有高空间分辨率、增强层具有低空间分辨率的配置,交错编码工具只用于基层序列,如MPEG-2主框架的主层。用于对增强层序列编码的运动估计搜索范围是4×4(全像素)。该4×4搜索范围集中于对应VOP的基层中相应宏块的重可缩放(即,1/2倍)同类型运动向量周围。对于表1中的配置2,如上所述,例如,两层序列的编码具有不同的时间单位频率。
图7是根据本发明带有空间和时间缩放的画中画(PIP)或预览频道应用图。通过PIP,次级节目被作为电视上所见到的主要节目的子集而提供。由于次级节目占有较小区域,观众不关心减小了分辨率的图像,于是PIP图像的时间和/或空间分辨率可被减小以保留带宽。
类似地,预览频道节目可给用户提供节目(该节目可用一定费用购买)的免费低分辨率样本。此应用提供授权频道(如,Pay-Per-View为每幅画面付费)的几分钟免费浏览以进行预览。在预览频道编码的视频可具有较低的分辨率和较低的帧频。解码器为此类预览频道控制浏览时间。
表1中时间和空间可缩放编码的配置2,如上所述,可被用于提供具有比基层和增强层解码输出更低空间分辨率的基层解码输出。基层的视频序列可用较低的帧频编码,而增强层用较高帧频编码。
例如,基层中的视频序列可具有CIF分辨率和15帧/秒的帧频,增强层中的对应视频序列具有ITU-R 601分辨率和30帧/秒的帧频。在此情况下,增强层可符合NTSC标准,而PIP或预览功能由基层提供,其可符合CIF标准。由此,PIP功能可由具有与MPEG-2主框架MainLeVel标准相类似的编码复杂度和效率的可缩放编码提供。
基层包括低空间分辨率VOP705和730。而且,基层的时间分辨率是增强层的1/3。增强层包括高空间分辨率VOP750、760、790和790。P-VOP750由向上取样I-VOP705得到,如箭头755所示。B-VOP760如箭头765和775所示由基层VOP预测。B-VOP790如箭头770和795所示由基层VOP预测。P-VOP 790由向上取样P-VOP 730而获得,如箭头795所示。
如图9所示是根据本发明立体视频应用图。立体视频功能被提供于MPEG-2多视图框架(MVP)系统,在文献ISO/IEC/JTC1/SC29/WG11 N1196中描述。基层被分配到左视图,增强层被分配到右视图。
为提高编码效率,增强层图像可用比基层低的分辨率编码。例如,表1的配置4可被用于基层具有ITU-R 601空间分辨率,增强层具有CIF空间分辨率的情况。用于预测增强层图像的基层参考图像被向下取样。由此,增强层的解码器包括向上取样过程。此外,自适应帧/场DCT编码可被用于基层,但不可用于增强层。
基层包括VOP905、915、920和930,增强层包括VOP950、960、990和990。B-VOP 915和920分别如箭头910、940,和935、925所示由其它基层VOP预测。P-VOP930如箭头945所示由I-VOP905预测。P-VOP950如箭头955所示由I-VOP905向下取样得出。B-VOP960如箭头965和975所示由基层VOP预测。B-VOP990如箭头970和995所示由基层VOP预测。P-VOP990如箭头995所示由P-VOP930向下取样得出。
或者,为使基层和增强层具有相同的空间分辨率和帧频,表1中的配置7可被采用。在此情况下,基层的编码过程可与非可缩放编码过程相同,例如,如MPEG-4 VM非可缩放编码或MPEG-2主框架Main Level标准所描述,自适应帧/场DCT编码被用于增强层中。
在本发明的进一步应用中,异步传输模式(ATM)传送技术被提供。一般地说,通过ATM网络传输视频信号的趋势迅速增长。这是由于这些网络较固定比特率(CBR)传输可提供许多优势的变比特率(VBR)性质。例如,在VBR信道,可获得大致稳定的图像质量。而且,在ATM网络中的视频源可被按统计特性多路传输,要求比通过CBR信道传输低的传输比特率,因为CBR系统中的弹性缓冲使得视频信号的长期平均数据率小于短期平均值。
但是,尽管ATM网络具有许多优势,其主要不足在于拥塞。在拥塞的网络中,视频包被排队以寻找输出路径。长期延迟包可能到达太晚从而在接收机处无用,结果被解码器抛弃。视频编码解码器必须设计成可经受包丢失。
为使视频编码器几乎不受包丢失的影响,可使用本发明的时间和空间可缩放编码技术。尤其是,来自基层的视频数据可以高优先级被发送,并被提供ATM网络保用的比特率。若发生拥塞,由于信道不是保证的,来自增强层的视频数据包可能丢失。若增强层包被接收到,则图像质量提高。一采用表1中配置1的编码方案可取得该结果。该方案可如图4所示被实现,如上结合预测模式的描述,其中,基层是高优先级层。因此,在基层进行高优先级低比特率传送,在增强层进行低优先级高比特率传送。
类似地,该可缩放编码可用于视频编码和通过Internet、intranet和其它传送网的传输。
由此,可以看出,本发明提供为一数字视频序列中包括视频对象面(VOP)的视频图像提供时间和空间缩放的方法和装置。本发明一方面通过自适应压缩可缩放的场模式输入视频序列使编码效率提高。基于线性准则,增强层中的向上取样VOP被重排序以提供与原始视频序列更大的相关性。通过使用例如DCT的空间变换对所产生的残余编码。本发明另一方面,提出通过可缩放运动向量(其已对基层VOP确定)对增强层VOP编码的运动补偿方案。减小的搜索区域被定义(其中心由可缩放运动向量定义)。此技术适用于可缩放帧模式或场模式输入视频信号。
此外,各种编码解码器处理器配置被提出以取得特定的可缩放编码结果。可缩放编码的应用,包括立体视频、画中画、预览频道和ATM传送,也被描述。
尽管本发明已结合特定的实施例被描述,本领域的技术人员可理解,在不偏离权利要求中所提出的发明的精神与范围的情况下,可对其进行各种改进。例如,虽然两可缩放层被描述,也可提供多于两层。而且,虽然为简便起见,在一些图中采用方形或长方形VOP,本发明同样适用于任意形状的VOP。
权利要求
1.一种用于对双向预测的视频对象面(B-VOP)编码的方法,包括下列各步缩放包括多个视频对象面(VOP)的输入视频序列,以在相应基层和增强层中传送;在所述基层中提供对应于所述输入视频序列VOP的第一和第二基层VOP;根据运动向量MVp,由所述第一基层VOP预测所述第二基层VOP;在增强层中处于所述第一和第二基层VOP中间的时间位置提供所述B-VOP;和利用通过缩放所述运动向量MVp而得到的下列之一来编码所述B-VOP(a)向前运动向量MVf,和(b)向后运动向量MVB。
2.权利要求1的方法,其中时间间隔TRp分离所述第一和第二基层VOP;时间间隔TRB分离所述第一基层VOP和所述B-VOP;m/n是第一和第二基层VOP的空间分辨率与B-VOP空间分辨率的比值;且至少下列之一(a)所述向前运动向量MVf根据关系式MVf=(m/n)·TRB·MVP/TRP确定;且(b)所述向后运动向量MVb根据关系式MVb=(m/n)·(TRB-TRP)·MVP/TRP确定。
3.权利要求1或2的方法,还包括步骤利用至少下述之一编码所述B-VOP(a)所述第一基层VOP的搜索区,其中心根据所述向前运动向量MVf确定;和(b)所述第二基层VOP的搜索区,其中心根据所述向后运动向量MVB确定。
4.一种用于恢复数据流中包括有多个视频对象面(VOP)的输入视频序列的方法,所述输入视频序列在相应基层和增强层中经过缩放并传送,且其中VOP具有相关的空间和时间分辨率,其中在所述基层中提供对应于所述输入视频序列VOP的第一和第二基层VOP;根据运动向量MVp,由所述第一基层VOP预测所述第二基层VOP;在增强层中处于所述第一和第二基层VOP中间的时间位置处提供双向预测视频对象面(B-VOP);且采用通过对所述运动向量MVp进行缩放而得到的向前运动向量MVf和向后运动向量MVB编码所述B-VOP;所述方法包括下列步骤从所述数据流中恢复所述向前运动向量MVf和向后运动向量MVB;且利用所述向前运动向量MVf和所述向后运动向量MVB解码所述B-VOP。
5.权利要求4的方法,其中时间间隔TRp分离所述第一和第二基层VOP;时间间隔TRB分离所述第一基层VOP和所述B-VOP;m/n是第一和第二基层VOP的空间分辨率与B-VOP空间分辨率的比值;且至少为下列之一(a)所述向前运动向量MVf根据关系式MVf=(m/n)·TRB·MVP/TRP确定;且(b)所述向后运动向量MVb根据关系式MVb=(m/n)·(TRB-TRP)·MVP/TRP确定。
6.权利要求4或5的方法,其中利用至少下述之一编码所述B-VOP(a)所述第一基层VOP的搜索区,其中心根据所述向前运动向量MVf确定;和(b)所述第二基层VOP的搜索区,其中心根据所述向后运动向量MVB确定。
7.一种用于恢复数据流中包括多个视频对象面(VOP)的输入视频序列的解码装置,所述输入视频序列在相应基层和增强层中经过缩放并传送,且其中的VOP具有相关的空间和时间分辨率,其中在所述基层中提供对应于所述输入视频序列VOP的第一和第二基层VOP;根据运动向量MVp,所述第二基层VOP由所述第一基层VOP预测;在增强层中处于所述第一和第二基层VOP中间的时间位置处提供双向预测视频对象面(B-VOP);且采用通过对所述运动向量MVp进行缩放而得到的向前运动向量MVf和向后运动向量MVB编码所述B-VOP;所述装置包括用于由所述数据流中恢复向前运动向量MVf和向后运动向量MVB的装置;和利用所述向前运动向量MVf和所述向后运动向量MVB解码所述B-VOP的装置。
8.权利要求7的装置,其中时间间隔TRp分离所述第一和第二基层VOP;时间间隔TRB分离所述第一基层VOP和所述B-VOP;m/n是第一和第二基层VOP的空间分辨率与B-VOP的空间分辨率的比值;且至少下列之一(a)所述向前运动向量MVf根据关系式MVf=(m/n)·TRB·MVP/TRP确定;且(b)所述向后运动向量MVb根据关系式MVb=(m/n)·(TRB-TRP)·MVP/TRP确定。
9.权利要求7或8的装置,其中利用至少下述之一编码所述B-VOP(a)所述第一基层VOP的搜索区,其中心根据所述向前运动向量MVf确定;和(b)所述第二基层VOP的搜索区,其中心根据所述向后运动向量MVB确定。
全文摘要
一种用于对双向预测的视频对象面(B-VOP)编码的方法,包括缩放包括多个视频对象面(VOP)的输入视频序列,以在相应基层和增强层中传送;在所述基层中提供对应于所述输入视频序列VOP的第一和第二基层VOP;根据运动向量MV
文档编号H04N7/52GK1551636SQ20041003692
公开日2004年12月1日 申请日期1998年6月5日 优先权日1997年6月5日
发明者陈学敏, 卢特拉, 阿贾伊·卢特拉, 拉詹, 加内什·拉詹, 姆 纳拉辛汉, 曼德阿姆·纳拉辛汉 申请人:通用仪器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1