用于对使用多个层的多媒体数据进行可缩放编码及解码的系统及方法

文档序号:7808696阅读:158来源:国知局
用于对使用多个层的多媒体数据进行可缩放编码及解码的系统及方法
【专利摘要】本发明涉及用于对使用多个层的多媒体数据进行可缩放编码及解码的系统及方法。本发明揭示一种处理与多个层相关联的多媒体数据的方法。所述方法可包括:确定基础层残留;及如果所述基础层残留的非零系数的数量或所述基础层残留的零系数的数量中的至少一者满足第一选定条件,则实施层间预测以产生增强层残留。一种对多媒体位流进行解码的方法可包括:接收具有基础层及增强层的多媒体位流,及对所述基础层进行解码以确定应该使用层内预测还是层间预测来对所述增强层进行解码。
【专利说明】用于对使用多个层的多媒体数据进行可缩放编码及解码的系统及方法
[0001]分案串请
[0002]本发明专利申请是一件分案申请,前案申请号为201210148543.9。前案是申请日为2006年5月3日,申请号为200680022774.8,以及发明名称为“用于对使用多个层的多媒体数据进行可缩放编码及解码的系统及方法”的发明专利申请案的分案申请。在2014年3月5日针对201210148543.9号专利申请发出的第一次审查意见通知书(发文序号为2014022801032770)中,审查员指出权利要求(14,19)与权利要求1之间不具有单一性, 申请人:对权利要求14和19及其从属权利要求提出此分案申请。
[0003]根据35U.S.C § 119丰张优先权
[0004]本专利申请案主张优先于2006年4月4日申请的题为"DATA PROCESSING WITHSCALABILITY"的临时申请案第60/789,271号、2005年5月3日申请的题为"BASE LAYERVIDEO QUALITY COMPARISON"的临时申请案第60/677,607号、2005年5月3日申请的题为"INTRODUCING NEW MB MODES"的临时申请案第60/677,609号、2005年5月3日申请的题为"SHARING INFORMAT1N IN TWO LAYER CODING"的临时申请案第 60/677,610 号及 2005 年 5 月 3 日申请的题为"INTERLAYER PREDICT1N FOR INTER MB S IN SCALABLEVIDEO CODING"的临时申请案第60/677,611号,所有所述专利均受让于本专利的受让人且明确地以引用方式并入本文中。

【技术领域】
[0005]本发明涉及可包含音频数据、视频数据或两者的多媒体数据的可缩放编码及解码。更特定来说,本发明涉及用于对使用多个层的多媒体数据进行可缩放编码及解码的系统及方法。

【背景技术】
[0006]国际电信联盟(ITU)已公布数字视频编码的H.261、H.262、H.263及H.264标准。这些标准规定经编码数字视频数据的语法及如何解码这一数据以供呈现或重放。然而,这些标准允许以灵活方式使用各种不同的技术(例如,算法或压缩工具)将数字视频数据从未压缩格式变换为经压缩或经编码格式。因此,目前有许多不同的数字视频数据编码器可用。这些数字视频编码器能够以各种成本及质量水平实现各种程度的压缩。
[0007] 可缩放视频编码产生用于编码视频数据的多个层,例如,基础层及增强层。所述两层通常在具有不同传输特性的不同信道上传输,从而导致不同的包错误率。所述基础层通常具有与所述增强层相比时较低的包错误率。所述基础层通常含有最有价值的信息且所述增强层通常提供对所述基础层的完善。多数可缩放视频压缩技术利用了如下事实:与图像的更单调、低频率区域相比人类视觉系统更易于忽略高频率去中的噪声(由于压缩所致)。因此,所述基础层主要地含有低频率信息且所述增强层主要地含有高频率信息。当网络带宽不足时,有较高的可能仅接收经编码视频的基础层(无增强层)。在这种情况中,经重构视频是模糊不清的且解块滤波器甚至可能加重这种效果。
[0008]解码器通常解码所述基础层或所述基础层及所述增强层。当解码所述基础层及所述增强层时,与单层解码器相比多层解码器通常需要增加的计算复杂性及存储器。由于所述增加的计算复杂性及存储器需要所致许多移动装置不利用多层解码器。


【发明内容】

[0009]处理与多个层相关联的多媒体数据的方法可包括确定基础层残留。如果所述基础层残留的非零系数的数量或所述基础层残留的零系数的数量中的至少一者满足第一选定条件,则可实施层间预测以产生增强层残留。所述第一选定条件可以是所述基础层残留的非零或零系数的数量大于、小于或等于阈值。如果所述基础层残留的非零系数的数量或所述基础层残留的零系数的数量中的至少一者满足第二选定条件,则可实施时间预测以产生所述增强层残留。所述第二选定条件可以是所述基础层残留的非零或零系数的数量大于、小于或等于阈值。
[0010]本发明揭示一种使用基础层预测增强层的方法。多媒体数据块可用于产生包括多个基础量化系数的基础残留。所述多媒体数据块还可用于产生包括多个增强量化系数的增强残留。基于所述多个基础量化系数可确定第一值,且基于所述多个增强量化系数可确定第二值。可通过使用所述多个基础量化系数或所述多个增强量化系数中的至少一者确定所述增强层。
[0011]解码多媒体位流的方法可包括接收具有基础层及增强层的多媒体位流。所述基层可经解码以确定是使用层内预测或还是应用层间预测解码所述增强层。

【专利附图】

【附图说明】
[0012]结合附图阅读下文的详细阐释将更易于了解本发明的特征、目的及优点。
[0013]图1是用于编码及解码多媒体数据的系统的框图;
[0014]图2是H.264视频数据位流的框图;
[0015]图3是具有层间预测的多层可缩放编码器的框图;
[0016]图4模式决策模块(MDM)的流程图,所述模式决策模块可以是图3的预测模块的一部分;
[0017]图5是变换+熵编码模块(TECM)的流程图,所述变换+熵编码模块可以是图3的预测模块的一部分;
[0018]图6是图解在宏块基础或块基础上的层间预测的流程图;
[0019]图7显示变换域中的六个4x4块以图解在dct逐系数基础上的层间预测。
[0020]图8图解在dct逐系数基础上的层间预测的方法。
[0021]图9是使用层内预测或层间预测解码多媒体位流的方法的流程图;及
[0022]图10具有层内预测及层间预测的解码器的框图。

【具体实施方式】
[0023]现将参考所述图示阐述实施本发明的各个特征的实施例的系统及方法。提供所述图示及相关联说明是为了图解本发明的某些实施例而非限制本发明的范围。在所有图示中,重复使用各个参考编号以指示所参考元件之间的一致性。此外,每一参考编号的第一位数字指示所述元件第一次出现的图示。
[0024]图1是编码及解码多媒体(例如,视频、音频或两者)数据的系统100的框图。系统100可经配置以编码(例如,压缩)及解码(例如,解压缩)视频数据(例如,图片及视频帧)。系统100可包括服务器105、装置110及将服务器105连接到装置110的通信信道115。系统100可用于图解下文所述的用于编码及解码视频数据的方法。系统100可由硬件、软件、固件、中间件、微码或其任一组合实施。一个或多个元件可被重排及/或组合,且其他系统可用于替代系统100,同时仍维持本发明的精神及范围。额外元件可添加到系统100或可从系统100移除,同时仍维持本发明的精神及范围。
[0025]服务器105可包括处理器120、存储媒介125、编码器130及I/O装置135 (例如,收发器)。处理器120及/或编码器130可经配置以接收呈一系列视频帧形式的视频数据。处理器120及/或编码器130可以是高级RISC机器(ARM)、控制器、数字信号处理器(DSP)、微处理器或能够处理数据的任一其他装置。处理器及/或编码器130可将所述系列的视频帧传输到存储媒介125进行存储及/或可编码所述系列的视频帧。存储媒介125还可存储由处理器120及/或编码器130使用以控制服务器105的操作及功能的计算机指令。存储媒介125可表示用于存储所述视频数据的一个或多个装置及/或用于存储信息的其他机器可读媒介。术语“机器可读媒介”包括(但不限于)随机存取存储器(RAM)、闪速存储器、(只读存储器)ROM、EPROM、EEPR0M、寄存器、硬盘、可拆卸磁盘、CD-ROM、DVD、无线信道及能够存储、包含或负载指令及/或数据的各种其他媒介。
[0026]使用从存储媒介125所接收的计算机指令,编码器130可经配置以实施所述系列视频帧的平行及串行处理(例如,压缩)两者。可如下文方法中所述实施所述计算机指令。一旦编码了所述系列的帧,则可将所述经编码数据发送到I/o装置135以经由通信信道115传输到装置110。
[0027]装置110可包括处理器140、存储媒介145、解码器150及I/O装置155 (例如,收发器)及显示装置或屏幕160。装置110可以是计算机、数字录像机、手持装置(例如,蜂窝式电话、黑莓手机(Blackberry)等)、机顶盒、电视机及能够接收、处理(例如,解压缩)及/或显示一系列视频帧的其他装置。I/O装置155接收所述经编码数据且将所述经编码数据发送到存储媒介145及/或解码器150以供解码。解码器150经配置以使用所述经编码数据再产生所述系列的视频帧。一旦经解码,则所述系列的视频帧可存储于存储媒介145中。使用从存储媒介145所检索的计算机指令,解码器150可经配置以实施所述经编码数据的平行及串行处理(例如,解压缩)两者以再产生所述系列的视频帧。可如下文方法中所述实施所述计算机指令。处理器140可经配置以从存储媒介145及/或解码器150接收所述系列的视频帧且将所述系列的视频帧显示于显示装置160上。存储媒介145还可存储由处理器140及/或解码器150使用以控制装置110的操作及功能的计算机指令。
[0028]通信信道115可用于在服务器105与装置110之间传输所述经编码数据。通信信道115可以是有线连接或有线网络及/或无线连接或无线网络。举例来说,通信信道115可包括因特网、同轴电缆、光纤线路、卫星链路、陆地链路、无线链路、能够传播信道的其他媒介及其任一组合。
[0029]图2是H.264视频数据位流200的框图。位流200可组织或分割为多个存取单元205(例如,存取单元1、存取单元2、存取单元3等)。每一存取单元205可包括对应于经编码视频帧的信息。每一存取单元205可组织或分割为多个NAL单元210。每一 NAL单元210可包括NAL前缀215、NAL标头220及数据块225。NAL前缀215可以是指示数据块225的开始处的一系列位(例如,00000001),且NAL标头220可包括NAL单元类型230 (例如,
1、P或B帧)。数据块225可包括标头235及数据240。数据块225可组织或分割为16x16的数据宏块、整帧数据或所述视频数据的一部分(例如,2x2块或4x4块)。术语“宏块”及“块”可相互替代地使用。
[0030]标头135可包括模式245、参考图列表250及QP值255。模式245可向编码器130指示如何组织或分割所述宏块、如何确定及传输运动信息及如何确定及传输残留信息。数据240可包括运动信息(例如,运动向量285)及残留信息(例如,DC260及AC265残留)。对于I帧来说,数据240可包括DC残留260及AC残留265。AC残留265可包括编码块模式(CBP)值270、拖尾I的数量275及残留量化系数280。对I帧来说,可不需要运动信息,这是因为其是第一帧。对于P及B帧来说,数据240可包括运动向量285、DC残留290及AC残留295。
[0031]图3是多层可缩放编码器130的基础层编码模块300及增强层编码模块305的框图。多层编码引入多个时间预测环路。举例来说,双层编码可引入两个时间预测环路。可在所述两个层之间共享视频数据以允许针对所述两个层的某一位指派及降低开销。层间预测可用于所述增强层处以降低总编码开销。基础层编码模块300可用于所述基础层视频且增强层编码模块305可用于所述增强层视频。在一些实施例中,所述基础层视频可与所述增强层视频是相同的或近似相同的。在基础层编码模块300及增强层编码模块305接收之前可编码视频数据。
[0032]可在输入310及315处提供经编码视频数据。基础层编码模块300可包括变换(Tb)模块320、量化(Qb)模块325、逆变换(T;1)模块330及逆量化(Q;1)模块335。增强层编码模块305可包括变换(Te)模块340、量化(Qe)模块345、逆变换(T:)模块350及逆量化(QeT1)模块355。量化模块325、335、345及355可包括一个或多个可用于确定所得图像的质量的的量化参数。一般来说,用于基础层编码模块300的量化参数大于用于增强层编码模块305的量化参数。较大量化参数指示较低质量的图像。基础层编码模块300可产生用于所述基础层的残留信息360,且增强层编码模块305可产生用于所述增强层的残留信息365。基础层编码模块300及增强层编码模块305还可分别包括预测模块370及375。预测模块370及375可组合为单个预测模块。预测模块370及375可用于实施所述多媒体数据的层内及层间编码。
[0033]对于I帧来说,所述经解码基础层可用作所述增强层的参考。对于P及B帧来说,通过运动补偿一个或多个先前帧计算出的经组配的基础帧和参考可用于所述增强层。层间预测可实施于宏块基础上、块基础上(例如,4x4块基础上)或dct系数基础上。
[0034]对于P或B帧中的每一宏块来说,可依据诸如层间预测或层内预测(例如,时间预测)。如果使用层间预测,则可通过使用经组配的基础层宏块来预测增强层宏块。在一些实施例中,预测误差可经编码且然后传输到解码器150。如果使用时间预测,则可通过将来自一个或多个先前帧及/或随后帧的一个或多个宏块用作参考及使用(例如,复制)来自所述基础层及宏块模式信息及运动向量来预测增强层宏块。
[0035]图4是模式决策模块(MDM) 400的流程图,其可以是图3的预测模块370及375的一部分。MDM400可包括运动估计模块405及决策模块410。MDM400可由处理器120及/或编码器130实施。运动估计模块405产生用于各种模式的所述增强层的运动信息(例如,运动向量)。可通过使用来自所述基础层及所述增强层的信息(例如,运动向量及残留)确定所述模式。数种模式存在于H.264运动估计中。举例来说,模式“a”可以是16x16宏块(输出MVx及MVy),模式“b”可以是两个8x16块或两个16x8块(每一分区输出MVx及MVy),且模式“c”可以是四个8x8块(每一分区输出8x8子分区模式及每一子分区输出MVx及MVy)。每一宏块及每一块可具有其特有的运动信息。对于双层编码来说,数种模式允许位指派的大量灵活性。在某些模式中,与所述基础层相比因为更高质量的增强层视频所以所述增强层产生更精确的运动向量。在双层编码中,所述基础层及所述增强层两者可均使用对应于所述基础层的相同运动信息。可通过使用所预测宏块且从当前宏块减去其而产生残留信息。
[0036]编码器130可选择跳跃模式,其为层内预测模式。在所述跳跃模式中,编码器130不将任何关于所述当前宏块或块的运动及残留信息传输到解码器150。所述当前块的运动信息可从一个或多个相邻块得到。在一个模式中,编码器130可传输运动信息且可不传输残留信息。此可通过将编码_块_模式设置为O而完成。在H.264标准中,当将编码_块_模式设置为O时,所有变换系数为O。当编码_块_模式=O时,解码器150被通知编码器130没有正在发送任何残留信息。为编码所述编码_块_模式值,可将如表1中所示的代码编号指派给所述编码_块_模式。可使用Exp-Golomb代码编码所述代码编号。解码器150可从编码器130接收如表1中所示的代码编号。
[0037]

【权利要求】
1.一种对多媒体位流进行解码的方法,其包含: 接收具有基础层及增强层的多媒体位流;及 对所述基础层进行解码以确定应该使用层内预测还是层间预测对所述增强层进行解码。
2.如权利要求1所述的方法,其中在NxM块基础上或在系数基础上实施所述层内预测。
3.如权利要求1所述的方法,其中在NxM块基础上或在系数基础上实施所述层间预测。
4.如权利要求1所述的方法,其中在宏块基础上或在系数基础上实施所述层内或层间预测。
5.如权利要求1所述的方法,其进一步包含: 确定多个基础层系数是否包括至少一个非零系数; 如果所有所述多个基础层系数均具有零值,则使用层内预测对所述基础层进行解码;及 如果所述多个基础层系数中至少一者具有非零值,则使用层间预测对所述基础层进行解码。
6.一种用于对多媒体位流进行解码的设备,其包含: 决策模块,其用于接收具有基础层及增强层的多媒体位流;及层间预测模块,其用于对所述基础层进行解码以确定应该使用层内预测还是层间预测对所述增强层进行解码。
7.如权利要求6所述的设备,其进一步包含层内预测模块且其中: 所述决策模块确定多个基础层系数是否包括至少一个非零系数; 如果所有所述多个基础层系数均具有零值,则所述层内预测模块使用层内预测对所述基础层进行解码 '及 如果所述多个基础层系数中的至少一者具有非零值,则所述层间预测模块使用层间预测对所述基础层进行解码。
【文档编号】H04N19/139GK104079935SQ201410330918
【公开日】2014年10月1日 申请日期:2006年5月3日 优先权日:2005年5月3日
【发明者】陈培松, 维贾雅拉克希米·R·拉韦恩德拉恩 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1