可伸缩视频编码方法及装置制造方法

文档序号：7990163阅读：124来源：国知局

可伸缩视频编码方法及装置制造方法
【专利摘要】本发明揭露一种可伸缩视频编码方法及装置。视频数据被配置为基本层和增强层，且增强层具有比基本层更高的空间分辨率或更佳的视频品质。依据本发明的实施例，来自基本层的信息被用于编码增强层。所述用于编码增强层的信息包含编码单元架构、运动向量预测子信息、运动向量预测子/合并候选项、帧内预测模式、残余四叉树信息、纹理信息、残差信息、上下文自适应熵编码、自适应环路滤波、采样点自适应偏移以及去块滤波。
【专利说明】可伸缩视频编码方法及装置
[0001]相关申请的交叉引用
[0002]本申请要求如下申请的优先权:序列号为61/495，740,2011年6月10日提交的、名称为 “Scalable Coding of High Efficiency Video Coding” 的美国临时专利申请，以及序列号为61/567，774、2011年12月7日提交的美国临时专利申请。上述美国临时专利申请的全部内容在此一并作为参考。
【技术领域】
[0003]本发明有关于视频编码，且特别地，本发明有关于将基本层的信息用于增强层编码的可伸缩视频编码(scalable video coding)。
【背景技术】
[0004]压缩数字视频(compressed digital video)被广泛用于各种应用，例如数字网络中的视频流以及数字信道中的视频传输。通常，单个视频内容可以不同特性在网络中传送。举例来说，用于高品质视频服务的生动的运动事件可在宽带网络中以高带宽流格式来栽送。在这些应用中，压缩视频通常保有高分辨率及高品质，从而其视频内容适合高清晰度装置，例如高清电视或高分辨率液晶显示器。相同的内容也可栽送于蜂窝数据网络，从而使所述内容可以在诸如智能手机或可联网的便携式媒体装置的便携式装置上观看。在这些应用中，由于考虑到网络带宽以及智能手机与便携式装置上典型的低分辨率显示器，视频内容通常被压缩成低分辨率和低比特率(bitrates)的格式。因此，对于不同的网络环境及不同应用来说，其对视频分辨率及视频品质的需求也非常不同。即使对于相同类型的网络而言，由于不同的网络基础能力(infrastructure)和网络流量状况,用户可用的网络带宽也各不相同。因此，在可用带宽高的时候，用户可能希望接收具有较高品质的视频，而在网络堵塞(infrastructure)发生时,则希望接收具有较低品质但却流畅的视频。在另一场景中，高端的媒体播放器能够处理高分辨率及高比特率的压缩视频，而廉价的媒体播放器则受限于有限的计算资源而只能够处理低分辨率和低比特率的压缩视频。因此，需要以可伸缩的方式来构建压缩视频，从而可以自相同的压缩比特流中推导出具有不同空间-时间分辨率及/或品质的视频。
[0005]在当前的H.264/AVC视频标准中，有一种H.264/AVC标准的扩展，叫做可伸缩视频编码(Scalable Video Coding,以下简称SVC)。基于单一比特流，SVC提供时间、空间以及品质的伸缩。SVC比特流中可分别包含从低帧率、低分辨率及低品质到高帧率、高清晰度及高品质的伸缩视频信息。因此，SVC适合各种不同视频应用，例如适合网络基础设施、流量控制、用户偏好等应用的视频广播(video broadcasting)、视频流(video streaming)、视步页监控(video surveillance)ο
[0006]在SVC中，有三种伸缩，S卩，提供时间伸缩、空间伸缩和品质伸缩。SVC利用多层(mult1-layer)编码架构来实现上述三种维度的伸缩。SVC的主要目的之一是为了产生伸缩的比特流，其可以容易且快速地适用于与各种不同传输信道、显示能力以及不同计算资源相关的比特率需求，而无需进行转码(trans-coding)或再编码(re-coding)。SVC设计的一个重要特性在于伸缩是在比特流层提供的。换句话说，用于推导视频且具有降低的空间及/或时间分辨率的比特流可简单地通过从解码所需视频而需要的伸缩比特流中撷取网络抽象层(Network Abstraction Layer,以下简称为NAL)单元(或网络封包)得到。用于品质细化(quality refinement)的NAL单元可另外截去以降低比特率及相关视频的品质。
[0007]举例来说，依据H.264/AVC标准，时间伸缩可以而从基于B图像的(B-pictures)分层编码架构(hierarchical coding structure)中推导出来。图1显示了具有4个时间层的分层B图像架构以及具有8张图像的图像组的范例。图1中的图像O和图像8称为关键图像(key pictures)。关键图像的帧间预测仅仅使用先前的关键图像作为参考。两张关键图像之间的其他图像被分层预测。仅仅具有关键图像的视频可形成伸缩系统中的最粗糙的时间分辨率。时间伸缩可通过依据伸缩系统中增强层来添加B图像，从而逐步细化低水平(粗糙的)视频来达成。在图1的实施例中，在两张关键图像被编码之后，首先利用关键图像(即图像O和图像8)对图像4进行双向预测。在处理完图像4之后，图像2和图像6被处理。图像2是利用图像O和图像4来进行双向预测，而图像6则是利用图像4和图像8进行双向预测。如图1所示，在图像2和图像6被编码之后，剩余的图像，即图像1、3、5、7，则分别利用相邻的图像进行双向预测处理。因此，图像组中的处理顺序是0、8、4、2、6、1、3、5、7。依据图1所示的分层处理处理过的图像将产生分层的四级图像(hierarchical four-levelpictures),其中图像O和图像8属于第一时间顺序，图像4属于第二时间顺序，图像2和图像6属于第三时间顺序，而图像1、3、5、7则属于第四时间顺序。通过解码基本层的图像及添加更高时间层的图像就可以提供较高层的视频。举例来说，基本层的图像O和图像8可与第二时间顺序的图像4结合以形成第二层的视频。若在第二层视频的基础上进一步添加第三时间顺序的图像则可以形成第三层的视频。类似地，通过在第三层视频中添加第四时间顺序的图像则可以形成第四层的视频。相应地，所述时间伸缩也可以获取。若原始视频具有每秒30帧的帧率，则基本层视频的帧率为30/8=3.75帧/秒。而第二层、第三层和第四层视频则对应于7.5帧/秒、15帧/秒以及30帧/秒的帧率。所述第一时间顺序的图像也称为基本层视频或基本层图像。而所述的第二时间顺序的图像到第四时间顺序的图像也被称为增强层视频或增强层图像。除了使能时间伸缩之外，分层B图像的编码架构同时也以增加编码-解码延迟的代价提升了典型的IBBP图像组架构的编码效率。
[0008]如图2所示，在SVC中，空间伸缩是基于金字塔形编码机制而被支持的。在具有空间伸缩的SVC系统中，视频序列首先被降采样(down-sampled)以获得具有不同空间分辨率(层)的较小的图像。举例来说，具有原始分辨率的图像210可被空间抽取(spatialdecimation) 220处理以获取分辨率降低的图像211。如图2所示，分辨率降低的图像211可进一步被空间抽取221处理以获取分辨率进一步降低的图像212。除了二进的(dyadic)空间分辨率(其空间分辨率在每一层被减少至一半)之外，SVC还支持任意的分辨率比例，其被称为扩展的空间伸缩(Extended Spatial Scalability,以下简称ESS)图2中的SVC系统显示了具有三层的空间伸缩系统的范例，其中层O对应于具有最低空间分辨率的图像，而层2则对应于具有最高空间分辨率的图像。所述层O的图像是不参考其他层而被编码，SP，单层编码(single-layer coding)。举例来说,最低层图像212是利用运动补偿及巾贞内预测230来编码。[0009]与编码相关信息(例如运动信息)一样，所述运动补偿及帧内预测230会产生语法元素以用于进一步的熵编码240。图2实际上显示的是一个组合式SVC系统，其在提供空间伸缩的同时也提供品质伸缩(也被称为SNR伸缩)。所述系统也可提供时间伸缩，但其并未在图中明确显示。对于每一单层编码来说，残余编码误差都可以利用SNR增强层编码250来细化。图2中的所述SNR增强层可提供多种品质级(品质伸缩)。类似于非伸缩编码系统，每一支持的分辨率层都可以通过各自的单层运动补偿及帧内预测来编码。每一较高空间层也可基于一个或多个较低空间层而利用帧间层编码来进行编码。举例来说，在宏块或其他块架构的基础上，层I的视频可于宏块上利用基于层O视频的层间(inter-layer)预测或单层编码来进行适应性地编码。类似地，层2的视频可利用基于层I视频的层间预测或单层编码来进行适应性地编码。如图2所示，层I的图像211的编码可通过运动补偿及帧内预测231、基本层熵编码241与SNR增强层编码251来进行。类似地，层2的图像210的编码可通过运动补偿及帧内预测232、基本层熵编码242与SNR增强层编码252来进行。由于使用了层间编码，编码效率可被提升。此外，编码空间层I所需的信息可依赖于重建的层O(层间预测)。所述层间差别被称为增强层。所述H.264SVC提供三种层间预测方法:层间运动预测、层间帧内预测和层间残差预测。
[0010]在SVC中，增强层(Enhancement Layer,以下简称EL)可重复使用基本层(BaseLayer,以下简称BL)的运动信息，以减少层间运动数据冗余(redundancy)。举例来说,在mb_type被决定之前,EL的宏块编码可使用一个旗标，例如base_mode_f lag,以指示EL运动信息是否由BL直接推导出。若base_mode_flag为1，则EL宏块的分割信息及相关的参考索引与运动向量都是由BL中同位的8X8块的对应数据推导得出。BL的参考图像索引会直接用于EL。而EL的运动向量则是由与BL相关的资料缩放(scaled)而得到。除此之外，缩放的BL运动向量也可用来作为EL的另一个运动向量预测子(additional motion vectorpredictor)。
[0011]所述层间残差预测是使用上采样BL残差信息来减少EL残差的信息。所述BL的同位残差可利用双线性滤波来分块上采样，且可被用用于EL中当前块的残差的预测。所述参考层残差的上采样是在变换块(transform block)的基础上进行的，以确保没有滤波是在跨越变换块边界的情形下进行的。。
[0012]类似于层间残差预测，层间帧内预测也可以减少EL的冗余纹理(texture)信息。所述EL中的预测是通过分块上采样同位的BL重建信号来产生的。在层间帧内预测上采样过程中，4抽头(4-tap)和2抽头的FIR滤波被分别用于亮度和色度分量。与层间残差预测不同，用于层间帧内预测的滤波常常在跨子块(sub-block)边界的条件下进行。为了使解码简单，层间帧内预测可被限制于仅在BL中的帧内编码宏块进行。
[0013]在SVC中，品质伸缩是通过编码由细化系数组成的多种品质EL来实现的。伸缩的视频比特流可被容易地截取或撷取以提供具有不同视频品质或比特流尺寸的不同视频比特流。在SVC中，品质伸缩(也被称为SNR伸缩)可通过两种策略提供，即粗粒度分层(CoarseGrain Scalability,以下简称为 CGS)和中等粒度分层(Medium Grain Scalability,以下简称为CGS)。CGS可被视为空间分层的特例，其中BL的空间分辨率与EL的空间分辨率相同。然而，所述EL的品质较佳(EL的QP比BL的QP小)。与用于空间伸缩编码的层间预测机制相同的机制亦可应用于此。然而，其并未执行对应的上采样或去块操作。此外，层间帧内及残差预测是直接在变换(transform domain)域执行的。对于CGS中的层间预测来说，纹理信息的细化通常是通过以更小量化步长而不是用于先前CGS层的步长来重新量化EL中的残差信号而实现的。所述CGS可提供多个预设品质点(quality points)。
[0014]为了在保持合理的品质伸缩的复杂度的前提下提供更佳的比特率粒度(finerbit rate granularity)，H.264SVC 使用了 MGS。MGS 可被视为 CGS 的扩展，其中在一个 CGS条带(slice)中的量化系数可被分至多个MGS条带。基于其在zig-zag扫描顺序中的位置，CGS中的量化系数可被分为16个类型。这16个类型的系数可被分散至不同的条带以提供比 CGS 更多的品质抽取点(quality extraction points)。
[0015]在当前的HEVC中，仅提供了基于分层B (hierarchical-B)编码架构的单层编码，而没有提供空间伸缩和品质伸缩。因此，需要为当前的HEVC提供空间伸缩和品质伸缩的能力。更进一步，也需要在H.264SVC的基础上提供改进的SVC以获取更高效率及/或更佳的灵活性。

【发明内容】

[0016]本发明揭露一种将基本层信息用于增强层的可伸缩视频编码方法及装置，其中增强层具有比基本层更高的分辨率及/或更佳的品质。本发明的实施例利用基本层信息的各种碎片来提升增强层的编码效率。在依据本发明的一个实施中，所述方法和装置利用基本层的编码单元架构信息、模式信息、或运动信息来推导出用于增强层的对应的编码单元架构信息、模式信息、或运动向量预测子信息。所述编码单元架构信息、模式信息、或运动信息的组合亦可用于推导用于增强层的对应信息。在依据本发明的另一个实施例中，所述方法和装置基于基本层的运动向量预测子候选项或合并候选项来推导增强层的运动向量预测子候选项或合并候选项。在依据本发明的又一个实施例中，所述方法和装置基于基本层的帧内预测模式来推导增强层的帧内预测模式。
[0017]本发明的一个实施例是利用基本层的残余四叉树架构信息来推导增强层的残余四叉树架构。本发明的另一个实施例是通过再采样基本层的纹理来推导增强层的纹理。本发明的又一个实施例是通过再采样基本层的残差来推导增强层的残差的预测子。
[0018]本发明的一方面在于解决了用于增强层的上下文自适应熵编码的编码效率问题。在本发明的一个实施例中，用于处理增强层的语法元素的上下文信息是利用基本层的信息来决定的。本发明的另一方便在于解决了与环路内处理相关的编码效率问题。本发明的一个实施例是利用基本层的自适应环路滤波信息、采样点自适应偏移信息、或区块滤波信息来分别推导用于增强层的自适应环路滤波信息、采样点自适应偏移信息、或区块滤波信息。
【专利附图】

【附图说明】
[0019]图1是利用分层B图像的时间可伸缩视频编码范例的示意图。
[0020]图2是具有三个空间层的、可提供空间伸缩和品质伸缩的组合式可伸缩视频编码系统范例的示意图。
[0021]图3是用于可伸缩视频编码的编码单元架构范例的示意图，其中用于基本层的编码单元架构被伸缩并用来作为增强层的初始编码单元架构。
[0022]图4是依据本发明实施例的用于可伸缩视频编码的编码单元架构编码或运动信息编码的范例性流程图。
[0023]图5是依据本发明实施例的用于可伸缩视频编码的运动向量预测子推导或合并候选项推导的范例性流程图。
[0024]图6是依据本发明实施例的用于可伸缩视频编码的帧内预测模式推导的范例性流程图。
[0025]图7是依据本发明实施例的用于可伸缩视频编码的残余四叉树架构编码的范例性流程图。
[0026]图8是依据本发明实施例的用于可伸缩视频编码的纹理预测与再采样的范例性流程图。
[0027]图9是依据本发明实施例的用于可伸缩视频编码的残差预测与再采样的范例性流程图。
[0028]图10是依据本发明实施例的用于可伸缩视频编码的上下文自适应熵编码的范例性流程图。
[0029]图11是依据本发明实施例的用于可伸缩视频编码的自适应环路滤波信息编码、采样自适应偏移信息编码以及去块滤波信息编码的范例性流程图。
【具体实施方式】
[0030]在HEVC中，编码单元(Coding Unit)架构作为用于编码处理一个新的块架构被引入其中。一张图像首先被分割成最大编码单元(Large Coding Unit,以下简称为IXU),且每一 IXU被适应性地分割成⑶直至获得叶编码单元(leaf coding unit)或达到最小编码单元尺寸。所述CU架构信息需要被传送到解码器端以在解码器端恢复相同的CU架构。为了提升与用于伸缩HEVC的CU架构相关的编码效率，本发明的一个实施例中允许基本层(BaseLayer,以下简称为BL)的QJ架构被增强层(Enhancement Layer,以下简称为EL)重新使用。在EL的IXU级或⑶级，可传送一个旗标以指示⑶架构是否由BL的对应⑶重新使用。若BL的⑶架构被重新使用，则BL的⑶架构被缩放(scaled)以匹配EL的分辨率，且已缩放BL的⑶架构被EL重新使用。在某些实施例中，可被EL重新使用的⑶架构信息包含CU分割旗标和残余四叉树分割旗标。此外，已缩放CU架构的叶CU可被进一步分割成子CU(sub-CU)。图3显示了 CU分割重用的范例。其中分割(partition)310对应于BL的CU架构。在水平方向和垂直方向，EL的视频分辨率都是BL视频分辨率的两倍。BL的对应CU分割315的CU架构被分层两级。已缩放CU架构320接着被使用以作为用于EL的LCU的初始CU架构。EL中已缩放CU的叶CU可进一步分割成子CU，其结果如图3中330所示。可用一个旗标来指示叶⑶是否被进一步分割成子⑶。然而，图3仅仅显示⑶架构被重用的一个范例，其他信息也可以被重用。例如:预测类型、预测尺寸(prediction size)、合并索引(merge index)、巾贞间参考方向、参考图像索引、运动向量、运动向量预测子(Motion VectorPredictor,以下简称MVP)索引和帧内模式。当需要时，所述信息/数据可在被用于EL中之前被缩放(scaled)。
[0031]在依据本发明的另一实施例中，用于叶CU的模式信息被重用。所述模式信息包含跳跃旗标(skip flag)、预测类型、预测尺寸、帧间参考方向、参考图像索引、运动向量、运动向量索引、合并旗标(merge flag)、合并索引(merge index)、跳跃模式、合并模式(mergemode )以及帧内模式。所述EL中叶CU的模式信息可共享BL层中对应CU的相同或已缩放模式信息。可用一个旗标来指不EL是否会重用来自BL的模式信息。对于模式信息的一个或多个碎片(pieces)来说，也可用一个旗标来指示EL是否会重用来自BL的此模式信息。在依据本发明的又一个实施例中，BL中的对应预测单元(Prediction Unit,以下简称为HJ)或CU的运动信息可被重用以推导EL中的PU或CU的运动信息。所述运动信息可包含帧间预测方向、参考图像索引、运动向量(Motion Vector,以下简称为MV)、MVP、MVP索引、合并索引、合并候选项(merge candidate)、以及巾贞内模式。所述用于BL的运动信息可被用来作为EL中MVP信息的预测子或候选项。举例来说，BL的MV和BL的MVP可被添加至用于EL的MVP推导的MVP列表及/或合并列表(merge list)。上述BL的MV可以是BL中对应PU的MV、BL中对应PU的相邻I3U的MV、BL中对应PU的合并候选项的MV、BL中对应PU的MVP、或者BL中对应PU的同位(co-located)MV。
[0032]在另一实施例中，用于EL的合并候选项的推导可利用BL的运动信息来进行。举例来说，BL中对应PU的合并候选项可被添加至合并候选项列表及/或MVP列表。上述BL的运动信息可以是BL中对应PU的运动信息、与BL中对应PU的相邻PU相关的运动信息、BL中对应PU的合并候选项、BL中对应PU的MVP、或者BL中对应PU的同位TO。在此实施例中，所述运动信息包含帧间预测方向、参考图像索引和运动向量。
[0033]在又一实施例中，BL中对应PU或⑶的帧内模式可被重用于EL。举例来说，BL中对应F1U或⑶的巾贞内模式可被添加至巾贞内最可能模式列表(intra most probable modelist)。在依据本发明的一个实施例中，可利用BL的运动信息来预测用于EL的帧内模式。EL中帧内最可能模式列表的顺序可依据BL中的帧内预测模式信息来适应性地改变。从而，用于EL中帧内最可能模式列表的码字的码字长度可依据BL中的帧内预测模式信息来适应性地改变。举例来说，具有与编码的BL帧内模式的预测方向越近预测方向的帧内保持模式(intra remaining mode)的码字可被赋予更短的码字长度。于另一实施例中,BL巾贞内模式的相邻方向模式(neighboring direction mode)也可被添加至EL巾贞内模式编码的巾贞内最可能模式列表。所述BL的帧内预测模式信息可以是BL中对应PU的帧内预测模式、或者BL帧内模式的相邻方向模式、或者BL中对应PU的相邻PU的帧内预测模式。
[0034]上述选择的BL运动信息的MVP索引、合并索引、及帧内模式索引可被用于适应性地修改EL的MVP列表、合并索引列表、和帧内最可能模式列表的索引顺序。举例来说，在HEVC测试模式版本3.0 (HEVC Test Model Version3.0)中，MVP列表的顺序为{左侧MVP，上方 MVP，同位 MVP} ({left MVP, above MVP, co-located MVP})。若对应的 BL 的 PU 选择上方MVP，则上方MVP的顺序在EL中会被前移。相应地，EL中的MVP列表将会变成{上方MVP，左侧 MVP，同位 MVP} ({left MVP, above MVP, co-located MVP})。此外，BL 的已编码MV、缩放的已编码MV、MVP候选项、缩放的MVP候选项、合并候选项以及缩放的合并候选项可替代部分EL的MVP候选项及/或合并候选项。当用于EL中PU或CU的MVP候选项或合并候选项被编码或解码所需时，则会执行基于用于BL中对应PU或CU的运动信息来推导用于EL中PU或⑶的运动信息的程序。
[0035]如前文所述，用于BL的CU架构信息可被用于决定用于EL的CU架构信息。更进一步，用于BL的⑶架构信息、模式信息和运动信息可被联合地(jointly)用于决定用于EL的CU架构信息、模式信息和运动信息。所述用于BL模式信息或运动信息也可被用于决定用于EL的模式信息或运动信息。当所述用于EL的CU架构信息、模式信息、运动信息或三者的任意组合需要被编码或解码时，则会执行基于用于BL的对应信息来推导用于EL的CU架构信息、模式信息、运动信息或三者的任意组合的程序。在HM-3.0中，预测残差可利用四叉树分割来进一步处理，且可为残余四叉树分割结果(results of residual quadtreepartition)的每一个块选择一种编码类型。残余四叉树分割信息及编码块类型(CodingBlock Pattern,以下简称为CBP)信息皆需要整合至比特流，以使解码器可恢复所述残余四叉树信息。依据本发明的一个实施例，BL中对应CU的残余四叉树分割和CBP可被重用于EL。所述四叉树分割与CBP可被缩放(scaled)并用来作为EL残余四叉树分割及CBP编码的预测子。在HEVC中，用于块变换的单元被称为变换单元(Transform Unit,以下简称为TU)，且一个TU可被分割成更小的TU。在依据本发明的一个实施例中，可传送用于EL的根TU级或TU级的一个旗标，以指示BL中对应TU的残余四叉树编码(Residual Quadtree Coding,以下简称为RQT)架构是否被用于预测EL中当前TU的RQT架构。若BL中对应TU的RQT架构被用于预测EL中当前TU的RQT架构，则BL中对应TU的RQT架构被缩放(scaled)并作为EL中当前TU的初始RQT架构。在用于EL的初始RQT架构中的叶TU中，可传送一个分割旗标用来指示所述TU是否被分割成子TU。当编码器需要编码EL的RQT架构、或解码器需要解码EL的RQT架构时，则会执行基于BL的RQT架构信息来推导EL中RQT架构的程序。
[0036]在H.264/AVC伸缩扩展中，4抽头及2抽头FIR滤波在用于亮度和色度分量的纹理信号(texture signal)的上采样操作中被分别采用。在依据本发明的一个实施例中，BL的纹理可被再采样(re-sample)以作为EL纹理的预测子(predictor),其中所述再采样是利用改进的上采样方法来替换H.264/AVC伸缩扩展中的4抽头及2抽头FIR滤波。依据本发明的滤波是采用下述滤波或其组合:离散余弦变换内插滤波(Discrete CosineTransform Interpolation Filter,以下简称为DCTIF)、离散正弦变换内插滤波(DiscreteSine Transform Interpolation Filter,以下简称为DSTIF)、维纳滤波(Wiener filter)、非局部平均滤波(non-local mean filter)、平滑滤波(smoothing filter)、以及双边滤波(bilateral filter)。依据本发明的滤波可跨TU边界执行，或可限制于TU边界执行。依据本发明的一个实施例，层间帧内预测可跳过填充(padding)及去块程序以缓解计算量及数据依赖的问题。而BL中的采样点自适应偏移(The Sample Adaptive Offset,以下简称为SA0)、自适应环路滤波(Adaptive Loop Filter,以下简称为ALF)、非局部平均滤波、及/或平滑滤波也可被跳过。上述填充、去块、SAO、ALF、非局部平均滤波、及平滑滤波的跳过可被应用至整个IXUJf⑶、PU、TU、预设区域、IXU边界、叶⑶边界、PU边界、TU边界或预设区域的边界。在另一实施例中，BL的纹理可利用滤波来处理以减少滤波后的BL纹理，所述BL纹理具有与EL纹理相同的分辨率且可被用作EL纹理的预测子。维纳滤波、ALF、非局部平均滤波、平滑滤波及SAO可在BL的纹理被用作EL纹理的预测子之前应用于BL的纹理。
[0037]为了提升图像品质，在BL的纹理被再采样之前，本发明的一个实施例将维纳滤波或适应性滤波应用至BL的纹理。可选地，维纳滤波或适应性滤波也可在BL的纹理被再采样之后应用至BL的纹理。此外，在BL的纹理被再采样之前，本发明的一个实施例还将SAO或ALF应用至BL的纹理。
[0038]在依据本发明的另一个实施例中，基于LCU或基于CU的维纳滤波及/或自适应偏移被用于层间帧内预测。所述滤波可被应用至BL纹理数据或上采样的BL纹理数据。
[0039]在H.264SVC中，2抽头FIR滤波器在用于亮度和色度分量的残差信号(residualsignal)的上采样操作中被采用。在依据本发明的一个实施例中，可利用改进的上采样方法来替换H.264SVC中的2抽头FIR滤波。所述的滤波可以是下述的一个滤波或其组合:DCTIF、DSTIF、维纳滤波、非局部平均滤波、平滑滤波、以及双边滤波。当EL具有比BL更高的空间分辨率时，上述滤波可被应用至BL残差的再采样。上述所有的滤波都可被限制于跨越(cross)TU边界或不跨越TU边界。此外，若EL具有比BL更高的分辨率或EL具有与BL相同的分辨率，贝1J在空域(spatial domain)或频域(frequency domain)皆可执行残差预测。当EL具有比BL更高的空间分辨率时，BL残差可在频域中被再采样以形成用于EL残差的预测子。当编码器或解码器需要基于再采样的BL残差来推导EL残差的预测子时，则会执行上述通过再采样BL残差来推导EL残差的预测子的程序。
[0040]依据本发明的一个实施例，BL的信息可被用于EL中的上下文自适应熵编码(context-based adaptive entropy coding)。举例来说，上下文信息或上下文自适应二进制算数编码(Context-based Adaptive Binary Arithmetic Coding,以下简称为 CABAC)的二值化可利用BL的信息。基于BL中的对应信息，所述EL可使用不同的上下文模型、不同的上下文形成方法、或不同的上下文集合。举例来说，取决于BL中的对应PU是否以跳过模式(skip mode)被编码,EL的PU可使用不同的上下文模型。在本发明的另一实施例中，用于BL中CABAC的部分上下文模型的几率(probability)或最可能符号(most probable symbol,以下简称为MPS)可被重用于推导用于EL中CABAC的部分上下文模型的初始几率或MPS。所述语法元素(syntax element)可以是分割旗标、跳过旗标、合并旗标、合并索引、色度帧内模式、亮度帧内模式、分割尺寸预测模式、帧间预测方向、运动向量差、MVP索引、参考索弓1、量化参数差值(delta quantization parameter)、有值旗标(significant flag)、末位有值位置(last significant position)、系数大于 I (coefficient-greater-than-one)>系数值减 I (coefficient-magnitude-minus-one)、ALF 控制旗标、ALF 旗标、ALF 轨迹尺寸(ALF footprint size)、ALF 合并旗标、ALF 开 / 关决定(ALF ON/OFF decision) ALF系数、SAO旗标、SAO类型、SAO偏移、SAO合并旗标、SAO运行(SAO run)、SAO开/关决定(SAO on/off decision)、变换细分旗标(transform subdivision flags)、残余四叉树编码块旗标(residual quadtree Coded Block Flag)、或残余四叉树根编码块旗标(residualquadtree root Coded Block Flag)。依据BL的信息,对应于上述语法兀素的码字可被适应性地改变，而且依据BL的信息，对应于EL中语法元素的码字查找表中码字顺序也可被适应性地改变。当EL的语法元素需要被编码或解码时，则利用BL的信息决定用于处理EL的语法元素的上下文信息的程序可被执行。
[0041]在本发明的一个实施例中，可利用BL中的某些ALF信息来推导EL中的ALF信息。所述ALF信息可包含滤波适应模式(filter adaptation mode)、滤波系数、滤波轨迹(filter footprint)、区域划分(region partition)、开/关决定(0N/0FF decision)、使能旗标及合并结果(merge results)。举例来说，EL可利用BL中的部分ALF参数来作为EL中的ALF参数或ALF参数的预测子。当ALF信息被直接从BL的ALF信息再用时，则不需要为EL传送相关的ALF参数。可利用一个旗标来指示用于EL的ALF信息是否是由BL的ALF信息预测得到。若所述旗标表明用于EL的ALF信息是由BL的ALF信息预测得到，则BL的ALF信息可被缩放(scaled)并用来作为EL的ALF信息的预测子。可利用一个值(value)来指示EL的ALF信息预测子与ALF信息之间的差别(differences)。当编码器或解码器需要推导EL的ALF信息时，则上述利用BL的ALF信息来推导用于EL的ALF信息的程序被执行。
[0042]在本发明的一个实施例中，可利用BL中的某些SAO信息来推导EL中的SAO信息。所述SAO信息可包含偏移类型、偏移、区域划分、开/关决定、使能旗标、以及合并结果。举例来说，EL可利用BL中的部分SAO参数来作为用于EL的SAO参数。当SAO信息被直接从BL的SAO信息再用时，则不需要为EL传送相关的SAO参数。可利用一个旗标来指示用于EL的SAO fg息是否是由BL的SAO /[目息预测得到。若所述旗标表明用于EL的SAO /[目息是由BL的SAO信息预测得到，则BL的SAO信息可被缩放(scaled)并用来作为EL的SAO信息的预测子。可利用一个值(value)来指示EL的SAO信息预测子与SAO信息之间的差别(differences)。当编码器或解码器需要推导EL的SAO信息时，则上述利用BL的SAO信息来推导用于EL的SAO信息的程序被执行。
[0043]在本发明的一个实施例中，可利用BL中的某些去块滤波(DeblockingFilter，以下简称为DF)信息来推导EL中的DF信息。所述DF信息可包含阈值，例如用于决定边界强度(Boundary Strength,以下简称为BS)的阈值α、β、及t。。所述DF信息也可包含滤波参数、开/关滤波决定、强/弱滤波选择、或滤波强度。当DF信息被直接从BL的DF信息再用时，则不需要为EL传送相关的DF参数。可利用一个旗标来指示用于EL的DF信息是否是由BL的DF信息预测得到。若所述旗标表明用于EL的DF信息是由BL的DF信息预测得至IJ，则BL的DF信息可被缩放(scaled)并用来作为EL的DF信息的预测子。可利用一个值(value)来指示EL的DF信息预测子与DF信息之间的差别(differences)。当编码器或解码器需要推导EL的DF信息时，则上述利用BL的DF信息来推导用于EL的DF信息的程序被执行。
[0044]图4-11显示了依据本发明不同实施例的可伸缩视频编码的范例性流程图。图4是依据本发明实施例的用于可伸缩视频编码的CU架构编码或运动信息编码的范例性流程图，其中视频数据被配置为基本层(BL)和增强层(EL)，且EL具有比BL更高的空间分辨率或更佳的视频品质。用于BL中⑶的⑶架构、运动信息、或二者的组合在步骤410中被决定。而用于EL中对应⑶的⑶架构、MVP信息、或二者的组合则基于用于BL中⑶的⑶架构、运动信息、或二者的组合而在步骤420中被决定。图5是依据本发明实施例的用于可伸缩视频编码的MVP推导或合并候选项推导的范例性流程图，其中视频数据被配置为基本层(BL)和增强层(EL)，且EL具有比BL更高的空间分辨率或更佳的视频品质。用于BL的运动信息在步骤510中被决定。而EL中的MVP候选项或合并候选项则基于BL的运动信息而在步骤520中被推导出来。图6是依据本发明实施例的用于可伸缩视频编码的帧内预测模式推导的范例性流程图，其中视频数据被配置为基本层(BL)和增强层(EL)，且EL具有比BL更高的空间分辨率或更佳的视频品质。BL的帧内预测模式的信息在步骤610中被决定。而EL的帧内预测模式则基于BL的帧内预测模式的信息而在步骤620中被推导出来。
[0045]图7是依据本发明实施例的用于可伸缩视频编码的残余四叉树架构编码的范例性流程图，其中视频数据被配置为基本层(BL)和增强层(EL)，且EL具有比BL更高的空间分辨率或更佳的视频品质。所述BL残余四叉树编码(RQT)架构的信息在步骤710中被决定。而EL的RQT架构则基于BL的RQT架构的信息在步骤720中推导出来。图8是依据本发明实施例的用于可伸缩视频编码的纹理预测与再采样的范例性流程图，其中视频数据被配置为基本层(BL)和增强层(EL)，且EL具有比BL更高的空间分辨率或更佳的视频品质。BL的纹理的信息在步骤810中被决定。而EL的纹理的预测子则基于BL的纹理的信息在步骤820中被推导出来。图9是依据本发明实施例的用于可伸缩视频编码的残差预测与再采样的范例性流程图，其中视频数据被配置为基本层(BL)和增强层(EL)，且EL具有比BL更高的空间分辨率或更佳的视频品质。BL的残差信息在步骤910中被决定。而EL的残差的预测子则通过再采样BL的残差在步骤920中推导出来。
[0046]图10是依据本发明实施例的用于可伸缩视频编码的上下文自适应熵编码的范例性流程图，其中视频数据被配置为基本层(BL)和增强层(EL)，且EL具有比BL更高的空间分辨率或更佳的视频品质。BL的信息在步骤1010中被决定。而用于处理EL的语法元素的上下文信息则利用BL的信息在步骤1020中被决定。图11是依据本发明实施例的用于可伸缩视频编码的ALF信息编码、SAO信息编码以及DF信息编码的范例性流程图，其中视频数据被配置为基本层(BL)和增强层(EL)，且EL具有比BL更高的空间分辨率或更佳的视频品质。BL的ALF信息、SAO信息、或DF信息在步骤1110中被决定。而用于EL的ALF信息、SAO信息、或DF信息则利用BL的ALF信息、SAO信息、或DF信息在步骤1120中分别推导出来。
[0047]上述的根据本发明的可伸缩视频编码的实施例(其中增强层的编码是利用基本层的信息)可以不同硬件、软件代码、或两者的结合来实施。举例来说，依据本发明的一实施例，其可以是用来实施所述方法的、整合至视频压缩芯片中的电路、或整合至视频压缩软件中的程序代码。依据本发明的另一实施例，其也可以是数字信号处理器(Digital SignalProcessor,DSP)上执行的、用来实施所述方法的程序代码。本发明亦可包含由计算机处理器、DSP、微处理器、或现场可编程门阵列(Field Programmable Gate Array, FPGA)执行的一系列功能。依据本发明，通过执行定义了本发明实施例特定方法的机器可读软件代码或固件代码，这些处理器可被设置为执行特定的任务。所述软件代码或固件代码可通过不同的编程语言及不同格式/样式来开发。所述软件代码亦可符合不同的目标平台。然而，执行与本发明相应的任务的、具有不同代码格式、样式及语言的软件代码，以及其他方式形成的代码都应包含在本发明的范围内。
[0048]在不脱离本发明的精神及基本特征的前提下，本发明亦可用其他特定形式来实施。以上所述的实施例仅仅是为了例示本发明，并非本发明的限制。本发明的范围当所附的权利要求为准，凡依本发明权利要求所做的均等变化与修饰，皆应属本发明的涵盖范围。
【权利要求】
1.一种用于可伸缩视频编码的编码单元架构编码、模式信息编码或运动信息编码的方法，其中视频数据被配置为一个基本层和一个增强层，且该增强层具有比该基本层更高的空间分辨率或更佳的视频品质，该方法包含: 决定用于该基本层中的编码单元的编码单元架构、模式、运动信息或以上三者的组合；以及依据用于该基本层中的该编码单元的该编码单元架构、该模式、该运动信息或以上三者的该组合，分别决定用于该增强层中对应编码单元的编码单元架构、模式、运动向量预测子信息或以上三者的组合。
2.如权利要求1所述的方法，其特征在于，该依据用于该基本层中的该编码单元的该编码单元架构、该模式、该运动信息或以上三者的该组合，分别决定用于该增强层中对应编码单元的编码单元架构、模式、运动向量预测子信息或以上三者的组合的步骤，是在编码器需要分别编码用于该增强层中该对应编码单元的该编码单元架构、该模式、该运动向量预测子信息或以上三者的该组合时执行。
3.如权利要求1所述的方法，其特征在于，该依据用于该基本层中的该编码单元的该编码单元架构、该模式、该运动信息或以上三者的该组合，分别决定用于该增强层中对应编码单元的编码单元架构、模式、运动向量预测子信息或以上三者的组合的步骤，是在解码器需要分别解码用于该增强层中该对应编码单元的该编码单元架构、该模式、该运动向量预测子信息或以上三者的该组合时执行。
4.如权利要求1所述的方法，更包含:整合第一旗标，用来指示决定用于该增强层中该对应编码单元的该编码单元架构、该模式、该运动向量预测子信息或以上三者的该组合是否是分别基于用于该基本层中的该编码单元的该编码单元架构、该模式、该运动信息或以上三者的该组合进行的。
5.如权利要求4所述的方法，其特征在于，若该第一旗标指示决定用于该增强层中该对应编码单元的该编码单元架构是基于用于该基本层的该编码单元的该编码单元架构预测的，则用于该增强层中该对应编码单元的该编码单元架构从用于该基本层中该编码单元的该编码单元架构缩放得到，且被用作该增强层中该对应编码单元的初始编码结构。
6.如权利要求5所述的方法，其特征在于，一分割旗标被整合以指示该增强层中的该对应编码单元的叶编码单元是否被分割成子编码单元。
7.如权利要求4所述的方法，其特征在于，若该第一旗标指示决定用于该增强层中该对应编码单元的该编码单元架构、该模式、该运动向量预测子信息是基于用于该基本层的该编码单元的该编码单元架构、该模式、该运动信息预测的，则用于该增强层中该对应编码单元的该编码单元架构、该模式、及该运动向量预测子信息从用于该基本层中该编码单元的该编码单元架构、该模式、及该运动信息缩放得到。
8.如权利要求1所述的方法，其特征在于，当决定用于该增强层中该对应编码单元的该编码单元架构、该模式、及该运动向量预测子信息的组合是分别基于用于该基本层的该编码单元的该编码单元架构、该模式、该运动信息进行时，该编码单元架构为编码单元分割旗标或残余四叉树分割旗标；该模式为跳过模式、合并模式、或帧内模式；以及该运动信息包含帧间预测方向、参考图像索引、运动向量、合并索引、及运动向量预测子索引中的一个或其组合。
9.如权利要求1所述的方法，其特征在于，该编码单元为叶编码单元，且决定用于该增强层中该对应编码单元的该模式或该运动向量预测子信息是分别基于用于该基本层的该编码单元的该模式或该运动信息进行的。
10.如权利要求9所述的方法，其特征在于，若编码器需要分别编码用于该增强层中该对应编码单元的该模式或该运动向量预测子信息时，分别执行基于用于该基本层的该编码单元的该模式或该运动信息来决定用于该增强层中该对应编码单元的该模式或该运动向量预测子信息的步骤。
11.如权利要求9所述的方法，其特征在于，若解码器需要分别解码用于该增强层中该对应编码单元的该模式或该运动向量预测子信息时，分别执行基于用于该基本层的该编码单元的该模式或该运动信息来决定用于该增强层中该对应编码单元的该模式或该运动向量预测子信息的步骤。
12.如权利要求9所述的方法，更包含:整合第一旗标，用来指示决定用于该增强层中该对应叶编码单元的该模式或该运动向量预测子信息是否是分别基于用于该基本层中的该叶编码单元的该模式或该运动信息预测的。
13.如权利要求12所述的方法，其特征在于，若该第一旗标指示决定用于该增强层中该对应叶编码单元的该模式或该运动向量预测子信息是分别基于用于该基本层中的该叶编码单元的该模式或该运动信息预测的，则用于该增强层中该对应叶编码单元的该模式或该运动向量预测子信息从用于该基本层中该叶编码单元的该编码单元架构缩放得到。
14.如权利要求1所述的方法，其特征在于，该模式为跳过模式、合并模式、或帧内模式；且该运动向量预测子信息包含运动向量预测子候选项列表、运动向量预测子候选项、运动向量预测子候选项列表顺序、合并候选项列表、合并候选项、合并候选项列表顺序、合并索引、以及运动向量预测子索引中的一个或其组合。
15.一种用于可伸缩视频编码的编码单元架构编码、模式信息编码或运动信息编码的装置，其中视频数据被配置为一个基本层和一个增强层，且该增强层具有比该基本层更高的空间分辨率或更佳的视频品质，该装置包含: 一手段，用以决定用于该基本层中的编码单元的编码单元架构、模式、运动信息或以上三者的组合；以及一手段，用以依据用于该基本层中的该编码单元的该编码单元架构、该模式、该运动信息或以上三者的该组合，分别决定用于该增强层中对应编码单元的编码单元架构、模式、运动向量预测子信息或以上三者的组合。
16.如权利要求15所述的装置，更包含: 一手段，用以整合第一旗标，该第一旗标用来指示决定用于该增强层中该对应编码单元的该编码单元架构、该模式、该运动向量预测子信息或以上三者的该组合是否是分别基于用于该基本层中的该编码单元的该编码单元架构、该模式、该运动信息或以上三者的该组合进行的。
17.如权利要求15所述的装置，其特征在于，当决定用于该增强层中该对应编码单元的该编码单元架构、该模式、及该运动向量预测子信息的组合是分别基于用于该基本层的该编码单元的该编码单元架构、该模式、该运动信息进行时，该编码单元架构为编码单元分割旗标或残余四叉树分割旗标；该模式为跳过模式、合并模式、或帧内模式；以及该运动信息包含帧间预测方向、参考图像索引、运动向量、合并索引、及运动向量预测子索引中的一个或其组合。
18.如权利要求15所述的装置，其特征在于，该编码单元为叶编码单元，且决定用于该增强层中该对应编码单元的该模式或该运动向量预测子信息是分别基于用于该基本层的该编码单元的该模式或该运动信息进行的。
19.一种用于可伸缩视频编码的运动向量预测子候选项或合并候选项推导的方法，其中视频数据被配置为一个基本层和一个增强层，且该增强层具有比该基本层更高的空间分辨率或更佳的视频品质，该方法包含: 决定该基本层中的运动信息；以及基于该基本层中的该运动信息推导该增强层中的运动向量预测子候选项或合并候选项。
20.如权利要求19所述的方法，其特征在于，当编码或解码该视频数据需要推导该增强层中的该运动向量预测子候选项或该合并候选项时，执行该基于该基本层中的该运动信息推导该增强层中的运动向量预测子候选项或合并候选项的步骤。
21.如权利要求19所述的方法，其特征在于，该增强层中的运动向量预测子候选项列表包含至少一个该基本层中的运动向量。
22.如权利要求21所述的方法，其特征在于，该基本层中的该运动向量包含该基本层中对应预测单元的运动向量、该基本层中对应预测单元的相邻预测单元的运动向量、该基本层中对应预测单元的合并候选项的运动向量、该基本层中对应预测单元的运动向量预测子、或该基本层中对应预测单元的同位运动向量。
23.如权利要求21所述的方法，其特征在于，依据该增强层与该基本的视频分辨率之比，该基本层中的该运动向量被放大以用于该运动向量预测子列表。
24.如权利要求19所述的方法，其特征在于，该基本层中的至少一个运动向量用来替换该增强层中的运动向量预测子列表中的至少一个运动向量预测子候选项，或者该基本层中的该至少一个运动向量被添加至该增强层中的该运动向量预测子列表。
25.如权利要求24所述的方法，其特征在于，该基本层中的该运动向量包含该基本层中对应预测单元的运动向量、该基本层中对应预测单元的相邻预测单元的运动向量、该基本层中对应预测单元的合并候选项的运动向量、该基本层中对应预测单元的运动向量预测子、或该基本层中对应预测单元的同位运动向量。
26.如权利要求24所述的方法，其特征在于，依据该增强层与该基本的视频分辨率之比，该基本层中的该运动向量被放大以用于该运动向量预测子列表。
27.一种用于可伸缩视频编码的运动向量预测子候选项或合并候选项推导的装置，其中视频数据被配置为一个基本层和一个增强层，且该增强层具有比该基本层更高的空间分辨率或更佳的视频品质，该装置包含: 一手段，用以决定该基本层中的运动信息；以及一手段，用以基于该基本层中的该运动信息推导该增强层中的运动向量预测子候选项或合并候选项。
28.如权利要求27所述的装置，其特征在于，该基本层中的至少一个运动向量用来替换该增强层中的运动向量预测子列表中的至少一个运动向量预测子候选项，或者该基本层中的该至少一个运动向量被添加至该增强层中的该运动向量预测子列表。
29.一种用于可伸缩视频编码的帧内预测模式推导的方法，其中视频数据被配置为一个基本层和一个增强层，且该增强层具有比该基本层更高的空间分辨率或更佳的视频品质，该方法包含: 决定该基本层的帧内预测模式的信息；以及基于该基本层的该帧内预测模式的信息推导该增强层的帧内预测模式。
30.如权利要求29所述的方法，其特征在于，当编码器需要编码该增强层的该帧内预测模式时，执行该基于该基本层的该帧内预测模式的信息推导该增强层的帧内预测模式的步骤。
31.如权利要求29所述的方法，其特征在于，当解码器需要解码该增强层的该帧内预测模式时，执行该基于该基本层的该帧内预测模式的信息推导该增强层的帧内预测模式的步骤。
32.如权利要求29所述的方法，其特征在于，该基本层的该帧内预测编码模式被添加至用于该增强层的最可能模式列表。
33.如权利要求29所述的方法，其特征在于，该基本层的该帧内预测模式的信息包含该基本层中对应预测单元的帧内预测模式、该基本层的该内预测模式的相邻方向模式、以及该基本层中对应预测单元的相邻预测单元的帧内预测模式或该帧内预测模式的相邻方向模式中的一个或其组合。
34.如权利要求29所述的方法，其特征在于，用于该增强层的最可能模式列表的顺序依据该基本层的该帧内预测模式的信息而适应性地改变。
35.如权利要求29所述的方法，其特征在于，用于与该增强层的该帧内预测模式相关的保持模式的码字取决于该保持模式的预测方向；以及该保持模式的该预测方向越靠近该基本层的该帧内预测模式的该预测方向，则该码字越短。
36.如权利要求29所述的方法，其特征在于，该帧内预测模式为亮度帧内预测模式或色度帧内预测模式。
37.一种用于可伸缩视频编码的帧内预测模式推导的装置，其中视频数据被配置为一个基本层和一个增强层，且该增强层具有比该基本层更高的空间分辨率或更佳的视频品质，该装置包含: 一手段，用以决定该基本层的帧内预测模式的信息；以及一手段，用以基于该基本层的该帧内预测模式的信息推导该增强层的帧内预测模式。
【文档编号】H04N19/33GK103621081SQ201280024337
【公开日】2014年3月5日申请日期:2012年5月31日优先权日:2011年6月10日
【发明者】庄子德, 陈庆晔, 傅智铭, 黄毓文, 雷少民申请人:联发科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：庄子德;陈庆晔;傅智铭;黄毓文;雷少民
技术所有人：联发科技股份有限公司
我是此专利的发明人

上一篇：用于借助于变压器进行通信的方法和设备的制作方法
上一篇：使用格规约和K-best检测的MIMO接收器的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。