视频译码中的自适应系数扫描的制作方法

文档序号:7938482阅读:144来源:国知局
专利名称:视频译码中的自适应系数扫描的制作方法
技术领域
本发明涉及数字视频译码,且更明确地说,涉及视频块的系数(例如经变换的视频 块的变换系数)的熵译码。
背景技术
数字视频能力可并入多种装置中,所述装置包括数字电视机、数字直播系统、例如 无线电话手持机的无线通信装置、无线广播系统、个人数字助理(PDA)、膝上型或桌 上型计算机、数码相机、数字记录装置、视频游戏装置、视频游戏控制台,等等。数字 视频装置实施视频压缩技术(例如MPEG-2、 MPEG-4,或H.264/MPEG-4 (第10部分) 高级视频译码(AVC)),以更高效地发射和接收数字视频。视频压縮技术执行空间和时 间预测,减少或移除视频序列中固有的冗余。
视频压縮通常包括空间预测和/或时间预测。明确地说,帧内译码(intra-coding)依 靠空间预测来减少或移除给定经译码单元内的视频块之间的空间冗余,所述经译码单元 可包含视频帧、视频帧的切片(slice),等等。与此对比,帧间译码(inter-coding)依靠 时间预测来减少或移除视频序列的连续经译码单元的视频块之间的时间冗余。对于帧内 译码,视频编码器执行空间预测,以基于同一经译码单元内的其它数据而压縮数据。对 于帧间译码,视频编码器执行运动估计和运动补偿以追踪两个或两个以上邻近经译码单
元的对应视频块的移动。
经译码的视频块可由包含预测模式和预测性块大小的预测信息以及指示正被译码的块与预测性块之间的差异的残差(residual)数据块表示。在帧间译码的情况下,使用 一个或一个以上运动向量来识别预测性数据块,而在帧内译码的情况下,可使用预测模 式来产生预测性块。帧内译码和帧间译码两者均可定义若干不同的预测模式,所述预测 模式可定义译码中所使用的不同的块大小和/或预测技术。
视频编码器可应用变换、量化和熵译码过程来进一步减少与残差块的传送相关联的
位速率。变换技术可包含离散余弦变换或概念上类似的过程,例如小波变换、整数变换 或其它类型的变换。在离散余弦变换(DCT)过程中,举例来说,所述变换过程将一组 像素值转换成变换系数,所述变换系数表示所述像素值在频域中的能量。将量化应用于 所述变换系数,且量化通常涉及限制与任一给定变换系数相关联的位的数目的过程。熵 译码包含共同压縮经量化变换系数序列的一个或一个以上过程。
在熵译码过程之前,可通过将来自二维块的变换系数扫描成一维向量来使变换系数 的经变换视频块串行化。通常,以Z字形(zig-zag)方式执行扫描,使得视频块的左上 部分中的变换系数在一维向量中较早出现,且视频块的右下部分中的变换系数较晚出 现。高能变换系数在变换之后通常驻存在靠近左上角处,因此Z字形扫描有效地将非零 变换系数分组在靠近一维向量的开始处。扫描次序可显著影响熵译码中可实现的压縮等 级。
熵译码过程的实例包括内容自适应可变长度译码(content adaptive variable length coding, CAVLC)和上下文自适应二进制算术译码(context adaptive binary arithmetic coding, CABAC)。 CAVLC是ITU H.264/MPEG4 (第10部分)AVC标准所支持的一种 类型的熵译码技术。CAVLC以有效地压縮经量化变换系数的串行化"游程"的方式使 用可变长度译码(VLC)表。CABAC是ITU H.264/MPEG4 (第10部分)AVC标准所 支持的另一类型的熵译码技术。CABAC可涉及若干阶段,包括二进制化(binarization)、 上下文模型选择和二进制算术译码。还存在许多其它类型的熵译码技术,且未来将很可
能出现新的熵译码技术。
视频解码器可执行对应于编码过程中所使用的熵译码的类型的逆熵译码操作,以重
构变换系数的一维向量。还可在解码器处执行逆扫描,以根据接收到的变换系数的一维 向量形成二维块。视频解码器接着逆量化且逆变换块中的变换系数,以重构残差像素数 据。视频解码器可使用包含预测模式、预测大小的经解码预测信息以及(在帧间译码的 情况下)运动信息来获得预测性视频块。视频解码器可接着将预测性块与对应的经重构 残差块组合,以便产生经解码的视频序列。

发明内容
一般来说,本发明描述用于扫描视频块的系数(例如,经量化的变换系数)的技术。 在编码方面,扫描根据系数的二维块创建系数的一维向量,且在解码方面,逆扫描根据 一维向量创建系数的二维块。并非使用常规的Z字形扫描,本发明中所描述的扫描技术 基于与先前被译码的系数块相关联的统计资料来调适块中的系数的扫描次序,所述先前 被译码的系数块是以相同预测模式译码的。针对每一预测模式,存储系数的统计资料, 例如,指示给定系数具有零或非零值的概率。可周期性地进行对扫描次序的调整,以便 更好地确保将非零系数朝一维向量的开始处分组在一起,且将零值系数朝一维向量的结 束处分组在一起,这可改进熵译码的有效性。
扫描次序的调整可能是计算密集型的。因此,本发明的技术可强加可减小扫描次序 调整发生的频率的阈值和阈值调整,但由于扫描次序调整的缘故仍实现所要的压縮改 进。所述技术可由编码器和解码器以互逆方式执行。即,编码器可在熵编码之前使用自 适应扫描技术将视频块的系数从二维格式扫描成一维向量格式。解码器可扫描接收到的 视频块的系数的一维向量以形成系数的二维块。因此,视频块的系数可以二维块格式或 一维向量格式表示。本发明的扫描技术通常定义如何将视频块的系数从二维块格式转换 成一维向量格式,以及如何从一维向量格式转换成二维块格式。尽管本发明主要集中在 经量化变换系数的扫描,但类似技术可用于扫描其它类型的系数,例如未经变换视频块 的未经量化系数或像素值(例如,如果实施了像素值的扫描)。
在一个实例中,本发明提供一种对视频块的系数进行译码的方法,所述方法包含 针对多种预测模式中的每一者,存储与视频块的系数值相关联的统计资料;对与所述预 测模式中的每一者相关联的视频块进行计数;基于针对所述预测模式中的每一者而定义 的扫描次序来扫描所述视频块的系数值;在与所述预测模式中的一个给定预测模式相关 联的计数值满足所述预测模式中的所述一个给定预测模式的阈值时,基于所述预测模式 中的所述一个给定预测模式的统计资料来评估与所述预测模式中的所述一个给定预测 模式相关联的给定扫描次序;以及对所述系数值进行熵译码。
在另一实例中,本发明提供一种对视频块的系数进行译码的设备,所述设备包含扫 描单元和熵译码单元。所述扫描单元针对多种预测模式中的每一者存储与视频块的系数
值相关联的统计资料,对与所述预测模式中的每一者相关联的视频块进行计数,基于针 对所述预测模式中的每一者而定义的扫描次序来扫描所述视频块的系数值,且在与所述 预测模式中的一个给定预测模式相关联的计数值满足所述预测模式中的所述一个给定
13预测模式的阈值时,基于所述预测模式中的所述一个给定预测模式的统计资料来评估与 所述预测模式中的所述一个给定预测模式相关联的给定扫描次序。所述熵译码单元对所 述系数值进行熵译码。
在另一实例中,本发明提供一种对视频块的系数进行译码的装置,所述装置包含 用于针对多种预测模式中的每一者存储与视频块的系数值相关联的统计资料的装置;用 于对与所述预测模式中的每一者相关联的视频块进行计数的装置;用于基于针对所述预 测模式中的每一者而定义的扫描次序来扫描所述视频块的系数值的装置;用于在与所述 预测模式中的一个给定预测模式相关联的计数值满足所述预测模式中的所述一个给定 预测模式的阈值时,基于所述预测模式中的所述一个给定预测模式的统计资料来评估与 所述预测模式中的所述一个给定预测模式相关联的给定扫描次序的装置;以及用于对所 述系数值进行熵译码的装置。
在另一实例中,本发明提供一种装置,其包含扫描单元,所述扫描单元针对多种 预测模式中的每一者,存储与视频块的系数值相关联的统计资料;对与所述预测模式中 的每一者相关联的视频块进行计数;基于针对所述预测模式中的每一者而定义的扫描次
序,将所述视频块的系数值从二维块扫描成一维向量;且在与所述预测模式中的一个给 定预测模式相关联的计数值满足所述预测模式中的所述一个给定预测模式的闽值时,基 于所述预测模式中的所述一个给定预测模式的统计资料来评估与所述预测模式中的所 述一个给定预测模式相关联的给定扫描次序。所述装置还包括熵译码单元,其对所述 一维向量的系数值进行熵编码;以及无线发射器,其发送包含经熵编码的系数值的位流。
在另一实例中,本发明提供一种装置,其包含无线接收器,其接收包含视频块的 呈一维向量形式的经熵译码的系数值的位流;熵译码单元,其对所述视频块的系数值进 行熵解码;以及扫描单元。在此情况下,所述扫描单元针对多种预测模式中的每一者 存储与所述视频块的系数值相关联的统计资料;对与所述预测模式中的每一者相关联的 视频块进行计数;基于针对所述预测模式中的每一者而定义的扫描次序,将所述视频块 的系数值从一维向量扫描成二维块;且在与所述预测模式中的一个给定预测模式相关联 的计数值满足所述预测模式中的所述一个给定预测模式的阈值时,基于所述预测模式中 的所述一个给定预测模式的统计资料来评估与所述预测模式中的所述一个给定预测模 式相关联的给定扫描次序。
本发明中所描述的技术可以硬件、软件、固件或其任一组合的形式实施。如果以硬 件形式实施,那么设备可实现为集成电路、处理器、离散逻辑或其任一组合。如果以软 件形式实施,那么所述软件可在一个或一个以上处理器(例如微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP))中执行。执行所述技 术的软件最初可存储在计算机可读媒体中,且被加载在处理器中并在处理器中执行。因此,本发明还涵盖一种计算机可读媒体,其包含指令,所述指令在于视频译码装 置中执行时,致使所述装置对视频块的系数进行译码,其中所述指令致使所述装置针 对多种预测模式中的每一者,存储与视频块的系数值相关联的统计资料;对与所述预测 模式中的每一者相关联的视频块进行计数;基于针对所述预测模式中的每一者而定义的 扫描次序来扫描所述视频块的系数值;在与所述预测模式中的一个给定预测模式相关联 的计数值满足所述预测模式中的所述一个给定预测模式的阈值时,基于所述预测模式中 的所述一个给定预测模式的统计资料来评估与所述预测模式中的所述一个给定预测模 式相关联的给定扫描次序;且对所述系数值进行熵译码。附图和以下描述中陈述本发明的一个或一个以上方面的细节。本发明中所描述的技 术的其它特征、目标和优点将从所述描述和图式且从权利要求书显而易见。


图1是说明视频编码和解码系统的示范性框图。 图2是说明符合本发明的视频编码器的实例的框图。 图3是说明符合本发明的视频解码器的实例的框图。 图4是说明4X4视频块的Z字形扫描的概念图。 图5是说明8X8视频块的Z字形扫描的概念图。图6是说明与特定模式的块相关联的统计资料以及符合本发明的技术的算法的概念图。图7是说明符合本发明的假想实例的概念图。 图8和图9是说明符合本发明的技术的流程图。
具体实施方式
本发明描述用于扫描视频块的系数(例如,经量化的变换系数)的技术。在本发明 中,术语"系数块"通常指代与视频块相关联的一组变换系数。系数块可以二维块格式 或一维向量格式表示。本发明的扫描技术定义如何通过编码器将系数块从二维块格式转 换成一维向量格式,以及如何通过解码器将系数块从一维向量格式转换成二维块格式。 虽然本发明主要将扫描技术描述为应用于经变换且经量化的视频块,但本文中所描述的 扫描技术还可应用于将其它类型的视频数据(例如,像素域中的视频块)从二维块格式15转换成一维向量格式。按照惯例,将系数块从二维块格式扫描成一维向量格式遵循Z字形扫描次序。在此 情况下,系数块的左上部分中的系数在一维向量中较早出现,且系数块的右下部分中的 系数较晚出现。高能变换系数在变换之后通常驻存在靠近左上角处。为此,Z字形扫描 是将非零系数分组在靠近一维向量的开始处的有效方式。熵译码单元接着通常对呈游程 和阶形式的一维向量进行熵译码,其中游程是在两个非零变换系数中间的零值变换系数 的数目,且阶表示所述非零变换系数的值。此外,在针对给定系数块发送最后一个非零 变换系数(例如,以一维向量格式)之后,熵译码器通常发送块结尾(EOB)符号或最 后系数旗标,以指示此非零变换系数是所述块中的最后一个非零变换系数。通过将非零 变换系数朝一维向量的开始处分组,可实现较高压縮,因为可对较小游程值进行译码, 且还因为可更快地发送所述EOB符号或所述最后系数旗标。遗憾的是,Z字形扫描并不 总是实现对系数的最有效分组。并非使用常规的Z字形扫描,本发明的技术基于与先前经译码的块相关联的统计资 料来调适扫描次序,所述先前经译码的块是以相同预测模式译码的。针对每一预测模式, 存储变换系数的统计资料,例如指示给定位置处的变换系数为零或非零的概率。可周期 性地进行对扫描次序的调整,以便更好地确保将非零变换系数朝一维向量的开始处分组 在一起,且将零值系数朝一维向量的结尾处分组在一起,这可改进熵译码的有效性。自 适应扫描技术可针对每一单独的经译码单元(例如,每一帧、切片,或其它类型的经译 码单元)而发生。最初可以固定方式(例如,以Z字形扫描次序或另一固定扫描次序) 扫描经译码单元的系数块,但如果针对给定预测模式的系数块的统计资料指示不同扫描 次序将更有效地分组非零和零值系数,那么可快速地调适到不同扫描次序。然而,扫描次序的调整可能是计算密集型的。因此,本发明的技术强加可减小扫描 次序调整发生的频率的阈值和阈值调整,但由于此些扫描次序调整的缘故仍实现所要的 压縮改进。所述技术可由编码器和解码器以互逆方式执行。g卩,编码器可在熵编码之前 使用自适应扫描技术来将视频块的系数从二维格式扫描成一维向量。解码器可在熵解码 过程之后逆扫描接收到的视频块的系数的一维向量,以重新创建呈二维格式的系数块。 此外,短语"系数块"通常指代以二维块格式或一维向量格式表示的一组经变换系数。图1是说明可实施本发明的技术的示范性视频编码和解码系统10的框图。如图1 中所示,系统10包括源装置12,其经由通信信道15将经编码的视频传输到目的装置 16。源装置12和目的装置16可包含多种装置中的任一者。在一些情况下,源装置12 和目的装置16包含无线通信装置手持机,例如所谓的蜂窝式或卫星无线电话。然而,16本发明的技术(其更一般地应用系数的自适应扫描)未必限于无线应用或设定。在图1的实例中,源装置12可包括视频源20、视频编码器22、调制器/解调器(调 制解调器)23和发射器24。目的装置16可包括接收器26、调制解调器27、视频解码 器28和显示装置30。根据本发明,源装置12的视频编码器22可经配置以在熵编码之 前执行系数的自适应扫描以形成一维数据集合。类似地,目的装置16的视频解码器28 可经配置以在熵解码之后执行系数的自适应扫描以产生二维数据集合。视频解码器28 无需接收对视频编码器22所应用的扫描次序的任何指示;实情为,可在视频编码器22 和视频解码器28处以基本上相同的方式导出扫描次序。图1的所说明系统IO仅为示范性的。本发明的扫描技术可由支持多种熵译码方法 (例如,内容自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC), 或其它熵译码方法)中的任一者的任何编码或解码装置来执行。源装置12和目的装置 16仅为此些译码装置的实例。根据本发明,视频编码器22和视频解码器28可针对多种预测模式中的每一者存储 与视频块的系数值相关联的统计资料,且可对与所述预测模式中的每一者相关联的视频 块进行计数。视频编码器22和视频解码器28:基于针对所述预测模式中的每一者而定 义的扫描次序来扫描视频块的系数值;在与所述预测模式中的一个给定预测模式相关联 的计数值满足所述预测模式中的所述一个给定预测模式的阈值时,基于所述预测模式中 的所述一个给定预测模式的统计资料来评估与所述预测模式中的所述一个给定预测模 式相关联的给定扫描次序;且对所述系数值进行熵译码。此外,在编码方面,扫描是在 熵编码之前,而在解码方面,扫描是在熵解码之后。一般来说,源装置12产生供传输到目的装置16的经译码视频数据。然而,在一些 情况下,装置12、 16可以大体上对称的方式操作。举例来说,装置12、 16中的每一者 可包括视频编码和解码组件。因此,系统10可视频装置12、 16之间(例如)用于视频 流式传输、视频重放、视频广播或视频电话的单向或双向视频传输。源装置12的视频源20可包括视频捕捉装置,例如视频相机、含有先前捕捉到的视 频的视频档案,或来自视频内容提供者的视频馈入。作为另一替代方案,视频源20可 产生基于计算机图形的数据作为源视频,或实况视频、归档视频与计算机产生的视频的 组合。在一些情况下,如果视频源20为视频相机,那么源装置12和目的装置16可形 成所谓的相机电话或视频电话。在每一情况下,捕捉到的、预先捕捉到的或计算机产生 的视频可由视频编码器22编码。经编码的视频信息可接着由调制解调器23根据例如码 分多址(CDMA)的通信标准或另一通信标准或技术来调制,且经由发射器24发射到目的装置16。目的装置16的接收器26经由信道15接收信息,且调制解调器27对所述信息进行 解调。视频解码器28所执行的视频解码过程可作为视频序列的重构的一部分而执行熵 解码和自适应扫描。如同编码过程一样,解码过程使用本发明的技术,以便支持经改进 的数据压缩等级。显示装置28向用户显示经解码的视频数据,且可包含例如阴极射线 管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器 或另一类型的显示装置的多种显示装置中的任一者。在图1的实例中,通信信道15可包含任何无线或有线通信媒体,例如射频(RF) 频谱或一个或一个以上物理传输线,或无线媒体与有线媒体的任一组合。通信信道15 可形成基于包的网络(例如,局域网、广域网或例如因特网的全球网络)的一部分。通 信信道15 —般表示用于将来自源装置12的视频数据传输到目的装置16的任何合适的 通信媒体,或不同通信媒体的集合。视频编码器22和视频解码器28可根据支持CAVLC、 CABAC或另一熵译码方法的 视频压縮标准(例如,ITU-T H.264标准,或者称为MPEG-4 (第10部分)高级视频译 码(AVC))而操作。然而,仅出于说明目的而关于此标准来描述所述技术。此些技术 可容易地应用于多种其它视频译码标准中的任一者,例如MPEG-1、 MPEG-2和MPEG-4 中由运动图像专家组(MPEG)定义的标准、ITU-TH.263标准、电影和电视工程师协会 (SMPTE) 421M视频CODEC标准(通常称为"VC-1")、由中国音频视频译码标准工 作组定义的标准(通常称为"AVS"),以及作为专有标准由某一标准机构定义或由某一 组织开发的任何其它视频译码标准。尽管图l中未展示,但在一些方面中,视频编码器22和视频解码器28可各自与音 频编码器和解码器集成,且可包括适当的MUX-DEMUX单元或其它硬件和软件,以处 置对共用数据流或单独数据流中的音频和视频两者的编码。如果适用,那么 MUX-DEMUX单元可遵守ITUH.223多路复用器协议,或例如用户数据报协议(UDP) 等其它协议。ITU H.264/MPEG-4 (第IO部分)AVC标准是作为被称为联合视频编码组(JVT) 的共同合作伙伴关系的产物由ITU-T视频译码专家组(VCEG)与ISO/正C运动图像专 家组(MPEG) —起制定。在一些方面中,本发明中所描述的技术可应用于大体上遵守 H.264标准的装置。ITU-T研究组在日期为2005年3月的ITU-T建议H.264 "—般视听 月艮务的高级视步页译石马(Advanced video coding for generic audiovisual services)"中描述 H.264标准,所述标准在本文中可被称为H.264标准或H.264规范,或H.264/AVC标准或规范。联合视频编码组(JVT)继续致力于对H.264/AVC的扩充。视频编码器22和视频解码器28各自可实施为一个或一个以上微处理器、数字信号 处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、 硬件、固件或其任一组合。视频编码器22和视频解码器28中的每一者可包括于一个或 一个以上编码器或解码器中,其中任一者可集成为相应移动装置、订户装置、广播装置、 服务器等等中的组合式编码器/解码器(CODEC)的一部分。视频序列包括一系列视频帧。在一些情况下,视频序列可布置为图片群组(GOP)。 视频编码器22对个别视频帧内的视频块进行操作,以便对视频数据进行编码。所述视 频块可具有固定或不同的大小,且可根据指定的译码标准在大小上有所不同。每一视频帧可包括一系列切片。每一切片可包括一系列宏块,所述宏块可布置成甚至更小的块。 宏块通常指代16x16数据块。ITU-T H.264标准支持各种块大小(例如,对于亮度分量 为16x16、 8x8或4x4,且对于色度分量为8x8)的帧内预测,以及各种块大小(例如, 对于亮度分量为16x16、 16x8、 8x16、 8x8、 8x4、 4x8和4x4,且对于色度分量为对应 的经縮放大小)的帧间预测。在本发明中,术语"视频块"可指代系数(例如,变换系 数)块,其后为例如离散余弦变换的变换过程或概念上类似的变换过程,在此过程中将 一组像素值变换到频域中。可量化变换系数。本发明的扫描技术通常关于经量化的变换 系数而应用,但在一些实施方案中,所述扫描技术可适用于未经量化的变换系数。此外, 本发明的扫描技术还可适用于像素值块(即,无变换过程),所述像素值块可为或可不 为经量化的像素值块。术语"系数"在本文中被广泛用来表示视频块的值,其不仅包括 系数块的变换系数,而且包括未经变换的视频块的像素值。例如宏块的较大视频块可被分成大小较小的视频块。较小视频块可提供较好的分辨 率,且可用于视频帧的包括高等级细节的位置。 一般来说,宏块(MB)和各种较小块 全都可被视为视频块。视频帧可包含可解码单元,或可被分成较小的可解码单元,例如 "切片"。即, 一切片可被视为一系列视频块(例如,MB和/或大小较小的块),且每 一切片可为视频帧的一可独立解码的单元。在预测之后,可对8x8残差像素块或4x4残差像素块执行变换,且可对用于色度分 量或用于亮度分量(如果使用帧内J6xl6预测模式)的4x4像素块的DC系数应用额外 变换。在所述变换之后,数据可被称为系数块或经变换视频块。在所述变换之后,系数 块含有变换系数,而不是像素值。此外,术语"系数" 一般指代变换系数,但可替代地 指代其它类型的系数或值(例如,无变换过程的情况下的像素值)。在基于帧内或帧间的预测性译码和变换技术(例如,H.264/AVC或离散余弦变换DCT中所使用的4x4或8x8整数变换)之后,可执行量化。可使用例如基于小波的压缩 等其它变换技术。量化一般指代使系数量化以可能减少用来表示所述系数的数据的量的 过程。量化过程可减小与所述系数中的一些或全部系数相关联的位深度。举例来说,在 量化期间可将8位值下舍入为7位值。
在量化之后,可根据本文中所描述的技术来执行扫描和熵译码。明确地说,可将变 换系数的视频块(例如,4x4视频块、8x8视频块,或可能其它大小的块,例如16x16 视频块)从二维格式扫描成一维格式。扫描次序可针对每一经译码单元而初始化,且可 以常规方式(例如,Z字形扫描次序)开始。根据本发明,扫描次序可为自适应的。明 确地说,扫描次序可基于与一种或一种以上预测模式的视频块相关联的统计资料而针对 此些视频块进行调适。所述统计资料可包含在每一相应预测模式下编码的视频块的数目 的计数,以及与在每一预测模式下编码的视频块的系数相关联的一组概率。所述概率可 包含视频块的每一位置中的给定系数值具有为零的值或具有非零值的可能性的指示。或 者,所述概率可包含指示每一位置处的实际值的更详细概率,或与系数值相关联的另一 类型的统计概率量度。
可相对于计数值而定义一个或一个以上阈值。可以周期性间隔(例如,当遇到宏块 边界时)来评估与视频块的不同模式相关联的扫描次序。在评估扫描次序时,如果与给 定预测模式相关联的计数值满足所述给定预测模式的阈值,那么可检査针对所述模式的 扫描次序,且可能改变所述扫描次序以反映在所述给定预测模式下被译码的视频块的统 计资料。明确地说,可定义扫描次序,使得以系数具有非零值的概率的次序来扫描所述 系数。即,具有较高的为非零的概率的系数位置在具有较低的为非零的概率的系数位置 之前被扫描。以此方式,常规的扫描次序(例如,Z字形扫描次序)可调适为将非零系 数更朝向系数块的一维向量表示的开始处分组的扫描次序。解码器可计算相同统计资 料,且借此确定编码过程中所使用的扫描次序。因此,解码器可应用互逆的自适应扫描 次序,以将系数块的一维向量表示转换回到二维块格式。
如所指出,扫描次序(以及对其的自适应改变)针对每一不同预测性模式可有所不 同。即,针对每一不同预测模式而保存统计资料。本发明不限于模式的任何特定数目, 或模式的类型。不同模式可定义译码过程中所使用的视频块的大小和预测的类型。多种 预测模式可包含多种帧内预测模式和多种帧间预测模式。
举例来说,帧间译码可支持两种或两种以上模式,例如,对应于4x4变换块大小的 帧间预测模式,以及对应于8x8变换块大小的帧间预测模式。在一些情况下,可支持若 干4x4模式,例如预测性(P)模式和双向预测性(B)模式。帧间译码还可支持8x8P
20模式和8x8B模式。此外,还可针对亮度和色度信息的经帧间译码的块定义不同模式。 可定义多种不同的帧间译码预测模式,且本发明不限于任何特定模式集合。
帧内译码也可支持多种预测性模式。举例来说,帧内预测模式可包含多个4x4亮度 帧内预测模式、多个8x8亮度帧内预测模式、多个16x16亮度帧内预测模式以及多个8x8 色度帧内预测模式。举例来说,帧内预测模式可包含二十六个不同模式,在所述模式下, 基于同一经译码单元内的相邻数据的传播、调适和/或内插的不同类型而产生预测性块。
帧内译码模式可包含例如垂直、水平、DC、对角线向左下、对角线向右下、垂直向 右、水平向下、垂直向左和水平向上的模式。这些不同模式中的每一者定义基于同一经 译码单元内的相邻数据而产生预测性块的方式。帧内译码模式还可定义上文所提及的模 式的组合,例如垂直加水平、DC加垂直、DC加水平、对角线向左下加水平、对角线向 右下加垂直、垂直向右加水平、水平向下加垂直、垂直向左加水平以及水平向上加垂直。 这些特定模式的细节在以下文献中陈述,所述文献以引用的方式并入本文中Y'叶(Y. Ye)和M'卡兹维茨(M. Karczewicz)的"经改进的帧内译码(Improved Intra Coding)" (ITU-T Q.6/SG16 VCEG, C257,日内瓦,瑞士, 2007年6月)。无论如何,本发明不 限于模式的任何特定数目,或模式的类型。基本上,预测性模式可定义经编码块的大小、 预测性块的大小、所用变换的大小,以及定位或产生预测性块的数据的方式。
图2是说明视频编码器50的实例的框图,视频编码器50包括自适应扫描单元45, 其执行本发明的技术以将视频块从二维块格式扫描成一维向量格式。如图2中所示,视 频编码器50接收视频帧内待编码的当前视频块。在图2的实例中,视频编码器50包括 预测单元32、参考帧存储件34、块变换单元38、量化单元40、逆量化单元42、逆变换 单元44、自适应扫描单元45和熵编码单元46。还可包括去块滤波器(未图示),以过 滤块边界从而去除成块假影。视频编码器50还包括加法器48和加法器51。
对于帧间译码,预测单元32将待编码的视频块与一个或一个以上视频参考帧中的 各个块进行比较。对于帧间译码,预测单元32根据同一经译码单元的已译码的相邻视 频块来预测待编码的视频块。可从参考帧存储件34检索所预测的数据,参考帧存储件 34可包含用以存储从先前编码的块重构的视频块的任何类型的存储器或数据存储装置。 预测单元32可产生预测模式和预测向量,其包含可用于识别用来对当前视频块进行译 码的预测块的语法元素。对于帧内译码,预测单元32可包含空间预测单元,而对于帧 间译码,预测单元32可包括运动估计单元和运动补偿单元。
视频编码器50通过从正被编码的原始视频块减去由预测单元32产生的预测块来形 成残差视频块。加法器48表示执行此减法运算的单元或模块。块变换单元38将变换(例如离散余弦变换(DCT)或概念上类似的变换)应用于所述残差块,从而产生包含残差 变换块系数的视频块。块变换单元38 (例如)可执行由H.264标准定义的其它变换,所 述变换在概念上类似于DCT。
量化单元40量化所述残差变换系数以进一步减小位速率。量化单元40 (例如)可 限制用来对所述系数中的每一者进行译码的位的数目。在量化之后,自适应扫描单元45 将经量化的系数块从二维表示扫描成一维向量。接着,在此扫描过程之后,熵编码单元 46根据熵译码方法(例如CAVLC或CABAC)来对所述经量化的变换系数进行编码以 进一步压縮数据。下文中更详细地概述由自适应扫描单元45执行的符合本发明的自适 应扫描。
简要地说,自适应扫描单元45针对多种预测模式中的每一者存储与视频块的系数 值相关联的统计资料,对与所述预测模式中的每一者相关联的视频块进行计数,基于针 对所述预测模式中的每一者而定义的扫描次序来扫描所述视频块的系数值,且在与所述 预测模式中的一个给定预测模式相关联的计数值满足所述预测模式中的所述一个给定 预测模式的阈值时,基于所述预测模式中的所述一个给定预测模式的统计资料来评估与 所述预测模式中的所述一个给定预测模式相关联的给定扫描次序。接着,在此扫描过程 之后,熵编码单元46根据熵译码方法来对经量化的变换系数进行编码。
自适应扫描单元45可在与所述预测模式中的所述一个给定预测模式相关联的计数 值满足所述预测模式中的所述一个给定预测模式的所述阈值时,基于所述预测模式中的 所述一个给定预测模式的统计资料来确定与所述预测模式中的所述一个给定预测模式 相关联的新扫描次序。另外,自适应扫描单元45可在调整给定扫描次序后调整所述阈 值。由自适应扫描单元45存储的统计资料可包含指示系数值为零或非零的概率的统计 资料。在一个实例中,自适应扫描单元45基于所述预测模式中的所述一个给定预测模 式的统计资料来确定与所述预测模式中的所述一个给定预测模式相关联的新扫描次序, 且基于所述新扫描次序是否与先前扫描次序相同来增大或减小所述阈值。举例来说,如 果新扫描次序与先前扫描次序相同,那么自适应扫描单元45可使所述预测模式中的所 述一个给定预测模式的阈值增大(例如)两倍(其取决于上限)。类似地,如果新扫描 次序不同于先前扫描次序,那么自适应扫描单元45可使所述预测模式中的所述一个给 定预测模式的阈值减小(例如)两倍(其取决于下限)。在确定所述预测模式中的所述 一个给定预测模式的扫描次序后,自适应扫描单元45可使与所述预测模式中的所述一 个给定预测模式相关联的计数值复位。 一旦将系数块扫描成一维格式,熵编码单元46 就对经量化的变换系数进行熵编码。在由熵编码单元46进行的熵译码之后,经编码的视频可被传输到另一装置或被归 档以供以后传输或检索。逆量化单元42和逆变换单元44分别应用逆量化和逆变换来在 像素域中重构残差块。加法器51使经重构的残差块与由预测单元32产生的预测块相加, 以产生经重构的视频块以供存储在参考帧存储件34中。如果需要的话,经重构的视频 块还可在被存储在参考帧存储件34中之前通过去块滤波器单元(未图示)。经重构的视 频块可由预测单元32用作参考块来对后续视频帧中的块进行帧间译码,或对同一经译 码单元内的未来的相邻块进行帧内译码。
图3是说明视频解码器60的实例的框图,视频解码器60对以本文所描述的方式编 码的视频序列进行解码。视频解码器60包括熵解码单元52,其执行由图2的熵编码单 元46执行的编码的互逆解码功能。视频解码器60还包括自适应扫描单元55,其执行与 由图2的自适应扫描单元45执行的扫描互逆的逆扫描。
视频解码器60可执行对视频帧内的块的帧内解码和帧间解码。在图3的实例中, 视频解码器60还包括预测单元54、逆量化单元56、逆变换单元58和参考帧存储件62。 视频解码器60还包括加法器64。任选地,视频解码器60还可包括去块滤波器(未图示), 其对加法器64的输出进行滤波。
对于帧内译码,预测单元54可包含空间预测单元,而对于帧间译码,预测单元54 可包含运动补偿单元。逆量化单元56执行逆量化,且逆变换单元58执行逆变换以将视 频块的系数变回到像素域。加法器将来自单元54的预测块与来自逆变换单元58的经重 构的残差块进行组合以产生经重构的块,所述经重构的块存储在参考帧存储件62中。 如果需要的话,经重构的视频块还可在被存储在参考帧存储件62中之前通过去块滤波 器单元(未图示)。经解码的视频从参考帧存储件62输出,且还可被反馈到预测单元54 以供后续预测中使用。
如所指出,熵解码单元52执行由图2的熵编码单元46执行的编码的互逆解码功能, 且自适应扫描单元55接着执行由图2的自适应扫描单元45执行的扫描的互逆扫描。如 同图2的自适应扫描单元45 —样,图3的自适应扫描单元55针对多种预测模式中的每 一者存储与视频块的系数值相关联的统计资料,对与所述预测模式中的每一者相关联的 视频块进行计数,基于针对所述预测模式中的每一者而定义的扫描次序来扫描所述视频 块的系数值,且在与所述预测模式中的一个给定预测模式相关联的计数值满足所述预测 模式中的所述一个给定预测模式的阈值时,基于所述预测模式中的所述一个给定预测模 式的统计资料来评估与所述预测模式中的所述一个给定预测模式相关联的给定扫描次 序。基本上,自适应扫描单元55与自适应扫描单元45执行类似的功能,但是以相反方
23式执行。因此,鉴于自适应扫描单元45在熵编码之前将系数块从二维格式扫描成一维 格式,自适应扫描单元55在熵解码之后将系数块从一维格式扫描成二维格式。
图4是说明对4x4系数块的Z字形扫描的概念图。图5是说明对8x8系数块的Z 字形扫描的概念图。图4和图5中所示的Z字形扫描可由自适应扫描单元45在针对经 译码单元的译码过程的开始处执行。然而,如下文更详细地论述,扫描次序可基于与已 译码的系数块相关联的实际统计资料而调适。
用于图4和图5中所示的此Z字形扫描的扫描次序遵循穿过视频块80和90的箭头, 且系数是以扫描次序标记的。明确地说,图4和图5中所示的数值指示循序一维向量内 系数的位置,且不表示系数的值。在初始化时,本发明的技术不限于任何特定的扫描次 序或技术。举例来说,本发明中所使用的初始扫描次序可为图4和图5中所示的Z字形 扫描次序。或者,替代地,本发明中所使用的初始扫描次序可为可针对多种预测模式中 的每一者特别训练的一组固定扫描次序。因为Z字形扫描是相当典型的,所以其为本发 明的自适应扫描的论述提供了良好的起点。此外,根据本发明,扫描次序基于与已译码 的系数块相关联的实际统计资料随时间而调适。对于每一经译码单元,扫描次序可以常 规扫描次序(例如Z字形扫描)开始,但随着统计资料针对所述经译码单元内以不同预 测模式译码的系数块累积而调适。然而,如上文所指出,Z字形扫描并非自适应扫描的 唯一可能起点。水平扫描、垂直扫描或任何初始扫描技术均可用作本文所描述的自适应 扫描技术的起点。
图6是说明与特定预测模式的块相关联的一组示范性统计资料(Sl到S16)以及符 合本发明的技术的算法的概念图。如图所示,在模式X下的视频块的初始扫描次序可由 Z字形扫描过程定义如下(Sl、 S2、 S5、 S9、 S6、 S3、 S4、 S7、 SIO、 S13、 S14、 Sll、 S8、 S12、 S15、 S16)。在此情况下,经编号的系数对应于编号在图6的统计资料块69 中的统计资料。计数(模式X) (Count(modeX))定义针对给定经译码单元以模式X来 译码的块的数目的计数。随着计数(模式X)的每一次递增,统计资料(S1到S16)可 改变以反映所述系数的统计资料,因为其受模式X下的新块影响。
图6的算法60可在经译码单元(例如,帧或切片)的译码中以预定义的更新间隔 (例如,当遇到宏块边界时)被调用。根据本发明, 一旦调用算法60,如果计数(模式 X)大于或等于预定义的阈值,那么扫描单元45或55 (图2或图3)就基于统计资料 S1到S16来选择扫描次序,且接着使计数(模式X)复位。如果扫描次序改变,那么扫 描单元45或55可向下调整所述阈值,且如果扫描次序不改变,那么扫描单元45或55 可向上调整所述阈值。阈值基本上为可限制扫描次序改变的发生(其通常需要计算密集型的分类过程)且 可确保在评估扫描次序之前针对视频块的给定模式累积足够的统计资料的机制。明确地 说,只有在给定模式的计数满足所述给定模式的阈值时,才能为视频块的所述给定模式 选择新的扫描次序。此外,阈值可随时间的过去而调整,以便在新扫描次序不同于先前 扫描次序时,加速扫描次序评估的发生,或在新扫描次序保持与先前扫描次序相同时, 减少扫描次序评估的发生。以此方式,针对多种预测模式中的每一者,本文所描述的技 术可在译码单元的开始处较为频繁地执行扫描次序评估,直到扫描次序达到稳定且理想 的状态为止,且可接着较不频繁地执行扫描次序选择,因为扫描次序改变的可能性变得 较小。
图7是说明符合本发明的假想实例的概念图。在此实例中,系数在项目71A和71B 中被标记为cl到c16。块l (72)、块2 (73)、块3 (74)和块4 (75)中展示实际系数 值。块1到块4可包含与同一预测模式相关联的块。可依序对块1到块4进行译码。
最初,可使用Z字形扫描。在此情况下,以符合图4的说明的以下次序来扫描所述

(cl、 c2、 c5、 c9、 c6、 c3、 c4、 c7、 c10、 c13、 c14、 cll、 c8、 c12、 c15、 c16)。 假定系数块的统计资料被初始化为全零,统计资料1 (76)表示块1的统计资料, 例如,其中为一的值用于任何非零系数,且为零的值用于任何具有值零的系数。统计资 料2 (77)表示块1和块2的组合统计资料,例如,其中正规化概率值指示系数位置在 块1和块2中是为一还是零。在此情况下,位置c6的正规化概率为0.5,因为块l在所 述位置处具有非零系数,但块2在所述位置处具有零值系数。统计资料3 (78)将块l、 2和3的组合统计资料表示为正规化概率,且统计资料4 (79)将块1、 2、 3和4的组 合统计资料表示为正规化概率。所述正规化概率可包含针对每个给定位置为一或零的值 的平均值,其中如果块的特定位置定义非零系数,那么针对所述位置给出为一的值。在 以上描述中,使用Z字形扫描作为初始扫描次序,且将系数块的统计资料初始化为全零。 仅作为实例给出此些初始化,且可使用扫描次序和系数统计资料的替代初始化。
在图7的实例中,可假定阈值被设置为值4。在此情况下,在对第四个块75进行译 码后, 一旦遇到预设的更新间隔(例如, 一旦遇到宏块边界),就确定4个块的计数以 满足阈值4。在此情况下,调用分类算法,且扫描单元45(图2)可基于统计资料4(79) 来定义新的扫描次序。因此,新的扫描次序如下
(cl、 c5、 c9、 c2、 c13、 c6、 c3、 c4、 c7、 c10、 c14、 cll、 c8、 c12、 c15、 c16) 明确地说,扫描次序从初始扫描次序(例如,Z字形扫描)变为新扫描次序,新扫描次序促进非零系数在一维向量的开始处且零系数在结尾处。举例来说,由于在统计资 料4 (79)中,位置c5和c9处的概率高于c2处的概率,所以在新扫描次序中,c5和 c9两者在c2之前被扫描。不同于同等地在水平维度与垂直维度之间交替的Z字形扫描, 新扫描次序在垂直维度上展现出较强的方向性。即,新扫描次序通过垂直维度上的系数 比通过水平维度上的系数快,其符合在给定预测模式中译码的视频块1到4 (72、 73、 74、 75)的系数的统计资料分布。因此,通过使用过去的统计资料定义扫描次序,本发 明的技术可促进非零系数分组在靠近经扫描的一维向量的开始处,且零值系数分组在靠 近所述经扫描的一维向量的结尾处。此又可改进可在熵译码期间实现的压縮等级。
此外,将阈值定义为限制扫描次序改变的发生(因为此些改变需要计算密集型的分 类过程),且帮助确保在评估扫描次序之前针对视频块的给定模式累积足够的统计资料。 在此情况下,只有在视频块的给定模式的计数满足所述给定模式的阈值时,才能为所述 给定模式选择新的扫描次序。阈值可随时间的过去而向上或向下调整(其取决于上界和 下界)。举例来说,如果扫描次序评估导致扫描次序改变,那么可减小阈值,使得后续 的扫描次序评估更快地发生。在此情况下,由于扫描次序在改变,所以可能需要加速未 来改变的发生以使扫描次序处于稳定状态。另一方面,如果扫描次序评估不导致扫描次 序改变,那么可增大阈值,使得后续的扫描次序评估更慢地发生。在此情况下,由于扫 描次序未改变,所以可能需要减小可能的扫描次序改变的评估频率,因为这些评估需要 使用处理资源。这些类型的阈值调整可更频繁地评估扫描次序改变,直到扫描次序达到 稳定且理想的状态为止,且可接着限制扫描次序评估的频率,因为改变的可能性变得较 小。
图8是说明符合本发明的译码(即,编码或解码)技术的流程图。在熵译码步骤(步 骤85)在扫描步骤(步骤83)之后的情况下,从视频编码器50的角度来说明图8。从 视频解码器60的角度,熵译码步骤(步骤85)将在扫描步骤(步骤83)之前。举例来 说,从视频解码器60的角度,可以下列次序(步骤85、步骤83、步骤81、步骤82、 步骤84)执行图8中所示的步骤。出于简单的目的,下文从视频编码器50的角度来描 述图8。
如图8中所示,自适应扫描单元45针对多种预测模式中的每一者更新与视频块的 系数值相关联的统计资料(81),且对与所述预测模式中的每一者相关联的视频块进行 计数(82)。自适应扫描单元45接着根据针对所述预测模式中的每一者而定义的扫描次 序将视频块的系数值扫描成一维系数向量(83),且在与所述预测模式中的一个给定预 测模式相关联的计数值满足所述预测模式中的所述一个给定预测模式的阈值时,基于所述预测模式中的所述一个给定预测模式的统计资料来评估与所述预测模式中的所述一 个给定预测模式相关联的给定扫描次序(84)。接着,在此扫描过程之后,熵编码单元 46根据熵译码方法来对所述一维系数向量进行编码(85)。
自适应扫描单元45可在与所述预测模式中的所述一个给定预测模式相关联的计数 值满足所述预测模式中的所述一个给定预测模式的阈值时,基于所述预测模式中的所述 一个给定预测模式的统计资料来确定与所述预测模式中的所述一个给定预测模式相关 联的新扫描次序。另外,自适应扫描单元45可在确定所述给定扫描次序后调整阚值。 如本发明中所论述,由自适应扫描单元45存储的统计资料可包含指示系数值为零或非 零的概率的统计资料,或可能包含指示系数值的概率的其它类型的统计资料。在一个实 例中,自适应扫描单元45基于所述预测模式中的所述一个给定预测模式的统计资料来 确定与所述预测模式中的所述一个给定预测模式相关联的新扫描次序,且基于所述新扫 描次序是否与先前扫描次序相同来增大或减小阈值。
举例来说,如果新扫描次序与先前扫描次序相同,那么自适应扫描单元45可使阈 值增大(例如)两倍(其取决于上限)。类似地,如果新扫描次序不同于先前扫描次序, 那么自适应扫描单元45可使阈值减小(例如)两倍(其取决于下限)。在确定新扫描次 序后,自适应扫描单元45可使与所述预测模式中的所述一个给定预测模式相关联的计 数值复位。 一旦系数向量被扫描成一维格式,熵编码单元46就对所述系数向量进行熵 编码。
图9是说明可由视频编码器50的扫描单元45 (图2)和视频解码器60的扫描单元 55 (图3)执行的自适应扫描过程的示范性流程图。图9的过程可对每一经译码单元重 复。此外,经译码单元可包含视频序列的个别帧、帧的部分(例如切片),或视频序列 的另一可独立解码的单元。
如图9中所示,扫描单元45针对新的经译码单元而初始化其扫描次序(91)。换句 话说,在帧或切片的开始处,初始化所述扫描次序。将针对每种模式的计数值设置为零, 且将阈值设置为初始值,例如,针对对应于4x4个块的模式为值4,且针对对应于8x8 个块的模式为值2。在新的经译码单元的开始处,还将针对每种模式的系数块的统计资 料初始化为全零或基于经验训练的其它统计资料。扫描单元45应用其初始扫描次序(例 如,Z字形扫描)。在此过程中,扫描单元45收集块系数统计资料,且针对为经扫描的 块识别的每一模式使计数(模式)递增(92)。此过程继续,直到达到预设的更新间隔 为止(93)。举例来说,预设的更新间隔可对应于宏块边界,或另一预定间隔。
当识别到预设的更新间隔时(93的回答为"是"),扫描单元45评估扫描次序。明
27确地说,扫描单元45确定计数(模式)是否满足阈值thresh (模式)(thresh(mode)) (94)。 如果不满足(94的回答为"否"),那么扫描单元45考虑其它模式,例如,直到检査了 所有模式(100)为止。针对任何给定模式,如果计数(模式)满足阈值(94的回答为 "是"),那么扫描单元45调用分类功能,所述功能基于针对所述模式而累积的统计资 料来更新扫描次序(95)。如果扫描次序由于扫描次序的此更新而改变(96的回答为 "是"),那么扫描单元45减小所述模式的thres (模式)(97)。如果扫描次序不因扫描 次序的此更新而改变(96的回答为"否"),那么扫描单元45增大所述模式的thres(模 式)(98)。举例来说,阈值的这些增大(98)或减小(97)可改变两倍(即,乘以2或 除以2),其取决于下界和上界。针对对应于4x4个块的模式,可将下界和上界设置为4, 且针对对应于8x8个块的模式,可将下界和上界设置为值2。在此实例中,可将初始阈 值设置为下界,以便在初始化之后尽可能快地调用分类。
一旦更新给定模式的扫描次序(95),就使所述模式的计数(模式)复位为零(99)。 所述过程接着确定是否需要检査额外模式(100)。所述过程随着给定经译码单元(例如, 帧或切片)被译码而继续。S卩,当遇到下一个经译码单元时,可能发生新的初始化(91)。
本发明的技术可在多种装置或设备中实现,所述装置或设备包括无线手持机,以及 集成电路(IC)或一组IC (即,芯片组)。提供已描述的任何组件、模块或单元以强调 功能方面,且未必需要由不同硬件单元来实现。
因此,本文中所描述的技术可以硬件、软件、固件或其任一组合来实施。被描述为 模块或组件的任何特征可一起实施于集成逻辑装置中或单独实施为离散但可共同操作 的逻辑装置。如果以软件实施,那么所述技术可至少部分地由包含指令的计算机可读媒 体实现,所述指令在被执行时实施上述方法中的一者或一者以上。计算机可读数据存储 媒体可形成可包括封装材料的计算机程序产品的一部分。计算机可读媒体可包含例如同 步动态随机存取存储器(SDRAM)等随机存取存储器(RAM)、只读存储器(ROM)、 非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪 存储器、磁性或光学数据存储媒体,等等。另外或替代地,所述技术可至少部分地由计 算机可读通信媒体来实现,所述计算机可读通信媒体携载或传送呈指令或数据结构形式 且可由计算机存取、读取和/或执行的代码。
所述代码可由一个或一个以上处理器(例如, 一个或一个以上数字信号处理器 (DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA),或其 它等效的集成或离散逻辑电路)执行。因此,术语"处理器"如本文中所用可指代前述 结构中的任一者或适合实施本文中所描述的技术的任何其它结构。另外,在一些方面中,本文中所描述的功能性可提供于经配置以用于编码和解码的专用软件模块或硬件模块 内,或并入组合式视频编码器-解码器(CODEC)中。而且,所述技术可全部实施于一 个或一个以上电路或逻辑元件中。
已描述了本发明的各个方面。已在经变换视频块的经变换系数的扫描的上下文中描 述了所述技术,但所述技术也可应用于视频块的其它类型的系数的扫描。举例来说,如 果实施像素值或其它类型的未经变换系数或与视频块相关联的值的扫描,那么本发明的 技术可应用于此扫描。这些和其它方面在所附权利要求书的范围内。
权利要求
1.一种对视频块的系数进行译码的方法,所述方法包含针对多种预测模式中的每一者,存储与所述视频块的系数值相关联的统计资料;对与所述预测模式中的每一者相关联的所述视频块进行计数;基于针对所述预测模式中的每一者而定义的扫描次序来扫描所述视频块的所述系数值;在与所述预测模式中的一个给定预测模式相关联的计数值满足所述预测模式中的所述一个给定预测模式的阈值时,基于所述预测模式中的所述一个给定预测模式的所述统计资料来评估与所述预测模式中的所述一个给定预测模式相关联的给定扫描次序;以及对所述系数值进行熵译码。
2. 根据权利要求l所述的方法,其进一步包含在与所述预测模式中的所述一个给定预测模式相关联的所述计数值满足所述预 测模式中的所述一个给定预测模式的所述阈值时,基于所述预测模式中的所述一个 给定预测模式的所述统计资料来确定与所述预测模式中的所述一个给定预测模式 相关联的新扫描次序。
3. 根据权利要求2所述的方法,其进一步包含-在调整所述预测模式中的所述一个给定预测模式的所述给定扫描次序后,调整所 述预测模式中的所述一个给定预测模式的所述阈值。
4. 根据权利要求1所述的方法,其中存储所述统计资料包含针对所述多种预测模式中 的每一者存储指示所述系数值为零或非零的概率的统计资料。
5. 根据权利要求l所述的方法,其进一步包含基于所述预测模式中的所述一个给定预测模式的所述统计资料来确定与所述预 测模式中的所述一个给定预测模式相关联的新扫描次序;如果所述新扫描次序与先前扫描次序相同,那么增大所述预测模式中的所述一个 给定预测模式的所述阈值;如果所述新扫描次序不同于所述先前扫描次序,那么减小所述预测模式中的所述 一个给定预测模式的所述阈值;以及使与所述预测模式中的所述一个给定预测模式相关联的所述计数值复位。
6. 根搪权利要求1所述的方法,其中所述多种预测模式包含多种帧内预测模式和多种 帧间预测模式。
7. 根据权利要求6所述的方法,其中所述帧内预测模式包含多种4x4亮度帧内预测模式、多种8x8亮度帧内预测 模式、多种16x16亮度帧内预测模式以及多种8x8色度帧内预测模式;且 其中所述帧间预测模式包含对应于4x4块大小和8x8块大小的帧间预测模式。
8. 根据权利要求1所述的方法,其中熵译码包含可变长度译码(CAVLC)或上下文 自适应二进制算术译码(CABAC)。
9. 根据权利要求1所述的方法,其进一步包含经由所述视频块从像素域到经变换域的 变换而产生所述系数值。
10. 根据权利要求1所述的方法,其中译码包含编码,其中扫描所述视频块的所述系数值包含基于针对所述预测模式中的每一者而定 义的扫描次序从系数的二维块中产生系数的一维向量,其中熵译码包含在扫描所述系数值之后对所述一维向量进行熵编码。
11. 根据权利要求l所述的方法,其中译码包含解码,其中扫描所述视频块的所述系数值包含基于针对所述预测模式中的每一者而定 义的扫描次序从系数的一维向量中产生系数的二维块,其中熵译码包含在扫描所述系数值之前对所述一维向量进行熵解码。
12. 根据权利要求1所述的方法,其进一步包含以预设的更新间隔来检査针对所述预测 模式中的每一者而定义的所述扫描次序。
13. 根据权利要求1所述的方法,其中对形成视频序列的多个经译码单元中的每一者重 复所述方法,所述方法进一步包含-在对所述多个经译码单元中的每一者重复所述方法之前,初始化所述预测模式中 的每一者的所述扫描次序、所述统计资料和阈值。
14. 一种对视频块的系数进行译码的设备,所述设备包含扫描单元,其针对多种预测模式中的每一者,存储与所述视频块的系数值相关联的统计资 料;对与所述预测模式中的每一者相关联的所述视频块进行计数; 基于针对所述预测模式中的每一者而定义的扫描次序来扫描所述视频块的所 述系数值;且在与所述预测模式中的一个给定预测模式相关联的计数值满足所述预测模式 中的所述一个给定预测模式的阈值时,基于所述预测模式中的所述一个给定预测 模式的所述统计资料来评估与所述预测模式中的所述一个给定预测模式相关联 的给定扫描次序;以及熵译码单元,其对所述系数值进行熵译码。
15. 根据权利要求14所述的设备,其中所述扫描单元在与所述预测模式中的所述一个给定预测模式相关联的所述计数值满足所述预 测模式中的所述一个给定预测模式的所述阈值时,基于所述预测模式中的所述一个 给定预测模式的所述统计资料来确定与所述预测模式中的所述一个给定预测模式 相关联的新扫描次序。
16. 根据权利要求15所述的设备,其中所述扫描单元在调整所述预测模式中的所述一个给定预测模式的所述给定扫描次序后,调整所 述预测模式中的所述一个给定预测模式的所述阈值。
17. 根据权利要求14所述的设备,其中所述扫描单元针对所述多种预测模式中的每一 者存储指示所述系数值为零或非零的概率的统计资料。
18. 根据权利要求14所述的设备,其中所述扫描单元基于所述预测模式中的所述一个给定预测模式的所述统计资料来确定与所述预 测模式中的所述一个给定预测模式相关联的新扫描次序;如果所述新扫描次序与先前扫描次序相同,那么增大所述预测模式中的所述一个 给定预测模式的所述阈值;如果所述新扫描次序不同于所述先前扫描次序,那么减小所述预测模式中的所述 一个给定预测模式的所述阈值;且使与所述预测模式中的所述一个给定预测模式相关联的所述计数值复位。
19. 根据权利要求14所述的设备,其中所述多种预测模式包含多种帧内预测模式和多 种帧间预测模式。
20. 根据权利要求19所述的设备,其中所述帧内预测模式包含多种4x4亮度帧内预测模式、多种8x8亮度帧内预测 模式、多种16x16亮度帧内预测模式以及多种8x8色度帧内预测模式;且 其中所述帧间预测模式包含对应于4x4块大小和8x8块大小的帧间预测模式。
21. 根据权利要求14所述的设备,其中所述熵译码单元执行可变长度译码(CAVLC)或上下文自适应二进制算术译码(CABAC)。
22. 根据权利要求14所述的设备,其进一步包含变换单元,所述变换单元经由所述视 频块从像素域到经变换域的变换而产生所述系数值。
23. 根据权利要求14所述的设备,其中所述设备对所述视频块进行编码,其中所述扫描单元基于针对所述预测模式中的每一者而定义的扫描次序从系数 的二维块中产生系数的一维向量,且其中所述熵译码单元在所述扫描单元扫描所述系数值之后对所述一维向量进行 熵编码。
24. 根据权利要求14所述的设备,其中所述设备对所述视频块进行解码,其中所述扫描单元基于针对所述预测模式中的每一者而定义的扫描次序从系数 的一维向量中产生系数的二维块,且其中所述熵译码单元在所述扫描单元扫描所述系数值之前对所述一维向量进行 熵解码。
25. 根据权利要求14所述的设备,其中所述扫描单元以预设的更新间隔来检查针对所 述预测模式中的每一者而定义的所述扫描次序。
26. 根据权利要求14所述的设备,其中所述扫描单元对于形成视频序列的多个经译码 单元中的每一者重复其存储、计数、扫描和评估操作,且其中在所述扫描单元对所 述多个经译码单元中的每一者重复其存储、计数、扫描和评估操作之前,所述扫描 单元初始化所述预测模式中的每一者的所述扫描次序、所述统计资料和阈值。
27. 根据权利要求14所述的设备,其中所述设备包含集成电路。
28. 根据权利要求14所述的设备,其中所述设备包含微处理器。
29. —种计算机可读媒体,其包含在于视频译码装置中执行时致使所述装置对视频块的 系数进行译码的指令,其中所述指令可致使所述装置针对多种预测模式中的每一者,存储与所述视频块的系数值相关联的统计资料; 对与所述预测模式中的每一者相关联的所述视频块进行计数; 基于针对所述预测模式中的每一者而定义的扫描次序来扫描所述视频块的所述 系数值;在与所述预测模式中的一个给定预测模式相关联的计数值满足所述预测模式中 的所述一个给定预测模式的阚值时,基于所述预测模式中的所述一个给定预测模式 的所述统计资料来评估与所述预测模式中的所述一个给定预测模式相关联的给定 扫描次序;以及对所述系数值进行熵译码。
30. 根据权利要求29所述的计算机可读媒体,其中所述指令致使所述装置在与所述预测模式中的所述一个给定预测模式相关联的所述计数值满足所述预 测模式中的所述一个给定预测模式的所述阈值时,基于所述预测模式中的所述一个 给定预测模式的所述统计资料来确定与所述预测模式中的所述一个给定预测模式 相关联的新扫描次序。
31. 根据权利要求30所述的计算机可读媒体,其中所述指令致使所述装置在调整所述预测模式中的所述一个给定预测模式的所述给定扫描次序后,调整所 述预测模式中的所述一个给定预测模式的所述阈值。
32. 根据权利要求29所述的计算机可读媒体,其中针对所述多种预测模式中的每一者, 所述指令致使所述装置存储指示所述系数值为零或非零的概率的统计资料。
33. 根据权利要求29所述的计算机可读媒体,其中所述指令致使所述装置基于所述预测模式中的所述一个给定预测模式的所述统计资料来确定与所述预 测模式中的所述一个给定预测模式相关联的新扫描次序;如果所述新扫描次序与先前扫描次序相同,那么增大所述预测模式中的所述一个 给定预测模式的所述阈值;如果所述新扫描次序不同于所述先前扫描次序,那么减小所述预测模式中的所述 一个给定预测模式的所述阈值;且使与所述预测模式中的所述一个给定预测模式相关联的所述计数值复位。
34. 根据权利要求29所述的计算机可读媒体,其中所述多种预测模式包含多种帧内预 测模式和多种帧间预测模式。
35. 根据权利要求34所述的计算机可读媒体,其中所述帧内预测模式包含多种4x4亮度帧内预测模式、多种8x8亮度帧内预测 模式、多种16x16亮度帧内预测模式以及多种8x8色度帧内预测模式;且 其中所述帧间预测模式包含对应于4x4块大小和8x8块大小的帧间预测模式。
36. 根据权利要求29所述的计算机可读媒体,其中所述熵译码单元执行可变长度译码 (CAVLC)或上下文自适应二进制算术译码(CABAC)。
37. 根据权利要求29所述的计算机可读媒体,其中所述指令致使所述装置经由所述视频块从像素域到经变换域的变换而产生所述系数值。
38. 根据权利要求29所述的计算机可读媒体,其中所述指令致使所述装置对所述视频块进行编码,其中所述指令致使所述装置基于针对所述预测模式中的每一者而定义的扫描次序从系数的二维块中产生系 数的一维向量,且在扫描所述系数值之后对所述一维向量进行熵编码。
39. 根据权利要求29所述的计算机可读媒体,其中所述指令致使所述装置对所述视频 块进行解码,其中所述指令致使所述装置基于针对所述预测模式中的每一者而定义的扫描次序从系数的一维向量中产生 系数的二维块,且在扫描所述系数值之前对所述一维向量进行熵解码。
40. 根据权利要求29所述的计算机可读媒体,其中所述指令致使所述装置以预设的更新间隔来检査针对所述预测模式中的每一者而定义的所述扫描次序。
41. 根据权利要求29所述的计算机可读媒体,其中所述指令致使所述装置对于形成视 频序列的多个经译码单元中的每一者重复其存储、计数、扫描和评估操作,且其中 在所述指令致使所述装置对所述多个经译码单元中的每一者重复其存储、计数、扫 描和评估操作之前,所述指令致使所述装置初始化所述预测模式中的每一者的所述 扫描次序、所述统计资料和阈值。
42. —种对视频块的系数进行译码的装置,所述装置包含用于针对多种预测模式中的每一者存储与所述视频块的系数值相关联的统计资 料的装置;用于对与所述预测模式中的每一者相关联的所述视频块进行计数的装置; 用于基于针对所述预测模式中的每一者而定义的扫描次序来扫描所述视频块的 所述系数值的装置;用于在与所述预测模式中的一个给定预测模式相关联的计数值满足所述预测模 式中的所述一个给定预测模式的阈值时基于所述预测模式中的所述一个给定预测 模式的所述统计资料来评估与所述预测模式中的所述一个给定预测模式相关联的 给定扫描次序的装置;以及用于对所述系数值进行熵译码的装置。
43. 根据权利要求42所述的装置,其进一步包含用于在与所述预测模式中的所述一个给定预测模式相关联的所述计数值满足所 述预测模式中的所述一个给定预测模式的所述阈值时基于所述预测模式中的所述 一个给定预测模式的所述统计资料来确定与所述预测模式中的所述一个给定预测模式相关联的新扫描次序的装置。
44. 根据权利要求43所述的装置,其进一步包含用于在调整所述预测模式中的所述一个给定预测模式的所述给定扫描次序后调 整所述预测模式中的所述一个给定预测模式的所述阈值的装置。
45. 根据权利要求42所述的装置,其中用于存储所述统计资料的装置包含,针对所述 多种预测模式中的每一者-用于存储指示所述系数值为零或非零的概率的统计资料的装置。
46. 根据权利要求42所述的装置,其进一步包含-用于基于所述预测模式中的所述一个给定预测模式的所述统计资料来确定与所 述预测模式中的所述一个给定预测模式相关联的新扫描次序的装置;用于在所述新扫描次序与先前扫描次序相同的情况下增大所述预测模式中的所 述一个给定预测模式的所述阈值的装置;用于在所述新扫描次序不同于所述先前扫描次序的情况下减小所述预测模式中 的所述一个给定预测模式的所述阈值的装置;以及用于使与所述预测模式中的所述一个给定预测模式相关联的所述计数值复位的 装置。
47. 根据权利要求42所述的装置,其中所述多种预测模式包含多种帧内预测模式和多 种帧间预测模式。
48. 根据权利要求47所述的装置,其中所述帧内预测模式包含多种4x4亮度帧内预测模式、多种8x8亮度帧内预测 模式、多种16x16亮度帧内预测模式以及多种8x8色度帧内预测模式;且 其中所述帧间预测模式包含对应于4x4块大小和8x8块大小的帧间预测模式。
49. 根据权利要求42所述的装置,其中用于熵译码的装置包含用于可变长度译码 (CAVLC)的装置或用于上下文自适应二进制算术译码(CABAC)的装置。
50. 根据权利要求42所述的装置,其进一步包含用于经由所述视频块从像素域到经变 换域的变换而产生所述系数值的装置。 ,
51. 根据权利要求42所述的装置,其中所述装置对视频块进行编码,其中用于扫描所述视频块的所述系数值的装置包含用于基于针对所述预测模式 中的每一者而定义的扫描次序从系数的二维块中产生系数的一维向量的装置,其中用于熵译码的装置包含用于在扫描所述系数值之后对所述一维向量进行熵 编码的装置。
52. 根据权利要求42所述的装置,其中所述装置对视频块进行解码,其中用于扫描所述视频块的所述系数值的装置包含用于基于针对所述预测模式 中的每一者而定义的扫描次序从系数的一维向量中产生系数的二维块的装置,其中用于熵译码的装置包含用于在扫描所述系数值之前对所述一维向量进行熵 解码的装置。
53. 根据权利要求42所述的装置,其进一步包含用于以预设的更新间隔来检査针对所 述预测模式中的每一者而定义的所述扫描次序的装置。
54. 根据权利要求42所述的装置,其中对形成视频序列的多个经译码单元中的每一者 重复存储、计数、扫描和评估操作,所述装置进一步包含用于在对所述多个经译码 单元中的每一者重复所述存储、计数、扫描和评估操作之前,初始化所述预测模式 中的每一者的所述扫描次序、所述统计资料和阈值的装置。
55. —种装置,其包含-扫描单兀,其针对多种预测模式中的每一者,存储与视频块的系数值相关联的统计资料;对与所述预测模式中的每一者相关联的所述视频块进行计数;基于针对所述预测模式中的每一者而定义的扫描次序,将所述视频块的所述系数值从二维块扫描成一维向量;且在与所述预测模式中的一个给定预测模式相关联的计数值满足所述预测模式中的所述一个给定预测模式的阈值时,基于所述预测模式中的所述一个给定预测模式的所述统计资料来评估与所述预测模式中的所述一个给定预测模式相关联的给定扫描次序;熵译码单元,其对所述一维向量的所述系数值进行熵编码;以及 无线发射器,其发送包含所述经熵编码的系数值的位流。
56. 根据权利要求55所述的装置,其中所述装置包含无线通信手持机。
57. —种装置,其包含无线接收器,其接收包含视频块的呈一维向量形式的经熵译码的系数值的位流; 熵译码单元,其对所述视频块的所述系数值进行熵解码;以及扫描单元,其针对多种预测模式中的每一者,存储与所述视频块的系数值相关联的统计资料;对与所述预测模式中的每一者相关联的所述视频块进行计数;基于针对所述预测模式中的每一者而定义的扫描次序,将所述视频块的所述系 数值从所述一维向量扫描成二维块;且在与所述预测模式中的一个给定预测模式相关联的计数值满足所述预测模式 中的所述一个给定预测模式的阈值时,基于所述预测模式中的所述一个给定预测 模式的所述统计资料来评估与所述预测模式中的所述一个给定预测模式相关联 的给定扫描次序。
58.根据权利要求57所述的装置,其中所述装置包含无线通信手持机。
全文摘要
本发明描述用于扫描视频块的系数的技术,所述系数例如为经量化和经变换的系数。并非使用常规的Z字形扫描,本发明的技术基于与先前以相同预测模式译码的块相关联的统计资料来调适扫描次序。针对每一预测模式,存储所述系数的统计资料,例如,指示给定系数为零或非零的概率。可周期性地进行对所述扫描次序的调整,以便更好地确保非零系数被分组在一起,且零值系数被分组在一起,这可改进熵译码的有效性。本发明的技术提供可减少扫描次序调整发生频率的阈值和阈值调整,但由于此些扫描次序调整的缘故仍实现所要的压缩改进。
文档编号H04N7/36GK101682771SQ200880020233
公开日2010年3月24日 申请日期2008年6月12日 优先权日2007年6月15日
发明者琰 叶, 马尔塔·卡切维奇 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1