在vps中用信号通知位速率信息及图片速率信息的制作方法_2

文档序号:9621413阅读:来源:国知局
4可通过标准数据连接(包 含因特网连接)来存取经编码视频数据。此可包含无线通道(例如,Wi-Fi连接)、有线连 接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据 的两者的组合。经编码视频数据从计算机可读存储媒体的传输可为流式传输、下载传输或 两者的组合。
[0037] 本发明的技术可应用除无线应用或环境之外的应用或环境。所述技术可应用于视 频译码以支持多种多媒体应用,例如空中协议电视广播、有线电视发射、卫星电视发射、因 特网串流视频发射(例如动态自适应HTTP串流(DASH))、经编码到数据存储媒体上的数字 视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实施例中,系统10可 经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频回放、视频广播和/或 视频电话的应用。
[0038] 在图1中,源装置12包含视频源18、视频编码器20和输出接口 22。目的地装置14 包含输入接口 28、视频解码器30和显示装置32。源装置12的视频编码器20可经配置以 应用遵守多个标准或标准扩展的用于译码包含视频数据的位流的技术。在其它实施例中, 源装置及目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18 (例 如外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成 式显示装置。
[0039] 源装置12的视频源18可包含视频俘获装置,例如摄像机、含有先前所俘获视频的 视频存档和/或用于从视频内容提供者接收视频的视频馈送接口。视频源18可产生基于 计算机图形的数据(作为源视频),或实况视频、所存档视频和计算机产生的视频的组合。 在一些实施例中,如果视频源18是摄像机,那么源装置12及目的地装置14可形成所谓的 摄像机电话或视频电话。所俘获、预俘获或计算机产生的视频可由视频编码器20编码。经 编码视频信息可由输出接口 22输出到通信信道16,所述通信信道可包含计算机可读存储 媒体,如上文所论述。
[0040] 计算机可读存储媒体可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒 体(例如,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘 或其它计算机可读媒体。网络服务器(未图示)可从源装置12接收经编码视频数据,且将 经编码视频数据提供到目的地装置14(例如,经由网络传输)。媒体生产设施(例如,光盘 冲压设施)的计算装置可从源装置12接收经编码视频数据,且生产含有所述经编码视频数 据的光盘。因此,可将通信信道16理解为包含一或多个各种形式的计算机可读存储媒体。
[0041] 目的地装置14的输入接口 28可从通信信道16接收信息。通信信道16的信息可 包含由视频编码器20定义的语法信息,所述语法信息可供视频解码器30使用,所述语法信 息包含描述块和其它经译码单元(例如,G0P)的特性和/或处理的语法元素。显示装置32 向用户显示经解码视频数据,且可包含多种显示装置中的任一者,例如,阴极射线管(CRT)、 液晶显示器(IXD)、等离子显示器、有机发光二极管(0LED)显示器或另一类型的显示装置。
[0042] 视频编码器20和视频解码器30可以根据一种视频译码标准(例如目前正在开发 的高效视频译码(HEVC)标准)来操作,并且可以符合HEVC测试模型(HM)。或者,视频编码 器20和视频解码器30可根据其它专有或业界标准来操作,所述标准例如是ITU-T H. 264 标准,也被称为MPEG-4第10部分,高级视频译码(AVC),或此类标准的扩展。但是,本发明 的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2和ITU-T H.263。 虽然在图1中未展示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码 器及解码器集成,且可包含适当的多路复用器-多路分用器单元或其它硬件和软件以处置 共同数据流或单独数据流中的音频和视频两者的编码。如果适用,则多路复用器-多路分 用器单元可符合ITU H. 223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
[0043] 图1仅为实例,且本发明的技术可适用于不一定包含编码装置与解码装置之间的 任何数据通信的视频译码环境(例如,视频编码或视频解码)。在其它实例中,数据可从本 地存储器检索、经由网络流式传输或类似者。编码装置可编码数据且将数据存储到存储器, 及/或解码装置可从存储器检索数据且解码数据。在许多实例中,由并不彼此通信而是仅 编码数据到存储器和/或从存储器检索数据且解码数据的装置执行编码和解码。
[0044] 视频编码器20和视频解码器30各自可实施为多种合适的编码器和解码器电路中 的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可 编程门阵列(FPGA)、离散逻辑、软件、硬件固件或其任何组合。当部分地用软件实施所述技 术时,装置可将用于软件的指令存储在非暂时性计算机可读媒体中且使用一或多个处理器 用硬件执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可 包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中 的组合编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置 可包括集成电路、微处理器和/或无线通信装置(例如,蜂窝式电话)。
[0045] JCT-VC正在努力开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型 (HM)的视频译码装置的演进模型。HM根据例如ITU-T H.264/AVC假设视频译码装置相对 于现有装置的若干额外能力。举例来说,虽然H. 264提供九种帧内预测编码模式,但HM可 提供多达三十三种帧内预测编码模式。
[0046] -般来说,HM的工作模型描述视频帧或图片可以分成包含明度及色度样本两者的 一连串树块或最大译码单元(LCU)。位流内的语法数据可界定最大译码单位(LCU,其是在 像素数目方面的最大译码单位)的大小。切片包含按译码次序的若干连续树块。视频帧或 图片可以被分割成一或多个切片。每一树块可以根据四叉树分裂成译码单元(CU)。一般来 说,四叉树数据结构包含每个CU -个节点,其中一个根节点对应于所述树块。如果一个CU 分裂成四个子CU,那么对应于CU的节点包含四个叶节点,其中的每一者对应于所述子CU中 的一者。
[0047] 四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说,四叉树中 的节点可包含分裂旗标,其指示对应于所述节点的所述CU是否分裂成子CU。用于CU的语 法元素可递归地定义,且可取决于⑶是否分裂成数个子⑶。如果⑶不进一步分裂,那么将 其称为叶CU。在本发明中,叶CU的四个子CU也将被称作叶CU,即使不存在原始叶CU的明 确分裂时也是如此。举例来说,如果16x16大小的⑶不进一步分裂,那么这四个8x8子⑶ 将也被称作叶⑶,虽然16x16⑶从未分裂。
[0048] CU具有与H. 264标准的宏块类似的目的,除了 CU不具有大小区别。举例来说,树 块可分裂成四个子节点(也称为子CU),且每一子节点又可为父节点且可分裂成另外四个 子节点。最后的未经分裂的子节点(被称作四叉树的叶节点)包括译码节点,也称为叶CU。 与经译码位流相关联的语法数据可定义树块可分裂的最大次数,被称作最大CU深度,且还 可定义译码节点的最小大小。因此,位流还可界定最小译码单元(SCU)。本发明使用术语 "块"来指HEVC的上下文中的CU、PU或TU中的任一者,或者其它标准的上下文中的类似数 据结构(例如,其在H. 264/AVC中的宏块和子块)。
[0049] CU包含译码节点和与所述译码节点相关联的预测单元(PU)和变换单元(TU)。CU 的大小对应于译码节点的大小并且形状必须是正方形。CU的大小可介于8X8个像素至多 达具有最大64X64个像素或更大的树块大小的范围内。每一 CU可含有一或多个PU和一 或多个TU。举例来说,与CU相关联的语法数据可描述CU分割成一或多个PU。分割模式可 在CU被跳过或经直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间有所不 同。PU可以分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据四 叉树到一或多个TU的分割。TU可以是正方形或非正方形(例如,矩形)形状。
[0050] HEVC标准允许根据TU变换,TU可针对不同⑶而有所不同。TU的大小通常是基 于针对经分割LCU定义的给定CU内的PU的大小而确定,但是情况可能并不总是如此。TU 通常与PU大小相同或小于PU。在一些实例中,可以使用被称为"残差四叉树"(RQT)的四 叉树结构将对应于CU的残差样本细分成较小单元。RQT的叶节点可被称为变换单元(TU)。 可变换与TU相关联的像素差值以产生变换系数,所述变换系数可经量化。
[0051] 叶⑶可包含一或多个预测单元(PU)。一般来说,PU表示对应于相对应的⑶的 全部或一部分的空间区域,并且可包含用于检索PU的参考样本的数据。此外,PU包含与预 测有关的数据。举例来说,当PU经帧内模式编码时,用于的数据可以包含在残差四叉树 (RQT)中,残差四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实 例,当PU经帧间模式编码时,PU可包含定义PU的一或多个运动向量的数据。举例来说,定 义PU的运动向量的数据可以描述运动向量的水平分量、运动向量的垂直分量、运动向量的 分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量指向的参考图片及/或 运动向量的参考图片列表(例如,列表0、列表1或列表C)。
[0052] 具有一或多个的叶⑶还可包含一或多个变换单元(TU)。变换单元可使用 RQT(也称为TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可以指示叶CU是 否分裂成四个变换单元。接着,每一变换单元可进一步分裂成更多个子TU。当TU未进一 步分裂时,其可被称作叶TU。总体上,对于帧内译码,所有属于一叶CU的叶TU共享相同的 帧内预测模式。也就是说,一般应用相同的帧内预测模式来计算叶CU的所有TU的预测值。 对于帧内译码,视频编码器可使用帧内预测模式将每一叶TU的残差值计算为CU的对应于 TU的部分与原始块之间的差。TU不一定限于PU的大小。因此,TU可大于或小于PU。对于 帧内译码,可与相同CU的对应叶TU并置。在一些实例中,叶TU的最大大小可以对应于 对应的叶CU的大小。
[0053] 此外,叶⑶的TU还可与相应的四叉树数据结构(被称作残差四叉树(RQT))相关 联。即,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶 CU,而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的RQT的TU被称作叶TU。 一般来说,除非另外提及,否则本发明分别使用术语CU及TU来指叶CU及叶TU。
[0054] 视频序列通常包含一系列视频帧或图片。图片群组(G0P) -般包括一系列一或多 个视频图片。G0P可包含描述G0P中所包含的图片数目的G0P的标头中、图片中的一或多者 的标头中或别处的语法数据。图片的每一切片可包含描述用于相应的切片的编码模式的切 片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便对视频数据进 行编码。视频块可与CU内的译码节点相对应。视频块可具有固定或变化的大小,并且根据 指定译码标准可在大小上有所不同。
[0055] 作为实例,HM支持各种大小的预测。假设特定⑶的大小为2NX2N,那么HM 支持2N X 2N或N X N的PU大小的帧内预测,及2N X 2N、2N X N、N X 2N或N X N的对称PU大 小的帧间预测。HM还支持用于在2NX nU、2NX nD、nLX 2N及nRX 2N的PU大小下的帧间预 测的不对称分割。在不对称分割中,不分割CU的一个方向,但是将另一方向分割成25%和 75%。⑶的对应于25%分区的部分通过"η"后面跟着"上"、"下"、"左"或"右"的指示来指 示。因此,举例来说,"2NXnU"是指经水平地分割的2ΝΧ2Ν CU,其中顶部为2ΝΧ0. 5Ν PU, 而底部为2NX1. 5N PU。
[0056] 在本发明中,"NXN"与"N乘N"可互换地使用以依据垂直和水平尺寸来指代视频 块的像素尺寸,例如,16X16像素或16乘16像素。一般来说,16x16块将在垂直方向上具 有16个像素 (y = 16),且在水平方向上具有16个像素 (X = 16)。同样,NXN块总体上在 垂直方向上具有N个像素,并且在水平方向上具有N个像素,其中N表示非负整数值。块中 的像素可布置成行和列。此外,块未必需要在水平方向与垂直方向上具有相同数目的像素。 举例来说,块可包括NXM个像素,其中Μ未必等于N。
[0057] 在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可以计算 用于CU的TU的残差数据。PU可包括描述在空间域(也称为像素域)中产生预测像素数 据的方法或模式的语法数据,且TU可包括在应用变换之后变换域中的系数,所述变换例如 离散正弦变换(DST)、离散余弦变换(DCT)、整数变换、小波变换或与残差视频数据概念上 类似的变换。残差数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。 视频编码器20可以形成包含用于CU的残差数据的TU,并且接着变换TU以产生用于CU的 变换系数。
[0058] 在用于产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量 化为既定具有其最广泛普通意义的广义术语。在一个实施例中,量化指变换系数经量化以 可能减少用以表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的 一些系数或全部相关联的位深度。举例来说,η位值可在量化期间被舍去成m位值,其中η 大于m〇
[0059] 在量化之后,视频编码器可扫描变换系数,从包括经量化变换系数的二维矩阵产 生一维向量。扫描可经设计以将较高能量(并且因此较低频率)的系数放置在阵列的前 面,并且将较低能量(并且因此较高频率)的系数放置在阵列的背面。在一些实例中,视频 编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可被熵编码的串行化向 量。在其它实例中,视频编码器20可以执行自适应扫描。在扫描经量化变换系数以形成一 维向量之后,视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适 应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间 分割熵(PIPE)译码或另一熵编码方法熵编码一维向量。视频编码器20还也可熵编码与经 编码视频数据相关联的语法元素以供视频解码器30在解码视频数据时使用。
[0060] 为了执行CABAC,视频编码器20可向待发射的符号指派上下文模型内的上下文。 上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可选择 用于待发射的符号的可变长度码。VLC中的码字可经构建以使得相对较短码对应于更有可 能符号,而较长码对应于不太可能符号。以此方式,使用VLC可例如实现优于针对待发射的 每一符号使用等长度码字的位节省。概率确定可基于指派到符号的上下文。
[0061] 视频编码器20可进一步例如在帧标头、块标头、切片标头或G0P标头中将例如基 于块的语法数据、基于帧的语法数据及基于G0P的语法数据等语法数据发送到视频解码器 30。G0P语法数据可描述相应G0P中的帧的数目,且帧语法数据可指示用以编码对应帧的编 码/预测模式。
[0062] 视频编码器
[0063] 图2A为说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框 图。视频编码器20可经配置以处理视频位流的单层(例如针对HEVC)。此外,视频编码器 20可经配置以执行本发明的技术中的任一者或全部,包含但不限于上文及下文相对于图4 到6更详细地描述的在VPS中用信号通知视图ID位深度、用信号通知位速率信息及/或图 片速率信息的方法,及相关过程。作为一个实例,层间预测单元66(当提供时)可经配置以 执行本发明中描述的技术中的任一者或全部。然而,本发明的方面不限于此。在一些实例 中,本发明中描述的技术可在视频编码器20的各种组件之间共享。在一些实例中,另外或 替代地,处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。
[0064] 出于解释的目的,本发明描述在HEVC译码的上下文中的视频编码器20。然而,本 发明的技术可以适用于其它译码标准或方法。图2A的编码器20说明编码解码器的单层。 然而,如将关于图2B进一步描述,可复制视频编码器20中的一些或全部以用于根据多层编 解码器进行处理。
[0065] 视频编码器20可执行视频切片内的视频块的帧内、帧间和层间预测(有时被称作 帧内、帧间或层间译码)。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视 频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的邻近帧或图片内的视 频中的时间冗余。层间译码依赖于基于同一视频译码序列内的不同层内的视频的预测。帧 内模式(I模式)可指代若干基于空间的译码模式中的任一者。例如单向预测(P模式)或 双向预测(B模式)等帧间模式可指代若干基于时间的译码模式中的任一者。
[0066] 如图2A中所展示,视频编码器20接收待编码的视频帧内的当前视频块。在图2A 的实例中,视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元 52、量化单元54和熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单 元42、帧内预测单元46、层间预测单元66和分割单元48。参考帧存储器64可包含经解码 图片缓冲器。经解码图片缓冲器是具有其一般含义的广义术语,且在一些实施例中涉及视 频编解码器管理的参考帧的数据结构。
[0067] 为了视频块重构,视频编码器20还包含反量化单元58、反变换单元60和求和器 62。还可包含解块滤波器(图2A中未图示)以便对块边界进行滤波,以从经重构视频移除 成块效应假影。在需要时,解块滤波器将通常滤波求和器62的输出。除了解块滤波器外, 还可使用额外滤波器(回路中或回路后)。为简洁起见未展示此些滤波器,但在必要时,此 些滤波器可以对求和器50的输出进行滤波(作为环路内滤波器)。
[0068] 在编码过程期间,视频编码器20接收待译码的视频帧或切片。所述帧或切片可划 分成多个视频块。运动估计单元42和运动补偿单元44可相对于一或多个参考帧中的一或 多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46可替代地 相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收的视频块的帧内预 测性译码以提供空间预测。视频编码器20可以执行多个译码遍次,例如,以针对每一视频 数据块选择适当的译码模式。
[006
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1