使用缩放因数的再取样的制作方法_2

文档序号：9494004阅读：来源：国知局

视频数据从源装置12移动到目的地装置14的媒体或装置类型。举例来说，通信信道16可包括使得源装置12能够实时将经编码视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据通信标准(例如，无线通信协议)来调制，且被发射到目的地装置14。通信媒体可包括无线或有线通信媒体，例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成分组网络(例如，局域网、广域网或全球网络，例如因特网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的其它设备。
[0045]在一些实施例中，经编码数据可从输出接口 22输出到存储装置。在此类实例中，信道16可对应于存储由源装置12产生的经编码视频数据的存储装置或计算机可读存储媒体。举例来说，目的地装置14可经由磁盘接入或卡接入接入计算机可读存储媒体。类似地，可通过输入接口 28从计算机可读存储媒体接入经编码数据。计算机可读存储媒体可包含多种分布式或本地接入的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存存储器、易失性或非易失性存储器，或用于存储视频数据的其它数字存储媒体。计算机可读存储媒体可对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从计算机可读存储媒体接入所存储视频数据。文件服务器可为能够存储经编码视频数据并将经编码视频数据发射到目的地装置14的服务器类型。实例文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过标准数据连接(包含因特网连接)接入经编码视频数据。此连接可包含适于接入存储于文件服务器上的经编码视频数据的无线信道(例如，W1-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)或两者的组合。从计算机可读存储媒体的经编码视频数据发射可为流式发射、下载发射或两者的组合。
[0046]本发明的技术可应用除无线应用或设定之外的应用或设定。所述技术可应用于视频译码以支持多种多媒体应用，例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式视频发射(例如，动态自适应HTTP流式传输(DASH))、经编码到数据存储媒体上的数字视频，存储在数据存储媒体上的数字视频的解码，或其它应用。在一些实施例中，系统10可经配置以支持单向或双向视频发射，以支持例如视频流式传输、视频回放、视频广播及/或视频电话的应用。
[0047]在图1中，源装置12包含视频源18、视频编码器20及输出接口 22。目的地装置14包含输入接口 28、视频解码器30及显示装置32。源装置12的视频编码器20可经配置以应用用于译码包含视频数据(符合多个标准或标准扩展)的位流的技术。在其它实施例中，源装置及目的地装置可包含其它组件或布置。举例来说，源装置12可从外部视频源18 (例如，外部相机)接收视频数据。同样地，目的地装置14可与外部显示装置介接，而不是包含集成显示装置。
[0048]源装置12的视频源18可包含视频俘获装置，例如摄像机、含有先前所俘获视频的视频存档及/或用以从视频内容提供者接收视频的视频馈入接口。视频源18可产生基于计算机图形的数据(作为源视频)，或实况视频、所存档视频及计算机产生的视频的组合。在一些实施例中，如果视频源18为摄像机，则源装置12及目的地装置14可形成所谓的相机电话或视频电话。可由视频编码器20编码所俘获视频、预俘获视频或计算机产生视频。经编码视频信息可由输出接口 22输出到可包含计算机可读存储媒体的通信信道16，如上文所论述。
[0049]计算机可读存储媒体可包含瞬时媒体，例如无线广播或有线网络发射，或存储媒体(例如，非暂时性存储媒体)，例如硬盘、闪存驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。网络服务器(未展示)可从源装置12接收经编码视频数据，且将经编码视频数据提供到目的地装置14(例如，经由网络发射)。媒体生产设施(例如，光盘冲压设施)的计算装置可从源装置12接收经编码视频数据，且产生含有经编码视频数据的光盘。因此，通信信道16可理解为包含一或多个各种形式的计算机可读存储媒体。
[0050]目的地装置14的输入接口28可从通信信道16接收信息。通信信道16的信息可包含由视频编码器20定义的语法信息，所述语法信息可由视频解码器30使用，所述语法信息包含描述块及其它经译码单元(例如，G0P)的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据，且可包含例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置的多种显示装置中的任一者。
[0051]视频编码器20及视频解码器30可根据视频译码标准(例如，目前正在开发的高效率视频译码(HEVC)标准)来操作，且可符合HEVC测试模型(麗)。替代性地，视频编码器20及视频解码器30可根据其它专属或行业标准来操作，所述标准例如ITU-T H.264标准，替代性地被称为MPEG-4第10部分高级视频译码(AVC)，或此类标准的扩展。然而，本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2及ITU-T H.263。尽管图1中未展示，但在一些方面中，视频编码器20及视频解码器30可各自与音频编码器及解码器集成，且可包含适当多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件及软件，以处理共同数据流或单独数据流中的音频及视频两者的编码。如果适用，MUX-DEMUX单元可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)的其它协议。
[0052]图1仅仅为实例，且本发明的技术可适用于未必包含编码装置与解码装置之间的任何数据通信的视频译码设定(例如，视频编码或视频解码)。在其它实例中，数据可从本地存储器检索、经由网络流式传输，或其类似者。编码装置可编码数据且将数据存储到存储器，及/或解码装置可从存储器检索数据并解码数据。在许多实例中，由并不彼此通信而是简单地编码数据到存储器及/或从存储器检索且解码数据的装置执行编码及解码。
[0053]视频编码器20及视频解码器30各自可经实施为例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合的多种合适编码器电路中的任一者。当部分地以软件实施所述技术时，装置可将用于软件的指令存储于非暂时性计算机可读媒体中且使用一或多个处理器以硬件执行指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(编码解码器)的部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器及/或无线通信装置，例如蜂窝式电话。
[0054]JCT-VC正在努力开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码装置根据(例如)ITU-T H.264/AVC相对于现存装置的若干额外能力。举例来说，虽然H.264提供九种帧内预测编码模式，但HM可提供多达三十三种帧内预测编码模式。
[0055]—般来说，HM的工作模型描述视频帧或图片可划分成包含明度及色度样本两者的一序列树块或最大译码单元(LCU)。位流内的语法数据可定义LCU的大小，LCU为在像素数目方面的最大译码单元。切片包含按译码次序的数个连续树块。视频帧或图片可分割成一或多个切片。每一树块可根据四叉树而分裂成译码单元(CU)。一般来说，四叉树数据结构包含每CU —个节点，其中根节点对应于树块。如果CU分裂成四个子CU，则对应于CU的节点包含四个叶节点，其中叶节点中的每一者对应于子CU中的一者。
[0056]四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说，四叉树中的节点可包含分裂旗标，其指示对应于所述节点的CU是否分裂成子CU。用于CU的语法元素可递归地来定义，且可取决于CU是否分裂成子CU。如果CU不进一步分裂，则将其称为叶CU。在本发明中，叶CU的四个子CU也将被称作叶CU，即使不存在原始叶CU的明确分裂时也是如此。举例来说，如果16X16大小的⑶不进一步分裂，则四个8X8子⑶也将被称作叶⑶，尽管16 X 16⑶从未分裂。
[0057]CU具有类似于H.264标准的宏块的目的，但CU并不具有大小区别。举例来说，树块可分裂成四个子节点(还称为子CU)，且每一子节点又可为父节点且可分裂成另外四个子节点。最后的未分裂子节点(被称作四叉树的叶节点)包括译码节点，还称为叶CU。与经译码位流相关联的语法数据可定义树块可分裂的最大次数(被称作最大CU深度)，且还可定义译码节点的最小大小。因此，位流还可定义最小译码单元(SCU)。本发明使用术语“块”来指HEVC的上下文中的CU、PU或TU中的任一者，或其它标准的上下文中的类似数据结构(例如，其在H.264/AVC中的宏块及子块)。
[0058]CU包含译码节点以及与译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小且形状必须为正方形。CU的大小可介于8X8像素至多具有最大64X64像素或更大的树块大小的范围内。每一⑶可含有一或多个PU及一或多个TU。举例来说，与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可在CU被跳过或经直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间有所不同。PU可分割成非正方形形状。举例来说，与CU相关联的语法数据还可描述将CU根据四叉树分割成一或多个TU。TU可为正方形或非正方形(例如，矩形)形状。
[0059]HEVC标准允许根据TU的变换，TU可针对不同⑶而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而设定，但情况可并不总是如此。TU通常与PU大小相同或小于HJ。在一些实例中，对应于CU的残余样本可使用被称为“残余四叉树”(RQT)的四叉树结构再分成较小单元。RQT的叶节点可被称为变换单元(TU)。可变换与TU相关联的像素差值以产生可经量化的变换系数。
[0060]叶⑶可包含一或多个预测单元(PU)。一般来说，HJ表示对应于对应⑶的全部或一部分的空间区域，且可包含用于检索PU的参考样本的数据。此外，PU包含相关于预测的数据。举例来说，当PU经帧内模式编码时，用于HJ的数据可包含在残余四叉树(RQT)中，残余四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，HJ可包含定义HJ的一或多个运动向量的数据。定义HJ的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片，及/或运动向量的参考图片列表(例如，列表O、列表I或列表C)。
[0061]具有一或多个HJ的叶⑶还可包含一或多个变换单元(TU)。变换单元可使用RQT (还被称作TU四叉树结构)来指定，如上文所论述。举例来说，分裂旗标可指示叶CU是否分裂成四个变换单元。接着，每一变换单元可进一步分裂成另外子TU。当TU未经进一步分裂时，其可被称作叶TU。一般来说，对于帧内译码，所有属于叶CU的叶TU共用相同的帧内预测模式。即，一般应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码，视频编码器可使用帧内预测模式针对每一叶TU计算残余值，作为CU的对应于TU的部分与原始块之间的差。TU未必限于PU的大小。因此，TU可比PU大或小。对于帧内译码，HJ可与相同CU的对应叶TU共置。在一些实例中，叶TU的最大大小可对应于对应叶CU的大小。
[0062]此外，叶⑶的TU还可与相应四叉树数据结构(被称作残余四叉树(RQT))相关联。gp，叶⑶可包含指示叶⑶如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶⑶，而⑶四叉树的根节点一般对应于树块(或IXU)。未分裂的RQT的TU被称作叶TU。一般来说，除非另外提到，否则本发明分别使用术语CU及TU来指叶CU及叶TU。
[0063]视频序列通常包含一系列视频帧或图片。图片群组(GOP) —般包括一系列视频图片中的一或多者。GOP可包含GOP的标头、图片中的一或多者的标头或别处中的语法数据，其描述GOP中包含的图片数目。图片的每一切片可包含切片语法数据，其描述用于相应切片的编码模式。视频编码器20通常对个别视频切片内的视频块进行操作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小，且可根据指定译码标准而大小不同。
[0064]作为实例，HM支持各种PU大小的预测。假定特定⑶的大小为2NX2N，则HM支持2NX 2N或NX N的PU大小的帧内预测，及2NX 2N、2NX N、NX 2N或NX N的对称HJ大小的帧间预测。HM还支持用于2NXnU、2NXnD、nLX2N及nRX2N的PU大小的帧间预测的不对称分割。在不对称分割中，不分割CU的一个方向，但另一方向被分割成25%及75%。CU的对应于25%分区的部分由“η”后面接着“上方”、“下方”、“左侧”或“右侧”的指示来指示。因此，例如，“2NXnU”是指经水平地分割的2NX2N⑶，其中顶部为2NX0.5N PU，而底部为2NX1.5N PU0
[0065]在本发明中，“NXN”及“N乘N”可互换使用以在垂直尺寸及水平尺寸方面来指视频块的像素尺寸，例如，16X16像素或16乘16像素。一般来说，16X16块将在垂直方向上具有16个像素(y = 16)，且在水平方向上具有16个像素(x = 16)。同样地，NXN块在垂直方向上一般具有N个像素，且在水平方向上具有N个像素，其中N表示非负整数值。块中的像素可布置成若干行及若干列。此外，块未必需要在水平方向与垂直方向上具有相同数目个像素。举例来说，块可包括NXM个像素，其中M未必等于N。
[0066]在使用⑶的HJ进行帧内预测性或帧间预测性译码之后，视频编码器20可计算用于CU的TU的残余数据。HJ可包括描述在空间域(还被称作像素域)中产生预测性像素数据的方法或模式的语法数据，且TU可包括在应用变换(例如，离散正弦变换(DST)、离散余弦变换(DCT)、整数变换、小波变换或概念上类似变换)到残余视频数据之后的变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于⑶的残余数据的TU，且接着变换TU以产生用于⑶的变换系数。
[0067]在用以产生变换系数的任何变换之后，视频编码器20可执行变换系数的量化。量化为既定具有其最广泛一般含义的广义术语。在一个实施例中，量化是指变换系数经量化以可能减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说，η位值可在量化期间被舍入到m位值，其中η大于mD
[0068]在量化之后，视频编码器可扫描变换系数，从而从包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)系数放置在阵列前面，且将较低能量(且因此较高频率)系数放置在阵列后面。在一些实例中，视频编码器20可利用预定义扫描次序来扫描经量化变换系数以产生可被熵编码的串行化向量。在其它实例中，视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后，视频编码器20可(例如)根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法熵编码一维向量。视频编码器20还可熵编码与经编码视频数据相关联的语法元素以由视频解码器30在解码视频数据时使用。
[0069]为执行CABAC，视频编码器20可向待发射的符号指派上下文模型内的上下文。举例来说，上下文可涉及符号的相邻值是否为非零。为执行CAVLC，视频编码器20可选择用于待发射的符号的可变长度码。VLC中的码字可经建构使得相对较短码对应于更有可能的符号，而较长码对应于不太可能的符号。以此方式，使用VLC可实现(例如)优于对待发射的每一符号使用等长码字的位节省。概率确定可基于指派给符号的上下文。
[0070]视频编码器20可进一步(例如)在帧标头、块标头、切片标头或GOP标头中将例如基于块的语法数据、基于帧的语法数据及基于GOP的语法数据的语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的帧数目，且帧语法数

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6