深度预测模式选择方法及装置的制造方法_2

文档序号:9650903阅读:来源:国知局
行标 识。为了限制参数集所需内存用量,限制了参数集标识的取值范围。在H.264/AVC及一个 肥VC标准草案中,每个切片头部都包括用于对包含该切片的图片进行解码的图片参数集的 标识,并且每个图片参数集都包含当前活动的序列参数集的标识。在肥VC标准中,切片头 部还包含AI^标识。因此,图片和序列参数集的传输无需与切片的传输完全同步。相反,当 前活动的序列和图片参数可在其被参考前的任意时刻接收,运使得参数集能用比用于切片 数据的协议更可靠的机制进行"带外"传输。例如,参数集可为实时传输协议(RT巧会话的 会话描述中的参数。如果参数集在带内传输,可W进行重传,W提高误差稳定性。
[0048] SEINAL单元可包含一个或多个SEI报文,输出图片的解码不需要该报文,但该 报文可在相关过程,如图片输出定时、擅染、误差检测、误差隐藏及资源预约中起辅助作用。 比264/AVC和肥VC中指定了多个沈I报文,而且用户数据沈I报文使组织和公司能定制其 SEI报文。比264/AVC和肥VC包含针对所指定沈I报文的语法和语义,但未定义接收端的 报文处理过程。因此,要求编码器根据H. 264/AVC标准或肥VC标准创建沈I报文,而不要 求符合H. 264/AVC标准或肥VC标准的解码器处理沈I报文的输出顺序符合该标准。将SEI 报文语法和语义纳入H. 264/AVC和肥VC的一个原因在于使不同系统规范对补充信息做相 同解读,从而实现互通。运意味着系统规范可W要求编码端和解码端同时使用特定的SEI 报文,此外也可W规定接收端对所述特定SEI报文的处理过程。
[0049] 编码图片是图片的编码呈现。比264/AVC编码图片包括图片解码所需的VCLNAL 单元。在H. 264/AVC中,编码图片可W是基础编码图片或冗余编码图片。基础编码图片用 于有效比特流的解码过程中,而冗余编码图片是一种冗余呈现,其仅在基础编码图片无法 成功解码时进行解码。HEVC草案中没有对冗余编码图片进行规范。
[0050] 在H. 264/AVC中,接入单元还可W包括辅助编码图片,所述辅助编码图片对基础 编码图片进行补充,可用于显示等过程中。辅助编码图片可作为阿尔法通道或阿尔法平面 等指定解码图片样本的透明度。阿尔法通道或平面可用于层级构造或擅染系统,通过将至 少部分透明的图片进行叠加形成输出图片。辅助编码图片具有与单色冗余编码图片相同的 语法和语义。在H. 264/AVC中,辅助编码图片具有与基础编码图片相同数量的宏块。
[0051] 编码视频序列指的是按解码顺序从IDR接入单元(包括该IDR单元)到下一IDR 接入单元(不包括该IDR单元)或比特流末端中出现较早的一个的连续接入单元序列。 阳0巧图片组(G(P)及其特点可定义如下。不管之前的图片是否解码,GOP都能解码。开 放GOP是指,当从开放GOP的组内初始图片进行解码时,在输出顺序中先于组内初始图片的 图片可能不能正确解码的一组图片。也就是说,开放GOP的图片(在帖间预测时)可能指 属于前一GOP的图片。比264/AVC解码器能从H. 264/AVC比特流中的恢复点CEI报文中识 别开放GOP的组内初始图片。由于其编码切片中使用特定的NAL单元类型,即CRANAL单 元,肥VC解码器能识别开放GOP的组内初始图片。闭合GOP是指,当从闭合GOP的组内初始 图片进行解码时,所有图片都能正确解码的一组图片。也就是说,闭合GOP的任何图片都不 属于之前的G0P。在H. 264/AVC和肥VC中,闭合GOP从IDR接入单元开始。因此,闭合GOP 结构具有比开放GOP结构更好的误差弹性,但也可能会降低压缩效率。由于参考图片的选 择更为灵活,开放GOP结构的压缩效率可能更高。
[0053]比264/AVC和肥VC的比特流语法指示某一图片是否作为其他图片的帖间预测的 参考图片。在H.264/AVC和肥VC中,任一编码类型化P,B)的图片都能作为参考图片或非 参考图片。NAL单元头部指示NAL单元的类型W及NAL单元中包含的编码切片是否为参考 图片或非参考图片的一部分。
[0054] 很多混合型视频编解码器,包括H. 264/AVC和肥VC,分两个阶段对视频信息进行 编码。第一阶段对某一图片区域或"块"的像素或样本值进行预测。运些像素或样本值能 通过运动补偿等机制等进行预测,运设及找到并指示之前已编码的一个与正被编码的块紧 密对应的视频帖的区域。同时,像素或样本值还能通过找到并指示空间区域关系的空间机 制进行预测。
[0055] 利用已编码图像的图像信息的预测方式也可称为帖间预测,还可称为时间预测和 运动补偿。利用本图像W内的图像信息的预测方式也可称为帖内预测。
[0056]第二阶段对所预测的像素或样本块和原始像素或样本块的误差进行编码。运可通 过使用指定的变换方式对像素或样本块的差值进行变换来实现。运种变换可W是离散余弦 变换值CT)或其变体。对差值进行变换后,对经过变换的差值进行量化和赌编码。
[0057]通过改变量化过程的保真度,编码器能控制像素或样本呈现精度(即图片的视觉 质量)和得到的编码视频呈现的大小(即文件大小或传输比特率)之间的平衡。
[0058]解码器通过与编码器使用的用来形成像素或样本块的预测呈现预测机制相似的 预测机制(使用编码器生成的存储在压缩图像中的运动或空间信息)及预测误差解码(预 测误差编码的逆操作,目的是恢复空域的量化预测误差信号)来预构建输出视频。
[0059]经过像素或样本预测和误差解码过程后,解码器将预测及预测误差信号(像素或 样本值)组合形成输出视频帖。
[0060] 在将输出视频传递给显示和/或存储作为视频序列中后续图片的预测参考之前, 解码器(及编码器)还可W使用其他滤波过程来提高输出视频的质量。
[0061]视频编码器的巧伟淑例
[0062] 在对图片或视频帖中的块或像素进行编码时,可通过帖间预测或帖内预测基于一 个或多个已编码参考块生成预测块。预测块可为原始块的预估版本。通过从预测块中减去 原始块或相反的操作,可生成驻留块,驻留块表示预测残留或误差。由于表示预测残留所需 的数据量通常小于表示原始块所需的数据量,可对驻留块进行编码来实现更高压缩率。
[0063] 然后,空域驻留块的驻留值可转换为频域的变换系数。运种转换可通过二维变换 实现,如与离散余弦变换值CT)高度类似的变换方式。在变换矩阵中,低索引变换系数(如 位于左上方区域)可与大空间特征值对应,具有较大的幅值,而高索引变换系数(如位于右 下方区域)可与小空间特征值对应,具有较小的幅值。进一步地,可在变换举矩阵采用包括 量化系数的量化矩阵(QM),从而将所有变换系数转化为量化的变换系数。通过量化,可降低 变换系数的幅度或幅值。某些高索引变换系数可降低至零,然后就可在后续的扫描和编码 过程中直接跳过。
[0064] 较佳的视频编码器10的一部分如图1所示,包括变换单元或模块12、量化模块14 及赌编码器或编码模块16。尽管图1没有示出,但应理解视频编码器10还可包括预测模 块、解量化模块、重建模块等其他模块。运行时,视频编码器10可获取源图片或视频帖,所 述源图片或视频帖可包含多个视频块。为描述清晰,W-个源视频块为例进行说明。要编 码该视频块,可先生成预测块,作为对该视频块的预估。如前所述,预测块可由预测模块通 过帖间或帖内预测生成。然后,可计算源视频块和预测块之间的差值生成驻留块。变换模 块12可将驻留块转变为变换系数。在变换过程中,将包括大特征值和小特征值的空域驻留 像素值转换为频域的变换系数,包括高频频段和低频频段。然后,量化模块可采用量化矩阵 QM对变换系数进行量化,生成量化的变换系数。进而,量化的变换系数可由赌编码模块进行 编码,最后作为比特流的一部分从视频编码器10传送出去。 阳0化]解码器可W类似的方式运行,但至少部分是方向相反的。
[0066] 帖内预测横式编码
[0067] 肥VC的帖内预测模式编码在IE邸文件《肥VC标准的帖内编码》中有详细描述,该 文可使用数字对象标识"10. 1109/TCSVT. 2012. 2221525"在IE邸网站进行访问。该IE邸 文件的全部内容都通过引用结合在本申请中。
[0068] 肥VC帖内编码所采用的编码结构严格遵从编解码的整体架构。图像被拆分为编 码单元(CU)、预测单元(PU)及变换单元(TU)。CU表示用于区分帖内和帖间编码块的四分 树拆分区域。CU内部可定义多个不重叠的PU,每个PU指定一个具有独立预测参数的区域。 CU又进一步拆分为变换单元的四分树,每个变换单元TU有可能通过变换TU的大小进行驻 留编码。
[0069] 在平面模式(模式0)和DC模式(模式1)的帖内预测模式基础上,肥VC的一个草 案中引入了 33种角度预测模式(分别为模式2-34)。通过基于列表的方式,模式数量(35) 的增加实现了帖内预测模式的高效编码。针对每个预测单元,确定最可能的3种模式,用 运些模式构建最可能模式(MPM)列表。最可能模式从相邻PU,更具体地,左方和上方的相 邻PU,的帖内预测模式中进行选择。为避免列表项的重复,将左方和上方的相邻PU的预测 模式进行对比。如果两者模式相同并等于平面或DC模式,则列表按平面、DC及角度(模式 26-垂直)的顺序进行构建。如果两者模式相同并等于某角度模式,则列表按该角度模式及 与其最接近的两种角度模式进行构建。如果左方和上方的相邻PU的帖内预测模式不同,贝U 在列表中插入运两种模式,并将第S种模式按上述顺序设为平面、DC或角度(模式26-垂 直)。
[0070] 确定当前PU的预测模式后,编码器判断MPM列表中是否存在该预测模式。如果存 在,仅指示列表中的索引号。否则,在进行固定长度的二值化及旁路编码处理后,再对当前 预测模式进行指示。MPM列表W外还有32种模式,运32种模式能用5个比特来适当表示。 亮度帖内预测模式的编码由S种语法元素组成,分别是prev.intra.luma.pred.flag、mpm. idx和rem.intra.luma.pred.mode。其中,语法元素prev.intra.luma.pred.flag表示当 前预测模式是否在MPM列表中。当该标志符等于0时,对语法元素rem.intra.luma.pred. mode进行编码,指示预测模式。当该标志符等于1时,对语法元素mpm.idx进行编码,由此 解码器能通过构建MPM列表得到当前帖内预测模式。
[0071] 尽管帖内预测模式的增加能显著改善性能,它同时也增加了率失真(RD)优化过 程的复杂性。W下描述官方肥VC测试模式(HM) 6.0参考软件所使用的编码算法。
[0072] 歷软件的编码算法包括两个阶段。第一阶段,由模式粗判决过程选择N个最可能 候选模式。在此过程中,所有候选模式(35种模式)都通过W下开销函数进行评估: 阳07;3] C = Dwad+入-Rmode
[0074] 其中,Dh。康示PU经哈达玛化damard变换的驻留信号的绝对总量,Rmede表示预测 模式的比特数量。
[00巧]第二阶段,在所述N个最佳后续模式中比较整体畑开销,其中整体畑开销包含用 于实际编码过程的重建驻留信号。选择RD开销最低的预测模式作为最终的预测模式。其 中,N随PU大小不同而不同。对4X4、8X8、16X16、32X32 及 64X64 的PU,N分别设为 {8, 8, 3, 3, 3},W对预测和驻留数据优化最重要的小块尺寸进行更彻底的捜索。注意,在本 阶段可假定TU的大小等于可能的最大值,而不是允许进行TU拆分,W降低复杂性。第二阶 段后,采用所述最佳预测模式确定经RD优化的TU结构。
[0076] 基于肥VC的S维(3D)视频编码 阳077] W下MPEG文件(MPEG编号m27310)的全部内容都通过引用结合在本申请中。 JCT3V-B1005中由G.Tech、K.We即er、Y.Chen和S.Yea合作的《3D-HEVC测试模式2》,出版 于2012年12月23日中国上海。该文件可通过W下抓L地址进行访问:http://phenix. it-sudo曰ris.eu/ict3v/docenduser/currentdocument,php?id= 460〇
[0078] 当前,联合协作组的3D视频扩展开发团队(JCT-3V)正在开发几个3D视频编码标 准,该团队是IS0/IECMPEG和口U-TVCEG的联合工作组。其目的在于视频纹理和深度数 据的高效压缩,W支持更大范围的具有连续视觉适应性的高级应用和显示。 阳079] 3D视频要支持3D视频应用,其中3D显示系统提供对可视画面的3D深度感知。3D 显示系统种类很多,包括需要专用眼镜的传统立体显示系统,到更精良的不需要眼镜的多 视自动立体影像显示系统,再到提供多视角连续影像的全息显示系统。在更高级的显示系 统中,最好甚至必需采用自动的方式或通过与最终用户的互动对深度感知进行调整。因此, 由于3D效果的实现主要通过产生多个完整的视频样本阵列来形成视点依赖型图片,相对 传统立体显示系统,数据吞吐量要大得多。运就给呈现格式和压缩带来了新的挑战,而呈现 格式和压缩应通过尽可能少的比特来提供高质量数据。实现运一目的的一种重要方法是在 视频纹理中使用深度或不等性数据,然后就可W通过称为基于图像的擅染的合成方法用其 生成更多的视图。在高级方法中,还能进一步利用深度图及其与视频纹理的连贯性,对整体 3D视频进行更精简的呈现。
[0080] JCT-3V团队正进行采用肥VC编码技术的两个3D视频方案的开
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1