在视频译码中执行残差预测的制作方法

文档序号:8441506阅读:292来源:国知局
在视频译码中执行残差预测的制作方法
【专利说明】在视频语码中执行残差预测
[0001] 本申请案主张2012年9月30日申请的第61/708, 011号美国临时申请案和2013 年7月1日申请的第61/749, 874号美国临时申请案的权益,所述美国临时申请案中的每一 者特此W全文引用的方式并入。
技术领域
[0002] 本发明设及视频译码,并且更具体来说设及多视图或可缩放视频数据的译码。
【背景技术】
[0003] 数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广 播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码 相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线 电电话、所谓的"智能电话"、视频电话会议装置、视频流式传输装置及其类似者。数字视频 装置实施视频压缩技术,例如由MPEG-2、MPEG-4、口U-TH. 263或口U-TH. 264/MPEG-4第 10部分高级视频译码(AVC)所界定的标准、目前正在开发的高效率视频译码(肥VC)标准及 该些标准的扩展中所描述的视频译码技术。视频装置可通过实施此类视频压缩技术而更有 效率地传输、接收、编码、解码及/或存储数字视频信息。
[0004] 视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测W减少或移除 视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,图片或图片的一部 分)可W分割成视频块,视频块还可被称作树块、译码单元(CU)及/或译码节点。使用相 对于同一图片中的相邻块中的参考样本的空间预测对图片的经帖内译码(I)切片中的视 频块进行编码。图片的经帖间编码(P或B)切片中的视频块可使用相对于同一图片中的相 邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。
[0005] 空间或时间预测导致对块的预测块进行译码。残差数据表示待译码的原始块与预 测块之间的像素差。经帖间译码块是根据指向形成预测块的参考样本块的运动向量及指示 经译码块与预测块之间的差的残差数据编码的。经帖内译码块是根据帖内译码模式及残差 数据来编码。为了实现进一步压缩,可W将残差数据从像素域变换到变换域,从而产生残差 变换系数,接着可W对残差变换系数进行量化。可扫描最初布置为二维阵列的经量化变换 系数,W便产生变换系数的一维向量,且可应用滴译码W实现更多压缩。

【发明内容】

[0006] 一般来说,本发明描述用于多视图或可缩放视频译码的技术。执行新兴的视频译 码标准的视频译码装置(其可一般是指视频编码器及/或视频解码器)可W避免在块层级 处改变的方式执行一种形式的高级残差预测。换句话说,视频译码装置可使用先前界定的 双向预测执行一种形式的高级残差预测,其为一般用于从与当前图片相同或不同的层或视 图中的参考图片的一或多个参考块预测当前块的运动补偿技术,而不必修改新兴的视频译 码标准的基础层或视图处的块层级操作。
[0007] 为了说明,对于当前增强层(其为W某一方式加强基础层的层)中的当前图片,视 频译码器(其可指视频编码器及/或视频解码器中的任一者或两者)可基于当前层的参考 图片及其参考层(例如,基础层)中的参考图片的位于同一地点的图片(其可为相同存取 单元中的图片)而计算差异图片。视频译码器可将差异图片添加到当前图片的参考图片列 表。在一些实例中,视频译码器可将差异图片多次添加到参考图片列表,且每次作为具有或 不具有不同处理/滤波的条目。视频译码器可随后在译码当前图片时使用此差异图片。W 此方式,所述技术可使得视频译码器能够使用先前界定的双向预测执行一种形式的高级残 差预测而不必潜在地修改新兴的视频译码标准的块层级。
[000引在一个方面中,一种解码可缩放或多视图视频数据的方法包括针对当前图片基于 与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中 的经解码图片而确定差异图片,其中所述经解码图片处于与所述第一参考图片相同的存取 单元中。所述方法进一步包括基于所述差异图片而执行双向预测W解码所述当前图片的至 少一部分。
[0009] 在另一方面中,一种编码可缩放或多视图视频数据的方法包括针对当前图片基于 与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中 的经解码图片而确定差异图片。所述经解码图片处于与所述第一参考图片相同的存取单元 中。所述方法进一步包括基于所述差异图片而执行双向预测W编码所述当前图片的至少一 部分。
[0010] 在另一方面中,一种经配置W译码可缩放或多视图视频数据的装置包括一或多个 处理器,所述一或多个处理器经配置W针对当前图片基于与所述当前图片相同的层或视图 中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片,其 中所述经解码图片处于与所述第一参考图片相同的存取单元中。所述一或多个处理器可进 一步经配置W基于所述差异图片而执行双向预测W译码所述当前图片的至少一部分。
[0011] 在另一方面中,一种经配置W译码可缩放或多视图视频数据的装置,所述装置包 括:用于针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当 前图片不同的层或视图中的经解码图片而确定差异图片的装置,其中所述经解码图片处于 与所述第一参考图片相同的存取单元中;及用于基于所述差异图片而执行双向预测W译码 所述当前图片的至少一部分的装置。
[0012] 在另一方面中,一种非暂时性计算机可读存储媒体具有存储在其上的指令,所述 指令在被执行时致使经配置W译码可缩放或多视图视频数据的装置的一或多个处理器:针 对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不 同的层或视图中的经解码图片而确定差异图片,其中所述经解码图片处于与所述第一参考 图片相同的存取单元中;及基于所述差异图片而执行双向预测W译码所述当前图片的至少 一部分。
[0013] 在附图及W下描述中阐述本发明的一或多个方面的细节。本发明中所描述的技术 的其他特征、目标及优点将从描述及图式且从权利要求书而显而易见。
【附图说明】
[0014] 图1是说明可利用本发明中描述的技术的实例视频编码及解码系统的框图。
[0015] 图2是说明可实施本发明中描述的技术的实例视频编码器的框图。
[0016] 图3是说明可实施本发明中描述的技术的实例视频解码器的框图。
[0017] 图4是说明在执行本发明中描述的技术的各种方面的视频编码器的实例操作的 流程图。
[0018] 图5是说明在执行本发明中描述的技术的各种方面中的视频解码器的实例操作 的流程图。
[0019] 图6是说明用于SVC的实例经加权差异域单向预测的图。
[0020] 图7是说明译码多视图视频译码(MVC)序列的概念图。
[002U图8为说明实例MVC预测模式的概念图。
[0022] 图9是说明由对H. 264/AVC的可缩放视频译码(SVC)扩展实现的可缩放性的不同 维度的概念图。
[0023] 图10是说明实例SVC译码结构的概念图。
[0024] 图11是说明位流中的SVC存取单元的概念图。
[0025] 图12是说明实例清洁随机存取(CRA)图片及实例前导图片的概念图。
【具体实施方式】
[0026]视频译码标准包含口U-TH.261、ISO/IEC MPEG-1 Visual、口U-T比262或ISO/ IEC MPEG-2 Visual、ITU-TH.263、IS0/IEC MPEG-4 Visual及口U-TH.264(也被称为ISO/ IEC MPEG-4 AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。
[0027] 此外,存在正由口U-T视频译码专家组(VCEG)及IS0/IEC运动图片专家组(MPEG) 的视频译码联合合作小组(JCT-VC)进行开发的一种新的视频译码标准(被称作"高效率视 频译码"或"肥VC")。可从http://phenix.int-evrv.fr/ict/docenduser/do州ments/10 Stocldiolm/wgll/TCTVC-T1003-v8.ziD得到肥VC的最新的工作草案(WD)且在下文被称作 肥VCWD8,其全部内容W引用的方式并入本文中。
[002引在大多数视频译码标准中(包含上文所列的视频译码标准),视频数据对应于W相对高的帖速率回放的个别图片序列。视频译码器(例如视频编码器及视频解码器)通常 利用基于块的视频译码技术。也就是说,视频译码器可将图片中的每一者划分为一组个别 视频数据块,随后译码图片的每一个别块。
[0029] 基于块的视频译码通常设及两个一般步骤。第一步骤包含预测当前视频数据块。 此预测可通过使用帖内预测(目P,基于相同图片的相邻的先前经译码块的空间预测)或帖 间预测(即,基于一或多个先前经译码图片的时间预测)。此预测过程的执行产生当前块的 预测块。另一步骤设及对残差块的译码。一般来说,残差块表示当前块的原始未译码版本 与预测块之间的逐像素差异。视频编码器通过计算逐像素差异而形成残差块,而视频解码 器将残差块添加到预测块W重现原始块。
[0030] 多视图视频数据一般用于产生针对观看者的S维(3D)效果。可大体上同时显示 来自两个视图(即,从略微不同的水平位置的相机观点)的图片,W使得一个图片由观察者 的左眼看到,且另一图片由观察者的右眼看到。在两个图片中展示的对象之间的视差对观 看者产生3D效果。
[0031] 因为两个图片包含类似信息,所W多视图视频译码技术包含视图间预测。目P,一 个视图("基础视图")的图片可经帖内及帖间预测(目p,在时间上进行帖间预测),且非基 础视图的图片可相对于基础视图的图片进行视图间预测。在视图间预测中,视差运动向量 可用于指示当前视图中的当前块的参考块相对于基础视图(或其它参考视图)中的参考图 片的位置。用作参考视图的非基础视图在相对于参考视图译码非基础视图时可视为基础视 图。
[0032] 可缩放视频数据一般用于产生自适应视频数据,所述自适应视频数据可缩放W适 应可用带宽中的改变、显示器能力之间的差异(常常在分辨率方面)及可重现可缩放视频 数据的装置的其它能力之间的差异。通常,基础层是指具有第一空间分辨率的第一图片序 列,且被称作"增强层"的更高层可提供额外的视频数据,其加强或W其它方式补充基础层 W促进基础层的可缩放性(常常加强基础层图片W提供增加的分辨率(作为一个实例))。
[0033] 可缩放视频数据,比如多视图视频数据,可设及与上文相对于多视图视频数据所 描述的译码技术类似的译码技术。因为基础层及增强层的图片包含几乎类似的信息,所W 可缩放视频译码技术还可包含层间预测。目P,基础层的图片可经帖内及帖间预测(即,在时 间上经帖间预测),且增强层的图片可相对于基础层的图片经层间预测。在层间预测中,视 差运动向量可用于指示当前层中的当前块的参考块相对于基础层(或其它参考层)中的参 考图片的位置。用作参考层的非基础层可在相对于参考层译码非基础层时视为基础层。
[0034] 集中到可缩放视频译码(SVC)W用于说明目的,已经提出用于执行被称作用于旧 版视频译码标准(例如H. 264视频译码标准)的经加权差异域单向预测的东西的过程。经 加权差异单向预测设及计算差异信号(其也可被称为"差异块"),其中此差信号被计算为 当前层(其可为设及增强层巧L)的另一方式)经重构信号及对应基础层经重构信号的函 数。具体来说,通过从对应的基础层经重构信号减去当前层经重构信号而计算差异信号。所 述差异信号随后用于预测当前块的残差,其中此差异信号可在所述差异信号用作残差的预 测块(其也可被称作残差块)之前经加权。
[0035] 虽然用于SVC及MVC两者的高级残差预测可与不利用高级残差预测的视频译码 过程相比促进译码效率(或,换句话说,更好地压缩给定图片),但可必须在块层级(或在 肥VC术语中被称作"译码单元"层级的东西)处修改新兴的视频译码标准(例如,所提出的 高效率视频译码(肥VC)标准)W支持用于对肥VC提议的任何SVC或MVC扩展的该些高级 残差预测过程。因为逐块地导出一些高级残差预测过程中的差异信号或块,所W可能需要 块层级改变(因此使用替代性名称"差异块"来指代此差异)。在肥VC提议(例如)一般 已完成块层级信令及设计的条件下,肥VC提议可不能够在不修改来自肥VC提议的所采用 的编解码器的情况下在对肥VC提议的对应的SVC及/或MVC扩展中实施或执行高级残差 预测过程。
[0036] 根据此描述的技术,可修改或W其它方式调适执行新兴的视频译码标准的视频译 码装置(其可一般指代视频编码器及/或视频解码器)从而W避免对新兴的视频译码标准 的有效块层级的改变的方式执行一种形式的高级残差预测。换句话说,所述视频译码装置 可使用先前界定的双向预测执行一种形式的高级残差预测,如下文更详细地描述,其为一 般用于从与当前图片相同或不同的层或视图中的参考图片的一或多个参考块预测当前块 的运动补偿技术。
[0037] 实际上,视频译码装置可执行此双向预测从而W模拟高级残差预测的应用的方式 预测增强层中的当前图片的当前块。w此方式,所述技术可调适或w其它方式修改双向预 测W执行图片层级形式的高级残差预测,其可不需要对HEVC或其它新兴的视频译码标准 提议的块层级方面的显著修改。所述技术可因此使得遵守新兴的视频译码标准的视频译码 装置能够执行高级残差预测且进而与不能够执行高级残差预测的那些视频译码装置相比 实现额外的压缩效率。
[003引图1是说明可利用用于时间运动向量预测的技术的实例视频编码和解码系统10 的框图。如图1中所示,系统10包含源装置12,所述源装置12提供将在稍后时间由目的 地装置14解码的经编码视频数据。确切地说,源装置12经由计算机可读媒体16将视频数 据提供到目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者, 包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如, 所谓的"智能"电话)、所谓的"智能"平板计算机、电视机、摄像机、显示装置、数字媒体播放 器、视频游戏控制台、视频流式传输装置或其类似者。在一些情况下,源装置12和目的地装 置14可能经装备W用于无线通信。
[0039] 目的地装置14可经由计算机可读媒体16接收待解码的经编码的视频数据。计算 机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类 型的媒体或装置。在一个实例中,计算机可读媒体16可包括使得源装置12能够实时将经 编码的视频数据直接传输到目的地装置14的通信媒体。
[0040] 经编码视频数据可根据通信标准(例如,无线通信协议)来调制,且被传输到目的 地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(R巧频谱或一或多个物 理传输线路。通信媒体可形成基于包的网络(例如,局域网、广域网或全球网络,例如因特 网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装 置14的通信的任何其它装备。
[0041] 在一些实例中,经编码数据可W从输出接口 22输出到存储装置。类似地,可W通 过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取式数据 存储媒体中的任一者,例如硬盘驱动器、藍光光盘、DVD、CD-ROM、快闪存储器、易失性或非易 失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中, 存储装置可W对应于文件服务器或可存储源装置12产生的经编码视频的另一中间存储装 置。
[0042] 目的地装置14可经由流式传输或下载从存储装置存取经存储的视频数据。文件 服务器可W是能够存储经编码视频数据并且将所述经编码视频数据传输到目的地装置14 的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网 络附接存储(NA巧装置或本地磁盘驱动器。目的地装置14可W通过任何标准数据连接(包 含因特网连接)来存取经编码视频数据。此可包含无线通道(例如,Wi-Fi连接)、有线连 接(例如,DSL、缆线调制解调器,等等),或适合于存取存储于文件服务器上的经编码视频 数据的W上两者的组合。经编码视频数据从存储装置的传输可能是流式传输、下载传输或 其组合。
[0043] 本发明的技术不一定限于无线应用或环境。所述技术可W应用于支持多种多媒体 应用中的任一者的视频译码,例如空中电视广播、有线电视传输、卫星电视传输、因特网流 式视频传输(例如,动态自适应HTTP流式传输值ASH))、经编码到数据存储媒体上的数字视 频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配 置W支持单向或双向视频传输,W支持例如视频流式传输、视频回放、视频广播和/或视频 电话等应用。
[0044] 在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口 22。目的 地装置14包含输入接口 28、视频解码器30及显示装置32。根据本发明,源装置12的视频 编码器20可经配置W应用所述技术W用于多视图译码中的运动向量预测。在其它实例中, 源装置及目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18 (例 如外部相机)接收视频数据。同样,目的地装置14可W与外部显示装置介接,而不是包含 集成显示装置。
[0045] 图1的所说明系统10只是一个实例。可W由任何数字视频编码和/或解码装置 来执行用于时间运动向量预测的技术。尽管本发明的技术一般通过视频编码装置来执行, 但是所述技术还可通
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1