高位深度视频的可扩展编码中的高精度上采样的制作方法

文档序号:14450973阅读:157来源:国知局

本申请是申请号为201380066796.4、申请日为2013年12月4日、发明名称为“高位深度视频的可扩展编码中的高精度上采样”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求于2012年12月21日提交的美国临时专利申请no.61/745050的优先权,其全部内容通过引用并入于此。

本发明总体上涉及图像。更特别地,本发明的实施例涉及用于高位深度视频的可扩展(scalable)视频编解码器中的高精度上采样。



背景技术:

音频和视频压缩是多媒体内容的开发、存储、分发和消费的关键组成部分。对压缩方法的选择涉及编码效率、编码复杂度和延迟之间的权衡。当处理能力对计算成本的比率增加时,允许发展允许更高效的压缩的更复杂的压缩技术。例如,在视频压缩中,来自国际标准化组织(iso)的运动图像专家组(mpeg)通过发布mpeg-2、mpeg-4(第2部分)和h.264/avc(或mpeg-4,第10部分)编码标准来持续改进最初的mpeg-1视频标准。

尽管h.264的压缩效率和成功,被称为高效视频编码(hevc)的新一代视频压缩技术目前正在开发当中。hevc被期望提供相对于现有的h.264(也称为avc)标准有所提升的压缩能力,hevc的草案可获于“highefficiencyvideocoding(hevc)textspecificationdraft9”,itu-t/iso/iec视频编码联合组(jct-vc)文档jctvc-k1003,2012年10月,作者b.bros,w.-j.han,g.j.sullivan,j.-r.ohm和t.wiegand,其全部内容通过引用并入于此,而h.264标准被发布为“advancedvideocodingforgenericaudio-visualservices”,itutrec.h.264和iso/iec14496-10,其全部内容通过引用并入于此。

视频信号可以由诸如位深度、色彩空间、色域和分辨率之类的多个参数表征。现代电视和视频回放设备(例如,蓝光播放器)支持各种分辨率,包括标准清晰度(例如,720×480i)和高清晰度(hd)(例如,1090×1080p)。超高清晰度(uhd)是具有至少3840×2160分辨率的下一代分辨率格式。超高清晰度也可以称为超hd、uhdtv或超高清。如在此所使用的,uhd表示高于hd分辨率的任何分辨率。

视频信号特性的另一方面是它的动态范围。动态范围(dynamicrange,dr)是指图像中的例如从最暗至最亮的强度(例如,亮度,luma)的范围。如在此所使用的,术语“动态范围”(dr)可以与人类精神性视觉系统(hvs)感知图像中的例如从最暗至最亮的强度(例如亮度,luma)的范围的能力有关。在这种意义上,dr与“涉及场景”(scene-referred)的强度有关。dr还可以与用于充分地或近似地呈现特定宽度的强度范围的显示设备的能力有关。在这种意义上,dr与“涉及显示器”的强度有关。除非在本描述中的任何点处明确地指定特定意义具有特定含义,否则,应当推断该术语可以例如可互换地在任一种意义上使用。

如在此所使用的,术语高动态范围(hdr)与横跨人类视觉系统(hvs)的某14至15个量级的dr宽度有关。例如,基本正常的适应性好的人(例如,在统计学、生物计量学和眼科学意义中的一个或更多个上)具有横跨大约15个量级的强度范围。适应的人可以感知到少至只有少量光子的微弱光源。然而,同样这些人可以感知到沙漠、大海或雪地的正午太阳的几乎引起痛感的耀眼的强度(或者甚至直视太阳,但要短暂以避免伤害)。但是这种跨度可用于“适应的”人,例如,那些其hvs具有重置和调整时间段的人。

相反,与hdr相比,在其上人可以同时感知强度范围的广阔宽度的dr在一定程度上被截断。如在此所使用的,术语“增强的动态范围”(edr)、“可视的动态范围”或“可变的动态范围”(vdr)可以单独地或者可互换地与能由hvs同时感知的dr有关。如在此所使用的,edr可以涉及横跨5至6个量级的dr。因此,尽管与涉及真实场景的hdr相比也许有些狭窄,但是edr表示宽的dr宽度。如在此所使用的,术语“同时的动态范围”可以涉及edr。

如在此所使用的,术语图像或视频“位深度”表示用于代表或存储图像或视频信号的色彩分量的像素值的位数。例如,术语n位视频(例如,n=8)表示该视频信号中的色彩分量(例如r、g或b)的像素值可以取范围0至2n-1内的值。

如在此所使用的,术语“高位深度”表示任何大于8位(例如,n=10位)的位深度值。注意,当hdr图像和视频信号典型地与高位深度相关联时,高位深度的图像不一定具有高动态范围。因此,如在此所使用的,高位深度成像可以与hdr和sdr这两者都有关联。

为了支持与传统回放设备和新显示技术的向后兼容,可以使用多个层来将uhd和hdr(或sdr)视频数据从上游设备传递到下游设备。给定这种多层的流,传统的解码器可以使用基本层来重构内容的hdsdr版本。先进的解码器可以使用基本层和增强层这两者来重构内容的uhdedr版本以将其呈现在更有能力的显示器上。如发明人在此所领会的,用于使用可扩展编解码器来对高位深度的视频进行编解码的改进技术是所希望的。

在本部分中所述的方法是可获得的方法,但不一定是之前已设想或获得的方法。因此,除非另有表明,否则不应当仅仅因为在本部分中所述的任何方法被包括在本部分中而将它们认定为现有技术。类似地,除非另有表明,否则关于一种或更多种方法所识别的问题不应当基于本部分而认为已经在任何现有技术中已经发现。

附图说明

在附图的图中以举例的方式而非以限制的方式例示了本发明的实施例,在附图中相同的附图标记表示相似的元件,其中:

图1描述了根据本发明实施例的可扩展编码系统的示例性实现;

图2描绘了根据本发明实施例的可扩展解码系统的示例性实现;

图3描绘了根据本发明实施例的图像数据上采样的示例性过程。

具体实施方式

在此描述了具有高位深度的视频输入的可扩展编码中的高精度上采样。给定与中间结果的位深度、内部输入位深度以及滤波器精度位深度相关的参数,可确定缩放(scaling)和舍入(rounding)因子,以保持操作的精度并防止溢出。

在下面的描述中,出于解释的目的,阐述了许多具体细节以便提供对本发明的透彻理解。但是,显然本发明可以在没有这些具体细节的情况下实施。在其它实例中,没有详尽地描述熟知的结构和设备,以避免不必要地使本发明晦涩难懂。

综述

在此描述的示例性实施例涉及具有高位深度的视频信号的分层编码和解码中的高精度采样。响应于视频编码和解码系统的位深度需求,针对可分离的向上扩展(up-scaling)的滤波器,确定输入数据、滤波系数以及缩放和舍入参数。首先,使用第一舍入参数在第一空间方向上对输入数据进行滤波,以生成第一上采样数据。通过使用第一偏移参数对第一上采样数据进行缩放而生成第一中间数据。然后,使用第二舍入参数在第二空间方向上对中间数据进行滤波,以生成第二上采样数据。通过使用第二偏移参数对第二上采样数据进行缩放而生成第二中间数据。可以通过对第二中间数据进行修剪来生成最终的上采样数据。

高精度可分离上采样

现有的诸如hdtv、机顶盒或蓝光播放器之类的显示和回放设备典型地支持高达1080phd分辨率(例如1920×1080,每秒60帧)的信号。对于消费者应用,现在典型地按照亮度-色度色彩格式中的每个色彩分量、每个像素使用8位的位深度来压缩这种信号,在该格式中典型地,色度分量具有比亮度分量更低的分辨率(例如,ycbcr或yuv4:2:0的色彩格式)。由于8位深度和相应的低动态范围,这种信号典型地被称为具有标准动态范围(sdr)的信号。

随着诸如超高清晰度(uhd)之类的新电视标准正在开发,以可扩展的格式对具有提高的分辨率和/或更高的位深度的信号进行编码是可取的。

图1描绘了可扩展编码系统的示例性实现的实施例。在示例性实施例中,基本层(baselayer,bl)输入信号104可以代表hdsdr信号,增强层(enhancementlayer,el)输入102可以代表高位深度的uhdhdr(或sdr)信号。使用bl编码器105来压缩(或编码)bl输入104,以生成编码的bl位流107。bl编码器105可以使用诸如mpeg-2、mpeg-4第2部分、h.264、hevc、vp8等之类的已知或未来的视频压缩算法中的任何一种来对bl输入信号104进行压缩或编码。

假定bl输入104,编码系统100不仅生成编码的bl位流107,还生成bl信号112,其中bl信号112代表将由相应的接收器解码的bl信号107。在一些实施例中,可以通过bl编码器105之后的单独的bl解码器(110)来生成信号112。在一些其它的实施例中,可以从用于在bl编码器105中执行运动补偿的反馈回路生成信号112。如图1中所示,可以通过层间处理单元115来处理信号112,以生成适合由层间预测过程120使用的信号。在一些实施例中,层间处理单元115可以向上扩展信号112,以匹配el输入102的空间分辨率(例如,从hd分辨率到uhd分辨率)。在层间预测120之后,残差127被计算,随后被el编码器132编码以生成编码的el位流132。bl位流107和el位流132典型地被多路复用到单个编码的位流中,该单个编码的位流被发送给合适的接收器。

术语shvc表示被称为高效视频编码(hevc)[1]的新一代视频压缩技术的可扩展延伸,所述hevc能实现显著高于现有的avc(h.264)标准[2]的压缩能力。shvc目前正在由iso/iecmpeg和itu-twp3/16组联合开发。shvc的关键方面之一是空间可扩展性,其中层间纹理预测(例如,120或210)提供最重要的增益。在图2中示出了shvc解码器的示例。作为层间预测的一部分,上采样过程(220)对来自基本层(215)的像素数据进行上采样或向上转换(up-convert),以匹配在增强层(例如202或230)中接收到的数据的像素分辨率。在实施例中,可以通过应用上采样或内插滤波器来执行上采样过程。在h.264(svc)的可扩展延伸或shvcsmuc0.1.1软件[3]中,应用了可分离的多相上采样/内插滤波器。当这些滤波器对具有标准位深度的输入数据(例如,每个色彩分量每个像素使用8位的图像)执行良好时,对于具有高位深度的输入数据(例如,每个色彩分量每个像素使用10位或更多位的图像),它们可能会溢出。

在2d上采样或内插处理过程中,普通惯例是应用可分离的滤波器以减少处理复杂度。这种滤波器首先在一个空间方向(例如,水平或垂直方向)上对图像进行上采样,然后是另一方向(例如,垂直或水平方向)。在不损失共性的情况下,在以下描述中,假设水平上采样之后是垂直上采样。然后,滤波过程可以被描述为:

水平上采样:

temparray[x,y]=∑i,j(ef[xphase,

i]*refsamplearray[xref+j,y])(1)

垂直上采样

predarray[x,y]=clip((σi,j(ef[yphase,i]*temparray[x,yref+j])+offset)>>nshift)(2)

其中,ef存储多相上采样滤波器系数,refsamplearray包含来自重构的基本层的参考采样值,temparray存储第一次1d滤波后的中间值,predarray存储第二次1d滤波后的最终值,xref和yref对应于上采样的相对像素位置,nshift表示缩放或归一化参数,offset表示舍入参数,以及clip()表示修剪函数。例如,假定数据x和阈值a和b,在示例性实施例中,函数y=clip(x,a,b)表示

例如,对于n位的图像数据,a和b的示例值可以包括a=0和b=2n-1。

在方程(2)中,运算a=b>>c表示通过将b的二进制表示向右偏移c位而使b除以2c(例如,a=b/2c)。注意,在方程(1)中,对于第一阶段滤波,没有应用修剪或偏移操作。还应注意,在本实现下,水平滤波和垂直滤波的顺序并不重要。先应用垂直滤波再应用水平滤波产生的结果和先应用水平滤波再应用垂直滤波的结果相同。

在smuco.01[3]中,ef的滤波精度(表示为us_filter_prec)被设为6位。当refsamplearray的内部位深度是8位时,则temparray可以保持在目标实现位深度(例如14或16位)以内。但是当refsamplearray的内部位深度超过8位时,则方程(1)的输出可能溢出。

在实施例中,这种溢出可以通过以下避免:(a)固定上采样过程中的操作顺序,以及(b)包含中间缩放操作。在实施例中,当在水平滤波之后垂直滤波时,上采样可以如下实现:

水平上采样:

temparray[x,y]=(∑i,j(ef[xphase,i]*refsamplearray[xref+j,y]+ioffset1))>>nshift1(3)

垂直上采样

predarray[x,y]=clip((∑i,j(ef[yphase,i]temparray[x,yref+j])+ioffset2)>>nshift2),(4)

在不损失共性的情况下,令interm_bitdepth表示中间滤波处理的位深度(或位分辨率)要求;即,没有结果可以用多于interm_bitdepth的位来表示(例如interm_bitdepth=16)。令internal_input_bitdepth表示用于在处理器中代表输入视频信号的位深度。注意,internal_input_bitdepth可以等于或者大于输入信号的原始位深度。例如,在一些实施例中,8位输入视频数据可以内部地用internal_input_bitdepth=10来表示。可替代地,在另一个示例中,可以用internal_input_bitdepth=14表示14位的输入视频。

在一个实施例中,方程(3)和(4)中的缩放参数可以计算为

nshift1=(us_filter_prec+internal_input_bitdepth)-interm_bitdepth,(5)

nshift2=2*us_filter_prec-nshift1.(6)

在实施例中,nshiftl和nshift2的值不能为负数。例如,nshiftl的负值指示中间结果所允许的位分辨率比足以防止溢出更高;因此,当其为负数时,nshiftl可以设为0。

如果在(3)和(4)中都使用舍入(最高复杂度,最高精度):

ioffset1=1<<(nshift1-1),(7)

ioffset2=1<<(nshift2-1),(8)

其中a=1<<c表示“1”的二进制左偏移c位,即a=2c。

可替代地,如果在(3)和(4)中都未使用舍入(最低复杂度,最低精度):

ioffsetl=0,(9)

ioffset2=0。(10)

可替代地,如果在(3)使用舍入而在(4)中未使用舍入:

ioffsetl=1<<(nshiftl-1),(11)

ioffset2=0。(12)

可替代地,如果在(4)使用舍入而在(3)中未使用舍入(这是常见的):

ioffsetl=0,(13)

ioffset2=1<<(nshift2-1);(14)

在示例性实施例中,令interm_bitdepth=14,us_filter_prec=6,且internal_input_bitdepth=8,则通过方程(5)和(6),nshiftl=0且nshift2=12。在另一个示例中,对于us_filter_prec=6,如果internal_input_bitdepth=10,并且interm_bitdepth=14,则根据所选择的舍入模式,nshiftl=2且ioffsetl=0or2。此外,根据所选择的舍入模式,nshift2=10且ioffset2=0或29

注意,使用方程(3)和(4)中所示的实施,在垂直滤波之后水平滤波可能产生与在水平滤波之后垂直滤波不同的结果,因此,在解码器中,要么可以由所有解码器来固定和预先确定适当的滤波(例如,通过解码标准或规范),要么在一些实施例中可以由编码器在元数据使用适当的标示来向解码器发信号告知适当的顺序。

图3描绘了根据本发明的实施例的用于图像数据上采样的示例性过程。首先(305),分层编码系统中的编码器或解码器确定适当的滤波顺序(例如,在水平滤波之后垂直滤波)以及缩放和舍入参数。在实施例中,基于中间存储(例如,interm_bitdepth)、滤波器系数(例如,us_filter_prec)和内部输入表示(例如,internal_input_bitdepth)所需的位深度,可以根据方程(5)-(14)来确定缩放和舍入参数。在步骤310中,在第一方向(例如,水平方向)上对图像数据进行上采样。在中间存储之前使用第一偏移参数(例如,nshiftl)和第一舍入参数(例如,ioffsetl)来对该阶段的输出结果进行舍入和缩放。接下来(315),在第二方向(例如,垂直方向)上对中间结果进行上采样。使用第二偏移参数(例如,nshift2)和第二舍入参数(例如,ioffset2)来对该阶段的输出结果进行舍入和缩放。最后(320),在最终输出或存储之前对第二阶段的输出数据进行修剪。

在此描述的方法也可应用于利用对高位深度的图像数据的可分离的滤波的其它成像应用,诸如向下扩展(down-scaling)、噪声滤波或频率变换。

示例性的计算机系统实现

本发明的实施例可以用计算机系统、在电子电路和部件中配置的系统、诸如微控制器、现场可编程门阵列(fpga)或其它可配置的或可编程的逻辑器件(pld)之类的集成电路(ic)器件、离散时间或数字信号处理器(dsp)、专用ic(asic)和/或包括这种系统、器件或部件中的一个或更多个的装置来实现。计算机和/或ic可以实行、控制或执行关于高精度上采样的指令,诸如在此所描述的那些。计算机和/或ic可以计算与在此所描述的高精度上采样有关的各种参数或值中的任何一个。编码和解码的实施例可以以硬件、软件、固件及其各种组合来实现。

本发明的某些实施包括执行软件指令的计算机处理器,所述软件指令使处理器执行本发明的方法。例如,显示器、编码器、机顶盒、转码器等中的一个或更多个处理器可以通过执行处理器可访问的程序存储器中的软件指令来实现如上所述的关于高精度上采样的方法。本发明还可以以程序产品的形式提供。程序产品可以包括携带有一组包含指令的计算机可读信号的任何介质,当所述指令被数据处理器执行时,使数据处理器执行本发明的方法。根据本发明的程序产品可以具有各种形式中的任何一种。例如,程序产品可以包括诸如包括软盘、硬盘驱动器的磁数据存储介质、包括cdrom、dvd的光学数据存储介质、包括rom、闪存ram的电子数据存储介质等之类的物理介质。程序产品上的计算机可读信号可以可选地被压缩或加密。

在上面提到部件(如软件模块、处理器、组件、器件、电路等)之处,除非另有表明,否则对该部件引用(包括对“装置”的引用)应当被解释为包括执行所述部件的功能的、作为该部件的等效物(如在功能上等效)的任何部件,包括与执行本发明的所例示的示例性实施例的功能的公开结构在构造上不等效的部件。

等效、扩展、替代和混合

如此描述了与高位深度视频的可扩展编码的高精度上采样有关的示例性实施例。在以上说明书中,已经参考可根据实现方式而不同的许多具体细节来描述本发明的实施例。因此,本发明是什么以及申请人意欲本发明是什么的唯一且独有的标志是如本申请发布的权利要求书中以该权利要求书发布的具体形式记载的集合,包括任何后续改正。针对该权利要求书中包含的术语,本文明确阐述的任何定义应当支配在权利要求书中所使用的该术语的意义。因此,未在权利要求中明确记载的限制、要素、性质、特征、优点或属性不应当以任何方式限制这该权利要求的范围。因此,说明书和附图应当认为是例示性的,而非限制性的。

参考文献

[1]b.bross,w.-j.han,g.j.sullivan,j.-r.ohm,andt.wiegand,"highefficiencyvideocoding(hevc)textspecificationdraft9,"itu-t/iso/iec视频编码联合组(jct-vc)文档jctvc-k1003,2012年10月.

[2]itu-tandiso/iecjtc1,"advancedvideocodingforgenericaudio-visualservices,"itutrec.h.264与iso/iec14496-10(avc)

[3]用于shvcs(hevc的可扩展延伸)的smuco.1.1软件:https:/hevc.hhi.fraunhofer.de/svn/svn_smucsoftware/tags/0.1.1/

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1