用于增强动态范围信号的分层编码的自适应整形的制作方法

文档序号:12183668阅读:182来源:国知局
用于增强动态范围信号的分层编码的自适应整形的制作方法与工艺

相关申请的交叉引用

本申请要求以下专利申请的优先权:2013年6月17日提交的美国临时专利申请No.61/836,044;2014年3月12日提交的美国临时专利申请No.61/951,914;以及2014年5月23日提交的美国临时专利申请No.62/002,631,每件专利申请的全部内容特此通过引用并入。

本申请还涉及2014年3月25日提交的国际申请No.PCT/US2014/031716,该申请的全部内容通过引用并入本文。

技术领域

本发明一般涉及视频图像。更具体地,本发明的实施例涉及用于分层编码和解码的、具有高或增强动态范围的图像的自适应整形(reshape)。



背景技术:

如本文中所使用的,术语“动态范围”(DR)可以与人类心理视觉系统(HVS)感知图像中的例如从最黑暗的暗(黑)到最明亮的亮(白)的强度(例如,照度、亮度)范围的能力有关。在这个意义上,DR与“场景参考(scene-referred)”强度有关。DR还可以与显示设备充分地或近似地呈现特定广度(breadth)的强度范围的能力有关。在这个意义上,DR与“显示器参考(display-referred)”强度有关。除非特定的意义在本文的描述中的任何点处被明确地指定为具有特别的重要性,否则应推断该术语可以在任一意义上(例如,可互换地)被使用。

如本文中所使用的,术语高动态范围(HDR)与跨越人类视觉系统(HVS)的一些14-15个数量级的DR广度有关。例如,具有(例如,在统计、生物计量或眼科意义上)基本上正常的视觉的适应良好的人类具有跨越大约15个数量级的强度范围。适应的人类可以感知如仅少数光子那么少的昏暗光源。然而,这些相同的人类可以感知沙漠、海或雪中的正午的太阳的近乎痛苦的耀眼强度(或者甚至瞥向太阳,但是短暂地以防止伤害)。该跨度不过对于“适应的”人类(例如,其HVS具有进行重置和调整的时间段的那些人)是可用的。

相反,与HDR相比较,在其上人类可以同时感知强度范围中的广泛广度的DR有些截短。如本文中所使用的,术语增强动态范围(EDR)或视觉动态范围(VDR)可以单独地或可互换地与HVS可同时感知的DR有关。如本文中所使用的,EDR可以与跨越5至6个数量级的DR有关。因此,尽管与真实场景参考HDR相比较,可能有些较窄,但是EDR却表示宽的DR广度。

在实际中,图像包括一个或多个颜色分量(例如,亮度Y以及色度Cb和Cr),其中,每个颜色分量通过每一像素n位的精度表示(例如,n=8))。尽管亮度动态范围和位深不是等同的实体,但是它们通常是相关的。其中n≤8的图像(例如,彩色24位JPEG图像)被认为是标准动态范围的图像,而其中n>8的图像可以被认为是增强动态范围的图像。EDR和HDR图像也可以使用高精度(例如,16位)浮点格式(诸如由Industrial Light and Magic开发的OpenEXR文件格式)来进行存储和分发。

视频信号可以通过多个参数(诸如位深、颜色空间、色域和分辨率)表征。现代的电视和视频回放设备(例如,蓝光播放器)支持各种分辨率,包括标清(例如,720×480i)和高清(HD)(例如,1920×1080p)。超高清(UHD)是具有至少3,840×2,160分辨率(被称为4K UHD)以及高达7680×4320的选项(被称为8K UHD)的下一代分辨率格式。超高清也可以被称为Ultra HD、UHDTV或超高视觉。如本文中所使用的,UHD表示高于HD分辨率的任何分辨率。

为了支持与旧有的8位回放设备以及新的HDR或UHD编码和显示技术的后向兼容,可以使用多种格式来将UHD和HDR(或EDR)视频数据从上游设备递送到下游设备。给定EDR流,一些解码器可以使用8位层的集合来重构内容的HD SDR或EDR版本。高级解码器可以使用以比传统的8位高的位深编码的层的第二集合来重构内容的UHD EDR版本以在更有能力的显示器上呈现它。如发明人在这里所意识到的,用于EDR视频的编码和分发的改进技术是所希望的。

在本部分中描述的方法是可以追寻的方法,但不一定是以前已设想或追寻的方法。因此,除非另有指示,否则不应仅仅由于在本部分中所描述的任一方法包括在本部分中就假定它们有资格作为现有技术。类似地,针对一种或多种方法识别出的问题不应基于本部分就假定已在任何现有技术中被认识到,除非另有指示。

附图说明

本发明的实施例在附图的图中通过示例的方式、而非以限制的方式被示出,并且在附图中,相似的附图标记指的是类似的元素,并且其中:

图1A描绘根据本发明的实施例的EDR分层编码的示例框架;

图1B描绘根据本发明的实施例的EDR分层解码的示例框架;

图2描绘基于幂函数的示例EDR信号整形函数,其中,函数参数α根据本发明的实施例而确定。

图3描绘根据本发明的实施例的用于确定用于EDR输入的前向成形函数的最佳指数的示例过程;

图4描绘根据本发明的实施例的用于确定EDR码字的前向映射的示例过程;

图5描绘根据本发明的实施例的输入EDR码字(vc)到基于块的缩放因子(k(vc))的中间映射的示例;

图6描绘根据本发明的实施例的输入EDR码字到最终输出的整形符号的示例映射;

图7描绘根据本发明的实施例计算的反向映射的示例;

图8A和图8B描绘根据本发明的实施例的色度范围缩放的示例;以及

图9描绘根据本发明的实施例的编码和解码管线的示例。

具体实施方式

本文中描述了用于具有增强动态范围(EDR)的视频图像的分层编码的自适应整形技术。在以下描述中,出于解释的目的,阐明了大量具体的细节,以便提供本发明的透彻理解。然而,将清楚的是,本发明可以在没有这些具体细节的情况下实施。在其它情况下,公知的结构和设备没有被详尽地描述,以便避免不必要地封闭、模糊或混淆本发明。

概述

本文中所描述的示例实施例涉及用于高效分层编码的、具有高或增强动态范围的视频图像的自适应整形。编码器接收将以分层表示被编码的输入的增强动态范围(EDR)图像。输入图像可以使用可用视频编码器中的一个或多个不支持的位深格式被伽玛编码或感知编码。输入图像被重映射到一个或多个量化层以使用可用视频编码器来产生适合于压缩的输出码字。

在一个实施例中,重映射是基于使用单个函数参数的幂函数。展现了基于对于输入EDR图像中的每个块计算基于块的复杂性量度(measure)、并然后评估量化图像中的量化引起的失真的量来确定最佳函数参数的技术。

在另一个实施例中,使用基于块的复杂性度量(诸如标准偏差)以及基于块的线性量化模型(其中,对于每个图像块确定单独的最优的量化器缩放器(scaler))来产生最佳映射。该单独的最优的缩放器被组合以对于每个输入码字确定包络斜率(envelope slope),并且基于包络斜率来确定输入码字与输出码字之间的最优的前向映射函数。反向映射函数可以作为查找表被发送到解码器,或者它可以使用分段多项式近似来近似。

在另一个实施例中,给定反向映射查找表,使用分段多项式近似技术来近似逆向(inverse)映射函数。

在解码器中,对编码的位流层进行解码以产生解码的视频层,该解码的视频层被再组合以产生单个解码信号。然后,给定接收到的定义编码器整形或映射函数的参数,对解码信号进行逆向映射以产生从编码器发送到解码器的原始EDR信号的估计。

在另一个实施例中,可以对输入视频信号的色度颜色分量进行转化(translate),以使得期望的白点(white point)的坐标被近似地移位(shift)到转化的色度范围的中心。

用于视频信号整形和分层分解的示例框架

分层编码和解码

现有的显示器和回放设备(诸如HDTV、机顶盒或蓝光播放器)通常支持高达1080p HD分辨率(例如,在每秒60帧时的1920×1080)的信号。对于消费者应用,这样的信号现在通常以其中通常色度分量具有比亮度分量低的分辨率的亮度-色度颜色格式(例如,YCbCr或YUV 4:2:0颜色格式)、每一颜色分量每一像素使用8位的位深来进行压缩。由于8-位深和对应的低动态范围,这样的信号通常被称为具有标准动态范围(SDR)的信号。随着新的电视标准(诸如超高清(UHD))正被开发,可能所希望的是对具有增强分辨率和/或增强动态范围的信号进行编码。

视频图像通常被伽玛编码以补偿人类视觉系统的性质。例如,ITU-R Rec.2020定义了UHDTV信号的推荐伽玛编码。对于EDR图像,感知量化(PQ)可以提供对于传统的伽玛编码的更好的替代。人类视觉系统以非常非线性的方式对增加的光水平(level)进行响应。人类看见刺激的能力受该刺激的亮度、该刺激的大小、构成该刺激的空间频率、以及眼睛在一个人观看该刺激的特定时刻适应的亮度水平影响。感知量化器函数将线性的输入灰度水平映射到与人类视觉系统中的对比灵敏度阈值更好地匹配的输出灰度水平。在其全部内容通过引用并入本文的、2012年12月6日提交的、J.S.Miller等人的标题为“Perceptual luminance nonlinearity-based image data exchange across different display capabilities”、序号为PCT/US2012/068212的PCT申请(将被称为‘212申请)中描述了PQ映射函数的示例,在该申请中,给定固定的刺激大小,对于每一个亮度水平(即,刺激水平),根据最灵敏的适应水平和最灵敏的空间频率(根据HVS模型)来选择该亮度水平处的最小可见对比步长(step)。与传统的表示物理阴极射线管(CRT)设备的响应曲线、并且巧合地可能具有与人类视觉系统响应的方式非常粗略的相似性的伽玛曲线相比,如‘212申请所确定的PQ曲线使用相对简单的函数模型来模拟人类视觉系统的真实视觉响应。

在其全部内容通过引用并入本文的、2013年3月26日提交的、标题为“Encoding perceptually-quantized video content in multi-layer VDR coding”的、从现在开始将被称为‘388申请的美国临时申请序号61/805,388(该申请还于2014年3月25日被作为PCT/US2014/031716提交)中,发明人描述了使用两层编码器对PQ编码的EDR图像数据进行高效编码和传输的图像整形技术。本申请通过描述可应用于使用单层编码器或多层编码器两者对EDR数据进行编码的新颖的映射或整形技术来在‘388申请上进行了扩展。

图1A描绘根据本发明的实施例的EDR分层编码的示例框架。输入信号(102)包括具有可能已被伽玛或PQ编码的EDR像素值的视频帧的序列。对于总共L个编码层,该系统包括至少一个基本层(BL)视频编码器(120-0),并且可以包括一个或多个增强层(EL)视频编码器(120-1,120-L-1),直到L-1。例如,对于L=2,该系统包括双层编码器。视频编码器(120)可以全部是相同的或不同的,从而实现用于视频压缩的已知的或未来的编码格式中的任何一个,诸如:MPEG-2、MPEG-4、part 2、H.264(或AVC)、H.265(或HEVC)等。此外,一个层中的视频编码器可以支持与另一个层中的视频编码器不同的位深。例如,不失一般性,实施例可以包括以下配置:

●单层HEVC编码器,其支持至少10位的位深,但是优选地支持12位或更多。

●双层编码器,其中,两个编码器可以使用相同的格式(比如说H.264)来进行编码,并且两个编码器支持相同的或不同的位深(比如说,8位和10位)

●双层编码器,其中,两个编码器可以使用不同的编码格式来进行编码,并且每一个可以支持不同的位深(比如说,8位、以及10位或更多)

●多层编码器,其中,至少一个编码器为8位MPEG-2编码器,而至少一个其它编码器为HEVC或H.264编码器。

视频编码器(120)可以全部通过单个处理器或者通过一个或多个处理器来实现。

根据实施例,信号整形模块(110)将输入的EDR信号(被表示为v)量化为更好地符合视频编码器(120)的特性(诸如最大支持位深)的信号s(112)。如本文中所使用的,术语整形、量化和(前向)映射表示将输入信号从第一动态范围映射到通常低于第一动态范围的第二动态范围的输出信号的等同功能,并且可以可互换地使用。

令Bl表示由第l层视频编码器(120-l,l=0,1,2,…,L-1)使用的位深,则,对于总共NT=N0+N1+…+NL-1个码字,每个层可以支持多达Nl=2Bl个输入码字。例如,对于L=1(单层)且B0=10,存在210=1024个量化码字。对于L=2(双层)且B0=B1=8,则存在28+28=512个量化码字。当L=2且B10=10、B1=8时,则存在总共210+28=1280个量化码字。因此,该系统可以适应视频编码标准的任何组合,每个视频编码标准以它自己的位深进行操作。

令s=f(v)表示信号整形/量化函数(110)。稍后将更详细地描述这样的函数的示例。标识整形函数的参数可以被包括在元数据信号(119)中。在一些实施例中,元数据(119)可以被元数据编码器(125)编码,并且经编码的元数据(127)可以被用信号发送到解码器(如图1B中所描绘的解码器),以用于适当的逆向量化和解码。在另一个实施例中,信号整形(110)可以包括信号整形函数族,从而对于一个或多个层或者层内的一个或多个色度分量,使用单独的成形函数。例如,在实施例中,用于基本层(l=0)的信号整形函数可以是线性函数,而用于第一增强层(l=1)的信号整形函数可以包括非线性函数或分段线性函数。

层分解

在实施例中,令量化信号s(112)的像素值被分成由段边界{pi,i=0,1,…,L}限定的L个段,其中,p0通常表示对于s的最小可能值(例如,p0=0),并且

对于i=1,…,L (1)

例如,对于L=1,p0=0并且p1=N0。该模块将把所有的码字编码到基本层。

对于L=2,p0=0,p1=N0,p2=N0+N1。在实施例中,将在层0中对具有{p0,p1}之间的码字的像素进行编码,并且将在层1中对具有{p1,p2}之间的码字的像素进行编码。一般地,给定L个层,对于每个层l,该层处的sl个像素被编码为:

sl=Clip3(s,pl,pl+1-1)-pl,l=0,1,2,…,L-1, (2)

其中,d=Clip3(s,a,b)表示裁剪(clip)函数,其中,如果a≤s≤b,则d=s,如果s<a,则d=a,以及如果s>b,则d=b。

在层分解(115)之后,在实施例中,每个层sl(117-l,l=0,1,…,L-1)可以被视频编码器(120)独立地编码以产生经压缩的位流(122)。如在‘388申请中所讨论的,在一些实施例中,可以将图1A中所描绘的系统修改为也允许层间预测。在这样的实施例中,预测器可以被用于基于l-1层的像素值来估计第l层的像素值;然后不是直接对第l层的像素值进行编码,而是简单地对实际值与预测值之间的残差进行编码和发送。

在一些实施例中,经编码的位流(122)、经编码的元数据(127)和其它数据(例如,音频数据)可以被复用为单个位流,并且作为单个复用的位流(未示出)被发送到解码器。

图1B描绘了根据本发明的实施例的EDR分层解码的示例框架。如图1B中所描绘的,在接收的可以组合音频、视频和辅助数据(未示出)的位流的解复用之后,将接收的经编码的位流(122)中的每一个馈送给视频解码器阵列(130)。解码器(130)对应于编码器(120),并且产生经解码的视频信号(132)中的一个或多个。使用信号逆向整形和层合成器(140)单元,接收的分层信号被组合和逆向成形以产生信号(142),其表示原始EDR信号(102)的估计。在实施例中,可以如下产生输出EDR信号(142):

其中,f-1()表示信号整形函数(110)的逆(或逆的接近的近似),并且表示重构的层信号(132),其表示原始sl信号(117)的非常接近的近似。如图1B中所描绘的,在接收的层之间不存在层间预测;然而,如视频编码领域中已知的,该系统可以被容易地扩展到如下的解码器:在这些解码器中,使用接收的残差信号和层间预测来产生信号。

使用幂函数的EDR信号整形

如‘388申请中所描述的,对于PQ编码的信号,在实施例中,信号整形函数(110)可以被表达为:

其中,vL和vH表示考虑输入EDR信号(102)下的颜色通道中的最小值和最大值,并且cL和cH表示对应的最小输出值和最大输出值。例如,在实施例中,如等式(1)中所定义的,cL=0并且cH=pL-1。α的值是恒定的,但是可以基于每一帧、每一场景或其它合适的标准而改动和变化。图2描绘了对于α<1的等式(4)的幂整形函数的示例。在实施例中,如果输入(112)被PQ编码,则α>1,否则,如果输入(112)被伽玛编码,则α<1。

在‘388申请中,描述了使用基于块内的像素的标准偏差或者块内的最小像素值与最大像素值之间的差的块复杂性度量(MEDR)来确定α的最佳值的方法。除了这些度量之外,可以基于块的空间特性或频率特性来应用其它复杂性量度。例如,MEDR可以对应于块中的像素的方差、块的DC值、或者其DCT系数或像素值的另一个函数。

考虑包括F个视频帧的视频场景,每个帧被分成N个块(例如,每个块为8×8个像素)。图像块可以重叠,或者在优选实施例中,不重叠。图3描绘了基于一般化的块复杂性量度MEDR(j,n)(例如,不失一般性,块内的像素值的标准偏差)来计算最佳α的过程。

如图3中所描绘的,在步骤(305)(在该步骤中,对场景中的所有帧中的每个块计算MEDR(j,n))之后,在步骤(310)中,构造集合Фj,该集合Фj包括满足某一标准(例如,MEDR(j,n)>T,其中,T是预先指定的阈值,比如说0)的所有图像块。

步骤(315)、(320)和(325)包括对于预定范围(例如,MIN_α≤αj≤MAX_α)内的各种αj值计算的循环(327)。例如,开始αj可以被设置为等于1,并且然后可以根据原始EDR视频数据被如何编码而增大或减小。例如,对于PQ编码的数据,它将被增大,而对于伽玛编码的数据,它将被减小。在步骤(320)中,使用给定的αj和等式(4),对输入数据EDR进行量化,并且可以对每个经量化的块计算新的度量MLD(j,n,αj)。在一些实施例中,复杂性量度MLD可以与复杂性量度MEDR相同。在一些其它的实施例中,这两个复杂性量度可以是不同的。对输入的EDR数据量化越多,经量化的信号(112)的特性将改变越多。理想地,量化(110)应使输入尽可能少地失真。在步骤(325)中,可以应用由于量化而导致的失真的量度以识别选择的αj是否是最佳的。例如,在实施例中,如果

则αj可以被选择为最佳的,其中,Tσ是另一个预定的阈值(例如,Tσ=0)。

在场景中的所有块已被量化之后,在步骤(330)中选择总体最优的alpha值。例如,在实施例中,对于α>1,总体最优的α被选择为所有最佳的αj值之中最小的那一个。类似地,对于α<1,总体最优的α被选择为所有最佳的αj值之中最大的那一个。

在一些实施例中,为了针对由于视频编码器(120)的有损压缩而导致的量化影响进行调整,可以进一步调整总体最佳的alpha(例如,α=α+Δα,其中,当α>1时Δ为负值,而当α<1时Δ为正值)。相同的参数优化过程也可以被容易地扩展到其它的由多于一个的函数参数表征的线性或非线性量化和整形函数。

表1以伪代码提供了根据实施例的基于图3中所描绘的过程对伽玛编码的值进行整形的示例算法,其中,期望的α<1。

表1—对于伽玛编码的EDR信号计算最优α的方法

在解码器中,逆向成形运算(140)可以被表达为:

在一些实施例中,等式(4)的幂函数可以被表达为分段线性多项式、分段2-d或3-d阶多项式或分段B样条。在这样的实现中,建议应强制执行段之间的平滑度和单调性约束以避免量化相关的伪像。然后可以应用与较早描述的或者在‘388申请中描述的那些搜索方法类似的搜索方法。

块自适应整形函数

再次考虑包括F个视频帧的视频场景,每个帧被分成N个块(例如,每个块为8×8个像素)。图像块可以重叠,或者在优选实施例中,不重叠。图4描绘了根据实施例的将输入的EDR码字(102)映射为经整形的输出值(112)的示例数据流程。

如前所述,可以定义基于块的复杂性量度(MEDR)。在实施例中,在步骤(405)中,不失一般性,考虑将基于块中的像素的标准偏差(std)而计算的复杂性量度。注意,检查帧j(j=1,2,…,F)中的块n的标准偏差是否为零(例如,MEDR(j,n)=stdjn=0)等于检查该块中的最大值(例如,B(j,n))与该块中的最小值(例如,A(j,n))之间的差是否为0。

假定整形函数(110)通过分段线性线构造,则对于输入vi∈[A(j,n) B(j,n)],局部量化器可以被表达为:

其中,k(j,n)是调整第j帧中的第n块处的量化器的斜率的缩放因子。

在步骤(410)中,令Ф表示块度量满足某一标准的所有块的集合。例如,令Ф表示在量化之前具有非零标准偏差的所有块的集合,或者

Φ={(j,n)|B(j,n)-A(j,n)>0}. (7)

在实施例中,给定阈值Tth(其中,不失一般性,Tth≥1),给定块的最小像素值和最大像素值,在步骤(415)中,可以如下导出最优的k(j,n):

给定数据{A(j,n),B(j,n),k(j,n)},该三元组值揭示了,在段[A(j,n),B(j,n)]内部,量化器应具有至少k(j,n)的斜率。假定特定的EDR码(例如,vc)可以属于多个[A(j,n),B(j,n)]段,则对于EDR码字vc,需要对于每个码字确定最大斜率以满足所有块。

令θ(vc)表示覆盖码字vc的所有块之中的所有段的集合,或者

θ(vc)={(j,n)|A(j,n)≤vc≤B(j,n),(j,n)∈Φ}. (9)

然后,在步骤(420)中,码字vc处的所需斜率可以被确定为属于θ(vc)集合的那些块内的所有最优斜率的包络,或者

在步骤(425)中,令所有这样的包络斜率的和被表示为:

然后,对于每个vc码字,不失一般性,在步骤(430)中,可以如下定义累积斜率函数:

为了保证所有的码字被映射在[cL,cH]界限内,可以使用以下等式来计算从vc码字到si值的映射:

给定等式(13),可以使用前向映射查找表(例如,)来计算输入的vc值和输出的si值之间的映射。在实施例中,该表可以以数据存储,或者作为图像元数据(119)的一部分被发送到解码器以使得解码器可以重构逆向映射过程。

在示例实施例中,表2使用伪代码概括了图4中所描绘的映射过程。

表2

在一些实施例中,在等式(12)中,替代函数可以被用于计算累积斜率函数K(vc)。例如,可以如以下等式中那样在k(vc)值被求和之前对k(vc)值进行滤波或加权:

其中,wi表示具有(2u+1)个滤波器抽头的滤波器的滤波器系数或预定权重(例如,u=2并且滤波器系数对应于低通滤波器的那些滤波器系数)。

图5描绘了给定[0,255]的[cL,cH]范围的对于帧的测试序列的、vc码字对包络斜率k(vc)值的示例绘图。

给定图5中描绘的数据,图6描绘了vc对映射的示例。

逆向整形

在解码器中,给定等式(13)的值,可以如下确定逆向量化器或整形函数(140):

对于每个经解码的码字令

换句话说,对于量化域中的给定码字通过以下操作来构造对应的估计的EDR码字首先对具有量化值的所有像素进行分组,找到对应的EDR码字,并然后对所有收集的EDR码字取平均。从等式(16),后向查找表可以被构造,并且被以数据存储或者例如作为元数据(119)的一部分发送到解码器。

给定图6中描绘的数据,图7描绘了对映射或逆向整形(140)的示例。

在实施例中,可以使用元数据(119,127)将由关系定义的映射发送到解码器。这样的方法就位率开销来说可能太昂贵。例如,对于8位数据,查找表可以包括每次存在场景改变时将发送的255个条目。在其它实施例中,可以将逆向映射转化为分段多项式近似。这样的多项式通常可以包括一阶多项式和二阶多项式,尽管也可以使用更高阶的多项式或B样条。对于某一层l(l=0,1,…,L-1)近似LUT的多项式的数量可以根据可用带宽和处理复杂性而变化。在实施例中,基本层使用多达8个段,而增强层使用单个段。

表3描绘了根据实施例的使用二阶多项式来近似解码器LUT表的示例算法。

表3—使用2d阶多项式的LUT近似

如表3中所描绘的,在实施例中,近似过程的输入包括:(比如说,使用等式(16)计算的)原始查找表、LUT中的值与通过多项式近似产生的那些值之间的可接受的误差容限、可用码字的数量、以及其第一码字值(参见等式(1))。输出可以包括每个多项式的端点(也被称为枢轴点)以及多项式系数。

从第一枢轴点开始,该算法试图不失一般性地使用二次多项式来拟合可用码字的最大可能范围。可以使用任何已知的多项式拟合算法,诸如均方误差多项式拟合等。

当计算的最大误差超过输入容限时,则存储最优多项式的参数,并且开始搜索新的多项式,直到整个LUT表被映射为止。

在一些实施例中,可以用于近似LUT的多项式的数量可以被约束为固定值,比如说八个。在该情况下,可以将更高的误差容限融合到算法中。

表3的方法也可以被容易地修改以适应其它近似函数,诸如更高阶的多项式、B样条、或近似函数的组合。

感知均匀的颜色空间中的编码

视频信号通常在熟悉的RGB颜色空间中被呈现;然而,大多数视频压缩标准(诸如MPEG-2、H.264(AVC)、H.265(HEVC)等)已被优化以在对立的颜色空间(诸如YCbCr或YUV)中进行操作。这些颜色空间对于对8-10位标准动态范围(SDR)视频进行编码并发送是足够的,然而,从每一像素的位数要求的观点来讲,当对EDR视频进行编码并发送时,它们可能不是最高效的。例如,在过去,Lu’v’和Log(L)u’v’颜色空间也已被建议。

如发明人所意识到的,感知均匀空间中的信号的编码可能得益于u’和v’色度数据在被视频编解码器处理之前的附加处理。例如,在实施例中,在编码器中,这样的处理可以被作为信号整形过程(110)的一部分对输入信号(102)执行。

白点转化

在实施例中,从线性XYZ到Luma u’v’颜色空间的转换可以包括以下步骤:

a)定义白点(例如,D65)的坐标

b)针对Luma=f(Y)进行求解,以及

c)从X、Y和Z,针对u’和v’进行求解

如本文中所使用的,函数f(Y)表示任何明度相关的函数,诸如L(或L’)、log(L)等。在优选实施例中,f(Y)可以表示如在‘212申请中所描述的感知量化(PQ)映射函数。

在实施例中,白点可以被定义为具有u’坐标和v’坐标的D65(6500K):

Du=d65u=0.1978300066428;

Dv=d65v=0.4683199949388;

在实施例中,可以如下导出u’和v’:

如果(X+15Y+3Z)≠0,则

并且如果(X+15Y+3Z)=0,则

u’=Du (17c)

v’=Dv (17d)

逆向操作包括:

a)定义白点(例如,D65)的坐标

b)针对Y=f-1(Luma)进行求解

c)从u’和v’,针对X和Z进行求解

例如,在使用根据‘212申请的感知量化函数的实施例中,可以应用对应的逆向PQ映射来产生Y个像素值。

在实施例中,可以如下导出X和Z:

如果v’≠0,则

并且如果v’=0,则X=Z=Y。 (18c)

图8A描绘了u’v’色度空间中的白点(805)(例如,D65)的传统映射。如图8A中所描绘的,u’和v’色度值的范围对于u’近似为(0,0.623),对于v’近似为(0,0.587)。如图8A中所描绘的,D65白点在u’v’信号表示中不居中。这可能在对色度分量进行子采样和上采样以在原始的4:4:4颜色格式与在视频编码中通常使用的4:2:0或4:2:2颜色格式之间转化之后导致颜色偏移。为了缓解这样的颜色偏移,建议将变换函数应用于色度值。在一个实施例中,变换函数将白点近似移位到经转化的u’v’的中心;然而,在可能想要看到色度误差下降的情况下,白点可以被转化为任何其它的颜色值。例如,如果经转化的值u′t和v′t在范围(0,1)中,则可以应用以下映射:

u′t=(u′-Du)a1+b1, (19a)

v′t=(v′-Dv)a2+b2, (19b)

其中,Du和Dv表示所选择的白点的原始的u’坐标和v’坐标,(b1,b2)确定白点在转化的颜色空间中的期望位置的坐标,并且ai(i=1,2)是基于期望的转化点以及u’和v’的最小值和最大值而计算的常数。在一个实施例中,转化参数(例如,a1和a2)对于整个视频序列可以是固定的。在另一个实施例中,可以基于每一个场景或每一个帧来计算转化参数以利用传入(incoming)的内容的色度范围的变化。

图8B描绘了根据示例实施例的白点(805)在经转化的色度空间中的映射。在图8B中,原始的u’和v’色度值被转化使得所选择的点(例如,D65)近似处于经转化的色度空间的中心(0.5,0,5)。例如,如果经转化的值u′t和v′t在(0,1)中,则对于b1=b2=0.5,在一个实施例中,可以应用以下映射:

u′t=(u′-Du)1.175+0.5, (20a)

v′t=(v′-Dv)1.105+0.5, (20b)

其中,Du和Dv表示所选择的白点的u’坐标和v’坐标。该转化将导致色度误差表现为欠饱和,而不是色调偏移。本领域的普通技术人员将意识到,非线性函数也可以被应用于u’和v’色度值来实现相同的转化。这样的非线性函数可以将更高的精度分配给近中性色以进一步降低由于编码和量化而导致的颜色误差的可见性。

减小色度熵

如果u’和v’像素分量被乘以光度的函数,则可以进一步改进色度细节的可见性。例如,在实施例中,可以如下导出经转化的色度值:

u′t=g(Luma)(u′-Du)a1+b1, (21a)

v′t=g(Luma)(v′-Dv)a2+b2 (21b)

其中,g(Luma)表示亮度通道的函数。在实施例中,g(Luma)=Luma。

在解码器中,传入的信号可以被表示为Luma u’tv’t。在许多应用中,该信号在进一步处理之前必须被转换回XYZ、RGB或某一其它的颜色空间。在示例实施例中,从Luma u’tv’t到XYZ的颜色转换过程可以包括以下步骤:

a)取消(undo)亮度编码

Y=f-1(Luma)

b)取消对u’t和v’t值的范围缩放以恢复u’和v’

c)使用等式(18)来还原X和Z

在一些实施例中,可以在任何颜色变换之前将传入的信号的Luma、u’t和v’t分量规范化到(0,1)范围中。在一些实施例中,等式(17)-(21)可以使用查找表、乘法和加法的组合来实现。例如,在实施例中,令

Y=f-1(Luma),

B=3u’,

C=20v’,并且

D=1/(4v’)

表示以Luma、u’和v’作为其输入的三个查找表的输出,然后,从等式(18),可以如下使用四个乘法和两个加法来计算X和Z值:

Z=(Y*D)*(12-B-C),

并且

X=(Y*D)*(3*B).

例如,在实施例中,对于10位编码的信号,每个LUT可以具有1024个条目,每个条目对于目标应用处于足够高的精度(例如,32位)。

图9描绘了根据本发明的实施例的编码和解码管线的示例。输入信号(902)可以为RGB 4:4:4或任何其它合适的颜色格式。在步骤(910)中,例如通过对亮度值使用感知量化(PQ)映射并且对色度值使用等式(17),信号(902)被转化为感知Luma u’v’格式。在步骤(915)中,应用例如如等式(19)-(21)中所描绘的变换以将原始的u’v’色度值转化为经转化的色度值u’t和v’t,以使得白点被近似放置在经转化的色度空间的中心处。经颜色变换和转化的Luma u’tv’t4:4:4信号(例如,917)可以在被视频编码器(920)编码之前被颜色子采样(未示出)为4:2:0或4:2:2格式。视频编码器(920)可以包括如前所述的信号整形(110)和层分解(115)过程。在接收器上,视频解码器(930)产生解码的信号(932)。视频解码器(930)可以包括信号逆向整形和层合成器(140)。在可选的颜色上采样(例如,从4:2:0到4:4:4)之后,反向色度转化步骤(935)可以通过使(915)中的转化操作反向来将Luma u’tv’t信号(932)转化回Luma u’v’信号(937)。最后,可以将Luma u’v’信号(937)转化为RGB或其它适当的颜色空间中的输出信号(942)以用于显示或进一步的处理。

感知量化的IPT颜色空间中的编码

白点转化也可以被应用于其它颜色空间,诸如IPT颜色空间或IPT-PQ颜色空间,表现为理想地适合于具有增强或高动态范围的视频信号的编码的感知量化的颜色空间。IPT-PQ颜色空间在其全部内容通过引用并入本文的、R.Atkins等人的、标题为“Display management for high dynamic range video”的、2014年2月13日提交的PCT申请PCT/US2014/016304中首次被描述。

如其全部内容通过引用并入本文的、Proc.6th Color Imaging Conference:Color Science,Systems,and Applications,IS&T,Scottsdale,Arizona,Nov.1998,pp.8-13中的、F.Ebner和M.D.Fairchild的“Development and testing of a color space(ipt)with improved hue uniformity”(将被称为Ebner论文)中所描述的IPT颜色空间是人类视觉系统中的锥体之间的颜色差异的模型。在这个意义上,它像YCbCr或CIE-Lab颜色空间;然而,在一些科学研究中已表明比这些空间更好地模仿人类视觉处理。像CIE-Lab那样,IPT是对于某一参考亮度的规范化空间。在实施例中,规范化可以基于目标显示器的最大亮度。

如本文中所使用的术语“PQ”指的是感知量化。人类视觉系统以非常非线性的方式对增加的光水平进行响应。人类看见刺激的能力受该刺激的亮度、该刺激的大小、构成该刺激的空间频率、以及眼睛在一个人观看该刺激的特定时刻适应的亮度水平影响。在优选实施例中,感知量化器函数将线性的输入灰度水平映射到与人类视觉系统中的对比灵敏度阈值更好地匹配的输出灰度水平。‘212申请中描述了PQ映射函数的示例,在该申请中,给定固定的刺激大小,对于每一个亮度水平(即,刺激水平),根据最灵敏的适应水平和最灵敏的空间频率(根据HVS模型)来选择该亮度水平处的最小可见对比步长。与传统的表示物理阴极射线管(CRT)设备的响应曲线、并且巧合地可能具有与人类视觉系统响应的方式非常粗略的相似性的伽玛曲线相比,如‘212申请所确定的PQ曲线使用相对简单的函数模型来模拟人类视觉系统的真实视觉响应。

表1描述了用于在显示器的一个点处将数字视频码值转换为绝对线性亮度水平的感知曲线EOTF的计算。还包括用于将绝对线性亮度转换为数字码值的逆向OETF计算。

表1

示例性等式定义

D=感知曲线数字码值,SDI-法定无符号整数,10或12位

b=数字信号表示中的每一分量的位数,10或12

V=规范化的感知曲线信号值,0≤V≤1

Y=规范化的亮度值,0≤Y≤1

L=绝对亮度值,0≤L≤10,000cd/m2

示例性EOTF解码等式:

示例性OETF编码等式:

D=INT(1015·V·2b-10)+4·2b-10 (t3)

示例性常数:

注释:

1.运算符INT对于0至0.4999…的范围中的小数部分返回值0,而对于0.5至0.9999…的范围中的小数部分返回值+1,即,它对大于0.5的小数进行上舍入。

2.所有常数被定义为12位有理数的整数倍以避免四舍五入问题。

3.R、G或B信号分量将以与上述Y信号分量相同的方式计算。

将信号转换到IPT-PQ颜色空间可以包括以下步骤:

a)将信号从输入的颜色空间(例如,RGB或YCbCr)转换到XYZ

b)将信号如下从XYZ转换到IPT-PQ:

a.将3×3XYZ应用于LMS矩阵以将信号从XYZ转换到LMS

b.将LMS信号的每个颜色分量转换为感知量化的LMS信号(L’M’S’或LMS-PQ)(例如,通过应用等式(t2))

c.将3×3LMS应用于IPT矩阵以将LMS-PQ信号转换到IPT-PQ颜色空间

3×3XYZ到LMS和L’M’S’(或LMS-PQ)到IPT转换度量的示例可以在Ebner论文中找到。假定IPT-PQ信号的色度分量(例如,P’和T’)在范围(-0.5,0.5)中,则可以加上偏置(bias)α(例如,α=0.5),以使得色度分量的范围基本上在范围(0,1)内,例如:

P′=P′+a (22a)

T′=T′+a (22b)

逆向颜色操作可以包括以下步骤:

a)减去被加到色度分量的任何偏置值

b)将3×3I’P’T’应用于LMS转换矩阵以从IPT-PQ转换到LMS-PQ

c)应用逆向PQ函数以从LMS-PQ转换到LMS(例如,通过使用等式(t1))

d)将3×3LMS应用于XYZ变换以从LMS转换到XRZ,以及

e)从XYZ转换到选择的设备相关的颜色空间(例如,RGB或YCbCr)。

在实际中,可以使用预先计算的1-D查找表(LUT)来执行编码和/或解码期间的颜色变换步骤。

减小色度熵

如前所述,如果P’和T’像素分量被乘以光度(例如,I’)的函数,则可以进一步改进色度细节的可见性。例如,在实施例中,可以如下导出转化的色度值:

P′t=g(I′)(P′-a)+a, (23a)

T′t=g(I′)(T′-a)+a, (23b)

其中,g(I’)表示亮度通道(I’)的线性或非线性函数。在实施例中,g(I’)=I’。

示例计算机系统实现

本发明的实施例可以利用以下来实现:计算机系统、在电子电路系统和组件中配置的系统、集成电路(IC)器件(诸如微控制器)、现场可编程门阵列(FPGA)、或另一个可配置的或可编程的逻辑器件(PLD)、离散时间或数字信号处理器(DSP)、专用IC(ASIC)、和/或包括这样的系统、器件或组件中的一个或多个的装置。计算机和/或IC可以执行、控制、或执行与用于具有增强动态范围(EDR)的视频图像的分层编码的自适应整形技术(诸如本文中所描述的那些)相关的指令。计算机和/或IC可以计算与本文中所描述的自适应整形过程相关的各种参数或值中的任何一个。图像和视频实施例可以以硬件、软件、固件和其各种组合来实现。

本发明的某些实现包括执行使处理器执行本发明的方法的软件指令的计算机处理器。例如,显示器、编码器、机顶盒、转码器等中的一个或多个处理器可以实现与用于具有增强动态范围(EDR)的视频图像的分层编码的自适应整形技术相关的方法,如上所述通过执行可供处理器访问的程序存储器中的软件指令。还可以以程序产品的形式来提供本发明。程序产品可以包括携载计算机可读信号集的任何介质,该计算机可读信号集包括当被数据处理器执行时使数据处理器执行本发明的方法的指令。根据本发明的程序产品可以为多种多样的形式中的任何一种。程序产品可以包括例如物理介质,诸如磁性数据存储介质(包括软盘、硬盘驱动器)、光学数据存储介质(包括CD ROM、DVD)、电子数据存储介质(包括ROM、闪速RAM)等。程序产品上的计算机可读信号可选地可以被压缩或加密。

在组件(例如,软件模块、处理器、组装件、器件、电路等)在以上被提到的情况下,除非另有指示,否则对该组件的论述(包括对“部件(means)”的论述)应被解释为包括作为该组件的等同物的、执行所描述的组件的功能(例如,在功能上等同)的任何组件,包括在结构上不等同于所公开的结构的、执行本发明的示出的示例实施例中的功能的组件。

等同、扩展、替代和其它

如此描述了与用于具有增强动态范围(EDR)的视频图像的分层编码的自适应整形技术相关的示例实施例。在前面的说明书中,参照在不同实现之间可以有所变化的大量的具体细节描述了本发明的实施例。因此,本发明是什么、申请人意图本发明是什么的唯一的且排他的指示是本申请发布的特定形式的一组权利要求,这样的权利要求以该特定形式发布,包括任何后续修正。在本文中对于这样的权利要求中所包含的术语明确阐述的任何定义应决定这样的术语在权利要求中所使用的意义。因此,在权利要求中没有明确记载的限制、元素、性质、特征、优点或属性均不得以任何方式限制这样的权利要求的范围。说明书和附图因此要在例示性、而非限制性的意义上被看待。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1