用于具有增强动态范围的信号的分段层间预测的制作方法

文档序号：10628254阅读：377来源：国知局

用于具有增强动态范围的信号的分段层间预测的制作方法
【专利摘要】具有增强动态范围(EDR)的视频序列的像素数据基于具有标准动态范围(SDR)的对应视频序列的像素数据以及分段层间预测器来进行预测。分段预测器的输出参数至少基于两组预先计算的值和预测代价标准来进行计算。第一组预先计算的值应用于所有输入的SDR帧，并且包括被自乘到一个或多个整数幂项的一组SDR像素值。第二组预先计算的值是帧特定的，并且基于输入的SDR帧的直方图以及对应的EDR帧的像素值来进行计算。预先计算的值允许快速迭代算法根据预测代价识别分段多项式的最优枢轴点并且求解分段预测器的系数。
【专利说明】用于具有増强动态范围的信号的分段层间预测
[0001] 相关申请的交叉引用
[0002] 本申请可以与2013年12月4日提交的序号为PCT/US2013/073085的PCT申请有关，该申请整个地通过引用并入本文。本申请要求2014年2月13日提交的美国临时专利申请序号61/939,614和2014年6月18日提交的美国临时申请序号62/013,611的优先权，每一申请特此整个地通过引用并入。
技术领域
[0003] 本发明总体涉及图像。更特别地，本发明的实施例涉及用于对具有增强动态范围的信号进行编码和解码的分段层间预测(piecewise inter-layer prediction)。
【背景技术】
[0004] 音频和视频压缩是多媒体内容的开发、存储、分发和消费中的关键组成部分。压缩方法的选择涉及编码效率、编码复杂度和延迟之间的权衡。随着处理能力对计算代价的比率提高，允许开发允许更高效的压缩的更复杂的压缩技术。作为示例，在视频压缩中，来自国际标准组织（ISO)的运动图像专家组（MTOG)已通过发布MPEG-2、MPEG-4(第2部分）、 H.264/AVC(或MPEG-4第10部分)和H.265/HEVC编码标准来对原始的MPEG-1视频标准持续改进。
[0005] 视频信号可以用多个参数表征，诸如位深、颜色空间、色域和分辨率。现代电视和视频回放设备(例如，蓝光播放器)支持各种分辨率，包括标准清晰度(例如，720x480 i)和高清晰度(HD)(例如，1920x 1080p)。超高清晰度(UHD)是下一代分辨率格式，其具有至少为3， 84(^2，160分辨率(被称为41(1]!10)和高达768(^ 4320(被称为81(1]!10)的选项。超高清晰度也可以被称为超HD、UHDTV或超高视觉。如本文中所使用的，UHD表示高于HD分辨率的任何分辨率。
[0006] 视频信号的特性的另一个方面是其动态范围。动态范围(DR)是图像中的例如从最黑暗的暗色到最明亮的亮色的强度(例如，亮度、luma)的范围。如本文中所使用的，术语"动态范围"（DR)可以与人类心理视觉系统(HVS)感知图像中的例如从最黑暗的暗色到最明亮的亮色的强度（例如，亮度、luma)的范围的能力有关。从这个意义上来讲，DR与"场景参考 (scene-ref erred)"强度有关。DR还可以与显示设备充分地或近似地植染特定广度的强度范围的能力有关。从这个意义上来讲，DR与"显示器参考(display-referred)"强度有关。除非特定意义被明确地指定在本文的描述中的任何点处具有特别的重要性，否则应推断该术语可以被以任一个意义使用，例如，可互换地使用。
[0007] 如本文中所使用的，术语高动态范围（HDR)与跨越人类视觉系统(HVS)的某些14-15个数量级的DR广度有关。例如，具有基本上正常的视觉(例如，从统计、生物计量或眼科意义中的一个或多个上来讲）的很好适应的人类具有跨越大约15个数量级的强度范围。适应的人类可以感知如只有少数几个光子那么少的昏暗光源。然而，这些相同的人类可以感知沙漠、海洋或雪中的正午的太阳的几乎令人痛苦地耀眼的强度(或者甚至瞥向太阳，不过很短暂以防止伤害）。该跨度不过对"适应的"人类(例如，其HVS具有在其中进行重置和调整的时间段的那些)可用。
[0008] 相反，与HDR相比较，人类在其上可以同时感知强度范围中的广泛的广度的DR可能有所截短。如本文中所使用的，术语"增强或扩展动态范围"（EDR)、"视觉动态范围"或"可变动态范围"（VDR)可以单独地或可互换地与HVS可同时感知的DR有关。如本文中所使用的， EDR可以与跨越5-6个数量级的DR有关。因此尽管与真实的场景参考HDR相比较可能有些窄，但是EDR却表示宽的DR广度。如本文中所使用的，术语"同时的动态范围"可以与EDR有关。
[0009] 在实践中，图像包括一个或多个颜色分量(例如，亮度Y以及色度Cb和Cr)，其中，每个颜色分量通过每个像素 η位(例如，n = 8)的精度表示。通过使用线性亮度编码，其中n<8 的图像(例如，颜色24位JPEG图像)被认为是标准动态范围的图像，而其中n>8的图像可以被认为是增强动态范围的图像。EDR和HDR图像也可以通过使用低位深、非线性亮度编码（例如，10位和对数亮度编码)或高精度(例如，16位)浮点格式(诸如由Industrial Light and Magic开发的OpenEXR文件格式)来进行存储和分发。
[0010]为了支持与老式（legacy)回放设备以及新的HDR或UHD显示技术的向后兼容，可以使用多个层来将UHD和HDR(或EDR)视频数据从上游设备递送到下游设备。给定这样的多层流，老式解码器可以使用基本层来重构内容的HD SDR版本。高级解码器可以使用基本层和增强层两者来重构内容的UHD EDR版本以在更有能力的显示器上渲染它。如发明人在这里意识到的，用于EDR视频的分层编码的改进技术，尤其是在它们与层间预测有关下，是期望的。
[0011] 本章节中描述的方法是可以寻求的方法，但是不一定是以前已想到或寻求的方法。因此，除非另有指示，否则不应仅仅由于在本章节中描述的任一方法包括在本章节中就假定该方法有资格作为现有技术。类似地，针对一种或多种方法识别出的问题不应基于本章节就假定已在任何现有技术中被认识到，除非另有指示。
【附图说明】
[0012] 本发明的实施例在附图的图中通过示例的方式、而非通过限制的方式阐明，在附图中，相似的附图标记指代类似的元件，其中：
[0013] 图1描绘根据本发明的实施例的具有层间预测器的分层EDR编码系统的示例实现；以及
[0014] 图2和图3描绘根据本发明的实施例的用于产生分段层间预测器的示例处理。
【具体实施方式】
[0015] 本文中描述了当层间预测应用于具有增强动态范围的信号的分层编码时的层间预测。给定可以通过使用基本层(BL)SDR信号和残差EDR增强层(EL)编码的EDR输入视频信号，这两个层之间的快速分段层间预测器通过使用预先计算的至少基于SDR BL信号的直方图（h i s togram)以及对应的EDR信号的统计的查找表来进行构造。
[0016] 在以下描述中，出于解释的目的，阐述了许多具体细节，以便提供本发明的透彻理解。然而，将清楚的是，本发明可以在没有这些具体细节的情况下实施。在其它情况下，公知的结构和设备未被详尽地描述，以便避免不必要地模糊本发明。
[0017] 概述
[0018] 本文中描述的示例实施例与具有增强动态范围的视频信号的分层编码和解码中的分段层间预测有关。具有增强动态范围（EDR)的视频序列的像素数据通过使用分段层间预测器、基于对应的具有标准动态范围（SDR)的输入视频序列的像素数据来进行预测。分段预测器的参数至少基于预先计算的查找表(LUT)和预测代价标准来进行计算。第一 LUT应用于视频序列中的固定位深的所有输入的SDR帧，并且包括被自乘(raise)到一个或多个整数幂项的一组可能的SDR像素值的预先计算的值。第二LUT可以是帧或场景特定的，并且包括基于输入SDR帧的直方图以及对应的EDR帧的像素值的预先计算的值。预先计算的LUT允许快速迭代算法根据预测代价度量识别分段多项式的最佳枢轴点(pivot point)并且求解相关联的分段多项式的系数。
[0019] 在实施例中，分段预测器使用二阶多项式，并且预测代价标准是基于估计的EDR像素值和输入的m)R像素值之间的均方误差的。
[0020] 在实施例中，用于当前帧的第二LUT通过考虑当前的SDR和EDR帧与在当前帧之前的SDR和EDR帧两者的像素特性来进行计算。
[0021] 在实施例中，第二个枢轴点和第二个至最后一个枢轴点之间的段(segment)全部具有相同的长度，并且每个段通过使用一阶或二阶多项式来近似。
[0022] EDR信号的分层编码
[0023]现有的显示和回放设备(诸如HDTV、机顶盒或蓝光播放器)通常支持高达1080p HD 分辨率(例如，以每秒60帧的1920x 1080)的信号。对于消费者应用，这样的信号现在通常被以亮度-色度颜色格式、每一个颜色分量每一个像素使用8位的位深来进行压缩，在所述亮度-色度颜色格式中，通常色度分量的分辨率低于亮度分量(例如，YCbCr或YUV 4: 2:0颜色格式）。由于8位位深以及对应的低动态范围，所以这样的信号通常被称为具有标准动态范围（SDR)的信号。
[0024]随着新的电视标准正被开发，诸如超高清晰度(UHD)，可能希望的是以老式HDTV解码器和较新的UHD解码器两者都可以处理的格式对具有增强分辨率和/或增强动态范围的 ?目号进行编码。
[0025] 如2013年 12月4 日提交的序号为PCT/US2013/073085、G-M Su等人的 "Backward compatible coding for ultra-high definition signals with enhanced dynamic range"的PCT申请(该申请整个地通过引用并入本文）中所描述的，图1描绘了支持具有增强动态范围(EDR)的UHD信号的向后兼容的编码的系统的示例实现的实施例。编码器包括基本层(BL)编码器（130)和增强层(EL)编码器（160)。在实施例中，BL编码器（130)是老式编码器，诸如MPEG-2或H.264编码器，而EL编码器（160)是新标准编码器，诸如HEVC编码器。为了支持老式BL解码器，BL编码器（130)通常是8位编码器；然而，EL编码器（160)可以支持如 H. 264和HEVC(H. 265)标准指定的具有更高位深(诸如10位）的输入流。然而，该系统可应用于使用已知的或未来的编码器(不管它们是基于标准的，还是专有的）的任何组合以任何空间分辨率对mR层和SDR层进行编码。
[0026] 如图1中所描绘的，输入信号（诸如电影或电视广播）可以用两个信号表示：UHD EDR输入（102)和UHD SDR输入（104)。例如，UHD EDR信号（102)可以是由HDR照相机捕获且进行颜色分级以用于EDR显示器的4K(例如，3840x2160)分辨率信号。相同信号也可以在4K SDR显示器上被进行颜色分级以产生对应的4K SDR信号（104)。可替代地，SDR信号（104)可以通过对EDR信号应用本领域中已知的色调映射或显示管理技术中的任何一个而产生。不失一般性，这两个输入信号通常都可以使用16位或等同的(例如，浮点)位深表示在RGB颜色空间中被表不。如本文中所使用的，术语η位信号表不具有一个或多个颜色分量(例如，RGB 或YCbCr)的图像或视频信号，其中，这些颜色分量中的任何一个(例如，Y)中的每个像素用η 位像素值表示。给定η位表示，每个这样的像素可以取0和2η-1之间的值。例如，在8位表示中，对于每个颜色分量，每个像素可以取〇和255之间的值。
[0027] 在实施例中，UHD SDR信号（104)可以被下采样为HD SDR信号（例如，1080ρ)，该HD SDR信号然后被颜色转换为适合于使用老式8位编码器进行编码的颜色格式，例如，8位 YCbCr 4:2:0颜色格式。这样的转换可以包括颜色变换(诸如RGB到YCbCr转换115-C)和色度二次采样(例如，4:4:4到4: 2:0转换120-C)。因此，HD SDR信号（128)表示原始UHD EDR信号 (102)的向后兼容的信号表示。信号（128)可以被BL编码器（130)编码以产生向后兼容的编码位流（132)。此编码器（130)可以使用已知的或未来的视频压缩算法(诸如MPEG-2、MPEG-4 第2部分、!1.264、册￥(：、￥?8、￥?9等）中的任何一个来对册30财言号（128)进行压缩或编码。 [0028] 给定UHD EDR信号（102)，下采样（110-A)和颜色转换处理（115-B和120-B)可以将 UHD EDR信号（102)转换为参考预测HD EDR信号（124)。在优选实施例中，这个阶段中的下采样和颜色转换处理（110-A、115-B和120-B)(例如，选择的滤波器和颜色空间）应当与用于在基本层中产生HD SDR信号（128)的下采样和颜色转换处理（110-B、115-C和120-C)相同或者尽可能地接近。
[0029] 在UHD EDR到HD EDR变换之后，HD EDR信号（124)的输出被分成亮度(Y 124-Y)分量和色度(CbCr 124-C)分量，这些分量被应用于确定用于亮度预测器（145)和色度预测器 (140)的预测系数。
[0030] 给定HD SDR信号（128)，BL编码器（130)不仅产生编码的BL位流（132)，而且还产生表示HD SDR信号（128)的BL信号（126)，因为它将被对应的BL解码器解码。在一些实施例中，信号（126)可以由跟在BL编码器（130)后面的单独的BL解码器(未示出）产生。在一些其它的实施例中，信号（126)可以从用于在BL编码器（130)中执行运动补偿的反馈回路产生。如图1 中所描绘的，HD EDR信号（126)的输出也可以被分成其亮度(Y 126-Y)和色度分量(CbCr 126-C)，这些分量被应用于亮度预测器（145)和色度预测器（140)来预测HD EDR'信号 (147)。在一些其它的实施例中，下采样（110-A、110-B)可以被跳过，所以所有的处理以全分辨率执行。
[0031] 在实施例中，亮度预测器（145)可以包括用于基于基本层HD SDR信号（126-Y)的亮度像素值预测HD EDR'信号（147)的亮度分量的多项式预测器。在这样的预测器中，亮度像素分量可以在不考虑信号的其它颜色分量中的任何一个中的任何像素值的情况下被预测。例如，令si表示BL HD SDR信号（126-Y)的亮度像素值，那么，不失一般性，三阶多项式预测器可以被表达为：
[0032]
(j)
[0033] 其中，ak，k = 0至3,是预测器系数。在实施例中，预测器系数可以通过本领域中任何已知的最小化误差技术(诸如最小化预测值（％ >和参考HD EDR信号（124-Y)中的亮度像素值(Vl)之间的均方误差(例如，lb￡ - %丨丨2))来确定。
[0034] 在实施例中，色度预测器（140)也可以是与先前描述的预测器类似的多项式预测器;然而，在优选实施例中，色度预测器（140)包括多颜色通道、多元回归(MMR)预测器，如G-M Su等人在2012年4月13日提交的PCT申请序号PCT/US2012/033605(公布为W02012/ 142471 )、"Multiple color channel multiple regression predictor"（该申请整个地通过引用并入本文）中描述的预测器。丽R预测器使用来自HD EDR参考信号（124)和基本层HD SDR信号（126)中的亮度像素值和色度像素值两者的信息来预测HD EDR'信号的色度分量。丽R模型中的预测系数也可以通过最小化预测色度值与参考HD EDR信号（124)的亮度像素值和色度像素值之间的MSE、使用均方误差最小化技术来进行确定。
[0035] 因为HD SDR信号（126)和参考HD HDR信号（124)两者都为YCbCr 4:2:0格式（在该格式中，亮度分量的空间分辨率是每个色度分量的空间分辨率的两倍），所以这两个信号的亮度分量在被应用于色度预测器（140)之前被下采样（135-A和135-B)。在优选实施例中，在亮度下采样（135-A)和（135-B)中使用的滤波器与在4:4:4到4: 2:0处理（120)中使用的色度下采样滤波器相同。亮度和色度预测系数可以被以各种感兴趣的时间间隔(诸如每场景、每组图片或每帧)更新。预测滤波器系数可以通过各种方法被传送给视频解码器，诸如将它们的值作为辅助数据或元数据嵌入在位流中。
[0036] 给定预测的HD EDR'信号（147)，上采样器（150)产生UHD EDR'信号（152)，UHD EDR'信号（152)被用于产生残差信号（167)。因为UHD EDR'信号为优选的编码格式（例如， YCbCr 4:2:0)，所以可能需要附加的颜色变换（115-A)和色度下采样（120-A)步骤以将原始 UHD EDR信号（102)从原始格式(例如，RGB)转换为优选的编码格式的UHD EDR信号（122)。信号（122)和（152)被相减以创建EL残差信号（167)。
[0037]在实施例中，颜色变换（115-A)和色度二次采样处理（120-A)与被用于产生BL编码信号（128)和预测信号（124)的颜色变换（115-B和115-C)和色度二次采样处理（120-B和 120-C)相同或者尽可能地接近。
[0038] 在实施例中，在通过EL编码器（160)对EL信号（167)进行编码之前，该信号可以被非线性量化器(NLQ)(155)处理。合适的非线性量化器的示例可以在2012年4月24日提交的 PCT 专利申请序号 PCT/US2012/034747(公布为 W02012/148883 )、"Non-linear VDR Res idua 1 Quant izer"（该申请整个地通过引用并入本文）中找到。NLQ(155)的输出可以使用EL编码器（160)来进行压缩以产生可以被发送给合适的解码器的编码EL位流（162)。此外，在一些实施例中，残差（167)也可以被下采样模块(未示出）进行空间下采样。这样的下采样(例如，以两个维度上2或4的因子)改进了编码效率，尤其是在非常低的位速率下。下采样可以在非线性量化器(155)之前或之后执行。
[0039] EL编码器（160)可以是任何合适的编码器，诸如MPEG-2、MPEG-4、H.264、HEV(^i^ 等描述的那些。在实施例中，BL编码位流（132)、EL编码位流（162)和与编码处理相关的元数据(例如，预测器参数或查找表)可以被复用为单个位流(未示出）。
[0040] 在一些实施例中，基本线(base line)HD SDR信号（128)可能已经以正确的分辨率和颜色格式可供编码器(100)使用。在这样的情况下，下采样（110-B)和颜色变换步骤(115-C和120-C)可以被绕过。
[00411 在一些实施例中，UHD EDR信号（102)可以以低于或高于16位的精度可获得;然而，其精度期望高于8位(例如，10位或12位）。类似地，UHD SDR信号（104)可以已经以低于16位 (例如，8位或10位)的精度可获得。
[0042]分段层间预测 [0043]背景和术语
[0044]令Sji表示SDR信号（例如，126-Y)的帧j处的第i像素。令Vji表示EDR信号（例如， 124-Y)中的对应的同位的（co-located)像素。令％表示对应的同位的预测EDR像素(例如， 147)。假设在给定图片中存在P个像素。给定，但没有限制，2阶多项式预测器，那么对于第i 像素，预测值可以被表达为：
[0045]
(2)
[0046] 其中，对于i = 0、l和2，mji表示预测系数。
[0047] 在实施例中，预测系数可以被确定以最小化使用预测代价函数的失真度量，诸如原始m)R像素值和预测EDR像素值之间的均方误差(MSE)(例如，朽丨I 2)。等式⑵可以被以矩阵/向量形式表达，诸如：
[0053] 那么，最小二乘解可以被获得为：
[0054] mj=((Sj)T(Sj))-1((Sj) Tvj), (4)
[0055] 其中，
[0056]
[0057] 表示参考EDR像素值(124)。令Bj和aj被定义为：
[0058] Bj=(Sj)T(Sj) (5)
[0059] 和
[0060] aj= (Sj)TVj · (6)
[0061] 那么，从等式(4)，
[0062] mj = Bj_1aj · (7)
[0063] 在实施例中，预测器（例如，145)的性能可以通过使用分段多项式预测来进行改进。在这样的实施例中，不是使用单个多项式预测器(例如，诸如用于可能的SDR像素值的整个范围的等式（1)或⑵中描绘的那些），而是可以将SDR像素范围（例如，[0，K-1]，其中，K = 2SDR-BIT_DEPTH)分割为两个或更多个子范围，并然后对每个子范围应用预测器。在这样的实现中，需要找到划分不同的分段多项式预测器的"枢轴"点或边界点。例如，假定视频预测中使用两个多项式的分段多项式预测，需要识别SDR域中的将将SDR范围分成两个范围：[0，s JV) 和[sjv，K-l)的枢轴点sjv。分段多项式可以是线性的或非线性的，全部为相同的阶，或者具有不同的阶。
[0064] 不失一般性，考虑使用两个二阶多项式(例如，每个多项式类似于等式(2)中的多项式)的分段多项式预测器，那么，给定枢轴点在较低分区(partition)中将存在L个像素，并且在较高分区中将存在Η个像素，其中，P = L+H。给定输入像素#，预测处理可以被如下描述：
[0065] if (0^sji<sjv)
[0066] f -f -si； + wi^ -U.s f f Φ)
[0067] else
[0068] vi； - -f(9)
[0069] end
[0070] 其中，
是分别在较低分区和较高分区中使用的预测器系数。
[0071] 在和之前相同的方法之后，给定
[0072]
[0073]
[0074]
[0075] MSE解可以被表示为：
[0081] slw表示SDR像素，其中，所有sl^〈Sjv，并且vlu表示对应的EDR像素值。类似地，给定
[0082]
[0083] shj,i表示SDR像素，其中，所有shj.i^sjv，并且vhj,i表示对应的EDR像素值。输出的枢轴点sjv可以通过对于所有可能的枢轴点计算MSE并然后选择具有最小的对应的MSE的枢轴点来确定。
[0084] 在一些实施例中，附加的约束可以被应用以导出分段多项式预测器。例如，在实施例中，给定枢轴点(sjv)处的连续性约束，高部分预测函数的系数可以被表达为：
[0085]
[0086] (15)
[0087] 并且
[0093] 快速算法
[0094] 对分段多项式进行求解和对每个潜在的枢轴点计算相关联的MSE可能是计算非常密集的。下面描述较快速的实现。
[0095] 考虑候选枢轴点sjv。给定
[0096]
[0097]每个元素可以被表达为：
[0098]
[0099]
[0100]
[0101]
[0102] x-i.}
[0103] 类似地，给定
[0104]
[0105] 每个元素可以被表达为：
[0106]
[0107]
[0108]
[0109]对于较高分区，
[0110]
[0111] (2.3)
[0112] 并且每个元素可以被表达为：
[0113]
[0114]
[0115] 其中，对于L = P，可以通过使用等式（19)和(21)来计算的值(其用于求解单个多项式预测器的系数）。
[0116] 从等式（18)-(22)，可以进行以下观察。
[0117] 1.当枢轴点移动时，^的值改变。另一方面，SDR值Sji可以具有仅多达K个可能的值。
[0118] a.将等于b的每个SDR像素值的区间（bin)计数表示为hb，其中，b e [0 K-1 ];也就是说，以下集合
[0119]
对于b = 0，l，2，· · ·，K-1，
[0120] 表示第j SDR帧中的像素值的直方图。
[0121] 13.8#、（8#)2、（8#)3和(8#)4的值可以被预先计算并且被存储到一个或多个查找表 (LUT)中。这些值仅需要被计算一次，因为对于SDR输入信号的固定位深，仅存在K个可能的值。在实施例中，那些预先计算的值在系统进行初始化时可以获得并因此使得能够进行以下项的快速预先计算：
[0122]
[0123] c.g:KW值可以通过如下使用直方图（例如，hb值)和预先计算的tb值而被导出：
[0124]
[0125]
[0126]
[0127] 表示帧j中与属于直方图区间b的SDR像素值对应的那些EDR像素值的和以及平方和(或"能量"）。这些值也可以预先在一个或多个LUT中计算，那么
[0128] e · 可以被表达为：
[0129]
[0130] 因此，对于每个候选枢轴点，值&；：_::和<\，可以通过预先计算的数据的若干乘法和加法来导出。给定和4:,?值，<_和<?.值可以直接从等式(24)获得。最后，预测器系数可以被导出为：
[0131]
[0132] 注意，在等式（24)中，对于L = P和sjv = K，可以通过使用等式（27)和（29)来计算的值(其用于产生单个预测器的系数）。
[0133] 给定所述两个多项式，仍需要计算对应的总失真度量(例如，MSE)。迭代计算方法也可以减少这些计算的量。例如，将较低分区MSE表示为：
[0134] Ui.i
[0135] 每个项可以根据预先计算的LUT进行简化和计算，以使得
[0136]
[0137] 类似地，对于较高分区，可以示出
[0138]
[0139] 假定作为示例，总失真度量被定义为
[0140]
[0141] 那么当仏为最小时，输出的(或者在某个代价标准下最优的)枢轴点被选择，即：
[0142]
[0143] 图2中总结了以上计算步骤。
[0144] 图2描绘了根据实施例的用于快速导出分段层间预测器中的多项式段和最优枢轴点的示例处理。在步骤(202)中，产生存储第一组预先计算的值(例如，等式(26)中的值）的一个或多个查找表(LUT)。对于给定的固定的SDR位深，这些表可应用于SDR输入视频序列的任何帧。每当需要产生分段预测器时，可以对输入的EDR和SDR数据(例如，（201)和(203)) 重复步骤(206)-(216)。在步骤(206)中，对于给定的帧j，可以计算SDR值的直方图h b以及对应的EDR数据统计(例如，等式(25)和(28)中的wb和值）以产生第二组预先计算的值。接着，在步骤(208)中，选择可能的枢轴点的给定范围内的候选枢轴点sj v。
[0145] 在实施例中，sjv可以被选择为处于[0，K-1]的范围内；然而，可以通过使用替代的边界点来进一步简化计算。例如，帧j中的像素值可以以最小像素值和最大像素值（例如， MinsDR(j)和MaxSDR(j))为边界。那么，对枢轴点的搜索可以被约束在[MinsDR(j)，MaxSDR(j)]范围内。
[0146] 此外，在视频帧的连续序列内（例如，在场景或"剪辑(cut)"内），帧j的最优枢轴点非常有可能处于前一帧的最优枢轴点（例如，的某一边界内。因此，最优枢轴点的搜索可以被限制在范围[search_low，search_high]内，其中，对于给定阈值delta，
[0149] 给定候选枢轴点~，在通过利用预先计算的值和LUT计算a〗、和 < 之后，然后可以产生如先前所讨论的预测器系数<和参见等式（27)-(30))以及对应的预测值 %(例如，参见等式(10))。
[0150] 在步骤(212)中，对于每个候选枢轴点，计算失真度量(例如，等式(32)-(33)中的 MSE)。对在考虑之中的所有候选枢轴点，重复步骤(210)和(212)。当所有候选枢轴点已被计算时，在步骤(216)中，产生输出枢轴点，通常是对其测量的失真最小的一个枢轴点。
[0151] 具有连续性约束的分段多项式
[0152] 前面的讨论可以被扩展到施加枢轴点处的较低多项式与较高多项式之间的连续性约束的情况。对于较低分区的计算保持相同。对于较高分区，在实施例中，以下等式可以适用。
[0153] 令狩表示较高多项式满足连续性约束的情况，那么对于每个元素可以被表达为：
[0154]
[0155] 注意，先前计算的相同的校值也适用;然而，它们以移位的下标（index)使用。
[0156] 类似地，'的元素可以被表达为：
[0157]
[0158] 给定= ,实际的预测器系数可以如等式（15)中那样计算。
[0159] 本领域技术人员将意识到，存在实施连续性约束的许多其它的方式。例如，在实施例中，可以首先确定高分区中的多项式，并然后使用连续性约束来确定低分区的多项式。 [0160]以上技术可以与其它技术组合以降低运算的计算复杂度。例如，SDR值的直方图h b 以及对应的EDR数据统计wb和可以仅使用帧中的全部像素值的一部分来进行计算。例如，在实施例中，这些值可以仅使用每一个第P像素(例如，P = 2)来进行计算。
[0161] 预测器时间稳定性
[0162] 在实践中，给定EDR源（102)，SDR图像(例如，104)由着色师或颜色映射软件或者两者的组合逐个场景地产生。理想的预测器可以是基于场景的；然而，这样的处理需要考虑场景中的所有帧，因此可能需要大量的存储器存储要求。当预测器是基于帧的时，预测器的突然变化可能导致残差（167)，这些残差（167)难以高效地编码，尤其是在低的位速率下。于是，可能优选的是控制变化量。通过使用伪代码，这可以被如下表达：
[0163] If(reset){//For example?in a new scene
[0164] compute new hb?wbandi-v|;
[0165] }
[0166] else
[0167] {keep hb，wb and㈨|from the previous frame}
[0168] 在另一个实施例中，直方图和EDR统计数据可以针对最后F个帧的每个帧存储，并且预测器可以利用这些数据的函数。例如，通过使用伪代码，这可以被如下表达：
[0169] for frame j compute hjb,Wjb andWyJ.,
[0170] then
[0171]
[0172]
[0173]
[0174] 其中，对于n = 0至？，(^、(^、(：311是预定的权重。图像和视频处理领域中的从业者将意识到，等式(37)中的线性加权函数可以被其它线性或非线性函数代替。
[0175] 先前针对两段多项式讨论的技术可以容易地扩展到具有多于两个的多项式的预测器。例如，考虑具有两个枢轴点和sm的三段分段预测器的情况。较低多项式的构造与其中 Sjvl = Sjv的两段多项式中的较低多项式的构造相同。高多项式的构造与该两段多项式中的高多项式的构造相同，但是开始于s jv2,并且中间多项式的构造与该两段多项式中的高多项式的构造相同，但是以Sjv2为结束边界。
[0176] 搜索算法可以检查SjvdPSjv2的所有可能的有效组合，或者使用其它启发法 (heuristic)和先验决策来减少搜索时间。例如，在实施例中，SDR像素的直方图可以被用于帮助将像素分成"黑色"、"中间色调"和"高亮"，并然后使用这些范围来限制分段多项式的边界的搜索范围。
[0177] 替代的代价标准
[0178]如图1中所描绘的，预测误差（167)被EL编码器（160)在增强层中编码。在编码中，预测误差的动态范围是重要的，因为较小的范围将需要较小的量化步长，因此产生较小的量化失真。在实施例中，找到枢轴点（s jv)的问题可以被公式化为使最大正预测误差和最小负预测误差之间的差值最小化。
[0179] 令基于该枢轴点（sjv)的预测值被表示为^那么，解可以被如下获得:对于每个候选枢轴，再次考虑使用两个多项式(一个用于较低分区，一个用于较高分区）的解。在实施例中，令代价函数被表示为：
[0180] ' '
j DHj
[0181] 其中，巧(％) 扣)表示对于候选枢轴点的估计误差(例如，167)。那么，最优枢轴点可以是所有候选枢轴点之中的产生最小Rj ( Sjv )的一个枢轴点，
[0182] ， β
[0183] 本领域技术人员将意识到，本文中所讨论的方法可以在对输入或输出（预测)信号的动态范围或位深没有限制的情况下应用于各种其它的预测器。例如，在一些实施例中，类似的方法可以被用于设计SDR到SDR信号预测器、EDR到SDR信号预测器、或EDR到EDR信号预测器。
[0184] 快速多段预测器
[0185] 使用全搜索来搜索最优枢轴点可能是非常耗时的。在一些实施例中，可能优选的是增加段的数量，但是使用次优定义的枢轴点。在实施例中，多段预测器(例如，使用八个段)使用利用基本上等距的枢轴点定义的一阶或二阶多项式。如之前那样，计算预测多项式利用预先计算的LUT。另外，通过使用从重叠的训练段可获得的像素来计算多项式。
[0186] 令si为SDR数据中的颜色平面中的第i像素值，并且令Vj为原始EDR数据中的相同颜色平面中的第j像素值。令基本层(BL)中的位深被表示为SDR_BIT_DEPTH，那么BL中的颜色平面中的可能的像素值的数量为K = 2SDR-BIT-DEPTH。在实施例中，快速多段预测器可以在两个阶段中构造:a)确定一组枢轴点，b)给定产生的枢轴点，确定一组2阶或1阶多项式。
[0187] A.枢轴点选择
[0188] 考虑由M+1个枢轴点（例如，M = 8)确定的Μ个段。将这些枢轴点表示为Sj,v(o)、 8>(1)、8」, ￥(2)、'"、和8」,.。没有限制地，对于未规范化的此数据，令8」,￥(0尸0;并且8」,.= K-1。注意，没有限制地，每个段分区可以被认为是左闭右开的，即，[&^)，&士)）。在实施例中，为了加快处理计算，对于第二个枢轴点和第二个至最后一个枢轴点之间的所有枢轴点，两个枢轴点之间的距离被定义为相同；然而，具有本领域普通技术的人员将意识到，替代的非均匀段方案也可以被应用。
[0189] 在实施例中，枢轴点可以被如下确定：
[0190] a)计算：
[0191] s j, min=min {s j, i} //感兴趣的像素的区域j (例如，帧的区域、整个帧或帧序列）中的最小SDR值
[0192] 8」,111￡? = 11^{8」,：1}//感兴趣的像素的区域中的最大501?值。令
[0193]
[0194] b)然后，如下构造枢轴点列表：
[0195] Sj,v(o) = 0，
[0196] sj,v(i) = floor(sj,min+0.5 · I)
[0197] sj,v(g) = floor(sj,min+(g-0.5) · I),
[0198] (40)
[0199] ···
[0200] Sj,v(M-i) = floor(sj,min+(M-l .5) · I)
[0201] sj,v(M)=K-l.
[0202] 在典型的预测器中，给定段[以,士)，以,++1))，预测系数将通过使用仅从该段可获得的像素值来进行确定；然而，在实施例中，预测器系数也可以通过使用例如在范围 [Sj,v(g)- Δ L，Sj,v(g+1)+ Δ h)内的相邻段的像素值来进行确定，其中，Δ Δ h是重叠因子。这允许两个相邻预测多项式之间的更平滑的过渡。
[0203] B.确定分段多项式
[0204] 在与之前相同的讨论之后，图3描绘了根据示例实施例的用于确定分段多项式的示例处理。
[0205]在步骤（302)中，基于SDR输入的位深来初始化第一组预先计算的值。如在步骤 (202)中那样，产生存储第一组预先计算的值(例如，等式(26)中的if值)的一个或多个LUT。对于给定的固定的SDR位深，这些表可应用于SDR输入视频序列（201)的任何帧。
[0206]在步骤(306)中，对于给定的帧j，可以计算SDR值的直方图hb以及对应的EDR数据统计(例如，等式(25)和(28)中的值）以产生第二组预先计算的值。
[0207]步骤(310)针对使用利用等式(39)和(40)计算的枢轴点列表定义的每个段进行计算。步骤(310)可以被分割成两个单独的子处理:a)对于第一段和b)每个后续段。
[0208] 第一段处理
[0209] 对于第一段，预测器系数从具有扩展范围[0，Sy⑴-1+Δ]的训练段的像素导出，该训练段可替代地可以使用两个变量来定义：
[0210] α = 〇,和
[0211] 0=min{Sj,v⑴-1+Δ，Κ-1}，以防止使用有效数据范围之外的像素。
[0212]令
[0221]
[0222]
[0223]
[0224] 然后，在MSE标准下，用于二阶多项式（参见等式（2))的预测器系数可以通过以下获得：
[0225] (44)
[0226] 后续段处理
[0227] 在实施例中，对于第g段，其中，g>l，可能期望保持段边界处的连续性约束。因此，在段g-Ι和g之间的边界点处，预测值可以被确定为：
[0228]
[0229] 再次令对于训练段中的在考虑之中的像素的边界点α和β被定义为：
[0230] a = Sj,v(g-i),
[0231 ]并且，如果当前段是最后一个段，则
[0232] 0=min{sj,v(g) = 1+Δ ,K~1}
[0233] 否则
[0234] P = sj,v(g)-l+ Δ .
[0235] 令
[0241]
[0242] 然后，初步的预测器系数可以被获得为：
[0243]
[0244] 实际的预测器系数需要通过使用在前面的章节中提及的等式转换回来：
[0245]
[0246]
[0247]
[0248] 如图3的步骤(310b)中所指出的，在一些实施例中，由于例如数值问题，多项式系数可能具有在支持的数值范围之外的值，解可能被认为是"不可行的"；那么，对于该段，可以应用一阶多项式。例如，对于第一段，如果系数违反可行性限制，那么一阶多项式的系数可以使用以下来进行确定： 1 >
[0252] 其中，所有矩阵元素和向量元素如等式(42)和(43)中那样定义。类似地，对于第g 段(g>l)，一阶多项式的系数可以被导出为：
[0253]
[0254]
[0255] 其中，给定如等式(46)和(47)定义的%
[0256]
(53)
[0257] Δ的选择
[0258] 在实施例中，Δ可以被固定为段长度的小的百分比（例如，10%)。在另一个实施例中，A可以被迭代地确定以使得预测曲线满足某一标准，例如，在SDR值的整个范围上是非减小的。例如，随着SDR值增大，如果SDR到EDR映射在某个段间隔处减小，则对于该间隔，Δ 的值可以递增地增大，直到SDR到EDR映射在SDR值的整个范围上永不减小为止。
[0259]段合并
[0260] 在实施例中，在某些条件下，两个相邻段可以被合并为单个段。例如，如果段中的可用像素的数量少于阈值，则该段可以与下一个段合并。如果阈值仍未被满足，则该过程可以继续进行，直到合并的段中的像素的数量多于阈值为止。对于最后一个段，如果它具有比阈值少的像素，则它可以与第二个至最后一个段合并。
[0261] 具有偏斜(skew)的像素分布的段
[0262]根据内容，已观察到某些段可能具有偏斜的像素分布。例如，在SDR范围的某些段中，最可观察到的像素可能朝向段的结束边界偏斜。在实施例中，对于具有高度偏斜的像素分布的这样的段，可以通过使用"相等权重"代价函数、而不是基于直方图的权重来产生预测器系数。
[0263]再次考虑段g，对于g>l。给定如等式(45)中指出的Bf和令它们的元素现在被定义为：
[0270]与等式(46)相比，在等式(54)中，对于B/元素，不再存在以直方图系数^的加权；因此所有的靖值被均等地加权。类似地，与等式(47)相比，在等式（55)中，对于af元素，广公值被用hb规范化，这产生现在被用hb值规范化的wb值。为了避免被零除，对于hb = 0，零直方图值可以被从相邻的非零像素计数插值。给定等式(54)和(55)，可以如之前那样使用等式(48)和(49)产生预测器系数。
[0271] 示例计算机系统实现
[0272] 本发明的实施例可以用以下来实现:计算机系统、用电子电路和组件配置的系统、诸如微控制器的集成电路（1C)器件、现场可编程门阵列(FPGA)、或另一可配置或可编程逻辑器件(PLD)、离散时间或数字信号处理器(DSP)、应用特定IC(ASIC)、和/或包括这样的系统、器件或组件中的一个或多个的装置。所述计算机和/或1C可以执行、控制、运行与分段层间预测相关的指令，诸如本文中所描述的那些。所述计算机和/或1C可以计算与如本文中所描述的分段层间预测相关的各种参数或值中的任何一个。编码和解码实施例可以用硬件、软件、固件以及它们的各种组合来实现。
[0273] 本发明的某些实现包括执行使处理器执行本发明的方法的软件指令的计算机处理器。例如，显示器、编码器、机顶盒、代码转换器等中的一个或多个处理器可以通过执行可供处理器访问的程序存储器中的软件指令来实现与如上所述的分段层间预测相关的方法。本发明也可以以程序产品的形式提供。所述程序产品可以包括承载一组计算机可读信号的任何介质，所述计算机可读信号包括当被数据处理器执行时使数据处理器执行本发明的方法的指令。根据本发明的程序产品可以为多种多样的形式中的任何一种。所述程序产品可以包括例如物理介质，诸如磁性数据存储介质(包括软盘、硬盘驱动器）、光学数据存储介质 (包括CD ROM、DVD)、电子数据存储介质(包括ROM、闪速RAM等）。所述程序产品上的计算机可读信号可选地可以被压缩或加密。
[0274] 在组件(例如，软件模块、处理器、组装件、设备、电路等)在以上被提及的情况下，除非另有指示，否则对该组件的论述(包括对"部件"的论述)应被解释为包括作为该组件的等同形式的、执行所描述的组件的功能的(例如，功能上等同的)任何组件，包括与所公开的执行本发明的例示说明的示例实施例中的功能的结构在结构上不等同的组件。
[0275] 等同、扩展、替代及其它
[0276] 如此描述了与分段层间预测相关的示例实施例。在前面的说明书中，参照在不同实现之间可以有所变化的许多特定细节描述了本发明的实施例。因此，本发明是什么、申请人意图本发明是什么的唯一的且排他的指示是本申请发表的特定形式的一套权利要求，这样的权利要求以该特定形式要求保护，包括任何后续修正。在本文中对于这样的权利要求中所包含的术语明确阐述的任何定义应决定这样的术语在权利要求中所使用的意义。因此，在权利要求中没有明确记载的限制、元素、性质、特征、优点或属性均不得以任何方式限制这样的权利要求的范围。说明书和附图因此要从例示性、而非限制性的意义上来看待。
【主权项】
1. 一种用于产生分段层间预测器的方法，所述方法包括：访问具有第一动态范围的第一视频信号（124); 访问第二动态范围中表示所述第一视频信号的第二视频信号（126)，其中，所述第二动态范围低于第一动态范围；W及利用处理器产生响应于所述第二视频信号的像素而预测所述第一视频信号的像素的分段预测器，其中，产生所述分段预测器包括：产生第一组预先计算的值(202,302)，所述第一组预先计算的值包括所述第二视频信号中的帖中的被自乘到一个或多个正整数幕项的一组像素值；对于所述第二视频信号的帖，使用所述处理器：产生所述第二视频信号的所述帖的直方图（206,306); 产生第二组预先计算的值(206,306)，所述第二组预先计算的值基于所产生的所述第二视频信号的所述帖的直方图，并且包括所述第一视频信号中的对应的帖的像素值的一个或多个函数的输出值;W及使用所述第一组预先计算的值和第二组预先计算的值W及所述直方图产生分段预测器中的至少一个多项式的系数(210,310)。2. 根据权利要求1所述的方法，其中，所述第一动态范围为高动态范围或增强动态范围，所述第二动态范围为标准动态范围，并且所述第二视频信号具有位深M。3. 根据权利要求2所述的方法，其中，产生所述第一组预先计算的值包括计算（Sj)n，其中，n为大于0的整数，并且Sj表示范围[0，K-1]中的像素值，其中，K = 2M。4. 根据权利要求2所述的方法，其中，所述位深M为8位或10位。5. 根据权利要求2所述的方法，其中，产生所述第一组预先计算的值包括计算：其中，b表示范围[0，K-U中的像素值，n为等于或大于1的整数，并且K = 2M。6. 根据权利要求2所述的方法，其中，产生所述第二组预先计算的值包括计算：其中，b表示范围[0，K-1]中的像素值，K = 2M，P表示帖j中的在考虑之中的像素的总数量，Sji表示帖j中的所述第二视频信号的像素值，并且Vji表示所述第一视频信号中的对应的第j帖的像素值。7. 根据权利要求1所述的方法，其中，产生所述分段预测器进一步包括计算预测器的输出枢轴点，其中，所述枢轴点在所述预测器的第一多项式与第二多项式之间划分所述输入范围，其中，计算所述输出枢轴点包括：对于可能的枢轴点的范围内的两个或更多个候选枢轴点：使用所述第一组预先计算的值和第二组预先计算的值计算所述第一多项式和第二多项式的系数；基于所计算的系数计算对于预测代价函数的失真度量(212); W及选择所述两个或更多个候选枢轴点之中的所计算的失真度量最小的枢轴点作为所述输出枢轴点(216)。8. 根据权利要求7所述的方法，其中，所计算的失真度量基于使用预测器多项式产生的预测值与所述第一视频信号的对应的像素值之间的均方误差差值。9. 根据权利要求7所述的方法，其中，所计算的失真度量基于最小化使用多项式预测器产生的最大预测误差与最小预测误差之间的差值。10. 根据权利要求1所述的方法，其中，所述分段预测器包括两个、四个、六个或八个二阶多项式。11. 根据权利要求7所述的方法，其中，使用所述第一组预先计算的值和第二组预先计算的值计算所述第一多项式和第二多项式的系数考虑所述候选枢轴点处的所述第一多项式与第二多项式之间的连续性约束。12. 根据权利要求7所述的方法，其中，计算所述失真度量基于所计算的直方图和所述第二组预先计算的值。13. 根据权利要求7所述的方法，其中，计算所述失真度量包括计算：其中，Sjv表不所还候选枢轴点，Wb表不所还第二组预先计算的值中的值，hb表示具有值b 的像素的直方图值，并且巧表示预测值。14. 根据权利要求7所述的方法，其中，所述可能的枢轴点的范围包括范围[0，K-1]，其中，K = 2M，并且M表示所述第二视频信号的位深。15. 根据权利要求7所述的方法，其中，所述可能的枢轴点的范围包括范围レearch_ low.search hiehl，巧中，对干鉛吿的励估妻中，A'声;;,、,表不对于前一帖的输出枢轴点，K = 2?，并且M表示所述第二视频信号的位深。16. 根据权利要求1所述的方法，其中，产生对于当前帖的直方图和所述第二组预先计算的值中的值考虑对于所述当前帖的一个或多个前面的帖的直方图值和预先计算的值。17. 根据权利要求5所述的方法，其中，帖j中的在考虑之中的像素的总数量P小于所述帖j中的像素的实际数量。18. 根据权利要求1所述的方法，其中，所述第一组预先计算的值和第二组预先计算的值被存储到一个或多个查找表中。19. 根据权利要求1所述的方法，其中，产生所述分段预测器进一步包括：将所述第二动态范围分割为一组段，其中，第二个段与第二个至最后一个段之间的每个段的长度相等。20. 根据权利要求19所述的方法，进一步包括：对于所述一组段中的至少一个段，确定训练段，其中，所述训练段包括所述至少一个段及其相邻段的一部分；W及使用所述训练段中的像素产生对于所述至少一个段的多项式预测器的系数。21. -种包括处理器并且被配置为执行权利要求1中记载的所述方法的装置。22. -种非暂时性计算机可读存储介质，该非暂时性计算机可读存储介质具有存储在其上的用于执行根据权利要求1的方法的计算机可执行指令。
【文档编号】H04N19/30GK105993175SQ201580008323
【公开日】2016年10月5日
【申请日】2015年2月4日
【发明人】苏冠铭, 陈倩, 尹鹏, R·威纶巴彻
【申请人】杜比国际公司, 杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏冠铭;陈倩;尹鹏;R·威纶巴彻;
技术所有人：杜比国际公司;杜比实验室特许公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。