用于高动态范围视频的图片元数据的制作方法

文档序号:33750976发布日期:2023-04-06 15:52阅读:92来源:国知局
用于高动态范围视频的图片元数据的制作方法

本发明总体上涉及图像。更具体地,本发明的实施例涉及生成静止图像和视频序列的动态元数据。


背景技术:

1、如本文所使用的,术语“动态范围(dr)”可以涉及人类视觉系统(hvs)感知图像中的强度(例如,光亮度(luminance)、亮度(luma))范围的能力,所述强度范围例如是从最暗的灰色(黑色)到最亮的白色(高光)。从这个意义上说,dr与“参考场景的(scene-referred)”强度有关。dr还可以涉及显示设备充分或近似渲染特定阔度(breadth)的强度范围的能力。从这个意义上说,dr与“参考显示的(display-referred)”强度有关。除非在本文的描述中的任何一点明确指定特定的意义具有特定的意思,否则应该推断为所述术语可以在任一意义上例如可互换地使用。

2、如本文所使用的,术语“高动态范围(hdr)”涉及跨越人类视觉系统(hvs)的14到15个数量级的dr阔度。实际上,相对于hdr,人类可以同时感知强度范围广泛阔度的dr可能会被稍微截短。如本文所使用的,术语“视觉动态范围(vdr)或增强动态范围(edr)”可以单独地或可互换地与这种dr相关:所述dr可在场景或图像内由包括眼运动的人类视觉系统(hvs)感知,允许场景或图像上的一些光适性变化。如本文所使用的,vdr可以涉及跨越5到6个数量级的dr。因此,虽然相对于真实场景参考的hdr,可能稍微窄一些,但vdr或edr可以代表宽dr阔度并且也可以被称为hdr。

3、实际上,图像包括一个或多个颜色分量(例如,亮度y以及色度cb和cr),其中,每个颜色分量由每像素n位的精度表示(例如,n=8)。例如,使用伽马光亮度编码,其中n≤8的图像(例如,彩色24比特jpeg图像)被认为是标准动态范围的图像,而其中n≥10的图像可以被认为是增强动态范围的图像。hdr图像还可以使用高精度(例如,16位)浮点格式来存储和分布,如由工业光魔公司(industrial light and magic)开发的openexr文档格式。

4、大多数消费者桌面显示器目前支持200到300cd/m2或尼特的光亮度。大多数消费类hdtv的范围从300到500尼特,其中,新型号达到1000尼特(cd/m2)。因此,这样的传统显示器代表了与hdr相关的较低动态范围(ldr),也被称为标准动态范围(sdr)。随着hdr内容的可用性由于捕获设备(例如,相机)和hdr显示器(例如,杜比实验室的prm-4200专业参考监视器)二者的发展而增加,hdr内容可以被颜色分级并被显示在支持更高动态范围(例如,从1,000尼特到5,000尼特或更高)的hdr显示器上。

5、如本文所使用的,术语“元数据”涉及作为经编码比特流或序列的一部分传输并且辅助解码器渲染经解码图像的任何辅助信息。这种元数据可以包括但不限于如本文描述的颜色空间或色域信息、参考显示器参数和辅助信号参数。元数据可以被表征为“静态的”或“动态的”。静态元数据的示例包括与母版显示器相关的参数,比如母版制作视频内容中使用的显示器的基色、白点和光亮度范围(参考文献[1])。动态元数据的示例包括图片帧的最小、平均和最大光亮度或rgb值、修整处理(trim-pass)数据或解码器用于在目标显示器上显示比特流的色调映射参数(参考文献[2])。正如本发明人在此所理解的,为了改进现有和未来的显示方案,需要用于生成用于视频序列(尤其是但不限于用于hdr视频)的图片元数据的改进技术。

6、在本节中描述的方法是可以采用的方法,但不一定是先前已经设想到或采用过的方法。因此,除非另有指示,否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术。类似地,除非另有指示,否则关于一种或多种方法所认定的问题不应该基于本节而认为在任何现有技术中被认定。


技术实现思路

0、概述

1、本文描述的示例实施例涉及用于生成动态元数据的方法和系统。处理器接收在母版显示器上进行母版处理的第一动态范围(例如,hdr或sdr)的视频图片序列、以及初始动态图像元数据,其中,所述图片元数据包括用于使得能够在可能与母版显示器不同的目标显示器上显示视频图片的语法参数。

2、所述处理器:

3、a)应用显示映射过程以将输入图像映射到第二动态范围中的映射图像,其中,所述显示映射过程考虑了所述动态图像元数据和所述目标显示器的显示特性;

4、b)使用外观匹配指标将所述输入图像与所述映射图像进行比较以生成可见性差异值;以及

5、如果所述可见性差异值大于阈值,则:

6、c)对所述动态图像元数据应用元数据优化方法以降低所述可见性差异值,并生成更新的图像元数据;

7、d)用所述更新的图像元数据替代所述动态图像元数据;以及

8、返回步骤a进行另一个元数据更新迭代,直到达到终止标准;

9、否则生成包括所述输入图像和所述动态图像元数据的输出。

10、用于高动态范围视频的元数据

11、信号的视频编解码

12、图1描绘了传统视频传输流水线(100)的示例过程,所述传统视频传输流水线示出了从视频捕获到视频内容显示的各个阶段。使用图像生成块(105)来捕获或生成视频帧(102)序列。视频帧(102)可以被(例如,由数码相机)数字地捕获或者由计算机(例如,使用计算机动画)生成以提供视频数据(107)。可替代地,视频帧(102)可以由胶片相机捕获在胶片上。胶片被转换为数字格式以提供视频数据(107)。在制作阶段(110),对视频数据(107)进行编辑以提供视频制作流(112)。

13、制作流(112)的视频数据然后在块(115)处被提供给处理器以进行后期制作编辑。块(115)的后期制作编辑可以包括调节或修改图像的特定区中的颜色或明亮度,以根据视频创作者的创作意图来增强图像质量或实现图像的特定外观。这有时被称为“颜色调整(color timing)”或“颜色分级(color grading)”。它还可以包括帧/图片速率重新采样。可以在块(115)处执行其他编辑(例如,场景选择和排序、图像裁剪、添加计算机生成的视觉特效、可变帧速率排序等)以产生用于发行的作品的最终版本(117)。在后期制作编辑(115)期间,在参考显示器或母版显示器(125)上观看视频图像。

14、在后期制作(115)之后,可以将最终作品(117)的视频数据传输到编码块(120),以便向下游传输到如电视机、机顶盒、电影院等解码和回放设备。在一些实施例中,编码块(120)可以包括如由atsc、dvb、dvd、蓝光和其他传输格式定义的那些音频编码器和视频编码器,以生成编码比特流(122)。在接收器中,编码比特流(122)由解码单元(130)解码,以生成表示信号(117)的相同或接近近似版本的已解码信号(132)。接收器可以附接到目标显示器(140),所述目标显示器可以具有与参考显示器(125)完全不同的特性。在这种情况下,显示管理块(135)可以用于通过生成显示映射信号(137)来将已解码信号(132)的动态范围或帧速率映射到目标显示器(140)的特性。

15、在给定生态系统100的情况下,包括了图片元数据以指导图像处理流水线各个阶段的信号处理,尤其是显示管理过程(135)的信号处理。例如而非限制性地,如参考文献[2]中所述,使用杜比视界高动态范围流水线的术语,图片元数据可以包括以下一个或多个参数。

16、l1元数据,其可以包括像min、mid和max之类的量,它们分别表示代表源视频数据122的一个或多个场景的最小(“碎片(crush)”)亮度值、中间调(“mid”)亮度值和最大(“上限(clip)”)光亮度值或rgb值。

17、l2元数据,其提供和/或描述关于视频特性调整的信息,这些调整是由导演、颜色分级者、视频专业人员等在制作工作室中借助具有参考动态范围的参考显示器125进行的。

18、l3元数据,其提供和/或描述关于视频特性调整的信息,这些调整是由导演、颜色分级者、视频专业人员等在制作工作室中借助具有不同于参考显示器125的参考动态范围的第二参考动态范围的第二参考显示器(如目标显示器140)进行的。l3元数据可以包括例如相对于l1元数据的偏移量或调整,比如作为分别与(l1)的量min、mid和max的偏移量的δmin、δmid和δmax。

19、l4元数据,其提供或描述关于全局调光操作的信息。l4元数据可以由编码器在预处理期间计算,并且可以使用rgb基色来计算。在一个示例中,l4元数据可以包括逐帧地指示显示面板的全局背光明亮度水平的数据。

20、其他生成的元数据(如l11元数据)可以提供或描述要用于识别视频数据源的信息,如电影内容、计算机游戏内容、体育内容等。这种元数据可以进一步提供或描述预期的图片设置,如预期的白点、锐度等。

21、通常,这种元数据以多种方式生成,包括:

22、a.手动地,根据内容指定预设值(例如,l11中的“游戏(game)”)

23、b.自动地,通过逐帧分析输入视频并基于图像的明亮度和颜色的统计数据来计算元数据(例如,li的min、mid、max值)

24、c.半手动地或半自动地,例如,通过在一个或多个显示器上观察结果的同时调整元数据值(例如,“修整处理”l2元数据)

25、当解码器接收到内容132时,在给定目标显示器140的情况下,所述内容通过显示管理过程135进行处理,所述显示管理过程调整由传入元数据指定的图像特性以实现在目标显示器上的经优化渲染。显示管理过程的示例可以在参考文献[3-5]中找到,并且可以包括各种图像处理操作,包括:

26、·预处理和后处理颜色变换(例如,ycbcr或rgb到ictcp)

27、·图像缩放

28、·色调映射

29、·饱和度控制

30、·颜色体积映射

31、·修整处理控制;以及

32、·环境光调整

33、示例实施例改进了动态图片元数据的生成以改进显示渲染过程。本文描述的实施例主要适用于生成元数据的自动化方法,但也可适用于半手动或半自动方法,例如,以调整修整处理元数据。

34、图2描绘了根据实施例的用于生成动态图片元数据的示例过程(200)。如图2所描绘的,在给定输入图像或图像序列205的情况下,步骤210基于已知的手动、自动或半自动元数据生成技术来生成一组初始元数据。接下来,在步骤215中,在给定目标显示器、输入图像(205)和相关联元数据(例如,来自步骤210的初始元数据或来自步骤235的更新的元数据(237))的情况下,将显示管理过程(优选地类似于将由下游解码器使用的显示管理过程)应用于输入图像以生成映射图像(217)。接下来,在步骤220中,使用适当的外观匹配指标或视觉差异质量指标将原始图像(205)与映射图像(217)进行比较。这里的目标是根据模拟的人类观察者来模拟原始图像和映射图像的相互比较。通常,该指标返回的误差越小,预测的视觉差异就越小,并且匹配就越好。非限制性地,这种视觉质量指标的示例包括视频多方法评价融合指标(vmaf)(参考文献[6])、结构相似性指数度量(ssim)(参考文献[7])和hdr视觉差异预测器(hdr-vdp)(参考文献[8])。

35、由于被比较的两个图像可能具有不同的颜色体积(例如,动态范围和色域)以及不同的分辨率或帧速率,合适的图像质量指标应该不管这些差异如何都能够预测这两个图像之间的外观匹配。

36、在步骤230中,需要决定迭代过程是否需要终止。例如,如果匹配差异低于某个阈值或者如果已经达到最大时间量或迭代次数,则该过程可以终止。如果做出终止决定,则输出最终元数据(240),否则,可以在步骤235中生成更新的元数据(237)。

37、在给定特定的图像质量指标的情况下,元数据更新步骤(237)可以使用任何已知的优化技术来实施,比如梯度下降、莱文贝格-马夸特算法等。将元数据优化方法应用于动态图像元数据以降低可见性差异值并生成更新图像元数据意味着动态图像元数据被替换为具有降低的可见性差异值的更新图像元数据。识别降低可见性差异值的更新元数据是一种元数据优化方法。可见性差异值是通过使用外观匹配指标将输入图像与映射图像进行比较而生成的。

38、在实施例中,对于一些元数据类型(如l2),可以为各种目标显示器计算不同的元数据。在这种场景下,可以针对每个目标显示器重复上述过程,并且去往不同显示环境的比特流可以包括不同的元数据集。

39、在另一个实施例中,映射图像(217)可以通过目标显示器的附加建模操作进行进一步处理,包括功率限制操作、全局调光、图像增强等,以产生修改后的映射图像,所述修改后的映射图像然后可以代替映射图像(217)用于与输入图像的比较步骤(步骤220)中。该过程产生的元数据考虑了目标显示器中的特定显示操作,这些操作不仅仅是显示管理过程的一部分。

40、在另一个实施例中,生成的映射图像(217)可以渲染在显示设备(例如,目标显示器)上。示出在显示设备上的图像然后可以由校准的数码相机捕获以产生校准的捕获图像,所述校准的捕获图像然后可以代替映射图像(217)用于与输入图像的比较步骤(步骤220)中。该过程产生的元数据被优化以保留参考显示器与目标显示器的显示特性之间的外观,否则这可能很难通过单独的显示管理过程或修改后的映射图像来模拟。

41、在另一个实施例中,所述输出通过网络传输到在主系统外部的辅助系统,所述主系统用于生成所述输出。所述辅助系统可以包括显示器,使用输入图像和动态图像元数据在所述显示器上渲染图像。辅助系统的显示器与目标显示器相比可以具有相同或不同的显示特性。提供输入图像和动态图像元数据作为输出的可能优势是该输出可以发送到各种各样的显示器。取决于实际的显示器,解码器于是可以决定如何将优化的元数据应用于输入图像。

42、这些参考文献中的每一篇都通过引用以其全文并入本文。

43、参考文献

44、[1]“mastering display color volume metadata supporting high luminanceand wide color gamut images[母版制作支持高光亮度和广色域图像的显示颜色体积元数据]”,smpte st 2086:2014,电影电视工程师协会,2014年

45、[2]a.k.a.choudhuryd等人“tone curve optimization method and associatedvideo[色调曲线优化方法和相关视频]”,于2018年9月5日提交的pct申请pct/us2018/049585,已作为wo 2019/050972(2019年3月14日)公开。

46、[3]r.atkins,“display management for high dynamic range video[用于高动态范围视频的显示管理]”,美国专利9,961,237。

47、[4]j.a.pytlarz等人,“ambient light-adaptive display management[环境光自适应显示管理]”,美国专利申请公开2019/0304379,2019年10月3日。

48、[5]r.atkins等人,“display management for high dynamic range images[用于高动态范围图像的显示管理]”,于2020年4月16日提交的pct申请pct/us2020/028552。

49、[6]r.rassool,“vmaf reproducibility:validating a perceptual practicalvideo quality metric[vmaf再现性:验证感知实用视频质量指标]”2017年ieee宽带多媒体系统和广播(bmsb)国际研讨会.ieee,2017年。

50、[7]z.wang等人,“image quality assessment:from error visibility tostructural similarity[图像质量评估:从错误可见性到结构相似性]”,ieee图像处理汇刊,13.4(2004):600-612。

51、[8]r.mantiuk等人,“hdr-vdp-2:a calibrated visual metric for visibilityand quality predictions in all luminance conditions[hdr-vdp-2:在所有光亮度条件下用于可见性和质量预测的校准视觉指标]”,acm图形汇刊(tog)30.4(2011):1-14。

52、示例计算机系统实施方式

53、本发明的实施例可以利用计算机系统、以电子电路和部件来配置的系统、集成电路(ic)设备(如微控制器、现场可编程门阵列(fpga)或另一个可配置或可编程逻辑器件(pld)、离散时间或数字信号处理器(dsp)、专用ic(asic))和/或包括这样的系统、设备或部件中的一个或多个的装置来实施。计算机和/或ic可以执行、控制或实行与生成动态图片元数据相关的指令,如本文所述的那些指令。计算机和/或ic可以计算与本文描述的生成动态图片元数据相关的各种参数或值中的任何参数或值。图像和视频实施例可以以硬件、软件、固件及其各种组合来实施。

54、本发明的某些实施方式包括执行软件指令的计算机处理器,这些软件指令使处理器执行本发明的方法。例如,显示器、编码器、机顶盒、转码器等中的一个或多个处理器可以通过执行所述处理器可访问的程序存储器中的软件指令来实施与如上所述的生成动态图片元数据相关的方法。还可以以程序产品的形式提供本发明。程序产品可以包括携带一组计算机可读信号的任何有形和非暂态介质,该组计算机可读信号包括指令,所述指令当由数据处理器执行时使数据处理器执行本发明的方法。根据本发明的程序产品可以采用各种形式中的任何一种。程序产品可以包括例如物理介质,如包括软盘、硬盘驱动器的磁性数据存储介质、包括cd rom、dvd的光学数据存储介质、包括rom、闪速ram的电子数据存储介质等。程序产品上的计算机可读信号可以可选地被压缩或加密。

55、在上面提到部件(例如,软件模块、处理器、组件、设备、电路等)的情况下,除非另有指明,否则对所述部件的引用(包括对“装置”的引用)都应该被解释为包括执行所描述部件的功能的任何部件为所述部件的等同物(例如,功能上等同的),包括在结构上不等同于执行在本发明的所图示示例实施例中的功能的所公开结构的部件。

56、等同物、扩展、替代方案和杂项

57、因此,描述了与生成动态图片元数据相关的示例实施例。在前述说明书中,已经参考可以根据实施方式而变化的许多具体细节描述了本发明的实施例。因此,指明本发明以及申请人的发明意图的唯一且排他性指示是根据本技术以具体形式发布的权利要求组,其中,这样的权利要求发布包括任何后续修正。本文中针对这样的权利要求中包含的术语明确阐述的任何定义应该支配如在权利要求中使用的这样的术语的含义。因此,权利要求中未明确引用的限制、要素、性质、特征、优点或属性不应该以任何方式限制这样的权利要求的范围。因此,应当从说明性而非限制性意义上看待本说明书和附图。

58、可以从以下枚举的示例实施例(eee)中理解本发明的各个方面:

59、1.一种利用处理器生成动态图片元数据的方法,所述方法包括:

60、接收第一动态范围中的输入图像和动态图像元数据,其中,所述输入图像在母版显示器上进行母版处理;

61、a)应用显示映射过程以将所述输入图像映射到第二动态范围中的映射图像,其中,所述显示映射过程考虑了所述动态图像元数据和与所述母版制作显示器不同的目标显示器的显示特性;

62、b)使用外观匹配指标将所述输入图像与所述映射图像进行比较以生成可见性差异值;以及

63、如果所述可见性差异值大于阈值,则:

64、c)对所述动态图像元数据应用元数据优化方法以降低所述可见性差异值,并生成更新的图像元数据;

65、d)用所述更新的图像元数据替代所述动态图像元数据;以及

66、返回步骤a进行另一个元数据更新迭代,直到达到终止标准;

67、否则生成包括所述输入图像和所述动态图像元数据的输出。

68、2.如eee 1所述的方法,其中,所述第一动态范围是高动态范围,并且所述第二动态范围是标准动态范围。

69、3.如eee 1或2所述的方法,其中,所述终止标准包括将元数据更新迭代的总次数限制为小于最大迭代计数。

70、4.如eee 1至3中任一项所述的方法,其中,所述外观匹配指标包括视频多方法评价融合指标(vmaf)、结构相似性指数度量(ssim)和hdr-视觉差异预测器(hdr-vdp)之一。

71、5.如前述eee中任一项所述的方法,其中,所述元数据优化方法包括梯度下降法或莱文贝格-马夸特算法之一。

72、6.如前述eee中任一项所述的方法,其中,所述输入图像的动态图像元数据包括基于所述输入图像中的像素值统计数据的元数据参数。

73、7.如eee 1至5中任一项所述的方法,其中,所述输入图像的动态图像元数据包括在所述目标显示器上观察所述输入图像时计算的调整后的元数据参数。

74、8.如前述eee中任一项所述的方法,进一步包括:

75、在步骤a之后,将所述目标显示器的附加建模操作应用于所述映射图像以生成修改后的映射图像;并且在步骤b中,

76、使用所述外观匹配指标将所述输入图像与所述修改后的映射图像进行比较以生成所述可见性差异值。

77、9.如eee 8所述的方法,其中,所述附加建模操作包括所述目标显示器的功率限制、全局调光或图像增强操作。

78、10.如eee 1至7中任一项所述的方法,进一步包括:

79、在步骤a之后,在所述目标显示器上渲染所述映射图像以生成渲染图像,并用相机捕获所述渲染图像以生成捕获图像;并且在步骤b中,

80、使用所述外观匹配指标将所述输入图像与所述捕获图像进行比较以生成所述可见性差异值。

81、11.一种装置,包括处理器并且被配置为执行如eee 1至10中所述的方法中的任一种方法。

82、12.一种非暂态计算机可读存储介质,具有存储于其上的计算机可执行指令,所述指令用于利用一个或多个处理器来执行根据eee 1至10中任一项所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1