感知媒体编码的制作方法

文档序号:7978581阅读:197来源:国知局
感知媒体编码的制作方法
【专利摘要】使用I帧,P帧和B帧的常规编码格式例如可以使用定义了关键的色度、光照和音频信息的附加的元数据来得到增强,以使得能够在渲染时间时更准确的处理以及获得更好的媒体重放。
【专利说明】感知媒体编码
【背景技术】
[0001]本发明涉及对计算机系统的图像数据进行编码或压缩。
[0002]为了传递额外的数据,图片数据被编码成占据更少带宽的格式。因此,可以更快地传递媒体。
[0003]一般来说,编码器和/或解码器,有时被称为CODEC,处理图像帧的编码和在它们的目的地处的随后的解码。典型地,依照广泛使用的运动图像专家组压缩规范,编码的图像帧被编码成I帧、P帧和B帧。主要目的是压缩媒体,以及仅对帧间变化的媒体的部分进行编码。媒体被编码并存储在文件中或跨越网络进行发送,并且被解码以用于在显示设备上进行渲染。
【专利附图】

【附图说明】
[0004]图1是根据使用本发明的一个实施例的索引方法的媒体帧类型的示意图;
图2是依照本发明的交织方法的编码帧的示意图;
图3是用于本发明的一个实施例的流程图;以及 图4是本发明的一个实施例的原理性示意图。
【具体实施方式】
[0005]使用I帧,P帧和B帧的常规编码格式例如可以使用定义了关键的色度、光照和音频信息的附加的元数据来得到增强,以使得能够在渲染时间时更准确地处理以及获得更好的媒体重放。可以将创建媒体的光照和音频条件进行记录并将其与媒体流一起编码。当渲染该媒体时,可以随后补偿这些条件。另外,可以将图像和音频传感器数据的特性进行编码并传送给渲染设备以使得能够更准确地渲染视频和音频。
[0006]在一个实施例中,还可以将附加的元数据存储在单独的文件中,诸如美国信息交换标准码(ASCII)文件、可扩展标记语言(XML)文件,或者可以将该附加的元数据连同流媒体通过通信信道或网络进行发送或流式传输。然后,在已经解码了该媒体后,可以将该元数据与编码的媒体一起使用。
[0007]在本文中,可以增加的附加帧被称为C帧、A帧、L帧和P帧。可以在图1中所示出的索引方法中或在图2中所示出的交织方法中增加这些帧。在交织方法中,将元数据帧插入到媒体格式中。在索引方法中,元数据帧被连续地存储并且经由索引指向编码器解码器帧中。
[0008]可以将索引方法存储在与现有媒体相同的文件或流中,或者可以将其存储在索引到现有媒体文件或流中的单独的文件或流中。可以在空中(on the fly)对媒体进行转码或编码,并且通过网络进行发送而不将其存储到文件中。
[0009]元数据帧包含:C帧中的色度数据、L帧中的光照数据、A帧中的音频数据。
[0010]C帧或色度帧可以包含关于诸如相机的输入设备和用于显示的输出设备的色度信息。输入设备信息可以用于相机捕获设备。在一些实施例中,色度巾贞信息可以用于从捕获设备的颜色空间到显示设备的颜色空间的色域映射,使得能够在捕获设备和渲染设备之间进行更准确的设备建模和颜色空间转换以用于更优的视觉体验。在一些实施例中,C帧可以提供色度上准确的数据以使得能够在渲染时间时进行高效的色域映射以获得更好的视频体验。
[0011]当在捕获设备处的色度信息变化时,可以在编码的视频画面(screen)中加入新的C帧。例如,如果使用不同的相机和不同的场景光照配置,则可以在编码的视频画面中加入新的C帧以提供色度细节。
[0012]在一个实施例中,C帧可以是美国信息交换标准码(ASCII)文本串、可扩展标记语言(XML)或任何其它的二进制数字格式。
[0013]C帧可以包含用于色域信息的标识符以供在另一个帧希望参考这个帧并重新使用它的值的情况下参考。色度帧还可以包含:输入/输出信息,其指示这个C帧是用于输入设备还是输出设备。该帧可以包含:型号信息,其识别特定的相机或显示设备。它可以包含:在选择的颜色空间中用于相机设备的色域,对于选择的色阶其包含最小色阶值和最大色阶值。色度信息还可以包含来自由CIE技术委员会CIE TC8-01 (2004),出版物159,维也纳CIE中央局ISBN 3901906290所提供的用于颜色管理系统的色貌模型(CIECAM02)的色貌模型的场景条件。例如,可以被包含的其它信息包含:用于灰色存取的中性存取值,黑点值和白点值。
[0014]P帧可以包含用于各种输出渲染设备的视频效果处理提示。处理提示可以使得输出设备能够根据来自媒体创建者的最佳意图来渲染媒体。处理信息可以包含:色域映射方法,图像处理方法,诸如卷积核,亮度,或对比度。处理提示可以与特定的显示设备相关以增强针对具体显示设备的渲染特性。
[0015]P串的格式还可以是ASCII文本流、XML或任何二进制格式。P帧可以包含用于该P帧的参考数,以便其它帧能够参考这个P帧以及输出处理提示。它们提供了针对色域映射方法和针对已知设备的列表的图像升级版处理方法或针对未知显示器类型的默认图像处理方法的建议。例如,对于特定的电视显示器,P帧可以建议使用亮度空间中的卷积滤波器对皮肤色调进行后处理并且提供该值。它还可以建议色域映射方法和感知渲染意图。输出设备提示还可以包含简单的RGB或其它颜色伽马函数。
[0016]P帧还可以包含输出设备色域C帧参考。P帧可以通过标识符参考在编码的视频流内的C帧以针对具体的输出设备对处理进行加工。P帧可以包含处理代码提示。在该帧内将客户算法提供为JAVA字节代码或Dx/Gl高级着色器语言(HLSL)。可以将P帧包含在P帧中的CODEC字段的前同步码中或者包含在P帧中的编码流内,并且可以使用参考数进行共享。
[0017]L帧使得能够观看时间光照调节,并且包含关于针对场景的已知光源的信息,以及关于该场景处的环境光的信息。具有传感器的智能显示设备可以使用光源信息和场景信息以找出现在观看房间中的光源以及出现在观看房间中的环境光。例如,显示设备可以确定观看房间是暗的,并且可以自动地尝试调节编码在媒体中的环境光的量以优化观看体验。此外,智能观看设备可以识别在观看房间中的不适合的光源,并尝试对视频显示进行的渲染中的光照进行调节以适应于不适合的本地光照。
[0018]L帧可以包含:反射光向量,其给出X,y, z向量信息,以及依据帧关于圆形形状受影响的百分比的发光度,以使得能够检测光源的位置和方向以及跨越表面的发光度强度。L帧还可以包含:长期光颜色,其是描述光源的色温的色度信息。L帧可以包含:环境光颜色值,其是描述来自所有侧面的光源的色温的色度信息。L帧可以包含散射光向量,其是X,y,z向量信息以使得能够确定光源的位置和方向。L帧可以包含:散射光颜色值,其是描述光源的色温的色度信息。最后,L帧可以包含用于色貌模型的CIECAM02信息值。
[0019]用于音频信息的A帧包含关于场景的声学或被捕获的音频的信息,以及关于在渲染时间如何执行音频处理的提示。A帧可以包含捕获麦克风或者如果有多个麦克风用于这些麦克风中的每个麦克风的音频响应的音频麦克风简档。数据格式可以是一组样条点,其生成例如零和二十五千赫兹之间的曲线或数字阵列。
[0020]在A帧中的另一个值可以是音频环绕混响,其是进行录音的周边区域的混响响应的简档。这可能对使用智能渲染设备来复制观看房间中的混响环境是有用的,所述智能渲染设备能够测量出现在观看房间中的混响以通过合适的混响设备型号来运行该音频以补
偿音频渲染。
[0021]A帧可以包含:音频效果,其包含已知的音频插件列表以基于在房间的环境中的显示设备的型号数来进行推荐。示例可以是任何Pro Tools数字音频工作站(从MA的伯灵顿的Avid Technology可以获得)数字效果和设置。
[0022]最后,A帧可以包含:音频提示,其基于对音频系统的渲染设备的认知并且可以用于基于音频渲染设备的特性来对音频的均衡器和/或音量和/或立体声平衡和/或环绕效果进行调节。来自录音设备的常见场景音频影响元素的列表可以被插入到音频提示中,诸如:多雾(因为它抑制声音)、开阔区域、硬木地板、高天花板、地毯、无窗、较少或较多的家具、大房间、小房间、低或高湿度、空气温度,安静等。格式可以是文本串。
[0023]计算机处理器可以使用序列10以产生编码的C帧、A帧、L帧和P帧。可以在硬件、软件和/或固件中实现该序列。在软件和硬件的实施例中,可以将该序列实现成存储在非短暂性的可读介质,诸如光、磁或半导体存储器中的计算机执行的指令。
[0024]在菱形12,序列10可以以检查色度信息开始。如果此类信息是可获得的,则如在框14中所指示的,可以将它嵌入在C帧中。然后,如在框16中所指示的,可以生成P巾贞,以及如在框18所指示的,可以参考P帧。
[0025]在菱形20,检查确定是否存在可使用的光源信息,如果存在,则如在框22中所指示的,可以将它们嵌入在L帧中。最后,在菱形24,检查确定是否存在音频信息,如果存在,则如在框26所指示的,将它编码在A帧中。
[0026]如果没有色度信息,则如在框28所指示的,可以嵌入P帧。
[0027]在图4中示出了编码器/解码器30架构。编码器34接收将被编码的流,用于C帧、L帧、A帧和P帧的输入数据,并且输出编码的流。编码器34可以耦合到处理器32,该处理器32执行存储在存储设备36中的指令,所述指令包含软件或固件实施例中的序列10。
[0028]可以在各种硬件、软件和固件架构中实现本文所描述的图形处理技术。例如,可以芯片组内集成图形功能。可替代地,可以使用分立的图形处理器。作为又一个实施例,可以由包含多核处理器的通用处理器来实现该图形功能。
[0029]在整个说明书中参照“一个实施例”或“实施例”意味着结合该实施例所描述的特定特征、结构或特性被包含在涵盖在本发明内的至少一种实现方式中。因此,短语“一个实施例”或“在实施例中”的出现不是必须参照相同的实施例。此外,特定的特征、结构或特性可以被设定在不同于所说明的特定实施例的其它合适形式中,并且可以将所有此类形式涵盖在本申请的权利要求内。
[0030]虽然已经相对于有限数目的实施例描述了本发明,但是本发明的技术人员将理解来自所述有限数目的实施例的许多修改和变型。所附权利要求书旨在覆盖落入本发明的真实精神和范围内的所有此类修改和变型。
【权利要求】
1.一种方法,包括: 对图像数据的帧进行编码;以及 对所述图像数据的帧的色度元数据、光照元数据或音频元数据中的至少一个元数据进行编码。
2.根据权利要求1所述的方法,包含对所述图像数据的色度元数据、光照元数据和音频元数据进行编码。
3.根据权利要求1所述的方法,其中对帧进行编码包含以I帧、P帧和B帧进行编码。
4.根据权利要求3所述的方法,包含:将所述元数据顺序地与所述I帧、P帧和B帧一起进行存储,以及使用索引以指向所述帧中。
5.根据权利要求3所述的方法,包含将元数据交织到所述I帧、P帧和B帧中。
6.根据权利要求1所述的方法,包含提供关于用于捕获所述元数据的成像设备的元数据。
7.根据权利要求1所述的方法,包含提供关于用于显示所述图像数据的输出设备的元数据。
8.根据权利要求1所述的方法,包含提供关于在图像捕获的位置处的光源的元数据。
9.根据权利要求1所述的方法,包含对用于一个或多个反射光向量、长期光颜色、环境光颜色、散射光向量或散射光颜色的元数据进行编码。
10.根据权利要求1所述的方法,包含提供关于在图像捕获地点的声学的元数据,其包含麦克风简档或混响响应简档或均衡器简档或音频简档。
11.根据权利要求1所述的方法,其中提供色度信息包含提供用于所述色度信息的标识符、输入设备或输出设备的标识、关于针对相机的色域或颜色设备型号的信息、场景条件、中性轴值、黑点值或白点值。
12.根据权利要求1所述的方法,包含提供用于输出渲染设备的视频效果处理提示。
13.根据权利要求1所述的方法,包含存储从所编码的帧分离的所述元数据。
14.根据权利要求1所述的方法,包含将所述元数据与所编码的帧一起存储。
15.一种存储指令的非短暂性的计算机可读介质,所述指令使得计算机: 对图像数据的帧进行编码;以及 将关于图像捕获条件的元数据与所编码的帧一起进行编码。
16.根据权利要求15所述的介质,还存储将元数据与I帧、P帧和B帧一起进行编码的指令。
17.根据权利要求16所述的介质,还存储将所述元数据顺序地与I帧、P帧和B帧一起存储以及使用索引以指向所述帧中的指令。
18.根据权利要求16所述的介质,还存储将元数据交织到所述I帧、P帧和B帧中的指令。
19.根据权利要求15所述的介质,还存储提供关于用于捕获所述元数据的成像设备的元数据的指令。
20.根据权利要求15所述的介质,还存储提供关于用于显示所述图像数据的输出设备的元数据的指令。
21.根据权利要求15所述的介质,还存储存储从所编码的帧分离的所述元数据的指令。
22.根据权利要求15所述的介质,还存储将所述元数据与所编码的帧一起存储的指令。
23.一种装置,包括: 编码器,其对图像数据的帧进行编码,以及将关于图像捕获条件的元数据与所编码的帧一起进行编码;以及 存储设备,其耦合到所述编码器。
24.根据权利要求23所述的装置,所述编码器将元数据与I帧、P帧和B帧一起进行编码。
25.根据权利要求16所述的装置,所述编码器将所述元数据顺序地与所述I帧、P帧和B帧一起存储并且使用索引以指向所述帧中。
26.根据权利要求16所述的装置,所述编码器将元数据交织到所述I帧、P帧和B帧中。
27.根据权利要求23所述的装置,所述编码器提供关于用于捕获所述元数据的成像设备的元数据。
28.根据权利要求23所述的装置,所述编码器提供关于用于显示所述图像数据的输出设备的元数据。
29.根据权利要求23所述的装置,所述编码器存储从所编码的帧分离的所述元数据。
30.根据权利要求23所述的介质,所述编码器将所述元数据与所编码的帧一起存储。
【文档编号】H04N19/00GK103947202SQ201180075224
【公开日】2014年7月23日 申请日期:2011年11月30日 优先权日:2011年11月30日
【发明者】S.A.克里希 申请人:英特尔公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1