用于自适应音频信号产生、编码和呈现的系统和方法_3

文档序号：9814935阅读：来源：国知局

精度有一些可能的牺牲）。对允许的空间失真的限制可W通过仰角(elevation)和方位角(azimuth)容限阔值被指示，使得如果超过阔值则不会出现"快移"功能。除了距离阔值之外，交叉衰落kross化de)速率参数也可W被指示，W便在期望的位置在扬声器之间交叉时控制移动对象将如何快速地从一个扬声器转变或跳变到另一个。
[0068] 在一个实施例中，依赖的空间元数据被用于特定位置元数据。例如，元数据可W通过将其与从属对象要跟随的"主控'对象关联来对于"从属"对象被自动产生。时滞或相对速度可W被分配给从属对象。机构也可W被提供W便允许对于多组或多群对象的重力的声中屯、的定义，使得对象可W被呈现使得它被感知为围绕另一个对象移动。在运种情况下，一个或更多个对象可W围绕对象或定义的区域(诸如主导点或房间的干区域)旋转。即使最终的位置信息将被表示为相对于房间的位置，与相对于另一个对象的位置相反，重力的声中屯、然后也将被用在呈现阶段中W便帮助确定对于每个合适的基于对象的声音的位置信息。
[0069] 在呈现对象时，它根据位置元数据W及回放扬声器的位置被分配给一个或更多个扬声器。额外的元数据可W与对象关联W便限制应该使用的扬声器。限制的使用可W禁止使用指示的扬声器或仅仅禁止指示的扬声器(相比于否则会被应用的情况，允许更少能量到扬声器或多个扬声器中）。要被约束的扬声器组可W包括但不限于，命名的扬声器或扬声器区域中的任意一个(例如L、C、R等），或扬声器区域，诸如:前壁、后壁、左壁、右壁、天花板、地板、房间内的扬声器等等。同样地，在指定多个声音元素的期望的混合的过程中，可W使得一个或更多个声音元素变得听不见或"被掩蔽"，由于存在其它"掩蔽"声音元素。例如，当检测到被掩蔽的元素时，它们可W经由图形显示器被识别给用户。
[0070] 如其它地方描述的，音频节目描述可W适应于在各式各样的扬声器设施和声道配置上呈现。当音频节目被创作时，重要的是监视在预期的回放配置上呈现节目的效果W检验实现期望的结果。本发明包括选择目标回放配置和监视结果的能力。另外，系统可W自动监视将在每个预期的回放配置中被产生的最坏情况（即最高)信号水平，并且在将出现裁剪 (C1 ipp ing)或限制的情况下提供指示。
[0071] 图3是按照一个实施例的示出创建、封装和呈现自适应音频内容的工作流程的框图。图3的工作流程300被分成标记为创建/创作、封装和展出的=个不同的任务组。通常，图 2中示出的基础和对象的混合模型允许大多数的声音设计、编辑、预混合和最终混合W与当今相同的方式被执行并且不向当前处理添加过多的开销。在一个实施例中，自适应音频功能W与声音制作和处理设备结合使用的软件、固件或电路形式被提供，其中运种设备可W 是新型硬件系统或对现有的系统的更新。例如，插电式应用可W为数字音频工作站提供W 允许声音设计和编辑内的现有的摇移技术保持不变。W运种方式，可W在5.1或类似的环绕装备的编辑室中的工作站内铺设基础和对象两者。对象音频和元数据被记录在会话中W准备在配音(dubbing)剧场中的预混合和最终混合阶段。
[0072] 如图3所示，创建或创作任务包括通过用户（例如，在下面示例中，声音工程师)输入混合控制302到混合控制台或音频工作站304。在一个实施例中，元数据被集成到混合控制台表面中，允许声道条(S化ips)的音量控制器(faders)、摇移和音频处理对基础或主干和音频对象两者起作用。可W使用控制台表面或者工作站用户界面编辑元数据，并且通过使用呈现和主控单元(RMU)306监视声音。基础和对象音频数据W及关联的元数据在主控会话期间被记录W便创建'打印主控器'，其包括自适应音频混合310和任何其它呈现的可交付物(deliverables)(诸如环绕7.1或5.1剧场的混合)308。现有的创作工具(例如数字音频工作站，诸如Pro工具)可W被用来允许声音工程师标记混合会话内的单独的音频轨道。实施例通过允许用户标记轨道内的单独的子片段W帮助发现或快速识别音频元素，来扩展运个概念。到使得能够定义和创建元数据的混合控制台的用户界面可W通过图形用户界面元素、物理控制(例如，滑动器和旋钮)或其任何组合被实现。
[0073] 在封装阶段中，打印主控文件通过使用工业标准的MXF包装(wrap)过程被包装、混编化ash)和可选地加密，W便确保用于递送到数字电影封装设施的音频内容的完整性。运个步骤可W通过数字电影处理器(DCP)312或任何合适的音频处理器取决于最终的回放环境(诸如标准的环绕声音装备的剧场318、自适应音频启用剧场320或任何其它回放环境)被执行。如图3所示，处理器312根据展出环境输出合适的音频信号314和316。
[0074] 在一个实施例中，自适应音频打印主控器包含自适应音频混合，W及遵从标准的 DCI的脉冲编码调制(PCM)混合。PCM混合可W通过配音剧场中的呈现和主控单元被呈现，或通过分离的混合途径在需要时被创建。PCM音频在数字电影处理器312内形成标准的主音频轨道文件，并且自适应音频形成额外的轨道文件。运种轨道文件可W遵从现有工业标准，并且被不能使用它的遵从DCI的服务器忽略。
[0075] 在示例电影回放环境中，包含自适应音频轨道文件的DCP被服务器识别为有效的封装体，并且被摄取到服务器中并且随后被流到自适应音频电影处理器。系统具有线性的 PCM和自适应音频文件两者可用，该系统可W根据需要在它们之间切换。对于分发到展出阶段，自适应音频封装方案允许单个类型封装体的递送被递送给电影院。DCP封装体包含PCM 和自适应音频文件两者。安全密钥(诸如密钥递送消息化DM))的使用可W被并入W便使得能够安全递送电影内容或其它类似的内容。
[0076] 如图3所示，自适应音频方法通过使得声音工程师能够通过音频工作站304表达关于音频内容的呈现和回放的他或她的意图而被实现。通过控制特定输入控制，工程师能够根据收听环境指定在哪里和如何回放音频对象和声音元素。响应于工程师的混合输入302 在音频工作站304中产生元数据W便提供呈现队列，其控制空间参数(例如，位置、速度、强度、音色等）并且指定收听环境中的哪个扬声器(哪些扬声器)或扬声器组在展出期间播放相应的声音。元数据与工作站304或RMU 306中的相应的音频数据关联W用于通过DCP 312 封装和传输。
[0077] 通过工程师提供工作站304的控制的软件工具和图形用户界面至少包括图1的创作工具106的部分。
[007引混合音频编解码器
[0079]如图1所示，系统100包括混合音频编解码器108。运个组件包含音频编码、分发和解码系统，其被配置为产生包含传统的基于声道的音频元素和音频对象编码元素两者的单个比特流。混合音频编码系统围绕基于声道的编码系统被构建，基于声道的编码系统被配置为产生单个(统一)比特流，其同时可与第一解码器和一个或更多个二次解码器兼容（即，可由第一解码器和一个或更多个二次解码器解码），第一解码器被配置为解码根据第一编码协议编码的(基于声道的）音频数据，二次解码器被配置为解码根据一个或更多个二次编码协议编码的（基于对象的）音频数据。比特流可W包括可由第一解码器解码(并且被任何二次解码器忽略）的编码后的数据（W数据子帖(burst)形式)和可由一个或更多个二次解码器解码(并且被第一解码器忽略）的编码后的数据(例如，数据的其它子帖)两者。来自二次解码器中的一个或更多个和第一解码器的解码后的音频和关联的信息(元数据)然后可 WW使得基于声道的和基于对象的信息两者被同时呈现的方式被结合W便再造环境的复制(facsimile)、声道、空间信息、和呈现到混合编码系统的对象（即在S维空间或收听环境内）。
[0080] 编解码器108产生包含与多组声道位置(扬声器)有关的信息和编码的音频信息的比特流。在一个实施例中，一组声道位置是固定的并且用于基于声道的编码协议，而另一组声道位置是自适应的并且用于基于音频对象的编码协议，使得用于音频对象的声道配置可 W随时间而改变(取决于在声场中将对象放置在哪里）。因此，混合音频编码系统可W携带关于用于回放的两组扬声器位置的信息，其中一组可W是固定的并且是另一个组的子集。支持遗留编码的音频信息的装置将解码和呈现来自固定的子集的音频信息，而能够支持更大组的装置可W解码和呈现额外的编码的音频信息，其将是时间变化地分配给来自更大组的不同的扬声器。此外，系统不依赖于在系统和/或装置内同时存在的二次解码器中的一个或更多个W及第一解码器。因此，仅仅包含支持第一协议的解码器的遗留和/或现有的装置/系统将产生完全兼容的要经由传统的基于声道的再现系统呈现的声场。在该情况下，混合比特流协议的未知的或不被支持的部分(或多个部分）（即，由二次编码协议表示的音频信息)将被支持第一混合编码协议的系统或装置解码器忽略。
[0081] 在另一实施例中，编解码器108被配置为操作在如下的模式中，该模式中第一编码子系统(支持第一协议)包含在混合编码器内存在的二次编码器子系统中的一个或更多个 W及第一编码器两者中表示的所有声场信息(声道和对象）的结合的表示。运确保混合比特流包括通过允许在仅仅支持第一协议的解码器内呈现和表示音频对象(典型地在一个或更多个二次编码器协议中携带)而与仅仅支持第一编码器子系统的协议的解码器的向后兼容性。
[0082] 在又一个实施例中，编解码器108包括两个或更多个编码子系统，其中运些子系统中的每一个被配置为根据不同协议编码音频数据，并且被配置为结合子系统的输出W产生混合格式(统一的）比特流。
[0083] 实施例的好处之一是在宽范围的内容分发系统之上运送混合编码的音频比特流的能力，其中分发系统中的每一个传统地仅仅支持根据第一编码协议编码的数据。运消除了对任何系统和/或传输级别协议进行修改/改变W便特定地支持混合编码系统的需要。
[0084] 音频编码系统典型地利用标准化的比特流元素 W便使得能够在比特流本身内传输额外的(任意的)数据。运个额外的(任意的)数据在包括在比特流内的编码的音频的解码期间典型地被跳过（即，忽略），但是可W被用于除解码W外的目的。不同的音频编码标准通过使用唯一的命名法(nomenclature)表示运些额外的数据字段。运个一般类型的比特流元素可W包括但不限于，辅助数据、跳越字段、数据流元素、填充元素、补助的数据、W及子流 (substream)元素。除非另有说明，否则运个文档中的表述"辅助数据"的使用并不暗示特定类型或格式的额外数据，而是应该被解释为包含与本发明关联的任何或所有示例的通用表述。
[0085] 经由结合的混合编码系统比特流内的第一编码协议的"辅助的"比特流元素启用的数据通道可W携带一个或更多个二次(独立的或依赖的）音频比特流(根据一个或更多个二次编码协议被编码）。一个或更多个二次音频比特流可W被分割成N样本块并且多路复用到第一比特流的"辅助数据"字段中。第一比特流可由合适的(互补)解码器解码。另外，第一比特流的辅助数据可W被提取，被再结合到一个或更多个二次音频比特流中，由支持二次比特流中的一个或更多个的语法的处理器解码，并且随后被结合并且一起或独立地呈现。此外，还可W将第一和第二比特流的作用颠倒，使得第一比特流的数据的块被多路复用到第二比特流的辅助数据中。
[0086] 与二次编码协议关联的比特流元素也携带和传送下层(underlying)音频的信息 (元数据)特性，其可W包括但不限于，期望的声源位置、速度和尺寸。运个元数据在解码和呈现处理期间被利用W便重新创建对于可应用的比特流内携带的关联音频对象的正确的 (即，初始的)位置。还可W在与第一编码协议关联的比特流元素内携带上述的元数据，其可应用到包含在混合流中存在的一个或更多个二次比特流中的音频对象。
[0087] 与混合编码系统的第一和第二编码协议中的一个或两者关联的比特流元素携带/ 传送语境元数据，其识别空间参数（即，信号特性本身的本体)和描述具有在混合编码的音频比特流内携带的特定音频种类形式的下层音频本体类型的另外信息。运种元数据可W指示例如存在口头对话、音乐、在音乐之上的对话、掌声、歌声等，并且可W被用来自适应修改混合编码系统的上游或下游的互连的预处理或后处理模块的性质。
[0088] 在一个实施例中，编解码器108被配置为利用共享的或公共的比特池(pool)来操作，在比特池中对于编码可用的比特在支持一个或更多个协议的编码子系统的部分或全部之间被"共享"。运种编解码器可W在编码子系统之间分发可用的比特（来自公共的"共享脚'比特池似便优化统一的比特流的整体音频质量。例如，在第一时间间隔期间，编解码器可W分配更多的可用比特给第一编码子系统，并且分配更少的可用比特给剩余子系统，而在第二时间间隔期间，编解码器可W分配更少的可用比特给第一编码子系统，并且分配更多的可用比特给剩余子系统。如何在编码子系统之间分配比特的决定可W依赖于例如共享的比特池的统计分析的结果和/或由每个子系统编码的音频内容的分析。编解码器可W W 使得通过多路复用编码子系统的输出构造的统一的比特流在特定的时间间隔内维持恒定的帖长度/比特率的方式来分配来自共享的池的比特。在一些情况下还可W在特定的时间间隔内改变统一的比特流的帖长度/比特率。
[0089] 在可替代的实施例中，编解码器108产生统一的比特流，其包括根据配置和发送作为编码后的数据流(支持第一编码协议的解码器将对其解码）的独立子流的第一编码协议编码的数据、W及根据发送作为编码后的数据流(支持第一协议的解码器将忽略其）的独立的或依赖的子流的第二协议编码的数据。更一般地说，在一类实施例中，编解码器产生统一的比特流，其包括两个或更多个独立的或依赖的子流(其中每个子流包括根据不同的或相同的编码协议编码的数据）。
[0090] 在又一个可替代的实施例中，编解码器108产生统一的比特流，其包括根据利用唯一的比特流标识符配置和发送的第一编码协议编码的数据(支持与唯一的比特流标识符关联的第一编码协议的解码器将对其解码）、W及根据利用唯一的比特流标识符配置和发送的第二协议编码的数据(支持第一协议的解码器将忽略其）。更一般地说，在一类实施例中，编解码器产生统一的比特流，其包括两个或更多个子流(其中每个子流包括根据不同的或相同的编码协议编码的数据并且其中每个携带唯一的比特流标识符）。用于创建上述的统一的比特流的方法和系统提供清楚地(给解码器)发信号通知哪个交错QnterleavingWP/ 或协议已经在混合比特流内被利用的能力（例如，发信号通知是否利用描述的AUX数据、 SKIP、DSE或子流方法）。
[0091] 混合编码系统被配置为支持在整个媒体递送系统期间发现的任何处理点处对支持一个或更多个二次协议的比特流的解交错/解多路复用和重新交错/重新多路复用到第一比特流(支持第一协议）中。混合编解码器还被配置为能够将具有不同采样率的音频输入流编码到一个比特流中。运提供用于有效地编码和分发包含具有固有地不同的带宽的信号的音频源的手段。例如，与音乐和效果轨道相比，对话轨道典型地具有固有地更低的带宽。
[0092]
[0093] ^施例之下，自适应音频系统允许多个(例如，高达128个)轨道被封装，通常作为基础和对象的结合。对于自适应音频系统的音频数据的基本格式包括许多独立的单声道音频流。每个流具有与它关联的元数据，其指定流是基于声道的流还是基于对象的流。基于声道的流具有利用声道名字或标记编码的呈现信息;并且基

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6