用于自适应音频信号产生、编码和呈现的系统和方法

文档序号：7990802阅读：282来源：国知局

用于自适应音频信号产生、编码和呈现的系统和方法
【专利摘要】针对处理包含许多独立的单声道的音频流的音频数据的自适应音频系统描述了实施例。流中的一个或更多个具有与它关联的元数据，该元数据指定流是基于声道的流还是基于对象的流。基于声道的流具有利用声道名字编码的呈现信息；并且基于对象的流具有通过在关联的元数据中编码的位置表述编码的位置信息。编解码器将独立的音频流封装到包含所有音频数据的单个串行的比特流中。这个配置允许根据非自我中心的参考系呈现声音，在其中声音的呈现位置基于回放环境的特性（例如，房间尺寸、形状等）以便对应于混合者的意图。对象位置元数据包含为使用房间中的可用的扬声器位置正确地播放声音所需的合适的非自我中心的参考系信息，该房间被设立来播放自适应的音频内容。
【专利说明】用于自适应音频信号产生、编码和呈现的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求2011年7月I日提交的美国临时申请N0.61/504，005和2012年4月20日提交的美国临时申请N0.61/636,429的优先权，这两个申请出于所有目的整体通过参考被并入于此。
【技术领域】
[0003]一个或更多个实现方式一般涉及音频信号处理，并且更具体地涉及供电影院、家庭和其它环境之用的混合对象和基于声道的音频处理。
【背景技术】
[0004]在【背景技术】部分中讨论的主题不应该仅仅由于它在【背景技术】部分中被提到而被假设为现有技术。类似地，在【背景技术】部分中提到或者与【背景技术】部分的主题关联的问题不应该被假设为在现有技术中已经被先前认识到。在【背景技术】部分中的主题仅仅代表不同的方法，在其中及其本身也可以是发明。
[0005]自从将声音引入胶片(film)以来，已经存在用于捕获创作者的对于运动图像音轨的艺术意图并且在电影院环境中准确地再现它的技术的稳定的发展。电影声音的基本的作用是支持在屏幕上示出的故事。典型的电影音轨包括与屏幕上的图像和元素对应的许多不同的声音元素，从不同的屏幕上的元素发出的对话、噪声、以及声音效果，以及与背景音乐和环境效果结合以便创建整体观众体验。创作者和制作者的艺术意图代表他们的如下期望，即具有以尽可能紧密地对应于在屏幕上示出的东西的方式对于声源位置、强度、移动和其它类似参数再现的这些声音。
[0006]当前电影创作、分发和回放遭受约束真实地沉浸和逼真的音频的创建的限制。传统的基于声道的音频系统将以扬声器供给形式的音频内容发送到回放环境中的单独的扬声器，诸如立体声和5.1系统。数字电影的引入已经创建了对于胶片上的声音的新标准，诸如音频的高达16声道的并入以便允许内容创作者有更大的创造力，以及对于观众的更包围的和现实的听觉体验。7.1环绕系统的引入已经提供通过将现有的左和右环绕声道分离成四个区域(zones)增大环绕声道的数量的新格式，因此对于声音设计者和混合者增大范围来控制剧场中的音频元素的定位。
[0007]为了进一步改善收听者体验，虚拟三维环境中的声音的回放已经变为研究和开发增加的区域。声音的空间表现利用作为具有表观(apparent)源位置的关联参数源描述(例如，3D坐标)、表观源宽度和其它参数的音频信号的音频对象。基于对象的音频越来越被用于许多当前多媒体应用，诸如数字电影、视频游戏、模拟器和3D视频。
[0008]扩展超出传统的扬声器供给和基于声道的音频作为用于分布空间音频的手段是关键的，并且对保持允许收听者/展出者自由选择适合他们的个人需要或者预算的回放配置并且具有对于他们选择的配置特定地呈现的音频的承诺的基于模式(model)的音频描述已经存在相当大的兴趣。在高水平处，目前存在四个主要的空间音频描述格式:其中音频被描述为意图用于标称扬声器位置处的扬声器的信号的扬声器供给；其中音频被描述为通过预定义的阵列中的虚拟或者实际麦克风捕获的信号的麦克风供给；其中依据在所描述的位置处音频事件的序列来描述音频的基于模式的描述；以及其中音频由到达收听者耳朵的信号描述的两路立体声(binaural)。这四个描述格式经常与将音频信号转换为扬声器供给的一个或更多个呈现技术关联。当前呈现技术包括:摇移，其中音频流通过使用一组摇摄规则和已知或假设的扬声器位置被转换为扬声器供给(典型地在分发之前被呈现)；立体混响声(Ambisonics),其中麦克风信号被转换为用于扬声器的可缩放的(scalable)阵列的供给(典型地在分发之后被呈现)；WFS (波场合成)，其中声音事件被转换为适当的扬声器信号以便合成声场(典型地在分发之后被呈现)；以及两路立体声，其中L/R (左/右)双声道的信号典型地使用头戴耳机(headphones)而且通过使用扬声器和串扰抵消被传送给L/R耳朵(在分发之前或者之后呈现)。在这些格式中，扬声器供给格式是最常见的，因为它是简单的和有效的。最好的声音结果(最准确的，最可靠的)通过直接混合/监视和分发给扬声器供给来实现，因为在内容创作者和收听者之间不存在处理。如果预先已知回放系统，则扬声器供给描述通常提供最高保真度。然而，在许多实际应用中，回放系统是未知的。基于模式的描述被认为适应性最强，因为它不进行关于呈现技术的假设并且因此最容易应用于任何呈现技术。虽然基于模式的描述有效地捕获空间信息，但是随着音频源的数量增大它变得非常低效。
[0009]多年来电影系统已经特征化为具有左、中心、右以及偶尔‘左内(inner left)’和‘右内(inner right)’声道的形式的离散的屏幕声道。这些离散的源通常具有足够的频率响应和功率处理(power handling)以便允许声音被准确地放置在屏幕的不同区域中，并且容许随着声音在位置之间被移动或摇移而音色匹配。在改善收听者体验方面的近期发展企图相对于收听者准确地再现声音的位置。在5.1设立中，环绕“区域”由扬声器的阵列组成，所有的扬声器在每个左环绕或右环绕区域内携带相同的音频信息。这种阵列在’环境’或者扩散环绕效果的情况下可以是有效的，然而，在日常生活中许多声音效果来源于随机放置的点源。例如，在餐厅中，环境音乐可以显然从四处都被播放，虽然细小但是离散的声音来源于特定的点:来自一个点的人聊天、来自另一个点的刀在盘子上的卡嗒声(clatter)。能够将这种声音离散地放置在观众席周围可以在没有引人注意地明显的情况下添加加强的逼真感。头上的声音也是环绕定义的重要成分。在实际世界中，声音来源于所有方向，而不是总是来自单个水平面。如果声音可以从头上被听到，换句话说从’上半球’被听到，增加的真实感可以被实现。然而当前系统不提供在各种不同的回放环境中对于不同音频类型的声音的真正准确的再现。使用现有的系统要求实际回放环境的大量处理、知识和配置以尝试位置特定的声音的准确的表示，因此呈现对于大多数应用不实际的当前系统。
[0010]所需要的是，支持多个屏幕声道的系统，得到对于屏幕上的声音或者对话的增大的清晰度和改善的视听觉的相干性，以及能够在环绕区域中任何地方精确定位源以便改善从屏幕到房间的视听转变。例如，如果在屏幕上的角色在房间内看向声源，则声音工程师(“混合者”)应该具有精确定位声音使得它匹配角色的视线的能力并且效果将在所有观众中是一致的。然而，在传统的5.1或者7.1环绕声混合中，效果高度地依赖于收听者的座位位置，其对于大多数大规模的收听环境是不利的。增大的环绕分辨率创造了新的机会来以房间中心的方式利用声音，与传统方法相反，其中假设单个收听者在“最佳听音位置(sweetspot)”处来创建内容。
[0011]除了空间问题以外，当前的多声道现有技术系统遭受关于音色的问题。例如，一些声音的音色质量，诸如从破了的管出去的蒸汽撕撕声(hissing)，可以遭受由扬声器的阵列再现。将特定的声音引导到单个扬声器的能力给予混合者消除阵列再现的伪迹(artifacts)和向观众传递更现实的体验的机会。传统上，环绕扬声器不支持大屏幕声道支持的相同的全范围的音频频率和水平。历史上，这对于混合者已经引起问题，减少他们的从屏幕到房间自由地移动全范围声音的能力。结果，剧场拥有者没有感觉逼迫来升级他们的环绕声道配置，防止更高质量装备的广泛的采用。

【发明内容】

[0012]针对电影声音格式和包括新的扬声器布局(声道配置)和关联的空间描述格式的处理系统，来描述系统和方法。自适应音频系统和格式被定义为支持多个呈现技术。音频流与元数据一起被发送，该元数据描述包括音频流的期望位置的“混合者的意图”。位置可以被表示为命名的(named)声道(来自预定义的声道配置内)或者作为三维的位置信息。这个声道加上对象格式结合了最佳的基于声道和基于模式的音频场景描述方法。对于自适应音频系统的音频数据包括许多独立的单声道音频流。每个流具有与它关联的元数据，其指定流是基于声道的还是基于对象的流。基于声道的流具有利用声道名字编码的呈现信息；并且基于对象的流具有通过在更多的关联的元数据中编码的数学表达式编码的位置信息。原始的独立的音频流被封装作为包含所有音频数据的单个串行的比特流。这个配置允许根据非自我中心的(allocentric)参考系呈现声音，在其中声音的呈现位置基于回放环境的特性(例如，房间尺寸、形状等)以便对应于混合者的意图。对象位置元数据包含为使用房间中的可用的扬声器位置正确地播放声音所需的适当的非自我中心的参考系信息，该房间被设立来播放自适应音频内容。这使得能够针对特别的回放环境最佳地混合声音，特别的回放环境可以与声音工程师体验的混合环境不同。
[0013]自适应音频系统通过诸如改善的房间均衡化和环绕低音管理之类的这种好处改善在不同房间中的音频质量，使得扬声器(无论在屏幕上还是屏幕外)可以由混合者在没有必须考虑音色匹配的情况下自由地解决。自适应音频系统增加了动态音频对象的灵活性和功率到传统的基于声道的工作流程中。这些音频对象允许创作者与任何特定的回放扬声器配置(包括头上的扬声器)无关地控制离散声音元素。该系统还为后制作处理引入新的效率，允许声音工程师有效地捕获所有他们的意图并且随后在实时监视中，或者自动产生环绕声音7.1和5.1版本。
[0014]自适应音频系统通过在数字电影处理器内将音频本体(essence)和艺术意图包封在单个轨道文件中来简化分发，其可以在宽范围的剧场配置中被忠实地回放。当混合和呈现利用相同的声道配置和单个清单(inventory)(其向下适应到呈现配置(即，下混合))时，该系统提供艺术意图的最佳再现。
[0015]通过涉及电影声音平台的实施例提供这些和其它优点，解决当前的系统限制并且传递超出目前可用的系统的音频体验。
【专利附图】

【附图说明】[0016]在下面附图中相似的附图标记被用来指的是相似的元件。虽然以下附图描绘各种示例，但是一个或更多个实现方式不限于在图中描绘的示例。
[0017]图1是按照一个实施例的利用自适应音频系统的音频创建和回放环境的最高一级的概述。
[0018]图2示出按照一个实施例的声道和基于对象的数据的组合以便产生自适应音频混合。
[0019]图3是按照一个实施例的示出创建、封装和呈现自适应音频内容的工作流程的框图。
[0020]图4是按照一个实施例的自适应音频系统的呈现阶段的框图。
[0021]图5是按照一个实施例的列出对于自适应音频系统的元数据类型和关联的元数据元素的表格。
[0022]图6是示出按照一个实施例的对于自适应音频系统的后制作和主控的图。
[0023]图7是按照一个实施例的对于使用自适应音频文件的数字电影封装处理的示例工作流程的图。
[0024]图8是在典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例布局的俯视图。
[0025]图9是供典型的观众席之用的屏幕处的建议的扬声器位置的示例布置的正视图。
[0026]图10是在典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例布局的侧视图。
[0027]图11是按照一个实施例的顶部环绕扬声器和侧面环绕扬声器相对于参考点的放置的示例。
【具体实施方式】
[0028]针对于支持多个呈现技术的自适应音频系统和关联的音频信号和数据格式，来描述系统和方法。在此描述的一个或更多个实施例的方面可以被实现在音频或者视听系统中，该系统在混合、呈现和回放系统中处理源音频信息，该混合、呈现和回放系统包括执行软件指令的处理装置或者一个或更多个计算机。所描述的实施例中的任意一个可以被单独使用或者以任意组合方式彼此一起使用。虽然各种实施例可以已经被现有技术的各种不足促动，其可能在说明书中的一个或更多个位置中被讨论或者暗指，但是实施例未必解决这些不足中的任意一个。换句话说，不同实施例可以解决可能在说明书中讨论的不同不足。一些实施例可以仅仅部分地解决可能在说明书中讨论的一些不足或者仅仅一个不足，并且一些实施例可以不解决这些不足中的任意一个。
[0029]对于本说明书，以下术语具有关联的意义:
[0030]声道或者音频声道:单声道的音频信号或者音频流加上元数据，在元数据中位置被编码为声道ID，例如“Left Front”或者“Right Top Surround”。声道对象可以驱动多个扬声器，例如，“Left Surround”声道(Ls)将供给Ls阵列中的所有扬声器。
[0031]声道配置:具有关联的标称位置的扬声器区域的预定义的组，例如5.1,7.1等等；5.1指的是六声道环绕声音频系统，具有前面的左和右声道、中心声道、两个环绕声道以及亚低音扬声器声道；7.1指的是八声道环绕系统，其向5.1系统添加两个额外的环绕声道。5.1和7.1配置的示例包括杜比⑩环绕系统。
[0032]扬声器:呈现音频信号的音频换能器或者一组换能器。
[0033]扬声器区域:可以被唯一地提及并且接收单个音频信号的一个或更多个扬声器的阵列，例如如在电影中典型地发现的“Left Surround”，并且特别地用于排除或包括对象呈现。
[0034]扬声器声道或者扬声器供给声道:与定义的扬声器配置内的扬声器区域或者命名的扬声器关联的音频声道。扬声器声道被使用关联的扬声器区域来标称呈现。
[0035]扬声器声道组:与声道配置(例如立体声轨道、单轨道等)对应的一组一个或更多个扬声器声道。
[0036]对象或者对象声道:具有参数源描述(诸如表观源位置(例如3D坐标)、表观源宽度等)的一个或更多个音频声道。音频流加上元数据，在元数据中位置被编码为在空间中的3D位置。
[0037]音频节目:整组的扬声器声道和/或对象声道以及关联的元数据，该元数据描述期望的空间音频表现。
[0038]非自我中心的参考:空间参考，在其中音频对象相对于呈现环境内的特征(诸如房间壁和拐角)、标准扬声器位置、以及屏幕位置(例如，房间的左前方拐角)被定义。
[0039]自我中心的(egocentric)参考:空间参考，在其中音频对象相对于(观众)收听者的视角被定义并且经常被指定为相对于收听者的角度(例如，收听者向右30度)。
[0040]帧:帧较短，总的音频节目被划分成的独立地可解码的片段。音频帧率和边界典型地与视频帧对齐。
[0041]自适应音频:基于声道的音频信号和/或基于对象的音频信号加上元数据，该元数据基于回放环境来呈现音频信号。
[0042]在本申请中描述的电影声音格式和处理系统(还被称为“自适应音频系统”)利用新的空间音频描述和呈现技术来允许增强观众沉浸感、更艺术地进行控制、系统灵活和可缩放、以及易于安装与维护。电影音频平台的实施例包括若干分立组件，包括混合工具、打包机(packer) /编码器、拆包/解码器、剧院内最终混合和呈现组件、新的扬声器设计以及连网的放大器。该系统包括对于要由内容创建者和展出者使用的新的声道配置的推荐。该系统利用基于模型的描述，其支持诸如以下的若干特征:具有向下和向上适应(adaption)到呈现配置的单个清单，即，延迟呈现和启用可用扬声器的最佳使用；改善的声音包封，包括优化的下混来避免声道间相关；通过引导通过(steer-thru)阵列(例如，动态地分配给环绕阵列内的一个或更多个扬声器的音频对象)的增大的空间分辨率；以及对于可替代的呈现方法的支持。
[0043]图1是按照一个实施例的利用自适应音频系统的音频创建和回放环境的最高一级的概述。如图1所示，综合的、端到端环境100包括在众多数量的端点装置和使用情况之上的内容创建、封装、分发和回放/呈现组件。整个系统100开始于来自及用于许多不同使用情况捕获的内容，该使用情况包括不同的用户体验112。内容捕获元件102包括例如电影、TV、实况广播、用户产生的内容、记录的内容、游戏、音乐等，并且可以包括音频/视觉或者纯音频内容。当内容通过系统100从捕获阶段102进展到最后用户体验112时，该内容通过离散系统组件穿过若干关键处理步骤。这些处理步骤包括音频104的预处理，创作工具和处理106，通过捕获例如音频数据、额外的元数据和再现信息以及对象声道的音频编解码器108编码。各种处理效果(诸如压缩(有损的或者无损的)、加密等)可以被应用于对象声道以用于通过各种介质有效和安全地分发。适当的端点特定的解码和呈现处理110然后被应用以便再现和传送特别的自适应音频用户体验112。音频体验112代表音频或者音频/视觉内容通过适当的扬声器和回放装置的回放，并且可以代表在其中收听者正在体验捕获的内容的回放的任意环境，诸如电影院、音乐厅、露天剧场、家庭或者房间、收听棚(listeningbooth)、车、游戏控制台、头戴耳机或者耳机系统、扩音(PA)系统、或者任意其它回放环境。
[0044]系统100的实施例包括音频编解码器108，其能够有效分发和存储多声道的音频节目，并且因此可以被称为’混合’编解码器。编解码器108将传统的基于声道的音频数据与关联的元数据结合来产生便于音频的创建和递送的音频对象，该音频被改编和优化以用于在或许与混合环境不同的环境中呈现和回放。这允许声音工程师对关于基于收听者的实际收听环境最终音频应该如何被收听者听到的他或她的意图进行编码。
[0045]传统的基于声道的音频编解码器在音频节目将由相对于收听者预定的位置中的扬声器的阵列再现的假设之下操作。为了创建完整的多声道的音频节目，声音工程师典型地混合大量的分离的音频流(例如，对话、音乐、效果)来创建整体期望的印象。通过收听由预定位置中的扬声器阵列(例如，特定的剧场中的特别的5.1或者7.1系统)再现的音频节目，典型地做出音频混合决定。最终混合的信号用作到音频编解码器的输入。对于再现，只有当扬声器被放置在预定位置中时空间上准确的声场才被实现。
[0046]新形式的音频编码(称为音频对象编码)以分离的音频流的形式提供不同的声源(音频对象)作为到编码器的输入。音频对象的示例包括对话轨道、单个乐器、单独的声音效果、和其它点源。每个音频对象与空间参数关联，该空间参数可以包括但不限于，声音位置、声音宽度和速度信息。音频对象和关联的参数然后被编码以用于分发和存储。最终音频对象混合和呈现在音频分发链的接收端处被执行，作为音频节目回放的部分。这个步骤可以基于对实际扬声器位置的认识，使得结果是对于用户特定的收听条件可定制的音频分发系统。两种编码形式(基于声道的和基于对象的)针对不同的输入信号条件最佳地执行。基于声道的音频编码器对于对包含不同的音频源的密集的混合的输入信号编码以及对于散射声通常更有效。相反地，对于对少量的高度定向性声源编码，音频对象编码器更有效。
[0047]在一个实施例中，系统100的组件和方法包括音频编码、分发和解码系统，其被配置为产生包含传统的基于声道的音频元素和音频对象编码元素两者的一个或更多个比特流。与分别采取的基于声道的方法或者基于对象的方法相比，这种结合的方法提供更大的编码效率和呈现灵活性。
[0048]描述的实施例的其它方面包括以向后可兼容的方式扩展预定义的基于声道的音频编解码器以便包括音频对象编码元素。包含音频对象编码元素的新的’扩展层’被定义和添加到基于声道的音频编解码器比特流的’基本(base)’或者’向后可兼容的’层。这个方法启用一个或更多个比特流，其包括要由遗留(legacy)解码器处理的扩展层，而同时利用新的解码器为用户提供增强的收听者体验。增强的用户体验的一个示例包括音频对象呈现的控制。这个方法的额外的优点是音频对象可以在不解码/混合/重新编码用基于声道的音频编解码器编码的多声道的音频的情况下在沿着分发链的任何地方被添加或者修改。[0049]关于参考系，音频信号的空间效果在为收听者提供沉浸体验方面是关键的。打算从观看屏幕或者房间的特定区域发出的声音应该通过位于相同相对位置处的扬声器(多个扬声器)播放。因此，在基于模式的描述中的声音事件的主要的音频元数据是位置，但是也可以描述其它参数，诸如尺寸、取向、速度和声散。为了传送位置，基于模式的、3D、音频空间描述要求3D坐标系统。用于发送的坐标系(欧几里得(Euclidean)、球面等)通常为了方便或者简洁起见被选择，然而，其它坐标系可以被用于呈现处理。除了坐标系之外，还要求参考系来代表对象在空间中的位置。对于用于在各种不同的环境中准确地再现基于位置的声音的系统，选择正确的参考系可以是关键因素。利用非自我中心的参考系，音频源位置相对于呈现环境内的特征(诸如房间壁和角落、标准扬声器位置和屏幕位置)被定义。在自我中心的参考系中，相对于收听者的视角来表示位置，诸如“在我前方，稍微向左”等等。空间感知(音频及其他)的科学研究已经示出了几乎到处使用自我中心的视角。然而对于电影院，出于若干原因非自我中心通常是更适合的。例如，当在屏幕上存在关联对象时音频对象的精确的位置是最重要的。使用非自我中心的参考，对于每个收听位置，并且对于任意屏幕尺寸，声音将定位在屏幕上的相同的相对位置处，例如，屏幕的中间向左三分之一处。另一个原因是混合者倾向于以非自我中心方面来思考并且混合，并且以非自我中心的框架(房间壁)来布局摇移工具，并且混合者期望它们那样被呈现，例如，这个声音应该在屏幕上，这个声音应该在屏幕外，或者来自左壁等。
[0050]尽管在电影院环境中使用非自我中心的参考系，但是存在其中自我中心的参考系可以有用且更合适的一些情况。这些包括非剧情声音，即，不存在于“故事空间”中的那些声音，例如，气氛音乐，对于其自我中心地均匀的表现可以是期望的。另一种情况是要求自我中心的表示的近场效果(例如，在收听者的左耳中的嗡嗡的蚊子)。目前不存在在不使用头戴耳机(headphones)或者非常近场的扬声器的情况下呈现这种声场的手段。另外，无限远的声源(和结果得到的平面波)看起来来自恒定的自我中心的位置(例如，向左转30度)，并且与按照非自我中心相比，这种声音更易于按照自我中心来描述。
[0051]在一些情况中，只要标称收听位置被定义就可以使用非自我中心的参考系，但是一些示例要求还不可以呈现的自我中心的表示。虽然非自我中心的参考可以是更有用的和合适的，但是音频表示应该是可扩展的，因为许多新的特征(包括自我中心的表示)在特定应用和收听环境中可以是更期望的。自适应音频系统的实施例包括混合空间描述方法，其包括用于最佳的保真度和用于使用自我中心的参考呈现扩散或者复杂的、多点源(例如，体育场人群、环境)的推荐声道配置，加上非自我中心的、基于模式的声音描述以便有效地使得能够有增大的空间分辨率和可缩放性。
[0052]系统组件
[0053]参考图1，原始声音内容数据102首先在预处理块104中被处理。系统100的预处理块104包括对象声道滤波组件。在很多情况下，音频对象包含用于启用声音的独立的摇移的单独的声源。在一些情况下，诸如当使用自然的或者“制作”声音创建音频节目时，从包含多个声源的记录中提取单独的声音对象可以是必需的。实施例包括用于将独立源信号与更复杂信号隔离开的方法。要与独立源信号分离的不期望的元素可以包括但不限于，其它独立的声源和背景噪声。另外，混响可以被去除以便恢复〃干(dry) 〃声源。
[0054]预处理器104还包括源分离和内容类型检测功能。系统通过输入音频的分析提供元数据的自动产生。通过分析声道对之间的相关输入的相对水平从多声道记录导出位置元数据。可以例如通过特征提取和分类来实现内容类型(诸如“讲话”或者“音乐”)的检测。
[0055]创作工具
[0056]创作工具块106包括用于通过优化声音工程师的创作意图的输入和编纂(codification)来改善音频节目的创作以允许他一次创建针对实际上任意回放环境中的回放被优化的最终音频混合的特征。这通过使用与原始的音频内容关联且编码的位置数据和音频对象而被实现。为了将声音准确地放置在观众席周围，声音工程师需要控制声音将如何基于实际约束和回放环境的特征最终被呈现。自适应音频系统通过允许声音工程师通过使用音频对象和位置数据改变如何设计和混合音频内容来提供这个控制。
[0057]音频对象可以被认为是多组声音元素，其可以被感知为从观众席中的特别的物理位置或者多个位置发出。这种对象可以是静态的，或者它们可以移动。在自适应音频系统100中，音频对象由元数据控制，该元数据详述给定时间点处的声音的位置等等。当对象在剧场中被监视或者回放时，它们根据位置元数据通过使用存在的扬声器被呈现，而不是必须被输出到物理声道。会话中的轨道可以是音频对象，并且标准的摇移数据类似于位置元数据。以这种方式，位于屏幕上的内容可能以与基于声道的内容相同的方式有效地摇移，但是位于环绕中的内容可以在需要时被呈现到单独的扬声器。虽然音频对象的使用为离散效果提供期望的控制，但是电影音轨的其它方面在基于声道的环境中的确有效地工作。例如，许多环境效果或者混响实际上受益于被供给到扬声器阵列。虽然这些可以被处理为具有足够宽度以填充阵列的对象，但是保留一些基于声道的功能是有益的。
[0058]在一个实施例中，自适应音频系统除了音频对象之外还支持“基础(bed)”，其中基础是有效地基于声道的子混合或者主干(stem)。这些可以独立地或者结合成单个基础地被传递以用于最终回放(呈现)，取决于内容创作者的意图。这些基础可以被创建在不同的基于声道的配置(诸如5.1,7.1)中，并且可扩展到更广泛的格式，诸如9.1，以及包括头上的扬声器的阵列。
[0059]图2示出按照一个实施例的声道和基于对象的数据的组合以便产生自适应音频混合。如处理200所示，基于声道的数据202 (其例如可以是以脉冲编码调制的(PCM)数据形式提供的5.1或者7.1环绕声数据)与音频对象数据204结合以便产生自适应音频混合208。音频对象数据204通过将原始的基于声道的数据的元素与指定关于音频对象的位置的特定参数的关联元数据结合来被产生。
[0060]如图2中概念上所示出的，创作工具提供创建音频节目的能力，该音频节目同时包含对象声道和扬声器声道组的组合。例如，音频节目可以包含可选地组织成组的一个或更多个扬声器声道(或者轨道，例如立体声或者5.1轨道)、用于一个或更多个扬声器声道的描述元数据、一个或更多个对象声道、以及用于一个或更多个对象声道的描述元数据。在一个音频节目内，每个扬声器声道组以及每个对象声道可以通过使用一个或更多个不同的采样率被表示。例如，数字电影(D电影)应用支持48kHz和96kHz采样率，但是还可以支持其它采样率。此外，还可以支持具有不同的采样率的声道的摄取(ingest)、存储和编辑。
[0061]音频节目的创建要求声音设计的步骤，其包括结合声音元素作为水平调整的构成声音元素的和以便创建新的期望的声音效果。自适应音频系统的创作工具使得能够使用空间-视觉的声音设计图形用户界面创建声音效果作为具有相对位置的声音对象的集合。例如，声音产生对象(例如，汽车)的视觉表示可以被用作用于组装音频元素(排气音调(exhaust note)、轮胎哼鸣(hum)、发动机噪声)作为包含声音和合适的空间位置(在尾管、轮胎、机罩(hood)处)的对象声道的模板。然后单独的对象声道可以作为整体被链接和操纵。创作工具106包括若干用户接口元素以便允许声音工程师输入控制信息和观看混合参数，并且改善系统功能。声音设计和创作处理通过允许对象声道和扬声器声道作为整体被链接和操纵而也被改善。一个示例是将具有离散、干声源的对象声道与包含关联的混响信号的一组扬声器声道结合。
[0062]音频创作工具106支持结合多个音频声道(通常被称为混合)的能力。多个混合方法被支持并且可以包括传统的基于水平的混合和基于响度的混合。在基于水平的混合中，宽带缩放(scaling)被应用于音频声道，并且缩放后的音频声道然后被一起求和。用于每个声道的宽带缩放因子被选择以便控制结果得到的混合的信号的绝对水平，以及混合的信号内的混合的声道的相对水平。在基于响度的混合中，一个或更多个输入信号通过使用依赖频率的振幅缩放被修改，其中依赖频率的振幅被选择以便提供期望的感知的绝对和相对响度，而同时保持输入声音的感知的音色。
[0063]创作工具允许创建扬声器声道和扬声器声道组的能力。这允许元数据与每个扬声器声道组关联。每个扬声器声道组可以根据内容类型被加标签。内容类型可经由文本描述扩展。内容类型可以包括但不限于，对话、音乐和效果。每个扬声器声道组可以被分配关于如何从一个声道配置上混Upmix)到另一个的唯一的指令，其中上混被定义为从N个声道创建M个音频声道，其中M>N。上混指令可以包括但不限于以下:用于指示是否容许上混的启用/禁用标志；用于控制每个输入和输出声道之间的映射的上混矩阵；并且默认启用和矩阵设定可以基于内容类型被分配，例如，仅仅对于音乐启用上混。每个扬声器声道组也可以被分配关于如何从一个声道配置下混(downmix)到另一个的唯一的指令,其中下混被定义为从X个声道创建Y个音频声道，其中Y〈X。下混指令可以包括但不限于以下:用于控制每个输入和输出声道之间的映射的矩阵；并且默认矩阵设定可以基于内容类型被分配，例如，对话应该下混到屏幕上；效果应该下混离开屏幕。每个扬声器声道也可以与用于在呈现期间禁用低音管理的元数据标志关联。
[0064]实施例包括使得能够创建对象声道和对象声道组的特征。本发明允许元数据与每个对象声道组关联。每个对象声道组可以根据内容类型被加标签。内容类型是可扩展的经由文本描述，其中内容类型可以包括但不限于对话、音乐和效果。每个对象声道组可以被分配用于描述应该如何呈现一个或多个对象的元数据。
[0065]位置信息被提供以便指示期望的表观源位置。位置可以通过使用自我中心的或非自我中心的参考系被指示。在源位置要涉及收听者时自我中心的参考是合适的。对于自我中心的位置，球面坐标对于位置描述是有用的。非自我中心的参考对于其中相对于表现环境中的对象(诸如视觉显示屏幕或房间边界)提及源位置的电影或其它音频/视觉表现是典型的参考系。三维(3D)轨迹信息被提供以便使得能够进行位置的内插或用于使用其它呈现决定，诸如使得能够进行“快移(snap)到模式”。尺寸信息被提供以便指示期望的表观感知的音频源尺寸。
[0066]空间量子化通过“快移到最接近扬声器”控制被提供，该控制由声音工程师或混合者指示意图以便具有由正好一个扬声器呈现的对象(对空间精度有一些可能的牺牲)。对允许的空间失真的限制可以通过仰角(elevation)和方位角(azimuth)容限阈值被指示,使得如果超过阈值则不会出现“快移”功能。除了距离阈值之外，交叉衰落(crossfade)速率参数也可以被指示，以便在期望的位置在扬声器之间交叉时控制移动对象将如何快速地从一个扬声器转变或跳变到另一个。
[0067]在一个实施例中，依赖的空间元数据被用于特定位置元数据。例如，元数据可以通过将其与从属对象要跟随的“主控”对象关联来对于“从属”对象被自动产生。时滞或相对速度可以被分配给从属对象。机构也可以被提供以便允许对于多组或多群对象的重力的声中心的定义，使得对象可以被呈现使得它被感知为围绕另一个对象移动。在这种情况下，一个或更多个对象可以围绕对象或定义的区域(诸如主导点或房间的干区域)旋转。即使最终的位置信息将被表示为相对于房间的位置，与相对于另一个对象的位置相反，重力的声中心然后也将被用在呈现阶段中以便帮助确定对于每个合适的基于对象的声音的位置信息。
[0068]在呈现对象时，它根据位置元数据以及回放扬声器的位置被分配给一个或更多个扬声器。额外的元数据可以与对象关联以便限制应该使用的扬声器。限制的使用可以禁止使用指示的扬声器或仅仅禁止指示的扬声器(相比于否则会被应用的情况，允许更少能量到扬声器或多个扬声器中)。要被约束的扬声器组可以包括但不限于，命名的扬声器或扬声器区域中的任意一个(例如L、C、R等)，或扬声器区域，诸如:前壁、后壁、左壁、右壁、天花板、地板、房间内的扬声器等等。同样地，在指定多个声音元素的期望的混合的过程中，可以使得一个或更多个声音元素变得听不见或“被掩蔽”，由于存在其它“掩蔽”声音元素。例如，当检测到被掩蔽的元素时，它们可以经由图形显示器被识别给用户。
[0069]如其它地方描述的，音频节目描述可以适应于在各式各样的扬声器设施和声道配置上呈现。当音频节目被创作时，重要的是监视在预期的回放配置上呈现节目的效果以检验实现期望的结果。本发明包括选择目标回放配置和监视结果的能力。另外，系统可以自动监视将在每个预期的回放配置中被产生的最坏情况(即最高)信号水平，并且在将出现裁剪(clipping)或限制的情况下提供指示。
[0070]图3是按照一个实施例的示出创建、封装和呈现自适应音频内容的工作流程的框图。图3的工作流程300被分成标记为创建/创作、封装和展出的三个不同的任务组。通常，图2中示出的基础和对象的混合模型允许大多数的声音设计、编辑、预混合和最终混合以与当今相同的方式被执行并且不向当前处理添加过多的开销。在一个实施例中，自适应音频功能以与声音制作和处理设备结合使用的软件、固件或电路形式被提供，其中这种设备可以是新型硬件系统或对现有的系统的更新。例如，插电式应用可以为数字音频工作站提供以允许声音设计和编辑内的现有的摇移技术保持不变。以这种方式，可以在5.1或类似的环绕装备的编辑室中的工作站内铺设基础和对象两者。对象音频和元数据被记录在会话中以准备在配音(dubbing)剧场中的预混合和最终混合阶段。
[0071]如图3所示，创建或创作任务包括通过用户(例如，在下面示例中，声音工程师)输入混合控制302到混合控制台或音频工作站304。在一个实施例中，元数据被集成到混合控制台表面中，允许声道条(strips)的音量控制器(faders)、摇移和音频处理对基础或主干和音频对象两者起作用。可以使用控制台表面或者工作站用户界面编辑元数据，并且通过使用呈现和主控单元(RMU) 306监视声音。基础和对象音频数据以及关联的元数据在主控会话期间被记录以便创建‘打印主控器’，其包括自适应音频混合310和任何其它呈现的可交付物(deliverables)(诸如环绕7.1或5.1剧场的混合)308。现有的创作工具(例如数字音频工作站，诸如Pro工具)可以被用来允许声音工程师标记混合会话内的单独的音频轨道。实施例通过允许用户标记轨道内的单独的子片段以帮助发现或快速识别音频元素，来扩展这个概念。到使得能够定义和创建元数据的混合控制台的用户界面可以通过图形用户界面元素、物理控制(例如，滑动器和旋钮)或其任何组合被实现。
[0072]在封装阶段中，打印主控文件通过使用工业标准的MXF包装(wrap)过程被包装、混编(hash)和可选地加密，以便确保用于递送到数字电影封装设施的音频内容的完整性。这个步骤可以通过数字电影处理器(DCP) 312或任何合适的音频处理器取决于最终的回放环境(诸如标准的环绕声音装备的剧场318、自适应音频启用剧场320或任何其它回放环境)被执行。如图3所不,处理器312根据展出环境输出合适的音频信号314和316。
[0073]在一个实施例中，自适应音频打印主控器包含自适应音频混合，以及遵从标准的DCI的脉冲编码调制(PCM)混合。PCM混合可以通过配音剧场中的呈现和主控单元被呈现，或通过分离的混合途径在需要时被创建。PCM音频在数字电影处理器312内形成标准的主音频轨道文件，并且自适应音频形成额外的轨道文件。这种轨道文件可以遵从现有工业标准，并且被不能使用它的遵从DCI的服务器忽略。
[0074]在示例电影回放环境中，包含自适应音频轨道文件的DCP被服务器识别为有效的封装体，并且被摄取到服务器中并且随后被流到自适应音频电影处理器。系统具有线性的PCM和自适应音频文件两者可用，该系统可以根据需要在它们之间切换。对于分发到展出阶段，自适应音频封装方案允许单个类型封装体的递送被递送给电影院。DCP封装体包含PCM和自适应音频文件两者。安全密钥(诸如密钥递送消息(KDM))的使用可以被并入以便使得能够安全递送电影内容或其它类似的内容。
[0075]如图3所示，自适应音频方法通过使得声音工程师能够通过音频工作站304表达关于音频内容的呈现和回放的他或她的意图而被实现。通过控制特定输入控制，工程师能够根据收听环境指定在哪里和如何回放音频对象和声音元素。响应于工程师的混合输入302在音频工作站304中产生元数据以便提供呈现队列，其控制空间参数(例如，位置、速度、强度、音色等)并且指定收听环境中的哪个扬声器(哪些扬声器)或扬声器组在展出期间播放相应的声音。元数据与工作站304或RMU306中的相应的音频数据关联以用于通过DCP312封装和传输。
[0076]通过工程师提供工作站304的控制的软件工具和图形用户界面至少包括图1的创作工具106的部分。
[0077]混合音频编解码器
[0078]如图1所示，系统100包括混合音频编解码器108。这个组件包含音频编码、分发和解码系统，其被配置为产生包含传统的基于声道的音频元素和音频对象编码元素两者的单个比特流。混合音频编码系统围绕基于声道的编码系统被构建，基于声道的编码系统被配置为产生单个(统一)比特流，其同时可与第一解码器和一个或更多个二次解码器兼容(即，可由第一解码器和一个或更多个二次解码器解码)，第一解码器被配置为解码根据第一编码协议编码的(基于声道的)音频数据，二次解码器被配置为解码根据一个或更多个二次编码协议编码的(基于对象的)音频数据。比特流可以包括可由第一解码器解码(并且被任何二次解码器忽略)的编码后的数据(以数据子帧(burst)形式)和可由一个或更多个二次解码器解码(并且被第一解码器忽略)的编码后的数据(例如，数据的其它子帧)两者。来自二次解码器中的一个或更多个和第一解码器的解码后的音频和关联的信息(元数据)然后可以以使得基于声道的和基于对象的信息两者被同时呈现的方式被结合以便再造环境的复制(facsimile)、声道、空间信息、和呈现到混合编码系统的对象(即在三维空间或收听环境内)。
[0079]编解码器108产生包含与多组声道位置(扬声器)有关的信息和编码的音频信息的比特流。在一个实施例中，一组声道位置是固定的并且用于基于声道的编码协议，而另一组声道位置是自适应的并且用于基于音频对象的编码协议，使得用于音频对象的声道配置可以随时间而改变(取决于在声场中将对象放置在哪里)。因此，混合音频编码系统可以携带关于用于回放的两组扬声器位置的信息，其中一组可以是固定的并且是另一个组的子集。支持遗留编码的音频信息的装置将解码和呈现来自固定的子集的音频信息，而能够支持更大组的装置可以解码和呈现额外的编码的音频信息，其将是时间变化地分配给来自更大组的不同的扬声器。此外，系统不依赖于在系统和/或装置内同时存在的二次解码器中的一个或更多个以及第一解码器。因此，仅仅包含支持第一协议的解码器的遗留和/或现有的装置/系统将产生完全兼容的要经由传统的基于声道的再现系统呈现的声场。在该情况下，混合比特流协议的未知的或不被支持的部分(或多个部分)(即，由二次编码协议表示的音频信息)将被支持第一混合编码协议的系统或装置解码器忽略。
[0080]在另一实施例中，编解码器108被配置为操作在如下的模式中，该模式中第一编码子系统(支持第一协议)包含在混合编码器内存在的二次编码器子系统中的一个或更多个以及第一编码器两者中表示的所有声场信息(声道和对象)的结合的表示。这确保混合比特流包括通过允许在仅仅支持第一协议的解码器内呈现和表示音频对象(典型地在一个或更多个二次编码器协议中携带)而与仅仅支持第一编码器子系统的协议的解码器的向后兼容性。
[0081]在又一个实施例中，编解码器108包括两个或更多个编码子系统，其中这些子系统中的每一个被配置为根据不同协议编码音频数据，并且被配置为结合子系统的输出以产生混合格式(统一的)比特流。
[0082]实施例的好处之一是在宽范围的内容分发系统之上运送混合编码的音频比特流的能力，其中分发系统中的每一个传统地仅仅支持根据第一编码协议编码的数据。这消除了对任何系统和/或传输级别协议进行修改/改变以便特定地支持混合编码系统的需要。
[0083]音频编码系统典型地利用标准化的比特流元素以便使得能够在比特流本身内传输额外的(任意的)数据。这个额外的(任意的)数据在包括在比特流内的编码的音频的解码期间典型地被跳过(即，忽略)，但是可以被用于除解码以外的目的。不同的音频编码标准通过使用唯一的命名法(nomenclature)表示这些额外的数据字段。这个一般类型的比特流元素可以包括但不限于，辅助数据、跳越字段、数据流元素、填充元素、补助的数据、以及子流(substream)元素。除非另有说明，否则这个文档中的表述“辅助数据”的使用并不暗示特定类型或格式的额外数据，而是应该被解释为包含与本发明关联的任何或所有示例的通用表述。
[0084]经由结合的混合编码系统比特流内的第一编码协议的“辅助的”比特流元素启用的数据通道可以携带一个或更多个二次(独立的或依赖的)音频比特流(根据一个或更多个二次编码协议被编码)。一个或更多个二次音频比特流可以被分割成N样本块并且多路复用到第一比特流的“辅助数据”字段中。第一比特流可由合适的(互补)解码器解码。另外，第一比特流的辅助数据可以被提取，被再结合到一个或更多个二次音频比特流中，由支持二次比特流中的一个或更多个的语法的处理器解码，并且随后被结合并且一起或独立地呈现。此外，还可以将第一和第二比特流的作用颠倒，使得第一比特流的数据的块被多路复用到第二比特流的辅助数据中。
[0085]与二次编码协议关联的比特流元素也携带和传送下层(underlying)音频的信息(元数据)特性，其可以包括但不限于，期望的声源位置、速度和尺寸。这个元数据在解码和呈现处理期间被利用以便重新创建对于可应用的比特流内携带的关联音频对象的正确的(即，初始的)位置。还可以在与第一编码协议关联的比特流元素内携带上述的元数据，其可应用到包含在混合流中存在的一个或更多个二次比特流中的音频对象。
[0086]与混合编码系统的第一和第二编码协议中的一个或两者关联的比特流元素携带/传送语境元数据，其识别空间参数(即，信号特性本身的本体)和描述具有在混合编码的音频比特流内携带的特定音频种类形式的下层音频本体类型的另外信息。这种元数据可以指示例如存在口头对话、音乐、在音乐之上的对话、掌声、歌声等，并且可以被用来自适应修改混合编码系统的上游或下游的互连的预处理或后处理模块的性质。
[0087]在一个实施例中，编解码器108被配置为利用共享的或公共的比特池(pool)来操作，在比特池中对于编码可用的比特在支持一个或更多个协议的编码子系统的部分或全部之间被“共享”。这种编解码器可以在编码子系统之间分发可用的比特(来自公共的“共享的”比特池)以便优化统一的比特流的整体音频质量。例如，在第一时间间隔期间，编解码器可以分配更多的可用比特给第一编码子系统，并且分配更少的可用比特给剩余子系统，而在第二时间间隔期间，编解码器可以分配更少的可用比特给第一编码子系统，并且分配更多的可用比特给剩余子系统。如何在编码子系统之间分配比特的决定可以依赖于例如共享的比特池的统计分析的结果和/或由每个子系统编码的音频内容的分析。编解码器可以以使得通过多路复用编码子系统的输出构造的统一的比特流在特定的时间间隔内维持恒定的帧长度/比特率的方式来分配来自共享的池的比特。在一些情况下还可以在特定的时间间隔内改变统一的比特流的帧长度/比特率。
[0088]在可替代的实施例中，编解码器108产生统一的比特流，其包括根据配置和发送作为编码后的数据流(支持第一编码协议的解码器将对其解码)的独立子流的第一编码协议编码的数据、以及根据发送作为编码后的数据流(支持第一协议的解码器将忽略其)的独立的或依赖的子流的第二协议编码的数据。更一般地说，在一类实施例中，编解码器产生统一的比特流，其包括两个或更多个独立的或依赖的子流(其中每个子流包括根据不同的或相同的编码协议编码的数据)。
[0089]在又一个可替代的实施例中，编解码器108产生统一的比特流，其包括根据利用唯一的比特流标识符配置和发送的第一编码协议编码的数据(支持与唯一的比特流标识符关联的第一编码协议的解码器将对其解码)、以及根据利用唯一的比特流标识符配置和发送的第二协议编码的数据(支持第一协议的解码器将忽略其)。更一般地说，在一类实施例中，编解码器产生统一的比特流，其包括两个或更多个子流(其中每个子流包括根据不同的或相同的编码协议编码的数据并且其中每个携带唯一的比特流标识符)。用于创建上述的统一的比特流的方法和系统提供清楚地(给解码器)发信号通知哪个交错(interleaving)和/或协议已经在混合比特流内被利用的能力(例如，发信号通知是否利用描述的AUX数据、SKIP、DSE或子流方法)。
[0090]混合编码系统被配置为支持在整个媒体递送系统期间发现的任何处理点处对支持一个或更多个二次协议的比特流的解交错/解多路复用和重新交错/重新多路复用到第一比特流(支持第一协议)中。混合编解码器还被配置为能够将具有不同采样率的音频输入流编码到一个比特流中。这提供用于有效地编码和分发包含具有固有地不同的带宽的信号的音频源的手段。例如，与音乐和效果轨道相比，对话轨道典型地具有固有地更低的带宽。
[0091]旱现
[0092]在实施例之下，自适应音频系统允许多个(例如，高达128个)轨道被封装，通常作为基础和对象的结合。对于自适应音频系统的音频数据的基本格式包括许多独立的单声道音频流。每个流具有与它关联的元数据，其指定流是基于声道的流还是基于对象的流。基于声道的流具有利用声道名字或标记编码的呈现信息；并且基于对象的流具有通过在另外关联的元数据中编码的数学表达式编码的位置信息。原始的独立的音频流然后被封装作为以有序的方式包含所有音频数据的单个串行的比特流。这个自适应数据配置允许根据非自我中心的参考系呈现声音，在其中声音的最终呈现位置基于回放环境以对应于混合者的意图。因此，声音可以被指定为来源于回放房间的参考系(例如，左壁的中间)，而不是特定的标记的扬声器或扬声器组(例如，左环绕)。对象位置元数据包含为在房间中使用可用扬声器位置正确地播放声音所需的适当的非自我中心的参考系信息，该房间被设立来播放自适应音频内容。
[0093]呈现器采取对音频轨道编码的比特流，并且根据信号类型处理内容。基础被供给阵列，其将可能要求与单独的对象不同的延迟和均衡化处理。处理支持将这些基础和对象呈现给多个(高达64个)扬声器输出。图4是按照一个实施例的自适应音频系统的呈现阶段的框图。如图4的系统400所示，许多输入信号(诸如高达128个音频轨道，其包括自适应音频信号402)被系统300的创建、创作和封装阶段的特定组件(诸如RMU306和处理器312)提供。这些信号包括被呈现器404利用的基于声道的基础和对象。基于声道的音频(基础)和对象被输入到水平管理器(level manager)406，其提供对不同的音频成分的振幅或输出水平的控制。特定音频成分可以由阵列校正组件408处理。自适应音频信号然后经过B链处理组件410，其产生多个(例如，高达64个)扬声器供给输出信号。通常，B链供给指的是由功率放大器、杂交(crossovers)和扬声器处理的信号，与构成电影胶片上的音轨的A链内容相反。
[0094]在一个实施例中，呈现器404运行呈现算法，其智能地尽全力使用剧场中的环绕扬声器。通过改善环绕扬声器的功率处理和频率响应，并且对于剧场中的每个输出声道或扬声器保持相同的监视参考水平，在屏幕和环绕扬声器之间摇移的对象可以维持他们的声压水平并且在重要地没有增大剧场中的整体声压水平的情况下具有更接近的音色匹配。适当地指定的环绕扬声器的阵列将典型地具有足够净空(headroom)以便再现在环绕7.1或
5.1音轨内可用的最大动态范围(即在参考水平之上20dB)，然而不太可能单个环绕扬声器将具有大的多路的屏幕扬声器的相同的净空。结果，将很可能存在位于环绕场中的对象将要求大于使用单个环绕扬声器可得到的声压的声压的情况。在这些情况下，呈现器将展开声音横过合适数量的扬声器以便实现要求的声压水平。自适应音频系统改善环绕扬声器的质量和功率处理以便提供呈现的真实性方面的改善。它通过使用允许每个环绕扬声器实现改善的功率处理的可选的后部亚低音扬声器并且同时可能地利用更小的扬声器箱(cabinets)，来提供对于环绕扬声器的低音管理的支持。它还允许增加比现行实践更接近于屏幕的侧面环绕扬声器以便确保对象可以平滑地从屏幕转变到环绕。
[0095]通过与特定呈现处理一起使用指定音频对象的位置信息的元数据，系统400为内容创建者提供综合的、灵活的方法以用于移动超出现有的系统的约束。如先前所述当前的系统创建并且分发音频，其利用对音频本体(回放的音频的部分)中传送的内容类型的有限认识被固定到特别的扬声器位置。自适应音频系统100提供新的混合方法，其包括对于扬声器位置特定的音频(左声道、右声道等)和面向对象的音频元素两者的选项，面向对象的音频元素已经概括了可以包括但不限于位置、尺寸和速度的空间信息。这个混合方法提供对于呈现中的保真度(通过固定的扬声器位置提供)和灵活性(概括的音频对象)平衡的办法。系统还通过内容创建者在内容创建时提供与音频本体配套的关于音频内容的额外的有用信息。这个信息提供可在呈现期间以非常有力的方式使用的关于音频的属性的有力的详细信息。这种属性可以包括但不限于，内容类型(对话、音乐、效果、福雷录音、背景/环境等)、空间属性(3D位置、3D尺寸、速度)、以及呈现信息(快移到扬声器位置、声道权重、增益、低音管理信息等)。
[0096]在本申请中描述的自适应音频系统提供可以被广泛变化的数量的端点用于呈现的有力的信息。在很多情况下应用的最佳的呈现技术在很大程度上取决于端点装置。例如，家庭影院系统和声吧可以具有2、3、5、7或甚至9个分离的扬声器。许多其它类型的系统(诸如电视机、计算机和音乐坞)仅仅具有两个扬声器，并且几乎所有的通常使用的装置具有两耳的头戴耳机输出(PC、膝上型计算机、平板、蜂窝电话、音乐播放器等)。然而，对于当今分发的传统的音频(单声道、立体声、5.1,7.1声道)，端点装置经常需要作出简单化的决定并且折衷以便呈现和再现现在以声道/扬声器特定的形式分发的音频。另外有一点或没有传送的关于正在分发的实际内容的信息(对话、音乐、环境等)并且有一点或没有关于内容创建者的对于音频再现的意图的信息。然而，自适应音频系统100提供这个信息并且可能地访问音频对象，其可以被用来创建强制性的(compelling)下一代用户体验。
[0097]系统100允许内容创建者使用元数据(诸如位置、尺寸、速度等等)通过唯一的并且强大的元数据和自适应音频传输格式在比特流内嵌入混合的空间意图。这允许在音频的空间再现方面有大量灵活性。从空间呈现观点看，自适应音频使得能够使混合适应于特别的房间中的扬声器的精确位置以免当回放系统的几何形状与创作系统不相同时出现的空间失真。在其中仅仅发送对于扬声器声道的音频的当前音频再现系统中，内容创建者的意图是未知的。系统100使用在整个创建和分发流水线期间传送的元数据。意识到自适应音频的再现系统可以使用这个元数据信息来以匹配内容创建者的初始意图的方式再现内容。同样地，混合可以适应于再现系统的精确的硬件配置。目前，在呈现设备(诸如电视机、家庭影院、声吧(soundbars)、便携式音乐播放器玛(docks)等)中存在许多不同的可能的扬声器配置和类型。当这些系统被发送有现今的声道特定的音频信息(即左和右声道音频或多声道的音频)时，系统必须处理音频来适当地匹配呈现设备的能力。一个示例是标准的立体声音频被发送给具有多于两个扬声器的声吧。在其中仅仅发送对于扬声器声道的音频的当前音频再现中，内容创建者的意图是未知的。通过使用在整个创建和分发流水线期间传送的元数据，意识到自适应音频的再现系统可以使用这个信息来以匹配内容创建者的初始意图的方式再现内容。例如，某些声吧具有侧面激发(firing)扬声器来创建包围的感觉。利用自适应音频，空间信息和内容类型(诸如环境效果)可以由声吧使用来只发送合适的音频到这些侧面激发扬声器。
[0098]自适应音频系统允许在系统中在前/后、左/右、上/下、近/远的全部尺度上无限内插扬声器。在当前的音频再现系统中，不存在关于如何处理其中可以期望定位音频使得它被收听者感知为在两个扬声器之间的音频的信息。目前，在仅仅分配给特定的扬声器的音频的情况下，空间量子化因素被引入。利用自适应音频，音频的空间定位可以被准确地知道并且相应地在音频再现系统上再现。
[0099]对于头戴耳机呈现，创建者的意图通过匹配头相关传递函数(Head RelatedTransfer Functions, HRTF)到空间位置来被实现。当在头戴耳机之上再现音频时，空间虚拟化可以通过应用处理音频的头相关传递函数、添加创建在三维空间中而不在头戴耳机之上播放的音频的感知的感知提示(cues)来实现。空间再现的精度取决于合适的HRTF的选择，HRTF可以基于包括空间位置在内的若干因素而改变。使用由自适应音频系统提供的空间信息可以使得选择一个或持续改变数量的HRTF以便极大地改善再现体验。
[0100]自适应音频系统传送的空间信息可以不仅由内容创建者使用来创建强制性的娱乐体验(电影、电视、音乐等)，而且空间信息也可以指示收听者相对于物理对象(诸如建筑物或地理的感兴趣点)的位置。这将允许用户和与真实世界有关的虚拟化的音频体验相互作用即，增大真实性。
[0101]实施例还使得能够通过利用只有当对象音频数据不可用时才读取元数据来执行增强的上混来进行空间上混。知道所有对象的位置和他们的类型允许上混器更好区别基于声道的轨道内的元素。现有的上混算法必须推断诸如音频内容类型(讲话、音乐、环境效果)之类的信息以及音频流内的不同元素的位置以便创建具有最小或没有可听到的伪迹的高质量上混。常常推断的信息可能是不正确的或不适当的。在自适应音频的情况下，可从与例如音频内容类型、空间位置、速度、音频对象尺寸等有关的元数据中获得的附加信息可以由上混算法使用来创建高质量再现结果。该系统还通过准确地定位屏幕的音频对象到视觉元素来空间地将音频匹配到视频。在该情况下，如果某些音频元素的再现的空间位置匹配屏幕上的图象元素，则强制性的音频/视频再现体验是可能的，特别地在更大屏幕尺寸的情况下。一个示例是在电影或电视节目中具有对话与正在屏幕上说话的人或角色在空间上一致。通常的基于扬声器声道的音频的情况下，不存在容易的方法来确定对话应该被空间地定位在哪里以便匹配屏幕上的角色或人的位置。利用自适应音频可用的音频信息，这种音频/视觉对准可以被实现。视觉位置和音频空间对准也可以被用于非角色/对话对象(诸如汽车、卡车、动画、等等)。
[0102]空间掩蔽处理被系统100促进，因为通过自适应音频元数据对混合的空间意图的认识意味着混合可以适应于任何扬声器配置。然而，由于回放系统限制，在相同的或几乎相同的位置中下混对象存在风险。例如，如果环绕声道不存在，打算在左后部中摇移的对象可能被下混到左前方，但是如果同时在左前方中出现更大声的元素，则下混的对象将被掩蔽并且从混合中消失。使用自适应音频元数据，空间掩蔽可以由呈现器预期，并且每个对象的空间和或响度下混参数可以被调节使得混合的全部音频元素保持正如原始的混合中可感知的一样。由于呈现器明白混合和回放系统之间的空间关系，因此它具有“快移”对象到最接近扬声器的能力而不是在两个或更多个扬声器之间创建幻像(phantom image)。虽然这可能使混合的空间表示稍微失真，但是它也允许呈现器避免非故意的幻像。例如，如果混合阶段的左扬声器的角位置不对应于回放系统的左扬声器的角位置，则使用快移到最接近扬声器的功能可以避免回放系统再现混合阶段的左声道的恒定幻像。
[0103]对于内容处理，自适应音频系统100允许内容创建者创建单独的音频对象和添加关于可以被传送到再现系统的内容的信息。这允许在再现之前的音频处理中有大量灵活性。从内容处理和呈现观点看，自适应音频系统使得处理能够适应于对象类型。例如，对话增强可以被仅仅应用于对话对象。对话增强指的是处理包含对话的音频使得对话的能听度和/或可懂度被增大和或改善的方法。在很多情况下被应用于对话的音频处理是对于非对话音频内容(即音乐、环境效果等)不适当的并且可以导致令人不愉快的可听到的假象。利用自适应音频，音频对象可以在一块内容中仅仅包含对话，并且它可以被相应地标记使得呈现解决方案可以选择性地将对话增强仅仅应用于对话内容。另外，如果音频对象仅仅是对话(并且不是经常情况的对话和其它内容的混合)，则对话增强处理可以专门地处理对话(由此限制对任何其它内容执行的任何处理)。同样地，低音管理(滤波、衰减、增益)可以基于他们的类型指向特定的对象。低音管理指的是在特别的一块内容中选择性地隔离和仅仅处理低音(或更低)频率。在当前的音频系统和传送机构的情况下，这是被应用于所有音频的“盲(blind)”处理。利用自适应音频，适合进行低音管理的特定的音频对象可以通过元数据被识别，并且可以适当地应用呈现处理。
[0104]自适应音频系统100也提供基于对象的动态范围压缩和选择性的上混。传统的音频轨道具有与内容本身相同的持续时间，但是音频对象可能仅仅在内容中出现有限量的时间。与对象关联的元数据可以包含关于它的平均值和峰值信号振幅的信息以及它的发动(onset)或冲击时间(特别地对于瞬时的材料)。这个信息将允许压缩器更好修改它的压缩和时间常数(冲击、释放等)以便更好适应内容。对于选择性的上混，内容创建者可能选择在自适应音频比特流中指示对象是否应该被上混。这个信息允许自适应音频呈现器和上混器在考虑创建者的意图的同时区分哪些音频元素可以被安全地上混。
[0105]实施例还允许自适应音频系统从许多可用的呈现算法和/或环绕声格式中选择偏爱的呈现算法。可用的呈现算法的示例包括:两路立体声、立体声偶极、立体混响声、波场合成(WFS)、多声道摇移(panning)、具有位置元数据的原始主干。其它包括双平衡和基于矢量的振幅摇移。
[0106]两路立体声的分发格式使用依据左右耳处出现的信号的声场的双声道的表示。两路立体声的信息可以经由耳朵内记录被创建或使用HRTF模式被合成。两路立体声的表示的回放典型地在头戴耳机之上进行，或者通过采用串扰消除进行。在任意的扬声器设立之上回放将要求信号分析以便确定关联的声场和/或一个或多个信号源。
[0107]立体声偶极呈现方法是跨声道(transaural)串扰消除处理以便制造可在立体声扬声器(例如，以+和-10度偏心)之上播放的两耳的信号。
[0108]立体混响声是以称为B格式的四声道的形式被编码的(分发格式和呈现方法)。第一声道W是不定向的压力信号；第二声道X是包含前方和后部信息的定向压力梯度；第三声道Y包含左和右并且Z包含上和下。这些声道定义整个声场在一点处的一阶样本。立体混响声使用所有可用的扬声器来在扬声器阵列内再创建采样的(或者合成的)声场，使得当某些扬声器正在推(pushing)时其它正在拉(pulling)。
[0109]波场合成是基于通过二次源精确的构造期望的波场的声音再现的呈现方法。WFS基于惠更斯原理，并且被实现为扬声器阵列(几十或者几百)，其环绕收听空间并且以协同的定相的方式操作以便重新创建每个单独的声波。
[0110]多声道摇移是分发格式和/或呈现方法，并且可以被称为基于声道的音频。在该情况下，声音被表示为要通过相等数的扬声器以从收听者定义的角度被回放的许多离散源。内容创建者/混合者可以通过在相邻声道之间摇移信号来创建虚像以便提供方向提示；早期反射、混响等可以被混合到许多声道中以便提供方向和环境提示。
[0111]具有位置元数据的原始主干是分发格式，并且也可以被称为基于对象的音频。在这个格式中，不同的“接近话筒的(Close mic’ed)”声源与位置和环境元数据一起被表示。虚拟源基于元数据和回放设备和收听环境被呈现。
[0112]自适应音频格式是多声道摇移格式和原始主干格式的混合。本实施例中的呈现方法是多声道摇移。对于音频声道，呈现(摇移)在创作时间处发生，但是对于对象呈现(摇移)在回放处发生。
[0113]元数据和自适应音频传输格式
[0114]如上所述，元数据在创建阶段期间被产生以便对于音频对象对特定位置信息编码和伴随音频节目来帮助呈现音频节目，并且特别地，以使得能够在各式各样的回放设备和回放环境上呈现音频节目的方式描述音频节目。针对给定节目以及在后制作期间创建、收集、编辑和操纵音频的编辑者和混合者产生元数据。自适应音频格式的重要特征是控制音频将如何译为不同于混合环境的回放系统和环境的能力。特别地，给定电影可以具有比混合环境更少的能力。
[0115]自适应音频呈现器被设计成充分利用可用的设备来重新创建混合者的意图。此夕卜，自适应音频创作工具允许混合者预览和调节混合将如何在各种回放配置上被呈现。所有元数据值可以在回放环境和扬声器配置上被调节(condition)。例如，可以基于回放配置或者模式指定对于给定音频元素的不同的混合水平。在一个实施例中，调节的回放模式的列表是可扩展的并且包括以下:(I)仅仅基于声道的回放:5.1,7.1,7.1 (高度)、9.1 ;以及
(2)离散扬声器回放:3D、2D (没有高度)。
[0116]在一个实施例中，元数据控制或者规定自适应音频内容的不同的方面并且基于不同类型被组织，该类型包括:节目元数据、音频元数据以及呈现元数据(对于声道以及对象)。每个类型的元数据包括一个或更多个元数据项目，其提供对于由标识符(ID)提及的特性的值。图5是按照一个实施例的列出对于自适应音频系统的元数据类型和关联的元数据元素的表格。
[0117]如图5的表格500所示，第一类型元数据是节目元数据，其包括指定帧率、轨道数、可扩展的声道描述和混合阶段描述的元数据元素。帧率元数据元素指定以每秒帧(fps)为单位的音频内容巾贞的速率。原始的音频格式不必包括音频或者元数据的组巾贞(framing),因为音频被提供为全轨道(一盘(reel)或者整个特征的持续时间)而不是音频片段(对象的持续时间)。原始的格式的确需要携带使得自适应音频编码器能够对音频和元数据进行组帧所需的所有信息，包括实际帧率。表1示出了帧率元数据元素的ID、示例值和描述。
[0118]表1
[0119]ID值描述2
[0120]
【权利要求】
1.一种用于处理音频信号的系统，包含: 创作组件，被配置为接收多个音频信号，并且产生多个单声道的音频流以及与每个音频流关联并且指定相应音频流的回放位置的一个或更多个元数据组，其中音频流被识别为基于声道的音频或者基于对象的音频，并且其中基于声道的音频的回放位置包含扬声器阵列中的扬声器的扬声器指定，并且基于对象的音频的回放位置包含三维空间中的位置；此外其中第一组元数据作为默认被应用于所述多个音频流中的一个或更多个，并且第二组元数据与回放环境的特定条件关联并且在回放环境的条件匹配回放环境的所述特定条件的情况下代替第一组而被应用于所述多个音频流中的所述一个或更多个；以及呈现系统，耦接到创作组件并且被配置为接收封装所述多个单声道的音频流和一个或更多个数据组的比特流，并且基于回放环境的条件根据一个或更多个元数据组将音频流呈现于与回放环境中的扬声器对应的多个扬声器供给。
2.根据权利要求1所述的系统，其中每个元数据组包括与每个基于对象的流关联的元数据元素，每个基于对象的流的元数据元素指定控制对应的基于对象的声音的回放的空间参数，并且包含以下中的一个或更多个:声音位置、声音宽度、和声速；此外其中每个元数据组包括与每个基于声道的流关联的元数据元素，并且扬声器阵列包含在定义的环绕声配置中布置的扬声器，并且其中与每个基于声道的流关联的元数据元素包含根据定义的环绕声音标准的在扬声器阵列中的扬声器的环绕声音声道的指定。
3.根据权利要求1所述的系统，其中扬声器阵列包括用于回放基于对象的流的额外的扬声器，所述额外的扬声器是基于回放环境的条件根据来自用户的设立指令被放置在回放环境中的，并且其中回放条件取决于包含如下的变量:回放环境的房间的尺寸和形状、占用率、材料成分、和环境噪声；此外其中系统接收来自用户的设立文件，该设立文件至少包括扬声器指定的列表和声道到扬声器阵列中的单独的扬声器的映射、关于扬声器的分组的信息、以及基于扬声器相对于回放环境的位置的运行时间映射。
4.根据权利要求1所述的系统，其中所述创作组件包括混合控制台，所述混合控制台具有能由用户操作以便指定包含原始音频内容的音频流的回放水平的控制，并且其中与每个相应的基于对象的流关联的元数据元素在用户向混合控制台输入控制时被自动产生。
5.根据权利要求1所述的系统，其中元数据组包括用于使得能够根据从扬声器阵列的第一配置到扬声器阵列的第二配置的变化来将基于声道的音频流和基于对象的音频流中的至少一个上混或者下混的元数据。
6.根据权利要求3所述的系统，其中内容类型选自由如下组成的组:对话、音乐和效果，并且每个内容类型被体现在相应的一组基于声道的流或者基于对象的流中，此外其中每个内容类型的声音成分被发送到扬声器阵列内指明的一个或更多个扬声器组中的定义的扬声器组。
7.根据权利要求6所述的系统，其中扬声器阵列中的扬声器被放置在回放环境内的特定位置处，并且其中与每个相应的基于对象的流关联的元数据元素指定，一个或更多个声音成分被呈现给扬声器供给以便通过最接近如位置元数据所指示的声音成分的意图回放位置的扬声器回放。
8.根据权利要求1所述的系统，其中回放位置包含相对于回放环境内的屏幕或者包围回放环境的表面的空间位置，并且其中所述表面包含前面、后面、左面、右面、上面和下面。
9.根据权利要求1所述的系统，还包含编解码器，该编解码器耦接到创作组件和呈现组件并且被配置为接收多个音频流和元数据并且产生以有序的方式包含多个音频流的单个数字比特流。
10.根据权利要求9所述的系统，其中呈现组件还包含用于选择由呈现组件利用的呈现算法的装置，呈现算法选自由如下组成的组:两路立体声、立体声偶极、立体混响声、波场合成(WFS)、多声道摇移、具有位置元数据的原始主干、双平衡、以及基于矢量的振幅摇移。
11.根据权利要求1所述的系统，其中对于每个音频流的回放位置被独立地相对于自我中心的参考系或者非自我中心的参考系指定，其中对于回放环境中的收听者采取自我中心的参考系，并且其中对于回放环境的特性采取非自我中心的参考系。
12.一种用于处理音频信号的系统，包含: 创作组件，被配置为接收多个音频信号并且产生多个单声道音频流以及与每个音频流关联并且指定相应的音频流的回放位置的元数据，其中音频流被识别为基于声道的音频或者基于对象的音频，并且其中基于声道的音频的回放位置包含扬声器阵列中的扬声器的扬声器指定，并且基于对象的音频的回放位置包含三维空间中的位置，并且其中每个基于对象的音频流在扬声器阵列中的至少一个特定的扬声器中被呈现；以及呈现系统，耦接到所述创作组件并且被配置为接收封装多个单声道音频流和元数据的比特流，并且将音频流呈现给与回放环境中的扬声器对应的多个扬声器供给，其中扬声器阵列中的扬声器被放置在回放环境内的特定位置处，并且其中与每个相应的基于对象的流关联的元数据元素指定一个或更多个声音成分被呈现给扬声器供给以便通过最接近声音成分的意图回放位置的扬声器回放，使得基于对象的流有效地快移到最接近所述意图回放位置的扬声器。
13.根据权利要求12所述的系统，其中元数据包含两个或更多个元数据组，并且呈现系统基于回放环境的条件根据所述两个或更多个元数据组之一呈现音频流，其中对于回放环境的第一条件将第一组元数据应用于多个音频流中的一个或更多个，并且对于回放环境的第二条件将第二组元数据应用于多个音频流中的所述一个或更多个；并且其中每个元数据组包括与每个基于对象的流关联的元数据元素，每个基于对象的流的元数据元素指定控制对应的基于对象的声音的回放的空间参数，并且包含以下中的一个或更多个:声音位置、声音宽度、和声速；此外其中每个元数据组包括与每个基于声道的流关联的元数据元素，并且扬声器阵列包含在定义的环绕声配置中布置的扬声器，并且其中与每个基于声道的流关联的兀数据兀素包含根据定义的环绕声音标准的在扬声器阵列中的扬声器的环绕声音声道的指定。
14.根据权利要求12所述的系统，其中扬声器阵列包括用于回放基于对象的流的额外的扬声器，所述额外的扬声器是基于回放环境的条件根据来自用户的设立指令被放置在回放环境中的，并且其中回放条件取决于包含如下的变量:回放环境的房间的尺寸和形状、占用率、材料成分、和环境噪声；此外其中系统接收来自用户的设立文件，所述设立文件至少包括扬声器指定的列表和声道到扬声器阵列中的单独的扬声器的映射、关于扬声器的分组的信息、以及基于扬声器相对于回放环境的位置的运行时间映射，并且其中呈现给扬声器供给以便通过最接近声音成分的意图回放位置的扬声器回放的对象流快移到所述额外的扬声器中的单个扬声器。
15.根据权利要求14所述的系统，其中意图回放位置包含相对于回放环境内的屏幕或者包围回放环境的表面的空间位置，并且其中所述表面包含前面、后面、左面、顶面和地面。
16.一种用于处理音频信号的系统，包含: 创作组件，被配置为接收多个音频信号并且产生多个单声道音频流以及与每个音频流关联并且指定相应的音频流的回放位置的元数据，其中音频流被识别为基于声道的音频或者基于对象的音频，并且其中基于声道的音频的回放位置包含扬声器阵列中的扬声器的扬声器指定，并且基于对象的音频的回放位置包含相对于包含扬声器阵列的回放环境的三维空间中的位置，并且其中每个基于对象的音频流在扬声器阵列中的至少一个特定的扬声器中被呈现；以及呈现系统，耦接到创作组件并且被配置为接收包含扬声器的列表以及他们在回放环境内的相应位置的扬声器到音频声道的第一映射、以及封装所述多个单声道音频流和元数据的比特流，并且基于回放环境的条件以及扬声器相对于回放环境的位置根据运行时间映射将音频流呈现于与回放环境中的扬声器对应的多个扬声器供给。
17.根据权利要求16所述的系统，其中回放环境的条件取决于包含以下的变量:回放环境的房间的尺寸和形状、占用率、材料成分、和环境噪声。
18.根据权利要求17所述的系统，其中第一映射被指定在设立文件中，所述设立文件至少包括扬声器指定的列表以及声道到扬声器阵列中的单独的扬声器的映射、以及关于扬声器的分组的信息。
19.根据权利要求18所述的系统，其中意图回放位置包含相对于回放环境内的屏幕或者包含回放环境的外壳的表面的空间位置，并且其中所述表面包含以下之一:外壳的前面、后面、侧面、顶面和地面。
20.根据权利要求19所述的系统，其中扬声器阵列包含在定义的环绕声配置中布置的扬声器，并且其中与每个基于声道的流关`联的元数据元素包含根据定义的环绕声音标准的在扬声器阵列中的扬声器的环绕声音声道的指定，此外其中一定的基于对象的流通过扬声器阵列的额外的扬声器被播放，并且其中运行时间映射动态地确定扬声器阵列中的哪些单独的扬声器在回放处理期间回放对应的基于对象的流。
21.—种创作用于呈现的音频信号的方法，包含: 接收多个音频信号；产生多个单声道音频流和与每个音频流关联并且指定相应的音频流的回放位置的一个或更多个元数据组，其中音频流被识别为基于声道的音频或者基于对象的音频，并且其中基于声道的音频的回放位置包含扬声器阵列中的扬声器的扬声器指定，并且基于对象的音频的回放位置包含相对于包含扬声器阵列的回放环境的三维空间中的位置；此外其中对于回放环境的第一条件将第一组元数据应用于所述多个音频流中的一个或更多个，并且对于回放环境的第二条件将第二组元数据应用于所述多个音频流中的所述一个或更多个；以及将多个单声道音频流和一个或更多个元数据组封装在用于发送到呈现系统的比特流中，所述呈现系统被配置为基于回放环境的条件根据一个或更多个元数据组将音频流呈现于与回放环境中的扬声器对应的多个扬声器供给。
22.根据权利要求21所述的方法，其中每个元数据组包括与每个基于对象的流关联的元数据元素，每个基于对象的流的元数据元素指定控制对应的基于对象的声音的回放的空间参数，并且包含以下中的一个或更多个:声音位置、声音宽度、和声速；此外其中每个元数据组包括与每个基于声道的流关联的元数据元素，并且扬声器阵列包含在定义的环绕声配置中布置的扬声器，并且其中与每个基于声道的流关联的元数据元素包含根据定义的环绕声音标准的在扬声器阵列中的扬声器的环绕声音声道的指定。
23.根据权利要求21所述的方法，其中扬声器阵列包括用于回放基于对象的流的额外的扬声器，所述额外的扬声器是被放置在回放环境中的，所述方法还包含接收基于回放环境的条件的来自用户的设立指令，并且其中回放条件取决于包含如下的变量:回放环境的房间的尺寸和形状、占用率、材料成分、和环境噪声；设立指令还至少包括扬声器指定的列表和声道到扬声器阵列中的单独的扬声器的映射、关于扬声器的分组的信息、以及基于扬声器相对于回放环境的位置的运行时间映射。
24.根据权利要求23所述的方法，还包含: 从具有能由用户操作的控制的混合控制台接收以便指定包含原始音频内容的音频流的回放水平；以及在收到用户输入后自动产生与每个相应的基于对象的流关联的元数据元素。
25.—种呈现音频信号的方法，包含: 从创作组件接收把多个单声道音频流和一个或更多个元数据组封装在比特流中的比特流，所述创作组件被配置为接收多个音频信号并且产生多个单声道音频流以及与每个音频流关联并且指定相应的音频流的回放位置的一个或更多个元数据组，其中音频流被识别为基于声道的音频或者基于对象的音频，并且其中基于声道的音频的回放位置包含扬声器阵列中的扬声器的扬声器指定，并且基于对象的音频的回放位置包含相对于包含扬声器阵列的回放环境的三维空间中的位置；此外其中对于回放环境的第一条件将第一组元数据应用于所述多个音频流中的一个或更多个，并且对于回放环境的第二条件将第二组元数据应用于所述多个音频流中的所述一个或更多个；以及基于回放环境的条件根据一个或更多个元数据组将多个音频流呈现到与回放环境中的扬声器对应的多个扬声器供给。
26.—种创建音频内容的方法，所述音频内容包含在创作组件中被处理的多个单声道音频流，其中单声道音频流包括至少一个基于声道的音频流和至少一个基于对象的音频流，所述方法包括如下步骤: 指示多个音频流中的每个音频流是基于声道的流还是基于对象的流；将元数据元素与每个基于声道的流关联，所述元数据元素指定用于将相应的基于声道的流呈现到回放环境内的一个或更多个扬声器的声道位置；将一个或更多个元数据元素与每个基于对象的流关联，所述一个或更多个元数据元素关于对于回放环境的尺寸和尺度定义的非自我中心的参考系指定用于将相应的基于对象的流呈现到回放环境内的一个或更多个扬声器的基于对象的位置；以及将多个单声道流和关联的元数据组装到信号中。
27.根据权利要求26所述的方法,其中回放环境包括以相对于包含回放环境的外壳的参考点的定义的位置和取向放置的扬声器的阵列。
28.根据权利要求27所述的方法，其中扬声器的阵列中的第一组扬声器包含根据定义的环绕声系统布置的扬声器，并且其中扬声器的阵列中的第二组扬声器包含根据自适应的音频方案布置的扬声器。
29.根据权利要求28所述的方法，还包含: 定义多个单声道音频流的各组的音频类型，其中音频类型选自由对话、音乐和效果组成的组；以及基于相应组的音频流的音频类型将所述各组音频流发送到特定组的扬声器。
30.根据权利要求29所述的方法，还包含通过在具有能由用户操作以便指定单声道音频流的回放水平的控制的混合控制台中实现的创作组件自动产生元数据元素。
31.根据权利要求30所述的方法，还包含在编码器内将多个单声道音频流和关联的元数据元素封装到单个数字比特流中。
32.—种创建音频内容的方法，包含: 确定与音频内容的节目编制关联的第一元数据组中的用于在处理基于声道的音频内容和基于对象的音频内容两者的混合音频系统中的处理的一个或更多个元数据元素的值；确定与混合音频系统中的音频内容的存储和呈现特性关联的第二元数据组中的一个或更多个元数据元素的值；以及确定与用于呈现基于声道的音频内容和基于对象的音频内容的控制信息和音频源位置关联的第三元数据组中的一个或更多个元数据元素的值。
33.根据权利要求32所述的方法，其中用于呈现基于声道的音频内容的音频源位置包含与环绕声扬声器系统中的扬声器关联的名字，其中所述名字定义相应的扬声器相对于回放环境中的一个或更多个参考位置的位置。
34.根据权利要求33所述的方法，其中用于呈现基于声道的音频内容的控制信息包含用于在不同环绕声配置中呈现音频内容的上混和下混信息，并且其中元数据包括用于启用或者停用上混和/或下混功能的元数据。
35.根据权利要求32所述的方法，其中用于呈现基于对象的音频内容的音频源位置包含与指定用于回放基于对象的音频内容的声音成分的意图回放位置的一个或更多个数学函数关联的值。
36.根据权利要求35所述的方法，其中数学函数选自由以下组成的组:指定为X、y、z坐标值的三维坐标，表面定义加上一组二维坐标，以及曲线定义加上一维线性位置坐标，以及回放环境中的屏幕上的标量位置。
37.根据权利要求36所述的方法，其中用于呈现基于对象的音频内容的控制信息包含指定回放环境内的通过其播放声音成分的单独的扬声器或者扬声器组的值。
38.根据权利要求37所述的方法，其中用于呈现基于对象的音频内容的控制信息还包含指定要被快移到回放环境内的最接近的扬声器或者最接近的扬声器组的声源的二进制值。
39.一种定义音频传输协议的方法,包含: 定义与音频内容的节目编制关联的第一元数据组中的用于在处理基于声道的音频内容和基于对象的音频内容两者的混合音频系统中的处理的一个或更多个元数据元素的值；定义与混合音频系统中的音频内容的存储和呈现特性关联的第二元数据组中的一个或更多个元数据元素的值；以及定义与用于呈现基于声道的音频内容和基于对象的音频内容的控制信息和音频源位置关联的第三元数据组中的一个或更多个元数据元素的值。
【文档编号】H04S7/00GK103650539SQ201280032058
【公开日】2014年3月19日申请日期:2012年6月27日优先权日:2011年7月1日
【发明者】C·Q·罗宾森, N·R·特斯恩高斯, C·查巴尼申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C·Q·罗宾森;N·R·特斯恩高斯;C·查巴尼
技术所有人：杜比实验室特许公司
我是此专利的发明人

上一篇：基于解码器图片缓冲器的上下文初始化的制作方法
上一篇：接收与lte唤醒有关的消息的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。