用于自适应音频信号产生、编码和呈现的系统和方法

文档序号:9814935
用于自适应音频信号产生、编码和呈现的系统和方法
【专利说明】
[0001] 本申请是申请号为201280032058.3,申请日为2012年6月27日,题为"用于自适应 音频信号产生、编码和呈现的系统和方法"的中国发明专利申请的分案申请。
[0002] 相关申请的交叉引用
[0003] 本申请要求2011年7月1日提交的美国临时申请No.61/504,005和2012年4月20日 提交的美国临时申请No. 61 /636,429的优先权,运两个申请出于所有目的整体通过参考被 并入于此。
技术领域
[0004] -个或更多个实现方式一般设及音频信号处理,并且更具体地设及供电影院、家 庭和其它环境之用的混合对象和基于声道的音频处理。
【背景技术】
[0005] 在【背景技术】部分中讨论的主题不应该仅仅由于它在【背景技术】部分中被提到而被 假设为现有技术。类似地,在【背景技术】部分中提到或者与【背景技术】部分的主题关联的问题 不应该被假设为在现有技术中已经被先前认识到。在【背景技术】部分中的主题仅仅代表不同 的方法,在其中及其本身也可W是发明。
[0006] 自从将声音引入胶片(film) W来,已经存在用于捕获创作者的对于运动图像音轨 的艺术意图并且在电影院环境中准确地再现它的技术的稳定的发展。电影声音的基本的作 用是支持在屏幕上示出的故事。典型的电影音轨包括与屏幕上的图像和元素对应的许多不 同的声音元素,从不同的屏幕上的元素发出的对话、噪声、W及声音效果,W及与背景音乐 和环境效果结合W便创建整体观众体验。创作者和制作者的艺术意图代表他们的如下期 望,即具有W尽可能紧密地对应于在屏幕上示出的东西的方式对于声源位置、强度、移动和 其它类似参数再现的运些声音。
[0007] 当前电影创作、分发和回放遭受约束真实地沉浸和逼真的音频的创建的限制。传 统的基于声道的音频系统将W扬声器供给形式的音频内容发送到回放环境中的单独的扬 声器,诸如立体声和5.1系统。数字电影的引入已经创建了对于胶片上的声音的新标准,诸 如音频的高达16声道的并入W便允许内容创作者有更大的创造力,W及对于观众的更包围 的和现实的听觉体验。7.1环绕系统的引入已经提供通过将现有的左和右环绕声道分离成 四个区域(zones)增大环绕声道的数量的新格式,因此对于声音设计者和混合者增大范围 来控制剧场中的音频元素的定位。
[000引为了进一步改善收听者体验,虚拟=维环境中的声音的回放已经变为研究和开发 增加的区域。声音的空间表现利用作为具有表观(apparent)源位置的关联参数源描述(例 如,3D坐标)、表观源宽度和其它参数的音频信号的音频对象。基于对象的音频越来越被用 于许多当前多媒体应用,诸如数字电影、视频游戏、模拟器和3D视频。
[0009]扩展超出传统的扬声器供给和基于声道的音频作为用于分布空间音频的手段是 关键的,并且对保持允许收听者/展出者自由选择适合他们的个人需要或者预算的回放配 置并且具有对于他们选择的配置特定地呈现的音频的承诺的基于模式(model)的音频描述 已经存在相当大的兴趣。在高水平处,目前存在四个主要的空间音频描述格式:其中音频被 描述为意图用于标称扬声器位置处的扬声器的信号的扬声器供给;其中音频被描述为通过 预定义的阵列中的虚拟或者实际麦克风捕获的信号的麦克风供给;其中依据在所描述的位 置处音频事件的序列来描述音频的基于模式的描述;W及其中音频由到达收听者耳朵的信 号描述的两路立体声(binaural)。运四个描述格式经常与将音频信号转换为扬声器供给的 一个或更多个呈现技术关联。当前呈现技术包括:摇移,其中音频流通过使用一组摇摄规则 和已知或假设的扬声器位置被转换为扬声器供给(典型地在分发之前被呈现);立体混响声 (Ambisonics),其中麦克风信号被转换为用于扬声器的可缩放的(scalable)阵列的供给 (典型地在分发之后被呈现);WFS(波场合成),其中声音事件被转换为适当的扬声器信号W 便合成声场(典型地在分发之后被呈现);W及两路立体声,其中L/R(左/右)双声道的信号 典型地使用头戴耳机化ea化hones)而且通过使用扬声器和串扰抵消被传送给L/R耳朵(在 分发之前或者之后呈现)。在运些格式中,扬声器供给格式是最常见的,因为它是简单的和 有效的。最好的声音结果(最准确的,最可靠的)通过直接混合/监视和分发给扬声器供给来 实现,因为在内容创作者和收听者之间不存在处理。如果预先已知回放系统,则扬声器供给 描述通常提供最高保真度。然而,在许多实际应用中,回放系统是未知的。基于模式的描述 被认为适应性最强,因为它不进行关于呈现技术的假设并且因此最容易应用于任何呈现技 术。虽然基于模式的描述有效地捕获空间信息,但是随着音频源的数量增大它变得非常低 效。
[0010] 多年来电影系统已经特征化为具有左、中屯、、右W及偶尔'左内(inner left)'和 '右内(inner right)'声道的形式的离散的屏幕声道。运些离散的源通常具有足够的频率 响应和功率处理(power handling) W便允许声音被准确地放置在屏幕的不同区域中,并且 容许随着声音在位置之间被移动或摇移而音色匹配。在改善收听者体验方面的近期发展企 图相对于收听者准确地再现声音的位置。在5.1设立中,环绕"区域"由扬声器的阵列组成, 所有的扬声器在每个左环绕或右环绕区域内携带相同的音频信息。运种阵列在'环境'或者 扩散环绕效果的情况下可W是有效的,然而,在日常生活中许多声音效果来源于随机放置 的点源。例如,在餐厅中,环境音乐可W显然从四处都被播放,虽然细小但是离散的声音来 源于特定的点:来自一个点的人聊天、来自另一个点的刀在盘子上的卡晤声(Clatter)。能 够将运种声音离散地放置在观众席周围可W在没有引人注意地明显的情况下添加加强的 逼真感。头上的声音也是环绕定义的重要成分。在实际世界中,声音来源于所有方向,而不 是总是来自单个水平面。如果声音可W从头上被听到,换句话说从'上半球'被听到,增加的 真实感可W被实现。然而当前系统不提供在各种不同的回放环境中对于不同音频类型的声 音的真正准确的再现。使用现有的系统要求实际回放环境的大量处理、知识和配置W尝试 位置特定的声音的准确的表示,因此呈现对于大多数应用不实际的当前系统。
[0011] 所需要的是,支持多个屏幕声道的系统,得到对于屏幕上的声音或者对话的增大 的清晰度和改善的视听觉的相干性,W及能够在环绕区域中任何地方精确定位源W便改善 从屏幕到房间的视听转变。例如,如果在屏幕上的角色在房间内看向声源,则声音工程师 ("混合者")应该具有精确定位声音使得它匹配角色的视线的能力并且效果将在所有观众 中是一致的。然而,在传统的5.1或者7.1环绕声混合中,效果高度地依赖于收听者的座位位 置,其对于大多数大规模的收听环境是不利的。增大的环绕分辨率创造了新的机会来W房 间中屯、的方式利用声音,与传统方法相反,其中假设单个收听者在"最佳听音位置(sweet spot)"处来创建内容。
[0012] 除了空间问题W外,当前的多声道现有技术系统遭受关于音色的问题。例如,一些 声音的音色质量,诸如从破了的管出去的蒸汽嘶嘶声化issing),可W遭受由扬声器的阵列 再现。将特定的声音引导到单个扬声器的能力给予混合者消除阵列再现的伪迹 (artifacts)和向观众传递更现实的体验的机会。传统上,环绕扬声器不支持大屏幕声道支 持的相同的全范围的音频频率和水平。历史上,运对于混合者已经引起问题,减少他们的从 屏幕到房间自由地移动全范围声音的能力。结果,剧场拥有者没有感觉逼迫来升级他们的 环绕声道配置,防止更高质量装备的广泛的采用。

【发明内容】

[0013] 针对电影声音格式和包括新的扬声器布局(声道配置)和关联的空间描述格式的 处理系统,来描述系统和方法。自适应音频系统和格式被定义为支持多个呈现技术。音频流 与元数据一起被发送,该元数据描述包括音频流的期望位置的"混合者的意图"。位置可W 被表示为命名的(named)声道(来自预定义的声道配置内)或者作为S维的位置信息。运个 声道加上对象格式结合了最佳的基于声道和基于模式的音频场景描述方法。对于自适应音 频系统的音频数据包括许多独立的单声道音频流。每个流具有与它关联的元数据,其指定 流是基于声道的还是基于对象的流。基于声道的流具有利用声道名字编码的呈现信息;并 且基于对象的流具有通过在更多的关联的元数据中编码的数学表达式编码的位置信息。原 始的独立的音频流被封装作为包含所有音频数据的单个串行的比特流。运个配置允许根据 非自我中屯、的(allocentric)参考系呈现声音,在其中声音的呈现位置基于回放环境的特 性(例如,房间尺寸、形状等)W便对应于混合者的意图。对象位置元数据包含为使用房间中 的可用的扬声器位置正确地播放声音所需的适当的非自我中屯、的参考系信息,该房间被设 立来播放自适应音频内容。运使得能够针对特别的回放环境最佳地混合声音,特别的回放 环境可W与声音工程师体验的混合环境不同。
[0014] 自适应音频系统通过诸如改善的房间均衡化和环绕低音管理之类的运种好处改 善在不同房间中的音频质量,使得扬声器(无论在屏幕上还是屏幕外)可W由混合者在没有 必须考虑音色匹配的情况下自由地解决。自适应音频系统增加了动态音频对象的灵活性和 功率到传统的基于声道的工作流程中。运些音频对象允许创作者与任何特定的回放扬声器 配置(包括头上的扬声器)无关地控制离散声音元素。该系统还为后制作处理引入新的效 率,允许声音工程师有效地捕获所有他们的意图并且随后在实时监视中,或者自动产生环 绕声音7.1和5.1版本。
[0015] 自适应音频系统通过在数字电影处理器内将音频本体(essence)和艺术意图包封 在单个轨道文件中来简化分发,其可W在宽范围的剧场配置中被忠实地回放。当混合和呈 现利用相同的声道配置和单个清单Qnvento巧)(其向下适应到呈现配置(即,下混合))时, 该系统提供艺术意图的最佳再现。
[0016] 通过设及电影声音平台的实施例提供运些和其它优点,解决当前的系统限制并且 传递超出目前可用的系统的音频体验。
【附图说明】
[0017] 在下面附图中相似的附图标记被用来指的是相似的元件。虽然W下附图描绘各种 示例,但是一个或更多个实现方式不限于在图中描绘的示例。
[0018] 图1是按照一个实施例的利用自适应音频系统的音频创建和回放环境的最高一级 的概述。
[0019] 图2示出按照一个实施例的声道和基于对象的数据的组合W便产生自适应音频混 厶 1=1 O
[0020] 图3是按照一个实施例的示出创建、封装和呈现自适应音频内容的工作流程的框 图。
[0021 ]图4是按照一个实施例的自适应音频系统的呈现阶段的框图。
[0022] 图5是按照一个实施例的列出对于自适应音频系统的元数据类型和关联的元数据 元素的表格。
[0023] 图6是示出按照一个实施例的对于自适应音频系统的后制作和主控的图。
[0024] 图7是按照一个实施例的对于使用自适应音频文件的数字电影封装处理的示例工 作流程的图。
[0025] 图8是在典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例布 局的俯视图。
[0026] 图9是供典型的观众席之用的屏幕处的建议的扬声器位置的示例布置的正视图。
[0027] 图10是在典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例 布局的侧视图。
[0028] 图11是按照一个实施例的顶部环绕扬声器和侧面环绕扬声器相对于参考点的放 置的示例。
【具体实施方式】
[0029] 针对于支持多个呈现技术的自适应音频系统和关联的音频信号和数据格式,来描 述系统和方法。在此描述的一个或更多个实施例的方面可W被实现在音频或者视听系统 中,该系统在混合、呈现和回放系统中处理源音频信息,该混合、呈现和回放系统包括执行 软件指令的处理装置或者一个或更多个计算机。所描述的实施例中的任意一个可W被单独 使用或者W任意组合方式彼此一起使用。虽然各种实施例可W已经被现有技术的各种不足 促动,其可能在说明书中的一个或更多个位置中被讨论或者暗指,但是实施例未必解决运 些不足中的任意一个。换句话说,不同实施例可W解决可能在说明书中讨论的不同不足。一 些实施例可W仅仅部分地解决可能在说明书中讨论的一些不足或者仅仅一个不足,并且一 些实施例可W不解决运些不足中的任意一个。
[0030] 对于本说明书,W下术语具有关联的意义:
[0031] 声道或者音频声道:单声道的音频信号或者音频流加上元数据,在元数据中位置 被编码为声道ID,例如"Left Front"或者"Right Top Surround"。声道对象可W驱动多个 扬声器,例如,"Left Surround"声道化S)将供给Ls阵列中的所有扬声器。
[0032] 声道配置:具有关联的标称位置的扬声器区域的预定义的组,例如5.1、7.1等等; 5.1指的是六声道环绕声音频系统,具有前面的左和右声道、中屯、声道、两个环绕声道W及 亚低音扬声器声道;7.1指的是八声道环绕系统,其向5.1系统添加两个额外的环绕声道。 5.1和7.1配置的示例包括壯化⑩环绕系统。
[0033] 扬声器:呈现音频信号的音频换能器或者一组换能器。
[0034] 扬声器区域:可W被唯一地提及并且接收单个音频信号的一个或更多个扬声器的 阵列,例如如在电影中典型地发现的"LeftSurround",并且特别地用于排除或包括对象呈 现。
[0035] 扬声器声道或者扬声器供给声道:与定义的扬声器配置内的扬声器区域或者命名 的扬声器关联的音频声道。扬声器声道被使用关联的扬声器区域来标称呈现。
[0036] 扬声器声道组:与声道配置(例如立体声轨道、单轨道等)对应的一组一个或更多 个扬声器声道。
[0037] 对象或者对象声道:具有参数源描述(诸如表观源位置(例如3D坐标)、表观源宽度 等)的一个或更多个音频声道。音频流加上元数据,在元数据中位置被编码为在空间中的3D 位置。
[0038] 音频节目:整组的扬声器声道和/或对象声道W及关联的元数据,该元数据描述期 望的空间音频表现。
[0039] 非自我中屯、的参考:空间参考,在其中音频对象相对于呈现环境内的特征(诸如房 间壁和拐角)、标准扬声器位置、W及屏幕位置(例如,房间的左前方拐角)被定义。
[0040] 自我中屯、的(egocentric)参考:空间参考,在其中音频对象相对于(观众)收听者 的视角被定义并且经常被指定为相对于收听者的角度(例如,收听者向右30度)。
[0041 ]帖:帖较短,总的音频节目被划分成的独立地可解码的片段。音频帖率和边界典型 地与视频帖对齐。
[0042] 自适应音频:基于声道的音频信号和/或基于对象的音频信号加上元数据,该元数 据基于回放环境来呈现音频信号。
[0043] 在本申请中描述的电影声音格式和处理系统(还被称为"自适应音频系统")利用 新的空间音频描述和呈现技术来允许增强观众沉浸感、更艺术地进行控制、系统灵活和可 缩放、W及易于安装与维护。电影音频平台的实施例包括若干分立组件,包括混合工具、打 包机(packer)/编码器、拆包/解码器、剧院内最终混合和呈现组件、新的扬声器设计W及连 网的放大器。该系统包括对于要由内容创建者和展出者使用的新的声道配置的推荐。该系 统利用基于模型的描述,
再多了解一些
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1