用于自适应音频信号产生、编码和呈现的系统和方法_4

文档序号:9814935阅读:来源:国知局
于对象的流具有通过在另外关 联的元数据中编码的数学表达式编码的位置信息。原始的独立的音频流然后被封装作为W 有序的方式包含所有音频数据的单个串行的比特流。运个自适应数据配置允许根据非自我 中屯、的参考系呈现声音,在其中声音的最终呈现位置基于回放环境W对应于混合者的意 图。因此,声音可W被指定为来源于回放房间的参考系(例如,左壁的中间),而不是特定的 标记的扬声器或扬声器组(例如,左环绕)。对象位置元数据包含为在房间中使用可用扬声 器位置正确地播放声音所需的适当的非自我中屯、的参考系信息,该房间被设立来播放自适 应音频内容。
[0094] 呈现器采取对音频轨道编码的比特流,并且根据信号类型处理内容。基础被供给 阵列,其将可能要求与单独的对象不同的延迟和均衡化处理。处理支持将运些基础和对象 呈现给多个(高达64个)扬声器输出。图4是按照一个实施例的自适应音频系统的呈现阶段 的框图。如图4的系统400所示,许多输入信号(诸如高达128个音频轨道,其包括自适应音频 信号402)被系统300的创建、创作和封装阶段的特定组件(诸如RMU 306和处理器312)提供。 运些信号包括被呈现器404利用的基于声道的基础和对象。基于声道的音频(基础)和对象 被输入到水平管理器(level manager)406,其提供对不同的音频成分的振幅或输出水平的 控制。特定音频成分可W由阵列校正组件408处理。自适应音频信号然后经过B链处理组件 410,其产生多个(例如,高达64个)扬声器供给输出信号。通常,B链供给指的是由功率放大 器、杂交(crossovers)和扬声器处理的信号,与构成电影胶片上的音轨的A链内容相反。 [00M]在一个实施例中,呈现器404运行呈现算法,其智能地尽全力使用剧场中的环绕扬 声器。通过改善环绕扬声器的功率处理和频率响应,并且对于剧场中的每个输出声道或扬 声器保持相同的监视参考水平,在屏幕和环绕扬声器之间摇移的对象可W维持他们的声压 水平并且在重要地没有增大剧场中的整体声压水平的情况下具有更接近的音色匹配。适当 地指定的环绕扬声器的阵列将典型地具有足够净空化ea化oom) W便再现在环绕7.1或5.1 音轨内可用的最大动态范围(即在参考水平之上20地),然而不太可能单个环绕扬声器将具 有大的多路的屏幕扬声器的相同的净空。结果,将很可能存在位于环绕场中的对象将要求 大于使用单个环绕扬声器可得到的声压的声压的情况。在运些情况下,呈现器将展开声音 横过合适数量的扬声器W便实现要求的声压水平。自适应音频系统改善环绕扬声器的质量 和功率处理W便提供呈现的真实性方面的改善。它通过使用允许每个环绕扬声器实现改善 的功率处理的可选的后部亚低音扬声器并且同时可能地利用更小的扬声器箱kabinets), 来提供对于环绕扬声器的低音管理的支持。它还允许增加比现行实践更接近于屏幕的侧面 环绕扬声器W便确保对象可W平滑地从屏幕转变到环绕。
[0096] 通过与特定呈现处理一起使用指定音频对象的位置信息的元数据,系统400为内 容创建者提供综合的、灵活的方法W用于移动超出现有的系统的约束。如先前所述当前的 系统创建并且分发音频,其利用对音频本体(回放的音频的部分)中传送的内容类型的有限 认识被固定到特别的扬声器位置。自适应音频系统100提供新的混合方法,其包括对于扬声 器位置特定的音频(左声道、右声道等)和面向对象的音频元素两者的选项,面向对象的音 频元素已经概括了可W包括但不限于位置、尺寸和速度的空间信息。运个混合方法提供对 于呈现中的保真度(通过固定的扬声器位置提供)和灵活性(概括的音频对象)平衡的办法。 系统还通过内容创建者在内容创建时提供与音频本体配套的关于音频内容的额外的有用 信息。运个信息提供可在呈现期间W非常有力的方式使用的关于音频的属性的有力的详细 信息。运种属性可W包括但不限于,内容类型(对话、音乐、效果、福雷录音、背景/环境等)、 空间属性(3D位置、3D尺寸、速度)、W及呈现信息(快移到扬声器位置、声道权重、增益、低音 管理信息等)。
[0097] 在本申请中描述的自适应音频系统提供可W被广泛变化的数量的端点用于呈现 的有力的信息。在很多情况下应用的最佳的呈现技术在很大程度上取决于端点装置。例如, 家庭影院系统和声吧可W具有2、3、5、7或甚至9个分离的扬声器。许多其它类型的系统(诸 如电视机、计算机和音乐巧)仅仅具有两个扬声器,并且几乎所有的通常使用的装置具有两 耳的头戴耳机输出(PC、膝上型计算机、平板、蜂窝电话、音乐播放器等)。然而,对于当今分 发的传统的音频(单声道、立体声、5.1、7.1声道),端点装置经常需要作出简单化的决定并 且折衷W便呈现和再现现在W声道/扬声器特定的形式分发的音频。另外有一点或没有传 送的关于正在分发的实际内容的信息(对话、音乐、环境等)并且有一点或没有关于内容创 建者的对于音频再现的意图的信息。然而,自适应音频系统100提供运个信息并且可能地访 问音频对象,其可W被用来创建强制性的(compelling)下一代用户体验。
[0098] 系统100允许内容创建者使用元数据(诸如位置、尺寸、速度等等)通过唯一的并且 强大的元数据和自适应音频传输格式在比特流内嵌入混合的空间意图。运允许在音频的空 间再现方面有大量灵活性。从空间呈现观点看,自适应音频使得能够使混合适应于特别的 房间中的扬声器的精确位置W免当回放系统的几何形状与创作系统不相同时出现的空间 失真。在其中仅仅发送对于扬声器声道的音频的当前音频再现系统中,内容创建者的意图 是未知的。系统100使用在整个创建和分发流水线期间传送的元数据。意识到自适应音频的 再现系统可W使用运个元数据信息来W匹配内容创建者的初始意图的方式再现内容。同样 地,混合可W适应于再现系统的精确的硬件配置。目前,在呈现设备(诸如电视机、家庭影 院、声吧(soundbars)、便携式音乐播放器巧(docks)等)中存在许多不同的可能的扬声器配 置和类型。当运些系统被发送有现今的声道特定的音频信息(即左和右声道音频或多声道 的音频)时,系统必须处理音频来适当地匹配呈现设备的能力。一个示例是标准的立体声音 频被发送给具有多于两个扬声器的声吧。在其中仅仅发送对于扬声器声道的音频的当前音 频再现中,内容创建者的意图是未知的。通过使用在整个创建和分发流水线期间传送的元 数据,意识到自适应音频的再现系统可W使用运个信息来W匹配内容创建者的初始意图的 方式再现内容。例如,某些声吧具有侧面激发(firing)扬声器来创建包围的感觉。利用自适 应音频,空间信息和内容类型(诸如环境效果)可W由声吧使用来只发送合适的音频到运些 侧面激发扬声器。
[0099] 自适应音频系统允许在系统中在前/后、左/右、上/下、近/远的全部尺度上无限内 插扬声器。在当前的音频再现系统中,不存在关于如何处理其中可W期望定位音频使得它 被收听者感知为在两个扬声器之间的音频的信息。目前,在仅仅分配给特定的扬声器的音 频的情况下,空间量子化因素被引入。利用自适应音频,音频的空间定位可W被准确地知道 并且相应地在音频再现系统上再现。
[0100] 对于头戴耳机呈现,创建者的意图通过匹配头相关传递函数(Head Related Transfer化nctions,皿TF)至Ij空间位置来被实现。当在头戴耳机之上再现音频时,空间虚 拟化可W通过应用处理音频的头相关传递函数、添加创建在=维空间中而不在头戴耳机之 上播放的音频的感知的感知提示(cues)来实现。空间再现的精度取决于合适的HRTF的选 择,皿TF可W基于包括空间位置在内的若干因素而改变。使用由自适应音频系统提供的空 间信息可W使得选择一个或持续改变数量的HRTFW便极大地改善再现体验。
[0101] 自适应音频系统传送的空间信息可W不仅由内容创建者使用来创建强制性的娱 乐体验(电影、电视、音乐等),而且空间信息也可W指示收听者相对于物理对象(诸如建筑 物或地理的感兴趣点)的位置。运将允许用户和与真实世界有关的虚拟化的音频体验相互 作用即,增大真实性。
[0102] 实施例还使得能够通过利用只有当对象音频数据不可用时才读取元数据来执行 增强的上混来进行空间上混。知道所有对象的位置和他们的类型允许上混器更好区别基于 声道的轨道内的元素。现有的上混算法必须推断诸如音频内容类型(讲话、音乐、环境效果) 之类的信息W及音频流内的不同元素的位置W便创建具有最小或没有可听到的伪迹的高 质量上混。常常推断的信息可能是不正确的或不适当的。在自适应音频的情况下,可从与例 如音频内容类型、空间位置、速度、音频对象尺寸等有关的元数据中获得的附加信息可W由 上混算法使用来创建高质量再现结果。该系统还通过准确地定位屏幕的音频对象到视觉元 素来空间地将音频匹配到视频。在该情况下,如果某些音频元素的再现的空间位置匹配屏 幕上的图象元素,则强制性的音频/视频再现体验是可能的,特别地在更大屏幕尺寸的情况 下。一个示例是在电影或电视节目中具有对话与正在屏幕上说话的人或角色在空间上一 致。通常的基于扬声器声道的音频的情况下,不存在容易的方法来确定对话应该被空间地 定位在哪里W便匹配屏幕上的角色或人的位置。利用自适应音频可用的音频信息,运种音 频/视觉对准可W被实现。视觉位置和音频空间对准也可W被用于非角色/对话对象(诸如 汽车、卡车、动画、等等)。
[0103] 空间掩蔽处理被系统100促进,因为通过自适应音频元数据对混合的空间意图的 认识意味着混合可W适应于任何扬声器配置。然而,由于回放系统限制,在相同的或几乎相 同的位置中下混对象存在风险。例如,如果环绕声道不存在,打算在左后部中摇移的对象可 能被下混到左前方,但是如果同时在左前方中出现更大声的元素,则下混的对象将被掩蔽 并且从混合中消失。使用自适应音频元数据,空间掩蔽可W由呈现器预期,并且每个对象的 空间和或响度下混参数可W被调节使得混合的全部音频元素保持正如原始的混合中可感 知的一样。由于呈现器明白混合和回放系统之间的空间关系,因此它具有"快移"对象到最 接近扬声器的能力而不是在两个或更多个扬声器之间创建幻像(phantom image)。虽然运 可能使混合的空间表示稍微失真,但是它也允许呈现器避免非故意的幻像。例如,如果混合 阶段的左扬声器的角位置不对应于回放系统的左扬声器的角位置,则使用快移到最接近扬 声器的功能可W避免回放系统再现混合阶段的左声道的恒定幻像。
[0104] 对于内容处理,自适应音频系统100允许内容创建者创建单独的音频对象和添加 关于可W被传送到再现系统的内容的信息。运允许在再现之前的音频处理中有大量灵活 性。从内容处理和呈现观点看,自适应音频系统使得处理能够适应于对象类型。例如,对话 增强可W被仅仅应用于对话对象。对话增强指的是处理包含对话的音频使得对话的能听度 和/或可懂度被增大和或改善的方法。在很多情况下被应用于对话的音频处理是对于非对 话音频内容(即音乐、环境效果等)不适当的并且可W导致令人不愉快的可听到的假象。利 用自适应音频,音频对象可W在一块内容中仅仅包含对话,并且它可W被相应地标记使得 呈现解决方案可W选择性地将对话增强仅仅应用于对话内容。另外,如果音频对象仅仅是 对话(并且不是经常情况的对话和其它内容的混合),则对话增强处理可W专口地处理对话 (由此限制对任何其它内容执行的任何处理)。同样地,低音管理(滤波、衰减、增益)可W基 于他们的类型指向特定的对象。低音管理指的是在特别的一块内容中选择性地隔离和仅仅 处理低音(或更低)频率。在当前的音频系统和传送机构的情况下,运是被应用于所有音频 的"盲(blind)"处理。利用自适应音频,适合进行低音管理的特定的音频对象可W通过元数 据被识别,并且可W适当地应用呈现处理。
[0105] 自适应音频系统100也提供基于对象的动态范围压缩和选择性的上混。传统的音 频轨道具有与内容本身相同的持续时间,但是音频对象可能仅仅在内容中出现有限量的时 间。与对象关联的元数据可W包含关于它的平均值和峰值信号振幅的信息W及它的发动 (onset)或冲击时间(特别地对于瞬时的材料)。运个信息将允许压缩器更好修改它的压缩 和时间常数(冲击、释放等)W便更好适应内容。对于选择性的上混,内容创建者可能选择在 自适应音频比特流中指示对象是否应该被上混。运个信息允许自适应音频呈现器和上混器 在考虑创建者的意图的同时区分哪些音频元素可W被安全地上混。
[0106] 实施例还允许自适应音频系统从许多可用的呈现算法和/或环绕声格式中选择偏 爱的呈现算法。可用的呈现算法的示例包括:两路立体声、立体声偶极、立体混响声、波场合 成(WFS)、多声道摇移(panning)、具有位置元数据的原始主干。其它包括双平衡和基于矢量 的振幅摇移。
[0107] 两路立体声的分发格式使用依据左右耳处出现的信号的声场的双声道的表示。两 路立体声的信息可W经由耳朵内记录被创建或使用皿TF模式被合成。两路立体声的表示的 回放典型地在头戴耳机之上进行,或者通过采用串扰消除进行。在任意的扬声器设立之上 回放将要求信号分析W便确定关联的声场和/或一个或多个信号源。
[0108] 立体声偶极呈现方法是跨声道(transaural)串扰消除处理W便制造可在立体声 扬声器(例如,W+和-10度偏屯、)之上播放的两耳的信号。
[0109] 立体混响声是W称为B格式的四声道的形式被编码的(分发格式和呈现方法)。第 一声道W是不定向的压力信号;第二声道X是包含前方和后部信息的定向压力梯度;第=声 道Y包含左和右并且Z包含上和下。运些声道定义整个声场在一点处的一阶样本。立体混响 声使用所有可用的扬声器来在扬声器阵列内再创建采样的(或者合成的)声场,使得当某些 扬声器正在推(pushing)时其它正在拉(pulling)。
[0110] 波场合成是基于通过二次源精确的构造期望的波场的声音再现的呈现方法。WFS 基于惠更斯原理,并且被实现为扬声器阵列(几十或者几百),其环绕收听空间并且W协同 的定相的方式操作W便重新创建每个单独的声波。
[0111] 多声道摇移是分发格式和/或呈现方法,并且可W被称为基于声道的音频。在该情 况下,声音被表示为要通过相等数的扬声器W从收听者定义的角度被回放的许多离散源。 内容创建者/混合者可W通过在相邻声道之间摇移信号来创建虚像W便提供方向提示;早 期反射、混响等可W被混合到许多声道中W便提供方向和环境提示。
[0112] 具有位置元数据的原始主干是分发格式,并且也可W被称为基于对象的音频。在 运个格式中,不同的"接近话筒的(close mic'edr声源与位置和环境元数据一起被表示。 虚拟源基于元数据和回放设备和收听环境被呈现。
[0113] 自适应音频格式是多声道摇移格式和原始主干格式的混合。本实施例中的呈现方 法是多声道摇移。对于音频声道,呈现(摇移)在创作时间处发生,但是对于对象呈现(摇移) 在回放处发生。
[0114] 元数据和自适应音频传输格式
[0115] 如上所述,元数据在创建阶段期间被产生W便对于音频对象对特定位置信息编码 和伴随音频节目来帮助呈现音频节目,并且特别地,W使得能够在各式各样的回放设备和 回放环境上呈现音频节目的方式描述音频节目。针对给定节目W及在后制作期间创建、收 集、编辑和操纵音频的编辑者和混合者产生元数据。自适应音频格式的重要特征是控制音 频将如何译为不同于混合环境的回放系统和环境的能力。特别地,给定电影可W具有比混 合环境更少的能力。
[0116] 自适应音频呈现器被设计成充分利用可用的设备来重新创建混合者的意图。此 夕h自适应音频创作工具允许混合者预览和调节混合将如何在各种回放配置上被呈现。所 有元数据值可W在回放环境和扬声器配置上被调节(con
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1