针对任意扬声器布局的音频对象的平移的制作方法_3

文档序号:9673301阅读:来源:国知局
果所需要的。 例如,在一些实现中,与音频对象相关联的元数据可W指示也被称为"宽度"的音频对象大 小。可W使用大小元数据来指示音频对象所占用的空间区域或体积。空间大的音频对象应 该被感知为覆盖大的空间区域,而不仅仅被感知为具有只由音频对象位置元数据限定的位 置的点声音源。在一些情形下,例如,大音频对象应该被感知为占用回放环境中的重要部 分,可能甚至环绕听众。
[0063] 影院声轨可W包括均具有其相关联的位置元数据、大小元数据和可能其他空间元 数据的数W百计的对象。此外,电影院声音系统可W包括数W百计的扬声器,运些扬声器可 W被单独控制,W提供令人满意的关于音频对象位置和大小的感知。在电影院中,因此,可 W通过数W百计的扬声器再现数W百计的对象,并且对象-扬声器信号映射由非常大的平 移系数矩阵组成。当对象的数量是M并且扬声器的数量是N时,运个矩阵具有多达MXN个元 素。
[0064] 诸如电视机、音频-视频接收器(AVR)和移动装置的消费装置的限制致使整个声轨 (各音频对象与其他音频对象分开)被传递到消费装置是不可行的。例如,家庭影院的音频 处理能力、盘存储空间和比特率限制将通常与电影院声音系统的音频处理能力、盘存储空 间和比特率限制并不相当。因此,一些实现可W设及简化为消费装置提供的音频数据的方 法。运些实现可W包含"集群"过程,该过程组合在某个方面(例如,在空间位置、空间大小 和/或内容类型方面)类似的音频对象的数据。运些实现可W例如防止对话被混入具有不期 望元数据(诸如不靠近中央扬声器的位置或大群集大小)的群集中。W下,参照图5至图7B描 述集群的一些示例。
[0065]通过对象集群进行场景简化
[0066] 出于下面描述的目的,术语"集群"和"分组"或"组合"可W互换地用于描述对象 和/或音床(声道)的组合,该组合用W减少作为自适应音频回放系统中发送和呈现的自适 应音频内容的单位的数据的量;并且术语"减少"可W用于指通过对象和音床的运种集群执 行自适应音频的场景简化的动作。在运个描述中的术语"集群"、"分组"或"组合"并不限于 对象或音床声道只严格唯一分派给单个群集,作为替代地,可W使用权重或增益矢量将对 象或音床声道分布于多于一个的输出音床或者群集,权重或增益矢量确定对象或音床信号 对于输出群集或输出音床信号的贡献。
[0067] 在一个实施例中,自适应音频系统包括至少一个组件,该组件被配置成通过由声 道音床和对象的组合创建的空间场景的感知透明简化W及对象集群来减小基于对象的音 频内容的带宽。运些组件执行的对象集群过程使用可W包括空间位置、对象内容类型、时间 属性、对象大小等关于对象的某些信息,W通过将类似对象分组成取代原始对象的对象集 群来降低空间场景的复杂度。
[0068] 用于基于原始复杂音床和音轨来分布和呈现扣人屯、弦的用户体验的标准音频编 码的额外音频处理一般被称为场景简化和/或对象集群。运个处理的主要目的是通过集群 或分组技术来减小空间场景,集群或分组技术减少了将被传递到再现装置的单独音频元件 (音床和对象)的数量,但仍然保持足够的空间信息,使得被感知到的原始创作的内容和呈 现的输出之间的差异减至最小。
[0069] 场景简化过程可W有助于使用关于诸如空间位置、时间属性、内容类型、大小和/ 或其他合适特性的关于对象的信息W将对象动态地集群成减少的数量,进行在减小带宽的 声道或编码系统中的对象加音床内容的呈现。运个过程可W通过执行下面的集群操作中的 一个或多个来减少对象的数量:(1)将对象集群成对象;(2)将对象与音床进行集群;和(3) 将对象和/或音床集群成对象。另外,对象可W分布于两个或更多个群集。该过程可W使用 关于对象的时间信息来控制对象的集群和分离。
[0070] 在一些实现中,对象群集用单个等效波形和元数据集合取代构成对象的个体波形 和元数据元素,使得用于N个对象的数据被用于单个对象的数据取代,从而基本上将对象数 据从N压缩成1。作为替代地或者附加地,对象或音床声道可W被分布于多于一个的群集(例 如,使用幅度平移技术),从而将对象数据从N减少成M,其中,M<N。集群过程可W使用基于由 于被集群对象的位置、响度或其他特性而导致的失真的误差度量来确定被集群对象的集群 压缩与声音劣化之间的折衷。在一些实施例中,可W同步地执行集群过程。作为替代地或者 附加地,集群过程可W是由事件驱动的,诸如通过使用听觉场景分析(ASA)和/或事件边界 检测,W通过集群来控制对象简化。
[0071] 在一些实施例中,该过程可W利用端点呈现算法和/或装置的知识来控制集群。W 运种方式,可W使用回放装置的某些特性或性质来告知集群过程。例如,可W针对扬声器与 耳机或其他音频驱动器利用不同的集群方案,或者可W针对无损编码与有损编码使用不同 的集群方案,等等。
[0072] 图5是示出能够执行集群过程的系统的示例的框图。如图5中所示,系统500包括处 理输入音频信号W产生处于减小的带宽的输出音频信号的编码器级504和解码器级506。在 一些实现中,部分520和部分530可处于不同位置。例如,部分520可W对应于后期制作创作 系统,并且部分530可W对应于诸如家庭影院系统的回放环境。在图5中示出的示例中,通过 已知压缩技术来处理输入信号的一部分509,W产生经压缩的音频比特流505。经压缩的音 频比特流505可W被解码器级506解码,W产生输出507的至少一部分。运种已知压缩技术可 W包含分析输入音频内容509,量化音频数据,然后对音频数据本身执行诸如掩蔽等的压缩 技术。压缩技术可W是有损的或无损的,并且可W在可W允许用户选择诸如192kbps、 256化ps、512化PS等的压缩带宽的系统中实现。
[0073] 在自适应音频系统中,输入音频的至少一部分包括输入信号501,输入信号501包 括音频对象,进而包括音频对象信号和相关联的元数据。元数据定义了诸如对象空间位置、 对象大小、内容类型、响度等相关联音频内容的某些特性。可W通过回放系统处理任何实际 数量的音频对象(例如,数W百计的对象)。为了有助于准确回放各式各样回放系统和传输 介质中的大量对象,系统500包括集群过程或组件502,集群过程或组件502通过将原始对象 组合成较少数量的对象群组,将对象的数量减少成较小的、更易管理的数量的对象。
[0074] 集群过程因此建立对象的群组,W从个体输入对象501的原始集合产生较小数量 的输出群组503。集群过程502基本上处理对象的元数据W及音频数据本身,W生成数量减 少的对象群组。可W分析元数据,W确定在任何时间点哪些对象最适合与其他对象组合,组 合对象对应的音频波形可W被求和W生成替代或组合对象。在运个示例中,组合后的对象 群组然后被输入编码器504,编码器504被配置成产生发送到解码器506的包含音频和元数 据的比特流505。
[0075] 总体上,结合有对象集群过程502的自适应音频系统包括由原始空间音频格式生 成元数据的组件。系统500包括被配置成处理包含传统基于声道的音频元素和音频对象编 码元素二者的一个或多个比特流的音频处理系统的部分。可W在基于声道的音频编解码比 特流或音频对象比特流中添加包含音频对象编码元素的扩展层。因此,在运个示例中,比特 流505包括要由呈现器处理W与现有扬声器和驱动器设计或者利用可被单独寻址的驱动器 和驱动器定义的下一代扬声器一起使用的扩展层。
[0076] 来自空间音频处理器的空间音频内容可W包括音频对象、声道和位置元数据。当 对象被呈现时,可W根据回放扬声器的位置元数据和位置将对象分派给一个或多个扬声 器。诸如大小元数据的额外元数据可与对象相关联,W改变回放位置或W其他方式限制将 用于回放的扬声器。可W响应于工程师的混合输入在音频工作站中生成元数据W提供呈现 提示,该呈现提示控制空间参数(例如,位置、大小、速率、强度、音色等),并且指明在展示期 间收听环境中的哪个(些)驱动器或扬声器播放各个声音。可W在工作站中将元数据与各个 音频数据相关联,W便由空间音频处理器进行封装并传送。
[0077] 图6是示出在自适应音频处理系统中能够对于对象和/或音床进行集群的系统的 示例的框图。在图6中示出的示例中,能够执行场景简化任务的对象处理组件606读入任意 数量的输入音频文件和元数据。输入音频文件包括输入对象602和相关联的对象元数据,并 且可W包括音床604和相关联的音床元数据。运个输入文件/元数据因此对应于"音床"或 "对象"音轨。
[0078] 在运个示例中,对象处理组件606能够组合媒体智能(mediaintelligence)/内容 分类、空间失真分析和对象选择/集群信息来创建较小数量的输出对象和音床音轨。特别 地,通过相关联的对象/群集元数据,对象可W被集群在一起W创建新的等同的对象和/或 对象群集608。对象还可被选择缩混至音床。运在图6中示出为缩混对象610的输出输入呈现 器616,W便与音床612进行组合618,W形成输出音床对象和相关联的元数据620。输出音床 配置620(例如,杜比5.1配置)不一定需要匹配输入音床配置,该输入音床配置例如对于 Atomos电影院而言可W是9.1。在运个示例中,通过组合来自输入音轨的元数据对于输出音 轨生成新的元数据,并且还通过组合来自输入音轨的音频对于输出音轨生成新的音频数 据。
[0079] 在运个实现中,对象处理组件606能够使用特定处理配置信息622。运个处理配置 信息622可W包括输出对象的数量、帖大小和特定媒体智能设置。媒体智能可W设及确定对 象的(或与对象相关联的)参数或特性,诸如内容类型(即,对话/音乐/效果等)、区域(片段/ 分类)、预处理结果、听觉场景分析结果和其他类似信息。例如,对象处理组件606可W能够 确定哪些音频信号对应于语音、音乐和/或特效声音。在一些实现中,对象处理组件606能够 通过分析音频信号来确定至少一些运样的特性。作为替代或者附加地,对象处理组件606可W能够根据诸如标签、标记等相关联的元数据确定至少一些运样的特性。
[0080] 在替代实施例中,可W通过保持参考所有原始音轨W及简化元数据(例如,哪些对 象属于哪个群集,哪些对象将被呈现给音床等)来延迟音频生成。此信息可W例如可用于在 影音室和编码室或其他类似场景之间分布场景简化过程的功能。
[0081] 依据W上描述,应该清楚,各群集可W接收来自多个音频对象的音频信号和元数 据的组合。各音频对象的性质的贡献可W由规则集来确定。此规则集可W被认为是平移算 法。在运个背景下,在给定各音频对象的音频信号和元数据W及各群集的位置的情况下,平 移算法可W针对每个音频对象生成对应于各群集的信号的集合。代表群集的位置的点可W 在本文中被称
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1