针对任意扬声器布局的音频对象的平移的制作方法_3

文档序号：9673301阅读：来源：国知局

果所需要的。例如，在一些实现中，与音频对象相关联的元数据可W指示也被称为"宽度"的音频对象大小。可W使用大小元数据来指示音频对象所占用的空间区域或体积。空间大的音频对象应该被感知为覆盖大的空间区域，而不仅仅被感知为具有只由音频对象位置元数据限定的位置的点声音源。在一些情形下，例如，大音频对象应该被感知为占用回放环境中的重要部分，可能甚至环绕听众。
[0063] 影院声轨可W包括均具有其相关联的位置元数据、大小元数据和可能其他空间元数据的数W百计的对象。此外，电影院声音系统可W包括数W百计的扬声器，运些扬声器可 W被单独控制，W提供令人满意的关于音频对象位置和大小的感知。在电影院中，因此，可 W通过数W百计的扬声器再现数W百计的对象，并且对象-扬声器信号映射由非常大的平移系数矩阵组成。当对象的数量是M并且扬声器的数量是N时，运个矩阵具有多达MXN个元素。
[0064] 诸如电视机、音频-视频接收器(AVR)和移动装置的消费装置的限制致使整个声轨 (各音频对象与其他音频对象分开)被传递到消费装置是不可行的。例如，家庭影院的音频处理能力、盘存储空间和比特率限制将通常与电影院声音系统的音频处理能力、盘存储空间和比特率限制并不相当。因此，一些实现可W设及简化为消费装置提供的音频数据的方法。运些实现可W包含"集群"过程，该过程组合在某个方面（例如，在空间位置、空间大小和/或内容类型方面)类似的音频对象的数据。运些实现可W例如防止对话被混入具有不期望元数据(诸如不靠近中央扬声器的位置或大群集大小）的群集中。W下，参照图5至图7B描述集群的一些示例。
[0065]通过对象集群进行场景简化
[0066] 出于下面描述的目的，术语"集群"和"分组"或"组合"可W互换地用于描述对象和/或音床(声道)的组合，该组合用W减少作为自适应音频回放系统中发送和呈现的自适应音频内容的单位的数据的量;并且术语"减少"可W用于指通过对象和音床的运种集群执行自适应音频的场景简化的动作。在运个描述中的术语"集群"、"分组"或"组合"并不限于对象或音床声道只严格唯一分派给单个群集，作为替代地，可W使用权重或增益矢量将对象或音床声道分布于多于一个的输出音床或者群集，权重或增益矢量确定对象或音床信号对于输出群集或输出音床信号的贡献。
[0067] 在一个实施例中，自适应音频系统包括至少一个组件，该组件被配置成通过由声道音床和对象的组合创建的空间场景的感知透明简化W及对象集群来减小基于对象的音频内容的带宽。运些组件执行的对象集群过程使用可W包括空间位置、对象内容类型、时间属性、对象大小等关于对象的某些信息，W通过将类似对象分组成取代原始对象的对象集群来降低空间场景的复杂度。
[0068] 用于基于原始复杂音床和音轨来分布和呈现扣人屯、弦的用户体验的标准音频编码的额外音频处理一般被称为场景简化和/或对象集群。运个处理的主要目的是通过集群或分组技术来减小空间场景，集群或分组技术减少了将被传递到再现装置的单独音频元件 (音床和对象）的数量，但仍然保持足够的空间信息，使得被感知到的原始创作的内容和呈现的输出之间的差异减至最小。
[0069] 场景简化过程可W有助于使用关于诸如空间位置、时间属性、内容类型、大小和/ 或其他合适特性的关于对象的信息W将对象动态地集群成减少的数量，进行在减小带宽的声道或编码系统中的对象加音床内容的呈现。运个过程可W通过执行下面的集群操作中的一个或多个来减少对象的数量：（1)将对象集群成对象；（2)将对象与音床进行集群;和(3) 将对象和/或音床集群成对象。另外，对象可W分布于两个或更多个群集。该过程可W使用关于对象的时间信息来控制对象的集群和分离。
[0070] 在一些实现中，对象群集用单个等效波形和元数据集合取代构成对象的个体波形和元数据元素，使得用于N个对象的数据被用于单个对象的数据取代，从而基本上将对象数据从N压缩成1。作为替代地或者附加地，对象或音床声道可W被分布于多于一个的群集(例如，使用幅度平移技术），从而将对象数据从N减少成M，其中，M<N。集群过程可W使用基于由于被集群对象的位置、响度或其他特性而导致的失真的误差度量来确定被集群对象的集群压缩与声音劣化之间的折衷。在一些实施例中，可W同步地执行集群过程。作为替代地或者附加地，集群过程可W是由事件驱动的，诸如通过使用听觉场景分析(ASA)和/或事件边界检测，W通过集群来控制对象简化。
[0071] 在一些实施例中，该过程可W利用端点呈现算法和/或装置的知识来控制集群。W 运种方式，可W使用回放装置的某些特性或性质来告知集群过程。例如，可W针对扬声器与耳机或其他音频驱动器利用不同的集群方案，或者可W针对无损编码与有损编码使用不同的集群方案，等等。
[0072] 图5是示出能够执行集群过程的系统的示例的框图。如图5中所示，系统500包括处理输入音频信号W产生处于减小的带宽的输出音频信号的编码器级504和解码器级506。在一些实现中，部分520和部分530可处于不同位置。例如，部分520可W对应于后期制作创作系统，并且部分530可W对应于诸如家庭影院系统的回放环境。在图5中示出的示例中，通过已知压缩技术来处理输入信号的一部分509,W产生经压缩的音频比特流505。经压缩的音频比特流505可W被解码器级506解码，W产生输出507的至少一部分。运种已知压缩技术可 W包含分析输入音频内容509,量化音频数据，然后对音频数据本身执行诸如掩蔽等的压缩技术。压缩技术可W是有损的或无损的，并且可W在可W允许用户选择诸如192kbps、 256化ps、512化PS等的压缩带宽的系统中实现。
[0073] 在自适应音频系统中，输入音频的至少一部分包括输入信号501，输入信号501包括音频对象，进而包括音频对象信号和相关联的元数据。元数据定义了诸如对象空间位置、对象大小、内容类型、响度等相关联音频内容的某些特性。可W通过回放系统处理任何实际数量的音频对象(例如，数W百计的对象）。为了有助于准确回放各式各样回放系统和传输介质中的大量对象，系统500包括集群过程或组件502，集群过程或组件502通过将原始对象组合成较少数量的对象群组，将对象的数量减少成较小的、更易管理的数量的对象。
[0074] 集群过程因此建立对象的群组，W从个体输入对象501的原始集合产生较小数量的输出群组503。集群过程502基本上处理对象的元数据W及音频数据本身，W生成数量减少的对象群组。可W分析元数据，W确定在任何时间点哪些对象最适合与其他对象组合，组合对象对应的音频波形可W被求和W生成替代或组合对象。在运个示例中，组合后的对象群组然后被输入编码器504,编码器504被配置成产生发送到解码器506的包含音频和元数据的比特流505。
[0075] 总体上，结合有对象集群过程502的自适应音频系统包括由原始空间音频格式生成元数据的组件。系统500包括被配置成处理包含传统基于声道的音频元素和音频对象编码元素二者的一个或多个比特流的音频处理系统的部分。可W在基于声道的音频编解码比特流或音频对象比特流中添加包含音频对象编码元素的扩展层。因此，在运个示例中，比特流505包括要由呈现器处理W与现有扬声器和驱动器设计或者利用可被单独寻址的驱动器和驱动器定义的下一代扬声器一起使用的扩展层。
[0076] 来自空间音频处理器的空间音频内容可W包括音频对象、声道和位置元数据。当对象被呈现时，可W根据回放扬声器的位置元数据和位置将对象分派给一个或多个扬声器。诸如大小元数据的额外元数据可与对象相关联，W改变回放位置或W其他方式限制将用于回放的扬声器。可W响应于工程师的混合输入在音频工作站中生成元数据W提供呈现提示，该呈现提示控制空间参数(例如，位置、大小、速率、强度、音色等），并且指明在展示期间收听环境中的哪个(些)驱动器或扬声器播放各个声音。可W在工作站中将元数据与各个音频数据相关联，W便由空间音频处理器进行封装并传送。
[0077] 图6是示出在自适应音频处理系统中能够对于对象和/或音床进行集群的系统的示例的框图。在图6中示出的示例中，能够执行场景简化任务的对象处理组件606读入任意数量的输入音频文件和元数据。输入音频文件包括输入对象602和相关联的对象元数据，并且可W包括音床604和相关联的音床元数据。运个输入文件/元数据因此对应于"音床"或 "对象"音轨。
[0078] 在运个示例中，对象处理组件606能够组合媒体智能(mediaintelligence)/内容分类、空间失真分析和对象选择/集群信息来创建较小数量的输出对象和音床音轨。特别地，通过相关联的对象/群集元数据，对象可W被集群在一起W创建新的等同的对象和/或对象群集608。对象还可被选择缩混至音床。运在图6中示出为缩混对象610的输出输入呈现器616,W便与音床612进行组合618,W形成输出音床对象和相关联的元数据620。输出音床配置620(例如，杜比5.1配置）不一定需要匹配输入音床配置，该输入音床配置例如对于 Atomos电影院而言可W是9.1。在运个示例中，通过组合来自输入音轨的元数据对于输出音轨生成新的元数据，并且还通过组合来自输入音轨的音频对于输出音轨生成新的音频数据。
[0079] 在运个实现中，对象处理组件606能够使用特定处理配置信息622。运个处理配置信息622可W包括输出对象的数量、帖大小和特定媒体智能设置。媒体智能可W设及确定对象的(或与对象相关联的）参数或特性，诸如内容类型（即，对话/音乐/效果等）、区域(片段/ 分类）、预处理结果、听觉场景分析结果和其他类似信息。例如，对象处理组件606可W能够确定哪些音频信号对应于语音、音乐和/或特效声音。在一些实现中，对象处理组件606能够通过分析音频信号来确定至少一些运样的特性。作为替代或者附加地，对象处理组件606可W能够根据诸如标签、标记等相关联的元数据确定至少一些运样的特性。
[0080] 在替代实施例中，可W通过保持参考所有原始音轨W及简化元数据(例如，哪些对象属于哪个群集，哪些对象将被呈现给音床等)来延迟音频生成。此信息可W例如可用于在影音室和编码室或其他类似场景之间分布场景简化过程的功能。
[0081] 依据W上描述，应该清楚，各群集可W接收来自多个音频对象的音频信号和元数据的组合。各音频对象的性质的贡献可W由规则集来确定。此规则集可W被认为是平移算法。在运个背景下，在给定各音频对象的音频信号和元数据W及各群集的位置的情况下，平移算法可W针对每个音频对象生成对应于各群集的信号的集合。代表群集的位置的点可W 在本文中被称

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6