音频处理装置及其方法_4

文档序号：9439630阅读：来源：国知局

型式被再现，从而为用户渲染宽声音图像。这种方法的详细描述可在例如Kirkeby, Ole ；Nelson, Philip A.；Hamada, Hareo的“The ’ Stereo Dipole’: A Virtual Source Imaging System Using Two Closely SpacedLoudspeakers” (JAES 卷 46 期 5 页 387-395; 1998 年 5 月)中找到。
[0110]这在前扬声器设置由两个紧密间隔的扬声器组成的情况下例如当平板计算机用于观看电影时是有用的。
[0111]高保真度立体声响复制(ambisonics)清染:
高保真度立体声响复制渲染是基于分解(在记录侧处)和重建(在渲染侧处)在单个位置上的空间声场的空间音频编码和渲染方法。在记录中，特殊麦克风配置常常用于捕获声场的个体“球谐成分”。在再现中，通过从特殊扬声器设置渲染所记录的成分来重建原始声场。这种方法的详细描述可在例如在2003年3月22-25的第114届会议提出的J6rSmeDanieKRozenn Nicol 和 Sebastien Moreau 的“Further Investigat1ns of High OrderAmbisonics and Wavefield Synthesis for Holophonic Sound Imaging，，中找到。
[0112]这种渲染方法在下面的情况下特别有用:扬声器配置本质上等距地分布在收听者周围。在这样的情况下，高保真度立体声响复制渲染可提供比上面所述的任何方法更沉浸式的体验，且得到良好的体验的收听区域可以更大。
[0113]特别是，渲染扩散(环境)音频成分可能是有用的。该方法较不适合于无规律地放置的扬声器配置。
[0114]波场合成渲染:
这是使用扬声器的阵列来精确地重新创建在大收听空间内的原始声场的渲染方法。这种方法的详细描述可在例如Boone, Marinus Μ.；Verheijen, Edwin N.G.的“SoundReproduct1n Applicat1ns with Wave-Field Synthesis，，(AES Convent1n:104 (1998年5月)页号:4689)中找到。
[0115]它特别适合于基于对象的声场景，但也与其它音频类型(例如基于通道或场景的)兼容。限制是其只适合于具有间隔开不大于大约25 cm的大量扬声器的扬声器配置。在典型情况下，这基于扬声器或设备的阵列，其中多个个体的驱动器被围在同一壳体中。
[0116]最小二乘法优化渲染:
这是试图通过数字优化过程来实现规定的目标声场的通用渲染方法，在该数字优化过程中，扬声器位置被规定为参数且扬声器信号被优化例如以最小化在某个收听区域内的目标声场和再现的声场之间的差异。这种方法的详细描述可在例如Shin, Mincheol ；Fazi, Filippo M.；Seo, Jeongil ；Nelson, Philip A.的“Efficient 3-D Sound FieldReproduct1n” (AES Convent1n: 130 (2011 年 5 月)页号:8404)中找到。
[0117]在一些情况下，这些方法需要将麦克风放置到期望收听位置，以便捕获再现的声场。
[0118]将认识到，在一些实施例中，可针对每个渲染模式实施完全分离的渲染引擎。在其它实施例中，一些渲染算法/模式可共享至少一些功能。在很多实施例中，每个渲染模式可被实施为渲染固件算法，而所有算法在同一信号处理平台上执行。例如，渲染控制器709可针对每个音频换能器信号和音频成分，控制哪些渲染子例程由渲染器707调用。
[0119]在图8中图示可如何针对单个音频成分和单个音频换能器信号实施渲染器707的例子。
[0120]在该例子中，音频成分被馈送到多个渲染引擎801 (在特定的例子中，示出四个渲染引擎，但将认识到，在其它实施例中可使用更多或更少的渲染引擎)。每个渲染引擎801耦合到由渲染控制器709控制的开关。在该例子中，每个渲染引擎801可执行渲染算法以产生扬声器703的对应驱动信号。因此，开关803接收根据所有可能的渲染模式产生的驱动信号。它然后选择对应于已由清染控制器709选择的清染模式的驱动信号并输出此。开关803的输出耦合到组合器805，其在特定的例子中是求和单元。组合器805可接收为其它音频成分产生的对应驱动信号成分，并可接着组合驱动信号成分以产生被馈送到扬声器703的驱动信号。
[0121]将认识到，在其它例子中，可在渲染之前执行切换，即开关可以在到渲染引擎801的输入处。因此，只有对应于由渲染控制器709选择的渲染模式的渲染引擎被激活以产生音频成分的驱动信号，且这个渲染引擎的因而产生的输出耦合到组合器805。
[0122]也将认识到，为了清楚和简洁，图8示出独立地对每个音频成分操作的渲染引擎801。然而，在大部分典型应用中，渲染算法可以是更复杂的算法，其在产生音频信号时同时考虑多于一个音频成分。
[0123]类似地，将认识到，很多渲染算法为多个扬声器703产生输出。例如，幅值平移可为每个音频成分产生至少两个驱动信号成分。这些不同的驱动信号可例如被馈送到对应于不同的音频换能器的不同输出开关或组合器。
[0124]在很多实施例中，不同的渲染模式和算法可被预先确定和实施为音频处理装置701的部分。然而在一些实施例中，渲染算法可作为输入流的部分、即连同音频数据一起被提供。
[0125]在很多实施例中，渲染算法可被实施为应用于音频数据的时间-频率瓦片的矩阵操作，如本领域中的技术人员已知的那样。
[0126]在一些实施例中，可针对所有音频成分选择相同的渲染模式，即针对给定扬声器703，单个渲染模式可被选择并可应用于向从那个扬声器703渲染的声音提供贡献的所有音频成分。然而在其它实施例中，给定扬声器703的渲染模式针对不同的音频成分可以是不同的。
[0127]这可例如是在音频成分对应于环绕声系统的五个空间通道的情形中的情况。在可能的情形中，音频换能器位置数据可指示例如右后扬声器被定位于比标称位置更向前得多，且实际上被定位于收听者的前方和侧面处。同时，右前扬声器可被定位于比左前扬声器更中央处。在这样的例子中，使用幅值平移算法在右前扬声器和右后扬声器之间渲染前右通道可能是有利的。这可导致右前通道的所感知的位置进一步到前右扬声器的右边，并可特别导致前右和前左通道的对称感知的位置。同时，右后通道可从右后通道被渲染，但使用引入高扩散程度的渲染算法以便使右后扬声器位于过向前的事实模糊。因此，为右后扬声器选择的渲染模式对于右前通道音频成分和右后通道音频成分将是不同的。
[0128]在一些实施例中，所有音频成分可以是相同的音频类型。然而，音频处理装置701可在其中音频成分可具有不同类型的实施例中提供特别有利的性能。
[0129]特别地，音频数据可提供多个音频成分，多个音频成分可包括来自音频通道成分、音频对象成分和音频场景成分的组的多个音频类型。
[0130]在很多实施例中，音频数据可包括可被编码为个体的音频对象(例如特定的合成地产生的音频对象或布置成捕获特定的音频源例如单个乐器的麦克风)的多个成分。
[0131]每个音频对象一般对应于单个声源。因此，与音频通道和特别是常规空间多通道信号的音频通道相反，音频对象一般不包括来自可具有实质上不同的位置的多个声源的成分。类似地，每个音频对象一般提供声源的完全表示。每个音频对象因此一般与仅仅单个声源的空间位置数据相关。特别地，每个音频对象可一般被考虑为声音的单个和完整表示，并可与单个空间位置相关。
[0132]音频对象不与任何特定的渲染配置相关，且特别地不与声换能器/扬声器的任何特定空间配置相关。因此，和与渲染配置例如特定的空间扬声器设置(例如环绕声设置)相关的音频通道相反，不关于任何特定的空间渲染配置来定义音频对象。
[0133]音频对象因此一般是被处理为个体实例(例如歌手、乐器或合唱队)的单个或组合声源。一般，音频对象具有定义音频对象的规定位置和特别地音频对象的点源位置的相关空间位置信息。然而，这个位置独立于特定的渲染设置。对象(音频)信号是表示音频对象的信号。对象信号可包含例如在时间上不并发的多个对象。
[0134]单个音频对象也可包含多个个体的音频信号，例如来自不同方向的同一乐器的同时记录。
[0135]相反，音频通道与标称音频源位置相关。音频通道因此一般没有相关位置数据，但与在标称相关扬声器配置中的扬声器的标称位置相关。因此，虽然音频通道一般与在相关配置中的扬声器位置相关，音频对象不与任何扬声器配置相关。音频通道因此代表当使用标称扬声器配置执行渲染时应从给定标称位置渲染的组合音频。音频通道因此代表要求声成分从与通道相关的标称位置被渲染的音频场景的所有音频源，以便标称扬声器配置在空间上渲染音频源。音频对象相反一般不与任何特定的渲染配置相关，且替代地提供应从一个声源位置渲染的音频，以便相关声源成分被感知为起源于那个位置。
[0136]音频场景成分通过一组正交空间成分之一来表征，其中原始音频声场可在数学上被分解。
[0137]特别地，它可以是原始声场的一组正交球谐成分之一，这些正交球谐成分一起充分描述在原始声场内的规定位置处的原始声场。甚至更特别地，它可以是一组高阶高保真度立体声响复制(HOA)成分的单个成分。
[0138]音频场景成分通过它不直接表示扬声器信号的事实而与音频成分通道区分开。更确切地，每个个体的音频场景成分根据规定的平移矩阵贡献于每个扬声器信号。此外，音频成分通过它不包含关于单个个体声源的信息但更确切地包含关于存在于原始声场中的所有声源(“物理”源和“背景”源例如混响)的信息的事实而与音频对象区分开。
[0139]在实际的例子中，一个音频场景成分可包含在记录位置处的全向麦克风的信号，而三个其它音频场景成分包含正交地定位于与全向麦克风相同的位置处的三个速度(双向)麦克风的信号。额外的音频场景成分可包含更高阶麦克风的信号(物理信号或从球面麦克风阵列的信号的合成信号)。替代地，音频场景成分可合成地从声场的综合描述产生。
[0140]在一些实施例中，音频数据可包括音频成分，其可以是根据MPEG标准IS0/IEC23008-3 MPEG 3D Aud1的音频通道、音频对象和音频场景。
[0141]在一些实施例中，渲染模式的选择进一步取决于音频成分的音频类型。特别地，当输入音频数据包括不同类型的音频成分时，渲染控制器709可考虑此，并可为给定扬声器703的不同音频类型选择不同的渲染模式。
[0142]作为简单的例子，渲染控制器709可选择幅值平移渲染模式的使用以补偿被预期对应于高度局部化的源的音频对象的扬声器位置误差，并可使用解相关的渲染模式用于不被预期提供高度局部化的源的音频场景对象。
[0143]在很多实施例中，音频类型将由与音频对象一起接收的元数据指示。在一些实施例中，元数据可直接指示音频类型，而在其它实施例中，它可以是间接指示，例如通过包括只适用于一种音频类型的位置数据。
[0144]接收器705因此可接收这样的音频类型指示数据并将此馈送到当选择适当的渲染模式时使用它的渲染控制器709。相应地，渲染控制器709可针对具有不同类型的至少两个音频成分针对一个扬声器703选择不同清染模式。
[0145]在一些实施例中，渲染控制器709可包括不同组渲染模式以从不同的音频类型选择。例如，对于音频通道，第一组渲染模式可用于由渲染控制器709选择，对于音频对象，不同组渲染模式可以是可用的，以及对于音频场景对象，又一组渲染模式可以是可用的。
[0146]作为另一例子，渲染控制器709可首先产生包括通常适合于实际扬声器设置的可用渲染方法的子集。因此，渲染配置数据可用于确定可用渲染模式的子集。子集将因此取决于扬声器的空间分布。作为例子，如果扬声器设置由或多或少等距地分布在收听者周围的多个扬声器组成，则模块可推断出，基于矢量的幅值平移和高保真度立体声响复制渲染模式是可能的

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6