改善最佳收听区域内的声场渲染精度的方法和设备的制作方法

文档序号:7941096阅读:336来源:国知局
专利名称:改善最佳收听区域内的声场渲染精度的方法和设备的制作方法
技术领域
本发明涉及一种使用多个扬声器根据第一音频输入信号的声场再现(reproduction)方法和设备,所述多个扬声器旨在合成其中没有放置扬声器的最佳收听 区域内的声场,所述声场被描述为从虚拟源发出,所述方法包括步骤根据源自曲面积分 (surface integral)的声场再现技术使用虚拟源描述数据和扬声器描述数据来计算定位 滤波器系数;和应用定位滤波器系数来过滤所述第一音频输入信号,以便形成第二音频输 入信号。
背景技术
声场再现是指扩展空间部分内的声波场(acoustic wave field)的物理属性的 合成。这种框架能够摆脱基于立体声的声音再现技术中关于听众定位约束的公知限制,即 所谓的“最佳听音位置(sweet spot)”。该最佳听音位置是其中依赖于立体声原理的幻觉 (illusion)有效的小区域。在两声道立体声的情况下,如果听众位于扬声器中线上,则歌 手的嗓音可能位于两个扬声器的中间。这种幻觉被称作幻象声源成像(phantom source imaging)。它是通过向两个扬声器馈送相同信号而简单形成的。然而如果听众移动,则该 幻觉消失,并且该嗓音将在最近的扬声器上听到。因此,幻象声源成像在“最佳听音位置”以 外是不可能的。通常假设听众离每个扬声器一段等于扬声器间隔(spacing)的距离。这使得人们 能够定义所谓的“摇摄定律(panning laws) ”以便在距听众一给定角坐标处安置一虚拟源。 然而,如果听众刚好位于该最佳听音位置处,则这可能被感受到。声场再现技术在听众位置方面不进行任何假设。虚拟声音成像通过合成目标声场 来实现。存在三种方法来描述目标声场·基于对象的描述,·基于波的描述,·表面描述。在基于对象的描述中,目标波场被描述为声源的集合(ensemble)。每个源进一步 通过它的位置相对于给定参考点及其辐射特性来定义。根据该描述,声场可以在任一空间 点被估计。在基于波的描述中,目标声场被分解为所谓的“空间独立的波分量”,其提供目标 声场的空间特性的唯一表示。根据所选的坐标,空间独立的波分量通常是 柱面谐波(极坐标),·球面谐波(球面坐标), 平面波(笛卡尔坐标)。为了准确地描述声场,基于波的描述需要无限数量的空间独立的波分量。实际上, 使用有限数量的分量,这会给出一种在减少的空间部分中保持有效的声场的描述。最后,表面描述依赖于在子空间Ω的边界处的目标声场的压力和/或压力梯度的 常规分量的连续描述。根据该描述,目标声场可以在完整的子空间Ω中使用所谓的曲面积分(Rayleigh 1,Rayleigh 2 和 Kirchhoff-Helmholtz 积分)得以估计。应当注意,存在将使用一种方法的描述变换到另一种方法的转换 (transformation) 0例如,通过在子空间Ω的边界处外推由声学对象辐射的声场,在表面 描述中能够容易地转换基于对象的描述。在过去几年中,已经研发了数种方法来合成扩展收听区域中的目标波场。这些方 法中的一种方法依赖于通过使用多个扬声器来重建由虚拟源发出的声场的波阵面的曲率 (基于对象的描述)。该方法已被 A. J. Berkhout 在"Aholographic approach to acoustic control,,(Journal of the Audio Eng. Soc. , Vol. 36, pp 977-995,1988)中公开并且己知 为名称"Wave Field Synthesis,,。第二种方法依赖于波场被分解为空间独立的波场分量,例如球状谐波或圆柱状 谐波(基于波的描述)。该第二种方法已被M.A. Gerzon在“Ambisonicin multichannel broadcasting and video" (Journal of the Audio EngineeringSociety, vol.33, pp. 859-871,1985)中公开。两种方法被数学地关联,如由J6r0meDaniel、Rozenn Nicol 和S6bastienMoreau 在"Further Investigations of High Order Ambisonics and WavefieldSynthesis for Holophonic Sound Imaging(Audio Engineering Society,Proceedings of the 114th AES Convention, Amsterdam, The Netherlands, March22_25,2003),,中公开。它们通常被称作 Holophonic (全体声音的)方法。理论上,这些方法允许在所有三维空间中控制某一听音区内的波场。然而,这仅当 使用无限数量的扬声器(连续分布的扬声器)时才正确。实际上,使用有限数量的扬声器 会在合成的声场中导致物理的不准确性。举例来说,波场合成(Wave Field Synthesis)源自Rayleigh (瑞利)1积分,其要 求连续平面无限分布的理想全向辅助源(扬声器)。使用三次连续逼近从Rayleigh 1积分 (假设虚拟源和听众处于相同的水平面)来推导波场合成1.将无限平面化成简位于源和听众所在的水平面中的无限线条,2.将无限线条化成简适合试听室的线段(segmen),3.将该线段空间取样成扬声器所在的有限数量的位置。在这些逼近之后,将扬声器阵列认为是声学孔径(acoustical aperture),通过该 声学孔径,输入声场(如从目标声源发出)传播到扩展的且仍有限的收听区域。简单的几何 学考虑使得人们能够定义源/扬声器可视区域(source/loudspeaker visibility area), 在该源/扬声器可视区域中虚拟源通过扬声器阵列“可视”。术语“可视”此处是指连接虚 拟源和听众的直线与扬声器所在的线段交叉。该源/扬声器可视区域25显示在图1中,其 中虚拟源5通过仅在有限空间部分中的扬声器2阵列可视。它勾勒了其中目标声场可被适 当地合成的所述有限区域,如由 Ε. W. Start 在 “Direct Sound Enhancement byffave Field Synthesis,, (Ph.D.Thesis,Technical University Delft,Delft,TheNetherlands(1997)) 中公开的。源相反地可仅位于有限区域中,以便它们在整个收听区域内保持可视,如由 E. Corteel ^"Equalization in extended area using multichannel inversionand wave field synthesis,,(Journal of the Audio Engineering Society, vol. 54, no. 12,2006)中公开的。图2描述了考虑收听区域6和扬声器2阵列扩展的合成源定位区域31。通过在收听区域周围添加辅助的扬声器阵列可以扩展源定位区域。考虑 所获得的扬声器阵列几何学,Rayleigh 1积分并不再适用。因此使用类似的逼近从 Kirchhoff-Helmholtz积分推导扬声器驱动信号·逼近1 将辅助源表面化成简在水平面中的线性分布,·逼近2 选择相关的扬声器,·逼近3 将连续分布取样成有限数量的成行扬声器,如由 R. Nicol 在 “Restitution sonore spatialisee sur une zone etendue applicationala telepresence" (Ph. D. thesis, Universitedu Maine, Le Mans, Fance, 1999)中公开的。在Kirchhoff-HelmhoItz积分的最初公式中,辅助源分布由理想的全向源(单极) 和理想的双向源(双极)组成。然而,如由R. Nicol在“Restitutionsonore spatialisee sur une zone etendue !application ala telepresence" (Ph.D.thesis, Universitedu Maine, Le Mans, Fance, 1999)中公开的,扬声器阵列可被分为两类(相关扬声器和不相关 扬声器),如下1.单极和双极的作用(contribution)是同相的(相关扬声器),2.单极和双极的作用是异相的(不相关扬声器)并且倾向于彼此补偿。如果虚拟源位于收听区域之外,则可以根据虚拟源和辅助源的位置使用简单的几 何标准来进行相关扬声器与不相关扬声器的鉴别。在虚拟源位于收听区域内(也被称作聚 焦源)的情况下,选择标准也应当考虑参考位置,如在DE 10328335中公开的。通过单极和双极发出的声场具有几乎相似的时空特性。然而,相关单极和相关 双极是同相的,并且趋向于仅产生双声压级(double sound pressurelevel),而不相关 单极和不相关双极是异相的,并且仅趋向于彼此补偿。因此,仅相关单极可用于目标声场 的合成。这是有益的,因为大多数可用的扬声器具有更全向的辐射特性。使用“曲面积 分”的简化可以定义根据全体声音原理的更一般分类的声场渲染(rendering)技术,如由 R.Nicol ^"Restitutionsonore spatialisee sur une zone etendue !application ala telepresence" (Ph. D. thesis, Universitedu Maine, Le Mans, Fance, 1999)中公开白勺。■ 出的简化包括1.减少所需扬声器分布的空间扩展(对于波场合成的逼近1和2),2.所需扬声器分布的空间取样(对于波场合成的逼近3)。对于这些“曲面积分”(Rayleigh 1和Kirchhoff-Helmholtz)的先前定义的逼近 介绍了相对于目标声场在合成声场中的不准确性,如由E. Corteel在“Caract6risation et extensions de la Wave Field Synthesis en conditions reelles,, (UniversiteParis 6,PhD thesis,Paris, 2004)中公开的。在波场合成的情况下,将辅助源表面化简成水平面 中的线性分布(逼近1)将该技术限制为再现水平面中的虚拟源(2D再现)并且与目 标相 比修改声场的级别。逼近2引入了衍射伪差(diffraction artefact),其可以通过逐渐减 少位于阵列末端处的扬声器来减少。逼近1和2极大地降低了渲染系统的性能(收听区域 的大小、虚拟源的定位)。就在收听区域内的给定位置处的着色或定位精度而言,它们几乎 不修改听众所感知的声场的质量,如由E. Corteel ^ "Caracterisation etextensions deIa Wave Field Synthesis en conditions reelles,, (UniversiteParis 6, PhD thesis, Paris, 2004)中公幵的。逼近3将目标波场的精确再现仅限制于低于某一频率,空间取样 处理的Nyquist频率,这通常被称作“空间混叠频率”。该空间取样在虚拟源的定位和染色 方面带来被感知伪差的不准确性,如由E. CorteeU K. V. NGuyen. 0. WarusfeU T. Caulkins 禾口 R. S. Pellegrini 在"Objectiveand subjective comparison of electrodynamic and MAP loudspeakers for WaveField Synthesis,,(30th international conference of the Audio Engineering Society, 2007)中公幵的。 该空间取样处理对于基于曲面积分的任何声场再现技术来说都是强制性任务,因 为当前可用的换能(transduction)技术不能持续地控制声源的辐射(持续扬声器分布)。 该表面必须被空间地取样,并且这会引起空间混叠伪差,降低了合成的声场的质量。空间取 样处理对声场再现系统来说是关键成本因素,因为它决定了扬声器和声道的数量以便使用 数字信号处理技术来进行独立地控制。对于波场合成增加空间混叠频率的解决方案已被Evert Start在“DirectSound Enhancement by Wave Field Synthesis,,(PhD thesis,Delft University ofTechnology, the Netherlands, 1997)中提出。它包括合成具有定向指数(directivity index)的虚 拟源,该定向指数是取决于扬声器间隔的频率的递增函数。该提出的方法也要求扬声器具 有相同的辐射特性。然而,该方法在操纵虚拟源的辐射特性上以及在扬声器的所需辐射特 性上受到约束。后者是最有问题的方面,因为大多数现有的扬声器不具有所需的辐射模式。增加空间混叠频率的另一种解决方案已被Etienne Corteel在“On the useof irregularly spaced loudspeaker arrays for Wave Field Synthesis,potential impact on spatial aliasing frequency" (DAFX06,2006, 可 在 http//www, dafx. ca/ proceedinRs/papers/p 209. pdf中获得)中公开。它包括使用不规则间隔的扬声器阵列 来增加波场合成的空间混叠频率。它显示出双对数间隔的阵列相对于规则间隔的扬声器阵 列(具有相同数量的扬声器和相同长度),空间混叠频率可能增加20%。然而,混叠频率的 增加仅对于位于收听区域之外的源有效。对于位于收听区域内的源(或者称作“聚焦源”), 该扬声器排列与等效的规则间隔的阵列相比减少了空间混叠频率。从收听环境的室内音响效果将会预料到附加的渲染不精确性,如由E. Corteel和 R. Nicol 在"Listening room compensation for wave field synthesis. What can be done ?,,(Proceedings of the 23rd Convention of the AudioEngineering Society, Helsing0r, Danemark, June 2003)中公开的。渲染声音系统总是与收听室相互影响,因此 听众不能感知目标虚拟声场,但是能感知该后者与收听室效果之间的混合物。局部反射和 回响被收听室添加到由扬声器产生的声场,因此听众感知的声场可能或多或少地与期望的 结果有所不同。最明显的效果取决于能够产生声染色、距离感知失真和角定位错误的最初 10-30ms内的早期反射。对于小的收听室,房间式样也可在低频听到,降低了清晰度并且 产生声染色,如由 R. S. Pellegrini 在“AVirtual Listening Room asan Application of Auditory Virtual Environments" (Ph. D. Thesis, Ruhr Universitat Bochum, Germany, 2001)中公开。为了去除收听室相互影响,一种方式包括考虑没有回音的收听环境或者借助耳 机重放。但是这些解决方案对于大多数应用而言并不真正地方便。应付该问题的一种更普通的方式是通过场所补偿策略而提出的,其旨在抵消——或者更实际地减少——收听室 对听众所感知之的虚拟声场的影响。场所补偿旨在使用多声道逆滤波技术来抵消收听环 境的音响效果,如由 E. Corteel 在 “Caract6risation et extensions de la Wave Field Synthesis en conditions reelles,, (UniversiteParis 6, PhD thesis, Paris,2004)中 公开的。这些技术考虑减少大收听区域内的某些早期反射的级别。然而,它们在所需的处 理功率上具有严重的局限性,并且它们遭受减少现实情形中的效率的重大实际和理论限 制,如由 E. Corteel 在 “Caract6risation et extensions de la Wave Field Synthesis enconditions reelles" (UniversiteParis 6, PhD thesis, Paris, 2004)中公开白勺。计算空间混叠频率的一个公式已被Etienne Corteel在“On the use ofirregularly spaced loudspeaker arrays for Wave Field Synthesis, potential impacton spatial aliasing frequency" (DAFX06,2006,可在 http://www, dafx. ca/ proceedings/papers/p 209. pdf中获得)中提出。与先前已知的公式相反,该提出的公式 能够考虑有限长度的扬声器阵列以及收听位置的相关性。它基于在给定收听位置处扬声器 对于使用波场合成的虚拟源合成的贡献的到达时间。在图4,对于具有相同扬声器间间隔 (12. 5厘米)但是具有不同长度(1米、2米、5米)的各种扬声器阵列,显示了利用所提出 的公式计算的空间混叠频率。图3呈现了所考虑的配置的顶视图,其中黑星代表扬声器,空 心圆点代表收听位置,并且实心圆点代表虚拟源。这种模拟显示与长扬声器阵列相比,利 用短阵列会获得大增加的空间混叠频率。在这种配置中,我们假设1米宽度的受限收听区 域。因此,减少扬声器阵列的长度可被认为是增加混叠频率的解决方案。然而,这个解决方 案遭受与有限长度的扬声器阵列相关的各种伪差。首先,源可视区域(如图2中所述)非 常有限,其严重地限制了声音再现系统的实际使用。典型地,使用1米长的扬声器阵列可以 再现仅距图3的中央收听位置的-10与10度之间的源,而在使用5米长的扬声器阵列满足 可视约束的同时可以再现从-50与50度的源。其次,有限长度的扬声器阵列与长扬声器阵 列相比可以带来更明显的衍射伪差。这些伪差可以通过逐渐减少位于阵列的末端处但仅在 高频的扬声器来精确地补偿,如由E. Corteel在“Caract6risation et extensions de la Wave Field Synthesis enconditions reelles"(UniversiteParis 6,PhD thesis,Paris, 2004)中公开的。图5示出了对于图3中示出的虚拟源的合成、使用波场合成的各长度的扬声器阵 列的定向指数。定向指数被定义为在正方向上(即在收听区域内)传递的声能与在所有方 向上传递的平均声能之间的频率相关比率。定向指数随后说明了某一方向上(此处是收听 区域)的声能的密度。定向指数越高,收听室中扩展的声能量越低。因此,由于收听室音响 效果不使用复杂有效的收听室补偿过程,高定向指数对应于降低的渲染伪差。可以看出,通 过减小扬声器阵列的长度,它的定向指数增加,尤其是在800Hz以上的频率,对于该频率,1 米长的扬声器阵列具有最高的定向指数。然而,在低频率处,使用更短的扬声器阵列会获得 高定向指数。2米长的阵列在150Hz和800Hz之间具有最高定向指数,并且5米长的扬声器 阵列在150Hz以下具有最高定向指数。声场再现技术不做先验假设听众的位置允许扩展区域内的声场的再现。对于波 场合成,该区域通常可能跨越整个收听室。然而,在室内可能有听众从来不在的位置,因为 存在家具或简单地因为它们的任务或情形不需要如此。因此,最佳收听区域可被限定为其中听众可能最佳站立的地方以及声音再现伪差将被限制的地方。

发明内容
本发明的目的是增加最佳受限制收听区域(其中听众可以站在给定数量且空间 布置的扬声器前)内的空间混叠频率。本发明的另一目的是考虑给定混叠频率和给定的收 听区域扩展来限制所需的扬声器的数量,以便对于声场再现产生成本有效的解决方案。本 发明的目的还在于限制再现系统与收听室的相互作用,以便自动地减少收听室音响效果对 听众所感知的声场的影响。本发明包括这样一种方法和设备,即其中,定义用于合成与受限制最佳收听区域 内的虚拟源相关的目标声场的每个扬声器的重要性的等级。基于该等级,源自第一输入信 号的扬声器的提供信号被修改,以便通过仅使用对受限制最佳收听区域内的目标声场的合 成明显有益的扬声器来构建“事实上更短的扬声器阵列”,增加空间混叠频率。取代使用物理上更短的阵列(其在虚拟源的定位方面受到限制),本发明提出了 降低位于源/听众可视区域之外的扬声器的提供(alimentation)信号的级别。图6描述 了用于根据虚拟源5的位置和最佳收听区域扩展构建事实上更短的扬声器阵列的相关联 的扬声器选择处理。在该附图中,根据虚拟源5位置定义相关的源/听众可视区域30,以便 它包括整个最佳收听区域6。因此位于源/听众可视区域2. 1内的扬声器可被选择来形成 事实上更短的阵列。另外,虚拟扬声器阵列的长度可以是频率相关的,以便通过在低频构建 比高频事实上更长的扬声器阵列来最大化定向指数(参考图5)。本发明提出了一种更通用 的公式,其定义一种对应于所考虑扬声器的重要性的扬声器等级,用以合成受限制的收听 区域内的目标声场。换句话说,介绍一种使用多个扬声器根据第一音频输入信号的声场再现方法和装 置,所述多个扬声器旨在合成其中没有放置扬声器的最佳收听区域内的声场,所述声场被 描述为从虚拟源发出。所述方法包括步骤根据源自曲面积分的声场再现技术使用虚拟源 描述数据和扬声器描述数据来计算定位滤波器系数。使用定位滤波器系数来修改所述第一 音频输入信号,以便形成第二音频输入信号。因此,计算代表每个扬声器对于所述最佳收听 区域内的声场的合成的重要性的扬声器等级数据。然后,根据所述扬声器等级数据修改所 述第二音频输入信号以形成第三音频输入信号。最后,对扬声器提供第三音频输入信号并 且合成声场。而且,所述方法可以包括步骤其中,所述扬声器等级数据是使用虚拟源描述数 据、扬声器描述数据和收听区域描述数据定义的。并且所述方法可以还包括步骤 其中,所述扬声器等级对于位于源/听众可视区域外的扬声器比对于位于源/听 众可视区域内的扬声器通常要低。·其中,源/听众可视区域被定义为在包括整个最佳收听区域的虚拟源处的最小 立体角。 其中,位于源/听众可视区域外的扬声器的扬声器等级是扬声器到源/听众可视 区域的边界的距离的递减函数。·其中,扬声器等级数据是通过扬声器的位置到连接虚拟源的位置与最佳收听区 域中的参考收听位置的连线的距离的递减函数而定义的。
9
·其中,修改第二音频输入信号以便形成扬声器的输入信号暗示至少减小具有低 等级的扬声器的第二音频输入信号的级别。 其中,具有低等级的扬声器的第二音频输入信号的级别降低是频率相关的。·其中,根据扬声器等级数据修改第二音频输入信号以形成第三音频输入信号的 步骤被执行,以便在最佳收听区域中增加在用于计算定位滤波器系数的声场渲染技术的定 义中与所需的扬声器分布的空间取样相关的Nyquist频率。而且,本发明包括一种使用多个扬声器根据第一音频输入信号的声场再现装置, 所述多个扬声器旨在合成其中没有放置扬声器的最佳收听区域内的声场,所述声场被描述 为从虚拟源发出。所述装置包括定位滤波器计算装置,用于使用虚拟源描述数据和扬声器 描述数据来计算多个定位滤波器;声场滤波装置,用于使用定位滤波器根据所述第一音频 输入信号来计算第二音频输入信号。所述装置的特征在于,扬声器等级计算装置,用于计算 代表每个扬声器对于所述最佳收听区域内的声场的合成的重要性的扬声器等级数据;收听 区域适应计算装置,用于根据扬声器等级来修改所述第二音频输入信号,并且形成供给扬 声器的第三音频输入信号。而且,所述装置可以优选地包括以下元件·其中,所述收听区域适应计算装置包括修改滤波器系数计算装置用以计算修改 滤波器系数。 其中,所述收听区域适应计算装置也包括第二音频输入信号修改装置,其使用修 改滤波器系数来修改所述第二音频输入信号。


下文中将借助示例并且参考附图来更详细地描述本发明,其中图1描述了源/扬声器可视区域。图2描述了源定位区域。图3表现所考虑的扬声器、收听位置和虚拟源配置的顶视图。图4显示了对于各扬声器阵列(它们具有相同的扬声器之间间隔(12. 5厘 米)但是具有不同的长度(1米,2米,5米))的、在图3中示出的收听位置处的空间混叠频率。图5示出了使用波场合成对于图3中显示的虚拟源的合成的各长度的扬声器阵列 的定向指数。图6描述了用于根据虚拟源位置和最佳收听区域扩展构建事实上更短的扬声器 阵列的选择过程。图7描述了根据现有技术的声场渲染设备。图8描述了根据本发明的声场渲染设备。图9描述了提取扬声器等级数据的第一种方法。图10描述了提取扬声器等级数据的第二种方法。图11描述了收听区域适应计算装置。图12到图15描述了本发明的其它实施例。
具体实施例方式图1到图5已在说明书的介绍部分进行了讨论,并且完全代表现有技术。因此在 这个阶段不再对这些附图进行讨论。图6已被描述并且在这个阶段也不再进行讨论。图7描述了根据现有技术的声场渲染设备。在该设备中,声场滤波装置14使用定 位滤波器系数7根据第一音频输入信号1计算多个第二音频信号3。在定位滤波器计算装 置15中根据虚拟源描述数据8和扬声器描述数据9来计算所述定位滤波器系数7。相对于 参考位置35定义扬声器2和虚拟源5的位置(被包含在虚拟源描述数据8和扬声器描述 数据9中)。第二音频信号3驱动合成声场4的多个扬声器2。图8描述了根据本发明的声场渲染设备。在该设备中,声场滤波装置14使用定位 滤波器系数7 (其是在定位滤波器计算装置15中根据虚拟源描述数据8和扬声器定位数据 9计算的)根据第一音频输入信号1计算多个第二音频信号3。相对于参考位置35定义扬 声器2和虚拟源5的位置(被包含在虚拟源描述数据8和扬声器描述数据9中)。收听区 域适应计算装置16使用在扬声器等级计算装置17中从虚拟源描述数据8、扬声器定位数据 9和收听区域描述数据10得到的扬声器等级数据11,根据第二音频输入信号3来计算第三 音频输入信号12。第三音频信号12驱动合成受限制收听区域6中的声场4的多个扬声器 2。图9描述了提取扬声器等级数据11的第一种方法。在该方法中,源听众可视区域 30被定义为包括在围绕整个最佳收听区域6的虚拟源5处的最小立体角内。位于源/听 众可视区域30内的多个扬声器2. 1接收高等级,通常是100%。位于源/听众可视区域30 以外的多个扬声器2. 2接收低等级。扬声器等级数据11可以典型地是扬声器22到源/听 众可视区域30的边界20的距离23的递减函数。扬声器22可以典型地接收等级35%,而 距源/听众可视区域30的边界20更远距离的扬声器36可以接收等级10%。图10描述了提取扬声器等级数据11的第二种方法,对此,根据图9的最佳收听区 域6降低到单个听众参考位置13。在该方法中,扬声器等级数据11被计算为扬声器22到 源/扬声器连线18 (连接虚拟源5和参考收听位置13)的距离19的递减函数。图11描述了收听区域适应计算装置16。在该装置16中,在第二音频输入信号修 改装置34中使用修改滤波器系数33来修改第二音频输入信号。在修改滤波器系数计算装 置32中根据扬声器等级数据11来计算修改滤波器系数33。在本发明的第一实施例中,收听区域被限制为其中听众所在的有限区域(不包括 沙发)。在该实施例中,例如可以在与投影的图像一致的正面区域放置有限数量的扬声器。 根据本发明,与具有相同质量(即混叠频率)的“满室”收听区域相比可以限制扬声器的数 量。例如,在波场合成再现系统中,这减少了所需的硬件耗费和成本。该实施例示于图12 中,其中扬声器集合2被安装在听众将要坐下的沙发24所在的房屋中。因此最佳收听区 域6可被定义为在听众头部的可能位置的周围。一方面,这与立体声再现系统相比提供了 明显的优势,因为理想的收听区域的位置可以由用户自由地选择。“最佳听音位置”不再限 于由扬声器位置严格定义的位置。另一方面,该示例显示了例如与传统波场合成系统相比 的一个优点。在最佳收听区域中,可以正确地再现声场。然而,扬声器的数量与传统的波场 合成系统相比明显地减少。在该实施例中,虚拟源描述数据8(参见图7、8、12)可以包括虚拟源5相对于参考位置35的位置。所考虑的坐标系统可以是笛卡尔坐标、球面坐标或柱面 坐标。虚拟源描述数据8也可以包括例如使用一组球面谐波(sphericalharmonics)的频 率相关系数描述虚拟源5的辐射特性的数据,如由E. GWilliams在“Fourier Acoustics, Sound Radiation and Nearfield AcousticalHolography" (Elsevier, Science,1999)中 公开的。扬声器描述数据9(参见图7、8、12)可以包括扬声器相对于参考位置35的位置, 优选地与虚拟源描述数据8相同。所考虑的坐标系统可以是笛卡尔坐标、球面坐标或柱面 坐标。对于虚拟源5,扬声器描述数据9也可以包括例如使用一组球谐函数的频率相关系 数描述扬声器的辐射特性的数据。收听区域描述数据10描述收听区域6相对于参考位置 35的位置和扩展,优选地与虚拟源描述数据8相同。所考虑的坐标系统可以是笛卡尔坐标、 球面坐标或柱面坐标。定位滤波器系数7可以使用虚拟源描述数据8和扬声器描述数据9 根据波场合成来定义,如由 E. Corteel 在 “Caract6risation et extensions de la Wave Field Synthesis enconditions reelles"(UniversiteParis 6,PhD thesis,Paris,2004, 可在 http://mediatheque. ircam.fr/articles/textes/Corteel04a/)中公开的。作为结 果的滤波器可以是有限脉冲响应滤波器。第一输入信号的过滤可以使用定位滤波器系数7 与第一输入信号1的卷积来实现。对于接收低等级11的扬声器,可以计算修改滤波器系数 33(参见图11),以便可能地使用频率相关的衰减因子来减小第二音频输入信号3的级别。 该衰减因子可能线性地相关于扬声器等级数据11,遵循指数形状,或者简单地在扬声器等 级数据11的某一阈值以下无效。作为结果的滤波器可以是无限脉冲响应滤波器或者有限 脉冲响应滤波器。第二音频输入信号3的修改可以通过卷积第二音频输入信号3和修改滤 波器系数33 (如果使用有限脉冲响应滤波器)来实现。在本发明的第二实施例中,听众可以位于有限数量的预定收听位置处(不包括沙 发、桌子前面的椅子..·)。根据本发明,听众可以创建预设以便最佳化对这些预定位置的声 音渲染质量。然后预设可被听众直接调用或者通过检测在预定区域之一中的听众的存在而 调用。图13示出了与图12类似的情形,其中除了与沙发24对应的第一最佳收听区域6. 1 以外,第二最佳收听区域6. 2被限定在坐在长椅26上的潜在听众的位置处。第三最佳收听 区域6. 3包括第一和第二最佳收听区域6. 1和6. 2,假设渲染质量降低(即下降的混叠频 率)。在本发明的第三实施例中,可以跟踪听众的位置,以便持续地最佳化有效覆盖的 收听区域内的声音渲染质量。图14展示了跟踪装置28提供听众27的真实位置(其定义 真实的最佳收听区域6)的实施例。本发明的第四实施例是声场模拟环境。在这个实施例中,收听区域被局限为 听众头部周围非常有限的区域,其中在所有或大多数声频范围(典型地20-20000HZ或 ΙΟΟ-ΙΟΟΟΟΗζ)上以物理上正确的声场重构为目标。对于物理上正确的声音再现的通常 途径是使用在耳机上的双耳声音再现,如由Jens Blauert在“Spatial hearing =The psychophysics of human sound localization,,(修i丁片反本,MIT 出片反 土,Cambridge,MA, 1997)中所描述的。实际上,使用头部相关的传递函数的利用耳机的所述模拟途径显现 若干缺点。定位受到前后混淆的干扰,头部外定位受到限制,并且距离感知不必匹配预期 的真实图像。佩戴耳机的感觉降低了出现于虚拟环境的感觉。在过去几年中,使用耳机 的这种方法已经得以广泛使用,因为理论上它给予再现物理上正确的听力输入信号以便
12构建声音的空间效果(impression)的希望。实践已经显示这种方法所提供的空间效果 不必匹配期望的空间声图像,并且可能由于在对听众的各个HRTF的信号处理中所使用的 HRTF的失配,在听众之间会发生感知上的强烈差异。这样的结果已经例如由H. M0Iler5 M. F. S0rensen> C. B. Jensen、D. Hammershoi 在"Binaural technique :Do we need individual recordings ?,,(J. Audio Eng. Soc. , Vol. 44, No. 6, pp. 451-469, June 1996) 中以及由 H. M0ller、D· Hammersh0i、c. B. Jensen、M. F. S0rensen在 ‘‘Evaluation of artificial heads inlistening tests,,(J. Audio Eng. Soc. , Vol. 47, No. 3, pp. 83-100, March 1999)中公开。听众的头部运动也将被记录以便更新双耳声音再现,从而听众不会具有整个声音 场景似乎紧随她/他的感觉。然而,商业上可用的头部跟踪装置的成本通常较高,并且耳机 信号的更新也可能带来伪差。与此相反,通过在听众头部周围构建物理上正确的声场,对于 单独的头部相关传递函数测量或者对于头部运动的复杂补偿是不必要的。使用传统的声场渲染技术(例如根据现有技术的波场合成),将要求大约2cm的 扬声器间隔来再现所需频率范围内的物理上正确的声场。这导致利用非常少的扬声器的 不切实际的扬声器设置,这可能在低频(典型地在200/300HZ以下)是无效的。根据本发 明,12. 5厘米的扬声器间隔可能就足够(参考图2中的中央位置),从而减少了所需扬声器 的数量,并且允许使用传统上成本节约的扬声器技术将可接受的声音压力级别下降到至少 IOOHz0该第四实施例的示例性实现如图14所示,其中听众27被扬声器集合2包围,所述 扬声器集合把听众头部27周围的非常受限制的最佳区域6中的至少一个虚拟源5的再现 作为目标。本发明的应用包括但不限于下列领域高保真声音再现、家庭影院、汽车内部 噪声模拟、飞机内部噪声模拟、虚拟现实的声音再现、感知单峰/交叉模式(perceptual unimodal/crossmodal)实验环境中的声音再现。对于本领域的普通技术人员将会清楚的
是,根据与多个第一音频输入信号对应的本发明,可以合成
元件名称
1第一输入音频信号
2多个扬声器
2.1位于源/听众可视区域30内的扬声器
2.2位于源/听众可视区域30外的扬声器
3第二音频输入信号
4合成的声场
5虚拟源
6最佳收听区域
6.1第一最佳收听区域
6.2第二最佳收听区域
6.3第三最佳收听区域
7定位滤波器系数
8虚拟源描述数据
9扬声器描述数据
10收听区域描述数据11扬声器等级数据12第三音频输入信号13参考收听位置14声场滤波装置15定位滤波器计算装置16收听区域适应计算装置17扬声器等级计算装置18连接虚拟源5和参考收听位置13的源/听众连线19扬声器2到源/听众连线18的距离20源/听众可视区域的边界21位于源/听众可视区域30内的扬声器,被考虑用于扬声器等级11计算22位于源/听众可视区域30外的扬声器,被考虑用于扬声器等级11计算23位于源/听众可视区域外的扬声器到源/听众可视区域的边界的距离24沙发25源/扬声器可视区域26长椅27听众28跟踪装置29真实的最佳收听区域30源/听众可视区域31源可视区域32修改滤波器系数计算装置33修改滤波器系数34第二音频输入信号修改装置35参考位置
权利要求
一种使用多个扬声器(2)根据第一音频输入信号(1)的声场再现方法,所述多个扬声器(2)旨在合成其中没有放置扬声器(2)的最佳收听区域(6)内的声场,所述声场被描述为从虚拟源(5)发出,所述方法包括步骤根据源自曲面积分的声场再现技术使用虚拟源描述数据(8)和扬声器描述数据(9)来计算定位滤波器系数(7);和应用定位滤波器系数(7)来过滤所述第一音频输入信号(1),以形成第二音频输入信号(3),所述方法的特征在于,依靠扬声器等级数据(11)来定义扬声器等级,所述扬声器等级数据(11)代表每个扬声器(2)对于所述最佳收听区域(6)内的声场的合成的重要性,根据所述扬声器等级数据(11)修改所述第二音频输入信号(3)以形成第三音频输入信号(12),并且对扬声器(2)提供第三音频输入信号(12)用以合成声场(3)。
2.如权利要求1所述的方法,其中所述扬声器等级数据(11)是使用虚拟源描述数据 (8)、扬声器描述数据(9)和收听区域描述数据(10)定义的。
3.如权利要求1所述的方法,其中,所述扬声器等级对于位于源/听众可视区域(30) 外的扬声器比对于位于源/听众可视区域(30)内的扬声器(21)通常要低。
4.如权利要求3所述的方法,其中,所述源/听众可视区域(30)是通过在包括整个最 佳收听区域(6)的虚拟源(5)处的最小立体角定义的。
5.如权利要求3所述的方法,其中,位于所述源/听众可视区域(30)外的扬声器(22) 的扬声器等级数据(11)是通过扬声器(22)到所述源/听众可视区域(30)的边界(20)的 距离(23)的递减函数定义的。
6.如权利要求1所述的方法,其中,所述扬声器等级数据(11)是通过扬声器(2)的位 置到连接虚拟源(5)的位置与所述最佳收听区域(6)中的参考收听位置(13)的连线的距 离(19)的递减函数定义的。
7.如权利要求1所述的方法,其中,修改第二音频输入信号(3)以便形成第三音频输入 信号(12)至少暗示减小具有低等级的扬声器(2)的第二音频输入信号(3)的级别。
8.如权利要求7所述的方法,其中,具有低等级的扬声器(2)的第二音频输入信号(3) 的级别降低是频率相关的。
9.如权利要求1所述的方法,其中,根据扬声器等级数据(11)修改第二音频输入信号 (3)以便形成第三音频输入信号(12)的步骤被执行,以便在所述最佳收听区域(6)中增加 在用于计算所述定位滤波器系数(7)的声场渲染技术的定义中与所需的扬声器分布的空 间取样相关的Nyquist频率。
10.一种使用多个扬声器(2)根据第一音频输入信号(1)的声场再现装置,所述多个 扬声器(2)旨在合成其中没有放置扬声器(2)的最佳收听区域(6)内的声场,所述声场被 描述为从虚拟源(5)发出,所述装置包括声场滤波装置(14),用于使用定位滤波器系数 (7)根据所述第一音频输入信号(1)来计算第二音频输入信号(3),在定位滤波器计算装置(15)中使用虚拟源描述数据(8)和扬声器描述数据(9)来计算所述定位滤波器系数(7), 其特征在于扬声器等级计算装置(17),用于计算代表每个扬声器(2)对于所述最佳收听 区域(6)内的声场的合成的重要性的扬声器等级数据(11);以及收听区域适应计算装置(16),其被设计成根据所述扬声器等级数据(11)来修改所述第二音频输入信号(3),并且 形成供给扬声器(2)的第三音频输入信号(12)。
11.如权利要求10所述的装置,其中,所述收听区域适应计算装置(16)包括修改滤波器系数计算装置(32)用以计算修改滤波器系数(33)。
12.如权利要求11所述的装置,其中,所述收听区域适应计算装置(16)也包括第二音 频输入信号修改装置(34),其使用所述修改滤波器系数(33)来修改所述第二音频输入信 号⑶。
全文摘要
本发明涉及一种使用多个扬声器(2)根据第一音频输入信号(1)的声场再现方法和设备,所述多个扬声器(2)旨在合成其中没有放置扬声器(2)的最佳收听区域(6)内的声场,所述声场被描述为从虚拟源(5)发出。所述方法还包括步骤根据声场再现技术使用虚拟源描述数据(8)和扬声器描述数据(9)来计算多个定位滤波器系数(7);和使用定位滤波器系数(7)来修改所述第一音频输入信号(1),以便形成第二音频输入信号(3)。因此,定义每个扬声器(2)对于所述最佳收听区域(6)内的声场的合成的重要性的扬声器等级(11)。然后,根据所述扬声器等级(11)修改第二音频输入信号(3)以形成第三音频输入信号(12)。最后,对扬声器(2)馈送合成声场(3)的第三音频输入信号(12)。
文档编号H04S7/00GK101874414SQ200880114138
公开日2010年10月27日 申请日期2008年10月27日 优先权日2007年10月30日
发明者克莱门斯·库恩-拉洛夫, 艾蒂尼·科蒂尔, 雷纳托·佩莱格里尼, 马赛厄斯·罗森塔尔 申请人:索尼克埃莫申股份公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1