立体声展开技术的制作方法

文档序号:17537470发布日期:2019-04-29 14:08阅读:428来源:国知局
立体声展开技术的制作方法

我们通常认为作为用于录制和再现声音的现代立体声技术实际上已经在1931年由alanblumlein发明,并且立体声背后的众所周知的原理在近一百年中没有发生变化。在录音侧上已经尝试了关于麦克风放置和麦克风与不同拾音型样的组合的许多变型。已经测试了更多或更少的所有可想象得到的变型,并且一些特别成功的构型由于异常良好的结果而获得了普及。原始blumlein八字形麦克风成角度对是这些良好配置之一,并且其现在仍经常使用。类似地,已经测试了许多不同类型的扬声器构型的立体声再现,而且在这种情况下,仍然采用原始的blumlein理念,而没有显著变化。

很难想象任何其他科学领域一直保持为静态的,而无对其原理的任何显著改变。在许多现代产品和实践中,小型计算机的可用性已完全改变了它们操作的方式,并大大扩展了它们的性能包络。仍然,立体声保持相同而没有变化。

立体声技术中有可应用改进的两个独立目标片段,即录音和/或再现。我们已经拥有超过半个世纪的高品质立体声录音的传统,并且我们的整个行业都与录音、存储和分发音乐的特定方式密切相关。显然,录音侧上的任何变化将会在录音可以被采用和变得广泛分发给音乐听众之前面临巨大的障碍。另一方面,对再现的改进如果使用普通录制的音乐,则不会面临此类障碍并且可以由期望改进的任何人使用。

立体声展开技术的目标是立体声再现,并且大大提高了收听体验,使回放更加逼真化和可信。我们的立体声录音缺失除一些从左到右的定位线索以外的所有空间信息。立体声扬声器和听音室共同工作以在我们面前创建三维声音舞台的感觉,但是这只是由扬声器和听音室一起创建的错觉,其不是被编码在立体声录音中的事物。传统的扬声器将声音舞台的大小和声音舞台中的器械扩展到扬声器自身的大小。

最高品质的操作仍然只需要两个扬声器,而不需要像多声道音频中那样将多个扬声器散布于听音室四周。这还使小扬声器的声音像大扬声器一样;声音舞台的大小不再与扬声器的大小相关联。之前,小扬声器总是听起来像小扬声器,与大扬声器相比投影声音舞台的更小声像。

立体声展开技术创建组装有三维声源的三维声音舞台,所述三维声源在连续真实发声声学环境中产生声音,所述声音可由人脑解释。在立体声展开技术的具体实施中的一者中,立体声展开技术还使用耳机作为再现设备来起作用。

立体声展开和现有技术

如预期的,音频dsp领域中提出了用于解决在声音再现方面存在的各种问题的大量现有技术。它们都使用相同的基本dsp构造块,如iir滤波器、fir滤波器、延迟、左减右提取算法等,但具有不同的最终结果。考虑到现有技术,变得显而易见的是,在该领域中有三个主要群组可被认为在一定程度上与立体声展开技术相关。

第一,有现有技术概述了用于实现更广的立体声图像的方法。这些现有技术主要集中于这样的立体声扬声器,所述立体声扬声器具有定位为在物理上靠在一起的左扬声器和右扬声器,甚至可能在单个音箱中具有定位为在物理上靠在一起的左扬声器和右扬声器。这些现有技术都旨在加宽立体声图像并减轻因密集的立体声扬声器而出现的问题。

第二,有另一组关于所谓回音壁(soundbar)的专利文件,回音壁即取代环绕声音响系统中散布于听音室四周的多个环绕声扬声器而放置在前方中心的一个音箱扬声器。该组范围内的目的是给予听众置身于环绕声声场(soundfield)内的感觉,所述环绕声声场通常使用在听音室的前面和后面的几个扬声器产生。回音壁利用了各种技术,所述各种技术使用指向不同方向的驱动器和dsp算法一起创建环绕声体验。

关于上述解释,可以提及的是,例如文件us2015/0189439和us2015/0071451都是指这样的第一组和第二组。

第三,存在这样的一般来说有些旧的一组现有技术,所述一组现有技术旨在通过使基本上左减右驱动的内容指向除向前以外的其他方向来改善立体声体验。因为是在dsp技术变得易得和高性价比之前完成的,所以所使用的处理非常基本并且仅限于当时可能的处理。可用技术严重降低了可实现的声音品质,并且因为结果大部分是令人失望的,所以似乎在这一组内的工作已经结束。

第一组处理具有两个密集扬声器的技术问题,并且试图实现与具有宽广间隔的立体声扬声器类似的结果。第二组试图仅使用一个扬声器而不是多个扬声器来在听音室中复现环绕声声场。第三组试图改善在收听立体声时感觉到的氛围,但是由于不恰当的处理而未成功,并且未解决立体声所固有的心理声学问题。上述现有技术组中没有一组解决了立体声的一般缺点、为什么立体声作为方法是有缺陷的以及如何改善立体声技术。立体声展开技术旨在解决立体声技术中的这些固有问题。

立体声展开技术重塑了与真实声音事件类似的连续空间3d声场。普通立体声再现最多只能够投射一个声音舞台,但是该声音舞台内的声源听起来就像它们是多个表演者的剪纸而没有任何单独深度扩展,并且所述剪纸单独表演而不在声学空间中,就像在黑色房间中悬空的闪光灯一样。立体声展开技术创建了空间3d声场,但该空间3d声场与收听环绕声音响系统是完全不同的体验。环绕声音响系统的核心是立体声的扩展,具有与立体声相同的缺陷。在使用定位在听音室四周的附加扬声器时,可创建的位置信息不仅来自左扬声器与右扬声器之间的前面,而且还来自听音室中四周的其他位置。立体声展开具体地是通过理解人脑中的心理声学分组现象和空间声音处理来实现的,它是一种完全不同的方法,并且结果是听起来像现场声音事件一样的空间3d声场。

单声道和立体声

首先,录制声音并将其以单声道回放。单声道处理最多可以提供被投射到听众面前的某种感知深度和高度的声音舞台,但是它基本上无法传达关于录音中的单个声源的任何定位线索。可用的有限声音舞台是通过来自听音室中的表面的反射创建的。这种反射在单个扬声器源周围创建声音云的错觉。这可以通过在所述云消失的无回声环境中收听单声道来容易地验证。

在1931年,alanblumlein发明了他的立体声处理。立体声是单声道的展开版本,通过使用两个扬声器而在物理水平面中展开。它允许在扬声器之间的任何地方水平地定位声源。当立体声被正确录制并在扬声器上回放时,立体声设法在听众面前创建相对连续的声音水平面,所述相对连续的声音水平面呈现出某种高度和深度。听众的大脑被该处理欺骗而相信在他/她面前有多个声源,但是事实上所有声音都只发源于两个扬声器。经由扬声器进行立体声回放使用心理声学来产生声音舞台由在听众前面的不同水平位置处的多个声源填充的错觉。与单声道一样,来自扬声器、被听音室中的表面反射的反射声音在听众面前产生声音舞台的错觉,即产生了具有附加空间信息的声场。在没有这些反射的情况下,声音将被感知为发源于听众的头内部。

立体声再现及其缺陷

我们很习惯立体声再现,并且我们非常熟悉它的缺陷以至于到我们不想再多考虑它们的程度。这并不意味着我们不会听出立体声再现与现场声音之间的差异,大多数人都会同意区分现场声音和立体声再现声音是很容易的,只是我们不期望立体声听起来像现场声音和在不考虑这点的情况下自动过滤掉该处理并改变我们的期待。在最佳情况下,使用普通的正确设置的扬声器时,立体声再现可投射具有深度、宽度和高度的声音舞台。遗憾的是,声音舞台内的声源听起来像他们是表演者的剪纸而没有任何单独的深度扩展。此外,所述剪纸单独表演而不在声空间中,就像黑色房间中悬空的闪光灯一样,仅将他们的声音笔直朝向听众投射。立体声再现中存在一些环境信息,所述环境信息允许我们听到录制录音的声音环境,但它与实际空间的声学一点也不相似。

图1示出了两个听音室的两个横截面。较大的听音室是典型的音乐厅,其中舞台部分在左侧,而观众席空间在右侧。舞台上有单个表演者并且观众席中有单个听众。声音发源于舞台上的表演者,所述声音沿着图中所示的多个可想象的路径行进。直接声音直接从表演者向听众行进,而不在音乐厅内的任何表面上反射。如可以看出,直接声音的路径比到达听众的第一反射的路径短得多,这产生了可测量的到达时间差。

图1底部较小房间是典型的听音室,其中扬声器在左边且听众在右边。同样,声波路径在图中示出为具有直接路径和反射路径。在该较小房间中,直接声音与第一反射之间的路径长度差小于较大音乐厅中的路径长度差,这转化成较小的到达时间差。

音乐厅与房间之间的根本区别之一是混响时间。较大音乐厅具有比较小房间长得多的混响时间。在较大空间中,在相同时间内存在更少的声波反射。在较大空间中,声音必须要行进较长的距离才能到达从声场吸收能量的下一个反射表面,因而声音在较大空间中萦绕更长时间。

图2在五个不同图表中示出了听众耳朵处的声音到达。沿x轴是时间并且y轴上是音量。这五个图表示出了来自脉冲声音的混响衰减谱。图表1来自图1中的音乐厅,图表2来自图1所示的听音室,图表3是在图1中所示的音乐厅中录制的立体声录音,图表4是在听音室中回放的立体声录音,并且最后的图表5示出了经过立体声展开处理之后在听音室中回放的立体声录音。

在图2中的来自图1中的音乐厅的第一图表中,左侧第一峰是从表演者到达听众的直接声音。下一峰是在一定时间延迟之后到达的第一反射。在第一反射之后是稍后的反射,首先是仅在一个表面上反弹、稀疏地间隔开的那些反射,之后是来自多种反弹的越来越密集的反射阵列。这是在许多音乐厅中可观察到的典型脉冲响应衰减。

图2中的第二图表示出了与第一图表相同类型的声音到达,但现在它被示出为来自图1中的典型听音室。同样,我们具有直接声音、第一峰,之后是早期的有些稀疏地间隔开的反射和随后较密集的多个反射路径。较小房间中的声音比音乐厅中的声音更快地被吸收,这通过比较图2中的图表一和图表二中的声音衰减而清楚地阐明。

音乐厅与房间之间的最重要区别是第一反射相对于直接声音的时序。根据音乐厅声学众所周知的是,在直接声音到达与第一反射之间应有约25ms至35ms,以保持音乐厅中声音的清晰度和可理解性。如果此时间减少,则声音变得不太清晰,甚至不明确到变得令人疲劳的程度。较小房间在物理上不够大,不足以向我们提供这种量的衰减,从而该房间中增加的环境能量总是让声音变得不那么清晰。

当前立体声再现所固有的一个基本缺陷是必须理解以便解决作为该缺陷的结果出现的性能缺点。

我们的立体声录音缺失除一些从左到右的定位线索以外的所有空间信息[5]。这很容易通过使用耳机聆听立体声录音来测试,声音总是位于听众头内的耳朵之间。在此示例中,一些人将声称这是因为再现未得到个性化的头相关传递函数(htrf)校正。因此,让我们用一对高度定向的扬声器、抛物线扬声器或无回声室内的扬声器来重新进行测试。声音舞台仍然位于听众的头内。怎么会这样呢,我们刚刚已经添加了一个完美的个性化hrtf到再现呀?

问题不在于再现,而是录音。如果我们具有用个性化htrf(即一个针对每个要聆听录音的个人定制的模拟头部)录制的录音,则我们可以都聆听耳机并正确地解码空间信息。遗憾的是,由于明显的原因而无法做到这一点,因此我们使录音保留为缺乏任何有意义的空间信息。

那么当我们在正确设置的立体声系统的最佳听音位置聆听时,我们如何才能感知到在我们面前有具有深度、宽度和高度的声音舞台呢?立体声扬声器和听音室共同工作以在我们面前创建三维声音舞台的感觉,但是这只是由扬声器和听音室一起创建的错觉,其不是被编码在立体声录音中的事物。扬声器与听音室一起在听音室内创建人脑可解码的空间声场。然而,该空间声场与在录音场所处存在的声音场不相似。

存在具有不同辐射模式的扬声器,所述具有不同辐射模式的扬声器以稍微不同的方式实现三维空间错觉,但都表现出与它们的特定方法相关的各种问题。最常见的扬声器类型是或多或少地以中频到高频在其向前辐射方向上复现点源,从而使声音主要朝向聆听位置传播,即具有面向前方的锥体和圆顶的扬声器。这种类型的扬声器往往在创建三维声音舞台方面不是非常成功,并且成功程度依赖于难以控制的若干变量。需要控制扬声器的轴辐射模式,因为使三维错觉起作用需要具有良好的频率和时域性能,这是使用传统设计很难获得的。越多的能量被辐射到不同于直接朝向听众的方向,则声音舞台将会越三维和广阔化。令人遗憾的是,与此同时声音舞台将变得更模糊,各个表演者的轮廓及其在三维空间内的位置变得不太清晰,并且会失去全部清晰度。这样的原因是,所添加的环境空间声场几乎与来自扬声器的直接声音同时到达听众,因而听众的大脑无法解码空间信息且因此声音变得不清晰。声音也变得越来越依赖于听音室的声学。声学和房间、房间的大小和房间内的扬声器的位置都影响对清晰度、定位和音调平衡准确性的感知。向前聚焦辐射模式也产生某种程度的声音闪光灯效应,用非常不自然的大量直接辐射声音使听众盲目。

当点源在所有频率下在所有方向上辐射等量的能量时,该点源通常称为全向扬声器。这种类型的扬声器呈现出更加自然发声的三维错觉,但是声音缺乏清晰度并且各个表演者的定位不佳。频率响应准确性也受到周围环境的高度影响。忽视这种类型的扬声器缺乏清晰度、缺乏分辨率和依赖于房间的明显缺点,它使用传统技术创建了在听众面前发生三维事件的最佳错觉。发生这种情况是因为相对于朝向听众的直接声音,全向扬声器将更多的能量辐射到听音室的环境空间中,并且在音乐厅中比普通的向前辐射扬声器更好地复现直接声音与环境声音的比率。

各扬声器类型之间存在许多变化和交叉,但概括地讲,扬声器在除了朝向听众以外的其他方向上辐射越多的声音能量,则三维错觉变得越令人信服。与此同时,声音因直接声音和环境声音之间的到达时间差较小而失去清晰度、定位,并且变得更依赖于听音室的放置和声学。

此外,传统的扬声器将声音舞台的大小和声音舞台中的器械扩展到扬声器自身的大小。小扬声器的发声总是比大扬声器小[4]。在盲听测试中很容易相较于大扬声器区分小扬声器的大小,并且在除了可能极少数非常不寻常的情况之外的所有情况中,从立体声再现的声音舞台比原始录制的声音舞台更小。

人可以不假思索地立即和直觉地判断任何声源的物理大小。这是一种至关重要的生存技能,我们需要知道声音是发源于庞大且潜在威胁生命的事物还是仅仅是无害的小事物。我们通过聆听产生的声场的空间属性来判断对象的大小。小对象以不同于较大对象的特定频率在空间上辐射声音,当辐射声音的表面变得比所述声音的波长更大时,辐射变得越来越定向。

扬声器使用其自身的大小结合其在听音室内产生的反射来创建三维声音舞台的错觉,即创建空间声场。因为立体声录音不包含任何可行的空间信息,所以这种错觉纯粹建立在扬声器和房间一起产生的声音的空间属性上。如果考虑到这一点,则很明显的是,小扬声器的发声将小于大扬声器,因为它以与小对象相同的方式在空间上辐射声音。我们检测对象大小的能力已经发展了超过数千年,并且普通的小型扬声器无法欺骗我们的听力让我们相信它是大对象。

听音室内产生的反射创建了似乎在我们的头部外面、在我们面前存在三维声音舞台的错觉。较大的房间为我们提供较大的声音舞台,而在小房间中我们仅获得小得多的舞台。在没有由扬声器和房间一起产生的空间声场的情况下,我们没有三维声音舞台的错觉,因为立体声录音缺乏这种信息。由扬声器和房间生成的声音舞台与所录制的内容无关,声音舞台只是由特定扬声器在特定房间中产生的错觉,并且如果扬声器移至另一个房间,则声音舞台将完全改变。

立体声的第二个问题的根源在于在录音和再现链中同样缺乏空间信息。录音工程师不会在音乐厅中的典型听音位置处放置录音麦克风。他总是把麦克风移动得更靠近表演者。如果麦克风位于音乐厅中观众通常所坐的位置之外,则录音听起来会过于不自然地混响。发生这种情况是因为立体声录音无法从音乐厅中的声场捕获空间信息属性。它只捕获声压级。音乐厅中的人类听众将捕获所有的信息,包括声压信息和空间信息两者,并且将自动使用该空间信息将他/她的注意力集中到舞台上的表演者。环境声场从其他方向到达听众,并且与来自舞台的声音相比,环境声场被可感知地衰减并且由大脑不同地观察到。由于立体声录音中缺失空间信息,所以听众无法使用任何空间信息对该立体声录音进行解码,因此,如果录音是在音乐厅中的收听位置录制的,录音就会被认为具有大量的混响能量。人脑利用空间域以及声压域来理解和处理声音环境。

barron调查了反射能量与直接能量之间的比,并创建了范围从-25db到+5db(d/r)以覆盖任何正常情况的图表[1]。在典型的鞋盒式音乐厅中,至少一半座位具有-8db或更小的d/r[4]。在几乎所有立体声录音中,d/r比从来不低于+4db,即在录音和音乐厅中的声音之间存在至少12db的差异。这是必要的,因为录音缺乏空间信息并且听众无法区分录音中的混响场与直接声音。如果录音中包含的混响能量与音乐厅中存在的混响能量一样多,则录音听起来不成比例地混响。

概括地说,立体声录音中包含的混响能量比原始声音中包含的混响能量少至少12db,并且立体声录音缺乏声场的任何空间信息。

更糟糕的是,最常见的向前辐射扬声器将大部分声音能量直接射向听众,并且对录音中混响场能量的缺乏没有多大改善。全向扬声器在这方面作用得更好,因此三维声音舞台变得更令人信服。遗憾的是,听音室中较大量的混响场能量会不利地影响对清晰度、定位和音调平衡准确性的感知。

原因是,在直接声音与由扬声器和房间一起产生的混响三维声音之间只存在少量的时间延迟。在典型的听音室中,直接声音与第一反射声音之间到达听众的时间差是约5ms。这是问题的根源,听众根本没有足够的时间来分离直接声音和混响声音,因此整个声音变得模糊和不精确[3]。

图2中的图表3示出了在图1所示的音乐厅中捕获的立体声录音中的混响衰减。录音与在图2的图表1中所示的音乐厅之间存在差异,因为如上所述,录音工程师必须将麦克风移动得更靠近表演者以平衡立体声录音。由于麦克风现在更靠近表演者,所以相对于直接声音,音乐厅反射衰减。此外,所录制的反射不再主要是主厅的反射,而是由于舞台部分中相邻表面在物理上更接近,所以这些反射变成主导反射,而不是在音乐厅的主要观众部分中稀疏间隔开的反射。总的来说,从图表中可以明显看出,在立体声录音中整个捕获的混响场与在音乐厅中的听音位置处自然存在的场并不非常相似。

图2的图表4示出了当图2的图表3所示的录音在由扬声器和具有图2的图表2所的混响衰减的房间回放时发生的情形。在此,录制的混响衰减变成叠加在房间混响衰减上,导致图2的图表4中的复合混响衰减。这仍然看起来一点也不像图2的图表1中的音乐厅的混响衰减,而是其是在立体声录音回放时通常在听音室中存在的衰减。

如前所述,直接声音与第一反射之间缺乏时间间隔使得声音不那么清晰和精确到使人变得疲劳的程度。这种小房间的声音显然会给人脑带来麻烦,并且其也缺乏足够的混响衰减能量来模拟音乐厅。

考虑到立体声声音缺乏所有的空间信息,空间声场只是在听音室中由扬声器和房间一起创建,并且衰减模式看起来与在音乐厅中自然发生的情况非常不同,所以立体声听起来是人工的并不令人惊讶。

立体声展开技术

立体声展开技术通过利用现代dsp技术解决了立体声再现中的固有问题。借助dsp,可以容易地从左(l)立体声声道和右(r)立体声声道中提取信息来创建多个新声道,所述新声道馈入其他处理算法中。dsp还可以对这些不同的馈入进行延迟、频率整形,以及将这些不同的馈入融合在一起。

立体声展开通过以下方式解决了立体声的两个基本缺陷:重建人脑可以容易地解释的基于心理声学的空间3d声场,以及利用被称为心理声学分组的心理声学效应。

在第一具体实施中,立体声展开通过以下方式来在听音室中创建空间3d声场:在除了向前方向以外的其他方向上使用另外的驱动器,以及对空间场和直接声音进行基本分组。

在第二具体实施中,立体声展开使用所公开的増强分组方法以及普通扬声器。向前辐射扬声器基本上首先回放立体声信息,然后稍后回放分组的空间信息,以在不使用指向除了向前以外的其他方向的另外驱动器的情况下重建空间场。这可以通过使用增强分组过程来实现,所述增强分组过程使用稍后描述的共鸣分组方法。

在第三具体实施中,立体声展开通过以下方式来在听音室中创建空间3d声场:在除了向前方向以外的其他方向上使用另外的驱动器,以及对空间场和直接声音进行增强分组。该具体实施重建最佳的错觉,但是需要另外的驱动器,并且因此与第二具体实施相比在其适用性方面受限。

在第四具体实施中,立体声展开处理使用増强分组过程来创建使用耳机时的空间3d声场。将直接声场和环境声场通过增强分组进行连接,所述增强分组将声音体验从听众头部内的一般情况移动到听众头部外面。它在没有任何关于听众的物理属性的先验信息的情况下这样做,所述物理属性即耳朵、头部和肩部的形状和大小。

图2的图表5示出了通过在图2的图表2的房间中对来自图2的图表3的立体声录音进行立体声展开再现而产生的声场。立体声展开从图2的图表3中的立体声录音中提取图2的图表1中所示音乐厅的混响衰减,将所述混响衰减放大并将所述混响衰减定位在混响衰减对人脑具有心理声学意义的时间处。来自图2的图表3的房间响应当然仍然叠加在回放上,但是回放的立体声展开版本看起来更类似于来自图2的图表1中的音乐厅的声学衰减模式而不是立体声,并且还向听众的大脑提供大量可容易理解的声学信息。通过产生心理声学和谐的空间场和进行心理声学分组,新的衰减场是可能的。

图3在交响乐团下面的两个扬声器尝试直观地展示来自立体声的声音。大部分声音舞台被感知到是在这两个扬声器之间,具有一点高度和深度并且几乎没有听音环境。

图4直观地展示了从立体声展开感知到的声音舞台,并且其应该与展示普通立体声的图3进行比较。表演者位于大小稍有扩大的大致相同位置,并且音乐厅和氛围以及3d品质被添加到所述声音。

展开立体声

顾名思义,“立体声展开”是就像曾经将单声道物理地展开成左/右立体声一样展开普通的立体声录音,但是这一次立体声是在时间维度上展开的。从立体声跳跃到立体声展开在心理声学上实际上与将单声道在物理上展开成立体声没有太大区别。这可能听起来令人费解,但是让我们更仔细地看看立体声以及它是如何在心理声学上起作用的,很明显立体声不在心理声学上起作用。

在立体声回放中声源从左到右的定位是通过两种主要的心理声学现象来实现的。我们的耳脑根据耳间时间差和所感知到的左耳与右耳之间的音量差异来判断声源的水平定位。可以通过分别调整右耳和左耳中来自声源的音量而将声源从左向右平移。这通常称为音量平移。还可以通过改变到达左耳和右耳的时间来调整定位,并且这种平移方法是这两者中更有效的。很容易经由耳间时间差来测试平移的有效性。在听众面前设置立体声扬声器对,并允许听众从扬声器之间的居中定位位置移动到左侧或右侧。感知到的声音舞台很快就向所述立体声扬声器中的一个立体声扬声器收缩,这是因为耳间时间差在心理声学上告诉我们离我们较近的扬声器是声源。使用耳机也可以阐明这一点,通过将到耳朵中的一只耳朵的立体声信号延迟,整个声音舞台向未被延迟的耳朵收缩,而音量没有任何变化。立体声在水平面中的定位实际上主要是由左右信号之间的耳间时间差引起的,即立体声是单声道信号,其在时间上展开以基于耳朵之间的时间差产生心理声学的水平定位线索。blumlein使用两个扬声器的物理分隔,所述两个扬声器的物理分隔能够产生创建左到右定位所所必须的耳间时间差。

现在,如果我们像单声道被展开成立体声一样,在时间上展开立体声信号,则我们能够在心理声学上将立体声展开成真正的三维声音。这就是立体声展开所做的事情。

图5示出了普通数字立体声录音的一个声道。沿着轴从图的左侧开始并在中间结束,我们具有在真实时域轴上的声音样本。该图形显示了在每个时刻的声音信号绝对值,高度对应于音量。沿着轴从图的右侧到中间,我们具有第二时间维度。在原始立体声录音中没有在这个维度上的另外信息,因为立体声只是仅包含左信号和右信号的二维过程。

图6示出了与图5相同的数字立体声录音。不同之处在于该数字立体声录音现已经过立体声展开处理。它已经在时间上并且沿着轴从右到中心进行了展开,我们现在可以看到在每个时刻信号是如何展开到第二时间维度的。在该图表中,可以观察到,信号是使用沿着第二时间轴的20个离散的展开信号馈入,通过展开过程展开的。图6中的3d图形的概念乍一看可能有些奇怪,但是其非常类似于人脑如何解释声音。大脑沿着第二时间轴跟踪在某个时间点听到的声音,并且大脑使用图表中从原始信号开始直到结束的所有信息来获得关于该声音的信息。

大脑试图以和我们的视觉一样的方式来理解我们的声音环境。它通过创建对象并将特定声音分配给每个对象来简化声音环境[2]。我们听到作为对象的门铃以及伴随的当人走过房间时的混响,我们会把所有来自该移动的声音分配给所述人,等等。根据我们的视觉感知和分组的示例可能会让细节更容易理解。想象长满绿叶的小树和站在树后的人。看到该树和该人时,我们立即将该树的枝和叶分组为树对象,并且我们根据树后面的人的可见部分推断出存在另一个对象,但是该对象此时仅部分可见,并把该对象分组为人组。因为树叶遮住了人的大部分,所以我们对人组的感知受限,但是我们仍然试图合理肯定地讲该人组是独立的组并且很可能是人。视觉示例类似于我们的听觉是如何工作的以及大脑是如何对声音进行解码和分组的。即使大脑只具有部分有限的信息,它仍然可以对声音对象(就像树后面的人一样)进行感知和分组。我们听到的信息越少,就越难确定地对细节进行分类和进行分组,但是对细节进行分类和进行分组仍然是可能的,只是大脑需要更加努力地工作。如果树没有任何叶子,我们就能看到更多的细节,并且更容易且更确定地感知到树后的人组。

考虑到这一点,再来看看图5和图6之间的区别。在图6中信号展开版本中,有更多关于声音的信息,从而使大脑更容易进行分类、感知细节和对声音进行分组。这正是使用立体声展开时所听到的,与普通立体声相比,它增加了容易度并增加了对细节的感知。与每种声音相关的声学环境和衰减变得更清晰,并且声音舞台呈现出普通立体声所不具备的3d品质。声音舞台的整体大小也显著増大。

图6中的图形具有两个时间维度,并且矩阵中的额外第二时间维度是在处理中在维度上折叠成真实时间维度。

立体声展开空间声场创建

立体声展开技术创建真实可信的组装有三维声源的三维声音舞台,所述三维声源在连续真实发声声学环境中产生声音。这是通过以下方式实现的:从立体声源材料中提取信息来恢复现场声音中自然存在的环境声音与直接声音之比,以及以控制器方式将声音在空间上传播到听音室内。它通过以下方式运作:以常规方式向听众发送普通立体声信息以非常精确地建立声场中表演者的感知位置,然后向前以及在其他方向上投射经延迟和经频率整形的提取信号,以为耳朵和大脑提供额外的基于心理声学的线索。所述额外的线索产生了细节和透明性增加的感觉,并且建立了声源和执行所述声源的声学环境的三维属性。插入的线索为人脑提供更多信息来进行处理并且使与普通的立体声再现相比声音的解码更容易,从而需要更少的努力。

理想的立体声展开扬声器具有这样的扬声器驱动器,所述扬声器驱动器定位为不仅面向听众,而且还面向左、面向右、面向上面和面向后面。也可以使用向下击发的驱动器,但是益处有限。在这种情况下,驱动器是一个或多个声音产生设备,其可以为例如全范围驱动器、使用分音器(crossover)来在驱动器之间适当地划分频率的几个驱动器,或者均再现相同的声音的几个驱动器,所述驱动器也可以与使用分音器的一些其他驱动器组合在一起。可以使用从传统的锥形驱动器到静电驱动器和静磁驱动器等等的任何驱动器技术。驱动技术并不特别重要,并且任何声音产生技术都可以很好地工作。各个驱动器中的每一者的辐射模式可以是类似于普通的锥体、球顶或号角的常规向前击发,也可以是线源、全向源或偶极源,或它们的变型和组合。

来自算法的经处理馈入通常经由位于在其他方面看起来普通的扬声器的前部、侧面、顶部和后部的扬声器驱动器回放,以便在听音室中传播声音,即以受控的方式产生空间3d声场,从而产生类似于现场声音的可信声音舞台。立体声展开技术将使用少于全部的附加驱动器工作,甚至少到一个不直接面向前的附加驱动器就能够增强传统的立体声再现,尽管与使用所有驱动器在适当位置实施时的程度不同。此外,驱动器不一定需要直接向后、向上、向侧面或向前定向。使用呈不同角度而不是单纯在给定方向中的一个方向上的驱动器时,该技术将很好地起作用。

立体声展开技术优选地在两个看起来普通的扬声器(每个立体声声道一个扬声器)内实现,其中驱动器处于前述方向上。这也可以使用附加音箱来实现,所述附加音箱被添加作为任何类型的传统立体声扬声器的支撑扬声器单元,每个立体声扬声器具有至少一个附加音箱,但是附加音箱可以是任何数量。所述附加音箱可以放置在普通扬声器音箱的顶部上或以某种方式附接到普通扬声器音箱,或作为独立扬声器而单独地放置。附加的立体声展开扬声器也可以挂在墙上或安装在墙内。

dsp提取过程产生额外的l+r、l-r和r-l馈入,这些馈入在处理中与原始l和r声道一起使用。最基本馈入(fx)的公式如下所示;gx、dx和frx分别表示増益、延迟和频率整形。

f1=l

f2=r

f3=l*g1*fr1*d1

f4=r*g2*fr2*d2

f5=(l*g3*fr3*d3)+(r*g4*fr4*d4)

f6=(l*g5*fr5*d5)-(r*g6*fr6*d6)

f7=(r*g7*fr7*d7)-(l*g8*fr8*d8)

gx増益乘数可以为介于0与无穷大之间的任何数字。频率整形frx主要将频率范围限制为高于50hz,以便能够使用具有有限输出能力的较小驱动器以及实现其他益处,并且将较高频率的内容滚动高于7khz以模仿音乐厅中的典型混响场能量以及自然存在的空气对较高频率的吸收。优选的频率范围为100hz至4khz。它还将响应描绘为按照在环境声场中的滚动,类似于在音乐厅中自然存在的情况。延迟dx为至少5ms多至50ms,优选的范围为10ms-40ms,进一步优选的范围为15ms-35ms。所示的基本馈入f3-f7可以各自变成使用不同的gx、frx和dx设置进行的处理的若干输入馈入。在下面的文本和公式中,提及馈入f3至f7中的任一项表示在每种情况下至少一个但也可以是两个、三个、四个、五个或若干更多个具有不同gx、frx和dx的相同基本馈入。在下面的示例具体实施中,存在另一个延迟元件dfx,该延迟元件dfx用于解除一个馈入与任何特定驱动器的相关性,以及解除类似馈入与另一个驱动器的相关性。取决于扬声器音箱设计和驱动器位置,延迟可以是介于0-30ms之间的任何时间。

在立体声展开技术的一个示例-具体实施中,当在所有五个基本方向(向前、向侧面、向背面和向上)上使用驱动器时,将以下馈入用于不同的驱动器。

左扬声器

向前=(l*g9)+(f6*g10*fr10*df1)

向内=(f3*g11*fr11*df2)+(f5*g12*df3)

向外=f6*g13*df4

向上=f6*g13*df4

向后=(f6*g13*df4)+(f3*g14*fr14*df5)

右扬声器

向前=(r*g9)+(f7*g10*fr10*df1)

向内=(f4*g11*fr11*df2)+(f5*g12*df3)

向外=f7*g13*df4

向上=f7*g13*df4

向后=(f7*g13*df4)+(f4*g14*fr14*df5)

在另一示例中,在稍微简单些的具体实施中,当仍然在所有五个基本方向(向前、向侧面、向背面和向上)上使用驱动器时,各馈入以这样的方式配置。

左扬声器

向前=(l*g9)+(f6*g10*fr10*df1)

向内=f3*g11*fr11*df2

向外=f6*g13*df4

向上=f6*g13*df4

向后=(f6*g13*df4)+(f3*g14*fr14*df5)

右扬声器

向前=(r*g9)+(f7*g10*fr10*df1)

向内=f4*g11*fr11*df2

向外=f7*g13*df4

向上=f7*g13*df4

向后=(f7*g13*df4)+(f4*g14*fr14*df5)

在又一示例中,当在所有五个基本方向(向前、向侧面、向背面和向上)上使用驱动器时,各馈入以这样的方式配置。

左扬声器

向前=(l*g9)+(f6*g10*fr10*df1)

向内=f3

向外=f6*g13*df4

向上=f6*g13*df4

向后=f6*g13*df4

右扬声器

向前=(r*g9)+(f7*g10*fr10*df1)

向内=f4

向外=f7*g13*df4

向上=f7*g13*df4

向后=f7*g13*df4

在另一示例中,当在所有五个基本方向(向前、向侧面、向背面和向上)上使用驱动器时,各馈入以这样的方式配置。

左扬声器

向前=l

向内=f3

向外=f6

向上=f6

向后=f6

右扬声器

向前=r

向内=f4

向外=f7

向上=f7

向后=f7

在另一示例中,当在四个基本方向(向前、向侧面和向上)上使用驱动器时,各馈入以这样的方式配置。

左扬声器

向前=(l*g9)+(f6*g10*fr10*df1)

向内=f3+(f6*g15*fr15*df5)

向外=f6*g13*df4

向上=f6*g13*df4

右扬声器

向前=(r*g9)+(f7*g10*fr10*df1)

向内=f4+(f7*g15*fr15*df5)

向外=f7*g13*df4

向上=f7*g13*df4

在另一示例中,当在三个基本方向(向前、向内和向上)上使用驱动器时,各馈入以这样的方式配置。

左扬声器

向前=(l*g9)+(f6*g10*fr10*df1)

向内=f3+(f6*g15*fr15*df5)

向上=f6*g13*df4

右扬声器

向前=(g*g9)+(f7*g10*fr10*df1)

向内=f4+(f7*g15*fr15*df5)

向上=f7*g13*df4

在另一示例中,当在两个基本方向(向前和向内)上使用驱动器时,各馈入以这样的方式配置。

左扬声器

向前=(l*g9)+(f6*g10*fr10*df1)

向内=f3+(f6*g15*df5)

右扬声器

向前=(g*g9)+(f7*g10*fr10*df1)

向内=f4+(f7*g15*df5)

有无限数量的可能组合,所有这些组合都无法举例说明,但一般方法现在应该是显而易见的。将普通的l信号和r信号发送到面向前方的驱动器,并且将经提取和处理的各种起源的信号在适当的方向上发送到其他驱动器,并且可能还通过面向前方的驱动器。算法的确切选择取决于具体实施的特定属性。如所采用的驱动器分散模式、扬声器音箱上的位置、指向方向和角度以及驱动器的数量之类的事情均影响算法的最佳选择。

很容易认为立体声展开技术只是将回声添加到立体声信号中,但是它所做的与所有类型的装备有dsp的音频设备和软件插件等中普遍存在的普通dsp回声效果相去甚远。立体声展开技术利用心理声学现象来形象地描绘空间3d声音空间。在听音室内创建3d声场。在第一次听到声音之后,人类的耳朵和大脑对声源的位置和大小以及特定时间范围内环境声学的初始属性进行分类。该时间范围是声音开始后约5ms至50ms。5ms之前到达的声音被解释为来自声源的所谓直接声音的一部分,并且不被用于空间3d重建。50ms之后到达的声音被感知为回声,也不能用于空间3d处理。介于5ms与50ms之间到达的声音同样形象化地描绘了我们在聆听时感知到的空间3d声画,并向我们的耳脑提供了关于声音属性的各种线索。

使用立体声展开技术时,到达听众耳朵的初始声音是在提取的馈入中的任一馈入之前发出的l信号和r信号。使用适当的时间延迟时,清晰度、细节、声像定位(imagespecificity)和音色实际上被添加的馈入大大增强。发生这种情况是因为,由于存在更多的线索用于处理,所以添加的馈入使得耳脑对声音解码的过程更加容易。对耳脑来说,立体声展开解码比立体声解码要容易得多,实际上接近于与来自现场表演的声音类似的情况。

此外,立体声展开技术不会向声音添加任何类型的可感知回声,如果录音的声音是干的,则展开版本听起来是干的,并且如果录音的声音是湿的,则展开版本听起来是湿的。重新编码的声学环境真实地出现,并且在具有不同声学环境的录音之间完全地改变。

扬声器的大小变得或多或少不重要,因为立体声展开技术对声音的3d描绘欺骗了耳脑。耳脑不再能检测出扬声器的大小,因为有太多其他关于声源和声景大小的线索,扬声器的大小不再占主导地位。

最后,听音室的声学属性变得不像任何普通的立体声再现时那样重要,因为通过立体声展开技术投射到听音室内的声场已经具有添加到其的非常好的声学环境属性,并且所述声学环境属性已经延迟到足以被听众感知为环境声音。听音室不再有机会以与立体声再现相同的方式影响声音。

使用増强分组的立体声展开

增强分组过程对于让立体声展开在耳机和缺乏指向除了向前朝向听众以外的其他方向的附加驱动器的普通扬声器上起作用来说至关重要。在现场情况下,人脑使用空间声场信息和声压级来解释声学环境,即将声音对象分组在一起。因为立体声录音缺失所有的空间信息,所以当仅仅依靠声压信息时,分组过程对于大脑来说是相当困难的,因此,需要如前所述地降低混响音量。当立体声展开技术恢复环境信息时,如果没有由指向不同方向的附加驱动器提供的对听音室中创建的声场的增强空间控制,则必须为大脑提供有组织的声音,以帮助进行分组过程。这就是下面描述的增强分组方法的目的。

立体声展开dsp提取过程产生额外的基本l+r、l-r和r-l馈入,这些馈入在展开处理中与原始l和r声道一起用作构建块。基本馈入(fx)的公式如下所示;gx、dx和frx分别表示増益、延迟和频率整形,gfx是増益乘数,其用于调整向前主输出的音量以在立体声展开处理后保持相同的感知输出音量,并且frfx是频率整形滤波器,其可经修改以维持向前的直接声音的总体音调平衡。

f1=l*gf1*frf1

f2=r*gf2*frf2

f3=l*g1*fr1*d1

f4=r*g2*fr2*d2

f5=(l*g3*fr3*d3)+(r*g4*fr4*d4)

f6=(l*g5*fr5*d5)-(r*g6*fr6*d6)

f7=(r*g7*fr7*d7)-(l*g8*fr8*d8)

f8=l*g9*fr9*d9

f9=r*g10*fr10*d10

gx増益乘数可以为介于0与无穷大之间的任何数字。频率整形frx主要将频率范围限制为高于50hz,并且将频率滚动高于7khz以模仿音乐厅中的典型混响场能量以及自然存在的空气对较高频率的吸收。优选的频率范围为100hz至4khz。它还将响应描绘为按照在环境声场中的滚动,类似于在音乐厅中自然存在的情况。延迟d1和d2介于0ms-3ms之间,其余dx为至少5ms多至50ms,优选的范围为10ms-40ms,进一步优选的范围为15ms-35ms。所示的基本馈入f3-f9可以各自变成使用不同的gx、frx和dx设置进行的处理的若干输入馈入。在下面的文本和公式中,提及馈入f3至f9中的任一项表示在每种情况下至少一个但也可以是两个、三个、四个、五个或若干更多个具有不同gx、frx和dx的相同基本馈入。

在使用5个展开馈入的一个立体声展开的基本具体实施中,根据公式回放以下信号。

左声道=f1+f3+f6+f8+f5

右声道=f2+f4+f7+f8+f5

在一个非常简单的具体实施中,可以使用少到最少3个展开馈入。増强的版本可利用如图6所示的20个馈入,并且不存在馈入数量上限,馈入数量仅受可用dsp处理资源的限制。超过30个具有可感知的大量内容的馈入只会给听觉体验带来有限的优点并且可能变得有害,因此优选的范围介于3至30个馈入之间。少于3个馈入因为没有心理声学上有效的分组信息而不起作用,并且结果是折衷的。

在使用3个展开馈入的另一立体声展开的基本具体实施中,根据以下公式回放信号。

左声道=f1+f3+f6

右声道=f2+f4+f7

在使用12个展开馈入的一个立体声展开的更先进具体实施中,根据以下公式回放信号。“2*”表示在每种情况下每个馈入与不同的gx、frx和dx参数一起使用的次数。

左声道=f1+2*f3+4*f6+2*f8+f5

右声道=f2+2*f4+4*f7+2*f8+f5

当然,有无限数量的可能组合,所有这些组合都无法举例说明,但一般方法现在应该是显而易见的。示例中的左声道信号和右声道信号可通过耳机和/或普通扬声器两者回放。

当通过扬声器回放时,除了左声道信号和右声道信号之外,还可以将没有f1和f2分量的立体声展开馈入发送给指向除了直接朝向听众以外的其他方向的驱动器。可以使用任何类型的扬声器驱动器或其阵列来在一个或所有可能的额外方向(向内、向外、向上、向背面和向下)上发送附加的馈入。基本上,任何类型的产生散开的广泛分布声场的群集都将起作用。另外,对于定位为靠近或甚至可能附接到主扬声器的附加馈入,可以使用另外的单独扬声器。单独扬声器也可以类似于环绕设置而位于房间四周,或者整合到墙壁和天花板中。同样,上述的任何类型的组合是可能的并且将起作用。

心理声学分组现象是立体声展开过程的核心。在不分组的情况下,大脑无法将时间分层的馈入连接在一起,并且所述馈入无法提供额外的信息给大脑,相反它们将提供混淆并且会使声音不太清晰且更难理解。在不复杂的示例中更易于描述分组,因此让我们更仔细地看一看使用以下输出公式的上述具有3个展开馈入的示例中的左声道信号;

左声道=f1+f3+f6。

在这种情况下我们在f1直接馈入中具有的声音也出现在f3馈入和f6馈入中,因此我们需要对它们进行分组。心理声学分组越好且越稳定,则听觉效果变得越好并且可理解性得到改善。

根据心理声学研究应当理解,分组是基于原始直接声音信号与添加信息的相位关系和频率关系发生的。如果直接声音与添加的馈入之间的频率形状不同,则所述添加的馈入需要保持相位和频率内容符合人脑根据真实声学环境中存在的信号产生的期待内容。这意味着,如果我们具有直接声音和在稍后某一时间后到达的第二馈入,则大脑会根据第二信号到达听众的距离和时间而预期第二信号比直接声音具有更少的高频含量。已经行进25ms,等同于约8.5米的的信号,必须表现出至少等于在该距离处空气中存在的量的高频转降。如果该信号具有的频率内容与直接信号的频率内容相同,则对大脑来说将会是混淆的,大脑不会如预期的那样将它与直接声音分为一组。如果该信号具有较少的高频含量,则它会变得更加可信,因为声音除了在空气中传播之外,很可能还会在至少一个对象上反弹,反射本身也会去除高频含量。类似地,较小对象的反射不会将许多低频能量反射回去,并且反射的声音将取决于物体相对于波长的物理大小而被滚动到某个频率以下。本质上,为了实现良好分组,f1、f3和f6中的信号需要遵循物理定律,并且它们需要具有如所述的根据行进距离等修改的类似频率含量。

増强分组的另一个重要属性是相位关系。如果馈入f1和f6中的信号在它们的相位关系方面是随机的,则无法在没有立体声录音缺失的来自录音场所的空间信息的情况下对所述信号进行分组。

低频率转降与延迟一起作用以建立分组,并且増强的共鸣分组以延迟和频率转降的不同的组合发生。如果我们以例如250hz转降,则引起共鸣分组的延迟将是基频的多倍,即4ms*6=24ms。已发现,虽然延迟与基频相比较长,但重要的是,最低频率仍然与直接馈入同相,以使良好分组发生。上面的示例向我们提供了24ms的延迟。这不是精确值,因为它需要精确为24ms,否则分组不会发生。它更确切地讲是发生分组的范围内的中间点,并且应该被视为分组发生延迟的导向点。

需要将f3馈入与f1和f6分组到一起,以便为声音提供相位稳定。f6馈入本质上是l-r馈入,因此,如果大量添加f6馈入,则将在某种程度上引起声音的稍微令人不愉快的回响(phasiness),类似于当在扬声器中的一个扬声器不同相的情况下回放立体声内容时发生的情况。为了抵消这种现象,将f3馈入提供作为去除回响的稳定元件,并且当f3馈入与f1馈入和f6馈入分组在一起时,不再存在回响。

应用和技术方案

立体声展开可应用于任何舞台处的录音。它可以应用于老唱片上,或者也可以应用于制作新录音的过程中。它可以离线应用作为将立体声展开信息添加到录音中的预处理,或者它可以在回放录音时应用。

有多种将其具体实施成产品的方式,它可以是芯片上的集成电路中的硬件形式、fpga、dsp、处理器或类似者。可以使用允许所述处理的任何类型的硬件解决方案。它也可以作为在已经存在的处理设备(诸如dsp、处理器、fpga或类似者)上运行的固件或软件而具体实施到硬件平台中。这种平台可以是个人计算机、电话、平板电脑、专用的声音处理设备、电视机等等。

然后,立体声展开可以在任何类型的预处理或回放设备中具体实施,所述预处理或回放设备可以被想象为如上所述的硬件、软件或固件。此类设备的一些示例为有源扬声器,放大器,da转换器,pc音乐系统,电视机,耳机放大器,智能电话,电话,平板电脑,用于母带处理和录音行业的声音处理单元,专业母带处理和混音软件中的软件插件,用于媒体回放器、用于软件回放器中的流媒体处理的软件插件,用于流媒体内容预处理的预处理软件模块或硬件单元,或者用于预处理任何类型的录音的预处理软件模块或硬件单元。

其他应用领域

在使用立体声展开进行工作的过程中,我们还发现,对由正常听众感知到的声音清晰度的改善对于具有听力障碍的听众来说甚至更重要。听力受损的听众经常疲于应付声音的可理解性,因此带来的任何缓解都有很大帮助。

由立体声展开提供的增加线索通过为大脑提供更多的解码信息而减少了所述困难,并且越多的线索导致越高的可理解性。因此极有可能这项技术对诸如助听器、耳蜗植入物、对话放大器之类的用于听力受损的设备具有很大益处。

立体声展开可能还能够应用于pa声音分配系统,以提高在声音困难环境中针对每个人的可理解性,所述声音困难环境为诸如但不限于火车站和机场。立体声展开可以在声音可理解性成问题的所有类型的应用中提供益处。

立体声展开在pa系统中同样适用于声音增强,以增强典型音乐和语音的可理解性和音质。它可以用于体育场、礼堂、会议场所、音乐厅、教堂、电影院、室外音乐会等中的任何类型的现场或回放表演。

除了在时间上展开立体声声源之外,立体声展开还可以与它对立体声声源做的类似地使用心理声学分组在时间上展开单声道声源,以从可理解性的角度增强体验,或者总体上提供改善的回放性能。

立体声展开过程也不限于立体声回放系统,而是可以用于任何环绕声设置,其中处理、在时间上展开和分组发生在各个环绕声声道中。

具体实施方案

根据本发明的第一方面,提供了一种用于在扬声器系统中进行立体声再现的方法,所述方法包括:

-通过利用dsp(数字信号处理)来提供从左(l)立体声声道和右(r)立体声声道提取的信息;以及

-提供具有馈入(fx)的多个新立体声声道,所述馈入是从所述左(l)立体声声道和所述右(r)立体声声道提取的信息的经处理算法;

其中在所述经处理的算法中利用延迟(dx)和/或频率整形(frx);

并且其中在所述扬声器系统中产生的声音在至少两个不同方向上传播。

根据一个实施方案,在所述经处理的算法中利用延迟(dx)。根据另一实施方案中,在所述经处理的算法中利用延迟(dx)和频率整形(frx)。此外,根据一个实施方案,还在所述经处理的算法中利用増益(gx)。此外,可以利用频率整形(frx),并且所述频率整形(frx)可主要将频率范围限制为高于50hz。此外,根据另一具体实施方案,利用频率整形(frx),并且执行频率整形(frx)使得较高频率含量转降高于7khz。此外,可利用频率整形(frx),并且所述频率整形(frx)可在100hz至4khz的频率范围内执行。

根据又一实施方案,利用延迟(dx),并且除了前两个延迟d1和d2之外的至少所有延迟都是至少5ms,诸如在5至50ms的范围内,例如在10至40ms的范围内。此外,根据一个实施方案,前两个延迟d1和d2在0至3ms的范围内。

根据又一个实施方案并且涉及本发明的与增强分组相关联的第二方面,方法涉及提供多个展开馈入(fx)作为从所述左(l)立体声声道和所述右(r)立体声声道提取的信息的经处理算法。根据该方向上的一个实施方案,所述方法包括对至少一个展开馈入(fx)与另外一个或多个展开馈入进行心理声学分组,并且其中所述方法还包括在扬声器系统中回放展开且经心理声学分组的馈入声音。展开馈入(fx)的数量可例如为至少3,例如在3至30的范围内。此外,可提供一个或多个馈入(fx)作为相位稳定器。此外,根据另一个实施方案,通过使用基频的倍数来对馈入(fx)进行心理声学分组。此外,可以修改若干馈入(fx)以具有类似的频率含量。

根据第二方面,本发明还涉及扬声器系统,所述扬声器系统包括至少一个扬声器,所述扬声器系统被布置用于

-通过利用dsp(数字信号处理)来提供从左(l)立体声声道和右(r)立体声声道提取的信息;以及

-提供具有馈入(fx)的多个新立体声声道,所述馈入是从所述左(l)立体声声道和所述右(r)立体声声道提取的信息的经处理算法;

并且其中在所述经处理的算法中利用延迟(dx)和/或频率整形(frx),

其中所述扬声器系统被布置用于将产生的声音在至少两个不同方向上传播;并且其中

所述扬声器系统是立体声展开扬声器系统。

如从上面可理解的,本发明涉及在至少两个不同的方向上投射声音。这可以通过根据本发明的不同装置来实现,在扬声器系统中使用仅一个扬声器或若干个扬声器都可以实现。根据本发明的一个具体实施方案,扬声器系统仅包括一个扬声器。根据另一个实施方案,所述系统包括至少两个扬声器,例如两个在两个不同主方向上投射声音的扬声器。根据一个具体的实施方案中,当从特定位置查看时,所述至少两个扬声器面向至少两个相应方向并且彼此相对,为向前、向左、向右、向上和向背面的。根据本发明,本文的所有版本都是可能的,诸如三个、四个或更多个扬声器,它们总共只面向两个方向或面向若干个不同方向。根据本发明,它们的所有组合均是可能的。此外,根据一个实施方案,扬声器系统包括每个立体声声道一个扬声器。另外,支持扬声器是完全有可能的。

根据本发明的又一方面,提供了一种根据上述的扬声器系统,并且还提供了增强分组,所述系统还被布置用于通过包括以下步骤的方法来提供声音再现:

-提供多个展开馈入(fx),所述展开馈入是从所述左(l)立体声声道和所述右(r)立体声声道提取的信息的经处理算法;

-对至少一个展开馈入(fx)与另外一个或多个展开馈入进行心理声学分组;以及

-在所述扬声器系统中回放展开且经心理声学分组的馈入声音。

上述方面意味着所述系统回放立体声信息以及经分组的空间信息两者。此外,如上所述,所述扬声器系统可以包括在除向前以外的另一方向上的至少一个附加驱动器。

根据本发明的又一方面,提供了一种设备,所述设备被布置用于通过包括以下步骤的方法来提供具有增强分组的声音再现:

-提供多个展开馈入(fx),所述展开馈入是声音信号的经处理算法;

-对至少一个展开馈入(fx)与另外一个或多个展开馈入进行心理声学分组;以及

-在声音再现单元中回放展开且经心理声学分组的馈入声音,

其中设备是耳机或者具有在直接向前方向上的驱动器的一个或多个扬声器。

根据该方面,当考虑耳机时,立体声展开处理使用増强分组过程来创建使用耳机时的空间3d声场。如上所述,将直接声场和环境声场通过增强分组进行连接,所述增强分组将声音体验从听众头部内的一般情况移动到听众头部外面。

如上所述,同样在这种情况下,展开馈入(fx)的数量可以为至少3,诸如在3至30的范围内。此外,同样在这种情况下,可以具体实施至少一个附加扬声器,所述至少一个附加扬声器具有在除了向前方向以外的另一方向上的驱动器。

1.参考文献

[1]barron,michael“auditoriumacousticsandarchitecturaldesign”e&fnspon1993

[2]alberts.bregman,auditorysceneanalysistheperceptualorganizationofsound,1994,isbn978-0-262-52195-6

[3]davidgriesinger,theimportanceofthedirecttoreverberantratiointheperceptionofdistance,localization,clarity,andenvelopment,presentedatthe122ndconventionoftheaudioengineeringsociety,2007may5-8vienna,austria

[4]davidgriesinger,perceptionofconcerthallacousticsinseatswherethereflectedenergyisstrongerthanthedirectenergy,presentedatthe122ndconventionoftheaudioengineeringsociety2007may5-8vienna,austria

[5]davidgriesinger,pitch,timbre,sourceseparationandthemythsofloudspeakerimaging,presentedatthe132ndconventionoftheaudioengineeringsociety2012april26-29,budapest,hungary

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1