房间内扬声器声音的数字均衡方法及其使用的制作方法

文档序号:2821061阅读:503来源:国知局
专利名称:房间内扬声器声音的数字均衡方法及其使用的制作方法
技术领域
本发明涉及一种对放置于房间内的扬声器发出的声音进行数字均衡的方法,房间和扬声器具有组合的扬声器/房间的传递函数,上述方法包含在房间内放置麦克风,通过放大器从扬声器中发送出一个或多个脉冲并在预期收听位置测量脉冲响应。
此外,本发明涉及了该方法的使用。
背景技术
高保真声音再现自从一百多年前发明扬声器以来,声音再现的目的逐渐改变而且变得更富挑战性。在声音再现的发展初期,真实(realistic)技术目标与声音量级、放大、声效等有关。而今,这些问题不再给我们带来实际技术挑战。努力不断向前推进,到20世纪末已经涉及声音再现的质量问题。
当20世纪50年代初期引入立体声录音技术时(更多人可用到立体声电唱机),人们对与现场(real event)有关的再现质量的兴趣又向前迈出了一大步。过去将近40年来,高保真已经发展成为声音再现中必不可少的术语,至少当涉及家庭音响系统时是这样。今天,最终目标是生产透明的再现系统,即所形成的系统由于它们的物理、电或声学特性,不会给初始信号附加音频属性。但是,从技术的观点来看,这并不是严格定义的目标。
高保真这个术语包含整个再现系统且表明了再现的声音与现场匹配所能达到的程度。声音再现链路中大多数元件都会恶化声音,而且与再现的事件加在一起,通常最终远远不能正确复制现场,看图1.1。下面列出了高保真可能遇到的问题●录音技术和处理●录制信息/信号的存储●将存储的信息转换成电信号●信号转换(模拟/数字)●放大技术●电到声信号的转换器(扬声器/耳机)●声音再现房间传统的双通道录音技术已经发展到能够以一致的方式记录现场(尽管现在正对用于新型多通道系统的录音设置和标准相关问题进行讨论),而且数字技术似乎已经通过了最初的难题。类似的,今天可构造出的放大器的性能可以接近极限透明性(ultimate transparency)。然而气人的是,四十年的模拟LP唱片(recordings)用先进的电子管放大器进行播放,它仍能提供可与当今技术所能得到的性能相比拟的性能——至少从主观品质观点来看是这样。
可得出结论透明的高保真声音再现的下一步大发展将在于声场(acoustic field),即放大的电信号怎样转化成声音,声压在到达听者耳朵之前怎样受到周围环境的影响。因此为了进一步改善再现的声音,应该把关注的焦点放在扬声器及房间上。
哪些系统元件最影响再现的声音而哪些不会有显著的影响,关于这个问题存在许多偏见。有些看法已经由技术测量的结果得到证实,而有些则没有。有些通过听觉的主观看法普遍达成一致(虽然不可能通过系统测量结果证实)而有些却是高度个性化的。然而,基本来说,当进行盲听测试时(受验方并不知道哪个操作在进行),它表明,大多数人都能不依赖于个人喜好,以统一方式评估各种特性。
关于再现的透明性,唯一合理的参考就是现场——因此,大多数人感兴趣的是再现的声音能产生参加现场的幻觉和感受,即“身临其境(being there)”之感。虽然总有一天它可能通过测量及合理的解释来证实这种将好与不好的幻觉区分开的特性,但是最后的评估大概还是基于主观的。
收听室的影响当扬声器中随着电信号到声信号的转换而产生声音时,声音在到达听者的耳朵之前的最后传播路径穿过收听室。因为房间形成一个封闭室,声音几乎以所有的方向从扬声器中发射出,这个最后的声音传播路径对感知的声音产生极大影响。房间也可进行适当优化,以进行声音再现,但它始终会对事件施加自己声学特性。这对现场幻感也许是有利的也许是不利的——通常是不利的。
试图设想出一个不存在房间声学(acoustic)影响的声音再现事件。例如,这可在自由声场(free field)所中得到——但这与一般的收听条件不一致!但是,可以采用无回声的房间——所设计的房间只有扬声器发出的直达的声音才能到达听者的耳朵(根本没有反射)。这种解决方案在一般家庭收听室不太可行;这种无反射的房间的物理暗含的东西完全不能与房屋建筑的标准技术相兼容。最后,问题就是,纵使那种条件是可实现的,那么它是否真是合乎需要的?反之,采取补偿措施实现或多或少的理想声学特性不失为一种方法。将无源阻尼材料置于墙、地或天花板上,可改变某些声学特性,或可用吸声器。补偿声学特性的另一种方式是采用电均衡器,通常放在再现系统中的功率放大器正前面。这种均衡器可以改变再现声音的频率幅度内容,但它们本身也改变了与瞬态信号的再现有关的频率相位特性。一般而言,当它们试图校正房间的声学特性时,其中大多数常常引入一组不利的属性。因此,从高保真的观点来看,传统的均衡器是不够的(或不能令人满意),我们需要用更好的技术来取代它们。用数字电子设备来进行房间声学校正数字技术提供了潜在更加先进的均衡器,或以更广的意义是校正系统。通过采用信号处理器(DSP)的数字电子技术,实现那些也许是理想的目标变得更加容易。实质上,将问题简单表述,设计出用于适当解决方案的算法并将这编程在一个(或多个)DSP上,这与传统模拟均衡器相比具有更大的自由度。
但是这种方法需要房间声学特性的详细信息。不幸的是,在相同的房间中,一些声学特性改变相当大,取决于扬声器和接收器(收听者或测量麦克风)的物理位置。这种现象被认为是点到点的敏感情况(sensitivity scenario)。因此,如果它们被限制在唯一一个物理点上正确工作的话,要设计实际的校正系统似乎毫无希望。所幸的是,它们也存在共有特性,稍后将作阐述。
因此,特殊情况就是,数字技术和数学可以提供潜在的非常精确的房间声学校正(在房间非常有限的空间内——实际上是一点),但是实际的物理考虑表明我们不能充分利用这个潜力。如果不是整个房间,还必须将校正应用于更大的空间。
实际校正系统的概念房间校正系统的第一个基本要求自然是主观感知的声音再现质量得到某种程度的改善,第二个要求是必须使用简单。实际校正系统的高级规范为●独立系统,不需要外部计算机,●多通道能力,●合理的硬件复杂度,例如可与上等多格式解码器(MP3,DTS,Dolby ProLogic等)相比拟,●脱机(off-line)操作时间优选低于30秒,
●在收听位置周围的合理空间上(如1m2)的客观及主观改善,且房间其它地方没有严重的人为错误(artefact)。
对系统进行操作应该尽可能简单。用户将麦克风放置在优选位置,或可能放置在彼此相当接近的更多位置上,让系统获得房间声学信息。因此,系统为每个通道计算适当的校正算法,看图1.2(左)。现在,算法被存储,信号输入被从信号源通过前置放大器馈送到校正系统,看图1.2(右)。最后,校正的信号被馈送到功率放大器和扬声器。这个设置被称为预滤波校正,因为信号实际上经预先电修正,以便适应由于房间声学特性而进行的后续变换。
房间声学特性及房间声学信息的获得的概述在给定点上接收到发自扬声器的声音包括多个成分。首先到达的是来自源的直达声音,然后出现声音的多路和改变版本的集合。这些声音被一个或多个边界表面或内部元件撞击和反射,看图2.1,它们除了时延外,还很可能被衰减了,因为几乎所有材料都以一定系数α吸收声音能量。在图2.1中,声音表示为从扬声器发送并被麦克风接收的束。因为这种考虑仅对波长比任何的房间尺寸小得多的情况有效,它不是为与低频现象相关的反射定制考虑的。显示了7个反射束——前面四个是一级(一次反射)、一个二级(二次反射)和两个三级(三次反射)。随着时间的流逝,反射数增加,因此在麦克风上最终接收到的声音可认为是经不同传播路径传播的无穷多个声音束之和。
分成三部分的脉冲响应在图2.2中,显示的是从收听室测得的100ms的任意脉冲响应测量,很明显,它可认为是由值得分开考虑的三个部分组成●直达的声音●可分离的反射●不可分离的反射,也指混响拖尾(reverberation tail)
在一些时刻tstat很难将反射分开,因为在很短时间间隔t内反射如此之多。到时间t0时反射数De由方程2.1给出。时间tstat被称作统计时间(或混合时间),可由方程2.2定义,其中比率N/t表示回波密度,超过这个界限,将更适合以统计的方式来表示脉冲响应。混响(reverberation)半径rreverb在方程2.3中定义,它表示在与源距离什么样的距离内,声场变得发散。在正常收听条件下感知到的大部分声音能量(在家庭收听室中距离扬声器大约3m远)来自反射束,因为rreverb的典型值为0.5-1m。
De(t0)=4πc3t02V---2.1]]> rreverd=Aabs,eq16π---2.3]]>模态谐振频率频域分析通常与脉冲响应的传递函数补偿部分(counter part)有关。在2.2部分中,时域可粗略分为tstat下的可分离反射部分及超过tstat的统计混响部分。在频域上也可进行类似的考虑。由于声音的波特性,在低频率上,对于某些特定波长,房间的尺寸等于半波长的整数倍,其倍数相对较小。因此平行表面之间可以观察到驻波,在这些频率出现谐振。
当房间的尺寸(假定为1x)等于半波长时,驻波引起一阶模式(nx=1)房间谐振(当1x等于两个半波长时,得到二阶模式,nx=2)。由于反射,在多于两个平行表面上也可能出现驻波,例如Sx和Sz,整套谐振频率(其中,理论上,频率数是无穷多的)可通过方程2.4确定,其中采用的是矩形全反射房间。结合模式nx,ny,nz(1,0,0;0,1,0;0,0,1;1,1,0等),在图2.3中(条形线)显示了连续5Hz频带内的模态谐振总数。光滑曲线是作为频率函数的模态谐振的预测数。
fN=c2(nxlx)2+(nyly)2+(nzlz)2---2.4]]>显然,频带内的谐振数随频率增加,在某些点不再可能将谐振彼此分开。当发生这种情况时,用统计方法来进一步分析更为方便。这种情况非常像时域反射所描述的情况。与时域测量tstat相类似,Schroeder已经提出了方程2.5给定的测量,超过这个频率,统计分析变得更适合。这就意味着频谱可用高斯白噪声过程的频谱来近似。超过fschr,两个谐振间的间隔Δ(fN)变得很小,以致平均至少有三个谐振会落在一个谐振的平均带宽(BfN)内,要将这些谐振分开基本不可能。
fschr=2000T60V---2.5]]>对于典型的收听室,fschr位于100-150Hz范围,谐振的平均带宽达到4-5Hz,典型的频谱动态范围是±15dB。在图2.4中显示了脉冲响应的低频幅值谱。很明显,谐振引起明显的不规律性,而且在低于至少200Hz的频率,可逐个指出谐振峰(根据方程2.5,fschr为141Hz)。对房间声学特性的简要看法扬声器和听者的位置不改变房间谐振频率的模式,但它们确实影响谐振怎样被激发和感知,要理解这个事实至关重要。
可以画出类似于图2.5中的图形,揭示并分开时-频区域,这值得单独关注。在左上角,具有能够逐个指出的可分开的反射和模态谐振的区域。这个区域大概就是人的听觉能在其中找到最不令人满意的人为错误。但是,在右下角,不可分离成分在时域和频域都占主导地位,它可用随机过程来描述,即对房间的声学特性只体现整体的相关性。
当表征和建模时频现象时,房间的尺寸(体积)是特别需要关注的问题,因为它勾勒出了组合域中的界限。增大体积使tstat上升而使fschr下降;反之亦然。例如,在大体积的音乐厅,也许不仅仅讨论房间的模式和谐振,而且确实各反射的数量可能很大。在小房间,也许只有最初的两个或四个反射可以分离,但反过来,房间谐振也许单独占主导地位,达到几百Hz。
也许获得房间声学信息的最明显方式就是考虑声音传播路径——声音从房间中位置Ps处的严格定义的源发送出来,直到声音在位置Pr处被接收。把接收到声音与发送的联系起来,可能会找出房间怎样影响从Ps到Pr的声音。这个考虑似乎是合理的,因为我们正处理位于Ps的扬声器和位于Pr的听者。这个考虑被认为是点到点的情况——在数学概念上。当然,扬声器发送的声音并不是来自空间的单个点(即由于驱动单元间的距离),因此,对点到点情况的真实世界的解释必须稍微宽松。可是在接收端,假定接收机是单个麦克风(如果是有两个耳朵的人,该假定显然是不成立的),将Pr当作一点来考虑仍然有效。
MLSSA声学测量系统能够获得这些传播路径信息。通过扬声器发送一串最大长度的序列(类似随机白噪声序列)Ss(t)并在预期点用麦克风测量声压Sr(t),可以用互相关计算传播路径脉冲响应hsr(t)。
脉冲响应是这样一种测量当具有无限短的持续时间及无穷带宽的理想的完美声音脉冲d(t)从Ps发送时,在接收点Pr处的体验。手击掌或鸣枪声接近理想脉冲。但是这种信号对噪声特别敏感,那就是为什么提出互相关技术并得到广泛应用的缘故。实际上,脉冲响应hsr(t)保留了三项影响声音的信息——扬声器、房间和麦克风。这些项目的影响可以分离或不可以分离。通常,麦克风的贡献忽略不计,因为它通常的频率带宽比所需的声频带宽大。方程2.6显示了影响项项作为单个脉冲响应,按照时域卷积对接收信号Sr(t)的贡献。用d(t)来取代Ss(t),我们简单地得到了整个系统(或传播路径)脉冲响应接收信号hsr(t)。
Sr(t)={hloudsp(t)⊗hroom(t)⊗hmlc(t)}⊗Ss(t)---2.6]]>在本工作中,MLSSA测量绝对声压并用于获得房间声学特性。它是个离散时间系统,意味着响应h(t)实际上是用一系列采样来表征,表示为h(n)。
脉冲响应和传递函数脉冲响应h(t)是连续时间域测量。对于基于计算机的测量,过程输出是离散的。
传递函数是等同于脉冲响应的频域形式。它们的关系是Z变换,看方程2.7,通常(实际目的)H(z)也被采样,给出H(z)的有限个复值。用d(t)的离散时间形式来代替Ss(t),并忽略来自麦克风的非常小的影响,方程2.6的Z变换导出方程2.8,其中卷积变成相乘。
H(z)=Σn=0∞h[n]·z-n---2.7]]>Hsr(z)=Hloudsp(z)Hroom(z)Hmic(z) 2.8用于校正算法设计的数字信号处理技术传递函数分解和希尔伯特变换所测得房间脉冲响应h(n)的Z变换H(z),虽然是非参数化的,但可以用一般的数字IIR滤波器建模,如方程3.1中。实质上,一般的系统建模包含分子和分母多项式。分子中的根aj表示传递函数中单位圆内的零点,bj表示单位圆外的零点。相应的,ci表示传递函数单位圆内的极点,而di表示单位圆外的极点。
H(z)=Σj=0Mβjz-j1-Σi=1Nαiz-1=Πj=1Min(1-ajz-1)Πi=1Nin(1-ciz-1)Πj=1Mout(1-bjz-1)Πi=1Nout(1-diz-1)---3.1]]>通过分解,任何传递函数H(z)可分成最小相位部分、全通部分和纯时延(有时Hallpass(z)也包含时延z-n)的积。最小相位部分包含所有极点、固有的“内部”零点(aj)和任意以幅值1/r(bj)映射到内部的“外部”零点bj,称它们为b’j。全通部分包含原始的“外部”零点bj和极点,抵消人为引入的零点b’j这些极点表示为a’j。H(z)所有可能的幅值信息都保留在Hmph(z)中了,而所定义的Hallpass(z)的幅值总是一致的。可以看出,所定义的最小相位和传递函数中的幅值明确地链接在一起。最小相位系统和全通系统的分开可以用同态反卷积(homomorphicdeconvolution)来实现。响应h(n)的最小相位部分可用图3.1中的步骤来提取,先形成复倒谱(complex cepstrum),然后删除该域中无关联的信息,最后用逆操作恢复到时域上。
对混合相位系统hmix(n)进行逆变换本身会引起不稳定。但是有趣的是不稳定因果系统也可采用稳定非因果系统的形式,因此通过允许非因果关系,最大相位系统的校正实际上变得可能实现。房间脉冲响应的过相位可通过引入时延加以均衡。为了考虑到所有过相位,因此利用理想的非因果性应该持续无限长时间,这当然是不可能的。从纯粹的实用性出发,均衡过相位是在校正程度和可以容忍的时延量之间的折衷。最优的,当在点到点情况下进行均衡hmax(n)时,在校正时延部分没有人为错误出现,但只要再现系统改变即便改变程度很小,非因果校正将会引入人为错误。人为错误可以听得到,如作为前回声及/或前混响,这是令人非常气恼的。
参数传递函数模型将传递函数H(z)以参数化方式建模可用在均衡中,尤其是当H(z)中的现象与导出参数化模型的技术一致性很好时。通常,取方程3.2中的开始点,参数化模型分为三类MA(移动平均)模型,AR(自回归(autoregressive))模型和ARMA(MA和AR的结合)模型。当一个或多个bj不为零点而所有ai都为零时,就是说,没有一个分母多项式存在且H(z)=B(z)时,出现移动平均模型。因此,只有零点模型是可能的,因为零点表示为频率幅值谱中的凹陷(dip),MA模型可能不是模型谐振的最好方式。
H(z)=B(z)A(z)=Σj=0Mbjz-j1+Σi=1Naiz-i=b0+b1z-1+···+bMz-M1+a1z-1+···+aNz-N---3.2]]>当B(z)多项式的系数bj=0(除了常数b0)时,H(z)是自回归函数H(z)=b0/A(z)。这里我们得到分母的根,它在幅值谱上引起谐振峰。这更像我们一直在寻找的,因为这些谐振峰能很好体现所测的传递函数中的模态谐振峰。建立自回归模型的一个方法就是通过线性预测(Linear Prediction)。线性预测假定H(z)=1/A(z)模型,并尝试找出A(z)多项式系数ai,以便在最小二乘方(LS)中使模型和测量间的误差最小。这个过程假设脉冲响应h(n)的一个特殊采样可用前面采样的线性组合形成(或预测)。
关于AR方法的一个大问题就是,当模型直接用于逆均衡滤波器设计时,均衡滤波器G(z)变成FIR滤波器。FIR滤波相当于移动平均(moving averaging),它具有有限脉冲响应,而且本身是稳定的。AR模型很有吸引力,因为它能够捕获所测传递函数中我们想要解决的现象,还因为它能生成简单且稳定的最小相位逆滤波器。图3.2显示了一个低频房间传递函数的48阶LPC模型。
谱倒置、平滑(smoothing)和归整(regularisation)没有经过任何修正,H(z)的单纯倒置不需忍受相当大的时延通常是不可能的。如果只有最小相位均衡被接受,我们可以分解H(z)并将Hmph(z)倒置。对于前面讨论的原因,在实际校正系统中这可能不是个好主意,但对频谱进行平滑不失为一种可行的方法,也就是说,在1/N倍频(octave)带进行平均。这样,窄带影响被平均了,而实际上也引入了时域拖尾(smearing)。现在,找到平滑的H(z)的倒谱并不难。当进行这种平滑时,任何相位信息最初都丢失了。但是,利用希尔伯特(Hilbert)变换,我们可以得到全新的相位部分,根据平滑的幅值部分构成新的复数傅立叶变换。重新回到时域,允许小时延(由于所述的平滑,必须考虑少量的非因果关系),我们制出基于平滑的传递函数的最小相位均衡器。
如果不允许任何平滑(或可能在结合中),可以进行所谓的需经倒置的传递函数的归整。参考方程3.3,归整将抑制凹陷(零点)效应,所需量由ζ常数决定,因此倒置的传递函数G(z)不会遭受相对于初始凹陷的相同尺寸峰的问题。当我们希望设计低频均衡时,用谱倒置而不是用AR模型可能是有利的。然而,倒置应该基于H(z)的最小相位分解形式。
G(z)=1+ρ1H(z)+ρ2---3.3]]>扭曲频率比例频率扭曲(frequency warping)是使衰减在频率比例上重新分布的方法。例如,重点可能更多地放在频带的低端上,以高端细节为代价。实际上,频率扭曲是一种保角变换(conformal mapping),其中离散时间系统中的正常时延成分z-1被一阶全通滤波器D(z)取代,如方程3.4。
D(z)=z-1-λ1-λz-1---3.4]]>
因此,我们得到H(z)的非均匀分辨率频率体现。当我们设法反映人的听觉机理时,这可能非常有利,其中可观察到依赖于类似对数频率的频率分辨率(frequency resolution)。恰当地选择λ(0.7-0.75)将产生类似于巴克比例(Bark scale)的频率比例。现在,脉冲响应可被扭曲,可在扭曲域中确定均衡滤波器,均衡滤波器响应也可解扭曲(相同的过程,只不过是用负λ)。但是它的缺点是,用上面的D(z)取代z-1将FIR滤波器转变成IIR滤波器,所以稳定性不能自动保证(尤其是对于大滤波器阶次来说),而且均衡滤波器有无穷脉冲响应,必须对它进行截断(如果不进行截断,实际上,均衡不在扭曲域进行)。这些WFIR滤波器能体现出更充分的声学应用中的滤波能力的分配。
早期的反射衰减和扩散已经开发了用于衰减房间脉冲响应h(n)中的初始阶段的强反射问题的技术。这项技术证明,实际上它并不是设法对反射去卷积,它将从位置敏感观察点发出告警。不同的,它衰减每一个反射及反射周围任何小时间范围内的所有其它因素。算法不是非常复杂,而且可以很容易合并到房间声学校正架构中。利用上面所描述的技术,只有频域影响得到直接解决,我们可能正好希望所作的动作也会在时域中有积极的影响。反射衰减算法解决了恼人的时域影响。形成这个算法包含以下几个步骤,从实际角度看,它是一种相当新的解决房间声学校正的方法。
●包含早期反射的长度tc的分段c(n)从h(n)中分离出来●c(n)的幅值谱进行平滑得到G(z)●G(z)倒置且逆变换成g(n)●g(n)用时延tcaus因果化(causalised)成gcaus(n)●gcaus(n)与特殊窗口相乘作为反射衰减的可选方法,为了致使不可听见的第一强反射作为可分离的现象,可应用扩散滤波器(也是作者所设计的新技术)。小序列(几毫秒长度)的白噪声,按指数加权减少到平均10%,用所测的脉冲响应进行卷积。初始阶段的强反射在时间上拖尾,响应的初始部分包含更多能量,因此,透明度指数(Clarity index)将增大,但DR可能不会,因为直达的声音没有被放大。这种情况与具有许多彼此接近的相对低幅度的反射情况相似。实际上,它们的幅度可以相当高,但由于间隔小,它们的各个贡献很可能就听不见了。
过相位(excess phase)均衡因为hallpass(n)不包含频率幅值相关信息,我们可以用这个来卷积初始响应,而且只有相位发生改变。实际上,可以显示出,用给定的方程3.5进行卷积导致完全去除过相位。所以,只有h(n)的最小相位形式被保留下来。当然,对于无限长序列,不能确定方程3.5,所以必须选择有限长度的因果化(causalisation)。此外,实际原因要求这种限制,例如引入几百毫妙的时延破坏了组合音频/视频再现的同步问题。这减少了可用来校正的过相位的量。还有,为了将前回音和前混响影响的损失减少到最小,因果化应该尽可能选小值。
hm(n)=h(n)hallpass(-n)3.5发明内容本发明的目的是改善扬声器行为,其与放置了扬声器的房间的声学参数有关。
该目的用权利要求书1中的前序部分中定义的方法实现,其特征在于如下的步骤a)所测的脉冲响应经算法进行预处理和加权,b)使用交叉滤波器和下采样,来自预处理算法的输出通过算法被分离并适合于至少两个频率,c)来自频带分离算法的输出被馈送到至少两个频带校正滤波器算法,d)来自频带校正滤波器算法的输出被馈送到时延和幅值校准设计算法,e)来自校准算法的输出被馈送到后处理算法,f)存储并使用来自后处理算法的输出,以对被馈送到放大器中的声音源进行实时均衡。
如权利要求2所述,预处理算法的输出被分成典型的三个频带,所述的三个频带分别为低频、中频和高频,获得了一种属于频域上的声学行为的某些方面的自适应更强的校正。
如权利要求3所述是有利的方法,如果预处理算法的输出用作预校正算法的输入,则所述的预校正算法具有至少多于一个的输入适合于接收一个或多个可选电路的输出,其体现了对收听位置处接收到的声音具有特定声学影响,而且所述的预校正算法包含被馈送到频带校正滤波器设计算法的输出。
这样就可能适应全面均衡,不仅适应房间的物理参数而且适应其它参数,例如,如权利要求4所述,其中一个可选电路体现了在无回声房间的理想条件下从扬声器测得的参数;或如权利要求5中所述,其中一个可选电路体现了根据心理声学条件得到的参数。
实验表明,如果实施这种方法的话,在最初的30ms所测的脉冲响应中的反射被衰减的程度要比在剩下的脉冲响应中被衰减的程度厉害得多,这样就可以获得更好的均衡,如权利要求6中所述。
为了确保当离开均衡过程时所有被处理的信号按时间顺序,采取下面措施是有利的如权利要求7所述,校准算法包含使来自频带滤波器的输出信号同步的校准功能,或如权利要求8所述,校准算法还包含缩放(scaling)和求和功能。
最后,如权利要求9所述,校正是相对于听者所在房间的特定部分进行的,有可能选择用户需要均衡的精确程度。
换句话说,如果用户想要非常高的精度,那么他必须选择房间的非常小的部分或区域,在这些位置上均衡是最理想的;反之亦然。
正如所提到的,本发明还涉及了使用。
这种使用在权利要求10中限定。


下面,结合附图将对本发明进行更清楚的解释说明,在附图中图1.1是示出了原理上实时音频事件应当如何在存储之后被显示。
图1.2(左)是示出了关于怎样设计均衡器的简化方框图和(右)怎样应用均衡器的简化方框图。
图2.1是示出了一个例子,显示了来自房间中的扬声器所发送的源的反射。
图2.2是示出了从收听室测得的脉冲响应测量。
图2.3是示出了在5Hz频带内的模态响应的曲线。
图2.4是示出了低频幅值谱。
图2.5是示出了解释值得单独关注的时频区域的示图。
图3.1是示出了时域函数进行变换和逆变换的示图。
图3.2是示出了低频房间传递函数的48阶LPC模型。
图4.1是示出了描述根据本发明所使用的各种算法的方框图。
图4.2是根据图4.1的滤波器的详细方框图。
图4.3是示出了用于图4.1中的算法的传递函数的示图。
图4.4是根据图4.1的两个可选方案的详细方框图。
图4.5是示出了根据本发明的两个可能的校正系统结构的方框图。
图5.1是示出了显示了根据本发明的算法性能的DFT幅值谱。
图5.2是含有反射衰减功能的校正算法。
图5.3是示出了显示了应用反射衰减功能情况下的校正算法性能的DFT幅值谱。
图5.4是示出了根据本发明的均衡器的优化性能的DTF幅值谱。
图5.5是示出了在扬声器校正前的累积谱衰落,以及图5.6是示出了校正后的累积谱衰落。
具体实施例方式
在图4.1中,显示了用于扬声器/房间校正设计的框架的示意图。主要功能是预处理、频带分离、三频带校正及后处理,这些模块的内容在下一部分进行详细解释。房间声学校正设计框架以一种灵活的方式建立起来,它允许所有参数都具有灵活性。虽然设计框架从单个传播路径脉冲响应的校正出发,但这可以通过更多响应的加权平均来构成。在低频范围有相当多的谐振峰出现,约为2Hz的频率分辨率就能满足需要,但是用FIR滤波器的直接实现需要大约22,000个滤波器系数才能得到这个分辨率。今天,这对于标准信号处理器来说仍然太大。然而仅在低频带才需要这么高的分辨率,所以频带分离和下采样技术显然开始发展。为了放宽对三带校正设计的需求或加强特定时域校正,初始响应可用辅助函数来修正,看部分4.6。
第一步,初始输入响应由所测的脉冲响应得到。初始响应可基于单个测量,或者更多脉冲响应hi(n)可以用任意加权进行平均(只是作为缩放的逐个采样相加)——在整个带宽内或优选的仅在一些频率fc_avrg下。这允许输入一个平滑响应,以避免或减少高频处的位置敏感度,或暗中对来自低频谐振的感知影响做更好的评估。综合考虑也是允许的,即,低于fc_avrg频带,输入响应可为从多个源到单个接收机位置的响应平均,而在高于fc_avrg频带,将确定单个测量。关键点仍是在每次为一个传播信道设计一个校正。
初始输入响应被分离成三个频带,允许依赖于专用频率的校正,如房间声学及心理声学观点。为了使这些来自交叉滤波器的任何可听得见的影响减到最小,频带分离采用线性相位FIR滤波器。必须输入四个频率低截止频率和高截止频率及两个交叉频率。合理的方式是较低的交叉频率选在房间的Schroeder频率附近,而较高的交叉频率要高6-7倍,其中位置敏感性规定了方案(agenda)。对于高频带保持初始采样速率,但基于方便和适当照顾处理功率的原因,中频带和低频带以交叉频率的3-4倍的速率进行重采样。
三个频带的每一频带中,需经均衡的响应的持续时间(采样长度)可以设定,这样由于频率分辨率的降低而强加了一个固有平滑。这个平滑表明是有利的,而缩短响应持续时间肯定会降低处理功率的需要。有理由相信,频率越高,所需的响应越短。
低频信道被限制在接近Schroeder频率,典型约为150Hz,指向低于1kHz的采样频率。在这种情况,2Hz的频率分辨率典型需要是滤波器少于500个抽头。鲁棒(robust)的倒置滤波器设计方法可以基于输入响应的AR模型(所有极点)。倒置滤波器是基于LPC技术的,在第3部分进行了简要描述,而滤波器的级数是可变的。这种补偿方法很有吸引力,因为●它特别有助于抑制谐振峰,●均衡滤波器是一个全零滤波器——稳定性总是得到保证,和●均衡滤波器为自动最小相位。
产生合并了均衡滤波器的另一种方法就是仅仅将复谱倒置。但是,为了让谐振峰加权比相同幅度的凹陷更大,这里的频谱在倒置之前经过归整。这种方法不能确保最小相位滤波器(仅幅值谱被采用),当它达到稳定时,趋向于劣于LPC方法。最后,加上这两个与幅度相关的方法中的任何一个,输入响应中任何数量的过相位可以用过相位响应的镜像卷积(mirror convolution)来补偿——但是,付出的代价是等于过相位响应长度的时延。
正如所描述的,较低的交叉频率应该选择在Schroeder频率周围,因为位置敏感度在几倍fschr频率处是个问题,所以 通过滤波器组的平滑可用心理声学来激发,分辨率大约为0.5-1巴克(Bark)。在500Hz以上的频率范围,分辨率粗略对应为1/6-1/3倍频。巴克比例与人的声学感知(包括音质)的关系更大。在中频频带,要实现下面选项●用LPC技术进行AR模型和倒置滤波器设计(或)●最小相位幅值谱倒置●预平滑●预扭曲●反射扩散最后的选项是通过将响应和短(5ms)指数加权白噪声响应进行卷积来降低初始阶段强反射的可听度的途径。这个“扩散”滤波器往往在某种程度上模糊了可分离的反射而且对混响时间和清晰度确实不利。此外,AR模型的阶是可变的,因为如果可能的话,平滑因子(从1倍频到1/24倍频)和扭曲因子允许将更多注意投注到中频频带较低部分。
在高频范围,为了1/6到1/3倍频的频宽内的声调平衡的校正,应该优选地减小均衡。请注意,心理声学激发的巴克比例在500Hz以上接近1/3倍频。FIR滤波器的应用本身施加了一个由加载的窗引起的频率平滑,以限制滤波器响应的长度。在高频频带,要实现以下选项●最小相位幅值谱倒置●预平滑●反射扩散以及在中频频带,这里也可实现有反射扩散,可获得三个可供选择的目标函数其中一个为平坦频谱,其中两个为微小衰落谱(decayingspectra)(分别是每进十为4dB和7dB)。AR模型方法不太适合这个频带,因为它太多关注谐振峰,但这里不需要甚至不希望窄带均衡。整个三频带均衡器的功能模块如图4.4所示。
为了改善校正性能,可有另外两个选择。两个选择(如果可能的话)都改变了三频带均衡器的初始响应,因此三个均衡滤波器工作在改变的响应上,三频带均衡器的输出必须再次校正。进入频域并简化三频带均衡器的功能以实现盲倒置(blind inversion)(当然它不是),这个概念如图4.3所示。不管变换过程中发生了什么,所输入的需经校正的传递函数H(z)必须以1/H(z)结束。从而,在倒置之后必须应用这个体现了示为R(z)的辅助选项的线性操作。
三频带均衡器主要工作在频域,但为了控制输入响应中的各反射,它必须工作在时域。所解决的反射序列被截断,频率被变换,而且在倒置前需经归整或平滑,以避免太敏感的反射修正。采用这种修正的反卷积技术,高达30ms的响应被反射衰减滤波器衰减了6-12dB。由于位置敏感度问题及不确定的主观响应质量,完全取消反射图形,使得在最初15-30ms内根本没有能量,这是不合乎需要的。归整和平滑都要求后因果化(引入衰落),最终反射衰减滤波器为带通滤波,以便将它的工作频带限制在频带100-1000Hz上—也为了减小完全的取消,尤其是在高频,看图4.4。反射衰减算法在第3部分作了更详细描述。
由于某些原因,对扬声器进行预均衡并将均衡滤波器包含在工作在整个输入房间响应上的算法中是有利的,例如,当希望进行特定的扬声器修正时。提出了四种均衡扬声器的方式,如图4.4所示。
在图4.5中,显示了两个可能的校正系统结构“脱机(off-line)”结构,其中均衡滤波器是基于所测的响应设计并存储;“联机(on-line)”实时结构,其中电信号是基于所存储的滤波器进行下采样、校正的,并进行再次采样和添加进去以形成最终的校正信号。在“脱机”结构中,每一个频带的校正设计后,由于可能引入时延,对校正滤波器进行缩放(scaled)和时间校准,最后存储在滤波器组中。此外,这三个滤波器被重新采样达到初始速率并一起加为一个FIR滤波器——主要用于评估目的。为了让校正的响应在250Hz到5kHz频带如初始响应一样具有相同的能量,施加一个淡出窗(也用于评估目的)且对最终滤波器进行缩放。
房间声学均衡器性能的例子输入到频带分离/下采样中的响应在低于150Hz频带上以两个响应的相等加权数合成(立体声扬声器和一个测量点),而在高于150Hz频带无需平均。引入这个平均是为了更好地获取普遍的谐振现象而不是仅仅由两个扬声器位置单独产生的谐振现象。但是,对各传递函数进行非常小的精确校准是耗费成本的。最后,对响应进行缩放(scaled)直到它的总能量等于1。
三频带均衡的交叉频率分别设为150Hz和900Hz。Schroeder频率为95Hz,所以在高于150Hz频带没有个别谐振现象,而选择900Hz是因为中频频带校正太灵敏而不能用于更高频率。实际上,700Hz和1.5kHz间的任何交叉频率都可以满足要求,但是,如上所述所选择的专用算法的交叉频率结果为900Hz。最低和最高的校正频率分别设为25Hz和22kHz。进行下采样,以在1.5上对新的尼奎斯特(Nyquist)频率给出交叉频率(这些为422 Hz和2430 Hz),其等于下采样因子144和25。
交叉滤波器都是线性相位FIR滤波器,阶数已按标准选择,当增加理想脉冲的下采样频带时,结果应该尽可能接近未滤波的理想脉冲。此外,LP和HP滤波器(对于两个交叉频率)的斜率应该近似相同。这导致低通滤波器的级数为18、28和18,而高通滤波器的级数为28、84和560。
在低频带,选择计算描述了传递函数的AR(自回归)模型。这个模型1/A(z)只包含极点,因此很好描述了模态谐振峰。AR模型由线性预测编码(LPC)获得,在A(z)多项式中的系数个数设定为48,类似于24个第二级极点的影响。假设(并校验)24个这种极点应该足够建模高达150Hz的可分离谐振。用A(z)多项式作为FIR均衡滤波器将除去传递函数中的特征峰,也没有不希望地将能量引入传递函数的自然凹陷中。为了补偿谐振峰衰减的能量损耗,整个低频带放大1.5dB。在低频带,均衡工作在整个输入响应500ms上,产生了2Hz的固有平滑。
在中频带,仅用最初150ms的输入响应(这强加了一个7Hz的最大频率分辨率,实际上是满足需要的,因为我们不希望像在低频频带那样,在这里太多关注窄带峰现象),此外,这里用到了AR模型技术。用第3部分描述的频率扭曲技术,更多关注低频成为可能,且采用0.72的扭曲因子,LPC数学更关心150-400Hz的频带而不是高于400Hz的频带。假设随着频率的增加,很容易用AR极点来建模的传递函数现象也变得更少,即我们有充分的理由将AR模型和频率扭曲结合。
高频频带处理初始50ms,产生20Hz的频率分辨率(这与只有相对宽带的均衡才能在此进行的情况极其相符)。在这个频带,采用直接谱倒置,但倒置前输入的响应谱进一步进行1/4倍频平滑。所述平滑去除了所有相位信息,但是,它用希尔伯特变换关系重新存储。倒置之后,频谱用微小衰落函数(从1kHz到10kHz的-4dB)加权,类似于房间脉冲响应中的自然高频衰减,最后变换回时域FIR滤波器。
图5.1中,显示了算法性能。灰色图区显示了输入到校正设计框架中的响应及其频谱,而黑色曲线显示了校正后的脉冲响应及其频谱。特别的,在频谱图区很容易看出校正效果。
现在来研究反射衰减能力。输入响应是经再次低频位置平均的,但现在在三频带均衡器之前启动反射衰减函数。对于最初10ms,反射设为减少了(但如第3部分所述并未完全去除)约8dB,这在图5.2清楚显示出来。假设通过三频带均衡器增强的(反射衰减)响应不会对生成的频率幅值谱产生太大影响,看图5.3。这看起来跟那些严格根据期望的初始算法得到的响应一样好,因为采用相同的算法参数,而且根据该校正设计框架,输出响应如它所应当的那样是用反射衰减滤波器进行后校正的。
校正设计框架的可供选择的应用这个算法的目的是为了显示当主观性能不是问题时,它可能将设计框架配置成进行非常精确的校正。在低频频带,不对输入响应进行平均,也不对收听位置和扬声器的位置进行平均。对所有三个频带来说,处理响应长度为500ms。在低频和中频两个频带,采用非常明细的AR模型,在低频带采用120个系数。在中频带,不进行平滑和预扭曲,采用多达288个LPC系数。此外,在高频带省略了平滑和衰落目标函数。所以从信号处理的角度出发,由于大量的LPC系数,在三个频带上发生的行为或多或少类似于整个频谱倒置(仅以受控和强大的方式)——但它以最小相位方式进行。除了过相位外,倒谱作用不大,那就是为什么采用调制为达到更高精度的三频带技术。客观性能很突出,如图5.4中所示。
校正设计框架也非常适合单独均衡扬声器。无回声测量的扬声器倾向于采用与所建立的房间校正中用到的相同的校正算法的优化参数。图5.5和5.6显示了校正前和校正后的累积频谱衰落。均衡在两个域中都相当突出。
权利要求
1.一种对放置于房间中的扬声器发出的声音进行数字均衡的方法,具有组合的扬声器/房间传递函数,所述的方法包含在房间中放置麦克风,通过放大器从扬声器中发送出一个或多个脉冲,在所需的收听位置上测量脉冲响应,所述的方法的特征在于以下的步骤a)所测量的脉冲响应通过算法进行预处理和被加权;b)采用交叉滤波器和下采样,预处理算法的输出用算法进行分离并且适合于至少两个频带;c)频带分离算法的输出被馈送到至少两个频带校正滤波器设计算法;d)频带校正滤波器设计算法的输出被馈送到时延和幅值校准算法;e)校准算法的输出被馈送到后处理算法;以及f)存储并使用后处理算法的输出,以对被馈送到放大器的声音源进行实时均衡。
2.如权利要求1所述的方法,其中,预处理算法的输出被分成典型的三个频带,所述的三个频带分别为低频、中频和高频频带。
3.如权利要求1或2所述的方法,其中,预处理算法的输出被用作预校正算法的输入,所述预校正算法具有至少多于一个的输入适用于接收一个或多个可选电路的输出,这些输出体现了对在收听位置上所接收到的声音产生的特定声学影响,并且所述的预校正算法具有一个被馈送到频带校正滤波器设计算法的输出。
4.如权利要求3所述的方法,其中,可选电路之一体现了在无回声房间的理想条件下从扬声器测量到的参数。
5.如权利要求3或4所述的方法,其中,可选电路之一体现了从心理声学条件得到的参数。
6.如权利要求2-5所述的方法,其中,在最初30ms中,所测量到的脉冲响应中的反射的衰减比其余脉冲响应的衰减强。
7.如权利要求1-6所述的方法,其中,校准算法包含用于使频带滤波器的输出同步的校准功能。
8.如权利要求1-7所述的方法,其中,校准算法还包含缩放及求和功能。
9.如权利要求1-8所述的方法,其中,校正是相对于听者所在房间的特定部分进行的。
10.如权利要求1-9所述的方法在多通道设置的扬声器中的使用。
全文摘要
一种对放置于某个房间中的扬声器发出的声音进行数字均衡的方法,所述的房间具有影响用户感知声音的方式的可变的声学特性,通过用麦克风测量一个或多个冲响应,在房间的特定部分进行校正,所述的脉冲响应在预处理算法中、至少两个并行频带校正算法和后处理算法中进行处理。一种选择是,预校正算法可设置在预处理算法和频带校正滤波器之间。预校正算法适合接收体现了所测的无回声房间内的理想条件下的扬声器特性的输入,和/或来自反射衰减算法的参数。来自后处理算法的最后滤波器参数被存储并用于校正与放大器连接的源发出的声音,并向扬声器馈送扬声器所放置的实际房间的声学行为。如果房间中的参数发生改变,那么为了建立新的滤波器参数,可以重复根据本发明的校正方法。
文档编号G10K15/00GK1659927SQ03813761
公开日2005年8月24日 申请日期2003年6月12日 优先权日2002年6月12日
发明者拉尔斯·格特弗里德·约翰森 申请人:伊科泰克公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1