评估声音失真的装置和方法

文档序号:6093453阅读:188来源:国知局
专利名称:评估声音失真的装置和方法
技术领域
本发明涉及一种用于评估音响系统的声音失真的装置和方法;更具体地说,是涉及一种利用频率的和时间的掩蔽效应、以与人的实际听觉一样的方式评估声音失真的改进的装置和方法。
声音失真测量装置一般用于评估一个音响系统的性能;对于一个音响系统的性能或质量一般是对“失真”的水准进行测量。通常是根据“总谐波失真(THD)”和“信噪比(SNR)”测量声音失真,其中所述的THD是所有的单个谐波失真分量和/或IMD′S(互调失真)的RMS(均方根)总和,IMD是当两个或多个信号通过一个音响系统时,由所产生的和与差的成份所组成的;并且所述SNR表示输入信号的幅值与误差信号的幅值之比,以分贝为单位。
然而,这样THD或SNR测量的是一个物理量值,不是根据人的声音感觉能力所直接听到的感觉。因此,一个听者可能有这样的感受,由一个具有较大THD(或较少SNR)的音响系统所产生的音响比一个具有较低THD(或较大SNR)的系统所产生的音响失真要小。
因此,已经提出了各种用于逼真评估声音失真的技术和装置。这些装置其中之一公开在4706290号美国专利中,它包含用于测量扬声器次谐波的初级和次级网络,以便使得到的结果将接近人的听觉。
然而,当该设备在时域中用于测量计权的谐波失真时,其结果并不能很好地反映人的实际听觉感受。此外,该设备必须使用各种模拟电路,使得例如在高保真立体声系统中很难将电路参数精确调节到所希望的水准。
另外一些类型预期用于评估音响失真的装置包括公开在正在审理的序号为08/133662的普通转让的申请中,名称为“用于评估声音失真的方法和装置”。该装置根据超过频率掩蔽阈值的一个差信号的功率密度谱,通过估算其感觉的能谱距离(perceptual spectrum distance)来测定在一个音响系统中的音响失真。
然而,上述装置由于在测定声音失真时没考虑时间掩蔽效应,使得要测量与人的实际听觉相一致的声音失真能力有限。
因此,本发明的主要目的是提供一种用于评估声音失真改进的装置和方法,其考虑了声音失真的频率的和时间的两种掩蔽效应,使得由此所得到的结果与人的实际听觉有逼真的一致性。
本文所用的术语“时间掩蔽效应”表示一种现象,即对某一种声音的听力的听觉限值或阈值由于在时域中另外一种暂时的邻近声音的存在而提高;而术语“频率掩蔽效应”意指对某一种声音由于存在另一种在频域中的同时存在(即掩蔽)的声音,使其听力的听觉限值或阈值有所增加。
根据本发明的一个方面,提供一种在音响系统中使用的用于评估声音失真的装置,其按照逐帧方式工作,该失真是在输入到音响系统的输入的数字音频信号和从该音响系统输出的数字音频信号之间出现的,其中所述的输入和输出的数字音响信号分别包括若干帧,该装置包含第一估算装置,用于对现时帧的输入数字音频信号估算功率密度谱;确定装置,用于对现时帧的输入数字音频信号根据其功率密度谱确定其频率掩蔽阈值;第二估算装置,用于对表示在输入数字音频信号的现时帧与它的对应的输出数字音频信号帧之间的差的差信号的功率密度谱进行估算;第三估算装置,用于根据该差信号的功率密度谱和该频率掩蔽阈值估算一个感觉的能谱距离;以及第四估算装置,用于对在输入的数字音频信号和它的对应的输出的数字音频信号帧之间的声音失真进行估算,估算是利用将已估算的感觉的能谱距离乘以一个计权因子,该计权因子是利用输入数字音频信号的现时帧和它的至少一个先前的帧的功率密度谱来计算的。
根据本发明的另一个方面,提供一种在音响系统中使用的用于评估声音失真的方法,其按照逐帧方式工作,该失真是在输入到音响系统的输入数字音频信号与从该音响系统输出的输出数字音频信号之间出现的,其中所述的输入和输出数字音频信号分别包含若干帧,该方法包括的步骤是估算现时帧的输入数字音频信号的功率密度谱;根据该现时帧的输入数字音频信号的功率密度谱确定一个频率掩蔽阈值;估算表示在输入的数字音频信号的现时帧和它的对应的输出的数字音频信号帧之间的差的差信号的功率密度谱;根据该差信号的功率密度谱与该频率掩蔽阈值估算感觉的能谱距离;以及估算在输入的数字音频信号的现时帧和它的对应的输出数字音频信号帧之间的声音失真,这种估算是通过将已估算的感觉的能谱距离乘以一个计权因子,该计权因子是利用输入的数字音频信号的现时帧以及它的至少一个先前的帧的功率密度谱来计算的。
通过结合附图对各优选实施例的如下介绍,本发明的上述和其它目的和特点将更加清楚,其中

图1是表示本发明的用于评估声音失真的新颖装置的示意方块图;
图2是描述图1所示的功率密度谱估算器的详细方块图。
参阅图1,本发明的装置包含第一和第二功率密度谱估算器20和40、频率掩蔽阈值估算器30、感觉的能谱距离估算器50、计权因子计算器60、延迟电路70和乘法器80。
加到一个音响系统(未表示)的第一帧或现时帧的输入数字音频信号X(n.i)顺序加到减法器10和第一功率密度谱估算器20上,该信号包含N个取样,即n=0、1、2...N-1,估算器20用于对该信号实行从时域到频域的快速傅利叶变换。一“帧”用在这里是指音频信号的一部分,其对应于一固定数目的音频信号采样以及是一个对音频信号进行编码和解码的处理单位。
下面转阅图2,该第一功率密度谱估算器20包含一开窗口单元(windowing block)21和一个快速傅利叶变换(FFT)单元22。
开窗口单元21接收输入的数字音频信号X(n.i);并通过将输入的数字音频信号乘以预定的汉宁窗口函数进行开窗口处理。该预定的汉宁(hanning)窗口函数可以表示如下h(n)=0.58/3{1-cos(2πn/N)}]]>方程(1)其中N是正整数,以及n=0、1、2...N-1。
因此由开窗口单元21得到输出函数W(n.i)可以表达如下
W(n,i)=X(n,i)×h(n)方程(2)其中i是一个帧的注脚,n与以前限定的相同。
从开窗口单元21得到的输出W(n,i)然后提供到用于估算该输出的功率密度谱的FFT单元22;在本发明的一个优选实施例中,该单元22对于心理声学模式Ⅰ(或MPEG(动画专家组)-音响设计者Ⅰ)包含一个512点的FFT。因此,该输入数字音频信号的功率密度谱X(k,i),正如在本技术领域所熟知的那样,由下式计算X(k,i)=10loglo|1NΣn=0N-1w(n.i).e-j ω|2dB 方程(3)]]>其中,ω为2πkn/N,K=0、1...(N/Z)-1,N和n如前所限定的具有相同的意义。
回过来参阅图1,在FFT单元2所计算的、输入数字音频信号的功率密度谱然后被提供到频率掩蔽阈值估算器30,该估算器30适合于根据输入的数字音频信号估算一个掩蔽阈值,信号X(k.i)并被提供到一个下文将完整介绍的计权因子计算器60。
频率掩蔽阈值代表一个听觉限值、该限值是一个声音所固有的可听得到的限值或阈值与一个增量的和,该增量是由于在频域中存在另一个(掩蔽的)同时存在的声音所引起的一个增量,如在一篇题为“动画及伴音的编码”ISO/IEC/JTC1/SC29/WG11 NO501 MPEG 93(1993.7)中所介绍的,该文结合本文可供参考,在该文中,讨论所谓的心理声学的模式Ⅰ和Ⅱ是为了例如对与第一功率密度谱估算器20相关联介绍的每一个功率密度谱,计算该频率掩蔽阈值。在本发明的一个优选实施例中,在频率掩蔽阈值估算器30中采用心理声学模式Ⅰ是有益的。在频率掩蔽阈值估算器30中确定的频率掩蔽阈值M(k,i)然后提供到一个感觉的能谱距离估算器50。
在这期间,从音响系统来的第一帧的输出数字音频信号y(n.i)被加到减法器10上。该减法器10用于产生一个表示在第一帧的输入X(n,i)和输出Y(n,i)音频信号之间之差的差信号e(n.i),其可表示如下e(n,i)=X(n,i)-y(n,i)方程(4)其中X(n,i)和y(n,i)两者是P,例如16比特的脉冲编码调制(PCM)音频信号。
接着,该差信号被提供到第二功率密度谱估算器40上,该估算器40除了在其中所计算的是差信号的功率密度谱E(k.i)以外,与第一功率密度谱估算器20实际上相同。因此,第二功率密度谱估算器40也包含一个开窗口单元和FFT单元。因此,应当理解,差信号的功率密度谱E(k.i)可以像在图(2)中对输入的数字音频信号X(n.i)所做的一样,通过利用汉字窗口函数h(n)对差信号e(n,i)进行开窗口处理而得到。对第一帧的所述功率密度谱E(k,i)可以由下式得到E(k.i)=10loglo|1NΣn=0N-1w(n.i).e-j ω|2dB方程(5)]]>
其中,ω、N、n、k和i具有与以前所限定的同样的含意。
功率密度谱E(k,i)和频率掩蔽阈值M(k.i)同时被提供到感觉的能谱距离估算器50,该估算器50用于估算表示第一帧的声音失真的、第一帧的一个感觉的能谱距离PSD(i)。即估算器50将差信号的功率密度谱E(k.i)与掩蔽阈值M(k,i)进行比较,产生并向乘法器80提供一个表示声音失真的感觉的能谱距离,由于考虑了频率掩蔽效应,与由人的听力所感觉的一样。PSD(i)可以表示如下PSD(i)=1N/2ΣK=0(N / 2)-1MAX [O,(E(k.i)-M(k.i))}]]>其中,k和i与先前所限定的相同,i是一个正整数,用作帧注脚。
由方程(6)可以看出,对第一帧的声音失真利用超过频率掩蔽阈值的差信号的功率密度谱来估算。
根据第i帧(或现时帧)和第i-1帧(或先前帧)的功率密度谱X(k,i)和X(k,i-1),本发明的计权因子计算器60计算第i帧的计权因子W(i)。
具体地说,计权因子计算器60检测并在其存储器(未表示)中存储一个该第i帧的功率密度谱X(k,i)的最大功率密度电平MP(i)。
接着,计权因子计算器60从存储器中读出现时帧即第i帧的最大功率密度电平(level)MP(i)和先前帧即第i-1帧的MP(i-1),MP(i-1)如联系MP(i)上述的一样的方式已被检测并存储在存储器中,并计算计权因子W(i)。在本发明的优选实施例中,计权因子可以由如下方程得到W(i)=Min[1,MP(i)/MP(i-1)];MP(i-1)>0=1;MP(i-1)=0方程(7)由方程(7)可以看出,假如第(i-1)帧的最大功率密度电平MP(i-1)为零或者第i帧的最大功率密度电平MP(i)不少于第(i-1)帧的最大功率密度电平MP(i-1),对第i帧的计权因子W(i)为1,否则,取决于比率MP(i)/MP(i-1),W(i)的数值范围为从0到1。
由计权因子计算器60所得到的计权因子W(i)然后被提供到延迟电路70,该电路70将W(i)延迟一个预定的时间阶段,以便借此提供一个与感觉的能谱距离PSD(i)同步的经延迟的计权因子DW(i)。通过采用本技术领域所熟知的一般电子电路,可以很容易地实现延迟电路70。第i帧延迟的计权因子DW(i)和感觉的能谱距离PSD(i)提供到一乘法器80,该乘法器80按照如下方程计算第i帧的声音失真WPSD(i)WPSD(i)=PSD(i)×DW(i)方程(8)因此,由方程(8)可以看出,通过将应用频率掩蔽效应得到感觉的能谱距离PSD(i)与应用本发明的时间掩蔽效应所得到的延迟计权因子DW(i)相乘可以方便地得到声音失真WPSD(i),因此,本发明得到的失真测量真实地与人的听觉相一致。
由乘法器80所提供的声音失真可以发送到一个显示器件例如监视器和液晶显示器。为使用者提供视觉显示。
虽然,在本发明的优选实施例中,计权因子的确定是根据现时帧及其先前帧即第i帧和第(i-1)帧的最大功率密度电平,然而应当指出,现行帧的计权因子可以由现时帧及它的一个以上的先前帧的最大功率密度电平来计算。
当通过参照一个特定实施例,对本发明已予表述时,对本技术领域的熟练人员来说很明显,在不脱离如在所提出的权利要求中所限定的、本发明的构思和保护范围的情况下,可以进行很多变化和改进。
权利要求
1.一种在音响系统中使用的用于评估声音失真的装置,其按逐帧方式工作,该失真出现在输入到该音响系统的输入数字音频信号和从该音响系统输出的输出数字音频信号之间,其中所述的输入和输出的数字音频信号分别包括若干帧,该装置包含第一估算装置,用于估算输入的数字音频信号的现时帧的功率密度谱;确定装置,用于根据输入的数字音频信号的现时帧确定一个频率掩蔽阈值;第二估算装置,用于对表示输入数字音频信号的现时帧和它的对应的输出数字音频信号帧之间之差的差信号的功率密度谱进行估算;第三估算装置,用于根据该差信号的功率密度谱和频率掩蔽或值,估算一个感觉的能谱距离;以及第四估算装置,用于估算在输入的数字音频信号的现时帧和它对应的输出数字音频信号帧之间的声音失真,估算是通过将已估算的感觉的能谱距离乘以一个计权因子,该计权因子是利用输入的数字音频信号的现时帧和它的至少一个的先前帧的功率密度谱来计算的。
2.如权利要求1所述的装置,其中的每一个帧具有N个声音采样,感觉的能谱距离(PSD)按下式计算PSD= 1/(N/2)Σk=0(N / 2)-1MAX [O,(E(k)-M(k))]]]>其中,k=0、1...(N/2)-1,N是一个正整数,E(k)是差信号的功率密度谱,M(k)是频率掩蔽阈值。
3.如权利要求2所述的装置,其中的第一和第二估算装置包含使输入的数字音频信号和差信号开窗口的装置。
4.如权利要求3所述的装置,其中的输入数字音响信号的现时帧的功率密度谱X(K)按下式确定X(K)=10loglo|]]>1/(N)Σn=0N-1w(n).e-jω|2dB]]>其中,W(n)=X(n)×h(n),h(n)是对该开窗口函数,ω为2πk/N,k=0、1、2...(N/2)-1,n=0、1、2...N-1。
5.如权利要求4所述的装置,其中的用于开窗口装置的汉宁窗口函数h(n)表示如下h(n)=0.58/3{1-cos(2πn/N)}]]>
6.如权利要求5所述的装置,其中的第四估算装置包含计权因子计算装置,用于根据输入的数字音响信号的现时帧和它的至少一个先前帧的每一个功率密度谱的最大功率密度电平计算其计权因子;延迟装置,用于使计权因子延迟一个预定的时间阶段,借此产生一个与感觉的能谱距离相同步的延迟的计权因子;乘法装置,用于将感觉的能谱距离和延迟的计权因子相乘。
7.如权利要求6所述的装置,其中的现时帧的计权因子W(i)按下式确定W(i)=Min[1,MP(i)/MP(i-1)];MP(i-1)>0=1 ;MP(i-1)=0其中,i是标注现时帧的注脚;i-1是标注先前的帧的注脚,MP(i)是输入的数字音频信号的现时帧的最大功率密度电平,MP(i-1)是输入的数字音频信号的先前帧的最大功率密度电平。
8.一种在音响系统中使用的用于评估声音失真的方法,其按逐帧方式工作,该失真出现在输入到音响装置的输入数字音频信号和从音响系统输出的输出数字音频信号之间,其中所述的输入和输出数字音频信号分别包含若干帧,该方法包含的步骤是估算输入的数字音频信号的现时帧的功率密度谱;根据输入的数字音频信号的现时帧的功率密度谱确定其频率掩蔽阈值;估算表示输入的数字音频信号的现时帧和它的对应的输出数字音频信号帧之间之差的差信号的功率密度谱;根据差信号的功率密度谱和频率掩蔽阈值估算其感觉的能谱距离;以及估算在输入的数字音频信号的现时帧和它的对应的输出数字音频信号帧之间的声音失真,该估算是通过将已估算的感觉的能谱距离乘以一个计权因子,该计权因子是利用输入的数字音频信号的现时帧和它的至少一个先前帧的功率密度谱来计算的。
9.如权利要求8所述的方法,其中的每一帧具有N个声音采样,感觉的能谱距离PSD按下式计算PSD=1N/2ΣK=0(N / 2)-1MAX [O,(E(k)-m(k)}]]>其中k=0、1...N/2-1,N是一个正整数,E(k)是差信号的功率密度谱,M(k)是频率掩蔽阈值。
10.如权利要求9所述的方法,其中的用于对输入的数字音频信号和差信号的功率密度谱进行估算的两个步骤包含对输入的数字音频信号和差信号分别开窗口的步骤。
11.如权利要求10所述的方法,其中的输入数字音频信号的现时帧的功率密度谱X(k)按下式确定X(k)=10loglo|1NΣn=0N-1w(n).e-j ω|2dB]]>其中,W(n)=X(n)×h(n),h(n)是汉宁窗口函数,ω是2πkn/N,k=0、1、2...(N/2)-1,n=0、1、2...N-1。
12.如权利要求11所述的方法,其中的汉宁窗口函数表示如下h(n)=0.58/3{1-cos(2πn/N)}]]>
13.如权利要求12所述的方法,其中的估算现时帧的声音失真的步骤包含的步骤是根据输入的数字音频信号的现时帧和它的至少一个先前帧的每一个功率密度谱的最大功率度电平计算其计权因子;将计权因子延迟一个预定的时间阶段,借此产生一个与感觉的能谱距离相同步的延迟的计权因子;以及将该感觉的能谱距离与延迟的计权因子相乘。
14.如权利要求13所述的方法,其中的现时帧的计权因子W(i)按下式确定W(i)=Min[1,MP(i)/MP(i-1)];MP(i-1)>0=1 ;MP(i-1)=0其中,i是标注现时帧的注脚,(i-1)是标注先前帧的注脚;MP(i)是输入的数字音频信号的现时帧的最大功率密度电平,MP(i-1)是输入的数字音频信号的先前帧的最大功率密度电平。
全文摘要
一种改进的装置和方法,利用频率的和时间的两种掩蔽效应评估声音失真。该装置包括第一估算器,对输入的音频信号估算功率密度谱;确定单元,根据输入的音频信号的功率密度谱确定一个频率掩蔽阈值;第二估算器,对表示输入的音频信号和输出的音频信号间差值的差信号的功率密度谱进行估算;第三估算器,对根据该差信号的功率密度谱和频率掩蔽阈对其感觉的能谱距离进行估算;及第四估算器,估算在输入的音频信号和输示的音频信号间的声音失真。
文档编号G01H17/00GK1110462SQ9411732
公开日1995年10月18日 申请日期1994年8月25日 优先权日1993年8月25日
发明者纯健 申请人:大宇电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1