用于感知语音分析的频率补偿的制作方法

文档序号:2829237阅读:306来源:国知局
专利名称:用于感知语音分析的频率补偿的制作方法
技术领域
本发明涉及用于构建应用于具有输入和输出的音频传输系统的时间帧输入信号的频率补偿输入间距功率密度函数的方法,并且其输出产生时间帧输出信号。本发明还涉及用于构建频率补偿输入间距功率密度函数的处理系统。本发明还涉及包含计算机可执行软件代码的计算机可读介质。
背景技术
本发明涉及的方法和系统可用作例如用于分析音频传输系统感知质量的方法或系统的一部分。从先前公开的欧洲专利申请第EP1343145号已知并且还在参考文献[1]至[8]中公开了用于分析线性频率失真影响的感知质量测量值的这种方法和系统。所公开的系统和方法及其前身(predecessor)提供感知语音估值,作为ITU-T推荐标准P.862(也被称作P.862)的一部分,因此,获得用于相对于输入信号降低输出信号的感知质量的单个综合测量值。
公开的方法和系统基于语音和音频质量测量应该在感知域中执行的理解(参见图1)。通过比较在测试(1)情况下应用于系统的基准语音信号Xn与其恶化的输出信号Yn来实现该目标。通过构建这些信号的内部感知表示(0.1)、(0.2),并且比较它们(0.3),通过将结果映射到感知质量等级(0.4),生成感知质量测量值PESQ可以进行关于感知质量的估计。在现有技术中,通过经验估计来构建感知质量等级(也被称作平均评定得分(MOS))。要求工作人员来判断恶化或失真语音片段的质量。然后,使分数(score)与实际失真相匹配并且规定感知等级。该等级可用于根据存在于信号中的失真来预测感知分数。目前,包括P.862的用于确定音频传输系统感知质量的可用处理系统遭受表示综合质量的单个数值被输出的事实。这使得不可能发现感知恶化的根本原因。诸如信噪比、频率响应失真、总谐波失真等的经典测量,预先假定恶化的特定类型,然后通过执行特定类型的质量测量对其进行量化。这种经典方法发现在测试条件下系统较坏性能的一种或多种根本原因,但不能针对综合感知质量来量化与其它类型失真相关的线性频率响应失真的影响。
此外,包括P.862用于确定音频传输系统感知质量的当前可用方法和处理系统的性能给出不适当的结果,这是因为在这些系统中不能适当地处理感知的线性频率失真。
为了量化与非线性失真相比线性频率失真对感知语音质量的影响更小的结果,上述方法利用源自输入信号的输入功率密度函数的频率补偿。
已知的频率补偿方法失效的原因在于它们使用不允许以感知校正的方式量化线性频率响应失真对感知语音质量影响的硬限幅(hard clipping)函数或更改的限幅函数。

发明内容
本发明的目的在于提供用于允许以感知校正方式量化线性频率响应失真对感知语音质量影响的输入间距功率密度函数的频率补偿的方法及系统。
通过用于频率补偿具有输入和输出的音频传输系统的输入间距功率密度函数的方法,可以在本发明的第一方面中实现本发明的目的,以及将时帧输入信号用作其输入并且其输出产生时帧输出信号,其中,该方法可包括以下步骤-处理输入信号,以获得输入间距功率密度函数;-处理输出信号,以获得输出间距功率密度函数;-通过第一频率补偿函数频率补偿输入间距功率密度函数,以获得第一频率补偿的输入间距功率密度函数;-频率补偿输入间距功率密度函数的步骤包括使用0.5范围内的功率压缩函数以及4×105范围内的偏移量的软定标(softscaling)函数。
间距功率密度函数和软定标本身在现有技术中已知。通过这种压缩函数,可以量化线性频率响应失真的总影响,以获得包括线性频率响应失真校正量的综合质量的全局分数。例如,以如在P.862中执行[3](即,对于每个时帧,通过响度差分函数的频率积分来计算两个不同的干扰)的相同方式来计算该单个特性指数。然后,从两个不同的时间积分中获得最后的特性指数。改进方案提供了客观语音质量测量和主观语音质量评估之间更好的相关性,尤其对于线性频率响应失真控制综合语音质量的语音传输系统(例如,仅执行带宽限制的系统)。
基于根据本发明的该改进方法,实施例可以提供用于确定音频传输系统感知质量的方法或系统,其给出如P.862的精确结果w.r.t.线性频率失真;以及提供了用于获得代表包括线性频率失真的感知失真的单个输出值的方法或系统。
在根据本发明第一方面的另一实施例中,进一步包括以下步骤-补偿用于短期增益变化的输出间距功率密度函数,以获得局部定标的输出间距功率密度函数;-将频率补偿的输出间距功率密度函数转换为响度感知等级,以获得输出响度密度函数;-通过第二频率补偿函数频率补偿输入间距功率密度函数,基于具有0.4范围内功率和5×106范围内偏移量的软定标功率函数,生成第二频率补偿的输入间距功率密度函数;-将第二频率补偿的输入间距功率密度函数转换为响度感知等级,以获得输入响度密度函数;-对帧输入响度密度函数的时帧求平均值,以获得平均输入响度频谱;-对帧输出响度密度函数的时帧求平均值,以获得平均输出响度频谱;-根据平均输入响度频谱,标准化平均输出响度频谱,从而获得标准化的平均输出响度频谱;-从标准化的输出响度频谱中减去输入响度频谱,从而获得差分平均响度频谱;-Lebesque积分差分平均响度频谱函数,从而构建用于音频传输系统的线性频谱失真测量值;
允许构建表示感知线性频率失真的单独测量值。
基于响度频谱中的差分,该方法同样获得用于线性频率失真的单个质量测量值。然而,该测量值仍然需要映射到感知质量测量值,其在根据本发明第一方面的下述实施例中实现,进一步包括步骤-基于连续频率装箱值(bin value)的绝对差来构建差分平均响度频谱的粗略测量值;-通过乘法结合粗略测量值和线性频谱失真测量值,并将结果映射到MOS等级,从而获得频率响应影响质量测量值;根据本发明第一方面的另一实施例(其中,处理时帧输入信号的步骤进一步包括根据理想频谱来频率补偿输入间距功率密度函数)具有其补偿在经常导致不平衡频谱功率密度的记录技术中误差的优点,在多数情况下,重点强调较低频率(低于500Hz)。该步骤被用于如通过Hanning窗、FFT、以及根据参考文献[1]的输入信号的频率变形所获得的输入间距功率密度。
在根据本发明第一方面的另一实施例中,根据Bark装箱值表示第一频率补偿函数,并通过对输入和输出间距功率密度函数的至少两个邻近Bark装箱值取平均值来获得。
在根据本发明第一方面的另一实施例中,也根据Bark装箱值表示第二频率补偿函数,并通过对输入和输出间距功率密度函数的至少两个邻近Bark装箱值取平均值来获得。
频率补偿函数计算中的取平均值平滑了频率补偿函数中的局部峰值,这比在未经平滑而直接计算中预测的更不可能被听到。
根据本发明第一方面的另一实施例,进一步包括以下步骤
-检测每帧的输入和输出间距功率密度函数同时大于无声标准值的时帧;-在检测时帧的控制下,选通控制输入响度密度函数帧和输出响度密度函数帧,防止了由于值在0范围内所产生结果的不稳定性,尤其防止了在由零划分的帧中可能发生的不稳定性。
根据本发明第一方面的又一实施例,其中,建立线性频谱失真测量值的步骤进一步包括-将差分平均响度频谱分为正差分平均响度频谱和负差分平均响度频谱;-在频域中积分差分平均响度频谱的正值,从而构建正线性频谱失真测量值;-在频域中积分差分平均响度频谱的负值,从而构建负线性频谱失真测量值;-使粗略测量值和正线性频谱失真测量值相乘,并将结果映射到MOS(平均评定得分)等级,从而获得正频率响应失真质量测量值;-通过乘法使粗略测量值和负线性频谱失真测量值相结合,并将结果映射到MOS(平均评定得分)等级,从而获得负频率响应失真质量测量值;-以大于0的第一加权因子对正频率响应失真质量测量值进行加权;
-以大于0的第二加权因子对负频率响应失真质量测量值进行加权;-将加权的负频率响应影响质量测量值和正频率响应影响质量测量值相加,从而获得单个频率响应影响测量值,允许针对输出信号中出现较大响声的频带和输出信号中出现较柔和响声的频带,来细调并最优化该方法。可以在通过在该步骤中调整补偿因数来频率补偿输入间距功率密度函数的步骤中控制落入差分平均响度频谱的正或负部分中的频带。调整这些补偿因数,以最优化频率响应影响测量结果和主观感知之间的相关性。
根据本发明第一方面的另一实施例,进一步包括以下步骤-补偿用于短期增益变化的输出间距功率密度函数,以获得局部定标的输出间距功率密度函数;-将第一频率补偿的输入间距功率密度函数转换为响度感知等级,以获得输入响度密度函数;-将频率补偿的输出间距功率密度函数转换为响度感知等级,以获得输出响度密度函数;-使输出和输入响度密度函数相减,以获得差分响度密度函数;-在差分响度密度函数中的正和负装箱之间进行不对称处理,从而获得不对称的差分响度密度函数;-对不对称的差分响度密度函数进行频率积分并强调无声部分,从而获得不对称干扰测量值;
-对差分响度密度函数进行频率积分并强调无声部分,从而获得对称干扰测量值;-对差分响度密度函数和不对称的差分响度密度函数进行时间积分,由此获得对称和不对称的干扰测量值,然后,结合对称和不对称干扰测量值,从而获得单个感知质量估计,确定音频传输系统的感知质量,其给出了精确结果w.r.t.线性频率失真。
通过用于测量音频传输系统传输质量的处理系统,在根据本发明的第二方面中进一步实现了本发明的目的,包括-处理器,-用于输入帧输入信号和帧输出信号的装置,-从而布置处理器,用于执行根据本发明第一方面的方法的步骤。
通过软件程序存储装置,在根据本发明的第三方面中进一步实现了本发明的目的,其中,软件程序存储装置包括计算机可执行软件代码,当将其加载到计算机系统时,能够使计算机系统执行根据本发明第一方面的方法的步骤。


图1示出了根据现有技术的用于确定音频传输系统感知质量的方法的总图。
图2示出了根据现有技术表示用于按照ITU-T标准P.862确定音频传输系统感知质量的方法的示图。
图3示出了根据本发明优选实施例表示用于确定音频传输系统感知质量的方法的示图。
图4示出了根据本发明第一实施例的改进。
图5示出了根据本发明第二实施例的进一步改进。
具体实施例方式
图2公开了表示用于根据包括在参考文献中的参考文献[6]的ITU-T推荐标准P.862来确定音频传输系统感知质量的方法的示图。
由于步骤2.1至2.12也在根据本发明的系统和方法中使用,所以简要地解释该图。
步骤1表示在测试1的条件下通过系统或装置将输入信号Xn转换为输出信号Yn,由此,通过离散时帧1至n来表示输入和输出信号,其中,Xn表示基准信号,Yn表示系统在测试1条件下对Xn的系统失真响应。根据当前PESQ的实施例,帧宽度可以是32ms。对于本发明,帧宽度可以小于32ms或更长。也可行是覆盖完整语音片段的持续时间,大约几分钟。
在测试条件下的装置或系统可以是电信网络、电信终端(例如,电话)、或用于处理音频的任意装置或系统。输入信号可以是语音片段,但本发明实施例的应用不限于语音。
为了建立相对于输入信号Xn的输出信号Yn的感知质量测量值,一些预处理是必要的。根据现有技术,通过步骤2.1至2.6执行预处理。
步骤2.1和2.4分别使用Hanning窗表示输入信号Xn帧和输出信号Yn帧的时间窗。
步骤2.2和2.5分别表示输入和输出信号的逐帧离散傅立叶变换。
步骤2.3和2.6表示的将输入和输出信号傅立叶变换为所谓的Bark波段的变形,由此分别在输入信号和输出信号的离散频带中获得间距功率密度函数PPX(f)n和PPY(f)n。
步骤2.7表示计算线性频率补偿,其用于在步骤2.8中对输入间距功率密度函数PPX(f)n进行加权,以获得频率补偿输入间距功率密度函数PPX′(f)n。输入间距功率密度函数PPX(f)n是在测试1条件下对音频传输系统中产生的滤波的频率补偿。在P.862中,补偿量确定最终PESQ值中线性频率失真的影响。
如现有技术中公开的频率补偿(即,P.862)基于输入基准信号大于无声标准值的所有帧(语音激活帧、PPX(f)n>107、当使用正确设置的重放等级时响度大于P.862约70dB SPL的帧)在测试下使用系统线性频率响应的估计。对每帧的输入间距功率密度函数PPX(f)n执行P.862中的频率响应补偿。
本说明书中的所有功率密度函数和偏移量均按照用于功率函数的ITU P.862标准进行定标。
在2.7中,根据在平均间距功率密度函数APPX和APPY(用于2.7)生成的时间下标n(简单的功率平均),通过对分别从2.3和2.6输出的PPX(f)n和PPY(f)n取平均值来计算频率响应补偿函数H1(f),其中,通过平均间距功率密度函数APPX和APPY以乘法计算在步骤2.8输出处的第一频率补偿函数PPX′(f)n。目的在于完全补偿小的、无声的频率响应失真,即,完全补偿小于预定量分贝的所有偏离。
步骤2.9表示用于补偿输出间距功率密度函数短期增益变化的局部定标函数的计算,从而,将最后的局部定标函数Sn-1存储在2.10中以在下一帧中使用。通过在2.11中将局部定标函数Sn与输出间距功率密度函数PPY(f)n相乘来影响补偿,生成局部定标的输出间距功率密度函数PPY′(f)n。
在步骤2.12和2.13中,根据使用Zwicker算法的宋响度等级,将输入和输出间距密度函数PPX′(f)n和PPY′(f)n转换为响度等级,分别生成输入和输出响度密度函数LX(f)n和LY(f)n。因此,输入和输出响度密度函数LX(f)n和LY(f)n表示在感知频域中输入和输出信号的响度。在步骤2.14中,使输入和输出响度密度函数LX(f)n和LY(f)n相减,生成可以获得感知质量测量值的差分响度密度函数D(f)n。
在2.15中差分响度函数D(f)n中正和负装箱之间的不对称处理,2.16中的频率积分,以及2.17中的强调无声部分之后,差分响度密度函数D(f)n被转换为可以用作感知质量测量值的不对称干扰测量值DA。这同样应用于步骤2.18和2.19,其中,差分响度密度函数D(f)n分别通过频率积分和强调无声部分,而不是不对称处理被转换为干扰测量值Dn。
然后,在步骤2.20中聚集时帧之后,干扰测量值D和不对称干扰测量值DA结合成表示音频传输系统1的感知质量估计的单个PESQ值。
在包括在参考文献中的文献[6]更加详细地描述了所有步骤2.1至2.20。
图3公开了根据本发明的测量音频传输系统传输质量的方法,其中,已知步骤2.1至2.11用于构建频率补偿的输入间距功率密度函数PPX′(f)n,其中,步骤2.13用于构建响度密度函数LY(f)n。
根据本发明,在步骤2.7中,计算新的第一频率补偿函数H1(f)。H1(f)是使用及时平均输入和输出间距功率密度函数APPX(f)和APPY(f)的具有偏移量[6]的基于功率的软定标函数H1(f)=(APPY(f)+OFFSET/APPX(f)+OFFEST)q(f),q(f)在0.0到1.0的范围内(可随频率变化),其中,OFFSET在104到106的范围内。
q值越小且OFFSET越高,则实现的频率补偿量就越小。在该步骤2.7中,将调整参数q和OFFSET,以得到最佳结果。
优选地,q(f)在0.5的范围内,以及OFFSET在4×105的范围内。如在P.862中,在2.8中,通过使输入间距功率补偿密度函数PPX(f)n乘以第一频率补偿函数H1(f)来计算第一频率补偿的输入间距功率函数PPX′(f)n。
在步骤3.10中,类似于步骤2.7,通过使用具有偏移量但现在具有更高偏移量的基于功率的软定标函数,根据相同组的语音激活帧来计算第二频率补偿函数H2(f)
H2(f)=(APPY(f)+OFFSETLARGE/APPX(f)+OFFESTLARGE)q(f),其中,q(f)在0.0至1.0的范围内(可随频率变化),以及OFFSETLARGE在105至108的范围内。
优选地,q(f)在0.4的范围内,以及OFFSETLARGE在5×106的范围内。
在步骤3.11中,第二频率补偿函数H2(f)用于与输入间距功率密度函数PPX(f)n相乘,生成第二补偿的间距功率密度函数PPX″(f)n。
在根据本发明的实施例中,第一和第二频率补偿函数H1(f)和H2(f)不能从APPX(f)和APPY(f)函数的直接计算得到,但可以从这些函数的平滑形式(smoothed version)中计算得到。通过对如P.862[3]中指定的Bark装箱值(f)(f=0,...,fMAX)取平均值来执行平滑,其中,f=0和fMAX表示第一个和最后一个装箱值。分别对装箱值0、1和fMAX、fMAX-1执行取平均值。对于第二个和倒数第二个(1和fMAX-1),分别对装箱值0、1、2和fMAX、fMAX-1、fMAX-2执行取平均值。接下来,上至较低的指数10以及下至较高的指数fMAX-4,重复这种取平均值。在指数10和fMAX-4之间对五个装箱值(从指数值的左侧两个至其右侧两个),执行取平均值。
在步骤3.14中,类似于步骤2.12,第二补偿的间距功率密度函数PPX″(f)n被转换为包括比用于根据本发明的响度计算的线性频率响应失真补偿更小的线性频率响应失真补偿的输入响度密度函数LX′(f)n。在该步骤3.10和3.11中,将调整参数q(f)和OFFSETLARGE,以得到线性频率失真质量测量值的最优结果。
然后,通过在步骤3.4和3.5中对频谱响度密度函数LX′(f)n和LY(f)n求平均值,将新的输入响度密度函数LX′(f)n和类似于P.862的输出响度密度函数LY(f)n用于计算平均响度密度函数ALSX(f)和ALSY(f)。
根据Lebesque,进行及时平均ALSX(f)=(1nΣnLX′(f)np)1p]]>和ALSY(f)=(1nΣnLY(f)np)1p,]]>其中,p>1,优选地,p=2.5。
可选地,仅对每帧的输入和输出功率均大于在步骤3.1中确定以及在步骤3.2和3.3中实现的无声标准值(优选地,PPX(f)n和PPY(f)n>107)的时帧执行这种取平均值。
然后,在步骤3.6中,在频率轴(Lp=1)上对以频率函数表示响度的这些平均的输入和输出响度密度函数进行功率积分,根据NX=(∫fALSX′(f)pdf)1p]]>和NY=(∫fALSY(f)pdf)1p,]]>生成用于(理想化)基准的单个响度数值NX和用于调整失真信号的响度数值NY。
然后,在步骤3.7中,以频域中平均输出响度密度函数ALSY(f)的平均值与(理想)输入和调整输出信号相同的方式,将这些单个响度数值NX、NY用于标准化平均响度密度函数ALSY(f),生成标准化的平均响度密度函数NALSY(f)。
在步骤3.8中,在平均响度密度ALSY(f)和NALSY(f)之间限定差分平均响度函数DALS(f)。然后,在步骤3.9中,再次使用Lebesque在频轴上积分该差分平均响度函数,刚刚则对于每个Bark频带中的响度均使用p<1.0(优选地,p在0.2到0.4的范围内)对于各个频带差进行积分。根据LSDM=ΣfDALS(f)p,]]>得出响度频率响应失真测量值LSDM,其中,f表示差分平均响度频谱中的频带。
在步骤3.12中,可以通过取得响度差分函数DALS(f)的连续响度装箱绝对值并且对所有连续装箱的绝对值求和来计算特别的粗略测量值RMRM=Σf|DALSfp-DALSf-1p|,]]>(f为波段指数,p在0.5至2.0的范围内,优选地,p在1.5的范围内)。
在步骤3.13中,可以通过乘法使粗略数值RM与响度频率响应失真测量值LSDM结合,其结果被映射到平均判定得分等级,生成单个频率响应影响质量测量值FRIQM。
图4示出了根据本发明的一个实施例,其中,在步骤4.1中,差分函数DALS(f)被分成正部分(输入>输出)和负部分DALS+(f)和DALS-(f)。然后,在步骤4.2和4.3中,根据Lebesque再次使用Lp标准在频轴上分别积分两个部分DALS+(f)和DALS-(f),刚刚则对于每个Bark频带中的响度均使用p<1.0且0.1<p<0.5的各个频带差。这样产生正和负频率响应失真数值LSDM+和LSDM-。
在步骤4.4和4.5中,通过使正和负频率响应失真数值LSDM+和LSDM-与粗略值RM相乘来计算两个线性频域影响数值FRIQM+和FRIQM-。然后,在步骤4.6中,将这些频率响应失真数值映射到诸如用于分别量化产生两个线性频域影响数值FRIQM+和FRIQM-的线性频率响应失真影响的等级的MOS(平均评定得分)。对FRIQM+和FRIQM-加权,以获得单个频率响应影响质量测量值FRIQMFRIQM=α*FRIQM++β*FRIQM-,其中,优选地,α+β=1,以及其中,优选地,α和β之比大于10。在当前的实施中β=0,因此仅考虑LSDM+值。
LSDM+和LSDM-当然也可以以类似于频率响应影响质量测量值FRIQM+和FRIQM-的方式结合,其后,映射到MOS可以产生单个频率响应影响质量测量值FRIQM。此外,在该实施例中,还可以仅执行LSDM与粗略测量值的相乘。
如图4所示,根据本发明的优选实施例,使用Lebesque,基于以0.3<p<0.6定标的Lp,将输入间距功率密度函数频率补偿为对于语音信号的理想频谱功率密度Ideal(f)。通过在用于计算失真信号质量的完整语音片段上计算每个频率Bark波段中的平均功率,从输入基准语音信号中计算输入间距功率密度函数。基于通过平滑的频率响应麦克风记录的许多男声和女声的长期平均频谱功率密度的平均来定义理想频谱功率密度函数Ideal(f)。在如用于PESQ中的每个Bark波段中,基于该理想密度函数构建密度数值。
对于理想频谱功率密度函数Ideal(f)的这种部分定标补偿了记录技术中的误差。记录技术经常导致不平衡的频谱功率密度,在许多情况下,过度强调较低频率(低于500Hz)。
在步骤5.1中,通过对许多连续频率波段求平均值来计算理想频谱功率密度函数Ideal(f)和输入间距功率密度函数PPX(f)n的理想和输入频谱光滑形式。从这些光滑形式中,可以为定义为“理想/基准”的功率比的每个Bark波段计算补偿系数S(f)。然后,在步骤5.2中,将这些系数S(f)用于通过S(f)p重新定标输入间距功率密度函数PPX(f)n,其中,0.3<p<0.8,以获得(理想)输入间距功率密度函数PPXI(f)n,其可以代替输入间距功率密度函数PPX(f)n用于根据本发明进一步估计。
注意到,本发明可以与使用反复调整频率补偿的局部时间定标和根据[7]的局部时间定标相结合。
本发明可以包括计算机系统,其包含处理器、存储器、以及输入和输出。输入可以是读取装置,例如,能够对基准输入信号和在测试下来自音频传输系统的恶化输出信号进行采样的模拟输入。采样信号可以存储到存储器(例如,固定磁盘)中并通过选择采样行放入帧中。然后,处理器可以处理并执行上述步骤。结果,例如,线性频率影响质量测量值可以输出至显示器、或通讯端口、或者存储在用于未来参考的存储器中。
文献[1]A.W.Rix、M.P.Hollier、A.P.Hekstra、和J.G.Beerends,“PESQ,thenew ITU standard for objective measurement of perceived speechquality,Part I -Time alignment,”J.Audio Eng.Soc.,vol50,pp.755-764(2002年8月)。
J.G.Beerends、A.W.Rix和M.P.Hollier,“PESQ,the new ITUstandard for objective measurement of perceived speech quality,Part II-Perceptual model,”J.Audio Eng.Soc.,vol 50,pp.765-778(2002年8月)(相当于KEP Research publication 00-32228)。
ITU-T Rec.P.862,“Perceptual Evaluation Of SpeechQuality(PESQ),An Objective Methods for End-to-end Speech QualityAssessment of Narrowband Telephone Networks and SpeechCodes,”International Telecommunication Union,Geneva,Switzerland(2001年2月)。
A.P.Hekstra、J.G.Beerends,“Output powerdecompensation,”International patent application;PCTEP02/02342;European patent application 01200945.2,2001年3月;Koninklijke PTT Nederland N.V。
J.G.Beerends,“Frequency dependent frequencycompensation,”Internation patent application;PCTEP02/05556;European patent application 01203699.2,2001年6月;Koninklijke PTT Nederland N.V。
J.G.Beerends,“Method and syatem for measuring a system’stransmission quality,”Softscaling,Internation patent application;PCTEP03/02058;European patent application 02075973.4-2218,2002年4月;Koninklijke PTT Nederland N.V。
J.G.Beerends,“Method and syatem for measuring a system’stransmission quality,”;European patent application 02075973,2002年7月;Koninklijke PTT Nederland N.V。
T.Goldstein、J.G.Beerends、H.Klaus、和C.Schmidmer,“DraftITU-T Recommendation P.AAM,An objective method for end-to-endspeech quality assessment of narrow-band telephone networksincluding acoustic terminal(s),”White contribution COM 12-64 toITU-T Study Group 12.2003年9月。
权利要求
1.一种用于构建时帧输入信号(Xn)的第一频率补偿输入间距功率密度函数(PPX′(f)n)的方法,应用于具有输入和输出的音频传输系统(1),所述音频传输系统(1)的所述输出产生时帧输出信号(Yn),所述方法包括以下步骤-处理所述输入信号(Xn)(2.1至2.3),以获得输入间距功率密度函数(PPX(f)n);-处理所述输出信号(Yn)(2.4至2.6),以获得输出间距功率密度函数(PPY(f)n);-通过第一频率补偿函数(H1(f))频率补偿所述输入间距功率密度函数(PPX(f)n)(2.7,2.8),以获得第一频率补偿输入间距功率密度函数(PPX′(f)n);所述方法的特征在于,-所述频率补偿所述输入间距功率密度函数(PPX(f)n)的步骤(2.7,2.8)包括使用功率在0.5范围内且偏移量在4×105范围内的具有偏移量[6]的基于功率的软定标函数。
2.根据权利要求1所述的方法,进一步包括以下步骤-补偿用于短期增益变化的所述输出间距功率密度函数(PPY(f)n)(2.9至2.11),以获得局部定标的输出间距功率密度函数(PPY′(f)n);-将频率补偿的输出间距功率密度函数(PPY′(f)n)转换为响度感知等级(2.13),以获得输出响度密度函数(LY(f)n);-通过第二频率补偿函数(H2(f))频率补偿所述输入间距功率密度函数(PPX(f)n)(3.10,3.11),生成第二频率补偿的输入间距功率密度函数(PPX″(f)n);-将所述第二频率补偿的输入间距功率密度函数(PPX″(f)n)转换为响度感知等级(3.14),以获得输入响度密度函数(LX′(f)n);-对所述帧输入响度密度函数(LX′(f)n)的时帧求平均(3.4),以获得平均输入响度频谱(ALSX(f));-对所述帧输出响度密度函数(LY(f)n)的所述时帧求平均(3.5),以获得平均输出响度频谱(ALSY(f));-相对于所述平均输入响度频谱(ALSX(f))标准化所述平均输出响度频谱(ALSY(f))(3.6,3.7),从而获得标准化的平均输出响度频谱(NALSY(f));-从所述标准化的输出响度频谱(NALSY(f))中减去所述输入响度频谱(ALSX(f))(3.8),从而获得差分平均响度频谱(DALS(f));-Lwbesuqe积分所述差分平均响度频谱函数(DALS(f))(3.9),从而构建用于所述音频传输系统(1)的线性频谱失真测量值(LSDM)。
3.根据权利要求2所述的方法,进一步包括以下步骤-基于连续频率装箱值的绝对差来构建所述差分平均响度频谱(DALS(f))的粗略测量值(RM)(3.12);-通过乘法结合所述粗略测量值(RM)与所述线性频谱失真测量值(LSDM)(3.13),并将结果映射到MOS(平均评定分数)等级(FRIQM)。
4.根据前述权利要求中任一项所述的方法,其中,所述频率补偿所述输入间距功率密度函数(PPX(f)n)(3.10,3.11),生成第二频率补偿输入间距功率密度函数(PPX″(f)n)的步骤是以功率在0.4的范围内且偏移量在5×106的范围内的具有偏移量[6]的基于功率的软定标函数为基础。
5.根据前述权利要求中任一项所述的方法,其中,所述第一频率补偿函数(H1(f))根据Bark装箱值来表示,并且通过对所述输入和输出间距功率密度函数的至少两个邻近Bark装箱值求平均值来获得。
6.根据前述权利要求中任一项所述的方法,其中,所述第二频率补偿函数(H2(f))根据Bark装箱值来表示,并且通过对所述输入和输出间距功率密度函数的至少两个邻近Bark装箱值求平均值来获得。
7.根据前述权利要求中任一项所述的方法,其中,所述处理所述时帧输入信号(Xn)的步骤(2)进一步包括以下步骤-相对于理想频谱Ideal(f),频率补偿所述输入间距功率密度函数(PPX(f)n)(5.1,5.2)。
8.根据前述权利要求中任一项所述的方法,所述方法进一步包括以下步骤-检测每帧的所述输入和输出间距功率密度函数(PPX(f)n,PPY(f)n)同时大于无声标准值的时帧(3.1);-在所述检测时帧(3.1)的控制下,选通控制所述输入响度密度函数帧(LX′(f)n)和输出响度密度函数帧(LY(f)n)(3.2和3.3)。
9.根据前述权利要求中任一项所述的方法,其中,所述构建线性频谱失真测量值(LSDM)的步骤进一步包括-将所述差分平均响度频谱(DALS(f))分为正差分平均响度频谱(DALS+(f))和负差分平均响度频谱(DALS-(f))(4.1);-在频域中积分所述差分平均响度频谱的正值(DALS+(f)),从而构建正线性频谱失真测量值(LSDM+)(4.2);-在频域中积分所述差分平均响度频谱的负值(DALS-(f)),从而构建负线性频谱失真测量值(LSDM-)(4.3);-使所述粗略测量值(RM)和所述正线性频谱失真测量值(LSDM+)相乘(4.4),并将结果映射到MOS(平均评定得分)等级,从而获得正频率响应失真质量测量值(FRIQM+);-通过乘法使所述粗略测量值(RM)和所述负线性频谱失真测量值(LSDM-)结合(4.5),并将结果映射到MOS(平均评定得分)等级,从而获得负频率响应失真质量测量值(FRIQM-);-以大于0的第一加权因子(α)对所述正频率响应失真质量测量值(FRIQM+)进行加权(4.6);-以大于0的第二加权因子(β)对所述负频率响应失真质量测量值(FRIQM-)进行加权(4.6);-将加权的所述负频率响应影响质量测量值(FRIQM-)和所述正频率响应影响质量测量值(FRIQM+)相加,从而获得单个频率响应影响测量值(FRIQM)。
10.根据权利要求1所述的方法,进一步包括以下步骤-补偿用于短期增益变化的所述输出间距功率密度函数(PPY(f)n)(2.9至2.11),以获得局部定标的输出间距功率密度函数(PPY′(f)n);-将所述第一频率补偿输入间距功率密度函数(PPX′(f)n)转换为响度感知等级(2.12),以获得输入响度密度函数(LX(f)n);-将所述频率补偿输出间距功率密度函数(PPY′(f)n)转换为响度感知等级(2.13),以获得输出响度密度函数(LY(f)n);-使输出和输入响度密度函数(LY(f)n,LX(f)n)相减(2.14),以获得差分响度密度函数(D(f)n);-在所述差分响度密度函数(D(f)n)中的正和负装箱之间进行不对称处理,从而获得不对称差分响度密度函数(DA(f)n)(2.15);-对所述不对称差分响度密度函数(DA(f)n)进行频率积分(2.16)并强调无声部分(2.17),从而获得不对称干扰测量值(DAn);-对所述差分响度密度函数(D(f)n)进行频率积分(2.18)并强调无声部分(2.19),从而获得对称干扰测量值(Dn);-对所述差分响度密度函数和所述不对称差分响度密度函数(Dn,DAn)进行时间积分(2.20),由此获得对称和不对称干扰值(D,DA),然后结合所述对称和不对称干扰值(D,DA)(2.20),从而获得单个感知质量估计(PESQ)。
11.一种用于构建时帧输入信号的频率补偿输入间距功率密度函数的处理系统,其应用于具有输入和输出的音频传输系统,并且所述音频传输系统的所述输出产生时帧输出信号,包括处理器,用于输入帧输入信号(Xn)和帧输出信号(Yn)的装置,用于输出频率响应影响质量测量值(LSDM,FRIQM,PESQ)的装置,从而,配置所述处理器,用于执行根据权利要求1至10中至少一项所述的方法的所述步骤。
12.一种包括计算机可执行软件代码的计算机可读介质,当在计算机系统上执行所述计算机可执行程序代码时,使所述计算机系统执行根据权利要求1至10中至少一项所述的方法的所述步骤。
全文摘要
本发明提供了一种估计表示音频传输系统中所有失真的全局影响的第一质量测量值的软定标频率补偿函数,包括线性频率响应失真和仅考虑线性频率响应失真影响的第二质量测量值。从时间积分输出和时间积分输入功率密度函数之间的软定标比率中获得软定标频率补偿函数。以在ITU推荐标准P.862中执行的相同方式,使用都作为时间和频率函数的频率补偿输入响度密度函数和增益补偿输出响度密度函数,从作为时间和频率函数的差分响度密度函数中获得第一质量测量值。从仅作为频率函数的差分响度密度函数中建立第二测量值,从作为时间和频率函数的第二频率补偿输入响度密度函数和增益补偿输出响度密度函数的时间积分中获得该差分响度密度函数。
文档编号G10L25/69GK101053016SQ200580037713
公开日2007年10月10日 申请日期2005年9月20日 优先权日2004年9月20日
发明者约翰·杰勒德·比尔恩德斯 申请人:荷兰应用科学研究会(Tno)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1