音频质量的客观测量的制作方法

文档序号:2831914阅读:356来源:国知局
专利名称:音频质量的客观测量的制作方法
技术领域
本发明一般地涉及对音频质量的客观测量。
背景技术
PEAQ是针对音频质量的客观测量的ITU-R标准,参见[1]。这是一种读取原始音 频波形和处理后的音频波形,并且输出对感知到的整体质量的估计的方法。PEAQ性能受限于其不能评价带宽上有巨大差异的信号的质量。此外,由于PEAQ依 赖于在有限的数据库上训练出的神经网络权重,因此当对未知数据进行评估时,PEAQ表现 出糟糕的性能。PESQ是音频(语音)质量的客观测量的ITU-T标准,参见[2]。PESQ性能也受限 于其不能评价带宽上有巨大差异的信号的质量。

发明内容
本发明的目的是增强对音频质量的客观感知评估的性能。根据所附专利权利要求来实现该目的。简而言之,本发明涉及基于一个或者几个模型输出变量来对音频质量进行客观感 知评估,并且本发明包括对至少一个该模型输出变量进行带宽补偿。


可以通过下面的描述以及附图来最佳地理解本发明及其目的和优点,其中图1是示意了人类听觉和质量评价过程的框图;图2是示意了模仿人类质量评价过程的语音质量评价的框图;图3是用于执行原始PEAQ方法的装置的框图;图4是图1中的装置依照于本发明的修改的示例的框图;图5是用于依照于本发明的对音频质量进行客观感知评估的装置的一部分的优 选实施例的框图;图6是依照于本发明的对音频质量进行客观感知评估的方法的一部分的优选实 施例的流程图;图7是用于依照于本发明对语音质量进行客观感知评估的装置的一部分的实施 例的框图;图8是依照于本发明的对语音质量进行客观感知评估的方法的一部分的实施例 的流程图;图9是用于依照于本发明对语音质量进行客观感知评估的装置的一部分的优选 实施例的框图;以及图10是依照于本发明的对语音质量进行客观感知评估的方法的一部分的优选实 施例的流程图。
具体实施例方式在下面的描述中,用相同的引用名称来表示执行相同或者相似功能的单元。本发明一般地涉及模仿听觉感知以评价信号质量的心理声学的方法。可以将人类 的评价信号质量过程划分为两个主要步骤,如图1所示,即听觉处理和认知映射。听觉处理 块10包含将实际声音变换为神经刺激的部分。该过程包括Bark缩放频率映射以及从信号 功率到感知到的响度的转换。与听觉处理块10相连的认知映射块12是大脑提取信号最重 要的特征并且评价整体质量的地方。如图2所示,客观质量评价过程同时包含感知变换和认知处理以模仿人类感知。 感知变换14模仿听觉处理并且同时在原始信号s和失真信号y上执行。输出是发送至大 脑的声音表示的测量。该过程包括根据非线性的已知的刻度以及从Hertz到Bark刻度的 变换将信号功率变换为响度。耳朵的敏感度依赖于频率,并且计算可听声音的阈值。在该 步骤中还要考虑到遮蔽效应。从该感知变换,计算内部表示,该内部表示预期模仿发送至大 脑的信息。在认知处理块16中,选择预期描述信号的特征(分别由&和、所指示)。最终 在块18中计算干净的和失真的信号之间的距离d(l,、)。该距离得到质量分数0。PEAQ以两种模式运行1)基本和2)高级。为了简化,我们仅讨论基本版本,并且 将其称作PEAQ,但是也可以将该概念应用于高级版本。作为第一步骤,PEAQ在感知域中通过对人类听觉系统的属性进行建模来变换输入 信号。接下来,算法提取被称作模型输出变量(MOV)的11个参数。在最后阶段,依靠具有 一个隐形层的人工神经网络将MOV映射到单一质量评分。在下面表1中给出M0V。列1和 2给出他们的名称和描述,同时列3和4介绍在提出的修改的描述中使用的符号。表 1
7 图3是用于执行原始PEAQ方法的装置的框图。将原始和处理后的(改变的)信 号转发至相应的听觉处理块20,该听觉处理块20将他们变换为相应的内部表示。将该内部 表示转发至提取块22,提取块22提取M0V,进而将MOV转发至人工神经网络24,人工神经网 络24预测处理后的输入信号的质量。图4是图1中装置的依照于本发明的修改的示例的框图。该实施例的基本概念是用带宽补偿+基于分位数的平均模块(图4中包括块26 和28在内的虚线方框)来替代原始PEAQ的神经网络(图3中的虚线方框)。该提出的方 案是基于与原始PEAQ相同的感知变换和MOV提取的。本发明的基本方面是显式地说明(在图4的块26中)下述事实由于原始和处理 后的信号的带宽中的巨大差异,大多数MOV产生不可靠的结果。从而,根据本发明的该方面 对参考信号和测试(也称作处理后的)信号之间的带宽差异进行补偿。本发明的另一个方面是避免在数据库上训练的映射(在该情况中,具有42个参数 的人工神经网络)。当处理未知/新类型的数据时,该类型的映射可以导致不可靠的结果。
8提出的映射(基于分位数的平均,图4中块28)不具有训练参数。下面,我们将把提出的修改成为PEAQ-E (PEAQ-增强)。PEAQ-E是基于与PEAQ相 同的MOV的,但是优选地被缩放至区间W,1](当然其他缩放或者标准化范围也是可行的)。 参见图4,除了向神经网络馈送(如在PEAQ中进行的一样)之外,优选地将这些MOV输入两 阶段过程,该过程包括带宽补偿和基于分位数的平均。带宽补偿移除了 MOV之间的主要非 线性依赖性,并且允许使用更简单的映射方案(基于分位数的平均,而不是训练的神经网 络)。依照于下列公式,带宽补偿将每 号说明)
个MOV Fi变换为新的MOV厂’(参见表1的符 其中
Nly 11 /Iv 以及a = ^Jabw
(3)并且其中I I. I I表示(2)中的绝对值。此处BandwidthRef表示原始信号的带宽 的测量,并且BandwidthTest表示处理后的信号的带宽的测量。尽管公式(3)给出α是ABW的平方根,ABW的其他压缩函数也是可行的,例如
α = ABff1 α = ABff0
0. 4
⑷α = Iog(ABff)在该带宽补偿知州,新的补偿的MOV <可以用于训练PEAQ中的神经网络。然 而,备选方案是使用下面描述的基于分位数的平均过程。依照于本发明的实施例的基于分位数的平均是多步骤过程。首先,将相同类型的 带宽补偿的MOV厂'分为五组。(参见表1的组定义),并且依照于下列公式向每一个组 分配特征值G1. ..G5:
G2=\(F;+F)
G4= F; G5=K
这些特征值表示信号的不同方面,即
G1-原始的和处理的信号的时间包络的差值的测量
G2-噪音对遮蔽阈值的比率的测量
G3-检测原始的和处理的信号之间的差值的概率的测量
5 6 7 8 9
G4-误差信号的调和结构的强度的测量G5-失真的部分响度的测量一旦已经形成这五个特征值G1 级,即 接下来计算剩余子集合的{G,}; 在公式(5)、(6)、(7)以及(11)中,可以用加权平均来替代平均。图5是用于依照于本发明对音频质量进行客观感知评估的装置的一部分的优选 实施例的框图。将参数BandwidthRef和BandwidthTest转发至ABW计算器30,并且将计 算出的相对带宽差值ABW转发至α计算器32,该α计算器32依照于例如上面(3)或(4) 中给出的一个公式来确定α的值。优选地,缩放单元33将模型输出变量Fi缩放或者标准 化至例如区间W,l]。将Δ BW和α的值转发至带宽补偿器34,该带宽补偿器34还接收优 选地缩放的变量F”在该实施例中,依照于上面的(1)来执行带宽补偿。考虑到(3)和(4)中给出的示例,应当理解可以将α视作ABW的函数,α = α (ABW)。一个可能性是使α为阶梯函数 其中,Θ是阈值。在该情况下将⑴化简为 由下列公式给出(1)的进一步概括F' = β(ΑΒΨ)^ + a(ABW)ABW其中,β (ABW)是ABW的另一个函数。一般地,ABW是BandwidthRef和BandwidthTest之间的距离的测量。从而,由于 不同的映射,与(2)不同的其他测量也是可能的。一个示例是ABff = (BandwidthRef-BandwidthTest)2 (15)现在返回图5,与原始PEAQ标准一样的,可以将带宽补偿的模型输出变量厂'转发 至训练人工网络。然而,在图5所示的优选实施例中,将变量<转发至分组单元36,该分组 单元将他们分为不同组并且如上面(5)_(9)所示的计算每一个组的特征值。将这些特征值 Gk转发至排序和选择单元38,该排序和选择单元38对他们进行排序并且移除最小和最大 值。将剩余的特征值62、63、64转发至平均单元40,平均单元40依照于(11)形成表示预测 的质量的测量。
...G5,对这些值进行排序,并且移除最小和最大等 (10)
1,平均值,该平均值是PEAQ-E的输出,即
(11)
(12)
(13) (14)
图6是依照于本发明的对音频质量进行客观感知评估的方法的一部分的优选实 施例的流程图。步骤S 1如上所述的确定ABW。步骤S2如上所述的确定α。步骤S3如 上所述使用优选地缩放的模型输出变量Fi,来确定带宽补偿的模型输出变量<。可以将这 些补偿的变量转发至训练人工神经网络。然而,在优选实施例中,取而代之地将他们转发至 基于分位数的平均过程中,该过程开始于步骤S4。步骤S4将带宽补偿的模型输出变量<分 成不同的模型输出变量组。步骤S5形成特征值Gk的集合(参考(5)-(9)所描述的),每个 组一个特征值。步骤S6删除极端(最大和最小)特征值。步骤S7通过对剩余的特征值求 平均来形成经过预测的质量(ODG)。本发明相对于原始PEAQ具有几个优点,其中的一些是· PEAQ-E具有更高的预测准确度。在数据库集合上,与PEAQ的R = 0. 68相比, PEAQ-E具有显著地与主观质量更高的相关性R = 0. 85 (参见表2)。甚至在没有基于分位 数的平均的情况下(即仅进行带宽补偿),R也是0. 80级别的。 具有基于分位数平均的PEAQ-E的优选实施例比PEAQ更鲁棒。PEAQ-E针对单一 数据库的最差相关是R = 0. 70,而PEAQ的是R = 0. 45 (参见表2)。 具有基于分位数的平均的PEAQ-E的优选实施例由于不具有训练参数,因此可 以更好地推广到未知数据,而PEAQ具有针对人工神经网络的42个数据库训练权重。下面的表2给出了原始PEAQ和增强PEAQ在14个主观数据库上的相关系数。所 有数据库都基于MUSHRA方法学,参见[3]。由于每一个组与一种类型的失真相对应,该操作 忽略了与大多数不一致的失真类型的分布。表 2 还可以在用于对音频质量进行感知评估的其他过程中使用上述带宽补偿的概 念。示例是PESQ(语音质量的感知评估)标准,参见[2]。在该标准中,根据被称作“干扰 密度”的特征来预测语音质量,下面将干扰密度定义为D。该特征在概念上与PEAQ中的 "RmsNoiseLoud"(表1中的F9)非常接近。可以如下总结PESQ标准首先在预处理步骤中,将原始信号和处理后的信号进行 时间和级别上的对齐。接下来,对于两个信号,在具有50%重叠的32ms帧上计算功率谱。 依靠转换至Bark刻度以及之后的转换至响度密度,来执行该感知变换。最终,原始信号和处理后的信号的响度密度之间带符号的差值给出两个参数(模型输出变量)干扰密度D 以及非对称干扰密度DA。将这两个参数在频率和时间上聚集,以获得平均干扰密度,依靠 S(sigmoid)函数将该平均干扰密度映射为客观质量。在PESQ中,可以以例如下列方式来计算带宽(该描述遵循在PEAQ标准中计算带 宽的过程)。1、在参考信号上执行FFT。选择具有最大编号的1/10的频率区间(即如果你的频
率区间从1到100编号,则选择编号91、92、93.....100的区间)。将阈值级别T定义为所
选频率区间组中的最大能量。当后向搜索时(从高频率区间编号到低频率区间编号,在我 们的示例中从90、89到1),将BandwidthRef定义为具有超过阈值级别T有IOdB的能量的 第一个频率区间。2、对于测试信号,使用从参考信号计算出的阈值级别(S卩,使用相同的T)。再一次 在FFT域中,将BandwidthTest定义为具有超过阈值级别T有IOdB的能量的频率区间。总而言之=BandwidthRef和BandwidthTest就是具有超过特定阈值的能量的区 间的FFT区间编号。将该阈值计算为具有最高编号的FFT区间中的最大能量。在确定 BandwidthRef和BandwidthTest之后,可以用与上面的公式(1)_(3)相同的方式来执行 (优选缩放的)干扰密度D的带宽补偿。这给出D* = (l-α )D+a ABff (16)其中并且其中I I. I I表示(17)中的绝对值。对于α来说,ABW的其他压缩函数也是 可行的,参见上面关于PEAQ的讨论。对(优选缩放的)非对称干扰密度DA的相应带宽补偿是DA* = (1-a )DA+a ABff (19)考虑(3)和(4)(或者(18))中给出的示例,应当理解可以将α视作ABW的函数, 即a =a (ABW)。一个可能性是使α为阶梯函数 其中θ是阈值。在该情况中将(16)和(19)化简为 ABW = 以及 由下列公式给出(16)和(19)的进一步概括D*= β (ABW)D+α (ABff) ABff(23)DA* = β (Δ Bff) DA+α (Δ Bff) Δ Bff (24)其中,β (ABW)是ABW的另一个函数。一般地,ABW是BandwidthRef和BandwidthTest之间的距离的测量。从而,由于 不同的映射,与(17)不同的其他测量也是可能的。一个示例是ABff = (BandwidthRef-BandwidthTest)2 (25)图7是用于依照于本发明对语音质量进行客观感知评估的装置的一部分的实施 例的框图。将参数BandwidthRef和BandwidthTest转发至ABW计算器30,并且将计算出 的相对带宽差值Δ BW转发至α计算器32,该α计算器32依照于例如上面(18)或(4)中 给出的一个公式来确定α的值。优选地,缩放单元33将干扰密度D缩放或者标准化至例 如区间W,l]。将Δ BW和α的值转发至带宽补偿器34,该带宽补偿器34还接收优选地缩 放的干扰密度D。在该实施例中,依照于上面的(16)来执行带宽补偿。图8是依照于本发明的对语音质量进行客观感知评估的方法的一部分的优选实 施例的流程图。步骤Sl如上所述的确定ABW。步骤S2如上所述的确定α。步骤S3如上 所述使用优选地缩放的干扰密度D,来确定带宽补偿的干扰密度D*。图9是用于依照于本发明对语音质量进行客观感知评估的装置的一部分的优选 实施例的框图。将参数BandwidthRef和BandwidthTest转发至ABW计算器30,并且将计 算出的相对带宽差值Δ BW转发至α计算器32,该α计算器32依照于例如上面(18)或 (4)中给出的一个公式来确定α的值。优选地,缩放单元33将干扰密度D和非对称干扰密 度DA缩放或者标准化至例如区间W,l]。将Δ BW和α的值转发至带宽补偿器34,该带宽 补偿器34还接收优选地缩放的干扰密度D和非对称干扰密度DA。在该实施例中,依照于 上面的(16)和(19)来执行带宽补偿。将带宽补偿的干扰密度D*和DA*转发至线性组合器 42,该线性组合器42形成表示经过预测的质量的PESQ分数。图10是依照于本发明的对语音质量进行客观感知评估的方法的一部分的优选实 施例的流程图。步骤Sl如上所述的确定ABW。步骤S2如上所述的确定α。步骤S3如上 所述使用优选地缩放的干扰密度D和非对称干扰密度DA,来确定带宽补偿的干扰密度D*和 非对称干扰密度DA*。典型地由一个或者几个微处理器或微/信号处理器组合以及相应的软件来实施 不同块和步骤的功能。本领域技术人员应当理解可以在不背离由所附权利要求定义的本发明的范围的 情况下,对本发明做出不同的修改和改变。简写
PEAQ音频质量的感知评估
PESQ语音质量的感知评估
PEAQ-EPEAQ增强(所提议的修改)
MOV模型输出变量
MUSHRA具有隐藏参考和锚点的多刺激测试
ODG客观区分度
参考文献[1]ITU-R Recommendation BS. 1387-1,Method for objective measurements of perceived audio quality,2001[2]ITU-T Recommendation P. 862,Methods for objective and subjective assessment of quality,2001[3]ITU-R Recommendation BS. 1534, Method for the subjective assessment of intermediate quality level of coding systems,200权利要求
一种基于至少一个模型输出变量的音频质量客观感知评估方法,包括对所述至少一个模型输出变量进行带宽补偿的步骤(S1 S3)。
2.根据权利要求1所述的方法,包括对PEAQ标准的模型输出变量Fi中的至少一个进 行带宽补偿的步骤,其中F1 = WinModDiffl, F2 = AvgModDiffl, F3 = AvgModDiff2, F4 = TotalNMR, F5 = RelDistFrames, F6 = MFPD, F7 = ADB, F8 = EHS,F9 = RmsNoiseLoud0
3.根据权利要求2所述的方法,其中,对所有模型输出变量F1-F9进行带宽补偿。
4.根据权利要求2或3所述的方法,其中,依照于下列公式来执行带宽补偿 F* =(I-U)F^aABW其中^BandwidthRef - BandwidthTest^ BandwidthRef其中1.11表示绝对值, BandwidthRef是对原始信号的带宽的测量, BandwidthTest是对处理后的信号的带宽的测量, α是ABW的压缩函数
5.根据权利要求4所述的方法,其中,α= VX^F ο
6.根据权利要求1、2、3、4或5所述的方法,其中,使用带宽补偿后的模型输出变量<来 训练神经网络。
7.根据权利要求1、2、3、4或5所述的方法,包括下列步骤将预先确定的带宽补偿后的模型输出变量<分组为(S4)分别的模型输出变量组; 形成(S5)特征值集合Gk,所述模型输出变量组每一个有一个特征值; 删除(S6)极端特征值; 对剩余的特征值求平均(S7)。
8.根据前述权利要求2-7中任意一项所述的方法,包括将所述模型输出变量F缩放至 预先确定的区间中的步骤。
9.根据权利要求8所述的方法,其中,将所述模型输出变量Fi缩放至区间W,l]。
10.根据权利要求1所述的方法,包括对PESQ标准的干扰密度D进行带宽补偿(S1-S3) 的步骤。
11.根据权利要求10所述的方法,其中,依照于下列公式来执行带宽补偿D = (l-α )D+a ABff其中八”炉 ^BandwidthRef - BandwidthTest^ BandwidthRef其中(1.11表示绝对值, BandwidthRef是对原始信号的带宽的测量, BandwidthTest是对处理后的信号的带宽的测量, α是ABW的压缩函数
12.根据权利要求1所述的方法,包括对PESQ标准的非对称干扰密度DA进行带宽补偿 (Si-S3)的步骤。
13.根据权利要求12所述的方法,其中,依照于下列公式来执行带宽补偿 DA* = (l-α )DA+a ABff其中IBandwidthRef - BandwidthTest\ BandwidthRef其中1.11表示绝对值, BandwidthRef是对原始信号的带宽的测量, BandwidthTest是对处理后的信号的带宽的测量, α是ABW的压缩函数
14.根据权利要求11或13所述的方法,其中,α= VK^。
15.一种用于基于至少一个模型输出变量的音频质量客观感知评估的设备,包括用于 对所述至少一个模型输出变量进行带宽补偿的装置(26 ;30、32、33、34)。
16.根据权利要求15所述的设备,包括用于对PEAQ标准的模型输出变量Fi中的至少 一个进行带宽补偿的装置(26 ;30、32、33、34),其中F1 = WinModDiffl, F2 = AvgModDiffl, F3 = AvgModDiff2, F4 = TotalNMR, F5 = RelDistFrames, F6 = MFPD, F7 = ADB, F8 = EHS,F9 = RmsNoiseLoud0
17.根据权利要求16所述的设备,包括用于对所有模型输出变量F1-F9进行带宽补偿 的装置(26 ;30、32、33、34)。
18.根据权利要求16或17所述的设备,包括用于依照于下列公式对所述模型输出变量Fi进行带宽补偿的装置(26 ;30、32、33、34) F' =(\-a)Ft+a^W其中WW IBandwidthRef - BandwidthTest^ BandwidthRef其中I. 11表示绝对值, BandwidthRef是对原始信号的带宽的测量, BandwidthTest是对处理后的信号的带宽的测量, α是ABW的压缩函数
19.根据权利要求18所述的设备,其中,α= V^i7。
20.根据权利要求15、16、17、18或19所述的设备,包括用于使用带宽补偿后的模型输 出变量厂'来训练神经网络的装置。
21.根据权利要求15、16、17、18或19所述的设备,包括分组单元(36),适用于将预先确定的带宽补偿后的模型输出变量广分组为分别的模型 输出变量组,以及形成特征值集合Gk,所述模型输出变量组每一个有一个特征值; 排序和选择单元(38),适用于删除极端特征值; 平均单元(40),适用于对剩余的特征值求平均。
22.根据前述权利要求16-21中任意一项所述的设备,包括适用于将所述模型输出变 量Fi缩放至预先确定的区间中的缩放单元(33)。
23.根据权利要求22所述的设备,其中,所述缩放单元(33)适用于将所述模型输出变 量Fi缩放至区间
0
24.根据权利要求15所述的设备,包括用于对PESQ标准的干扰密度D进行带宽补偿的 装置(30、32、33、34)。
25.根据权利要求24所述的装置,包括用于依照于下列公式对所述干扰密度D进行所 述带宽补偿的装置(30、32、33、34)D* = (l-α )D+a ABff其中 其中1.11表示绝对值, BandwidthRef是对原始信号的带宽的测量, BandwidthTest是对处理后的信号的带宽的测量, α是ABW的压缩函数
26.根据权利要求15所述的装置,包括用于对PESQ标准的非对称干扰密度DA进行带 宽补偿的装置(30、32、33、34)。
27.根据权利要求26所述的装置,包括用于依照于下列公式对所述非对称干扰密度DA进行带宽补偿的装置(30、32、33、34) DA* = (l-α )DA+a ABff 其中 其中·1.11表示绝对值, BandwidthRef是对原始信号的带宽的测量, BandwidthTest是对处理后的信号的带宽的测量, α是ABW的压缩函数
28.根据权利要求25或27所述的装置,其中,α = VK^r
全文摘要
在一种用于对语音质量进行客观感知评估的装置中,将表示带宽的参数BandwidthRef和BandwidthTest转发至计算器30,用于计算参考信号和测试信号之间的相对带宽差ΔBW。将ΔBW转发至计算器32,所述计算器32确定加权参数α的值。优选地缩放单元33将干扰密度D以及非对称干扰密度DA缩放或者标准化至例如区间
。将ΔBW和α的值转发至带宽补偿器34,所述带宽补偿器34还接收所述优选缩放的干扰密度D和非对称干扰密度DA。将带宽补偿的干扰密度D*、DA*转发至线性组合器42,所述线性组合器42形成表示所述测试信号的经过预测的质量的分数。
文档编号G10L19/00GK101933085SQ200880124719
公开日2010年12月29日 申请日期2008年4月9日 优先权日2008年1月14日
发明者沃洛佳·格兰恰诺夫, 苏珊娜·马尔姆 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1