用于评估劣化语音信号的质量的方法及装置与流程

文档序号:11161299阅读:552来源:国知局
用于评估劣化语音信号的质量的方法及装置与制造工艺

本发明涉及一种对从音频传输系统接收的劣化语音信号的质量进行评估的方法,通过经由所述音频传输系统传递参考语音信号以提供所述劣化语音信号,其中,所述方法包括:将所述参考语音信号采样为多个参考信号帧,以及针对每个参考信号帧确定参考信号表示;将所述劣化语音信号采样为多个劣化信号帧,以及为每个劣化信号帧确定劣化信号表示;通过将每个参考信号帧与相应的劣化信号帧彼此相关联来形成帧对;为每个帧对提供差函数,所述差函数代表所述劣化信号帧与所述相关联的参考信号帧的差。

本发明进一步涉及一种用于实现上述方法的装置,以及涉及一种计算机程序产品。



背景技术:

在过去的几十年间,使用感知测量方式开发和部署了客观语音质量测量方法。在该方式中,基于感知的算法模拟了受测者的行为,受测者在听音测试中对音频片段的质量进行评级。对于语音质量,人们大多使用所谓的绝对分类评级听音测试,其中,受测者在没有获知(access to)清晰的参考语音片段的情况下判断劣化语音片段的质量。国际电信联盟(International Telecommunication Union,ITU)所进行的听音测试大多使用绝对分类评级(ACR)5分评价尺度(5point opinion scale),ACR 5分评分尺度因此也用在客观语音质量测量方法中,客观语音质量测量方法被ITU的以下算法所标准化:感知语音质量测量(Perceptual Speech Quality Measure,PSQM(ITU-T建议P.861,1996))及其后续的语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ(ITU-T建议P.862,2000))。这些测量标准重点在于窄带语音质量(音频带宽100-3500Hz),尽管在2005年还设计出了宽带扩展(50-7000Hz)。对于窄带语音数据而言,PESQ和主观听音测试具有较好的相关性,并且对于宽带数据而言,PESQ和主观听音测试具有可接受的相关性。

随着新的宽带语音业务被电信产业投放到市场中,需要一种性能得到验证且能够适应更大音频带宽的先进测量标准。因此,ITU-T(ITU的电信分部)研究组12提出了作为PESQ的技术更新的一种新的语音质量评价算法的标准化。新的第三代测量标准POLQA(Perceptual Objective Listening Quality Assessment,感知客观听音质量评估)克服了PESQ P.862标准的缺陷,比如,对线性频率响应失真的影响的不正确评价、在网络语音电话业务(Voice-over-IP)中所发现的时间扩展/压缩(time stretching/compression)、某些类型的编解码器失真和混响。

相对于先前的质量评估算法PSQM(P.861)和PESQ(P.862),POLQA(P.863)提供了大量改进,使得能够在存在大范围失真的情况下预测语音质量。然而,在某些类型的前置语音信号处理的情况下,当前版本的POLQA无法正确预测某些类型的失真的影响。一个问题为在所谓的空语音带(empty speech bands)中噪声的影响。没有正确地预测出在语音带宽小于掩蔽噪声(masking noise)的带宽的情形下噪声对所感知的语音质量的影响。



技术实现要素:

本发明的目的在于寻求上述不足的解决方案,以及提供一种用于评估(劣化)语音信号的质量评估算法,该算法正确地解决了噪声的影响。

本发明通过以下方式实现该目的和其他目的:提供了一种对从音频传输系统接收的劣化语音信号的质量进行评估的方法,通过经由所述音频传输系统传递参考语音信号以提供所述劣化语音信号。所述方法包括:将所述参考语音信号采样为多个参考信号帧,将所述劣化语音信号采样为多个劣化信号帧,以及通过将所述参考信号帧和所述劣化信号帧彼此相关联来形成帧对。为每个帧对提供差函数,所述差函数表示所述劣化信号帧与所述相关联的参考信号帧的差。针对一个或多个干扰类型补偿所述差函数,从而为每个帧对提供干扰密度函数,所述干扰密度函数适用于人类听觉感知模型。根据多个帧对的所述干扰密度函数得到总体质量参数,其中,所述质量参数至少指示所述劣化语音信号的所述质量。所述方法还包括以下步骤:识别所述多个劣化信号帧的一个或多个静音帧。为所述静音帧确定噪声水平参数值,所述噪声水平参数值指示所述静音帧在高于频率阈值的频率处存在的信号功率的平均量。基于所述噪声水平参数值确定高频带噪声水平补偿因子。所述高频带噪声水平补偿因子用于针对高于所述频率阈值的噪声补偿所述总体质量参数。

本发明通过将劣化信号的较高频带中所存在的噪声考虑在内而主要提高了POLQA方法的效果。按照本发明并且对应于第一估计,这可以通过以下方式得到:将高频带中的噪声成分(noise contribution)量化,并且确定补偿因子,该补偿因子可用于对POLQA方法的输出处的总体质量参数(即,MOQ-LQO分数)进行补偿。尽管优选的是直接补偿POLQA方法的(例如在方法的结束处的)MOS-LQO分数,但是当然也可以在模型的其他位置进行补偿(然而这需要一些适应性修改,以根据该方法中替代性考虑的补偿所处位置来进行正确地补偿)。

通过识别劣化信号帧中的安静或静音帧来量化噪声。正如将在下文中所进一步解释的,静音帧的识别可优选地通过以下方式来实现:首先将参考信号帧中的静音帧识别为候选帧,然后将经由帧对与候选帧相关联的劣化信号帧识别为静音帧,以供本发明的方法所使用。然而,尽管准确度较低,但是如果需要可直接识别静音帧。

用于测量较高频带中信号功率的平均量的频率阈值可设定为任意优选值,然而,优选地该阈值设定在2500Hz至4000Hz之间,更优选地设定在3000Hz。

根据一个实施例,本发明还包括:识别所述多个劣化信号帧的一个或多个语音活动帧;为所述语音活动帧确定活动水平参数值,所述活动水平参数值指示所述语音活动帧在所述频率阈值以上存在的信号功率的平均量;将所述活动水平参数值与所述噪声水平参数值相比较以确定加权因子,所述加权值被确定以使得当所述活动水平参数值与所述噪声水平参数值之差增大时,所述加权值减小;其中,确定高频带噪声水平补偿因子的步骤包括:使用所述加权值来加权所述噪声水平参数值。

在本发明的该优选实施例中,通过进一步根据劣化信号的较高频带中语音活动帧中是否存在语音分量来对这些较高频带中的噪声的影响进行更好的估计。语音活动帧可通过与静音帧相似的方式进行选择,例如通过借助于参考信号帧和帧对相关性来进行识别这些语音活动帧。可替代地,如果通过估计候选帧的信号功率是否低于阈值水平来选择静音帧,则可以预测得到劣化信号帧中的剩余帧为语音活动帧。

根据该实施例,确定了高于频率阈值的语音活动帧的信号平均功率,该频率阈值优选地为针对静音帧所使用的同一频率阈值,以使得在噪声水平参数值与活动水平参数值之间能够进行有意义的比较。例如,通过从活动水平参数值中减去噪声水平参数值来将活动水平参数值与噪声水平参数值进行比较。据此得到加权值,以使得:当较高频带中存在较少活动语音分量时,加权值增加。这样建议的原因在于,已经发现在较高频带中不存在语音的情况下或者如果语音活动频带仅与存在所要考虑的噪声的较高频带轻微重叠,较高频带中的噪声的影响较大。例如,对于在高于3000Hz的频率范围内不存在语音分量的窄带语音信号而言,所接收的劣化语音信号中这些频带中的噪声的影响与在0至7000Hz范围内存在分量的宽带语音信号相比被认为更为恼人。所知的最佳示例为将标准清晰度语音传输(带宽50-3500Hz)中所发现的窄带语音信号适配为在具有宽带掩蔽噪声背景的环境中使用这些信号。其他示例为在语音会议中将标准清晰度窄带语音与高清晰度宽带语音(带宽50-7000Hz)相混合。由于POLQA涉及对人类所评估的质量感知进行建模,所以对用于补偿MOS-LQO分数(即,总体质量参数)的补偿因子的加权为本发明该实施例的重要改进。

根据另一实施例,本发明还包括下列步骤:针对高于所述频率阈值的噪声,使用所述高频带噪声水平补偿因子来补偿所述总体质量参数,其中,所述高频带噪声水平补偿因子被从所述总体质量参数中减去以提供总体质量分数。可以按照如上所述的方法方便地计算高频带噪声水平补偿因子,以使得可从上述POLQA过程的结束处所得到的MOS-LQO分数中减去该高频带噪声水平补偿因子。这使得能够将对POLQA方法的当前改进实施为对该方法的扩展。

根据另一实施例,识别一个或多个静音帧的步骤包括:当帧平均信号功率低于阈值水平时,将所述多个参考信号帧中的一个或多个识别为候选帧;以及将经由所述帧对与所述候选帧相关联的劣化信号帧识别为所述静音帧。使用参考信号帧来识别候选帧以用于确定劣化帧中的哪些帧被识别为静音帧比从劣化语音信号中直接识别静音帧(例如,直接评估其中的信号功率水平)更准确。例如,使用参考信号帧避免了将包含很多干扰但信号功率仍然相对大的某些静音帧被从静音帧中丢弃(即,假阴性(false negatives))。类似地,这还有助于避免评估中出现假阳性(false positive)。由于这些假阴性或误报会大大影响评估的结果,因此根据本发明基于参考信号帧中的候选帧来选择静音帧是优选的。为了根据本实施方式的具体实施例选择候选帧,第一阈值水平被设定在所述多个参考信号帧的平均信号功率水平之下20dB处。

本发明的又一具体实施例区分了静音帧和超级静音帧,并且使得能够使用静音帧和超级静音帧中的任一个或两者作为上述静音帧。根据本实施例,识别一个或多个静音帧的步骤包括以下步骤至少之一:将一个或多个参考信号帧识别为中等静音候选帧,对于所述中等静音候选帧,所述参考信号的帧平均信号功率介于比所述多个参考信号帧的平均信号功率水平低35dB与低20dB之间;或者将一个或多个参考信号帧识别为超级静音帧,对于所述超级静音帧,所述参考信号的帧平均信号功率比所述多个参考信号帧的平均信号功率水平低至少35dB。此外,在该实施例中,确定所述噪声水平参数值的步骤是通过使用所述中等静音帧和所述超级静音帧中的至少一个或两者来进行。例如,在参考信号(因而劣化信号)包括软语音(soft spoken speech)或耳语(whispering)的情况下,使用超级静音帧能够对噪声水平提供更好的评估。

根据本发明,本领域普通技术人员可适当地选择频率阈值以限定哪些较高频带频率被包括在噪声影响的评估中以及哪些较高频带频率被排除在噪声影响的评估之外。然而,本发明的优选实施例所使用的阈值频率为3000Hz。根据其他实施例,频率阈值的可替代性取值可例如选自以下范围:2500Hz至4000Hz。

根据又一实施例,确定所述噪声水平参数值的步骤可进一步包括:当所计算的噪声水平参数值超过最大值时,将所述噪声水平参数值设定在所述最大值处。所述最大值可以是任一合适值,但优选地可在1.5与2.5之间进行选择,最优选地被选择为2.0。最大值避免对POLQA方法的MOS-LQO分数进行过度补偿。

如上文已经表明的那样,将所述活动水平参数值与所述噪声水平参数值相比较的步骤可包括:从所述活动水平参数值中减去所述噪声水平参数值以得到高频带差值。在具体实施例中,当从所述活动水平参数值中减去所述噪声水平参数值所计算出的高频带差值小于最小值时,所述高频带差值被设定为所述最小值。在高频带差值被用作除数值用于确定加权值的情况下,这具有如下优点:当指示较高频带中的活动语音信号的量的活动水平参数值接近于噪声水平参数值(即,指示该频率范围中仅存在微不足道的语音分量或不存在语音分量,或者指示针对较高频带水平的大噪声水平)时,避免加权值变得过大。高频带差值的最小值可被设定为7.0与15.0之间的任一值,例如11.0。加权值可确定如下:

加权值=1.2/高频带差值。

根据第二方面,本发明涉及一种计算机程序产品,包括计算机可执行代码,当被在计算机上执行时,所述计算机可执行代码用于实现上述方法。

根据第三方面,本发明涉及一种用于执行上述方法的装置,所述装置用于评估劣化语音信号的质量,所述装置包括:接收单元,用于从传递参考语音信号的音频传输系统接收所述劣化语音信号,所述参考语音信号至少表示由辅音和元音的结合所组成的一个或多个词,并且所述接收单元还被设置成用于接收所述参考语音信号;采样单元,用于将所述参考语音信号采样为多个参考信号帧,并且用于将所述劣化语音信号采样为多个劣化信号帧;处理单元,用于通过将所述参考信号帧与所述劣化信号帧彼此相关联来形成帧对,并且用于针对每个帧对提供差函数,所述差函数表示所述劣化信号帧与所述参考信号帧的差;补偿器单元,用于针对一个或多个干扰类型,补偿所述差函数从而为每个帧对提供干扰密度函数,所述干扰密度函数适用于人类听觉感知模型;以及所述处理单元还被设置成根据多个帧对的所述干扰密度函数得到总体质量参数,所述质量参数至少指示所述劣化语音信号的所述质量;其中,所述处理单元还被设置成:识别所述多个参考信号帧的一个或多个静音帧;为所述静音帧确定噪声水平参数值,所述噪声水平参数值指示所述静音帧在高于频率阈值的频率处存在的信号功率的平均量;基于所述噪声水平参数值确定高频带噪声水平补偿因子,以针对高于所述频率阈值的噪声补偿所述总体质量参数;以及针对高于所述频率阈值的噪声,使用所述高频带噪声水平补偿因子来补偿所述总体质量参数。

附图说明

参考附图通过具体实施例对本发明进行了进一步解释,在附图中:

图1提供了根据本发明实施例的POLQA感知模型的第一部分的概览;

图2提供了根据本发明实施例的POLQA感知模型中所使用的频率对齐的示意性概览;

图3提供了根据本发明实施例的POLQA感知模型的、位于图1中所示的第一部分之后的第二部分的概览;

图4是根据本发明实施例的POLQA感知模型的第三部分的概览;

图5是根据本发明实施例的POLQA感知模型中所使用的掩蔽方式的示意性概览;

图6是根据本发明的方法对总体质量参数进行补偿的方式的示意图;以及

图7是本发明的高频带噪声补偿方法的示意图。

具体实施方式

总的POLQA感知模型

POLQA(ITU-T建议P.863)的基本方式与PESQ(ITU-T建议P.862)中所用的方式相同,即,使用人类感知(human perception)模型将参考输入信号和劣化输出语音信号均映射到内部表征。感知模型使用这两种内部表征之间的差异来预测劣化信号的被感知的语音质量。POLQA所实现的一个重要新思路为一种理想化(idealisation)方式,该理想化方式移除了参考输入信号中的低水平噪声,并且优化了音色。POLQA感知模型的其他主要改进包括:将重放水平(play back level)对所感知的质量所造成的影响进行建模,以及将对低水平失真的处理与对高水平失真的处理分离开来。

POLQA中所使用的感知模型的概览在图1至图4中给出。图1提供了感知模型的第一部分,该第一部分用于计算参考输入信号X(t)3和劣化输出信号Y(t)5的内部表征。参考输入信号X(t)3和劣化输出信号Y(t)5二者被缩放(scaled)17、46,并且按照下述多个步骤计算关于音调-响度-时间的内部表征13、14,之后计算差函数(difference function)12,图1中通过差计算算子7表示该计算差函数。计算了两种不同类型的感知差函数,一种为使用算子7和8的被测试系统所引入的总体干扰,另一种为使用算子9和10的干扰的增加部分。这对从参考信号中省去时频分量所导致的劣化影响与引入新的时频分量所导致的劣化的不对称性进行了建模。在POLQA中,两种类型的感知差函数按照两种不同的方式进行计算,一种方式重点在于正常范围的劣化,以及另一种方式重点在于响度劣化(loud degradations),响度劣化造成了图1中所标出的4种差函数计算7、8、9和10。

对于具有频域扭曲的劣化输出信号49,使用了对齐算法(align algorithm)52,这在图2中给出。图3和图4给出了用于得到MOS-LQO分数(MOS-LQO scores)的最终处理。

POLQA开始于计算一些基本常数设置,然后从时频对齐的(time and frequency aligned)时间信号中得到参考信号的音调功率密度和劣化信号的音调功率密度(作为时间和频率的函数的功率)。根据音调功率密度,通过多个步骤来得到参考信号的内部表征和劣化信号的内部表征。此外,这些密度还被用来得到前三个POLQA质量指示符,即,频率响应失真的质量指示符41(FREQ)、加性噪声(additive noise)的质量指示符42(噪声)以及室内混响的质量指示符43(混响)。这三个质量指示符41、42和43根据主要干扰指示符来分别进行计算以使得能够对多种不同失真类型进行平衡影响分析。这些指示符还可被用来使用劣化分解方式对在语音信号中所存在的劣化的类型进行更详细的分析。

如上所述,在7、8、9和10计算了参考信号和劣化信号的内部表征的四个不同变型:两个变型重点在于针对正常和大的失真的干扰,以及另外两个变型重点在于针对正常和大的失真所增加的干扰。这四个不同的变型7、8、9和10是计算最终干扰密度的输入。

参考输入信号3的内部表征被称为理想表示,因为参考输入信号中的低水平噪声被移除(步骤33)并且针对其部分地补偿了劣化信号中所存在的可能由原参考录制(reference recordings)的非最优音色所导致的音色失真(步骤35)。

使用算子7、8、9和10所计算的理想内部表征和劣化内部表征的四个不同变型被用来计算两个最终干扰密度142和143,一个代表了作为时间和频率的函数、重点在于总体劣化的最终干扰142,以及另一个代表了作为时间和频率的函数但却重点在于增加的劣化的处理的最终干扰143。

图4给出了根据两个最终干扰密度142和143以及FREQ指示符41、噪声指示符42和混响指示符43来计算MOS-LQO分数(即,客观MOS分数)的概览。

常数设置的预计算

取决于采样频率的FFT窗大小

POLQA以不同的采样率8、16和48kHz进行操作,针对不同采样率,窗大小W分别设定为256、512和2048个样本,从而匹配人类听觉系统的时间分析窗。使用汉宁窗(Hann window)时,连续帧之间的重叠为50%。对于参考信号和劣化信号,功率谱——复FFT分量的实部的平方与虚部的平方之和——被存储在单独的实值阵列中。POLQA算法将单个帧内的相位信息丢弃,并且所有计算仅基于功率表示。

开始结束点计算

在主观测试中,噪声的发生通常在参考信号中的语音活动开始之前。然而,人们可以预想到主观测试中的前端稳态噪声(leading steady state noise)会降低稳态噪声的影响,而在将前端噪声考虑在内的客观测量中,前端噪声将增加该影响;因此,可以预想到省略前端噪声和后端噪声(trailing noise)是正确的感知方式。因此,在使用可用训练数据验证了预期之后,POLQA处理中所用的开始点和终止点是按照参考文件的开始和结尾来计算的。从原始语音文件的开始至结尾的五个连续绝对采样值(使用正常16位PCM范围-+32,000)之和必须超过500,以将该位置指定为开始或结尾。开始和结尾之间的间隔被限定为活动处理间隔。在POLQA处理中将该间隔之外的失真忽略。

功率缩放因子SP和响度缩放因子SL

为了校准FFT时频变换,使用被朝向73dB SPL校准的参考信号X(t)来生成具有1000Hz频率和40dB SPL幅值的正弦波。在步骤18和49中使用加窗FFT分别采用针对X(t)和Y(t)的采样频率所确定的长度将该正弦波变换到频域。在21和54中将频率轴转换为巴克尺度(Bark scale),所得到的音调功率密度(pitch power density)的峰值幅值则通过与针对X(t)和Y(t)的功率缩放因子SP 20和50分别相乘被归一化为功率值104

同一40dB SPL的参考音(reference tone)被用来校准心理声学(宋)响度尺度。在使用Zwicker定律(Zwicker’s law)将强度轴扭曲为响度尺度后,在30和58中,分别使用针对X(t)和Y(t)的响度缩放因子SL 31和59将响度密度在巴克频率尺度上的积分归一化为1宋(Sone)。

音调功率密度的缩放和计算

劣化信号Y(t)5被乘以46校准因子C 47,然后采用50%重叠FFT帧被变换49到时频域,校准因子负责将数字域中的dB过载(dB overload)映射到听觉域(acoustic domain)中的dB SPL。在被变换18到时频域之前,参考信号X(t)3被朝向大约等同于73dB SPL的预定固定最优水平缩放17。该校准步骤完全不同于PESQ中所用的校准步骤,在PESQ中,劣化信号和参考信号两者被朝向预定固定最优水平缩放。PESQ预先假定所有播放在同一最优播放水平处进行,而在POLQA主观测试中,所使用的是相对于最优水平介于20dB至+6之间的水平。在POLQA感知模型中,人们因而不同使用朝向预定固定最优水平的缩放。

水平缩放后,使用加窗FFT方式将参考信号和劣化信号变换18、49到时频域。对于与参考信号相比,劣化信号的频率轴被扭曲的文件,在FFT帧上进行频域去扭曲。在该去扭曲的第一步骤中,对参考和劣化FFT功率谱两者进行预处理以减小两者非常窄的频率响应失真连同总体频谱形状差异对以下计算的影响。预处理77可包括对功率谱进行平滑(smoothing)、压缩(compressing)和整平(flattening)。在78中,平滑操作使用在FFT频带上的功率的滑动窗平均(sliding window average)进行,而压缩则简单地通过对每个频带中的经平滑功率求对数79来完成。在80中,通过在FFT频带上对经平滑对数功率进行滑动窗归一化来进一步整平功率谱的总体形状。接下来,使用随机次谐波音调算法(stochastic subharmonic pitch algorithm)来计算当前参考帧和劣化帧的音调。参考音调与劣化音调定量(pitch ration)的比74则被用来(在步骤84中)确定可能的扭曲因子的范围。如果可能,使用前一帧对和后一帧对的音调比来扩展该搜索范围。

然后,频率对齐算法在搜索范围中进行迭代,并且使用当前迭代的扭曲因子来扭曲85劣化功率谱,并使用上述预处理77对经扭曲的功率谱进行处理88。然后,针对1500Hz以下的频段(bins),(在步骤89中)计算经处理参考谱与经处理和扭曲劣化谱之间的相关性。在完成搜索范围内的迭代之后,在步骤90中得到“最佳”(即,产生最高相关性)的扭曲因子。然后,将经处理参考谱与最佳的经扭曲劣化谱之间的相关性和原始经处理参考谱与劣化谱之间的相关性进行比较。如果相关性增加了设定阈值,则保留97该“最佳”扭曲因子。如果有必要,扭曲因子在98中被限定为相对于针对前一帧对所确定的扭曲因子具有最大相对变化。

在执行了用于将参考信号的频率轴和劣化信号的频率轴对齐所可能需要的去扭曲之后,在步骤21和54中,以Hz为单位的频率尺度被扭曲为以巴克(Bark)为单位的音调尺度,这反映出:相对于高频而言,人类听力系统对于低频会具有更精细的频率分辨率。这通过以下方式来实现:对FFT频带进行统计(binning),并且在对求和部分进行归一化的情况下对FFT频带的相应频率进行求和。出于此目的,通过以赫兹为单位的频率尺度映射到以巴克为单位的音调尺度的扭曲函数来对文献中所给的值进行近似,该近似为本领域普通技术人员所公知。所得到的参考信号和劣化信号被称为音调功率密度PPX(f)n(未在图1中示出)和PPY(f)n 56,其中,f是单位为巴克的频率,以及索引n代表帧索引。

语音活动帧、静音帧和超级静音帧的计算(步骤25)

在步骤25中,POLQA对三类帧进行了操作,这三类帧的区别如下:

语音活动帧,其中,参考信号的帧水平高于比平均值低大约20dB的水平;

静音帧,其中,参考信号的帧水平低于比平均值低大约20dB的水平;以及

超级静音帧,其中,参考信号的水平低于比平均值低大约35dB的水平。

频率、噪声和混响指示符的计算

在步骤40中,单独对频率响应失真、噪声和室内混响的全局影响进行量化。对于总体全局频率响应失真的影响,根据参考信号和劣化信号的平均谱计算出指示符41。为了使对频率响应失真的影响所进行的估计独立于加性噪声,劣化信号在参考信号的静音帧上的平均噪声谱密度被从该劣化信号的音调响度密度中减去。然后,在针对参考文件和劣化文件的所有语音活动帧上在每个巴克频带中将所得到的劣化信号的音调响度密度与参考信号的音调响度密度进行平均。然后,在音调上对这两种密度之间的音调响度密度之差求积分以得到用于将频率响应失真的影响量化的指示符41(频率)。

对于加性噪声的影响,根据劣化信号在参考信号的静音帧上的平均谱计算出指示符42。劣化信号在静音帧上的平均音调响度密度与零参考音调响度密度之差确定了将加性噪声的影响量化的噪声响度密度函数。然后,在音调上对噪声响度密度函数求积分以得到平均噪声影响指示符42(噪声)。因此,根据理想静音计算出指示符42,以使得使用有噪(noisy)参考信号所测量的透明链因而不在最终POLQA端到端语音质量测量中提供最大MOS分数。

对于室内混响的影响,根据参考和劣化时间序列计算出能量与时间的函数(energy over time function,ETC)。ETC代表了系统H(f)的脉冲响应h(t)的包络,被定义为Ya(f)=H(f)·X(f),其中,Ya(f)为劣化信号的水平对齐表示的频谱,以及X(f)是参考信号的频谱。水平对齐用于抑制参考信号与劣化信号之间的全局增益差和局部增益差。根据H(f)使用离散傅里叶逆变换来计算脉冲响应h(t)。根据h(t)的绝对值通过归一化和限幅来计算ETC。基于ETC,搜索多达三种反射。在第一步骤中,通过简单确定ETC曲线在直达声(direct sound)后的最大值来计算最响反射。在POLQA模型中,直达声被定义为在60毫秒内到达的所有声音。接下来,根据最响反射在没有直达声并且未将100毫秒内达到的反射考虑在内的间隔内确定第二最响反射。然后,根据最响反射和第二最响反射在没有直达声并且未将100毫秒内达到的反射考虑在内的间隔内确定第三最响反射。三种反射的能量和时延随后被结合为单个混响指示符43(混响)。

参考信号朝向劣化信号的全局和局部缩放(步骤26)

此时,根据步骤17,参考信号处于内部理想水平,即,等同于大约73dB SPL,而劣化信号由于步骤46被表示成处于与播放水平一致的水平。在对参考信号和劣化信号进行比较之前,在步骤26中对全局水平差进行补偿。此外,局部水平的小变化也被部分地补偿,以将以下事实考虑在内:对受测者而言在只进行听的情况(listening-only situation)下发生足够小的水平变动是不易察觉的。基于参考信号和劣化信号的平均功率使用介于400至3500Hz之间的频率分量进行全局水平均衡26。参考信号被全局地朝向劣化信号缩放,并且因而全局播放水平差的影响在该处理阶段得以保持。相似地,对于变化慢的增益失真,使用参考语音文件和劣化语音文件两者的全部带宽针对高达大约3dB的水平变化进行局部缩放。

针对线性频率响应失真的原始音调功率密度的部分补偿(步骤27)

为了对被测试系统中由于滤波所引起的线性频率响应失真的影响进行正确地建模,在步骤27中使用部分补偿方式。为了对主观测试中的中等线性频率响应失真的不可感知性进行建模,使用被测试系统的转移特性对参考信号进行部分滤波。这通过以下方式来实现:针对所有语音活动帧计算原始音调功率密度和劣化音调功率密度的平均功率谱。根据劣化谱与原始谱之比来计算27每个巴克频段(Bark bin)的部分补偿因子。

掩蔽效应的建模,音调响度密度激活的计算

在步骤30和58中,通过计算音调功率密度的模糊化表示来对掩蔽进行建模。时域模糊化(smearing)和频域模糊化两者按照如图5a至图5c所示的原理被考虑在内。时频域模糊化使用了卷积方式。根据该模糊化表示,参考音调功率密度和劣化音调功率密度的表示被重新计算,从而抑制了低幅值时频分量,低幅值时频分量在时间-频率平面中被邻近的大响度分量部分地掩蔽。抑制通过两种方式实现:从非模糊化表示中减去模糊化表示;以及非模糊化表示除以模糊化表示。然后,使用下述Zwicker功率定律的改进版将所得到的音调功率密度的锐化表示变换为音调响度密度表示:

其中,SL为响度缩放因子,P0(f)为绝对听觉阈值,fB和Pfn为定义如下的基于频率和响度的校正:

fB=-0.03*f+1.06当f<2.0巴克

fB=1.0当2.0≤f≤22巴克

fB=-0.2*(f-22.0)+1.0当f>22.0巴克

Pfn=(PPX(f)n+600)0.008

其中,f表示单位为巴克的频率,PPX(f)n为频率时间单元(frequency time cell)f,n中的音调功率密度。在针对参考信号X(t)的步骤30的输出处以及在针对劣化信号Y(t)的步骤58的输出处,所分别得到的二维阵列LX(f)n和LY(f)n被称为音调响度密度。

参考信号和劣化信号中的全局低水平噪声抑制

由于绝对分类评级测试步骤,受测者将参考信号中未受到被测试系统(例如,透明系统)影响的低水平噪声归因于该被测试系统。因此,在计算参考信号的内部表征的过程中,必须将这些低水平噪声抑制。在步骤33中,通过针对超级静音帧计算作为音调函数的、参考信号的平均稳态噪声响度密度LX(f)n来进行“理想化处理”。然后,从参考信号的所有音调响度密度帧中部分地减去平均噪声响度密度。在步骤33的输出处,其结果为参考信号的理想化内部表征。

劣化信号中可被听到的稳态噪声相对于较非稳态噪声而言造成较低的影响。这适用于所有水平的噪声,该效应的影响可通过将稳态噪声从劣化信号中部分地移除来进行建模。这在步骤60中,通过针对一些帧计算作为音调函数的、劣化信号的平均稳态噪声响度密度LY(f)n来实现,针对这些帧,参考信号的与这些帧对应的帧被归类为超级静音。然后,从劣化信号的所有音调响度密度帧中部分地减去平均噪声响度密度。对于低水平噪声和高水平噪声,使用不同的策略进行部分补偿。对于低水平噪声,补偿是微不足道的,而所使用的抑制对于大响度加性噪声而言变得更强。结果为具有加性噪声的劣化信号的内部表征61,该加性噪声适用于表示使用参考信号的理想化无噪声表示的听音测试中所观察到的主观影响。

在上述步骤33种,除了进行全局低水平噪声抑制,还针对参考信号帧中的每一个确定响度指示符32。响度指示符或响度值可被用来确定用于对特定类型失真进行加权的基于响度的加权因子。一旦提供了最终干扰密度142和143,针对算子7、8、9和10所提供的失真的四种表示,可在步骤125和125’中实现加权。

此处,响度水平指示符已在步骤33中进行确定,但是应当理解,可在方法的其他部分中针对每个参考信号帧确定响度水平指示符。在步骤33中,由于以下事实,确定响度水平指示符是可能的:已经针对超级静音帧确定了参考信号的平均稳态噪声响度密度LX(f)n,超级静音帧则被用来针对所有参考帧构建无噪声参考信号。然而,这尽管有可能在步骤33中实现,但却不是最佳实施方式。

替代性地,可在步骤35之后的附加步骤中根据参考信号得到响度水平指示符(响度)。该附加步骤在图1中被表示为具有虚线输出(响度)32’的虚线框35’。如本领域普通技术人员所理解的,如果执行了步骤35’,则不再需要从步骤33中得到响度水平指示符。

针对劣化信号与参考信号之间时变增益的失真音调响度密度的局部缩放(步骤34和步骤63)

增益的缓慢变化是听不到的,并且小的改变在计算参考信号表示的过程中已经得到了补偿。在正确地计算出内部表征之前,按照在以下两个步骤进行所需的剩余补偿:第一,在步骤34中针对劣化信号响度低于参考信号响度的信号水平,对参考信号进行补偿;第二,在步骤63中针对参考信号响度低于劣化信号响度的信号水平,对劣化信号进行补偿。

对于劣化信号显示出严重信号损失(例如,在时间限幅情形下)的信号部分,第一补偿34将参考信号朝向较低水平缩放。缩放使得参考信号与劣化信号之间的剩余差表示时间限幅对局部感知语音质量的影响。参考信号响度低于劣化信号响度的部分未被补偿,因此,在该第一步骤中,加性噪声和大响度的咔嗒声(clicks)未被补偿。

对于劣化信号显示出咔嗒声的信号部分以及对于静音间隔中存在噪声的信号部分,第二补偿63将劣化信号朝向较低水平缩放。缩放使得参考信号与劣化信号之间的剩余差表示咔嗒声和缓慢变化加性噪声对局部感知语音质量的影响。尽管在静音部分和语音活动部分两者中补偿了咔嗒声,但是仅在静音部分补偿噪声。

针对频率响应失真的原始音调响度密度的部分补偿(步骤35)

在步骤27中,已经通过在音调功率密度域中对参考信号进行部分滤波对无法感知的线性频率响应失真进行了补偿。为了进一步纠正线性失真比非线性失真更不令人反感的事实,在步骤35中,在音调响度域中,对参考信号进行部分滤波。这通过以下方式来实现:针对所有语音活动帧计算原始音调响度密度和劣化音调响度密度的平均功率谱。根据劣化响度谱与原始限度谱之比来计算每个巴克频段的部分补偿因子。该部分补偿因子被用来对参考信号进行滤波,该参考信号具有被测试系统的经平滑较低幅值的频率响应。在该滤波之后,由线性频率响应失真所导致的参考音调响度密度与劣化音调响度密度之间的差被减小到一水平,该水平表示线性频率响应失真对所感知的语音质量的影响。

音调响度密度的最终缩放和噪声抑制

到此点为止,如在主观试验中所使用的那样,对信号的所有计算在播放水平上进行。对于低播放水平,这将在参考音调响度密度与劣化音调响度密度之间产生小的差,并且通常产生对听音语音质量的乐观得多的估计。为了对该效应进行补偿,现在在步骤64中,将劣化信号朝向“虚拟”固定内部水平缩放。在该缩放之后,在步骤36中,将参考信号朝向劣化信号水平缩放,并且此时参考信号和劣化信号两者准备好分别用于在步骤37和65中进行最终噪声抑制操作。噪声抑制对响度域中的稳态噪声水平中、仍然对语音质量计算具有很大影响的最后部分进行处理。所得到的信号13和14处于感知相关内部表征域(perceptual relevant internal representation domain),并且根据理想音调-响度-时间函数LX理想(f)n 13和劣化音调-响度-信号函数LY劣化(f)n 14,可计算出干扰密度142和143。理想音调-响度-时间函数和劣化音调-响度-信号函数的四个不同变型在7、8、9和10中计算,两个变型(7和8)重点在于针对正常和大失真的干扰,以及两个变型(9和10)重点在于针对正常和大失真的增加的干扰。

最终干扰密度的计算

计算两种不同的干扰密度142和143。第一种,即正常干扰密度在7和8中根据理想音调-响度-时间函数LX理想(f)n与劣化音调-响度-信号函数LY劣化(f)n的差得到。第二种在9和10中使用相对于所引入的劣化已经被优化的版本根据理想音调-响度-时间函数和劣化音调-响度-信号函数得到并且被称为增加的干扰。在该增加的干扰的计算中,劣化功率密度大于参考功率密度的信号部分被加权一因子(非对称因子),该因子取决于每个音调-时间单元中的功率比。

为了能够应对大范围失真,进行了两种不同版本的处理,一种基于7和9重点在于小失真至中等失真,以及一种基于8和10重点在于中等失真至大失真。两者之间的切换基于第一估计,第一估计来自重点在于小水平失真至中等水平失真的干扰。这一处理方式导致需要计算四种不同的理想音调-响度-时间函数和四种不同的劣化音质-响度-时间函数以能够计算单个干扰和单个增加的干扰函数(见图3),而单个干扰和单个增加的干扰函数则针对多种不同类型的大量具体失真得到补偿。

最佳听音水平的严重偏移在127和127’中通过直接由劣化信号的信号水平得到的指示符进行量化。在MOS-LQO的计算中也使用了全局指示符(水平)。

帧重复所引入的严重失真在128和128’中通过一指示符进行量化,该指示符由参考信号的连续帧的相关性与劣化信号的连续帧的相关性的比较来得到。

与劣化信号的最佳“理想”音色的严重偏移在129和129’中通过一指示符进行量化,该指示符由较高频带与较低频带之间的响度差得到。音色指示符根据劣化信号的巴克频带低频部分的2巴克至12巴克与较高范围的7至17巴克之间的响度差(即,使用5巴克重叠)来进行计算,响度差“处罚”了任何严重的不平衡,而不考虑以下事实:这可能是参考信号我那件的不正确声音音色的结果。针对每个帧并且在全局水平上进行补偿。该补偿计算了劣化信号的较低巴克频带和较高巴克频带(小于12巴克并且大于7巴克,即使用5巴克重叠)中的功率,并且响度差“处罚”了任何严重的不平衡,而不考虑以下事实:这可能是参考信号我那件的不正确声音音色的结果。应当注意,在POLQA端到端语音质量测量中,使用记录不佳的参考信号的、包含过多噪声和/或不正确声音音色的透明链因此不会提供最大MOS分数。当测量透明装置的质量时,该补偿同样具有影响。当所使用的参考信号显示出与最佳“理想”音色的很多偏移时,被测试系统将被判定为不透明,即使该系统未在参考信号中引入任何劣化。

干扰中的严重的影响在130和130'中通过平整度(FLATNESS)指示符被量化,平整度指示符也用在MOS-LQO的计算中。

将受测者的注意力集中到噪声的严重噪声水平变化在131和131'中通过噪声对比度指示符被量化,噪声对比度指示符由对应的参考信号帧为静音帧的劣化信号帧得到。

在步骤133和133'中,进行加权操作以基于干扰是否与实际口头声音(spoken voice)相一致来对该干扰进行加权。为了评估劣化信号的质量,静音阶段期间所感知的干扰并不被认为与实际口头声音期间所感知的干扰一样不利。因此,基于在步骤33(或者可替代地步骤35')中根据参考信号所确定的响度指示符,确定加权值以对干扰进行加权。加权值被用于对差函数(即,干扰)进行加权从而将干扰对劣化语音信号的质量的影响合并到评估中。特别地,由于加权值是基于响度指示符进行确定的,所以加权值可被表示为基于响度的函数。基于响度的加权值可通过将响度与阈值相比较来确定。如果响度指示符超过阈值,则在进行评估时将所感知的干扰完全考虑在内。另一方面,如果响度值小于阈值,则加权值基于响度级指示符;即,在本示例中,加权值等于响度级指示符(在响度小于阈值的体系中)。优点为:对于语音信号的例如在暂停或静音之前所说出的词(spoken word)的末端处的微弱部分,干扰被部分地认为对质量不利。作为一个示例,应当理解的是,在词末说出字母“f”时所感知的一定量的噪声可能会使听者将其感知为字母“s”。这将对质量不利。另一方面,本领域普通技术人员应当理解,当响度值低于上述阈值时,也可以通过将加权值变为零来简单地忽略静音或暂停期间的任何噪声。

再次回到图3,在对齐过程期间,对该对齐过程期间发生的严重跳变进行检测,并且在步骤136和136'中通过补偿因子对该影响进行量化。

最后,将干扰密度和增加的干扰密度在137和137'中限幅到最大水平,并且使用干扰138和138'的方差以及跳变140和140'对参考信号的响度的影响来对干扰的特定时间结构进行补偿。

这得到针对规则干扰的最终干扰密度D(f)n 142和针对增加的干扰的最终干扰密度DA(f)n 143。

干扰随音调、突发和时间的聚集,到中间MOS得分的映射

在音调轴上针对每一帧的最终干扰密度D(f)n 142和最终增加的干扰密度DA(f)n143求积分,从而产生两个不同的每帧干扰,一个使用L1积分153并且由干扰得到,以及另一个使用L1积分159并且由增加的干扰得到(参见图4):

其中,Wf为与巴克频段成比列的一系列常数。

接下来,在6个连续的语音帧上分别使用针对干扰的L4 155加权和针对增加的干扰的L1 160加权对这两个每帧干扰求平均值,定义为语音突发。

最后,针对每个文件根据L2 156和161随时间的平均值(averaging over time)来计算干扰和增加的干扰。

针对大响度混响和大响度加性噪声使用混响指示符42和噪声指示符43在步骤161中对增加的干扰进行补偿。然而,两种干扰与频率指示符41(频率)结合170以得到内部指示符,该内部指示符通过三阶回归多项式进行线性化以得到类MOS(MOS like)中间指示符171。

最终POLQA MOS-LQO的计算

在步骤175中使用以下四种不同的补偿根据类MOS中间指示符得到未处理POLQA分数:

针对干扰的特定时频特性的两种补偿,一种使用在频率148、突发149和时间150上的L511聚集来进行计算,以及一种使用在频率145、突发146和时间147上的L313聚集来进行计算;

针对很低呈现(presentation)水平使用水平指示符的一种补偿;

针对大的音色失真在频域中使用平整度指示符的一种补偿。

该映射的训练在大集合劣化上进行,包括不是POLQA基准的一部分的劣化。这些未处理MOS分数176所针对的是主要部分,该主要部分已经被类MOS中间指示符171的计算中使用的三阶多项式映射所线性化。

最后,在180中,使用三阶多项式将未处理POLQA MOS分数176映射到MOS-LQO分数181',针对POLQA标准化的最终阶段中可用的62个数据库对该多项式进行了优化。在输出处提供MOS-LQO分数181之前,可针对某些特定类型的干扰补偿从步骤180得到的分数181'。例如,在步骤182种,MOS-LQO分数可被乘以CVC补偿因子270(其可如下文所述进行计算)。此外,根据本发明的高频带噪声补偿因子(即,MOS噪声补偿因子CF噪声,高频)可在步骤183中被减去以在输出处提供MOS-LQO 181。尽管在下文所述的图7的实施例中所计算的高频带噪声补偿因子CF噪声,高频被缩放以使用CF噪声,高频从而将其从分数181'中减去(或者可选地,从图4所示的步骤182的经补偿输出中减去),但是在不同的实施例中,高频带噪声补偿因子可被替代性地提供为乘数。

在窄带模式中,最大POLQA MOS-LQO分数为4.5,而在超宽带模型中,该分数为4.75。理想化处理的重要结果为在某些情况下,当参考信号包含噪声或者当声音音色被严重失真时,透明链将不会提供窄带模式中的最大MOS分数4.5或者超宽带模式中的4.75。

辅音-元音-辅音补偿

可选地,POLQA方法可包括辅音-元音-辅音补偿,按照如下方式来实现。在图1中,参考信号帧220和劣化信号帧240可按上文所述的方式得到。例如,可从将参考信号扭曲到巴克的步骤21中得到参考信号帧220,而可从针对劣化信号所进行的相应步骤54中得到劣化信号帧。如图1所示的、根据本发明的方法得到参考信号帧和/或劣化信号帧的精确位置仅仅是示例。参考信号帧220和劣化信号帧240可从图1中的任何其他步骤中得到,特别是从介于参考信号X(t)3的输入与步骤26中到劣化水平的全局和局部缩放(global and local scaling to the degraded level)之间的某一处中得到。劣化信号帧可从介于劣化信号Y(t)5的输入与步骤54之间的任一处中得到。

辅音-元音-辅音补偿如图6所示。首先,在步骤222中,在期望的频域内计算参考信号帧220的信号功率。对于参考帧,最佳情形下的该频域仅包括语音信号(例如,介于300赫兹与3500赫兹的频率范围)。然而,在步骤224中,通过将所计算的信号功率与第一阈值228和第二阈值229相比较来就是否包括该参考帧作为活动语音参考帧进行选择。如POLQA(ITU-T推荐P.863)中所述,当使用参考信号的缩放时,第一阈值例如可以等于7.0×104,并且相似地第二阈值可以等于2.0×2×108,在步骤225中,通过将所计算的信号功率与第三阈值230和第四阈值231相比较来选择对应于软语音参考信号(辅音的关键部分)的参考信号帧以进行处理。第三阈值230可例如等于2.0×107,以及第四阈值可等于7.0×107

步骤224和225得到分别对应于活动帧部分和软语音帧部分的参考信号帧,即,活动语音参考信号部分帧234和软语音参考信号部分帧235。这些帧被提供到下文中将要讨论的步骤260。

与参考信号的相关信号部分的计算完全相似,首先,在步骤242中,劣化信号帧240被分析以用于计算期望的频域中的信号功率。对于劣化信号帧,有利的是在包括口头声音频率范围的频率范围内以及在存在大多数可听噪声的频率范围内计算信号功率,例如介于300赫兹与8000赫兹的频率范围。

根据步骤242中所计算的信号功率,相关帧(即,与相关参考帧相关联的帧)被选择。选择发生在步骤244和245中。在步骤245中,针对每个劣化信号帧,确定其是否与步骤225中被选择为软语音参考信号帧的参考信号帧时间对齐。如果劣化帧与软语音参考信号帧时间对齐,则该劣化帧被识别为软语音劣化信号帧,并且所计算的信号功率将在步骤260中的计算中使用。否则,该帧被丢弃作为软语音劣化信号帧用于在步骤247中计算补偿因子。在步骤244中,针对每个劣化信号帧,确定其是否与步骤224中被选择为活动语音参考信号帧的参考信号帧时间对齐。如果劣化帧与活动语音参考信号帧时间对齐,则该劣化帧被识别为活动语音劣化信号帧,并且所计算的信号功率将在步骤260中的计算中使用。否则,该帧被丢弃作为活动语音劣化信号帧用于在步骤247中计算补偿因子。这得到被提供到步骤260的软语音劣化信号部分帧254和活动语音劣化信号部分帧255。

步骤260接收以下各项作为输入:活动语音参考信号部分帧234、软语音参考信号部分帧235、软语音劣化信号部分帧254和活动语音劣化信号部分帧255。在步骤260中,这些帧的信号功率被处理以确定针对活动语音参考信号部分和软语音参考信号部分以及针对活动语音劣化信号部分和软语音劣化信号部分的平均功率,并且据此(同样在步骤260中)计算辅音-元音-辅音信噪比补偿参数(CVCSNR_因子)如下:

参数Δ1和Δ2为用来适配模型的行为与受测者的行为的常数值。该公式中的其他参数如下:P活动,参考,平均为平均活动语音参考信号部分信号功率。参数P软,参考,平均为平均软语音参考信号部分信号功率。参数P活动,劣化,平均为平均活动语音劣化信号部分信号功率,以及参数P软,劣化,平均为平均软语音劣化信号部分信号功率。在步骤260的输出处,提供了辅音-元音-辅音信噪比补偿参数CVCSNR_因子

在步骤262中,将CVCSNR_因子与本示例中的阈值0.75相比较。如果CVCSNR_因子大于该阈值,则在步骤265中将补偿因子确定为等于1.0(不发生补偿)。在CVCSNR_因子小于阈值(此处为0.75)的情况下,在步骤267中补偿因子计算如下:补偿因子=(CVCSNR_因子+0.25)1/2(注意,值0.25取值为等于1.0-0.75得到,其中,0.75为用于比较CVCSNR_因子的阈值)。由此提供的补偿因子270在图4的步骤182中被用作针对MOS-LQO分数(即,总体质量参数)的乘数。正如将要理解的那样,补偿(例如,相乘)不必须在步骤182中发生,而可被合并到步骤175或180之一中(在这种情况下步骤182将从图4的示图中消失)。然而,在本示例中,补偿通过将MOS-LQO分数乘以如上所述计算的补偿因子来实现。应当理解的是,补偿也可采用另一形式。例如,同样有可能取决于CVCSNR_因子而从所得到的MOS-LQO中减去一个变量或者在其上加上一个变量。本领域普通技术人员将按照本本发明的教示理解和识别补偿的其他意义。

高频带噪声影响补偿

根据本发明,POLQA方法还包括补偿MOS-LQO分数以适当解决噪声在较高频率范围(即大于3000Hz)的影响。ITU-T建议P.863-POLQA-使得能够对宽范围失真中的语音失真进行预测。然而,在某些类型的高级语音信号处理的情况下,某些失真的影响未被正确预测。本发明通过补偿MOS-LQO分数来解决该问题。一个问题为噪声对所谓的空语音带(empty speech bands)的影响。在语音带宽小于掩蔽噪声(masking noise)的带宽的情形下,噪声对所感知的语音质量的影响未被正确预测。然而,补偿MOS-LQO在以下情况下不太重要:语音信号在3000Hz以上频率范围同样具有很大的非零分量。

本发明使得能够对在未发现语音能量或发现很少语音能量的频带中所发现的噪声的影响进行正确的预测。所知的最佳示例为将标准清晰度语音传输(带宽50-3500Hz)中所发现的窄带语音信号适配为在具有宽带掩蔽噪声背景的环境中使用这些信号。其他示例为在语音会议中将标准清晰度窄带语音与高清晰度宽带语音(带宽50-7000Hz)相混合。

在本发明的方法中,正如图7中的实施例所示,计算了校正因子300,在步骤183中,校正因子300被用来对由POLQA P.863所输出的最终客观平均评分(Objective Mean Opinion Score,MOS-LQO)进行校正。然而,该补偿在客观语音质量测量系统所作的任何预测模型中也可被更普遍地使用。例如,本发明可被应用于补偿较早的预测模型PSQM(ITU-T建议P.861,1996)或PESQ(ITU-T建议P.862,2000)。此处所述的实施例可被方便地用于通过提供补偿因子(即,高频带噪声水平补偿因子)来校正这些预测的分数,补偿因子可被从所得到的预测的分数中减去。该因子可被计算如下。

首先,参考语音文件被用来确定一组静音帧,在经对齐的劣化语音文件中的该组静音帧处未发现语音活动或者发现微不足道的语音活动。如上所述,在图1的步骤25中进行对参考系你好帧的静音帧或超级静音帧的识别。静音帧和/或超级静音帧(其中的一个或另一个或者两者)可被用作候选帧275以供图7的步骤277使用。这些候选帧275和劣化信号帧240被输入到识别步骤277。在步骤277中,劣化信号帧要么被分类为静音劣化信号帧279要么被分类为非静音劣化信号帧280。劣化信号帧240的该分类基于:步骤277的输入处的劣化信号帧240通过步骤6中所得到的帧对是否与步骤25中所确定的被分类为候选帧275的参考信号帧相关联。

在步骤282处,针对劣化信号的所有静音帧279,确定较高频带(高于3000Hz)中的噪声量,并且根据该组帧,确定较高频带中的平均噪声水平。这可在步骤282中通过以下方式来完成:计算这些帧在频率阈值3000Hz以上的信号功率,对所有静音帧的所有信号功率求和,并且除以静音帧的数量以将静音帧的平均信号功率建立为噪声水平参数值(P噪声,劣化,高频,平均)。可选地,在步骤285中,噪声水平参数值286可通过阈值最大值(MAX)283来最大化以避免后续步骤中对MOS过度补偿。在本实施例中,阈值最大值283可例如被设定为2.0;然而,噪声水平参数值286的任何期望最大值(例如,1.5≤最大值≤2.5)可被使用。如果需要,可省去步骤285。噪声水平参数值286将被用作步骤288和295的输入。

相似地,在步骤284处,针对所有非静音帧280,确定较高频带(高于频率阈值;例如3000Hz)中的能量的量,并且根据该组帧,确定较高频带中的平均活动水平。与步骤282中确定平均噪声水平类似,可在步骤284中通过如下方式确定平均活动水平:计算这些非静音(即,语音活动)帧在频率阈值(3000Hz)以上的信号功率,对所有非静音语音活动帧的所有信号功率求和,并且除以语音活动帧的数量以将语音活动帧的平均信号功率建立为活动水平参数值287(P活动,劣化,高频,平均)。

该方法通过从语音活动帧的较高频带中的平均活动水平287中减去静音帧的较高频带中的平均噪声水平286进行到步骤288。这产生了高频带差值(ΔP高频=P活动,劣化,高频,平均–P噪声,劣化,高频,平均),其为后续用于计算加权因子w的辅助参数。如果高频带差值ΔP高频小于下界(最小值)291,则该值在步骤290中被设定为该下界。在实际实施例中,下界291可例如被设定为最小值=11.0。

为了计算高频带噪声水平补偿300,在步骤293中使用高频差值(ΔP高频)计算加权因子w 294如下,其中,Cwf为乘数常数(针对质量评估Cwf=1.2):

w=Cwf/ΔPh高频

为了得到MOS-LQO补偿因子300(在本发明中也被称为“高频带噪声水平补偿因子”),在步骤295中,静音帧中的平均噪声水平286被乘以加权因子w,从而得到:

CF噪声,高频=w*P噪声,劣化,高频,平均=(Cwf*P噪声,劣化,高频,平均)/ΔP高频

在步骤183中从POLQA所输入的客观平均评分MOS-LQO中减去MOS噪声补偿因子CF噪声,高频300从而得到经修正MOS-LQO 181,经修正MOS-LQO181示出了与主观感知的语音质量更好的相关性。

针对所述实施例如上所示的使用参数的高频带噪声影响补偿被调节和优化以对针对高频噪声对劣化信号的质量评估的影响的MOS LQO分数进行补偿。在不同的实施方式中,高频带噪声影响补偿可被相似地应用以对针对高频带噪声对清晰度(intelligibility)评估的影响的MOS LQO分数进行补偿。劣化信号的清晰度和质量相互的区别在于这些特性以不同方式进行评估,正如人类所感知的那样。其中,质量涉及音频信号本身,清晰度涉及信息的转移。因此,在补偿被应用于清晰度评估的情况下,将使用高频带噪声影响补偿的参数的不同优化。因此,将理解的是,示例性参数值和乘数可根据应用的不同而取不同值,示例性参数比如为频率阈值、高频带差值ΔP高频的下界(最小值)、噪声水平参数值P噪声,劣化,高频,平均的上界(最大值)或者用于计算加权值w的乘数常数(大于1.2)。

此处,提供上面提及的参数的指示性范围,这些参数在这些范围之间可被优化。示例性范围不应当被解释为限制本发明,而应当被解释为向应用本发明的本领域普通技术人员指示实现合适结果的范围。与质量的评估相比,针对清晰度的评估所选择的值可以不同。例如,频率阈值可在2500Hz余4000Hz之间进行选择,优选地在2700Hz与4000Hz之间进行选择,尽管对于清晰度评估以及质量评估,已经使用3000Hz得到了好的结果。此外,高频带差值ΔP高频的下界(最小值)可以为8.0≤最小值≤11.0;对于质量评估,最佳值在11.0处,而对于清晰度评估,最佳值在9.0处。此外,噪声水平参数值P噪声,劣化,高频,平均的上界(最大值)可以为1.0≤最大值≤3.0;对于质量评估,最佳值在2.0处,而对于清晰度评估,最佳值在1.5处。此外,用于计算加权值w的乘数常数Cwf可以介于1.0与2.0之间,优选地介于1.2与1.7之间。对于质量评估,最佳值在Cwf=1.2,而对于清晰度评估,最佳值在Cwf=1.5处。

本发明可以按照不同于本文中的具体描述的方式进行实施,并且本发明的范围不受上述具体实施例和所附附图的限制,而是可在如权利要求所限定的范围内变化。

附图标记

3 参考信号X(t)

5 劣化信号Y(t),幅值-时间

6 时延标识,形成帧对

7 差计算

8 差计算的第一变型

9 差计算的第二变型

10 差计算的第三变型

12 差信号

13 内部理想音调-响度-时间LX理想(f)n

14 内部劣化音调-响度-时间LY劣化(f)n

17 朝向固定水平的全局缩放

18 加窗FFT

20 缩放因子SP

21 扭曲到巴克

25 (超级)静音帧检测

26 全局及局部缩放到劣化水平

27 部分频率补偿

30 激活和扭曲到宋

31 绝对阈值缩放因子SL

32 响度

32’ (根据替代性步骤35’所确定的)响度

33 全局低水平噪声抑制

34 Y<X情况下的局部补偿

35 部分频率补偿

35’ (替代性)确定响度

36 朝向劣化水平的缩放

37 全局低水平噪声抑制

40 频率、噪声、混响指示符

41 频率指示符

42 噪声指示符

43 混响指示符

44 PW_R总体指示符(劣化信号与参考信号之间的总体音频功率比)

45 PW_R总体指示符(劣化信号与参考信号之间的每帧音频功率比)

46 朝向播放水平的缩放

47 校准因子C

49 加窗FFT

52 频率对齐

54 扭曲到巴克

55 缩放因子SP

56 劣化信号音调-功率-时间PPY(f)n

58 激活和扭曲到宋

59 绝对阈值缩放因子SL

60 全局高水平噪声抑制

61 劣化信号音调-响度-时间

63 Y>X情况下的局部补偿

64 朝向固定内部水平的缩放

65 全局高水平噪声抑制

70 参考频谱

72 劣化频谱

74 当前帧和+/-1周围帧的参考音调和劣化音调之比

77 预处理

78 消除FFT谱中的窄的尖峰和下降

79 对谱取对数,应用针对最小强度的阈值

80 使用滑动窗来整平总体对数谱形状

83 优化环

84 扭曲因子的范围:[最小音调比<=1<=最大音调比]

85 扭曲劣化频谱

88 应用预处理

89 针对小于1500Hz的频段计算谱的相关性

90 追踪最佳扭曲因子

93 扭曲劣化频谱

94 应用预处理

95 针对小于3000Hz的频段计算谱的相关性

97 如果相关性足够大,则保留经扭曲的劣化谱;否则,恢复原始

98 限制扭曲因子从一个帧到下一帧的变化

100 理想常规

101 劣化常规

104 理想大失真

105 劣化大失真

108 理想增加

109 劣化增加

112 理想增加的大失真

113 劣化增加的大失真

116 干扰密度常规选择

117 干扰密度大失真选择

119 增加的干扰密度选择

120 增加的干扰密度大失真选择

121 切换函数123的PW_R总体输入

122 切换函数123的PW_R输入

123 大失真判定

125 针对大量特定失真的校正因子

125’ 针对大量特定失真的校正因子

127 水平

127’ 水平

128 帧重复

128’ 帧重复

129 音色

129’ 音色

130 谱平整度

130’ 谱平整度

131 静音时段的噪声对比度

131’ 静音时段的噪声对比度

133 基于响度的干扰加权

133’ 基于响度的干扰加权

134 参考信号的响度

134’ 参考信号的响度

136 对齐跳变

136’ 对齐跳变

137 限幅到最大劣化

137’ 限幅到最大劣化

138 干扰方差

138’ 干扰方差

140 响度跳变

140’ 响度跳变

142 最终干扰密度D(f)n

143 最终增加的干扰密度DA(f)n

145 L3频率积分

146 L1突发积分

147 L3时间积分

148 L5频率积分

149 L1突发积分

150 L1时间积分

153 L1频率积分

155 L4突发积分

156 L2时间积分

159 L1频率积分

160 L1突发积分

161 L2时间积分

170 映射到中间MOS分数

171 类MOS中间指示符

175 MOS尺度补偿

176 未处理MOS分数

180 映射到MOS-LQO

181 MOS LQO

181’ 通过步骤182和/或步骤183校正之前的MOS LQO

182 CVC清晰度补偿

183 高频带噪声影响补偿

185 短正弦音强度随时间的变化

187 短正弦音

188 第二短正弦音的掩蔽阈值

195 短正弦音强度随频率的变化

198 短正弦音

199 第二短正弦音的掩蔽阈值

205 3D图中强度随频率和时间的变化

211 导致锐化内部表征的被用作抑制强度的掩蔽阈值

220 参考信号帧(另见图1)

222 确定语音域(例如300Hz-3500Hz)的信号功率

224 将信号功率与第一和第二阈值相比较,如果在范围内,则选择

225 将信号功率与第三和第四阈值相比较,如果在范围内,则选择

228 第一阈值

229 第二阈值

230 第三阈值

231 第四阈值

234 活动语音参考信号帧的功率平均

235 软语音参考信号帧的功率平均

240 劣化信号帧(另见图1)

242 确定针对语音和可听干扰的域(例如300Hz-8000Hz)中的信号功

244 劣化帧与所选择的活动语音参考信号帧在时间上对齐?

245 劣化帧与所选择的软语音参考信号帧在时间上对齐?

247 作为活动/软语音劣化信号帧被丢弃的帧

254 软语音劣化信号帧的功率平均

255 活动语音劣化信号帧的功率平均

260 计算辅音-元音-辅音信噪比补偿因子(CVCSNR_因子)

262 CVCSNR_因子是否小于补偿阈值(例如0,75)

265 否→补偿因子=1.0(不补偿)

267 是→补偿因子为(CVCSNR_因子+0.25)1/2

270 向步骤182提供补偿值以用于补偿MOS-LQO

275 通过(超级)静音帧检测(步骤25)所识别的候选帧

277 劣化信号帧的分类:静音/非静音

279 静音帧

280 语音活动帧

282 确定频率高于3000Hz的静音帧的信号平均功率

283 针对噪声水平参数值286的阈值(MAX)

284 确定频率高于3000Hz的语音活动帧的信号平均功率

285 使噪声水平参数值最大化

286 噪声水平参数值

287 活动水平参数值

288 高频带差值

290 使高频带差值最小化

291 针对高频带差值的阈值(MIN)

293 计算加权值w

294 加权值w

295 将噪声水平参数值乘以加权值w

300 高频带噪声补偿因子CF噪声,高频

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1