语音质量评估的方法和装置制造方法

文档序号:2825477阅读:304来源:国知局
语音质量评估的方法和装置制造方法
【专利摘要】语音质量评估的方法包括:对语音信号进行人耳听觉建模处理,得到第一信号;对第一信号进行可变分辨率的时间-频率分析,得到第二信号;基于第二信号进行特征提取和分析,获得针对该语音信号的语音质量评估的结果。通过上述技术方案,可以解决语音质量评估的准确性不高的问题,其中通过人耳听觉建模处理,再将待测信号通过变换为表示可变分辨率的时间-频率信号,通过进一步分析可变分辨率的时间-频率信号,提取信号对应的特征,做进一步分析,最终获得较高准确性的语音质量评估的结果。
【专利说明】语音质量评估的方法和装置
【技术领域】
[0001]本发明涉及音频【技术领域】,更具体地涉及语音质量评估的方法和装置。
【背景技术】
[0002]在音频技术研究领域,主观测试是一个重要的环节。遵照业界准则(例如=ITU-TP.800),通过组织若干测试人员,对一系列音频序列进行测听;最后,统计测试人员对质量的高低的平均趋势,一般表示为MOS (英文为Mean Opinion Score)分,分数的高或低,反映相关音频技术的好与坏。
[0003]然而,主观测试存在实验周期长、经济成本高的不足;在一个音频算法研究的中间阶段,大批量地组织主观测试不现实。因此,研究客观测试工具的意义就变得非常明显了。从方法论的角度,客观测试工具通过数学、信号处理等方法,抽象出一个打分系统,输出质量评估结果,相对的,输出表示为MOS-LQO (英文为MOS-Listening Quality Objective)。
[0004]到目前为止,业界已经出现了不少候选的客观评估工具。从客观质量评估工具的分类看,我们可以简单分为两类:侵入式和非侵入式。一般现有网络中,由于各种条件约束,参考信号是很难获得的。因此,非侵入式模型的诉求更为强烈,且技术难度更大。
[0005]现有技术中非侵入式信号域模型ITU-T P.563的建模方法基于口腔发声机理,而所谓的语音质量评估是一个听觉系统感知的过程,与上述空腔发生机理差别较大。此外,一般的口腔发声机理均是做了大量的假设和简化,普遍意义上的应用存在不准确性。因此,使用该非侵入式信号域模型提供的方法确定的语音质量评估的准确性不高。

【发明内容】

[0006]有鉴于此,本发明实施例提供了语音质量评估的方法和装置,以解决语音质量评估的准确性不高的问题。
[0007]第一方面,提供了一种语音质量评估的方法,包括:对语音信号进行人耳听觉建模处理,得到第一信号;对第一信号进行可变分辨率的时间-频率分析,得到第二信号;基于第二信号进行特征提取和分析,获得针对该语音信号的语音质量评估的结果。
[0008]在第一种可能的实现方式中,将语音信号通过符合人耳听觉特性的带通滤波器组,获取N个子带信号,N为带通滤波器通道数,且为正整数;针对每一个子带信号计算时域包络,获得第一信号。
[0009]结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,对每一个第一信号进行L阶离散小波变换,并从L阶离散小波变化所获得的小波信号中选择M个小波信号作为第二信号,其中L、M分别为正整数,基于语音信号的采样率和质量评估分析所需的频率分辨率确定L的取值;通过L和质量评估分析中设定的频率分析范围确定M的取值。
[0010]结合第一方面的第二种可能的实现方式中,在第三种可能的实现方式中,当语音信号的采样率为16KHZ且频率分辨率为O至15.625Hz时,设定的频率分析范围为O至500Hz时,对每一个第一信号进行9阶离散小波变换,从每一个第一信号获得的小波信号中选择6个小波信号作为第二信号;或当语音信号的采样率为8KHz且频率分辨率为O至15.625Hz时,设定的频率分析范围为O至250Hz时,对每一个第一信号进行8阶离散小波变换,从每一个第一信号获得的小波信号中选择5个小波信号作为第二信号。结合第一方面的第三种可能的实现方式中,在第四种可能的实现方式中,获得N个子带信号的M*N个小波信号后,从M*N个小波信号中选择全部或多个小波信号用于进行特征提取和分析;其中,N为正整数。
[0011]结合第一方面的第四种可能的实现方式中,在第五种可能的实现方式中,当N=30,从M*N个小波信号中选择多个小波信号用于进行特征提取和分析时,多个小波信号为以下N个子带的第K个子带的下述小波信号:k〈=16时,选择频率范围最多到125Hz的4个小波信号;17〈=k〈=20时,选择频率范围最多到250Hz的5个小波信号;21〈=k〈=30时,选择频率范围最多到500Hz的全部6个小波信号。
[0012]结合第一方面的第四种可能的实现方式中,在第六种可能的实现方式中,当N=18,从M*N个小波信号中选择多个小波信号用于进行特征提取和分析时,多个小波信号为以下N个子带的第K个子带的下述小波信号:k〈=16时,选择频率范围最多到125Hz的4个小波信号;17〈=k〈=18时,选择频率范围最多到250Hz的5个小波信号。
[0013]结合第一方面或第一方面的上述任一可能的实现方式中,在第七种可能的实现方式中,对第二信号中的每一个小波信号计算平均能量作为特征量;将所有的特征量组合成一个多维的特征向量,针对特征向量,进行失真检测和质量预测后,获得针对该语音信号的语音质量评估的结果。
[0014]结合第一方面的第七种可能的实现方式中,在第八种可能的实现方式中,对针对语音信号的语音质量评估的结果与至少一个针对先前的语音信号的语音质量评估的结果计算平均值,获得综合语音质量评估结果。
[0015]结合第一方面或第一方面的上述任一可能的实现方式中,在第九种可能的实现方式中,将不同采样速率的一个或多个语音信号通过重采样处理获得同一采样率的语音信号。
[0016]第二方面,提供了一种语音质量评估的装置,包括第一获取单元、第二获取单元和特征提取和分析单元,其中第一获取单元,用于对语音信号进行人耳听觉建模处理,得到第一信号并发送到第二获取单元;第二获取单元,用于接收第一获取单元发送的第一信号,对第一信号进行可变分辨率的时间-频率分析,得到第二信号并发送到特征提取和分析单元;特征提取和分析单元,用于接收第二获取单元发送的第二信号,基于第二信号进行特征提取和分析,获得针对该语音信号的语音质量评估的结果。
[0017]在第一种可能的实现方式中,第一获取单元具体包括滤波器组和时域包络模块:滤波模块,用于将语音信号通过符合人耳听觉特性的带通滤波器组,获取N个子带信号并发送到时域包络模块,N为带通滤波器通道数,且为正整数;时域包络模块,用于接收滤波模块发送的N个子带信号,针对每一个子带信号计算时域包络,获得第一信号。
[0018]结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,第二获取单元具体用于:对每一个第一信号进行L阶离散小波变换,并从L阶离散小波变换所获得的小波信号中选择M个小波信号作为第二信号,其中L、M分别为正整数,基于语音信号的采样率和质量评估分析所需的频率分辨率确定L的取值;通过L和质量评估分析中设定的频率分析范围确定M的取值。
[0019]结合第二方面的第二种可能的实现方式中,在第三种可能的实现方式中,第二获取单元具体用于:当语音信号的采样率为16KHz且频率分辨率为O至15.625Hz时,设定的频率分析范围为O至500Hz时,对每一个第一信号进行9阶离散小波变换,从每一个第一信号获得的小波信号中选择6个小波信号作为第二信号;或当语音信号的采样率为SKHz且频率分辨率为O至15.625Hz时,设定的频率分析范围为O至250Hz时,对每一个第一信号进行8阶离散小波变换,从每一个第一信号获得的小波信号中选择5个小波信号作为第二信号。
[0020]结合第二方面的第三种可能的实现方式中,在第四种可能的实现方式中,特征提取和分析单元具体包括选择模块:获得N个子带信号的M*N个小波信号后,从M*N个小波信号中选择全部或多个小波信号用于进行特征提取和分析;其中N为正整数。
[0021]结合第二方面的第四种可能的实现方式中,在第五种可能的实现方式中,当N=30时,选择模块具体用于选择以下多个小波信号:k〈=16时,选择频率范围最多到125Hz的4个小波信号;17〈=k〈=20时,选择频率范围最多到250Hz的5个小波信号;21〈=k〈=30时,选择频率范围最多到500Hz的全部6个小波信号。
[0022]结合第二方面的第四种可能的实现方式中,在第六种可能的实现方式中,当N=IS时,选择模块具体用于选择以下多个小波信号:k〈=16时,选择频率范围最多到125Hz的4个小波信号;17〈=k〈=18时,选择频率范围最多到250Hz的5个小波信号。
[0023]结合第二方面或第二方面的上述任一可能的实现方式中,在第七种可能的实现方式中,特征提取和分析单元还包括特征量模块和评估模块包括:特征量模块用于对第二信号中的每一个小波信号计算平均能量作为特征量发送到预测模块;评估模块用于接收特征量模块发送的特征量,将所有的特征量组合成一个多维的特征向量,针对特征向量,进行失真检测和质量预测后,获得针对该语音信号的语音质量评估的结果。
[0024]结合第二方面的第七种可能的实现方式中,在第八种可能的实现方式中,评估模块还用于:对针对语音信号的语音质量评估的结果与至少一个针对先前的语音信号的语音质量评估的结果计算平均值,获得综合语音质量评估结果。
[0025]结合第二方面或第二方面的上述任一可能的实现方式中,在第九种可能的实现方式中,装置还包括重采样单元:重采样单元,用于将各种采样速率的语音信号通过重采样处理获得同一采样率的语音信号。
[0026]通过上述技术方案,通过人耳滤波器组处理,再将待测信号通过变换为表示可变分辨率的时间-频率信号,通过进一步分析可变分辨率的时间-频率信号,提取信号对应的特征,做进一步分析,最终获得较高准确性的语音质量评估的结果。
【专利附图】

【附图说明】
[0027]为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0028]图1是现有技术的语音通信流程的示意图。
[0029]图2是现有技术的语音评估模型的示意框图。
[0030]图3是本发明实施例1的语音质量评估的方法的示意流程图。
[0031]图4A至图4C是现有技术的三种信号处理的工具的示意图。
[0032]图5A和图5B是小波变换中尺度与时间-频率分辨率的关系。
[0033]图6A和图6B分别是小波分级的信号表不和小波树。
[0034]图7是本发明实施例2的语音质量评估的方法的示意流程图。
[0035]图8是本发明实施例3的针对16KHz采样率的人耳滤波器组进行带通滤波后的信号不意图。
[0036]图9A至图9B分别是一个语音信号在第8子带的信号和对应的时域包络的波形图。
[0037]图1OA和图1OB分别是针对16kHz采样的语音信号和针对8kHz采样的语音信号的离散小波变换的示意带通范围。
[0038]图11是本发明实施例4的针对SKHz采样率的人耳滤波器组进行带通滤波后的信号不意图。
[0039]图12是本发明实施例7的语音质量评估的装置的示意框图。
[0040]图13是本发明实施例8的语音质量评估的装置的示意框图。
[0041]图14是本发明实施例9的语音质量评估的装置的示意框图。
【具体实施方式】
[0042]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0043]图1是现有技术的语音通信流程的示意图。
[0044]在主叫方,我们将编码前的信号定义为参考信号SltefIl,考虑到编码、以及后续传输对语音质量的负面影响,Sltef—般是整个流程中的最优质量。对应地,我们定义经过解码后的信号定义为接收信号SDeg12,一般地,SDeg质量次于SKef。从Sltef分析到SDeg,质量下降的主要因素包括:编码和传输。
[0045]图2是现有技术的语音评估模型的示意框图。
[0046]侵入式评估模型中,根据SltefIUSltegU进行侵入式评估13,输出语音质量评估的结果 15,即 M0S_LQ0。
[0047]非侵入式评估模型中,根据SDeg12进行非侵入式评估14,输出语音质量评估的结果 15,即 M0S_LQ0。
[0048]在非侵入式评估模型,我们可以进一步将模型细分成两类:参数域模型和信号域模型。信号域模型容易理解,即将采集的Slleg直接进行质量评估,获得MOS分反映出质量。这种建模方法,相当于设计一个符合人耳听觉系统的模型,通过信号处理等方法进行质量评估。另一方面,参数域模型的建模方法完全不同:既然编码和传输是质量下降的主要原因,我们将反映编码和传输若干物理指标提取出来,通过训练,获得一个数学解析式;用该数学解析式,预测出MOS分来反映质量。经典的参数域模型有ITU-T G.107(俗称e-model)。其中,物理指标包括但不限于:编码器、编码速率、网络丢包率、网络延时等。一般地,信号域模型基于人的听觉系统建模,更接近于现实,准确率更高;对应地,信号域模型涉及大量的信号处理及其它计算,复杂度比参考域模型高很多。
[0049]本发明涉及非侵入式信号域模型,与非侵入式信号域模型ITU-T P.563的工作原理不同的是,围绕人耳听觉感知建模,所获得的语音质量评估的准确性更高。典型的应用场景包括终端侧和网络侧的语音质量检测。
[0050]本发明实施例所涉及的技术主要是通过分析语音信号,预测出人的主观体验。一种应用场景例如将使用本发明实施例技术方案的装置嵌入到移动电话中、或移动电话使用本发明实施例的技术方案,对通话中的语音质量进行评估。具体地,对于通话中的一侧移动电话,其接收到码流后通过解码,可以重构出语音文件;将该语音文件作为本发明实施例的输入的语音信号,可以获得接收到的语音的质量;该语音质量基本反映出用户真实听到的语音质量。因此,通过在移动电话中使用本发明实施例所涉及的技术方案,可以有效地评估出人的主观感受。
[0051]此外一般地,语音数据需要通过网络中的若干节点后,才能传递到接收方。由于一些因素影响,在经过网络传递后,语音质量有可能下降。因此,检测网络侧各节点的语音质量是非常有意义的。然而,现有很多方法更多地反映了传输层面的质量,并不一一对应于人的真实感受。因此,可以考虑将本发明实施例所述的技术方案应用到各网络节点,同步地进行质量预测,找到质量瓶颈。例如:对于任意网络结果,我们通过分析码流,选择特定的解码器,对码流进行本地解码,重构出语音文件;将该语音文件作为本发明实施例的输入的语音信号,可以获得该节点的语音质量;通过对比不同节点的语音质量,我们可以定位出质量需要改进的节点。因此,此应用对于运营商进行网优可以起到重要的辅助作用。
[0052]图3是本发明实施例1的语音质量评估的方法的示意流程图。
[0053]S31,对语音信号进行人耳听觉建模处理,得到第一信号。
[0054]一般语音质量评估是实时的,每接收到一个时间分段的语音信号就进行语音质量评估的流程处理。这里的语音信号可以是以帧为单位,即接收到一个语音信号帧就进行语音质量评估的流程,此处语音信号帧代表的是一定时长的语音信号,其时长可以由用户根据需要设定。
[0055]人耳听觉系统对声音的频率范围具有选择性,因此,对不同频率范围内的信号分别进行分析是一种更加高效的方式。一般地,人们引入人耳听觉建模处理实现上述流程。本文中的人耳听见建模处理指从语音信号分解出符合人耳听觉特性的多个子带信号,并计算每个子带的特征值,得到第一信号。
[0056]S32,针对第一信号进行可变分辨率的时间-频率分析,得到第二信号。
[0057]举例来说,通过频域分析,我们可以大致区分出男声或女声。此外,一些特征在时间上存在一定的连续性。或者,一些特殊的信号,比如:突然的非自然停顿,只出现在一瞬间
坐寸ο
[0058]因此,从更为合理的角度,如果我们基于听觉感知建模,最好能够使用兼顾时域-频域的方法,以更加符合实际的听觉感知流程。此处使用的可变分辨率的时间-频率分析突出了人耳听到的声音在特定时刻在大脑听觉系统中产生响应应该是时域和频域信息同时作用的结果。
[0059]S33,基于第二信号进行特征提取和分析,获得针对该语音信号的语音质量评估的结果。
[0060]由于前一步骤中第二信号是一个时间-频率信息,基于时频的表示方法,提取对应的特征,进而获得语音质量评估的结果。
[0061]另一个实施例里,语音质量评估方法还包括:
[0062]对针对该语音信号的语音质量评估的结果与至少一个针对历史语音信号的语音质量评估的结果计算平均值,获得综合语音质量评估结果;所述历史语音信号为所述语音信号之前的语音信号,每一个历史语音信号与所述语音信号时长相同。
[0063]一般语音质量评估是实时的,每接收到一个时间分段的语音信号就进行语音质量评估的流程处理。对于当前时间分段的语音信号的语音质量评估的结果,可以看成是短时的语音质量评估的结果;将该语音信号的语音质量评估的结果与至少一个针对历史语音信号的语音质量评估的结果计算平均值得到的结果,考虑了一段时间的各个语音评估质量结果,可以看成是综合语音质量评估结果或者长时语音质量评估结果。
[0064]本发明实施例提供的语音质量评估的方法通过人耳听觉建模处理,再将待测信号通过变换为表示可变分辨率的时间-频率信号,通过进一步分析可变分辨率的时间-频率信号,提取信号对应的特征,做进一步分析,最终获得较高准确性的语音质量评估的结果。
[0065]图4A至图4C是现有技术的三种信号处理的工具的示意图。其中图4A是傅里叶变换,图4B是短时傅里叶变换(STFT),图4C是小波变换。
[0066]根据Hisenberg不确定性原理,做信号分析时,我们无法同时获得高分辨率的时间分辨率和频率分辨率,只能获得一个折衷。在实际应用中,一般是通过(加一个时间窗)截断信号后进行处理。当时间窗比较窄时,时间分辨率高、频率分辨率低;当时间窗比较宽时,时间分辨率低、频率分辨率高。
[0067]然而,在实际应用中,自适应的分辨率是非常重要的需求。比如说:在语音通信中,信号的特征变化呈多样性:平稳的浊音信号需要高频率分辨率进行细节分析;突变的大能量信号发生在瞬间,需要高时间分辨率进行细节分析。
[0068]傅里叶变换是信号处理最经典的一个工具,其将时域信号映射到频域后进行分析;然而,傅里叶变换的变换的时间分辨率是不可变的,对于突变信号无法准确定位,简言之,傅里叶变换是一种纯频域处理方法。
[0069]短时傅里叶变换被引入,其实质是在做傅里叶变换前,加一个时间窗(一般时间跨度较短)。当明确突变信号的时间分辨率需求时,选择重写长度的短时傅里叶变换,可以获得满意的效果。然而,短时傅里叶变换的窗长一旦确定,无法更改,缺乏自适应性或可变性。
[0070]小波变换可通过设定尺度(英文为scale),确定时间-频率分辨率。每一个尺度对应着待定的时间-频率分辨率的折衷。因此,通过变化尺度,可自适应地获得合适的时间-频率分辨率,换言之,能够根据实际情况,在时间分辨率和频域分辨率间取得一个适宜的折衷,以进行其他后续的处理,参见图5。
[0071]图5A和图5B是小波变换中尺度与时间-频率分辨率的关系。从图5A中可以获知,同一信号51选择低尺度的时间-频率分辨率,小波52被压缩,可以用于反映快速变换的细节。从图5B可以获知,同一信号51选择高尺度的时间-频率分辨率,小波52被伸展,可以用于反映慢速变化,例如粗糙特征等。
[0072]通过图5A和图5B的分析,我们将小波变换的这一同时兼顾时域和频域的特性创造性的应用到语音质量评估的方法中,符合听觉感知流程,且提高了语音质量评估的准确性。
[0073]在实际的计算机应用中,我们会通过迭代的方法(例如:尺度遵守2η的关系进行迭代),反复的进行时间-频率分辨率的调整,直到满意为止。这就是多分辨分析。图6Α和图6Β分别是小波分级的信号表示和小波树。图6Α是小波分解的信号表示。在小波应用中,多分辨分析可以用所谓的小波树(英文为Wavelet Tree)表不,参考图6B。
[0074]在小波树中,每一个节点均可以通过同一个QMF (英文为QuadratureMirrorFilter,中文为共扼镜像滤波器)滤波器组(由一个低通滤波器L和高通滤波器H组成),分解成下一个尺度的分量。例如,输入为S,经过QMF分解后,分别获得估计部分(低通后)cAl和细节部分cDl (高通后)。采用同样的方式,cAl可以进一步分解成cA2和cD2。因此,通过上述的迭代流程,我们可以自适应的获得任意时间-分辨率的信号,此信号包含了当前尺度下的时间和频率的信息,可以用来分析该尺度下的时间信息和频率信息。
[0075]按前文所述,本发明提出基于时间-频率分析的非侵入式信号域质量评估系统。具体地,将通过声学系统模型的信号进行小波变换,获得一系列的小波信号。对小波信号提取出对应的特征值,并将提取出的特征值组合成一个多维矢量,也称为特征向量。对特征向量做进一步计算,获得语音质量评估的结果。
[0076]图7是本发明实施例2的语音质量评估的方法的示意流程图,包括以下内容。
[0077]S71,对输入的语音信号,进行预处理。
[0078]预处理属公知技术,该预处理过程可以包括但不限于对语音信号进行归一化。该步骤为可选步骤。
[0079]S72,对预处理后的语音信号,进行人耳听觉建模处理,获取第一信号。
[0080]一个实施例中,该人耳听觉建模处理包括将语音信号通过符合人耳听觉特性的带通滤波器组,分解出N (N为正整数)个子带信号,N等于带通滤波器通道数;每一个子带信号计算时域包络,作为第一信号。图8是本发明实施例3的针对16KHz采样率的人耳滤波器组进行带通滤波后的信号示意图。根据相关心理听觉研究,反映语音质量最关键因素是可懂度;而时域包络可以反映可懂度相关信息;一个实施例中,对每一个子带信号计算时域包络,作为第一信号。当然,作为其他实施例,可以直接分析每一个子带信号得到第一信号。
[0081]可以使用人耳滤波器来分解子带信号。人耳滤波器组为一种特殊的带通滤波组,其对语音信号进行非均匀的分带。因此,输入的声音信号通过人耳滤波器处理,可以输出不同频率范围内的子带信号;我们可以进一步对上述子带信号进行处理得到第一信号。人耳滤波器组可以有不同的数字滤波器的实现方式,例如,可以采用Ga_aton滤波器组。
[0082]S73,基于第一信号,通过多分辨分析生成第二信号;对第二信号进行特征提取和分析获得特征向量。
[0083]具体地,对N个子带信号的每一个的时域包络进行L阶离散小波变换(L为正整数),并从L阶离散小波变换所获得的小波信号中选择M (M为正整数)个小波信号作为第二信号。L是小波变换的分解级数,取决与输入的语音信号的采样率和质量评估分析所需的频率分辨率。所需的频率分辨率是频率分辨率的精细程度的要求。M为从每一个带通滤波器通道中选择的小波信号的个数,通过L和质量评估分析中设定的频率分析范围可以确定M的取值。
[0084]小波变换后,可以使用所有的小波信号,也就是M*N个小波信号,也可以从所有的小波中选取部分用于后续的特征提取和分析。两者不同之处在于参与处理的小波信号越多,计算越复杂。
[0085]对第二信号中的每一个小波信号计算其平均能量作为特征量。最后,将所有的特征量合并为一个统一的多维特征向量。
[0086]针对N、L和M的不同取值,本发明实施例可以支持多种采样率的语音信号的语音质量评估,为日后不断提高采样率的语音信号的质量评估提供了灵活性。下面,分别以16KHz采样率的语音信号和8KHz采样率的语音信号为例,说明本发明实施例的语音质量评估的方法。
[0087]接下来说明本发明的实施例3,其中语音信号的采样率为16KHz。
[0088]对于一个采样率为16kHz的语音信号,在步骤S72可以定义一个具有30个子带的滤波器组。因此,输入信号可以分离成30个子带信号,此时N=30。N可以根据需要改变,例如将信号处理得更精细且不考虑复杂度,也可以设计一个N为60的人耳滤波器组。因此,此处选择N为30,仅是举例,是本发明实施例的一个优选值。
[0089]对于第k子带的子带信号Sk (η),计算其对应的时域包络,获取对应的第一信号:
[0091]其中
【权利要求】
1.一种语音质量评估的方法,其特征在于,包括: 将语音信号通过人耳听觉建模处理,得到第一信号; 对所述第一信号进行可变分辨率的时间-频率分析,得到第二信号; 基于所述第二信号进行特征提取和分析,获得针对所述语音信号的语音质量评估的结果O
2.根据权利要求1所述的方法,其特征在于,将语音信号通过人耳听觉建模处理,得到第一信号,包括: 将所述语音信号通过符合人耳听觉特性的带通滤波器组,获取N个子带信号,N为带通滤波器通道数,且为正整数; 针对每一个所述子带信号计算时域包络,获得所述第一信号。
3.根据权利要求1或2所述的方法,其特征在于,对所述第一信号进行可变分辨率的时间-频率分析,得到第二信号,包括: 对每一个所述第一信号进行L阶离散小波变换,并从L阶离散小波变换所获得的小波信号中选择M个小波信号作为第二信号,其中 L、M分别为正整数,基于语音信号的采样率和质量评估分析所需的频率分辨率确定L的取值;通过L和质量评估分析中设定的频率分析范围确定M的取值。
4.根据权利要求3所述的方法,其特征在于,所述对每一个所述第一信号进行L阶离散小波变换,并从L阶离散小波变化所获得的小波信号中选择M个小波信号作为第二信号,包括: 当所述语音信号的采样率为16KHz且所述频率分辨率为O至15.625Hz时,所述设定的频率分析范围为O至500Hz时,对每一个所述第一信号进行9阶离散小波变换,从每一个第一信号获得的小波信号中选择6个小波信号作为第二信号;或 当所述语音信号的采样率为8KHz且所述频率分辨率为O至15.625Hz时,所述设定的频率分析范围为O至250Hz时,对每一个所述第一信号进行8阶离散小波变换,从每一个第一信号获得的小波信号中选择5个小波信号作为第二信号。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二信号进行特征提取和分析包括: 获得N个子带信号的M*N个小波信号后,从所述M*N个小波信号中选择全部或多个小波信号用于进行特征提取和分析;其中,N为正整数。
6.根据权利要求5所述的方法,其特征在于,当N=30,从所述M*N个小波信号中选择多个小波信号用于进行特征提取和分析时,所述多个小波信号为以下N个子带的第K个子带的下述小波信号: k〈=16时,选择频率范围最多到125Hz的4个小波信号; 17〈=k〈=20时,选择频率范围最多到250Hz的5个小波信号; 21〈=k〈=30时,选择频率范围最多到500Hz的全部6个小波信号。
7.根据权利要求5所述的方法,其特征在于,当N=18,从所述M*N个小波信号中选择多个小波信号用于进行特征提取和分析时,所述多个小波信号包括以下N个子带的第K个子带的下述小波信号: k〈=16时,选择频率范围最多到125Hz的4个小波信号;17〈=k〈=18时,选择频率范围最多到250Hz的5个小波信号。
8.根据权利要求3至7任一所述的方法,其特征在于,所述基于所述第二信号进行特征提取和分析,获得语音质量评估的结果,包括: 对所述第二信号中的每一个小波信号计算平均能量作为特征量; 将所有的所述特征量组合成一个多维的特征向量,针对所述特征向量,进行失真检测和质量预测后,获得针对所述语音信号的语音质量评估的结果。
9.根据权利要求3至8任一所述的方法,其特征在于,还包括: 对针对所述语音信号的语音质量评估的结果与至少一个针对先前的语音信号的语音质量评估的结果计算平均值,获得综合语音质量评估结果。
10.根据权利要求1至9任一所述的方法,其特征在于,在进行人耳听觉建模处理前,所述方法还包括: 将各种采样速率的语音信号通过重采样处理获得同一采样率的所述语音信号。
11.一种语音质量评估的装置,其特征在于,包括第一获取单元、第二获取单元和特征提取和分析单元: 所述第一获取单元,用于将语音信号通过人耳听觉建模处理,得到第一信号并发送到所述第二获取单元; 所述第二获取单元,用于接收所述第一获取单元发送的所述第一信号,对所述第一信号进行可变分辨率的时间-频率分析,得到第二信号并发送到所述特征提取和分析单元;所述特征提取 和分析单元,用于接收所述第二获取单元发送的所述第二信号,基于所述第二信号进行特征提取和分析,获得针对所述语音信号的语音质量评估的结果。
12.根据权利要求11所述的装置,其特征在于,所述第一获取单元具体包括滤波器组和时域包络模块: 所述滤波模块,用于将所述语音信号通过符合人耳听觉特性的带通滤波器组,获取N个子带信号并发送到所述时域包络模块,N为带通滤波器通道数,且为正整数; 所述时域包络模块,用于接收所述滤波模块发送的所述N个子带信号,针对每一个所述子带信号计算时域包络,获得所述第一信号。
13.根据权利要求11或12所述的装置,其特征在于,所述第二获取单元具体用于: 对每一个所述第一信号进行L阶离散小波变换,并从L阶离散小波变换所获得的小波信号中选择M个小波信号作为第二信号,其中 L、M分别为正整数,基于语音信号的采样率和质量评估分析所需的频率分辨率确定L的取值;通过L和质量评估分析中设定的频率分析范围确定M的取值。
14.根据权利要求13所述的装置,其特征在于,所述第二获取单元具体用于: 当所述语音信号的采样率为16KHz且所述频率分辨率为O至15.625Hz时,所述设定的频率分析范围为O至500Hz时,对每一个所述第一信号进行9阶离散小波变换;从每一个第一信号获得的小波信号中选择6个小波信号作为第二信号,或 当所述语音信号的采样率为8KHz且所述频率分辨率为O至15.625Hz时,所述设定的频率分析范围为O至250Hz时,对每一个所述第一信号进行8阶离散小波变换;从每一个第一信号获得的小波信号中选择5个小波信号作为第二信号。
15.根据权利要求14所述的装置,其特征在于,所述特征提取和分析单元具体包括选择丰吴块: 获得N个子带信号的M*N个小波信号后,从所述M*N个小波信号中选择全部或多个小波信号用于进行特征提取和分析;其中N为正整数。
16.根据权利要求15所述的装置,其特征在于,当N=30时,所述选择模块具体用于选择以下多个小波信号: k〈=16时,选择频率范围最多到125Hz的4个小波信号; 17〈=k〈=20时,选择频率范围最多到250Hz的5个小波信号; 21〈=k〈=30时,选择频率范围最多到500Hz的全部6个小波信号。
17.根据权利要求15所述的装置,其特征在于,当N=IS时所述选择模块具体用于选择以下多个小波信号: k〈=16时,选择频率范围最多到125Hz的4个小波信号; 17〈=k〈=18时,选择频率范围最多到250Hz的5个小波信号。
18.根据权利要求13至17任一所述的装置,其特征在于,所述特征提取和分析单元还包括特征量模块和评估模块: 所述特征量模块,用于对所述第二信号中的每一个小波信号计算平均能量作为特征量发送到所述预测模块; 所述评估模块,用于接收所述特征量模块发送的所述特征量,将所有的所述特征量组合成一个多维的特征向量,针对所述特征向量,进行失真检测和质量预测后,获得针对所述语音信号的语音质量评估的结果。
19.根据权利要求13至18任一所述的装置,其特征在于,所述评估模块还用于: 对针对所述语音信号的语音质量评估的结果与至少一个针对先前的语音信号的语音质量评估的结果计算平均值,获得综合语音质量评估结果。
20.根据权利要求11至19任一所述的装置,其特征在于,所述装置还包括重采样单元: 所述重采样单元,用于将各种采样速率的语音信号通过重采样处理获得同一采样率的所述语音信号。
【文档编号】G10L15/02GK103730131SQ201210387204
【公开日】2014年4月16日 申请日期:2012年10月12日 优先权日:2012年10月12日
【发明者】肖玮 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1