一种宽频带语音质量客观评价方法

文档序号:7548254阅读:231来源:国知局
专利名称:一种宽频带语音质量客观评价方法
技术领域
本发明属于语音通信质量评价领域,尤其是涉及数据网上宽带语音通信的客观质量评价方法。
背景技术
数据网络传送话音业务,必须考虑服务质量的问题,为有效的利用带宽,使用了语音编码技术和话音活动检测技术实现间断传输(DTX),听者接收的信号与发言者发出的信号时域上并未严格同步。同时由于人们对通话质量需求的提高,宽频带(50~7000Hz)的语音通信因能有更高的可懂度、自然度、清晰度得到了更广泛的应用。原有的电话带宽(300~3400Hz)语音的客观质量评价方法有以下几方面的不足a、不能满足宽频带语音的客观质量评价要求;b、不能满足分组网上采用间断传输后的客观质量评价要求。

发明内容
本发明的目的在于克服现有的电路交换网客观语音质量评价方法的不足而提供一种评价分组网络上的宽频带语音传输质量的方法。
为实现上述目的,本发明提出了一种宽频带语音质量客观评价方法,其特征是包括下列步骤(1)测试语音和参考语音幅度归一化为均值为0,标准差为1的序列;(2)计算50~7000Hz频带内临界带听阈;(3)根据加窗语音帧的能量,计算安静帧阈值,如果一帧语音的能量小于安静帧阈值,这一帧信号不参加质量评价。安静帧语音能量阈值EnSilenceTh为相比最大能量帧的能量EnMax,其能量低于15dB;(4)归一化后信号计算功率谱;(5)在临界带内求和得到Bark谱;(6)根据Bark谱,计算该语音帧的响度;(7)归一化响度矢量Li(i),归一化因子等于参考语音帧的响度Lo(j)与测试语音帧的响度Li(j)之比,其中,K为临界带个数;Lt(i)‾=Σj=1KLo(j)Σj=1KLt(j)Lt(i)]]>(8)根据参考语音的响度Lo,测试语音的响度Lt和噪声掩蔽阈值Thn确定可感知失真标志M(i) (9)每帧失真D(i)由式给出D(i)=a(i)M(i)|L‾o-L‾t|]]>(10)重复步骤(1)~(9),计算整个语音段的失真WBSD,在安静段是否有语音失真不影响听觉质量,将每个非静音段的累加求和,按非静音帧的帧数取平均值,即得整个语音段的WBSD。
WBSD=1NΣj=1N[Σi=1KM(i)|Lo(j)(i)-Lt(j)(i)|]]]>其中,N处理总帧数K临界带数
Lo(j)(i)参考语音第j帧Bark谱Lt(j)(i)测试语音第j帧Bark谱而且,在上述(10)步骤中,根据功率谱计算线性预测系数LPC,对每个临界带的Bark谱距离按LPC谱包络加权,加权系数W(i)为每个临界带内的LPC滤波器频率响应值求和,再取平均值;WBSD=1NΣj=1N[Σi=1KW(i)M(i)|Lo(j)(i)-Lt(j)(i)|]]]>本发明提供了一种加权谱距离的计算方法,对于谱距离大于掩蔽值的临界带,按LPC谱的幅度加权后,计算每帧的谱距离。在计算FFT后,直接在频域计算自相关系数,通过Durbin算法计算LPC谱。
而且,在上述(1)步骤中,加入基于话音活动检测的时间分级对齐,此后的分析在活动语音段时间对齐后进行。
本发明具有以下优点和积极效果(1)计算宽频带内的语音Bark谱距离作为测度基础,与人耳的听觉特性吻合,能与主观质量测度保持较好的相关性;(2)通过采用响度线性插值算法,精度高于一般计算响度时用查表插值计算方法;(3)LPC的谱的峰值与语音信号的共振峰对应,共振峰对应的频带与语音的可懂度有直接的关系。通过加大权值可以提高本方法与主观质量的相关性;(4)由于话音活动检测器的作用,能克服分组网络语音通信中使用间断传输导致的参考语音与被测语音不同步的问题。


图1是本发明实施例流程图;图2是本发明实施例从LPC滤波器频率响应得到加权系数图;图3是本发明实施例中非间断传输示意图。
具体实施例方式
下面结合附图1~3对本发明作进一步说明。
本发明提出了一种宽频带语音质量客观评价方法,其步骤为(1)测试语音和参考语音幅度归一化为均值为0,标准差为1的序列;(2)计算50~7000Hz频带内临界带听阈;(3)根据加窗语音帧的能量,计算安静帧阈值,如果一帧语音的能量小于安静帧阈值,这一帧信号不参加质量评价。安静帧语音能量阈值EnSilenceTh为相比最大能量帧的能量EnMax,其能量低于15dB;(4)归一化后信号计算功率谱;(5)在临界带内求和得到Bark谱;(6)根据Bark谱,计算该语音帧的响度;(7)归一化响度矢量Li(i),归一化因子等于参考语音帧的响度Lo(j)与测试语音帧的响度Li(j)之比,其中,K为临界带个数;Lt(i)‾=Σj=1KLo(j)Σj=1KLt(j)Lt(i)]]>(8)根据参考语音的响度Lo,测试语音的响度Lt和噪声掩蔽阈值Thn确定可感知失真标志M(i) (9)每帧失真D(i)由式给出D(i)=a(i)M(i)|Lo-Lt|(10)重复步骤(1)~(9),计算整个语音段的失真WBSD,在安静段是否有语音失真不影响听觉质量,将每个非静音段的累加求和,按非静音帧的帧数取平均值,即得整个语音段的WBSD。
WBSD=1NΣj=1N[Σi=1KM(i)|Lo(j)(i)-Lt(j)(i)|]]]>其中,N处理总帧数K临界带数Lo(j)(i)参考语音第j帧Bark谱Lt(j)(i)测试语音第j帧Bark谱图1给出了上述方法在使用时的一个具体实例的流程图,测试语音y(n)和参考语音x(n)分别输入到BSD预处理器中,计算一帧测试语音内每个临界带的响度Ly(j)和一帧参考语音内每个临界带的响度Lx(j)。语音的带宽限制为50~7000Hz,涵盖Bark号从1到21的临界带,对应频率为20~7700Hz,因此在整个计算过程中,响度模型为21维特征矢量。噪声阈值计算部分得出每个临界带的噪声掩蔽阈值M(j)。BSD预处理器和噪声阈值计算模块的结果就可得出每帧的失真度WBSD。输入语音信号为16位有符号整数,采样频率为16KHz。BSD预处理器中首先要将语音信号从时域变换到频域,用FFT计算,FFT的窗长为1024点,每帧语音的帧长为20ms,对应640个语音样点,帧移为10ms。
如图2所示,对加窗后的语音信号求线性预测系数LPC,再求出该滤波器的频率响应,虚线即是该滤波器的频率响应。滤波器的波峰即对应该帧语音的共振峰。将每个临界带内的频率响应值求和,再取平均值,作为加权系数W(i),按下式计算语音失真度WBSD。
WBSD=1NΣj=1N[Σi=1KW(i)M(i)|Lo(j)(i)-Lt(j)(i)|]]]>如图3所示,在数据网络中,因为使用了非间断传输,接收者的语音与讲话者的语音并未依时间对齐,可以使用话音活动检测方法,将活动的语音段按时间对齐,再逐帧分析,然后计算WBSD。
以G.722.1编码为例,计算在不同丢包率下的语音质量,测试结果同主观测试结果相关性不低于0.8。
权利要求
1.本发明提出了一种宽频带语音质量客观评价方法,其特征是包括下列步骤(1)测试语音和参考语音幅度归一化为均值为0,标准差为1的序列;(2)计算50~7000Hz频带内临界带听阈;(3)根据加窗语音帧的能量,计算安静帧阈值,如果一帧语音的能量小于安静帧阈值,这一帧信号不参加质量评价。安静帧语音能量阈值EnSilenceTh为相比最大能量帧的能量EnMax,其能量低于15dB;(4)归一化后信号计算功率谱;(5)在临界带内求和得到Bark谱;(6)根据Bark谱,计算该语音帧的响度;(7)归一化响度矢量Li(i),归一化因子等于参考语音帧的响度L0(j)与测试语音帧的响度Li(j)之比,其中,K为临界带个数;Lt(i)‾=Σj=1KLo(j)Σj=1KLt(j)Lt(j)]]>(8)根据参考语音的响度Lo,测试语音的响度Lt和噪声掩蔽阈值Thn确定可感知失真标志M(i) (9)每帧失真D(i)由式给出D(i)=a(i)M(i)|Lo-Lt|(10)重复步骤(1)~(9),计算整个语音段的失真WBSD,在安静段是否有语音失真不影响听觉质量,将每个非静音段的累加求和,按非静音帧的帧数取平均值,即得整个语音段的WBSD。WBSD=1NΣj=1N[Σi=1KM(i)|Lo(j)(i)-Lt(j)(i)|]]]>其中,N处理总帧数K临界带数Lo(j)(i)参考语音第j帧Bark谱Lt(j)(i)测试语音第j帧Bark谱
2.如权利要求1所述的宽频带语音质量客观评价方法,其特征是在上述(10)步骤中,根据功率谱计算线性预测系数LPC,对每个临界带的Bark谱距离按LPC谱包络加权,加权系数W(i)为每个临界带内的LPC滤波器频率响应值求和,再取平均值;WBSD=1NΣj=1N[Σi=1KW(i)M(i)|Lo(j)(i)-Lt(j)(i)|]]]>
3.如权利要求1或2所述的宽频带语音质量客观评价方法,其特征是在上述(1)步骤中,加入基于话音活动检测的时间分级对齐,此后的分析在活动语音段时间对齐后进行。
全文摘要
一种宽频带语音质量客观评价方法,被测语音和参考语音幅度归一化为均值为0,标准差为1的序列;记算50~7000Hz频带内临界带听阈;根据加窗语音帧的能量,计算安静帧阈值;对归一化后信号计算功率谱;在临界带内求和得到Bark谱;根据Bark谱,计算该语音帧的响度;归一化响度矢量;根据原语音的响度L
文档编号H04L12/24GK1538667SQ20031011127
公开日2004年10月20日 申请日期2003年10月24日 优先权日2003年10月24日
发明者胡瑞敏, 艾浩军, 涂卫平 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1