用于助听器的语音增强方法

文档序号:7621183阅读:242来源:国知局
专利名称:用于助听器的语音增强方法
技术领域
本发明属于语音信号处理领域,涉及助听器的语音增强方法,具体涉及一种在助听器中提高噪声环境下语音质量与语音可懂度的方法。
背景技术
言语交流是人类社会的基本交流方式,也是个人基本生活能力之一。然而对于那些耳聋患者,由于听力下降而导致的言语交流障碍严重影响了他们的生活质量。这不仅给其本人和家庭带来了巨大的痛苦,同时也给整个社会增加了负担。根据中国残疾人联合会2002年2月7日公布的一项统计表明,我国有听力言语障碍的残疾人2057万,占全国6000万残疾人总数的34.3%。另外,由于遗传、药物、感染、噪声、意外事故等原因,每年还会新增聋儿3万名。如此众多的听障人群以及他们的生活痛苦,促使着相关领域的工作者去尽一份努力来帮助这些聋人重新回到有声世界,像正常人一样生活,以此来体现我们和谐社会的人文关爱。
目前,感音神经性听力损失尚无理想的保守治愈手段,主要的干预治疗方法是佩戴助听器和植入人工耳蜗,而佩戴助听器又适合于大多数患者。从听力损失确诊到听力康复,助听器是整个链条中至关重要和不可缺少的环节。
早期的助听器均为模拟设备,直到1995年,才出现了第一款全数字助听器。近年来,随着语音信号数字处理方法和集成电路技术的日益发展,助听器正逐步由模拟时代进入数字时代。数字助听器克服了模拟助听器功能简单、单一的缺陷,可以较为有效的区分目标语音和干扰噪声,并有可能通过分析不同的应用场景采取相应的信号处理策略,从而达到了初步的智能化。数字助听器以其强大的信号处理能力而越来越为患者所接受。
然而在噪声环境下,助听器佩带者对语音的可懂度相对听力正常人有严重下降,并且噪声经过方法放大后,令佩带者感到相当疲劳与厌烦。当前的助听器方法尚不能较好地解决这种噪声问题,因此,提供一种用于助听器的语音增强方法,具有重要的实用意义。

发明内容
本发明的目的是提供一种在噪声环境中抑止含噪语音中的噪声成分,提高语音质量和可懂度的方法。
本发明具体解决三方面问题一是如何准确地估计噪声谱;二是如何调整含噪语音谱抑制噪声成分;三是如何利用听觉感知机理,使得声音更自然,得到更好的可懂度。
根据本发明语音增强方法,具体包括以下步骤1)首先利用端点检测技术对语音中的噪声谱进行估计;2)利用两步维纳滤波技术去除噪声;3)同时根据听觉掩蔽曲线对滤波参数进行调整。
下面详细说明各个技术步骤的具体内容1.基于端点检测技术的噪声谱估计。
本发明中采用一种比较可靠的,对噪声鲁棒性比较好的端点检测技术(VoiceActivity Dection-VAD),在判断为噪声谱的时间段内对噪声谱进行更新,而检测为含有语音的时间段内,其噪声谱采用前面的估计值。为了能够尽可能准确地估计噪声谱,要求在较少的将语音判断为噪声的情况下,尽可能的多检测出噪声段。
一般的端点检测方法采用的区分参数是信号的能量,过零率,信号周期性以及线性预测编码系数。它们对于含噪情况性能较差,且切分过细。
为了实现本系统所要求的静音检测效果,我们采用基于长时语音信息的端点检测方法。由于本方法基于语音信号的长时信息,它能够更加准确地估计出说话中大的停顿,而减少错误地将能量较小的清音判断为噪声段的情况。
2.两步维纳滤波。
该技术用于调整含噪语音谱。两步滤波中的第一步用于粗略地去除噪声,白化残余噪声;第二步用于去除残余白噪声,得到干净语音。
输入信号经分帧后进行谱估计(Spectrum Estimation),再与前一帧结果取平均进行时域平滑,得到功率谱密度均值(PSD Mean)。这两个模块的输出结果都输入到维纳滤波器的设计模块(Weiner Filter Design)中。另外,同时输入该模块的还有对当前帧信号是语音还是静音的判断结果。如果是静音,该帧就可以用于估计噪声强度。根据这些输入信息,维纳滤波器设计生成在线性频域上的系数。进一步,通过美化带模块的转换可得到美标度频率轴上的滤波器系数。再由美标度逆离散余弦变换(IDCT)模块输出滤波器的时域冲击响应。用该响应卷积输入的含噪语音信号,可得到初步去噪后的时域语音波形。
二次滤波的输入就是一次滤波的输出,处理过程与一次滤波相似。不同之处在于噪声估计部分做了改进。另外,对设计生成的美标度滤波器系数要乘上一个基于信噪比的增益因子(Gain Factorization)。
最后系统去除二次滤波结果中的直流偏置,并输出到下一个单元。
3.基于听觉掩蔽的噪声消除。
该技术在去除噪声时,在频谱处理上考虑听觉感知机理,使滤波效果更理想。具体的,在两步维纳滤波阶段,均考虑听觉掩蔽曲线的影响,当估计的噪声在掩蔽曲线以下的时候,不再对这部分噪声进行处理,以减小由于滤波造成的语音信号失真。
本发明的优点与积极效果本发明中的去噪方法,在信号层次和听觉感知层次均进行了充分的研究与考虑。对于估计噪声,采用鲁棒性很好的端点检测方法,用之尽可能的准确估计出噪声谱。同时考虑这样仍然不能完全准确的得到噪声谱的值,而采用了两步维纳滤波进一步解决这个问题。同时,考虑到人耳的特点,运用听觉掩蔽曲线,使得得到的信号失真减小。这样,最终增强后的信号,在语音质量与可懂度上都有比较大的提高。使用该方法的助听器,在噪声环境下的使用性能得到大幅度的提升。


下面结合附图对本发明进一步详细地说明图1是系统总体框图;图2是端点检测方法流程图;图3是两步维纳滤波方法的流程框图;图4是原含噪信号以及增强后信号用PESQ进行MOS打分的结果比较。
具体实施例方式
下面参照本发明的附图,更详细地描述本发明的最佳实施。
根据本发明的基于听觉感知的语音增强方法,系统的总体结构框图如图1所示,以下将结合附图详细介绍系统结构。
1.端点检测(VAD)的实现本实施例中所用的特征参数定义如下假设x(n)是分帧后含噪语音信号,X(k,l)是它第l帧、第k带的幅度谱,那么N阶长时谱包络(Long-Term Sprctral Envelop-LTSE)定义为LTSE(k,l)=max{X(k,l+j}j=-Nj=+N]]>而语音和噪声之间的N阶长时谱分离度(Long-Term Spectral Divergence-LTSD)定义为LTSD(l)=10log10(1NFFTΣk=0NFFT-1LTSE2(k,l)N2(k))---(2)]]>长时谱分离度是区别语音和非语音相当鲁棒的特征参数。
如图2所示为端点检测方法的流程图,从图中我们可以看出,长时谱分离度的计算是通过长时谱包络得到,而端点检测的判决只需通过长时谱分离度的大小与门限的比较,因此门限的设定相当重要。它是通过所估计出来的噪声谱大小进行自适应调整的。
2.两步维纳滤波的实现图3示出了语音增强方法中两步维纳滤波方法的流程框图,下面将具体介绍方法中各个模块的实现1)估计模块谱估计输入信号重叠分帧,每帧25ms长,帧移10ms,信号通过汉宁窗分帧。然后通过快速傅立叶变换(FFT)变换,转换到频域,并求出功率谱,对功率谱进行平滑处理。
2)功率谱密度均值对前后两帧功率谱密度求平均,使得频谱在时间上更加平滑。
3)维纳滤波器设计我们考虑进行两步维纳滤波,在第一步滤波阶段的噪声估计,是通过端点检测的结果,在非语音段进行更新。在第二步滤波阶段的噪声估计,利用语音与噪声之间的相关性进行更新。
先验SNR为η(bin,t)=Pden(bin,t)Pnotse(bin,t)---(3)]]>滤波器传递函数H(bin,t)由下面方程得到H(bin,t)=η(bin,t)1+η(bin,t)---(4)]]>4)美标度滤波器组将线性频率映射到美标度频率,对于16k采样信号,我们将整个频带划分为25个带,将线性频率转换到美标度频率,然后计算出三角窗,把原来维纳滤波频率响应用三角窗在频率上加权。这样得到美标度下的维纳滤波响应。
5)增益因子增益因子是用在第二步维纳滤波阶段调整噪声抑制强度。将增益因子用在所求出的美标度维纳滤波器上H2_mel_GF(k,t)=(1-αGF(t))+αGF(t)×H2_mel(k,t),0≤k≤KFB+1(5)增益因子的变化范围从0.1到0.8,意味着在第二步维纳滤波阶段,对含有语音段,滤波强度下调到10%,而对于噪声段设定为80%。
6)美标度IDCT用IDCT计算将滤波器响应从频域变换到时域hWF(n)=Σk=1KFB+1H2_mel(k)×IDCTmel(k,n),0≤n≤KFB+1---(6)]]>其中IDCTmel(k,n)为美标度IDCT。这样,我们就得到了时域滤波器。
7)滤波从上面的时域滤波器,我们计算出因果冲击响应滤波器,将输入信号经过滤波器,即可得到增强后的信号。
8)偏移补偿为了去除滤波后的直流分量,将去噪后的信号通过如下滤波器snr_of(n)=snr(n)-snr(n-1)+(1-1/1024)×snr_of(n-1),0≤n≤M-1(7)3基于听觉掩蔽的滤波调整我们在进行两步维纳滤波的时候,对于每个频点的传输函数,我们还考虑到噪声是否在听觉掩蔽曲线以下。如果是这样,那么将这个频点的增益调整为1,即不对其进行去噪处理。这样可以减小由于去噪处理而引起的波形失真。
图4所示为原含噪信号以及增强后信号用PESQ进行MOS打分的结果比较,其中曲线1增强后的信号,曲线2表示原始信号,根据图中的MOS打分的结果比较可以看出,经过增强后的信号明显具有更好的效果。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。
权利要求
1.一种用于助听器的语音增强方法,具体包括以下步骤1)利用端点检测技术对语音中的噪声谱进行估计;2)利用两步维纳滤波去除噪声;3)同时根据听觉掩蔽曲线对滤波参数进行调整。
2.如权利要求1所述的用于助听器的语音增强方法,其特征在于采用基于长时语音信息的端点检测技术对语音中的噪声谱进行估计。
3.如权利要求1或2所述的用于助听器的语音增强方法,其特征在于利用端点检测技术对语音中的噪声谱进行估计,当判断为噪声谱的时间段内对噪声谱进行更新;当检测为含有语音的时间段内,其噪声谱采用已有的估计值。
4.如权利要求1所述的用于助听器的语音增强方法,其特征在于第一步维纳滤波去除噪声,首先输入信号经分帧后进行谱估计,再与前一帧结果取平均进行时域平滑,得到功率谱密度均值;然后将这两个输出结果都输入到维纳滤波器模块中;同时还将对当前帧信号为语音还是静音的判断结果,输入到维纳滤波器模块;如果是静音,该帧就可以用于估计噪声强度;根据维纳滤波器模块的输入信息,维纳滤波器设计生成在线性频域上的系数;进一步,通过美滤波器带模块的转换可得到美标度频率轴上的滤波器系数;再由美标度逆离散余弦变换模块输出滤波器的时域冲击响应;用该响应卷积输入的含噪语音信号,得到初步去噪后的时域语音波形。
5.如权利要求4所述的用于助听器的语音增强方法,其特征在于第二步维纳滤波的输入是第一步维纳滤波的输出,处理过程不同之处在于噪声估计部分语音与噪声之间的相关性进行更新;并且对设计生成的美标度滤波器系数乘以一个基于信噪比的增益因子。
6.如权利要求1所述的用于助听器的语音增强方法,其特征在于在两步维纳滤波阶段,均考虑听觉掩蔽曲线的影响,当估计的噪声在掩蔽曲线以下的时候,不再对这部分噪声进行处理。
7.如权利要求6所述的用于助听器的语音增强方法,其特征在于当估计的噪声在掩蔽曲线以下的时候,将这个频点的增益调整为1。
全文摘要
本发明提供一种在噪声环境中抑止含噪语音中的噪声成分,提高语音质量和可懂度的语音增强方法。根据本发明的方法,具体包括以下步骤1)首先利用端点检测技术对语音中的噪声谱进行估计;2)利用两步维纳滤波技术去除噪声;3)同时根据听觉掩蔽曲线对滤波参数进行调整。本发明中的去噪方法,在信号层次和听觉感知层次均进行了充分的研究与考虑。对于估计噪声,采用鲁棒性很好的端点检测方法,用之尽可能的准确估计出噪声谱。进一步采用了两步维纳滤波进一步解决这个问题。同时,考虑到人耳的特点,运用听觉掩蔽曲线,使得得到的信号失真减小。这样,最终增强后的信号,在语音质量与可懂度上都有比较大的提高。
文档编号H04R25/00GK1967659SQ20051008687
公开日2007年5月23日 申请日期2005年11月14日 优先权日2005年11月14日
发明者迟惠生, 吴玺宏, 韩润强, 张志平 申请人:北京大学科技开发部
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1