基于信号自相关的语音降噪方法及装置与流程

文档序号:13907088研发日期:2016年阅读:3641来源:国知局
技术简介:
本发明针对传统语音降噪技术在低信噪比(如-20dB)下对宽带噪声抑制效果差的问题,提出基于汉语发音特征的自相关降噪方法。通过分帧自相关运算增强语音信号频域幅值、抑制噪声,结合阈值处理进一步去噪,最终实现强噪声环境下语音清晰度显著提升。
关键词:语音降噪,自相关阈值

本发明涉及一种语音识别领域内的降噪技术,尤其是涉及一种基于信号自相关的语音降噪方法及装置。



背景技术:

语音降噪主要应用于人机对话中的语音识别,以及语音通讯领域(包括传统的有线通讯、无线通讯以及网络通讯)。语音含噪大大降低了智能设备和人耳对语音正确识别的能力,语音降噪则增强了在噪声环境下对语音的识别率。因此在人机对话和通讯设备中使用语音降噪技术也是十分必要的,它可以增强智能设备识别和执行语音命令的正确率,降低人由于分辨含噪语音所产生的疲劳感,提高语音的可懂度。

传统的语音降噪方法大体上有以下几种:噪音对消法、谐波增强法、语音生成模型的增强法、短时谱的增强法、滤波法。但由于语音信号的复杂性和非平稳性,这些传统的降噪方法很难对信噪比低于10db的信号进行降噪,进行有效识别,尤其是对宽带噪声、瞬变噪声、强噪声的抑制效果不令人满意。

本发明基于汉语的发音特征开发了强噪声环境下语音降噪的技术。汉语区别于拼音文字发声的特点是:清音之后必有浊音辅助发声,因此清音的频率特征也是比较明显的,不像拼音文字有连续的清音,在发声的时候清音没有明显的时域频域特征,非常类似于白噪声。利用这一特点,在对汉语语音信号进行自相关的运算后,具有频率特征的语音信号自相关数值较大,得以加强和保留,频率特征较弱的噪声信号自相关数值较小,受到抑制。在自相关函数的fft变换频域内,表现为语音信号的频率幅值较大,而噪声的频率幅值较小。对频率信号进行阈值处理后,可进一步去噪,实现语音信号的去噪。



技术实现要素:

本发明的目的就是为了克服上述现有语音降噪技术的缺陷而提供的精确、快速、自动化程度高的语音去噪方法及装置,本发明对于信噪比为-20db的含噪语音信号,经降噪处理后可以获得良好的语音识别度。

本发明的目的可以通过以下技术方案来实现:

一种基于信号自相关的语音降噪方法,包括以下步骤:

1)语音接收模块通过麦克风接收采集到含噪的语音信号,并将其传送给a/d转换模块;

2)a/d转换模块将采集到的模拟语音信号转换成数字信号,并将其传送给语音分帧模块;

3)语音分帧模块将语音数字信号进行分帧处理,时间长度为20~30ms,然后将分帧后的信号传送给自相关去噪模块;

4)自相关去噪模块将分帧后的信号做自相关运算,实现初步降噪,然后将其传送给fft分析模块;

5)fft分析模块将每帧含噪信号的自相关函数在延时域上做fft分析,展开为频域上的函数,然后将频域内的一系列幅值传送给阈值降噪模块;

6)阈值降噪模块通过设定阈值,将低于该阈值的频率分量幅值置零,实现二次去噪,并将处理后的幅值传送给重采样及相位配对模块;

7)重采样及相位配对模块对处理后的幅值进行重采样,取一半的点数,然后将其重采样的信号幅值与含噪信号的相位配对,然后将配对后的幅值、相位组合传送给逆fft变换模块;

8)逆fft变换模块将重采样后的幅值与配对的含噪信号相位做逆fft变换,将信号返回到时域,然后将时域内的信号传送给帧重组模块;

9)帧重组模块将信号进行帧重组,构成完整的去噪后的语音信号,完成去噪过程。

所述的语音接收模块的工作参数包括信号采集通道、采样频率和采集信号时长;

所述的语音分帧模块的工作参数包括信号分帧时长;

所述的阈值降噪模块的工作参数包括去噪阈值。

一种基于信号自相关的语音降噪方法的装置,其特征在于,包括语音接收模块、a/d转换模块、语音分帧模块、自相关去噪模块、fft分析模块、阈值降噪模块、重采样及相位配对模块、逆fft变换模块和帧重组模块。

所述的语音接收模块,包括设置信号采集通道、采样频率和采集信号时长,并将采集到的语音信号发送给语音分帧模块。

所述的语音分帧模块,需要设置信号分帧时长;

所述的自相关去噪模块,是将信号作自相关运算,能量有限的语音信号s(n)的短时自相关函数定义为:

m为时间延迟点数,n为信号时长点数。

所述的fft分析模块,是将自相关函数进行快速傅立叶变换,得到自相关函数的频域表示。

所述的阈值降噪模块,是将低于设定阈值的频率幅值重置为零,而将高于阈值的频率幅值保持不变,得到一组新的傅立叶变换系数,并发送给重采样及相位配对模块。

所述的重采样及相位配对模块,是将傅立叶变换系数进行隔点采样,然后与采集信号的相位配对,组合发送给逆fft变换模块;

所述的逆fft变换模块,利用重采样后的幅值和配对的相位进行逆fft变换,得到去噪后的时域信号,然后发送给帧重组模块;

所述的帧重组模块,将去噪处理后的各帧信号进行重组,得到完整的、去噪处理后的语音信号。

所述的语音接收模块采集到的语音信号s(t),除有用语音信号v(t)外,还有环境中的噪声n(t),对信号作自相关运算,即

s(t)*s(t)=[v(t)+n(t)]*[v(t)+n(t)]

假设s(t)、v(t)、n(t)的傅里叶变换(fft)分别为s(f)、v(f)、n(f),则s(t)自相关运算的傅里叶变换可表示为:

f[s(t)*s(t)]=s(f)·s*(f)=[v(f)+n(f)]·[v*(f)+n*(f)]

=v(f)·v*(f)+v(f)·n*(f)+n(f)·v*(f)+n(f)·n*(f)

≈v(f)*v*(f)+z(f)

即v(t)自相关在频域上的幅值|v(f)·v*(f)|是原信号在频域上幅值的平方。自相关函数的频域中还含有噪声信号的频率分量z(f)。

语音信号在短时间内可以近似看作频率特征显著的准稳态信号,而噪声都是幅值、频率和相位都不稳定的随机信号。经过自相关处理,语音信号由于不同时间的信号具有相关性而得以保留。而噪声都由于不同时间的信号相关性小而被抑制。所以相关运算处理能起到初步降噪的作用。

由于语音的频率集中在有限的几个窄带内,因此其频域中幅值较大,而噪声的频带较宽,分布在整个频域上,其幅值较低,所以把低于某个阈值的频率分量作为噪声处理,令其幅值为零,消除大部分的z(f),可再次实现去噪效果。

经过两次去噪后的频域自相关函数,对其频域幅值开方,那么其频谱特征将十分接近干净的语音信号的频谱特征,由于自相关计算v(f)·v(f)在频域上的点数为v(f)的两倍2n,对其重采样取一半的点数n,然后将其重采样的信号v’(f)与含噪信号的相位配对。

附图说明

图1为本发明的结构示意图;

图2为各信号时域波形图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示,本发明首先接收采集到被噪声污染的语音信号,然后基于信号自相关技术对语音信号进行去噪处理,得到信噪比较高、可懂度大大提高的语音信号。所述的去噪装置包括语音接收模块1、a/d转换模块2、语音分帧模块3、自相关去噪模块4、fft分析模块5、阈值降噪模块6、重采样及相位配对模块7、逆fft变换模块8、帧重组模块9。

所述的语音接收模块通过麦克风接收采集到含噪的语音信号s(t)=v(t)+n(t),并将其传送给a/d转换模块;a/d转换模块将采集到的模拟语音信号转换成数字信号,并将其传送给语音分帧模块;语音分帧模块将语音数字信号进行分帧处理,时间长度为20~30ms,然后将分帧后的信号传送给自相关去噪模块;自相关去噪模块将分帧后的信号做自相关运算,实现初步降噪,然后将其传送给fft分析模块;fft分析模块将每帧含噪信号s(t)的自相关函数s(t)*s(t)在延时域上做fft分析,展开为频域上的函数s(f)·s(f),然后将频域内的一系列幅值传送给阈值降噪模块;阈值处理通过设定阈值,将低于该阈值的频率分量置零,实现二次去噪,并将处理后的幅值组合传送给重采样及相位配对模块;重采样及相位配对模块对处理后的幅值进行重采样,取一半的点数n,然后将其重采样的信号v’(f)与含噪信号的相位配对,然后将配对后的幅值、相位组合传送给逆fft变换模块。逆fft变换模块将v’(f)与配对的含噪信号相位做逆fft变换,将信号返回到时域,然后将时域内的信号传送给帧重组模块。帧重组模块将信号进行帧重组,构成完整的去噪后的语音信号,完成去噪过程。

以下举例说明本发明的去噪过程:

一组纯净的语音信号,分别在无噪声干扰和被白噪声所淹没、信噪比为-20db两种状况下采集,采样率均为44100,采集信号时长为0.55s,语音分帧模块为2(信号较短),阈值降噪模块设置阈值为1500(小于1500的频率分量全部置零)。图2给出纯净语音信号、加噪信号和去噪信号的对比时域波形图。

对比图2中各波形图可以看出,经去噪处理后,去噪信号与加噪信号相比信噪比已有大幅提升,且去噪信号与原始语音信号有较好的一致性。对比音频文件,被噪声干扰后的信号言语已无法辨识,但经去噪处理后的语音信号已能清晰辨识。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!