一种基于子带谱熵的语音增强方法与流程

文档序号：16436994发布日期：2018-12-28 20:34阅读：557来源：国知局

本发明属于语音信号处理技术领域，具体涉及到根据含噪语音每个子带的谱熵估计背景噪声的均值，对含噪语音进行谱减，恢复纯净语音的语音增强方法。

背景技术：

在语音的传输过程中，不可避免地会受到环境噪声的干扰。含噪语音中混杂的噪声不仅使听者产生不舒服的感觉，而且会给语音编码、语音识别等应用系统带来不利影响。因此，在实际应用中，就需要采用各种语音增强方法抑制噪声干扰，增强有用语音信号，增加语音的可懂度。

在传统的语音增强算法中，需要对含噪语音进行端点检测，将其划分为有音段和静音段，即将每一帧信号判断为语音帧和非语音帧。在静音段，估计噪声频谱的均值；在有音段，利用估得的噪声均值，对每个语音帧的幅度谱进行增强，减小噪声干扰的影响。然而，实际环境中的背景噪声往往是非平稳的，在有音段，噪声的类型或强度也有可能发生变化。因此，仅仅在静音段估计噪声，无法实时跟踪非平稳噪声的变化，这会给语音增强带来不利影响。

技术实现要素：

发明目的：针对现有技术中存在的问题，本发明提供一种基于子带谱熵的语音增强方法。

技术方案：一种基于子带谱熵的语音增强方法，首先将含噪语音的幅度谱划分成若干个子带，计算每个子带的谱熵；然后，根据子带谱熵，判断该子带是否存在语音；最后，对无音子带，更新该子带上所有数字频率处的噪声参数；对有音子带，用谱减法对含噪语音的幅度谱进行增强。

本发明的具体步骤如下：

(1)对含噪语音进行预处理，包括加窗、分帧和快速傅里叶变换(fft：fastfouriertransform)，并将每帧信号的频谱分为幅度部分和相位部分；

(2)将含噪语音的幅度谱划分为若干个子带，并计算每个子带上的谱熵；

(3)根据每个子带上的谱熵，判断该子带是否存在语音；

(4)若某子带上不存在语音，则对该子带上的每个数字频率，用平滑滤波方式更新其噪声均值，并将其幅度谱设置为噪声均值的0.01倍；

(5)若某子带上存在语音，则对该子带上的每个数字频率，用加权谱减法减小噪声的影响，增强含噪语音的幅度谱，提高含噪语音的信噪比；

(6)对增强后的语音信号进行ifft(inversefft)运算，得到时域信号；

(7)对时域帧信号进行重叠相加，得到增强后的连续语音。

本发明采用上述技术方案，具有以下有益效果：

本发明可以对每一帧信号的每个子带的语音存在性进行判断，增强噪声估计算法对非平稳环境的实时跟踪能力。

附图说明

图1为本发明实施例的基于子带谱熵的语音增强方法的总体框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于

本技术：
所附权利要求所限定的范围。

如图1所示，基于子带谱熵的语音增强方法主要包括语音预处理、子带划分、子带谱熵计算、噪声估计、幅度增强、ifft和重叠相加部分。

1、语音预处理

对含噪语音进行预处理，包括加窗、分帧和fft。语音信号的采样频率为8000hz，窗函数为海明窗，帧长为256，帧移为128。含噪语音经过预处理，可以得到每帧信号的幅度谱和相位谱，幅度谱用于噪声估计和谱减，相位谱用于在后端恢复时域信号。一般认为相位对听觉系统的影响很小，可以直接用含噪语音的相位作为纯净语音的相位。

2、子带谱熵计算

首先将每帧语音的幅度谱划分为8个等间距的子带；然后，计算每个子带上的谱熵；最后，根据每个子带上的谱熵，判断该子带是否存在语音。

3、噪声估计

若某子带上不存在语音，则对该子带上的每个数字频率k，用平滑滤波方式更新其噪声均值n(k,l)：

n(k,l)＝α·n(k,l-1)+(1-α)·|y(k,l)|(1)

其中，n(k,l-1)是上一帧(第(l-1)帧)的噪声估计值；|y(k,l)|是当前帧(第l帧)的含噪语音幅度谱；实数α是平滑系数，这里取α＝0.9。若某子带上存在语音，则将α设置为1，即停止更新噪声，以上一帧的噪声估计值作为本帧的噪声估计值。

4、幅度增强

若某子带上存在语音，则对该子带上的每个数字频率k，用加权谱减法减小噪声的影响：

其中，是纯净语音幅度的估计值，y(k)、n(k)分别表示含噪语音的幅度和噪声的均值；β(m)是当前帧第m个子带上所有数字频率的过减系数，根据下式计算：

其中，e(m)是当前帧第m个子带的对数能量；emin和emax是e(m)的最小值和最大值；βmax是β(m)的上限，这里设置为6。

若某子带上不存在语音，则对该子带上的每个数字频率k，用下式估计

5、ifft与重叠相加

首先将含噪语音的相位作为纯净语音的相位，与纯净语音幅度谱的估计值相乘，得到纯净语音的完整频谱；然后，对每一帧的完整频谱进行ifft运算，得到时域信号；最后，对各帧时域信号进行重叠相加，得到增强后的数字语音。

技术特征：

技术总结
本发明公开了一种基于子带谱熵的语音增强方法，首先将含噪语音的幅度谱划分成若干个子带，计算每个子带的谱熵；然后，根据子带谱熵，判断该子带是否存在语音；最后，对无音子带，更新该子带上所有数字频率处的噪声参数；对有音子带，用谱减法对含噪语音的幅度谱进行增强。本发明可以对每一帧信号的每个子带的语音存在性进行判断，增强噪声估计算法对非平稳环境的实时跟踪能力。

技术研发人员：吕勇
受保护的技术使用者：河海大学
技术研发日：2018.09.05
技术公布日：2018.12.28

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕勇
技术所有人：河海大学
我是此专利的发明人

上一篇：一种减振器和汽车的制作方法
上一篇：双重导向的木工机床电主轴的制作方法