一种用于拾音器的多窗谱估计的维纳滤波语音增强方法_2

文档序号：9728472阅读：来源：国知局

噪语音之间存在着失真，不同类型的失真对语音质量的影响也不同。为了得到舒适的声音，首先需要将纯净语音谱和增强后的带噪语音谱相比较，然后根据比较结果添加合适的约束条件。然而，纯净的语音几乎是不存在的，由于多窗口谱估计有较小的误差和方差特性，可以估计出近似的带噪语音模型，进一步通过小波阈值技术去除噪声项得到纯净的语音。同时，在较低的信噪比条件下，维纳增益函数在抑制噪声的同时有较小的失真。因此，也可以将维纳滤波应用在带噪语音信号处理中。
[0022] 本文语音增强算法的流程图如图2。
[0023] 该算法可以通过下面的步骤来实现： 1) 带噪语音信号通过汉明窗分帧，每帧长为20ms，然后子帧通过离散傅里叶变换 (DFT)； 2) 将DFT后的子帧进行多窗口谱估计，得到带噪语音模型;通过（1)式计算带噪语音信号z的多窗口功率谱是噪声的多窗口功率频谱，在语音帧丢失时通过噪声样本采集来获得，数据窗个数M为16。纯净语音信号的多窗口功率谱通过：
其中，f为频谱因子，值为〇. 002。
[0024] 3)通过（7)式计兑，然后采用5级离散小波变换，每一级分别可得到经验的 DWT系数Zm，对小波系数2^做阈值处理，阈值处理后的小波系数通过逆离散小波变换得到带噪语音增强的谱对数，重复上面的步骤得到精确的噪声信号对数谱 (祕。纯净语音信号的估计功率频谱，通过下式：
4)DFT后的带噪语音信号通过噪声估计和维纳滤波；Γ(與f)表示在时间t和频率?下带噪语音谱幅度，然后通过给频谱幅度Γ(與?}乘上一个增益函数G(辑?)得到估计的信号频谱.
，该增益函数是基于先验的信噪比的维纳增益函数，下式：
其中SAjKp是米用直接决策方法的先验彳目噪比估计：
其中〇是背景噪声的功率谱密度估计，《是平滑系数(通常设置《 = 9.98)。
[0025] 5)为了分析失真对语音信号的影响，将近似的纯净语音幅度谱Χ(幻和通过增强算法估计的幅度谱之间的误差继续分类，将6dB作为临界值，同时指出信噪比和幅度谱之间的联系： (a)当餅时，幅度谱办Ak丄认>，此时为衰减失真，(b)当<腫+6通时，幅度谱
此时为不超过6dB的放大失真;（c)当SW + 6?? 时，幅度谱1@；)>2·Ζ(1:：)，此时为放大失真且失真超过6dB。为了使语音信号在噪声环境下有较好的鲁棒性，同时有较高的可懂性，在这里提出改进方法，将(a) (b)联合作为约束条件添加到增强的频谱中，得到最终增强的谱，下式：
通过对2#(與〇做逆DFT变换得到最终增强的语音信号。
[0026] 以下为实验仿真与分析。通过三个仿真实验，对比得出本发明的语音增强方法与现有技术相比具有较好的效果。
[0027] 仿真实验中，选用一段标准的语音作为纯净语音，白噪声，坦克噪声，Π 6噪声作为干扰噪声，纯净语音和噪声叠加后的带噪语音信号作为输入语音信号。语音信号采样率设置为8kHz，采样点为256个，采用汉明窗对语音分帧，假设起始的四帧是只包含噪声的帧，每帧长为20ms，帧移为10ms，每个子帧进行160点的离散傅里叶变换。采用MSCEP和PSS算法作为对比算法。
[0028] 实验一，从语音的时域角度检验增强算法的性能，将纯净语音与白噪声叠加作为输入信号。从图3可以看出，相比于MSCEP和PSS算法，该算法波形保持更完整，残余噪声更小。
[0029] 实验二，将白噪声，坦克噪声和Π 6噪声分别与纯净的语音信号相叠加作为输入信号，比较在相同信噪比（OdB)，不同的噪声环境下算法的性能，使用MSCEP，PSS和本文算法处理这三种带噪信号，采用主观语音质量评估（Perceptual evaluation of speech quality，PESQ)，的测试结果如表1所示。在不同的噪声环境下，从语音听觉质量角度看，本文算法取得了较好的效果。
[0030] 表1相同信噪比下不同算法处理后的PESQ分值
实验三，从噪声强度角度，比较三种算法处理后的信噪比SNR，从表2中可以看出，在不同信噪比条件下，该算法处理后SNR比MSCEP和PSS算法有明显提高。
[0031] 表2不同噪声强度下经增强算法处理后的信噪比
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
【主权项】
1. 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，该方法先将带噪语音进行多窗口谱估计，再通过小波阈值去除噪声项得到近似纯净的语音谱;然后与维纳滤波处理后的语音谱相比较，根据不同的失真类型选择相应的谱作为最终增强的语音谱。2. 根据权利要求1所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，所述多窗口谱估计的步骤如下： 1)多窗口谱估计定义如下：I 其中，M是数据窗个数，第i个数据窗谱定义如下：其中，为第i个带噪语音的数据窗谱，N是带噪语音信号的长度，Μκ)为带噪语音帧序列，巧(的是第i个正弦的正交窗；正交窗Si(H)定义如下：) 如果上式的A(H)不相关，则带噪语音的多窗口功率谱Pi:?)和纯净语音功率谱尸(设）的比值符合自由度为2L的Chi-Square分布：两边同时取对数，可得可将(5)式看成带噪语音模型，其表示纯净语音与噪声之和，其中，将作为带噪语音，和妨分别为纯净语音和噪声项，！!/(祕是均值为#(Z)-Ia(Z)、方差为#(?的分布，#(·)和#Θ分别表示双伽玛函数和3阶伽玛函数，当5时，Il片妨是近似的正态分布，若将L取最小值5，根据正态分布的特性：此时，供(??)近似为均值〇、方差为4 =/(￡)的正态分布，如果将ζ(@)定义如下：上式可将看成多窗口功率谱的对数In 加上一个常数k巧￡#可作为纯净语音，_岸)作为噪声项，针对(8 )，通过小波去噪技术去除噪声项供(fi>) 并且能得到一个最佳的对数谱估计。3. 根据权利要求2所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，小波阈值多窗口谱的具体实现步骤如下： 1) 通过(1)(2)(3)式得到多窗口功率谱，通过(7)式计算 2) 将经过％级的离散小波变换（DWT)，然后每个j(/e [Lfis])级都可以得到DWT系数 zM，其中％被预先确定，其中小波基为db3，小波分解层数为5; 3) 将系数做阈值处理，小波阈值采用的是sqtwolog规则固定的阈值形式，产生的阈值1为阈值处理后的小波系数通过逆离散小波变换得到精确的对数频谱。4. 根据权利要求2所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，该算法能够通过下面的步骤来实现： 1) 带噪语音信号通过汉明窗分帧，每帧长为20ms，然后子帧通过离散傅里叶变换 (DFT)； 2) 将DFT后的子帧进行多窗口谱估计，得到带噪语音模型；通过（1)式计算带噪语音信号z的多窗口功率谱; /f是噪声的多窗口功率频谱，在语音帧丢失时通过噪声样本采集来获得，数据窗个数M为16，纯净语音信号的多窗口功率谱&通过：其中，卢为频谱因子，值为〇. 002; 3) 通过(7)式计算冯⑶，然后采用5级离散小波变换，每一级分别可得到经验的DWT系数2M-，对小波系数做阈值处理，阈值处理后的小波系数通过逆离散小波变换得到带噪语音增强的谱对1重复上面的步骤得到精确的噪声信号对数谱纯净语音信号的估计功率频谱$&胃(?)，通过下式：4. DFT后的带噪语音信号通过噪声估计和维纳滤波；表示在时间t和频率下带噪语音谱幅度，然后通过给频谱幅度乘上一个增益函数得到估计的信号频谱该增益函数是基于先验的信噪比的维纳增益函数，下式：其中是米用直接决策方法的先验彳目噪比估计：其中是背景噪声的功率谱密度估计，《是平滑系数，通常设置《 = 6.98 ; 5) 为了分析失真对语音信号的影响，将近似的纯净语音幅度谱1(幻和通过增强算法估计的幅度谱之间的误差继续分类，将6dB作为临界值，同时指出信噪比和幅度谱之间的联系： (a)当纖μ i 时，幅度谱_1(幻< ，此时为衰减失真，时，幅度谱<1(1) S 2.1?，此时为不超过6dB的放大失真；时，幅度谱1決>>2.JTPh此时为放大失真且失真超过6dB，为了使语音信号在噪声环境下有较好的鲁棒性，同时有较高的可懂性，在这里提出改进方法，将(a) (b)联合作为约束条件添加到增强的频谱中，得到最终增强的谱下式：通过对做逆DFT变换得到最终增强的语音信号。
【专利摘要】本发明提供一种用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，该方法先将带噪语音进行多窗口谱估计，再通过小波阈值去除噪声项得到近似纯净的语音谱；然后与维纳滤波处理后的语音谱相比较，根据不同的失真类型选择相应的谱作为最终增强的语音谱。将本方法应用于拾音器中，相比已有的均方预测误差和预白化子空间方法，该方法处理后的语音更平滑，与纯净语音更接近；在低信噪比及复杂噪声的情况下，该拾音器对语音处理速度更快，编解码效率高，降噪性能更好，且鲁棒性更强。同时，在距离较远的环境下，语音也有较好的识别效果。
【IPC分类】G10L25/21, G10L21/0232, G10L25/45
【公开号】CN105489226
【申请号】CN201510812196
【发明人】张正文, 李婕, 王远, 周航麒, 高铭泽
【申请人】湖北工业大学
【公开日】2016年4月13日
【申请日】2015年11月23日

完整全部详细技术资料下载

当前第2页1 2