一种用于对说话人识别的前端语音增强方法

文档序号：9668711阅读：857来源：国知局

一种用于对说话人识别的前端语音增强方法
【技术领域】
[0002] 本发明涉及语音信号处理领域，特别指一种用于对说话人识别的前端语音增强方法。
【背景技术】
[0003] 说话人识别是一种通过特定人说话的语音对其身份进行识别的技术。但由于实际环境中存在各种各样的噪声，说话人识别系统的性能会显著降低。在前端加入合适的语音增强模块可以有效地提高整体系统的识别率，以提高系统对噪声的鲁棒性。然而实际情况下，语音增强算法无法完全恢复纯净的语音信号，而且由于算法本身的缺陷会带来残留噪声和语音失真。对于说话人识别技术来说，它利用语音中蕴含的说话人特征信息对说话人的身份进行识别，因而对语音失真十分敏感，所以针对说话人识别系统的前段语音增强方法不同于常规的语音增强方法，需要进行相应的调整，以达到最佳的系统识别效果。
[0004]单通道语音增强是一种对带噪语音信号进行分析处理，估计得到纯净语音信号的处理技术。实际环境中的噪声信号通常是高度非平稳信号，其噪声能量在频谱上分布极不均匀，且随时间快速变化，在此情况下对噪声的估计和相应的语音信号恢复都是十分困难的。常规的语音增强方法有谱减法、维纳滤波法、信号子空间分离方法和统计模型方法等，它们各有优势与不足之处，往往会根据实际应用场景做相应的选择或融合。谱减法是一种实现简单快速但效果显著的语音增强算法，以其为基础的各种改进方法目前也在语音处理系统中被广泛使用。

【发明内容】

[0005]本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于听觉掩蔽阈值和参数自适应的改进谱减法，通过掩蔽阈值来保证语音失真度最小化，从而既能提高说话人识别系统的抗噪声性能，又尽可能地达到对语音特征损伤最小的用于对说话人识别的前端语音增强方法。
[0006]本发明解决该技术问题所采用的技术方案如下:一种用于对说话人识别的前端语音增强方法，包括以下步骤：第一步，对输入语音信号进行分帧、加窗，对每一帧用FFT计算短时功率谱|7(州|2和相位谱吵; 第二步，利用语音帧的短时功率谱进行估计，采用改进最小控制递归平均算法估计噪声的功率谱该估计算法通过两次平滑，两次最小值搜索和计算语音存在概率得出最终的噪声功率谱结果，功率谱平滑公式和最小值搜索方法如下所示：

而语音存在概率通过第一次平滑的结果和先验后验信噪比得出，公式如下：
上述公式中U分别为频带序号和帧序号，《丨):=多(與! ％⑴为语音不存在的概率，分别为先验和后验信噪比，而KU)会i); 最后根据语音存在的概率p(私0估计噪声功率谱·^:
第三步，用估计得到的噪声功率谱做初步降噪，采用的降噪方法为多频带谱减法，得到初步的增强语音功率谱，多频带谱减法的公式如下所示：
其中过减因子％和控制因子仏随子频带信噪比和频率进行自适应调整；第四步，利用初步增强语音功率谱计算听觉掩蔽阈值，具体是计算Bark子带的功率谱茗(0,后用扩散函数％(〇进行扩散后得到扩散功率谱：
之后再利用谱平坦度判决子带的语音存在概率以此调整得到掩蔽阈值：
最后与绝对听域比较得祝丨m故的愉祐丨?估-
第五步，利用听觉掩蔽阈值调整过减因子和谱减系数，进行第二次谱减法，最后用IFFT得到最终的增强信号，过减因子和谱减系数的调整公式如下：
而采用自适应参数调整的谱减法公式如下所示：
[0007]优选地，所述的最大过减因子具体为= =4;且为掩蔽阈值设置了浮动范围&& =5, =1 〇〇，以防止参数变化过大，使得语音特征能最大程度地保留。
[0008] 优选地，上述步骤中所采用的硬件设备为PC机。
[0009] 优选地，上述的用于说话人识别系统的前端语音增强方法，经过实验检验，在信噪比输出和说话人识别系统的性能提升方面，均比常规谱减法有很大改善。
[0010] 本发明的有益效果在于：本发明与常规的谱减法相比，在说话人识别系统前端处理上具有实质性特点和显著进步，具体体现如下： (1)本发明以传统谱减法为基础，提出了结合最小控制递归平均噪声估计过程及计算听觉掩蔽阈值的改进型二次谱减法，能自适应调整谱减法中涉及的各项参数，以保证语音增强后的语音失真最小化，从而使处理后的语音信号在说话人识别系统中有良好的表现。
[0011] (2)通过多频带谱减法的初步处理，得到初步的语音增强结果以计算听觉掩蔽阈值，相比直接在带噪语音中计算掩蔽阈值更为准确，从而保证第二次的参数调整能更好地体现纯净语音的掩蔽特性，从而在噪声频段降低残留噪声，在语音频段保持语音特征。
【附图说明】
[0012] 图1为前端语音增强算法的流程图。
[0013] 图2为Bark临界带宽对应FFT频点表。
[0014] 图3(a)为纯净语音的时域波形图。
[0015] 图3(b)为带噪语音的时域波形图。
[0016] 图3(c)为采用常规谱减法语音增强后的时域波形图。
[0017] 图3(d)为采用多频带谱减法语音增强后的时域波形图。
[0018] 图3(e)为采用本发明语音增强方法后的时域波形图。
[0019] 图4(a)为white噪声下SNR输入输出曲线图。
[0020]图4(b)为white噪声下SNR输入输出曲线图。
[0021 ]图4(c)为white噪声下SNR输入输出曲线图。
【具体实施方式】
[0022]下面将结合附图对本发明作进一步描述：如图1所示，本发明采取的技术方案如下：一种用于对说话人识别的前端语音增强方法，包括以下步骤：第一步，对输入语音信号进行分帧、加窗，对每一帧用FFT计算短时功率谱和相位谱巧(的；第二步，利用语音帧的短时功率谱进行估计，采用改进最小控制递归平均算法估计噪声的功率谱该估计算法通过两次平滑，两次最小值搜索和计算语音存在概率得出最终的噪声功率谱结果，功率谱平滑公式和晶，丨、佶埔宏玄法加下所元.
而语音存在概率通过第一次平滑的结果和先验后验信噪比得出，公式如下：
上述公式中，以分别为频带序号和帧序号为语音不存在的概率，分别为先验和后验信噪比，而 <以)备域7,(1 +i); 最后根据语音存在的概率於:以)估计噪声功率谱：4:
第三步，用估计得到的噪声功率谱做初步降噪，采用的降噪方法为多频带谱减法，得到初步的增强语音功率谱，多频带谱减法的公式如下所示：
其中过减因子巧和控制因子仏随子频带信噪比和频率进行自适应调整；第四步，利用初步增强语音功率谱计算听觉掩蔽阈值，具体是计算Bark子带的功率谱玛(0,后用扩散函数％的进行扩散后得到扩散功率谱：
之后再利用谱平坦度判决子带的语音存在概率〇，以此调整得到掩蔽阈值：
最后与绝对听域比较得刹昜線的插:蔽阑佶.
第五步，利用听觉掩蔽阈值调整过减因子和谱减系数，进行第二次谱减法，最后用IFFT得到最终的增强信号，过减因子和谱减系数的调整公式如下：
而采用自适应参数调整的谱减法公式如下所示：
[0023]最大过减因子具体为CW= =4 ;且为掩蔽阈值设置了浮动范围以防止参数变化过大，使得语音特征能最大程度地保留。
[0024]具体地，实际环境中，带噪语音信号通常是由纯净语音信号与干扰信号的叠加得到：
其中j(i)为带噪信号，s(i)为纯净话苜彳目亏，μ栄声信号，?为时间序列，在数字信号处理中通常为离散表示。
[0025]语音增强的目的就是从带噪信号^Κ?)中通过噪声估计和语音恢复算法得到纯净语音信号乾0的过程，研究表示，语音信号可近似看作短时平稳信号，因而一般的语音增强方法是对短时语音帧的频城由对佶马讲杆々卜理.
通常仅对幅度谱^ (的I或功率谱|y〇)f进行处理，而相位谱％細)不做变化。
[0026]下面按模块顺序对此方法进行解释： (1)噪声估计对于单通道语音增强方法，噪声信息无法直接得到，只能从带噪语音中进行估计得到。而噪声估计的结果对语音增强效果有十分重要的影响，噪声估计过高，则会破坏纯净语音信号，而噪声估计过低，则会有更大的残留噪声或音乐噪声。因而采取合适的噪声估计算法在前端语音处理中是非常必要的。
[0027]传统噪声估计方法是利用语音活动检测(VAD)检测出非语音帧，将其视作噪声进行平滑后

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李昕;朱杰;
技术所有人：深圳市音加密科技有限公司;
我是此专利的发明人

上一篇：远场语音识别方法和装置的制造方法
上一篇：实现语音自动分类的方法及系统的制作方法