基于多域联合估计的自适应语音检测方法

文档序号:2827320阅读:269来源:国知局
基于多域联合估计的自适应语音检测方法
【专利摘要】本发明公开一种基于多域联合估计的自适应语音检测方法,能在复杂环境中自适应检测语音,准确性和可靠性好,检测复杂度低。本发明的语音检测方法,包括:信号预处理,频谱稳定性判断,平稳噪声语音检测,非平稳噪声语音检测,语音段信号输出。
【专利说明】基于多域联合估计的自适应语音检测方法
【技术领域】
[0001]本发明属于语音检测【技术领域】,特别是一种基于多域联合估计的自适应语音检测方法。
【背景技术】
[0002]现有通信设备多代共存,且通信频段、调制方式、数据速率、数据帧格式各不相同,难以实现直接互联互通;通信环境复杂多变,语音通信的保障难度加大。语音检测技术是语音信号处理的前端,直接影响着语音识别、语音增强、说话人识别等后续处理,在语音通信中起着重要作用。
[0003]语音检测技术大致分为两类:门限比较法和模型匹配法。门限比较法根据语音和噪声的不同特性,提取不同的特征参数,设置合适的门限进行判决,主要可以分为时域和变换域两类。时域检测方法主要有短时能量法、短时平均幅度法(AMDF)、短时平均幅度差法、短时平均过零率、短时自相关函数等。变换域检测方法主要有谱熵法、倒谱法、频带差法、小波分析法等。模型匹配法主要有贝里斯模型匹配、神经网络模型法等。
[0004]下面是几种现有的语音检测方法的简介。
[0005]1、短时平均幅度差法(AMDF)
[0006]语音信号的浊音具有准周期性,在一帧语音信号内,信号近似平稳,基音周期近似相等,若为语音信号的浊音,在整数倍周期的位置会出现极小值,在这些点上信号幅度差近似为O ;但清音和噪声不具备周期性的特点,不同周期的信号幅度差值较大。
[0007]短时平均幅度差法在高信噪比下具有很好的语音检测效果,由于只有加减运算,计算量比自相关函数法显著降低;但在低信噪比的环境下,检测效果较差。
[0008]2、短时自相关函数法
[0009]自相关函数值,两个极大值之间为一个信号周期,即为基音周期。
[0010]短时自相关函数法适合噪声环境下的语音信号检测,语音信号在低信噪比的情况下基音周期不发生变化,检测效果明显好于短时能量和短时平均幅度法;但是信号丰富的谐波分量会影响基音周期的检测结果,会出现倍频或者分频的情况。
[0011]3、谱熵法
[0012]谱熵体现了语音信号和噪声在整个信号中的分布情况。语音信号的频率大致分布在100?4000Hz,分布比较集中,熵值比较小;而背景噪声在频谱中的分布比较均匀,频谱比较平坦,谱熵值比较大,根据语音信号和噪声的不同谱熵值,设置合理的门限可以完成语音检测的目的。
[0013]谱熵法是性能较好的频域端点检测算法,它对噪声具有一定的鲁棒性,尤其在具有机械噪声的非稳定噪声环境下,具有较好的检测效果;但在低信噪比的环境下,检测效果不够理想。
[0014]4、能量谱熵法(ESE)
[0015]在非稳定噪声环境下,短时能量法很难区分语音信号和背景噪声,而谱熵法具有很好的检测特性;谱熵法在嘈杂噪声和音乐噪声下检测效果较差,而短时能量法具有很好的检测特性。将能量法和谱熵法结合起来,实现两种方法间的互补,提高了语音检测效果。图9是ESE的检测流程图。
[0016]5、倒谱距离法
[0017]X(w)是x(n)对应分傅里叶变换,则c (η)可以看作是X(W)的对数傅里叶级数展开,即:
【权利要求】
1.一种基于多域联合估计的自适应语音检测方法,其特征在于,包括如下步骤: 10)信号预处理:对输入信号进行滤波、采样、量化、分帧和加窗处理,得到预处理信号; 20)频谱稳定性判断:对预处理信号的噪声段进行频谱稳定性检测,判断背景噪声是平稳噪声或非平稳噪声; 30)平稳噪声语音检测:对平稳噪声下的信号进行语音检测,得到检测语音信号; 40)非平稳噪声语音检测:对非平稳噪声下的信号进行语音检测,得到检测语音信号; 50)语音段信号输出:在检测语音信号的终止帧后加几帧拖尾延迟保护,输出语音段信号。
2.根据权利要求1所述的自适应语音检测方法,其特征在于,所述信号预处理(10)步骤包括: 11)滤波:滤除输入语音信号中的高频率脉冲噪声,有效减小语音信号频段以外信号的干扰; 12)采样、量化:以大于处理信号最高频率两倍的采样速率,对处理信号采样、量化; 13)分帧:按一帧信号时长20ms和交叠长度IOms将语音信号分帧; 14)加窗:对每帧语音信号进行加窗,得到预处理信号。
3.根据权利要求1所述的自适应语音检测方法,其特征在于,所述频谱稳定性判断(20)步骤包括: 21)计算预处理信号噪声段信号的谱值:

4.根据权利要求1所述的自适应语音检测方法,其特征在于,所述平稳噪声语音检测(30)步骤包括: 31)信噪比估算:选取待测语音段,根据下式估算信噪比SNR,
5.根据权利要求4所述的自适应语音检测方法,其特征在于,所述高信噪比语音检测(33)步骤包括: 331)计算短时幅度差函数:
6.根据权利要求4所述的自适应语音检测方法,其特征在于,所述低信噪比语音检测(34)步骤包括: 341)浊音检测:采用归一化互相关函数法来判断信号帧是否为语音,当Rxy的值接近I时,信噪比较高、检测段为浊音段;当Rxy的值大于0.5时,信噪比较低、检测段为浊音段,Rxy的值小于0.5时,检测段为清音段或者噪声段; 其中,Rxy为语音帧对应的归一化互相关函数,
7.根据权利要求1所述的自适应语音检测方法,其特征在于,所述非平稳噪声语音检测(40)步骤包括: 41)计算前K(K=1O)帧能量平均值
8.根据权利要求6所述的自适应语音检测方法,其特征在于,所述语音信号检测(47)步骤包括: 471)语音信号小波分解:对初步判定为语音的信号进行小波分解;提取6个小波子带系数 Cl1 (η)、d2 (η)、d3 (η)、d4 (η)、d5 (η)、d6 (η),它们对应的平均能量为 E1、E2、E3、E4、E5、E6,再加上均值Em和方差σ 2共8个特征量; 472)语音端点神经网络检测:建立BP神经网络,其中有8个输入节点、20个隐层节点、I个输出节点,模拟非平稳噪声环境作为训练样本,对神经网络进行训练,训练结束后,将提取到8个特征量作为神经网络的8个输入节点,对输出设置一定的门限Τ,输出值大于T则初步判为语音段,小于T则初步判为噪声段; 473)语音信号综合判决:经端点检测的信号,如果输出值连续10帧大于门限值Τ,则判定为语音,反之,判定为噪声·。
【文档编号】G10L15/08GK103854662SQ201410076588
【公开日】2014年6月11日 申请日期:2014年3月4日 优先权日:2014年3月4日
【发明者】范建华, 王统祥, 吕遵明, 万留进, 成洁 申请人:中国人民解放军总参谋部第六十三研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1