基于多域联合估计的自适应语音检测方法

文档序号：2827320阅读：269来源：国知局

基于多域联合估计的自适应语音检测方法
【专利摘要】本发明公开一种基于多域联合估计的自适应语音检测方法，能在复杂环境中自适应检测语音，准确性和可靠性好，检测复杂度低。本发明的语音检测方法，包括：信号预处理，频谱稳定性判断，平稳噪声语音检测，非平稳噪声语音检测，语音段信号输出。
【专利说明】基于多域联合估计的自适应语音检测方法
【技术领域】
[0001]本发明属于语音检测【技术领域】，特别是一种基于多域联合估计的自适应语音检测方法。
【背景技术】
[0002]现有通信设备多代共存，且通信频段、调制方式、数据速率、数据帧格式各不相同，难以实现直接互联互通；通信环境复杂多变，语音通信的保障难度加大。语音检测技术是语音信号处理的前端，直接影响着语音识别、语音增强、说话人识别等后续处理，在语音通信中起着重要作用。
[0003]语音检测技术大致分为两类:门限比较法和模型匹配法。门限比较法根据语音和噪声的不同特性，提取不同的特征参数，设置合适的门限进行判决，主要可以分为时域和变换域两类。时域检测方法主要有短时能量法、短时平均幅度法(AMDF)、短时平均幅度差法、短时平均过零率、短时自相关函数等。变换域检测方法主要有谱熵法、倒谱法、频带差法、小波分析法等。模型匹配法主要有贝里斯模型匹配、神经网络模型法等。
[0004]下面是几种现有的语音检测方法的简介。
[0005]1、短时平均幅度差法(AMDF)
[0006]语音信号的浊音具有准周期性，在一帧语音信号内，信号近似平稳，基音周期近似相等，若为语音信号的浊音，在整数倍周期的位置会出现极小值，在这些点上信号幅度差近似为O ;但清音和噪声不具备周期性的特点，不同周期的信号幅度差值较大。
[0007]短时平均幅度差法在高信噪比下具有很好的语音检测效果，由于只有加减运算，计算量比自相关函数法显著降低；但在低信噪比的环境下，检测效果较差。
[0008]2、短时自相关函数法
[0009]自相关函数值，两个极大值之间为一个信号周期，即为基音周期。
[0010]短时自相关函数法适合噪声环境下的语音信号检测，语音信号在低信噪比的情况下基音周期不发生变化，检测效果明显好于短时能量和短时平均幅度法；但是信号丰富的谐波分量会影响基音周期的检测结果，会出现倍频或者分频的情况。
[0011]3、谱熵法
[0012]谱熵体现了语音信号和噪声在整个信号中的分布情况。语音信号的频率大致分布在100?4000Hz，分布比较集中，熵值比较小；而背景噪声在频谱中的分布比较均匀，频谱比较平坦，谱熵值比较大，根据语音信号和噪声的不同谱熵值，设置合理的门限可以完成语音检测的目的。
[0013]谱熵法是性能较好的频域端点检测算法，它对噪声具有一定的鲁棒性，尤其在具有机械噪声的非稳定噪声环境下，具有较好的检测效果；但在低信噪比的环境下，检测效果不够理想。
[0014]4、能量谱熵法(ESE)
[0015]在非稳定噪声环境下，短时能量法很难区分语音信号和背景噪声，而谱熵法具有很好的检测特性；谱熵法在嘈杂噪声和音乐噪声下检测效果较差，而短时能量法具有很好的检测特性。将能量法和谱熵法结合起来，实现两种方法间的互补，提高了语音检测效果。图9是ESE的检测流程图。
[0016]5、倒谱距离法
[0017]X(w)是x(n)对应分傅里叶变换,则c (η)可以看作是X(W)的对数傅里叶级数展开，即:
【权利要求】
1.一种基于多域联合估计的自适应语音检测方法，其特征在于，包括如下步骤: 10)信号预处理:对输入信号进行滤波、采样、量化、分帧和加窗处理，得到预处理信号; 20)频谱稳定性判断:对预处理信号的噪声段进行频谱稳定性检测，判断背景噪声是平稳噪声或非平稳噪声； 30)平稳噪声语音检测:对平稳噪声下的信号进行语音检测，得到检测语音信号； 40)非平稳噪声语音检测:对非平稳噪声下的信号进行语音检测，得到检测语音信号； 50)语音段信号输出:在检测语音信号的终止帧后加几帧拖尾延迟保护，输出语音段信号。
2.根据权利要求1所述的自适应语音检测方法，其特征在于，所述信号预处理(10)步骤包括: 11)滤波:滤除输入语音信号中的高频率脉冲噪声，有效减小语音信号频段以外信号的干扰； 12)采样、量化:以大于处理信号最高频率两倍的采样速率，对处理信号采样、量化； 13)分帧:按一帧信号时长20ms和交叠长度IOms将语音信号分帧； 14)加窗:对每帧语音信号进行加窗，得到预处理信号。
3.根据权利要求1所述的自适应语音检测方法，其特征在于，所述频谱稳定性判断(20)步骤包括: 21)计算预处理信号噪声段信号的谱值:

4.根据权利要求1所述的自适应语音检测方法，其特征在于，所述平稳噪声语音检测(30)步骤包括: 31)信噪比估算:选取待测语音段，根据下式估算信噪比SNR，
5.根据权利要求4所述的自适应语音检测方法，其特征在于，所述高信噪比语音检测(33)步骤包括: 331)计算短时幅度差函数:
6.根据权利要求4所述的自适应语音检测方法，其特征在于，所述低信噪比语音检测(34)步骤包括: 341)浊音检测:采用归一化互相关函数法来判断信号帧是否为语音，当Rxy的值接近I时，信噪比较高、检测段为浊音段；当Rxy的值大于0.5时，信噪比较低、检测段为浊音段，Rxy的值小于0.5时，检测段为清音段或者噪声段；其中，Rxy为语音帧对应的归一化互相关函数，
7.根据权利要求1所述的自适应语音检测方法，其特征在于，所述非平稳噪声语音检测(40)步骤包括: 41)计算前K(K=1O)帧能量平均值
8.根据权利要求6所述的自适应语音检测方法，其特征在于，所述语音信号检测(47)步骤包括: 471)语音信号小波分解:对初步判定为语音的信号进行小波分解；提取6个小波子带系数 Cl1 (η)、d2 (η)、d3 (η)、d4 (η)、d5 (η)、d6 (η)，它们对应的平均能量为 E1、E2、E3、E4、E5、E6,再加上均值Em和方差σ 2共8个特征量； 472)语音端点神经网络检测:建立BP神经网络，其中有8个输入节点、20个隐层节点、I个输出节点，模拟非平稳噪声环境作为训练样本，对神经网络进行训练，训练结束后，将提取到8个特征量作为神经网络的8个输入节点，对输出设置一定的门限Τ，输出值大于T则初步判为语音段，小于T则初步判为噪声段； 473)语音信号综合判决:经端点检测的信号，如果输出值连续10帧大于门限值Τ，则判定为语音，反之，判定为噪声·。
【文档编号】G10L15/08GK103854662SQ201410076588
【公开日】2014年6月11日申请日期:2014年3月4日优先权日:2014年3月4日
【发明者】范建华, 王统祥, 吕遵明, 万留进, 成洁申请人:中国人民解放军总参谋部第六十三研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范建华;王统祥;吕遵明;万留进;成洁
技术所有人：中国人民解放军总参谋部第六十三研究所
我是此专利的发明人

上一篇：影视剧角色扮演娱乐系统的制作方法
上一篇：一种对dwt域失真补偿量化嵌入的隐秘信息检测方法