一种基于神经网络的高斯混合模型的噪声分类方法

文档序号：2818955阅读：1125来源：国知局

专利名称：一种基于神经网络的高斯混合模型的噪声分类方法
技术领域：
本发明涉及一种说话人识别方法，特别涉及一种基于神经网络的高斯混合模型的噪声分类方法。
背景技术：
降低各类城市环境噪声是现代化城市环境保护的重要指标之一，直接影响到城市形象。城市环境噪音监测系统是城市必不可少的公用设施。噪音监测系统的应用，可提高环境保护的硬件水平，增强城市环境保护的可靠性和可控性。根据在城市不同点的不间断监测，能实时发现违反噪音分贝的现象，提高环境保护的工作效率。在噪声分类的方法上，基于高斯混合模型(GMM)方法越来越受到重视，由于它具有识别率高，训练简单，训练数据量要求不大等优点，已经成为目前主流的噪声分类方法。由于高斯混合模型(GMM)具有很好的表示数据的分布的能力，只要有足够多的项，足够多的训练数据，GMM就能够逼近任何分布模型。但是，实际使用GMM时存在几个问题。首先，GMM没有利用语音的时间信息，训练和识别的结果与特征向量的输入顺序无关；其次，在GMM训练时，我们总是假设特征向量互相是独立的，这明显不合理；另外，由于我们在选择GMM模型时，混合项数目的选取也没有好的指导原则，要取得好的结果就要求高斯混合项足够多。神经网络在噪声分类方面也占有重要的位置，多层感知器、射线基网络和自联想神经网络等已经成功应用于噪声分类，它充分利用了特征向量序列的时序信息，对特征向量进行学习和变换，使变换后的特征向量以某种方式(通常为极小最小二乘法)逼近目标向量。但是目前GMM和自联想神经网络(AANN)只是单独用于噪声分类，还没有出现结合二者各自的优点，从而更好地提高噪声分类效果的方法出现。

发明内容
本发明的目的就在于解决现有技术的缺陷，提出了一种基于神经网络的高斯混合模型的噪声分类方法。本发明的技术方案是一种基于神经网络的高斯混合模型的噪声分类方法，其包括以下步骤(I)预处理与特征提取；首先，使用了基于能量和过零率的方法进行静音检测，并对噪声信号进行预加重，分帧，并进行线性预测(LPC)分析，然后从得到的LPC系数中求出倒谱系数作为噪声分类的特征向量。(2)训练；训练时,将提取出的特征向量经过延迟后作为AANN的输入,AANN学习特征向量的结构，提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给GMM，采用最大期望(EM)准则进行GMM模型训练，并且利用带惯性的向后反演方法更新AANN网络的权系数。具体训练过程如下 (2-1)确定GMM模型和AANN结构
一个M阶GMM的概率密度函数是由M个高斯概率密度函数加权求和得到的，可以用如下形式表示
Λ/ρ{χ,\λ)-YjP^i(Xi)
/=I上式中XtSD维特征向量，这里D= 13;bi(xt)是成员密度函数，其为均值矢量为Ui,协方差矩阵为Σ i的高斯函数；b, (X1) = J _.......-TTexp -Ux,- u,)' X；1 ( )
(2^) —|L,|L 乙J
KiPi是混合权值混合权值满足条件Σ A = 1。完整的GMM模型参数如下
/ = 1λ = {(Pi, Ui, Σ i), i = I, 2, . . . , Μ}AANN网络已成功应用于多种应用，如数据压缩，非线性主成分分析，数值逼近等
坐寸ο(2-2)设定收敛条件和最大迭代次数；具体而言，收敛条件为相邻两次GMM系数与AANN权系数的欧式距离小于O. 0001，最大迭代次数通常不大于100。(2-3)随机确定初始迭代的AANN和GMM模型参数;ΑΑΝΝ的初始系数设定为由计算机产生的伪随机数，GMM的初始混合系数可以取为1/M，M为GMM的混合项数，GMM初始均值和方差由AANN的残差向量经过LBG (Linde，Buzo, Gray)方法产生M个聚合类，分别计算这M个聚合类的均值和方差获得。(2-4)把特征向量X (η)输入AANN网络，将通过AANN之前的特征向量χ (η)与AANN的输出特征向量ο(η)相减，得到所有的残差向量；(2-5)采用EM方法修正GMM模型的参数；设残差向量为rt，首先计算类别后验概率W k，又)=^、然后更新混合权值K ,均值矢量^和协方差矩阵乞。
— I NP, =—
r -U1-
Σ,=Wir'，2)
「 Σ,ν(ζυ)χ'2 —2Σ, --U1
Σ,=,^ι^λ)(2-6)利用修正后的GMM模型各个高斯分布的权系数，均值向量和方差，把残差带入，得到一个似然概率，利用带惯性的向后反演方法修正AANN参数；AANN网络参数通过使下式中的函数极大化得到
Nω* = arg max ]~[ p((x, - ο,) | i)
⑴ /=I其中ot为神经网络输出，Xt为输入的特征矢量。
对上式取对数后再取负，得到
权利要求
1. 一种基于神经网络的高斯混合模型的噪声分类方法，其包括以下步骤 1.预处理与特征提取；首先，使用了基于能量和过零率的方法进行静音检测，并对噪声信号进行预加重，分帧，并进行线性预测(LPC)分析，然后从得到的LPC系数中求出倒谱系数作为噪声分类的特征向量。
·2.训练；训练时，将提取出的特征向量经过延迟后作为自联想神经网络(AANN)的输入，AANN学习特征向量的结构，提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给高斯混合模型(GMM)，采用最大期望(EM)准则进行GMM模型训练，并且利用带惯性的向后反演方法更新AANN网络的权系数。具体训练过程如下 (2-1)确定GMM模型和AANN结构ー个M阶GMM的概率密度函数是由M个高斯概率密度函数加权求和得到的，可以用如下形式表示
全文摘要
本发明公开了一种基于神经网络的高斯混合模型的噪声分类方法，利用本方法可以使得噪声分类识别率有所提高。本发明训练时，将提取出的特征向量经过延迟后作为自联想神经网络(AANN)的输入，利用AANN学习特征向量的结构，提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给高斯混合模型(GMM)，采用最大期望(EM)准则进行GMM模型训练，并且利用带惯性的向后反演方法更新AANN网络的权系数。本发明充分利用了AANN利GMM各自的优点，使得整个噪声分类系统识别率大大提高。
文档编号G10L15/02GK102693724SQ20111006903
公开日2012年9月26日申请日期2011年3月22日优先权日2011年3月22日
发明者唐加能, 姚健东, 姜志鹏, 张燕, 李国华, 蔡群, 陈存宝, 黄艳申请人:张燕

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张燕;姜志鹏;姚健东;唐加能;陈存宝;黄艳;蔡群;李国华
技术所有人：张燕
我是此专利的发明人

上一篇：检测语音帧的编码速率的方法和设备的制作方法
上一篇：一种单通道语音增强的方法和系统的制作方法