一种用于语音识别系统的多环境特征补偿方法

文档序号:2833640阅读:452来源:国知局
专利名称:一种用于语音识别系统的多环境特征补偿方法
技术领域
本发明涉及一种用于语音识别系统的多环境特征补偿方法,具体涉及到用预先训练的多个环境的语音模型对实际环境下提取的含噪语音特征向量进行补偿,减小环境失配,提高语音识别系统鲁棒性的多环境特征补偿方法;属于语音识别技术领域。
背景技术
语音识别技术已经在通信、消费电子、自助服务、智能家居等多个领域得到了广泛应用。然而在实际应用中,由于背景噪声、信道失真、语音自身变异性等因素的存在,测试环境与训练环境无法匹配,往往导致语音识别系统的性能急剧恶化。传统的前端特征补偿和后端模型自适应技术都是基于纯净语音模型的,即将训练 环境中得到的纯净语音模型变换到实际测试环境,用于估计纯净语音特征向量(特征补偿)或直接对含噪测试语音进行识别(模型自适应)。但是,在低信噪比等与纯净语音环境差异较大的测试环境中,通过变换纯净语音模型得到的含噪语音模型不能很好地描述含噪语音的分布,其识别性能与直接用含噪测试语音训练的理想系统有较大差距。多环境技术可以较好地解决环境严重失配的问题,在训练阶段用多个基本训练环境预测实际测试环境,选取与测试环境最匹配的基本训练环境用于模型变换。现有的多环境技术都是在系统的后端进行,即多环境模型自适应,在训练阶段用多个基本训练环境的数据训练得到每个基本训练环境的声学模型;在测试阶段,选取与实际测试环境最接近的基本训练环境声学模型用于模型自适应,得到当前测试环境的声学模型,然后直接对含噪测试语音进行识别。多环境模型自适应的优点在于无需估计纯净语音特征,补偿精确度高。但是在大词汇量连续语音识别系统中,由于语音识别的基本单元较多,系统的声学模型较多,因此模型自适应的计算量很大,难以跟踪环境的实时变化。

发明内容
发明目的针对现有技术存在的问题与不足,本发明提供一种用于语音识别系统的多环境特征补偿方法。与后端模型自适应相比,前端特征补偿技术具有计算量小、实现灵活、与后端识别器无关的优点,因而其应用范围比后端模型自适应更为广泛,尤其适合大词汇量连续语音识别系统。技术方案一种用于语音识别系统的多环境特征补偿方法,在训练阶段,首先进行多环境语音采集,得到多个基本训练环境的训练语音;然后用每个基本训练环境的训练语音,训练生成该基本训练环境的语音模型;在识别阶段,首先为当前测试语音选择与测试环境最接近的基本训练环境的语音模型,然后对选取的语音模型进行参数变换,使之与当前测试环境匹配,最后用变换后的语音模型从含噪测试语音中估计纯净语音特征向量。训练阶段的具体步骤包括(I)在实际应用环境中采集各种噪声;为了解决低信噪比等环境严重失配的问题,在训练阶段用多个基本训练环境预测实际测试环境,用多个基本训练环境语音模型取代单一纯净训练语音模型;(2)根据噪声类型和强度对采集的噪声进行聚类,将噪声归类到若干个基本训练环境中;(3)用每个基本训练环境的噪声与训练语音混合,得到该基本训练环境的含噪训
练语首;(4)对每个基本训练环境的训练语音进行模型训练,得到该基本训练环境的语音模型,用高斯混合模型(GMM Gaussian Mixture Model)对每个基本训练环境进行建语音模型,得到该基本训练环境GMM每个高斯单元的混合系数Cm、含噪均值向量yy,m和含噪协方差矩阵Sy,m,全部基本训练环境的GMM组成多环境语音模型;测试阶段的具体步骤包括 (5)从多环境模型中选择与当前测试环境最接近的基本训练环境,该基本训练环境的GMM即为最优GMM;(6)用最大似然线性回归(MLLR Maxi mum Likelihood Linear Regression)对选取的最优GMM进行模型参数变换,使其与当前测试环境更加匹配;最优GMM的均值变换和方差变换用最大似然线性回归实现,均值和方差变换参数直接从含噪测试语音中估计,无需知道噪声的先验知识;(7)用参数变换后的最优GMM计算含噪测试语音的后验概率,根据GMM每个高斯单元对应的纯净语音均值向量和含噪测试语音属于GMM各个高斯单元的后验概率估计纯净语音特征向量。在训练阶段,用每个基本训练环境的含噪训练语音训练得到该基本训练环境的GMM后,还需要用最大似然方法从纯净训练语音中提取该GMM每个高斯单元对应的纯净语音均值向量μχ,π,μ x,m用于估计纯净语音特征向量。在测试阶段的模型选择中,用多环境语音模型中的每个基本训练环境GMM对当前测试语音计算输出概率,认为输出概率最高的基本训练环境与当前测试环境最接近,该基本训练环境的GMM即为最优GMM。在测试阶段的纯净语音估计中,以含噪测试语音属于当前GMM各个高斯单元的后验概率为加权系数,用纯净语音高斯均值μχ,π的加权平均作为纯净语音特征向量的估计值。有益效果与现有技术相比,本发明提供的用于语音识别系统的多环境特征补偿方法,可以显著提高低信噪比等恶劣应用环境中语音识别系统的性能,提高系统的鲁棒性。


图I为本发明实施例的原理图。
具体实施例方式下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图I所示,用于语音识别系统的多环境特征补偿方法,主要包括训练阶段和测试阶段。训练阶段主要完成环境噪声采集、噪声聚类、噪声混合和多环境模型训练工作;测试阶段主要完成语音模型选择、模型参数变换和纯净语音估计工作。下面逐一详细说明附图中各模块的具体实施方案。I、噪声聚类对实际应用环境中采集的噪声按噪声类型和噪声强度进行聚类,将实际应用环境划分为若干个基本训练环境。2、噪声混合用每个基本训练环境的噪声与纯净训练语音混合,得到该基本训练环境的含噪训练语音。全部基本训练环境的含噪训练语音组成多环境训练语音库。3、多环境模型训练 首先对每个基本训练环境的含噪训练语音进行模型训练,得到该基本训练环境的GMM
*(Λ)=Σ^{(2π^Β Γ- 'χρ -告(χ-OrOu I"=1 LL」J
(I)其中,yt表示第t帧含噪训练语音倒谱特征向量;cm,yy,m和Sy,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵。然后在纯净训练语音中,用以下公式估计该GMM每个高斯单元对应的纯净语音均值
YdY,,Μ)χ,
^,,η=—Τ-YrJt)
t=l
(2)其中,r,:W = ^V, =m\xTJ),表示给定GMM的先验参数λ时,第t帧纯净语音特征向量Xt属于第m个高斯单元的后验概率。GMM的每个高斯单元有四个参数{cm,uy;ffl, Xy m,μχ,Π},含噪语音参数uy,m和Sy,m用于模型参数变换和计算后验概率,纯净语音参数μχ,π用于纯净语音估计。全部基本训练环境的GMM组成多环境语音模型。4、模型选择用多环境语音模型中的每个基本训练环境的GMM对当前测试语音计算输出概率,输出概率最高的基本训练环境与当前测试环境最接近,该基本训练环境的GMM即为最优GMM05、模型参数变换对选取的最优GMM进行参数变换,使其与当前测试环境更加匹配。GMM的均值变换用以下MLLR公式实现U z,m = Αμ yjm+b(3)其中,μ z,m表示变换后的均值向量。变换矩阵A通常取对角矩阵,因此采用以下单变量线性回归
权利要求
1.一种用于语音识别系统的多环境特征补偿方法,其特征在于包括训练阶段步骤和测试阶段步骤; 训练阶段的具体步骤包括 (1)在实际应用环境中采集各种噪声;在训练阶段用多个基本训练环境预测实际测试环境,用多个基本训练环境语音模型取代单一纯净训练语音模型; (2)根据噪声类型和强度对采集的噪声进行聚类,将噪声归类到若干个基本训练环境中; (3)用每个基本训练环境的噪声与训练语音混合,得到该基本训练环境的含噪训练语曰; (4)对每个基本训练环境的训练语音进行模型训练,得到该基本训练环境的语音模型,用高斯混合模型对每个基本训练环境进行建语音模型,得到该基本训练环境GMM每个高斯单元的混合系数Cm、含噪均值向量Uy,m和含噪协方差矩阵Sy,m,全部基本训练环境的GMM组成多环境语音模型; 测试阶段的具体步骤包括 (5)从多环境模型中选择与当前测试环境最接近的基本训练环境,该基本训练环境的GMM即为最优GMM ; (6)用最大似然线性回归对选取的最优GMM进行模型参数变换;最优GMM的均值变换和方差变换用最大似然线性回归实现,均值和方差变换参数直接从含噪测试语音中估计; (7)用参数变换后的最优GMM计算含噪测试语音的后验概率,根据GMM每个高斯单元对应的纯净语音均值向量和含噪测试语音属于GMM各个高斯单元的后验概率估计纯净语音特征向量。
2.如权利要求I所述的用于语音识别系统的多环境特征补偿方法,其特征在于在训练阶段,用每个基本训练环境的含噪训练语音训练得到该基本训练环境的GMM后,还需要用最大似然方法从纯净训练语音中提取该GMM每个高斯单元对应的纯净语音均值向量μ χ,m,P x,m用于估计纯净语音特征向量。
3.如权利要求I所述的用于语音识别系统的多环境特征补偿方法,其特征在于在测试阶段的模型选择中,用多环境语音模型中的每个基本训练环境GMM对当前测试语音计算输出概率,认为输出概率最高的基本训练环境与当前测试环境最接近,该基本训练环境的GMM即为最优GMM。
4.如权利要求I所述的用于语音识别系统的多环境特征补偿方法,其特征在于在测试阶段的纯净语音估计中,以含噪测试语音属于当前GMM各个高斯单元的后验概率为加权系数,用纯净语音高斯均值μχ,π的加权平均作为纯净语音特征向量的估计值。
全文摘要
本发明公开一种用于语音识别系统的多环境特征补偿方法,在训练阶段,首先进行多环境语音采集,得到多个基本训练环境的训练语音;然后用每个基本训练环境的训练语音,训练生成该基本训练环境的语音模型;在识别阶段,首先为当前测试语音选择与测试环境最接近的基本训练环境的语音模型,然后对选取的语音模型进行参数变换,使之与当前测试环境匹配,最后用变换后的语音模型从含噪测试语音中估计纯净语音特征向量。本发明可以显著提高低信噪比等恶劣应用环境中语音识别系统的性能,提高系统的鲁棒性。
文档编号G10L15/20GK102945670SQ20121048843
公开日2013年2月27日 申请日期2012年11月26日 优先权日2012年11月26日
发明者吕勇 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1