本发明属于语音识别领域,具体涉及到对语音识别系统声学模型的高斯单元进行分类,对每类高斯单元的均值和方差进行参数变换的快速模型自适应方法。
背景技术:
在实际应用中,语音识别系统经常受到环境噪声的干扰,这导致系统的识别性能严重下降,因此有必要采取措施减小环境噪声的影响,增强系统的环境适应能力。
模型自适应是一种有效的鲁棒语音识别技术,它利用测试环境下的少量自适应数据,对预先训练的声学模型的参数进行变换,使之与测试环境相匹配,直接对测试语音进行识别。模型自适应既可以用于噪声自适应,也可以用于说话人自适应,具有应用范围广、补偿精度高的优点。但是,对每个声学模型的每个高斯单元进行参数变换都涉及复杂的矩阵运算。一个典型的语音识别系统有几百个基本语音单元,对应几百个声学模型,且每个声学模型一般都包含几十个高斯单元。因此,在噪声类型或电平快速变化的非平稳环境中,模型自适应难以实时完成。
技术实现要素:
发明目的:针对现有技术中存在的问题,本发明提供了一种基于高斯分类的快速模型自适应方法。在该方法中,将语音识别系统全部声学模型的所有高斯单元划分为若干类,并提取每类高斯单元的均值向量和协方差矩阵作为类的均值向量和协方差矩阵,在环境噪声改变的初期对类的均值和方差进行模型自适应,作为该类内全部高斯单元的均值和方差的近似值,以实现声学模型的快速噪声自适应。
本发明的具体步骤如下:
(1)用k均值聚类算法将语音识别系统全部声学模型的所有高斯单元划分为n类;
(2)将每一类的全部高斯单元的均值向量和协方差矩阵作为数据,计算这些数据的均值向量和协方差矩阵,作为该类全部高斯单元的均值向量和协方差矩阵的近似值,记为第i类高斯的均值和方差;
(3)用一个含有较少高斯单元(一般取10个高斯单元)的高斯混合模型从含噪测试语音中实时提取环境噪声的参数,并监视噪声的变化情况;
(4)若环境噪声的类型或电平发生改变,则立即根据噪声的参数对每类高斯的均值和方差进行非线性模型自适应,并将自适应后的均值和方差作为该类内全部高斯单元的均值和方差的近似值,实现声学模型的快速噪声自适应;
(5)若环境噪声保持稳定,则逐步将每个声学模型的每个高斯单元的均值和方差变换到当前测试环境,取代类的均值和方差,提高模型自适应的精度;若在此过程中,环境噪声发生改变,则停止对每个声学模型的每个高斯单元参数的更新,重新对每类高斯的均值和方差进行更新。
附图说明
图1为基于高斯分类的快速模型自适应系统的总体框架,主要包括k均值聚类、参数提取和模型自适应模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于
本技术:
所附权利要求所限定的范围。
如图1所示,本发明的基于高斯分类的快速模型自适应方法主要包括k均值聚类、参数提取和模型自适应模块。下面逐一详细说明附图中各主要模块的具体实施方案。
1、k均值聚类
用k均值聚类算法将语音识别系统全部声学模型的所有高斯单元划分为n类,每一类内的高斯单元都具有相似的参数特性。
2、参数提取
将每一类的全部高斯单元的均值向量和协方差矩阵作为数据,计算这些数据的均值向量和协方差矩阵,作为该类全部高斯单元的均值向量和协方差矩阵的近似值。
3、模型自适应
在模型自适应模块中,需要用一个含有较少高斯单元(一般取10个高斯单元)的高斯混合模型从含噪测试语音中实时提取环境噪声的参数,并监视噪声的变化情况。
若环境噪声的类型或电平发生改变,则立即根据噪声的参数对每类高斯的均值和方差进行非线性模型自适应:
μy=clog[exp(c-1μx)+exp(c-1μn)](1)
σy=(i-u)σx(i-u)t+uσnut(2)
其中,μn和σn分别表示加性噪声的倒谱域均值向量和协方差矩阵;c和c-1分别表示离散余弦变换矩阵及其逆矩阵;μx和μy分别表示纯净语音和含噪语音的倒谱均值向量;σx和σy分别表示纯净语音和含噪语音的倒谱协方差矩阵;i表示单位矩阵;u的表达式为:
式(3)中,diag()表示用括号中的向量作为对角元素生成对角矩阵。
由于类的数量较少,因此将自适应后的均值和方差作为该类内全部高斯单元的均值和方差的近似值,即可实现声学模型的快速噪声自适应。
在完成每类高斯的快速模型自适应后,若环境噪声保持稳定,则逐步将每个声学模型的每个高斯单元的均值向量和协方差矩阵用式(1)和式(2)变换到当前测试环境,取代类的均值和方差,提高模型自适应的精度。若在此过程中,环境噪声的类型和电平又发生变化,则停止对每个声学模型的每个高斯单元参数的更新,重新对每类高斯的均值和方差进行更新。
在完成全部声学模型的参数变换后,若环境噪声的类型和电平保持稳定,不发生变化,则模型自适应模块只对环境噪声进行跟踪,不进行参数变换,以节省能量。