一种基于双层gmm结构和vts特征补偿的孤立词识别方法

文档序号:8923596阅读:799来源:国知局
一种基于双层gmm结构和vts特征补偿的孤立词识别方法
【技术领域】
[0001] 本发明涉及语音识别领域,具体涉及一种基于双层GMM结构和VTS特征补偿的孤 立词识别方法。
【背景技术】
[0002] 近年来,随着语音技术的发展,孤立词识别技术在通信、消费电子、自助服务、办公 自动化等多个领域得到了广泛应用,这些设备通常使用或者安装在嘈杂的公共场所,不可 避免地受到各种干扰,而干扰会严重影响孤立词识别系统的性能。此外,孤立词识别系统识 别时间较长成为移植到嵌入式、投入实际应用的不利因素。移动设备、自助服务设备的本机 孤立词识别系统补偿模块计算量大,如何通过算法改进、优化,降低特征补偿的计算量,同 时不降低系统性能,从而提高系统的实际应用能力,成为了现有技术发展的方向。

【发明内容】

[0003] 发明目的:为了克服现有技术中存在的不足,本发明提供一种基于双层GMM结构 和VTS特征补偿的孤立词识别方法,通过建立两层GMM模型和HMM模型,减少了特征补偿模 块的计算量,解决了现有技术的不足。
[0004] 技术方案:为实现上述目的,本发明采用的技术方案为:
[0005] 一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,其特征在于,包括纯净 环境和测试环境;该方法包括以下步骤:
[0006] 1)模型训练阶段:在纯净环境下,利用所有孤立词的纯净训练语音训练数据分别 得到两个表示纯净环境下所有孤立词的特征参数分布的高斯混合模型GMM,同时利用各个 孤立词的纯净训练语音训练生成各个孤立词对应的表示纯净环境下每个孤立词的特征参 数分布的HMM模型;
[0007] 所诉两个高斯混合模型GMM包括高斯单元混合数设置为10的GMM1和高斯单元混 合数设置为100的GMM2 ;
[0008] 2)基于特征补偿的识别阶段:在测试环境下,利用矢量泰勒级数VTS进行特征补 偿,基于步骤1)得到的GMM1模型,通过最大似然概率准则ML进行噪声参数估计,估算出测 试语音中噪声的均值和方差;接着基于步骤1)得到的GMM2模型,通过最小均方误差估计准 则丽SE,将测试环境下含噪语音MFCC特征参数映射为纯净MFCC特征参数;最后将所述纯 净MFCC特征参数与步骤1)得到的HMM模型进行匹配,得到最终识别结果。
[0009] 进一步的,步骤1)具体包括模型训练步骤:
[0010] 1.1)对纯净训练语音数据进行预处理,所述预处理过程包括预加重、分帧加窗和 端点检测;
[0011] 1. 2)对步骤1. 1)中得到的每一帧语音信号提取MFCC特征参数,得到纯净环境下 所有孤立词的纯净语音MFCC特征参数;
[0012] 1. 3)利用步骤1. 2)中所有孤立词的纯净语音MFCC特征参数分别训练得到高斯混 合数为10的GMM1模型,和高斯混合数为100的GMM2模型;
[0013] 1.4)利用步骤1.2)中所有孤立词中每个孤立词的纯净语音MFCC特征参数,训练 得到每个孤立词对应的HMM模型。
[0014] 进一步的,步骤2)基于特征补偿的识别阶段具体包括以下步骤:
[0015] 2. 1)测试语音经过预处理过程,该预处理过程包括预加重、分帧加窗、端点检测和 提取测试环境下的含噪语音MFCC参数;
[0016] 2.2)基于矢量泰勒级数方法和纯净环境下的GMM1模型和步骤2.1)得到的含噪 语音MFCC参数,基于最大似然概率准则ML估计测试语音中噪声的均值和方差;得到噪声参 数;
[0017] 2.3)利用步骤2.2)估计出的噪声参数和GMM2模型,基于最小均方误差准则 丽SE,将当前测试语音的含噪MFCC特征参数映射为纯净MFCC特征参数;
[0018] 2. 4)将每个孤立词HMM模型作为识别模型,对经过步骤2. 3)映射后的纯净MFCC 特征参数进行概率计算,得到最终的孤立词识别结果。
[0019] 进一步的,所述MFCC特征参数为26维,该参数包括13维MFCC参数和13维一阶 差分MFCC参数;所述HMM模型的混合数为4,状态数为6。
[0020] 有益效果:与现有基于单个GMM模型和VTS特征补偿的孤立词识别算法相比,本 发明提出的基于双层GMM结构和VTS特征补偿的孤立词识别方法,在识别率基本不变的情 况下,特征补偿计算量显著减少,从而减少了整个孤立词识别的时间。我们利用TIMIT语 音库、实验室采集的中文语音库对算法性能进行测试,在不同的噪声类型(包括白噪声、粉 红噪声和工厂噪声),以及不同的信噪比条件下(信噪比分别为0dB、5dB、10dB、12dB、15dB 和20dB),本发明的双层GMM结构和VTS特征补偿的孤立词识别方法,与基于单个GMM结 构和VTS特征补偿的孤立词识别算法相比,特征补偿中噪声均值和方差的估计时间减少了 90%,特征补偿整体时间减少了 30% -50%,,同时正确识别率基本不变。
【附图说明】
[0021] 图1为本发明算法总体流程图。
[0022] 图2为基于谱熵的端点检测算法流程图。
[0023] 图3为MFCC特征参数提取流程图。
[0024] 图4为双层GMM结构特征补偿的结构框图。
[0025] 图5为HMM识别流程图。
【具体实施方式】
[0026] 下面结合附图对本发明作更进一步的说明。
[0027] 如图1所示为一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,其特征 在于,包括纯净环境和测试环境;该方法包括以下步骤:
[0028]1)模型训练阶段:在纯净环境下,利用所有孤立词的纯净训练语音训练数据分别 得到两个表示纯净环境下所有孤立词的特征参数分布的高斯混合模型GMM,同时利用各个 孤立词的纯净训练语音训练生成各个孤立词对应的表示纯净环境下每个孤立词的特征参 数分布的HMM模型;
[0029] 所诉两个高斯混合模型GMM包括高斯单元混合数设置为10的GMM1和高斯混合数 设置为100的GMM2 ;
[0030] 2)基于特征补偿的识别阶段:在测试环境下,利用矢量泰勒级数VTS进行特征补 偿,基于步骤1)得到的GMM1模型,通过最大似然概率准则ML进行噪声参数估计,估算出测 试语音中噪声的均值和方差;接着基于步骤1)得到的GMM2模型,通过最小均方误差估计准 则丽SE,将测试环境下含噪语音MFCC特征参数映射为纯净MFCC特征参数;最后将所述纯 净MFCC特征参数与步骤1)得到的HMM模型进行匹配,得到最终识别结果。
[0031] 进一步的,步骤1)具体包括模型训练步骤:
[0032] 1. 1)对纯净训练语音数据进行预处理,所述预处理过程包括预加重、分帧加窗和 端点检测;
[0033] 1. 2)对步骤1. 1)中得到的每一帧语音信号提取MFCC特征参数,得到纯净环境下 所有孤立词的纯净语音MFCC特征参数;
[0034] 1. 3)利用步骤1. 2)中所有孤立词的纯净语音MFCC特征参数分别训练得到高斯混 合数为10的GMM1模型,和高斯混合数为100的GMM2模型;
[0035] 1.4)利用步骤1.2)中所有孤立词中每个孤立词的纯净语音MFCC特征参数,训练 得到每个孤立词对应的HMM模型。
[0036] 进一步的,步骤2)基于特征补偿的识别阶段具体包括以下步骤:
[0037] 2. 1)测试语音经过预处理过程,该预处理过程包括预加重、分帧加窗、端点检测和 提取测试环境下的含噪语音MFCC参数;
[0038] 2. 2)基于矢量泰勒级数方法和纯净环境下的GMM1模型和步骤2. 1)得到的含噪 语音MFCC参数,基于最大似然概率准则ML估计测试语音中噪声的均值和方差;得到噪声参 数;
[0039] 2.3)利用步骤2.2)估计出的噪声参数和GMM2
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1