一种用于语种识别的语种模型的训练方法及系统的制作方法

文档序号：2833720阅读：367来源：国知局

专利名称：一种用于语种识别的语种模型的训练方法及系统的制作方法
技术领域：
本发明属于语音识别技术领域，具体地说，本发明涉及一种用于语种识别的语种模型的训练方法及系统。
背景技术：
语种识别是语音识别技术的重点难点之一。对于跨语言的语音识别系统，相对于确定语言的语音识别系统语音识别性能会有大幅度的下降，准确识别出语音的语种信息的语种识别技术，使跨语言的语音识别转换为确定语言的语音识别，成为语音识别系统满足实际应用需求的必要手段。对于如何利用有限的语种训练数据，训练具有语种鉴别性的模型，从而快速准确的识别出语音的语种信息，目前尚未出现有效的方案，这对于语种识别技术进一步研究及应用造成困难。

发明内容
针对上述问题，本发明实施例提出一种用于语种识别的语种模型的训练方法及系统。在第一方面，本发明实施例提出一种用于语种识别的语种模型的训练方法，所述方法包括采集多个目标语种语音数据，提取各语种的语音声学谱特征；利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；利用每个目标语种的初始模型量化对应语种训练数据的混淆度；利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。在第二方面，本发明实施例提出一种用于语种识别的语种模型的训练系统，所述系统包括声学谱特征提取模块，用于采集多个目标语种语音数据，提取各语种的语音声学谱特征；初始模型生成模块，用于利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；混淆度量化模块，用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度；高斯超向量转换模块，用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；语种模型训练模块，用于对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例提取各语种的语音声学谱特征生成每个目标语种的初始高斯混合模型，量化对应语种训练数据的混淆度，利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间，对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型，能够有效地提高语种鉴别性，改善语种识别性能。

以下，结合附图来详细说明本发明实施例，其中图1是本发明实施例的基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图；图2是本发明实施例的用于语种识别的语种模型的训练方法流程图；图3是本发明实施例的用于语种识别的语种模型的训练系统示意图。
具体实施例方式图1是基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图。下面结合图1对本发明实施例的具体实施方式
做进一步详细描述本发明实施例旨在提供基于最大混淆度鉴别性训练的语种识别方案，该方案利用混淆度大的、语种鉴别性高的语种训练数据训练语种模型，以提高语种识别性能。具体地，本发明实施例涉及的基于最大混淆度鉴别性训练的语种识别方法的核心技术在于语种训练数据混淆度的获取以及利用好语种训练数据的混淆度进行鉴别性训练。最大混淆度鉴别性训练通过利用更具语种鉴别性的数据训练得到更具鉴别性的语种高斯混合模型。本发明利用语种初始模型定义语种训练数据混淆度并在高斯超向量空间利用该混淆度进行语种鉴别性训练。本发明实施例的具体计算流程如下第一步，采集一定数量的目标语种语音数据，提取语音声学谱特征；所采集的目标语种语音数据，通过传统的语音数据前端处理，对语种训练数据切除静音，音乐等无效语音，保留有效语音，然后提取通用的美尔倒谱特征(MFCC)，并对该特征进行动态扩展得到移动差分倒谱特征(MFCC-SDC)，对于语种训练数据的每一帧得到56维特征向量，作为该语音数据的声学谱特征。第二步，利用每个目标语种训练数据的声学谱特征训练该目标语种的高斯混合模型，作为每个目标语种各自的初始模型。这里利用了语音数据声学谱特征服从高斯混合分布，训练每个目标语种各自的初始高斯混合模型采用了最大似然估计，目标函数为每个语种训练数据对数似然之和，公式(6)为英语高斯混合模型估计的目标函数
权利要求
1.一种用于语种识别的语种模型的训练方法，其特征在于，所述方法包括采集多个目标语种语音数据，提取各语种的语音声学谱特征；利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；利用每个目标语种的初始模型量化对应语种训练数据的混淆度；利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。
2.如权利要求1所述的用于语种识别的语种模型的训练方法，其特征在于，所述利用权重较高的几个语种的训练数据来训练语种模型，具体为利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点，根据每个语种高斯超向量空间分布的中心点，更新每个语种的高斯混合模型的均值，得到每个语种的新的高斯混合模型。
3.如权利要求1或2所述的用于语种识别的语种模型的训练方法，其特征在于，所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度，具体为若语种Ii的某条语音数据的声学谱特征为X，该条语音数据混淆度
4.按权利要求3所述的用于语种识别的语种模型的训练方法，其特征在于，所述根据所述混淆度赋予的语种Ii的训练数据的高斯超向量的权重
5.按权利要求4所述的用于语种识别的语种模型的训练方法，其特征在于，所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式
6.一种用于语种识别的语种模型的训练系统，其特征在于，所述系统包括声学谱特征提取模块，用于采集多个目标语种语音数据，提取各语种的语音声学谱特征；初始模型生成模块，用于利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；混淆度量化模块，用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度；高斯超向量转换模块，用于利用最大后验估计将各语种训练数据从声学谱特征转换到闻斯超向量空间；语种模型训练模块，用于对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。
7.如权利要求6所述的用于语种识别的语种模型的训练系统，其特征在于，所述利用权重较高的几个语种的训练数据来训练语种模型，具体为利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点，根据每个语种高斯超向量空间分布的中心点，更新每个语种的高斯混合模型的均值，得到每个语种的新的高斯混合模型。
8.如权利要求6或7所述的用于语种识别的语种模型的训练系统，其特征在于，所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度，具体为若语种Ii的某条语音数据的声学谱特征为X，该条语音数据混淆度
9.按权利要求8所述的用于语种识别的语种模型的训练系统，其特征在于，所述根据所述混淆度赋予的语种Ii的训练数据的高斯超向量的权重)
10.按权利要求9所述的用于语种识别的语种模型的训练系统，其特征在于，所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式
全文摘要
本发明涉及一种用于语种识别的语种模型的训练方法及系统，所述方法包括采集多个目标语种语音数据，提取各语种的语音声学谱特征；利用所述声学谱特征训练每个目标语种的高斯混合模型，作为其初始模型；利用每个目标语种的初始模型量化对应语种训练数据的混淆度；利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间；对所述各语种训练数据的高斯超向量空间，根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重，并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例量化对应语种训练数据的混淆度，利用权重较高的训练数据来训练语种模型，能够有效地提高语种鉴别性，改善语种识别性能。
文档编号G10L15/06GK103065622SQ20121056071
公开日2013年4月24日申请日期2012年12月20日优先权日2012年12月20日
发明者周若华, 颜永红, 杨金超, 索宏彬申请人:中国科学院声学研究所, 北京中科信利技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周若华;颜永红;杨金超;索宏彬
技术所有人：中国科学院声学研究所;北京中科信利技术有限公司
我是此专利的发明人