一种采用总变化量因子的语种识别方法及系统的制作方法_2

文档序号:8261273阅读:来源:国知局
征语种间相互关系的一对一模型,再串联高斯后 端给出最后得分,可以更好的刻画某语种的特点,同时还对最终得分形式和范围进行统一, 更方便多系统得分线性融合。
【附图说明】
[0045] 图1是根据本发明实施例的基于总变化量因子语种识别方法的训练流程图;
[0046] 图2是根据本发明实施例的基于总变化量因子语种识别方法的识别流程图;
[0047] 图3是根据本发明实施例的基于总变化量因子语种识别系统的示意图。
【具体实施方式】
[0048] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述,附图和实施 例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。其中自始至终相同或类 似的标号表示相同或类似的元件或具有相同或类似功能的元件。
[0049] 本发明的目的是提供一种基于总变化量因子向量的语种识别方法,该方法通过提 取表征语音语种信息的低维总变化量因子,训练一组一对一和一对多支持向量机模型和高 斯后端模型,建立语种识别系统。不仅使得语音表征在更具区分性的低维空间,而且还通过 高斯后端统一了最后的得分区间,可以进一步进行多系统得分融合。
[0050] 图1是根据本发明实施例的基于总变化量因子语种识别方法的训练流程图。
[0051] 在步骤101,对输入的测试语音进行前端处理,去掉彩铃、振铃、传真音等垃圾语 音,去除没有语音的静音部分,只保留含有有效语音的部分。
[0052] 在步骤102,提取一个语种多个语音数据的移位差分梅尔倒谱MSDC特征,包括对 基本特征进行特征补偿,包括倒谱均值减、Rasta滤波。
[0053] 在步骤103,根据所述MSDC特征,提取表征语种信息的低维总变化量因子向量。具 体计算方法如下描述:
[0054] 给定一段语音,与说话人及信道相关的GMM超向量s由公式表示为s=m+Tw+e。 其中,m为通用背景模型(UBM)的超向量,T矩阵表示总变化空间,由大量数据通过EM算法 训练得到。w矢量为与说话人及信道相关的总变化量因子向量,也就是最终得到的低维矢 量,服从高斯分布。残差e服从高斯分布。
[0055]w?N(0,I)
[0056]e?N(0,I:)
[0057] 其中,2为对角协方差阵。为了得到隐藏变量w,首先需要估计模型参数,其训练 过程与本征音的过程相同。对于一段语音,给定Baum-Welch统计量,该后验分布为一高斯 分布,其均值即为i-vector。假设一段语音有L帧{yi,y2. . .,yj,特征维数为F,高斯数为 C的UBMQ,Baum-Welch统计量如下计算:
[0058]
【主权项】
1. 一种高斯后端分类器模型构造方法,所述方法包含: 步骤101)提取某语种若干段训练语音的声学特征,并依据全局背景模型和总变化量因 子空间模型将提取的声学特征映射为总变化量因子,其中每一句话的总变化量因子是一个 矢量; 步骤102)利用支持向量机训练一组一对一和一对多支持向量机模型,然后选择若干个 总变量因子对所述一对一和一对多支持向量机模型打分,进而依据得分矩阵训练一个高斯 后端分类器模型。
2. 根据权利要求1所述的基于总变化量因子的语种识别方法,其特征在于,训练一组 一对一和一对多支持向量机模型的策略进一步包含: 步骤301)对输入的训练语音进行前端处理,进而去掉彩铃、振铃和传真音,并去除没有 语音的静音部分,仅保留含有有效语音的部分,并提取有效语音部分的移动差分特征; 步骤302)提取移动差分特征的总变化量因子向量,其中,每一句训练语句对应一个维 数固定的矢量,且该矢量表征了此句话包含的语种信息;每个语种有若干条训练语句,对应 多条总变化量因子向量;根据支持向量机分类算法,训练某语种对其他语种的一对一和一 对多支持向量机模型,如果有N个目标语种,将会得到《 +iV,,个模型。
3. 根据权利要求1所述的基于总变化量因子的语种识别方法,其特征在于,训练高斯 后端分类器模型的步骤具体包含: 步骤401)从训练数据选取一部分数据,提取选取数据的总变化量因子,将每个语 种包含的总变化量因子基于所述的一对一和一对多支持向量机模型进行支持向量机打 分;当每个语种包含叫,1 = 1,2...N句训练语句,得到一个行数为
维、列数为 ''i= 4 + # ,,维的矩阵,且每行的语种类别已知; 步骤402)采用线性判别分析算法训练一个投影矩阵W,将训练样本投影后,得到一个
行、列数小于L列的新矩阵,该新矩阵为投影后的矩阵,且投影后的矩阵的每一行的语 种类别已知; 其中,投影应保证模式样本在新的子空间有最大的类间距离和最小的类内距离; 步骤403)计算投影后的矩阵的方差,再计算每一个语种类别的单高斯均值,得到高斯 后端模型的参数,依据这些参数得到高斯后端分类器模型。
4. 一种基于总变化量因子的语种识别方法,该方法基于权利要求1构造的高斯后端分 类器模型和一对一和一对多支持向量机模型,所述方法包含:输入测试语音,并提取测试语 音的声学特征;根据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变 化量因子,再对一对一和一对多支持向量机模型打分,得到得分向量;将得分向量输入高斯 后端分类器模型进行判决并输出识别结果。
5. 根据权利要求4所述的基于总变化量因子的语种识别方法,其特征在于,所述基于 总变化量因子的语种识别方法具体包含: 401)对输入的测试语音进行前端处理,进而去掉彩铃、振铃和传真音,去除没有语音的 静音部分,仅保留含有有效语音的部分;提取有效语音部分的声学层的移动差分特征; 步骤402)提取差分特征的变化量因子向量,且每一句话对应一个维数固定的矢量; 步骤403)将各总变化量因子向量在所述一对一和一对多支持向量机模型上打分,得到L维的得分向量; 步骤404)通过投影矩阵W,将得分向量映射到线性判别分析算法降维后的空间,得到 一个低维向量;再将此低维向量在各个语种的高斯后端模型上打分,即计算当前向量在各 个语种高斯模型上的log似然值; 步骤405)设定一个阈值,得分最高的语种如果大于阈值,则判定此测试语句为此语种; 如果小于阈值,则认为此测试语句不属于目标语种,进而采用上述策略识别其是否属于其 他语种。
6. 根据权利要求5所述的基于总变化量因子的语种识别方法,其特征在于,根据差分 特征提取总变化量因子向量的步骤具体为: 步骤501)利用各语种的训练数据训练全局背景模型和总变化量矩阵T;其中,全局背 景模型采用EM算法训练; 步骤502)利用各语种的训练数据训练总变化量矩阵T,且总变化量矩阵T与高斯超矢 量的关系s表示为"s=m+Tw+e" ; 其中,m为通用背景模型的超向量;总变化量矩阵T表示总变化空间,且总变化量矩阵T通过EM算法训练得到;w矢量为与说话人及信道相关的总变化量因子向量,即最终得到的 低维矢量,该低微矢量服从高斯分布;e为服从高斯分布的残差。
7. 根据权利要求5所述的基于总变化量因子的语种识别方法,其特征在于,所述前端 处理为: 根据时-频谱分析的方法,对语音进行分段,再采用GMM算法,判断每一段是否属于彩 铃、振铃、传真音、语音或静音,依据判断结果删除内容进而只保留有效语音部分。
8. 根据权利要求5所述的提取每句语音的移动差分特征,其特征在于:提取MFCC基本 倒谱特征,对基本特征进行特征补偿,所述特征补偿包括倒谱均值减、Rasta滤波和移动差 分变换。
9. 一种采用总变量因子的语种识别系统,其特征在于,所述系统包含: 前端处理模块,用于处理输入的测试语音数据和训练语音数据,进而去除语音数据中 包含的彩铃、振铃活传真,仅保留有效语音部分; 特征提取模块,用于提取每句有效语音部分的移动差分特征; 总变化量因子提取模块,用于基于移动差分特征计算总变化量因子向量; 支持向量机打分模块,用于计算低维的总变化量因子向量在各个模型上的得分,得到 得分向量; 高斯后端得分后处理模块,用于将得分向量映射到一个低维空间,在低维空间计算在 各个语种单高斯模型上的似然; 得分判决模块,用于根据最大似然值确定某个测试语句所属的语种,输出识别结果。
【专利摘要】本发明提出了一种基于总变化量因子的语种识别方法及系统,所述方法包含:步骤101)提取某语种若干段训练语音的声学特征,并依据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子,其中每一句话的总变化量因子是一个矢量;步骤102)利用支持向量机训练一组一对一和一对多模型,然后选择若干个总变量因子对所述一对一和一对多模型打分,依据得分矩阵训练一个高斯后端分类器模型;步骤103)输入测试语音,并提取测试语音的声学特征,然后根据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子,再对102)中的一对多和一对一模型打分,最后将得分向量输入所述的高斯后端分类器模型进行判决并输出识别结果。
【IPC分类】G10L15-10, G10L15-06
【公开号】CN104575495
【申请号】CN201310495417
【发明人】杨琳, 周若华, 颜永红
【申请人】中国科学院声学研究所, 北京中科信利技术有限公司
【公开日】2015年4月29日
【申请日】2013年10月21日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1