一种采用总变化量因子的语种识别方法及系统的制作方法

文档序号：8261273阅读：260来源：国知局

一种采用总变化量因子的语种识别方法及系统的制作方法
【技术领域】
[0001] 本发明涉及的技术领域包括语音识别、语种识别和语音信号处理，具体地说，本发明涉及一种采用总变化量因子的语种识别方法及系统。
【背景技术】
[0002] 语种识别也被称为语种辨识，是通过分析处理一个语音片段判断其属于哪个语言种类的过程，其本质是语音识别的一个方面。语种识别利用机器学习和模式分类的知识，一般一个语种识别系统由训练和测试两个过程组成。
[0003] 训练过程：首先从原始训练语音文件中获取一些能够表示该语种的基本信息，即特征，然后利用这些特征对每个语种或者语种之间的关系进行建模，模型代表了该语种固有的、以及该语种与其他语种之间差异的信息。
[0004] 测试过程：首先对测试语句提取特征，然后基于每个语种模型计算他们之间的得分，一般而言，使用和测试语句来自同一个语种的训练语句得到的模型的分数最大，以此判断这个测试属于哪个语种。
[0005]目前主流的语种识别系统主要分为基于音素特征的模型方法和基于声学特征的模型方法。在基于声学特征建模的方法中，基于GMM超矢量结合支持向量机建模的系统 (GSV系统）是目前的主流系统。
[0006] 但是GSV系统采用高维超矢量作为分类器的输入，在短时语音识别上性能较差，当训练数据较少、目标语种较多时，还容易出现无法训练出模型的情况。并且对支持向量机模型打分，最后的得分并不代表似然值，得分区间很大，进行多系统分数端融合时有一定困难。

【发明内容】

[0007] 本发明的目的在于，为克服现有的GSV系统的缺陷，从而提供一种基于总变化量因子的语种识别方法和系统。
[0008] 为了实现上述目的，本发明提供了一种高斯后端分类器模型构造方法，所述方法包含：
[0009] 步骤101)提取某语种若干段训练语音的声学特征，并依据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子，其中每一句话的总变化量因子是一个矢量；
[0010] 步骤102)利用支持向量机训练一组一对一和一对多支持向量机模型，然后选择若干个总变量因子对所述一对一和一对多支持向量机模型打分，进而依据得分矩阵训练一个高斯后端分类器模型。
[0011] 上述方案所述训练一组一对一和一对多模型的策略进一步包含：
[0012] 步骤301)对输入的训练语音进行前端处理，进而去掉彩铃、振铃和传真音，并去除没有语音的静音部分，仅保留含有有效语音的部分，并提取有效语音部分的移动差分特征；
[0013] 步骤302)提取移动差分特征的总变化量因子向量，其中，每一句训练语句对应一个维数固定的矢量，且该矢量表征了此句话包含的语种信息；每个语种有若干条训练语句，对应多条总变化量因子向量；根据支持向量机分类算法，训练某语种对其他语种的一对一和一对多支持向量机模型，如果有N个目标语种，将会得到《 ^ +iV，，个模型。
[0014] 上述方案所述的训练高斯后端分类器模型的步骤具体包含：
[0015] 步骤401)从训练数据选取一部分数据，提取选取数据的总变化量因子，将每个语种包含的总变化量因子基于所述的一对一和一对多模型进行支持向量机打分；当每个语种包含叫，i= 1，2. . .N句训练语句，得到一个行数为维、列数为ffM维的矩阵，且每行的语种类别已知；
[0016] 步骤402)采用线性判别分析算法训练一个投影矩阵W，将训练样本投影后，得到一个行、列数小于l列的新矩阵，该新矩阵为投影后的矩阵，且投影后的矩阵的每一行的语种类别已知；
[0017] 其中，投影应保证模式样本在新的子空间有最大的类间距离和最小的类内距离；
[0018] 步骤403)计算投影后的矩阵的方差，再计算每一个语种类别的单高斯均值，得到高斯后端模型的参数，依据这些参数得到高斯后端分类器模型。
[0019] 基于上述方案的高斯后端分类器模型和一对一及一对多支持向量机模型，本发明还提供了一种基于总变化量因子的语种识别方法，所述方法包含：输入测试语音，并提取测试语音的声学特征；根据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子，再对一对多和一对一模型打分，得到得分向量；将得分向量输入高斯后端分类器模型进行判决并输出识别结果。
[0020] 上述基于总变化量因子的语种识别方法具体包含：
[0021] 401)对输入的测试语音进行前端处理，进而去掉彩铃、振铃和传真音，去除没有语音的静音部分，仅保留含有有效语音的部分；提取有效语音部分的声学层的移动差分特征；
[0022] 步骤402)提取差分特征的变化量因子向量，且每一句话对应一个维数固定的矢量；
[0023] 步骤403)将各总变化量因子向量在所述一对一和一对多支持向量机模型上打分，得到L维的得分向量；
[0024] 步骤404)通过投影矩阵W，将得分向量映射到线性判别分析算法降维后的空间，得到一个低维向量；再将此低维向量在各个语种的高斯后端模型上打分，即计算当前向量在各个语种高斯模型上的log似然值；
[0025] 步骤405)设定一个阈值，得分最高的语种如果大于阈值，则判定此测试语句为此语种；如果小于阈值，则认为此测试语句不属于目标语种，进而采用上述策略识别其是否属于其他语种。
[0026] 上述方案中，根据差分特征提取总变化量因子向量的步骤具体为：
[0027] 步骤501)利用各语种的训练数据训练全局背景模型和总变化量矩阵T;其中，全局背景模型采用EM算法训练；
[0028] 步骤502)利用各语种的训练数据训练总变化量矩阵T，且总变化量矩阵T与高斯超矢量的关系s表示为"s=m+Tw+e" ；
[0029] 其中，m为通用背景模型的超向量；总变化量矩阵T表示总变化空间，且总变化量矩阵T通过EM算法训练得到；w矢量为与说话人及信道相关的总变化量因子向量，即最终得到的低维矢量，该低微矢量服从高斯分布；e为服从高斯分布的残差。
[0030]上述前端处理为：
[0031] 根据时-频谱分析的方法，对语音进行分段，再采用GMM算法，判断每一段是否属于彩铃、振铃、传真音、语音或静音，依据判断结果删除内容进而只保留有效语音部分。
[0032]上述技术方案中，提取MFCC基本倒谱特征，对基本特征进行特征补偿，所述特征补偿包括倒谱均值减、Rasta滤波和移动差分变换。
[0033]此外，本发明还提供了一种采用总变量因子的语种识别系统，所述系统包含：[0034]前端处理模块，用于处理输入的测试语音数据和训练语音数据，进而去除语音数据中包含的彩铃、振铃活传真，仅保留有效语音部分；
[0035]特征提取模块，用于提取每句有效语音部分的移动差分特征；
[0036] 总变化量因子提取模块，用于基于移动差分特征计算总变化量因子向量；
[0037]支持向量机打分模块，用于计算低维的总变化量因子向量在各个模型上的得分，得到得分向量；
[0038] 高斯后端得分后处理模块，用于将得分向量映射到一个低维空间，在低维空间计算在各个语种单高斯模型上的似然；
[0039] 得分判决模块，用于根据最大似然值确定某个测试语句所属的语种，输出识别结果。
[0040] 总之，本发明的第一方面，提供了一种基于总变化量因子的语种识别方法，包括：对输入训练语音，提取某语种多段训练语音的声学特征，根据全局背景模型和总变化量因子空间模型把声学特征映射为总变化量因子，每一句话的总变化量因子是一个矢量，表征了这句话包含的语种信息，再利用支持向量机训练一组一对一和一对多支持向量机模型，再选择一部分语音数据的总变量因子对以上模型打分，基于得分矩阵训练一个高斯后端分类器模型；对输入测试语音，提取其声学特征，根据全局背景模型和总变化量因子空间模型把声学特征映射为总变化量因子，对一组支持向量机模型打分，再把得分向量经过高斯后端分类器，进行判决给出识别结果。
[0041] 本发明的第二方面，提供了一种基于总变化量因子的语种识别系统，包括：前端处理模块，用于处理输入语音数据，去除彩铃、振铃、传真等垃圾语音，只保留有效语音部分；特征提取模块，用于提取每句有效测试语音的移动差分特征；总变化量因子提取模块，用于从语音特征计算总变化量因子向量；支持向量机打分模块，用于计算低维的总变化量因子向量在各个模型上的得分，得到得分向量；高斯后端得分后处理模块，用于将得分向量映射到一个低维空间，在低维空间计算在各个语种单高斯模型上的似然；得分判决模块，用于根据最大似然值确定最后是否属于某一个目标语种，给出识别结果。
[0042] 本发明相对于现有语种识别系统具有以下技术效果：
[0043] 1、传统的基于支持向量机的语种识别系统都是基于高斯超矢量建立支持向量机模型，本发明采用低维的总变化量因子技术，通过将高维超矢量映射为一个包含语种信息的低维总变化量因子，这样可以在一个更具有区分性的低维空间表征语音特征。
[0044] 2、传统的基于支持向量机的语种识别系统直接建立某语种模型，即只有一对多模型，本发明除了训练一对多模型，还训练表

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨琳;周若华;颜永红;
技术所有人：中国科学院声学研究所;北京中科信利技术有限公司;
我是此专利的发明人

上一篇：一种自动发送多媒体文件的方法及装置、移动终端的制作方法
上一篇：一种语音处理的方法和终端的制作方法