一种基于SVM-GMM模型的语音识别方法与流程

文档序号:17096057发布日期:2019-03-13 23:52阅读:442来源:国知局
一种基于SVM-GMM模型的语音识别方法与流程

本发明涉及一种语音识别方法,具体为一种基于svm-gmm模型的语音识别方法,属于语音识别应用技术领域。



背景技术:

随着信息和互联网产业的快速发展,信息社会对智能化的水平提出更高的要求。语音识别技术是一种快捷、方便的信息交换方式,它以语音为研究对象,最终目的是实现人机能够自然顺畅的语音通信,从而为人类生活提供便利。与传统的语音识别方法相比,支持向量机具有更好的泛化性能和较高的识别效率,目前己广泛应用于模式识别领域。经过近几十年的发展,支持向量机理论得到很大的完善。

语音识别主要分两部分。一个是特征抽取,一个是建模。特征提取用于分析语音数据,目的是找出每个语音的特征声音,获得判别功能。有许多特征提取方法,如线性预测编码倒谱系数、梅尔频率倒谱系数、小波变换系数等等。声学模型的训练同样有很多方法,例如高斯混合模型、隐马尔可夫模型、神经网络、支持向量机等等。gmm在说话人识别的成功应用,将gmm应用到特定音频事件识别领域得到了越来越多的研究。使用gmm算法训练分类器用于语音,使用gmm算法训练分类器用于语音,音乐的区分。svm是目前特定音频事件识别领域的研究热点,使用svm算法和不同的特征,对47种日常音频片段进行了识别。从算法流程上看,目前多数研究都是使用gmm完成特征向量变换,将gmm的输出作为svm分类器的输人完成识别,目前的语音识别方法存在很多不足之处,如传统的语音识别方法在特定音频事件识别实际应用中,连续音频流中识别准确率低、持续时间短的音频片段漏检率高、识别速度较慢,因此,针对上述问题提出一种基于svm-gmm模型的语音识别方法。



技术实现要素:

本发明的目的就在于为了解决上述问题而提供一种基于svm-gmm模型的语音识别方法,综合gmm的较强概率统计分布描述能力和svm的较好推广泛化能力,从而实现更好的语音识别。

本发明通过以下技术方案来实现上述目的,一种基于svm-gmm模型,包括声音数据模块,所述声音数据模块的输出端连接gmm分类器模块和svm分类器模块的输入端,且所述gmm分类器模块和svm分类器模块的输出端连接投票模块的输入端;所述投票模块的输出端连接决策模块的输出端。

一种基于svm-gmm模型的语音识别方法,在gmm-svm模型中,将待测语音的每个音框将同时提供给gmm分类器及svm分类器,投票结果将由两个分类器识别投票,当所有音框完成了gmm及svm的投票程序,待测语音的身份将会根据投票的决果来决定接受或拒绝,从而实现语音识别。

优选的,所述声音数据模型处理包括以下步骤:

步骤a、语音讯号经由麦克风输入,首先判断语音的端点,将语音分段舍弃静音,保留有用的语音讯号;

步骤b、对每段的语音波形做后续分析工作,对分析处理的语音波形进行选取音框;

步骤c、对原始语音做预强调处理,将取样后的声音通过一阶的数位滤波器,转换成函数,接着乘上汉明窗,再来作lpc系数分析;

步骤d、通过自相关系数计算,求得倒频谱参数后,再经过带通提升的窗口处理,最后即特征参数向量的输出。

优选的,所述gmm分类器模块处理包括混和加权值、平均值向量以及共变异矩阵,如下所示:

λ={wi,μi,σi},i=1,2,3,…,m(1)

其中wi表示的是混和加权值,μi表示的是平均值向量,σi表示的是共变异矩阵,而m则是高斯分布的个数,对每一个语音而言,用一个λ来代表,对一个d维的特征向量x而言,对于语音高斯混和模型的相似度计算如下所示:

是基本密度函数,wi,i=1,2,...,m是混合权数,必须满足

在资料压缩中,利用vq来做高斯混和模型参数的初始值,使用二值分裂法和k平均值修正法两种vq方法求得高斯混和模型参数的初始值,其流程如下:

(1)首先由一个丛集开始,找出所有训练向量的平均值,作为整个丛集的质心,用公式4进行分裂丛集,每一次分裂,丛集的个数成二的倍数成长;

其中,μ表示丛集的质心,ε为分裂参数,在这里ε为0.05;

(2)接着将每一个训练向量对每一个质心做距离测量,并作为分群的依据,每个向量被分类到距离最短的质心;

(3)更新质心:接着对每一群的向量求平均值,用平均向量来更新每一群的质心;

(4)重复(2)(3)的步骤,直到每一个质心与训练向量的总体距离和小于一个临界值;

(5)重复(1)的步骤,直到丛集的个数达到所需要的。

优选的,所述svm分类器模块处理寻找使得两类分类间隔最大的分类超平面;

在一个基本的二元分类问题中,假设已有训练集合s={xk,yk},k=1,2,...,n,其中xk∈r代表在n维特征空间中的输入资料,yk∈{-1,+1}为输出资料及类别,而线性分类器如(5)所示;

y(x)=sign[wtx-b](5)

则两类别资料可由(6)分出;

进行尺度调整,支持超平面与最佳分类超平面的距离在±1以内,因此(6)可改写为(7):

要处理边界有重叠的情形,导入一个误差项δ,

由(2.8)可得:

yk(wtxk-b)≥1-δk(9)。

本发明的有益效果是:本发明将高斯混合模型和支撑向量机模型结合起来建立svm和gmm的混合模型,其混合模型的辨识度优异于独立的gmm模型及独立的svm模型,采用gmm-svm多模型语音识别方法相较于与传统单个gmm及svm分类器在辨识能力上有着大幅度的提升,使得识别性能更佳,有良好的经济效益和社会效益,适合推广使用。

附图说明

图1为本发明模块连接示意图;

图2为本发明的语音识别流程图;

图3为本发明识别算法图;

图4为本发明gmm/svmmodel训练图。

图中:1、声音数据模块,2、gmm分类器模块,3、svm分类器模块,4、投票模块,5、决策模块。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-3所示,一种基于svm-gmm模型,包括声音数据模块1,所述声音数据模块1的输出端连接gmm分类器模块2和svm分类器模块3的输入端,且所述gmm分类器模块2和svm分类器模块3的输出端连接投票模块4的输入端;所述投票模块4的输出端连接决策模块5的输出端。

一种基于svm-gmm模型的语音识别方法,在gmm-svm模型中,将待测语音的每个音框将同时提供给gmm分类器及svm分类器,投票结果将由两个分类器识别投票,当所有音框完成了gmm及svm的投票程序,待测语音的身份将会根据投票的决果来决定接受或拒绝,从而实现语音识别。

所述声音数据模型处理包括以下步骤:

步骤a、语音讯号经由麦克风输入,首先判断语音的端点,将语音分段舍弃静音,保留有用的语音讯号;

步骤b、对每段的语音波形做后续分析工作,对分析处理的语音波形进行选取音框;

步骤c、对原始语音做预强调处理,将取样后的声音通过一阶的数位滤波器,转换成函数,接着乘上汉明窗,再来作lpc系数分析;

步骤d、通过自相关系数计算,求得倒频谱参数后,再经过带通提升的窗口处理,最后即特征参数向量的输出。

所述gmm分类器模块处理包括混和加权值、平均值向量以及共变异矩阵,如下所示:

λ={wi,μi,σi},i=1,2,3,…,m(1)

其中wi表示的是混和加权值,μi表示的是平均值向量,σi表示的是共变异矩阵,而m则是高斯分布的个数,对每一个语音而言,用一个λ来代表,对一个d维的特征向量x而言,对于语音高斯混和模型的相似度计算如下所示:

是基本密度函数,wi,i=1,2,...,m是混合权数,必须满足

在资料压缩中,利用vq来做高斯混和模型参数的初始值,使用二值分裂法和k平均值修正法两种vq方法求得高斯混和模型参数的初始值,其流程如下:

(1)首先由一个丛集开始,找出所有训练向量的平均值,作为整个丛集的质心,用公式4进行分裂丛集,每一次分裂,丛集的个数成二的倍数成长;

其中,μ表示丛集的质心,ε为分裂参数,在这里ε为0.05;

(2)接着将每一个训练向量对每一个质心做距离测量,并作为分群的依据,每个向量被分类到距离最短的质心;

(3)更新质心:接着对每一群的向量求平均值,用平均向量来更新每一群的质心;

(4)重复(2)(3)的步骤,直到每一个质心与训练向量的总体距离和小于一个临界值;

(5)重复(1)的步骤,直到丛集的个数达到所需要的。

所述svm分类器模块处理寻找使得两类分类间隔最大的分类超平面;

在一个基本的二元分类问题中,假设已有训练集合s={xk,yk},k=1,2,...,n,其中xk∈r代表在n维特征空间中的输入资料,yk∈{-1,+1}为输出资料及类别,而线性分类器如(5)所示;

y(x)=sign[wtx-b](5)

则两类别资料可由(6)分出;

进行尺度调整,支持超平面与最佳分类超平面的距离在±1以内,因此(6)可改写为(7):

要处理边界有重叠的情形,导入一个误差项δ,

由(2.8)可得:

yk(wtxk-b)≥1-δk(9)。

实施例:

目标语音数:37位(data_1~data_37)。

测试方式:每位目标语音内部测试及外部测试数据分别为15句及20句。

测试数据:内部测试数据555句,外部测试数据740句,共1295句。

本发明以语音确认作为出发点,为了判断使用者是否即为其宣称的语音身份,在此我们将37位语音划分为6位、7位及24位,此后将分别以database-a、database-b及database-c作为说明。我们将database-a及database-b的语音进行模型建立的动作,database-c作为模型外部的测试语句,目的是为了确保database-a语音能够畅行无阻而database-b、database-c语音将其拒于门外。

实验一的数据配置的方式,将37位语音划分为6位、7位及24位,即database-a、database-b以及database-c三种语音资料库,分为合法语音database-a及仿冒语音database-b作为gmm/svm模型训练的方式,至于database-c也是属于仿冒语音的范畴,主要作为模型效能的测试,各语音资料库的语音均准备20句测试语句,即database-a总和120句、database-b总和140句和database-c总和480句。gmm模型训练的方式中合法语音database-a里我们又细分为6个语音模型作为模型的训练,分别为database_1至database_6,仿冒语音database-b则是将database_7至database_13建立成一个仿冒语音模型,因此gmmmodel总数为7个;svm模型的训练方式则是将合法语音database-a的标签(label)设为+1,仿冒语音database-b的标签设为-1,如图4所示。

表1为传统gmm分类器及svm分类器和本论文提出的gmm-svm多模型的辨识能力对比。

表1.各模型的辨识效能

实验结果显示,经过分配的三种语音资料库的平均辨识度比较,本发明提出的gmm-svm多模型方法与传统gmm及svm分类器在辨识能力上有着大幅度的提升。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1