一种快速说话人识别方法

文档序号：2829049阅读：334来源：国知局

专利名称：一种快速说话人识别方法
技术领域：
本发明涉及一种说话人识别方法。
背景技术：
说话人识别，又称为声纹识别，是以语音对说话人进行区分，从而进行身份鉴别和认证的一种生物识别技术。目前基于支持向量的说话人识别方法已成为一种主流的说话人识别方法。对于支持向量机而言，它是一个两类分类器，当要应用到说话人识别系统中、时，需要完成两类到多类分类的转化。两类支持向量机分类器可以采用两种方式实现多类分类，一种是一对一的实现方法。这种方式是比较常用的一种多类分类方式。专利CN1787075、专利CN102201237A中采用的支持向量机多类分类器就是采用这种方式实现的。对于一对一的多类分类方式，对于#个类样本，分别进行两两分类，共需要构造叫3/-1)/2个分类器。尽管每个支持向量机分类器只需要两类样本训练就可以得到，样本
数据量小，但随着分类类别数的增加，需要构造的两类支持向量机分类器的数目急剧增加，使得系统的运算量和存储量大大增加，同时其判决的速度也会较慢。当加入新的类别时，由于在分类的过程中，需要两两分类，因此新增加的类别样本需要与所有的其余类样本分别再设计#个分类器，当类别数#较大时，需要重新训练分类器的个数较多，在实际的应用环境中可能导致系统更新速度慢。另一种多类支持向量机分类器的实现采用一对多对的方式。这种方式是支持向量机最早实现多类分类的方式，对于#个类样本，构造#个分类器。每个分类器以其自己的对应的样本为正样本，剩余的所有样本作为负样本进行分类器的训练。尽管一对多的实现方法简单直观，需要构造两类支持向量机数量少，但它将所有其他类的样本作为负样本，导致正负样本不均衡，负的训练样本过大，训练时间较长。尤其是当加入新的类别时，负样本发生变化，所有支持向量机都需要重新训练，导致系统的可扩展性不好。

发明内容
本发明提供一种快速说话人识别方法，以解决上述技术存在的缺陷，以高斯混合模型超向量作为说话人的特征参数，设计一种一类分类的支持向量机分类器实现说话人识别。本发明采用的技术方案包括下列步骤
(一)语音信号的预处理包括语音信号的预滤波、端点检测、预加重，分帧；
(二)特征参数提取的过程如下
(1)提取MFCC特征参数作为说话人的第一特征参数，Yc为IXd维矩阵，/为语音数据经预处理后的帧数，d为特征参数的维数；
(2)利用第一特征参数生成GMM超向量，首先，将第一特征参数Kr划分为若干个小的矩阵，每个小的矩阵包含50帧语音数据的特征参数，表示为
权利要求
1.一种快速说话人识别方法，其特征在于包括下列步骤 (一)语音信号的预处理包括语音信号的预滤波、端点检测、预加重，分帧； (ニ)特征參数提取的过程如下 (O提取MFCC特征參数作为说话人的第一特征參数Fe , 1 为/χゴ维矩阵，I为语音数据经预处理后的帧数，名力特征參数的维数； (2)利用第一特征參数生成GMM超向量，首先，将第一特征參数}t划分为若干个小的矩阵，每个小的矩阵包含50帧语音数据的特征參数，表示为ん = \…Jnum , Jnum为小于或等于+的最大整数；其次，利用χ ..., 依次对UBM模型进行自适应，得到相应的GMM超向量特征參数Z =[ヱ1 ··ゝ』，其中UBM是ー个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型，具体的过程如下 I)UBM模型为
全文摘要
本发明提供一种快速说话人识别方法，属于说话人识别方法该方法。结合高斯混合模型，以高斯混合模型超向量作为说话人的特征参数。将高斯混合模型超向量作为输入，设计一种一类分类的支持向量机分类器。对于N个说话人，训练N个分类器，每个分类器由一个说话人的语音样本训练得到。本发明提高了说话人识别的速度。每增加一个注册说话人，只需要为新的说话人训练一个一类支持向量机模型，使说话人识别系统有很好的扩展性。
文档编号G10L15/08GK102664011SQ20121015243
公开日2012年9月12日申请日期2012年5月17日优先权日2012年5月17日
发明者姜宏, 孙晓颖, 林琳, 金焕梅, 陈建, 陈虹, 魏晓丽申请人:吉林大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林琳;金焕梅;陈虹;姜宏;孙晓颖;陈建;魏晓丽
技术所有人：吉林大学
我是此专利的发明人