一种基于线谱频率差值的文本无关的说话人鉴别装置制造方法

文档序号：2827408阅读：77来源：国知局

一种基于线谱频率差值的文本无关的说话人鉴别装置制造方法
【专利摘要】本发明实施例公开了一种基于线谱频率差值的文本无关的说话人鉴别方法。该方法包括如下步骤：特征提取步骤：将线谱频率参数通过线性变换转化为线谱频率参数差值，结合当前帧和其前后相邻两帧形成一个生成线谱频率特征超向量；模型训练步骤：使用超狄利克雷混合模型模拟特征超向量的分布,并解出模型中的参数；鉴别步骤：对待鉴别人的语音序列按照步骤一提取特征，再输入步骤二所得到的模型，计算针对每个概率模型的似然值，获取最大似然值，确认说话人编号。利用本发明实施例，能够提高文本无关的说话人鉴别率，具有很大的实用价值。
【专利说明】一种基于线谱频率差值的文本无关的说话人鉴别装置
【技术领域】
[0001]本发明着重描述了一种基于线性变换的线谱频率参数和超狄利克雷混合模型的文本无关的说话人识别系统。
【背景技术】
[0002]随着计算机技术的发展，利用人的生物特征(如指纹，声纹，人脸)进行身份识别或确认具有非常重要的研究及应用价值。说话人识别是根据语音波形中反映说话人生理和行为的特征的语音参数，自动确认说话人是否在所记录的话者集合中，进一步确认说话人的身份。说话人识别又包括说话人鉴别和说话人确认两部分。说话人鉴别系统通常包括三部分:提取能代表说话人的特征，对每个说话人训练一个符合其所选特征的统计规律的独立的模型，最后通过比较输入数据与已经获得的模型来做出决策。
[0003]对于第一部分提取特征，基于声道特征分析语音信号是目前说话人识别中效果较好的方法，常用的特征主要有:美尔倒谱系数(MFCC:Mel_frequency CepstralCoefficients)和线性频谱系数(LSF:Line Spectral Frequencies)。传统的美尔倒谱系数(MFCC)向量用差分的方法表达动态信息，本发明采用线谱频率差值表示的特征超向量保存了原有的邻域信息。另外，本发明所述的方法还考虑了美尔倒谱系数(MFCC)所忽略的对机器鉴别说话人有用的高频信息。
[0004]识别方法上目前可分为三类:模板匹配法，概率模型法，和人工神经网络方法。概率模型采用某种概率密度函数来描述说话人的语音特征空间的分布情况，并以该概率密度函数的一组参数作为说话人模型。高斯混合模型(GMM:Gaussian Mixture Model)由于简单高效已广泛地应用于文本无关的说话人识别系统。但是，本发明所采用的超狄利克雷混合模型(SDMM: super-Dirichlet Mixture Model)能够更好的描述所抽取特征的有界性和有序性。
[0005]根据识别对象的不同，可以将说话人识别分为文本有关和文本无关两类。其中文本有关的说话人识别技术，要求说话人的发音的关键词和关键句子作为训练文本，识别时按照相同的内容发音。文本无关的说话人识别技术，不论是在训练时还是在识别时都不规定说话内容，识别对象是自由的语音信号，需要在自由的语音信号中找到能表征说话人的信息的特征和方法，因此建立说话人模型相对困难。此外，文本有关的识别系统容易被窃录冒认，使用不方便，本发明所描述的是文本无关的识别系统。

【发明内容】

[0006]为了解决上述技术所存在的缺陷并提高文本无关的说话人鉴别率，本发明提供一种基于线性变换的线谱频率参数和超狄利克雷混合模型的文本无关的说话人识别装置。
[0007]为达到上述目的，本发明提出的文本无关的说话人识别方法包括下列步骤:
[0008]一、特征提取步骤
[0009]A、线谱频率参数变换步骤:在语音线性编码预测模型中，用线谱频率参数通过线性变换转化为线谱频率参数差值；
[0010]B、生成线谱频率特征超向量步骤:结合当前帧和其前后相邻的两帧形成一个特征超向量来表达动态信息。
[0011]二.模型训练步骤:对每个说话人都用长度为T的帧序列训练模型，使用超狄利克雷混合模型(SDMM: super-Dirichlet Mixture Model)模拟特征超向量的分布，通过梯度法解方程求出模型中的参数α，最终得到一系列模型，每个模型对应一个说话人。
[0012]三.鉴别匹配步骤:取训练集中某说话人的语音样本输入已经训练好的一系列概率模型中，采用步骤一中的方法变换参数和生成特征超向量，通过步骤二中训练出的模型计算针对每个概率模型的似然值，取其中最大的似然值来确认说话人的编号。
[0013]根据本发明的一个实施方式的一种与文本无关的说话人鉴别方法，步骤A所述的线谱频率参数变换步骤中，利用线谱频率参数的①非负特性，②有序特性和③有界特性将其变换为线性谱参数差值ALSF，此差值的特征为:①分布在(0，I)开区间内，②加和为I。此步骤具体过程如下:
[0014]1)Κ维线谱频率参数表示为s = [S1, S2,…，sK]T,满足O < S1 < S2 <，…，sK < π ；
[0015]2)变换后的K+1维线谱频率参数差值ALSF为i =,其中
[0016]
【权利要求】
1.一种基于线性变换的线谱频率参数和超狄利克雷混合模型的文本无关的说话人识别方法，其特征在于，包括以下步骤: 一.特征提取步骤: A、线谱频率参数变换步骤:在语音线性编码预测模型中，用线谱频率参数通过线性变换转化为线谱频率参数差值； B、生成线谱频率特征超向量步骤:结合当前帧和其前后相邻的两帧形成一个特征超向量来表达动态信息。二.模型训练步骤:对每个说话人都用长度为T的帧序列训练模型，使用超狄利克雷混合模型(SDMM: super-Dirichlet Mixture Model)模拟特征超向量的分布，通过梯度法解方程求出模型中的参数α，最终得到一系列模型，每个模型对应一个说话人。三.鉴别匹配步骤:取训练集中某说话人的语音样本输入已经训练好的一系列概率模型中，采用步骤一中的方法变换参数和生成特征超向量，通过步骤二中训练出的模型计算针对每个概率模型的似然值，取其中最大的似然值来确认说话人的编号。
2.如权利要求1所述的一种与文本无关的说话人鉴别方法，其特征在于，步骤A所述的线谱频率参数变换步骤为: 1)K 维线谱频率参数表示为 s = [S1, S2, , sK]T,满足 O < S1 < S2 <,..., sK < π ； 2)变换后的Κ+1维线谱频率参数差值ALSF为:=，其中

3.如权利要求1所述的一种与文本无关的说话人鉴别方法，步骤B所述的生成线谱频率特征超向量步骤将当前帧x(t)和其相邻帧相结合形成一个超向量，以此来表达动态信息，在本发明中此超向量包含三个子向量。假定当前帧与前一帧和后一帧的间隔都为τ，这里只考虑当前帧的前一帧x(t-T)和后一帧X(t-T)两个邻域帧，生成的特征超向量是3(Κ+1)维的。则其具体过程如下: 1)Κ+1维线谱频率参数差值向量x(t)= 2)包含动态信息的超向量结果为:
4.如权利要求1所述的一种与文本无关的说话人鉴别方法，步骤二所述的模型训练的详细步骤为: Dxsup中每个特征子向量x(t)，x(t_ τ )，x(t+ τ )相互独立且满足狄利克雷分布，则超向量Xsup满足超狄利克雷概率密度分布:

【文档编号】G10L17/04GK103871411SQ201410134694
【公开日】2014年6月18日申请日期:2014年4月3日优先权日:2014年4月3日
【发明者】马占宇, 齐峰, 张洪刚申请人:北京邮电大学

完整全部详细技术资料下载