应用于短语音条件下的说话人确认方法和装置的制造方法

文档序号:10490235阅读:202来源:国知局
应用于短语音条件下的说话人确认方法和装置的制造方法
【专利摘要】本发明涉及应用于短语音条件下的说话人确认方法和装置,该方法包括:从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和Delta特征;对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组合,得到若干有效特征向量;利用局部模糊PCA方法降低所述有效特征向量的维数;根据高斯混合模型利用降低后的有效特征向量进行建模,对所述目标语音信号的说话人进行辨识。与现有技术相比,本发明采用特征组合代替单一特征,以提高有效特征维数来弥补特征样本的不足,并用局部模糊PCA对组合特征进行有效降维,在对识别率影响很小的前提下,降低了系统的时空复杂度。
【专利说明】
应用于短语音条件下的说话人确认方法和装置
技术领域
[0001] 本发明属于语音识别技术领域,尤其涉及一种在短语音条件下的说话人确认方法 和装置。
【背景技术】
[0002] 在说话人识别技术走向实际应用过程中常会遇到如下情况:1、恐怖分子或被侦听 对象,为了反侦听的考虑,说话往往很短,有时甚至只有两三个字。虽然文本相关技术对短 语音说话人识别有一定效果,但文本相关话者识别对这样的情形是无法使用的。2、由于通 话传输信道的问题,很多电话通话质量很差,导致语音断续情况严重。通常的解决办法是把 几乎不含有或几乎无法提取说话人信息的断续语音段去掉,其结果必然是有效语音变短。 3、在多说话人问题的解决过程中,由于目前语音分段技术的成熟度不够,或者的确存在语 音交叠情形,对识别容易造成负面影响的低质量语音段或说话人重叠语音段,必须在送给 识别器前切除掉,这也必然导致有效语音变短。4、在一些商用场合,用户不愿意说很长的语 音。因此,短语音问题是实际应用必须要解决的。
[0003] 短语音的问题目前还没有得到广大学术界的重视,还没有明确的定义。一些研究 人员只是从侧面提到了短语音问题,并没有做为重点来研究,有些研究工作所做的短语音 工作都不是从实际应用的角度出发,对短语音认识很模糊。
[0004] 对于短语音的说话人辨识可以从三个角度对短语音问题给出明确定义:
[0005] 1、训练语音和测试语音的文本内容一般是不相同的,即文本无关;
[0006] 2、训练语音可以长些(1-20秒),这在实际中是较易保证的,用户通常比较愿意在 建模时说较长的语音;
[0007] 3、识别语音相比训练语音要短很多,一般不超过10秒,有时甚至是2-3个音节,对 应汉语的一个词,是最小的短义单位。对于这样的说话人识别问题,我们称之为短语音说话 人识别。
[0008] 对于跨信道问题,在工程上可以有好的解决方案,有时不太会影响说话人识别技 术的应用。但是,短语音问题在工程上是没有任何解决方案的,必须从说话人识别技术上找 到新的算法来解决短语音问题。
[0009] 针对该情况,国内外学者也提出了一些解决方法。这些方法大体分为三类:
[0010] 1、从特征层面,主要是从较短的语音流中尽可能多地提取信息量,如改变帧长和 帧移的方法,原理是获取更多的话者信息的语音帧,在不同的帧长和帧移中包含说话人的 基音信息和共振峰信息等和提取LP残余信号基音同步小波变换的八音度系数为MFCC特征 的补偿方法,认为在八音度系数中含有产生语音信号的声源信息。
[0011] 2、从模型层面,如将每个说话人表示为特征音空间中的一个点,此方法来源于人 脸识别中特征脸的思想[i09,no} :将特征向量投影到高维空间中并在高维空间中建立VQ码 本模型,测试语音采用与训练模型同样的方法得到VQ码本,采用最近邻分类器进行分类识 另IJ;将特征向量进行聚类,在每个子类中建立子GMM模型,将测试语音在每个子类模型中的 打分的线性组合做为最终识别得分「112]}Vogt在kenny的基础上,把联合因子分析(JFA)和 I一矢量(I-Vector)技术应用于短语音说话人识别,验证了该技术的可行性。
[0012] 3、从识别匹配打分层面,如将测试语音分成若干块,在模型中找与测试语音块相 匹配的子块,以此子块的得分做为该段测试语音的得分,然后,将所有子块的得分的均值做 为测试语音的最终得分,主要是用来克服文本不同带来的影响;将测试语音在每个子类模 型上的得分进行SVM融合做为最终得分。
[0013] 目前,GMM系统是说话人辨认技术最普遍采用的系统,这个系统建立在统计模型理 论上,要求训练和测试语音必须达到一定的长度,否则,系统性能将大幅度下降。也就是说, 在短语音情况下,系统识别率会大大下降。

【发明内容】

[0014] 本发明的目的在于提供了一种应用于短语音条件下的说话人确认方法和装置,利 用本发明实施里提供的说话人确认方法和装置能够在短语音的条件下确认说话人的身份。
[0015] 为此,本发明所述的一种应用于短语音条件下的说话人确认方法采用的技术方案 如下:
[0016] -种应用于短语音条件下的说话人确认方法,包括以下步骤:
[0017] 从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和Delta特征;
[0018] 对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组合,得到若干有 效特征向量;利用局部模糊PCA方法降低所述有效特征向量的维数;根据高斯混合模型利用 降低后的有效特征向量进行建模,对所述目标语音信号的说话人进行辨识。
[0019] 优选地,所述利用局部模糊PCA方法降低所述有效特征维数的步骤包括初始化聚 类中心的步骤,所述初始化聚类中心包括:
[0020] 将提取的目标语音信息的有效特征维数作为训练样本集X,根据下式得到P维的均 值矢量P[j],
[0021]
[0022]其中,X[j]为样本集X中的有效特征向量,T为所述目标语音信息的帧数,P为所述 有效特征维数的数量;
[0023]根据所述P维的均值矢量y[j]分裂成若干个个聚类中心;
[0024] 根据所述有效特征向量与所述聚类中心的距离将所述有效特征向量的样本集分 成与所述聚类中心对应的子类。
[0025] 优选地,所述聚类中心的数量与所述高斯混合模型的阶数相同。
[0026] 优选地,所述根据高斯混合模型利用降低后的有效特征维数进行建模,对所述目 标语音信号的说话人进行辨识的步骤包括:
[0027] 对经局部模糊PCA方法降低所述有效特征向量的维数的有效特征向量组成特征向 量集;
[0028] 建立与所述语音信号对应的高斯混合模型;
[0029] 向所述高斯混合模型输入所述特征向量集,估计所述高斯混合模型的参数集。
[0030] 优选地,所述根据高斯混合模型利用降低后的有效特征维数进行建模,对所述目 标语音信号的说话人进行辨识的步骤还包括:
[0031] 利用预期与最大方法来估计所述高斯混合模型的参数集的最大值,根据所述最大 值对所述目标语音信号的说话人进行辨识。
[0032] 此外,本发明实施例提供的一种应用于短语音条件下的说话人确认装置采用的技 术方案如下:
[0033] -种应用于短语音条件下的说话人确认装置,包括:
[0034]特征提取模块,用于从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数 和De Ita特征;
[0035]特征向量获取模块,用于对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特 征进行组合,得到若干有效特征向量;
[0036] 降维模块,用于利用局部模糊PCA方法降低所述有效特征向量的维数;
[0037] 辨识模块,用于根据高斯混合模型利用降低后的有效特征向量进行建模,对所述 目标语音信号的说话人进行辨识。
[0038]优选地,所述降维模块包括初始化子模块,所述初始化子模块包括:
[0039] 第一子模块,用于将提取的目标语音信息的有效特征维数作为训练样本集X,根据 下式得到P维的均值矢量y[j],
[0040]
[0041] 其中,X[j]为样本集X中的有效特征向量,T为所述目标语音信息的帧数,P为所述 有效特征维数的数量;
[0042] 第二子模块,用于根据所述P维的均值矢量y[j]分裂成若干个个聚类中心;
[0043]第三子模块,用于根据所述有效特征向量与所述聚类中心的距离将所述有效特征 向量的样本集分成与所述聚类中心对应的子类。
[0044] 优选地,所述辨识模块包括:
[0045] 向量集组成子模块,用于对经局部模糊PCA方法降低所述有效特征向量的维数的 有效特征向量组成特征向量集;
[0046] 模型建立子模块,用于建立与所述语音信号对应的高斯混合模型;
[0047] 参数估计子模块,用于向所述高斯混合模型输入所述特征向量集,估计所述高斯 混合模型的参数集。
[0048] 优选地,所述辨识模块包括利用预期与最大方法来估计所述高斯混合模型的参数 集的最大值,根据所述最大值对所述目标语音信号的说话人进行辨识。
[0049] 与现有技术相比,本发明实施例提供的说话人确认方法和装置针对短语音的说话 人辨认训练及测试语料不充分的特点,采用特征组合代替单一特征,以提高有效特征维数 来弥补特征样本的不足,并用局部模糊PCA对组合特征进行有效降维,在对识别率影响很小 的前提下,降低了系统的时空复杂度。此外,本发明实施例还对高斯混合模型(简称:GMM)的 参数的初始化方法进行改进,采用分裂法与模糊K均值聚类相结方法,与现有初始化方法相 比,本发明实施里提供的说话人确认方法和装置能有效提高短语音说话人辨认性能。
【附图说明】
[0050] 图1是本发明所述一种应用于短语音条件下的说话人确认方法一实施方式的流程 图;
[0051] 图2是本发明所述一种应用于短语音条件下的说话人确认方法一实施方式中Mel 特征尺度滤波器的示意图;
[0052]图3是本发明所述一种应用于短语音条件下的说话人确认方法一实施方式中MFCC 特征提取算法流程图;
[0053]图4是本发明所述一种应用于短语音条件下的说话人确认方法一实施方式中用EM 算法估计GMM模型参数的流程图;
[0054]图5是本发明所述一种应用于短语音条件下的说话人确认装置一实施方式的结构 示意图。
【具体实施方式】
[0055]下面结合附图,对本发明的【具体实施方式】做进一步说明。
[0056]在说话人辨认方法中,语音信号经过预处理之后,几秒钟的语音会产生很大的数 据量。提取说话人特征参数的过程,实际上就是去除原来语音中的冗余信息,减小数据量的 过程。线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)是说话人辩认中最常用的两种 特征参数,前者模拟声道效应,后者模拟人耳听觉效应。但这两种特征都只考虑语音帧内的 信息,而没有考虑到语音帧之间的信息。因为语音信号有时序性,获取语音帧之间的时变信 息,能够提高说话人辨认的性能;Delta特征是目前最常用的帧间补偿特征。
[0057]下面首先详细介绍这三种特征的原理及提取流程。
[0058] (1)线性预测倒谱系数(LPCC)
[0059] LPCC特征的求取主要基于语音信号的线性预测(LP)原理,即一个语音信号能够用 过去若干个语音采样的线性组合来逼近,通过使实际语音采样和线性预测采样之间的差值 的平方和(在一个有限间隔内)达到最小值,能够决定唯一的一组预测器系数,称为线性预 测系数(LPC);用过去P个时刻的语音采样值的线性组合,以最小的预测误差预测下一时刻 的语音信号梁烊倌,称为对语咅信号的P阶线性预测。即语音信号s(n)的预测值为:
[0060]
[0061] 其中{ai}被称为p阶线性预测系数或LPC。预测误差为:
[0062]
[0063] 为了在最小均方误差意义上计算一组最佳预测系数,定义短时预测均方误差为:
[0064]
[0065] 由于语音信号的时变特征,线性预测分析应该在短时的语音段上进行,即按帧进 行。因此,上式的求和是在一帧语音的范围内进行。当(2.3)式最小时所对应的{ ai}即为LPC 特征。提取出来的LPC-般不直接作为语音特征参数应用于说话人辨认中,而是通过LPC求 取LPCC; LPCC的优点是比较彻底地去掉了语音产生过程中激励信息,主要反应声道响应,而 且往往只需十几个倒谱系数就能很好地描述语音的共振峰特征,因此LPCC常用于说话人辨 认。基于求取存在一种非常简单有效的递推求解方法:
[0066]
[0067]式中,可直接从预测系数{&1}求得倒谱系数这个倒谱系数是根据线性预测模型得 到的,即称为线性预测倒谱系数(LPCC)。
[0068] (2)Mel频谱倒谱系数
[0069]与普通实际频率倒谱分析不同,Mel频谱倒谱系数的分析着眼于人耳的听觉特性。 这是因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用频率尺度则 更符合人耳的听觉特性。频率与实际频率的具体关系可表示为:
[0070] Mel(f)=25951g(l+f/700)
[0071] 类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列Mel 滤波器组,如图2所示。
[0072]取每个三角形的滤波器频率带宽内所有信号幅度加权和作为某个带通滤波器的 输出,然后对所有滤波器输出作对数运算,再进一步作离散余弦变换(DCT)即得到MFCC。图3 是MFCC特征的提取流程。
[0073] MFCC特征的计算过程的主要步骤如下:
[0074] 1、将实际频率尺度转换为Mel频率尺度。
[0075] 2、在Mel频率轴上配置L个通道的三角形滤波哭组,L的个数由信号的截止频率决 定。每一个三角形滤波器的中心频率C(I)在Mel频率轴上等间隔分配。设〇(1),c(l)和h(l) 分别是第1个三角滤波器的下限,中心和上限频率,则相邻三角滤波器之间的下限、中心和 上限频率有如下关系:
[0076] CQ) =h(l_l) =〇(1+1)
[0077] 3、根据语音信号能量谱Xn(K)劝求每一个三角形滤波器的输出:
[0078]
[0079]
[0080] 4、对所有滤波器输出做对数运算,再进一步作DCT即可得到MFCC:
[0081]
[0082] 其中P为MFCC特征的阶数。
[0083] (3)Delta 特征
[0084] MFCC特征和LPCC特征都只考虑到语音帧内(intraframe)的信息,而没有考虑到语 音帧之间(interframe)的信息。Delta特征是一种能够反映语音帧之间时变信息的动态特 征,其计算如下:
[0085]
[0086] 其中,dt表示第t帧特征的Delta特征。
[0087] 短语音说话人辨认过程中,因语音信号中的语料时长较短,导致特征样本不足,识 别性能下降。对此,发明人在研究过程中发现,采用特征组合提高有效特征维数来弥补这一 不足。然而,随着特征维数的增加,也意味着需要更多的模型参数来描述说话人的特征分 布,从而加大了时空复杂度。
[0088] 本发明所述应用于短语音条件下的说话人确认方法和装置针对短语音说话人辨 认训练及测试语料不充分的特点,对特征参数和GMM模型进行优化和改进,提出一种基于局 部模糊PCA的GMM说话人辨认方法。该方法采用特征组合代替单一特征,以提高有效特征维 数来弥补特征样本的不足,并用局部模糊PCA对组合特征进行有效降维,在对识别率影响很 小的前提下,降低了系统的时空复杂度。
[0089] 参见图1,图1是本发明所述一种应用于短语音条件下的说话人确认方法一实施方 式的流程图。图1示出的说话人确认方法的实施方式包括步骤S101-S104。
[0090] 在步骤SlOl中,从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和 De Ita特征。
[0091] 在步骤S102中,对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组 合,得到若干有效特征向量;
[0092]在步骤S103中,利用局部模糊PCA方法降低所述有效特征向量的维数。
[0093]在一些领域中,为了减少特征维数和特征向量的各维之间的相关性,Jolloffe等 人提出了主成分分析((PrincipalComponent Analysis,PCA)方法。PCA方法是一种特征提 取方法,通过变换把原始空间投影到更小的子空间,从而降低特征维数。Kambhat Ia和Leen 首先提出VQPCA模型,用VQ把数据分割成不相交的几个类,然后对每个聚类中心进行局部 PCA处理。
[0094] 本发明所述的说话人确认方法的实施方式中,在语料短缺情况下,引进分类隶属 度因子,提出基于局部模糊PCA的GMM说话人辨认方法。
[0095] 下面详细介绍在本发明的实施方式中利用局部模糊PCA降维方法。
[0096] 首先,利用模糊K均值聚类方法实现模糊聚类划分。
[0097]假设有一P维空间特征矢量集X= {χι,Χ2,···,χτ},模型K均值聚类指定了每一特征 矢量在不同类中的隶属程度,可用KxT的矩阵U= [ujt]来表示,其中Ujt表示Xt在第」类¥的隶 属度函救_ it函救右加下桦踣·
[0100]模糊均值聚类算法是基于聚类损失函数的最小化,其公式如下:
[0098]
[0099]
[0101]
[0102] 其中,m>l是一个可以控制聚类结果的模糊程度的常数;W是第j个聚类的中心;d2 (Xt, Cj)代表Xt与Cj之间的距离,定义如下:
[0103]
[0104] 其中,F1是第i个聚类的模糊协方差矩阵,定义如下:
[0105]

[0106] 为了得到最后的模糊集可以求上式的极小值,令心对(^和Ujt的偏导数为0,可得必 要条Γ·
[0107;
[0108;
[0109]用迭代法求解式上面两个式子,就是模糊k均值算法。算法步骤如下:
[0110] Stepl:设定聚类数目K和参数M;
[0111] Step2:初始化各个聚类中心Cj;
[0112] Step3重复下面的计算,直到各个样本的隶属度值稳定。
[0113] 当算法收敛时,就得到了各类聚类中心和各个样本对于各类的隶属度值,从而完 成模糊聚类划分。
[0114] 传统的聚类中心初始化方法有随机法和重心法,都需要任意选择聚类中心,没有 用到特征矢量序列分布的先验信息,导致GMM模型精度欠佳。在一些实施方式中,步骤S103 中对GMM参数初始化方法进行改进,采用分裂法与模糊K均值聚类相结合的方法初始化聚类 中心。该方法契合了特征矢量的分布函数由多个高斯分布函数线性组合的原理,对样本聚 类后得到的初始化参数能通过预期与最大方法(即:EM算法)较快收敛,并使样本分布能较 好地拟合高斯分布。实验表明,与传统初始化方法相比该方法能有效提高短语音说话人辨 认性能。
[0115] 其中,所述初始化聚类中心包括步骤S1-6。
[0116] 步骤Sl中,把提取的每个说话人特征参数集作为训练样本集。形成一个TxP的矩阵 (T为帧数,P为特征维数)。
[0117] 步骤S2中,由下式:
[0118;
[0119]得到一个P维的均值矢量,然后根据分裂成2个聚类中心。
[0120]步骤S3中,按最小距离准则计算每一帧(训练样本)与聚类中心的距离,把样本集 分为η类;
[0121] 步骤S4中,更新聚类中心,对属同一类的样本集进行均值矢量计算,把不同类的均 值矢量作为新的聚类中心。η为当前聚类中心个数)。
[0122] 步骤S5中,根据步骤Sl和S2,用更新好的2个聚类中心分成4个聚类中心,然后按步 骤S3和S4,把训练矢量集聚成4类。依次类推,可分成8类、16类等,本领域技术人员可以根据 需要设置矢量集的数量,本发明对此不做限制。
[0123] 步骤S6中,假设GMM的阶数为Μ,则最后把训练样本集分为M类,由每一类的均值矢 量作为模糊K均值聚类的聚类中心。
[0124] 在完成初始化后,利用PCA方法进行降维操作。
[0125] 模糊PCA转换矩阵由计算模糊协方差矩阵特征值和特征向量获得。将模糊PCA转换 矩阵的特征值从大到小排列,计算其对应的特征向量,即主成分。用前k个主成分的方差在 全部方差中所占比重来描述累积贡献率。当累积贡献率大于80%时,确定主成分的个数 (L)。形成一个最优化特征矢量维数的LxP转化矩阵。在训练和测试时,每一帧特征矢量转化 为:
[0126]
[0127] 取上式矩阵的对角阵形式作为GMM的初始化参数。
[0128] 在步骤S104中,根据高斯混合模型利用降低后的有效特征向量进行建模,对所述 目标语音信号的说话人进行辨识。具体而言,步骤S104可以通过对经局部模糊PCA方法降低 所述有效特征向量的维数的有效特征向量组成特征向量集;建立与所述语音信号对应的高 斯混合模型;向所述高斯混合模型输入所述特征向量集,估计所述高斯混合模型的参数集。
[0129] 下面对步骤S104进行详细介绍。
[0130] 高斯混合模型(GMM)本质上是利用多维概率密度函数对语音信号进行建模的方 法。假设¥=出彳2,一々} = &1,72,~^},(1(为聚类数,1'为语音总帧数)是所有原特征参 数经模糊PCA处理后的特征矢量集,其中Y尸{yn···,^#}表示属于第j聚类叱)的特征矢 量集,为每个说话人建立一个M阶GMM(-般使K = M),其实质是通过训练,估计GMM的参数集 入。它由各均值矢量、协方差矩阵及混合分量的权值组成,表示成如下三元组的形式:
[0131] A={cj,yj,Sj},j = l,2,...,M
[0132] 这样,GMM的似然函数可表示为:
[0133]
[0134] 其中,p(yt I λ)是第t帧特征参数在模型λ下的概率密度,它由M个单高斯分布的性 组合来描述。形式如下:
[0135]
[0136]
[0137] 式中,P为特征维数;j为隐状态号,也就是高斯分量的序号,M阶GMM就有M个隐状 态,W为第j个分量的混合权值,其值对应为隐状态j的先验概率,协方差矩阵可以取普通矩 阵,也可以取对角矩阵。由干取对角阵时筧法简单,并目件能也很好,所以本文取对角阵。
[0138
[0139」将GMM应用十说诂人识别的直观觯释是:每个说诂人的诰音声学特征空间可以用 一些声学特征类来表示,这些声学特征类(假定M类)代表一些广义上的音素,如元音、清辅 音、摩擦音等,并且能够反映说话人的声道形状。每个声学特征类的频谱可以用一个高斯密 度函数来描述,即第i个声学特征类的频谱,可以用混合高斯密度函数的第j个高斯分量的 均值和方差来表示。但是所有的测试语音和训练语音都没有事先作出标注,即不知道第j个 声学特征类能生成哪些特征矢量,也不知道提取的特征矢量分属于哪些声学特征类中。从 这些隐性的声学类里提取的特征矢量(假定特征矢量相互独立)的密度函数就是一个混合 高斯密度函数。
[0140]为说话人建立GMM模型,实际上就是通过训练,估计GMM模型的参数集λ。合适的λ可 通过最大似然估计法获得。由于似然函数p(Y I λ)和参数集λ是很复杂的非线性函数关系,不 易用通常办法找到其极大值点,必须引入隐状态来参与计算,因此这是一个对"不完全数 据"进行最大似然估计的问题。
[0141]为此,本发明的一些实施方式中,可以采用预期与最大方法(EM方法)来估计。EM方 法是一种迭代算法,如图4所示,每次迭代由求期望(E-step)的步骤和求最大值(M-step)的 步骤组成:
[0142]求期望(E-step)的步骤:求训练数据落在假定的隐状态j的概率ρ(qt = j |yt,λ)表 示为:
[0143] 求最大值(M-step)的步骤:求三个参数{Cj,μ」,Σ j}偏导为0时的参数值,即混合权 值、均值矢量和协方差矩阵。
[0144] 1)混合权倌:
[0145]
[0147]
[0146] 2)均值矢量:
[0148]
[0149]
[0150] 综上所述,用EM算法估计模型参数的流程如图4所示。
[0151] 参见图5,图5是本发明所述一种应用于短语音条件下的说话人确认装置一实施方 式的结构示意图。图5示出的确认装置包括特征提取模块、特征向量获取模块、降维模块和 辨识模块。
[0152] 其中,特征提取模块,用于从目标语音信号中提取线性预测倒谱系数、Mel频谱倒 谱系数和Delta特征。特征向量获取模块用于对所述线性预测倒谱系数、Mel频谱倒谱系数 和Delta特征进行组合,得到若干有效特征向量。降维模块用于利用局部模糊PCA方法降低 所述有效特征向量的维数。辨识模块用于根据高斯混合模型利用降低后的有效特征向量进 行建模,对所述目标语音信号的说话人进行辨识。
[0153] 所述降维模块包括初始化子模块,所述初始化子模块包括第一子模块、第二子模 块和第三子模块。第一子模块用于将提取的目标语音信息的有效特征维数作为训练样本集 X,根据下式得到P维的均值矢量μ[ j],
[0154]
[0155] 其中,X[j]为样本集X中的有效特征向量,T为所述目标语音信息的帧数,P为所述 有效特征维数的数量。
[0156] 第二子模块用于根据所述P维的均值矢量y[j]分裂成若干个个聚类中心。
[0157] 第三子模块,用于根据所述有效特征向量与所述聚类中心的距离将所述有效特征 向量的样本集分成与所述聚类中心对应的子类。
[0158] 所述辨识模块包括向量集组成子模块、模型建立子模块和参数估计子模块。向量 集组成子模块用于对经局部模糊PCA方法降低所述有效特征向量的维数的有效特征向量组 成特征向量集。模型建立子模块用于建立与所述语音信号对应的高斯混合模型。参数估计 子模块用于向所述高斯混合模型输入所述特征向量集,估计所述高斯混合模型的参数集。
[0159] 在一些实施方式中,所述辨识模块包括利用EM方法来估计所述高斯混合模型的参 数集的最大值,根据所述最大值对所述目标语音信号的说话人进行辨识。
[0160] 应该理解,本发明并不局限于上述实施方式,凡是对本发明的各种改动或变型不 脱离本发明的精神和范围,倘若这些改动和变型属于本发明的权利要求和等同技术范围之 内,则本发明也意味着包含这些改动和变型。
【主权项】
1. 一种应用于短语音条件下的说话人确认方法,其特征在于,包括: 从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和Delta特征; 对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组合,得到若干有效特 征向量; 利用局部模糊PCA方法降低所述有效特征向量的维数; 根据高斯混合模型利用降低后的有效特征向量进行建模,对所述目标语音信号的说话 人进行辨识。2. 如权利要求1所述的一种应用于短语音条件下的说话人确认方法,其特征在于,所述 利用局部模糊PCA方法降低所述有效特征维数的步骤包括初始化聚类中屯、的步骤,所述初 始化聚类中屯、包括: 将提取的目标语音信息的有效特征维数作为训练样本集X,根据下式得到P维的均值矢 量P[j],其中,X[j]为样本集X中的有效特征向量,T为所述目标语音信息的帖数,P为所述有效 特征维数的数量; 根据所述P维的均值矢量μ [ j ]分裂成若干个个聚类中屯、; 根据所述有效特征向量与所述聚类中屯、的距离将所述有效特征向量的样本集分成与 所述聚类中屯、对应的子类。3. 如权利要求2所述的一种应用于短语音条件下的说话人确认方法,其特征在于,所述 聚类中屯、的数量与所述高斯混合模型的阶数相同。4. 如权利要求3所述的一种应用于短语音条件下的说话人确认方法,其特征在于,所述 根据高斯混合模型利用降低后的有效特征维数进行建模,对所述目标语音信号的说话人进 行辨识的步骤包括: 对经局部模糊PCA方法降低所述有效特征向量的维数的有效特征向量组成特征向量 集; 建立与所述语音信号对应的高斯混合模型; 向所述高斯混合模型输入所述特征向量集,估计所述高斯混合模型的参数集。5. 如权利要求3所述的一种应用于短语音条件下的说话人确认方法,其特征在于,所述 根据高斯混合模型利用降低后的有效特征维数进行建模,对所述目标语音信号的说话人进 行辨识的步骤还包括: 利用预期与最大方法来估计所述高斯混合模型的参数集的最大值,根据所述最大值对 所述目标语音信号的说话人进行辨识。6. -种应用于短语音条件下的说话人确认装置,其特征在于,包括: 特征提取模块,用于从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和 Deha特征; 特征向量获取模块,用于对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进 行组合,得到若干有效特征向量; 降维模块,用于利用局部模糊PCA方法降低所述有效特征向量的维数; 辨识模块,用于根据高斯混合模型利用降低后的有效特征向量进行建模,对所述目标 语音信号的说话人进行辨识。7. 如权利要求6所述的一种应用于短语音条件下的说话人确认装置,其特征在于,所述 降维模块包括初始化子模块,所述初始化子模块包括: 第一子模块,用于将提取的目标语音信息的有效特征维数作为训练样本集X,根据下式 得到P维的均值矢量μ?],其中,X[j]为样本集X中的有效特征向量,Τ为所述目标语音信息的帖数,Ρ为所述有效 特征维数的数量; 第二子模块,用于根据所述P维的均值矢量μ [ j ]分裂成若干个个聚类中屯、; 第Ξ子模块,用于根据所述有效特征向量与所述聚类中屯、的距离将所述有效特征向量 的样本集分成与所述聚类中屯、对应的子类。8. 如权利要求7所述的一种应用于短语音条件下的说话人确认装置,其特征在于,所述 辨识模块包括: 向量集组成子模块,用于对经局部模糊PCA方法降低所述有效特征向量的维数的有效 特征向量组成特征向量集; 模型建立子模块,用于建立与所述语音信号对应的高斯混合模型; 参数估计子模块,用于向所述高斯混合模型输入所述特征向量集,估计所述高斯混合 模型的参数集。9. 如权利要求8所述的一种应用于短语音条件下的说话人确认装置,其特征在于,所述 辨识模块包括利用预期与最大方法来估计所述高斯混合模型的参数集的最大值,根据所述 最大值对所述目标语音信号的说话人进行辨识。
【文档编号】G10L17/02GK105845140SQ201610172730
【公开日】2016年8月10日
【申请日】2016年3月23日
【发明人】陈昊亮
【申请人】广州势必可赢网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1