基于信道鲁棒的说话人确认模型及说话人确认方法和装置的制造方法

文档序号:10490236阅读:246来源:国知局
基于信道鲁棒的说话人确认模型及说话人确认方法和装置的制造方法
【专利摘要】本发明涉及说话人确认模型及说话人确认方法和装置,所述一种基于信道鲁棒的说话人确认模型的实现方法包括:将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理;构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子空间对应的M矢量集合;将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量机模型。本发明实施方式提供的说话人确认模型及说话人确认方法和装置对数据量和运算量要求要小很多;不需要任何有文本标注信息的数据,从而节省了大量人力和财力资源,而且能够取得较高的识别性能及很强的与其他确认系统的互补性。
【专利说明】
基于信道鲁棒的说话人确认模型及说话人确认方法和装置
技术领域
[0001] 本发明涉及一种信号特征识别领域,尤其是涉及一种说话人确认模块及说话人确 认方法和装置。
【背景技术】
[0002] 跨信道问题是近年来说话人识别真正走向实用化的一个至关重要的研究热点。基 于因子分析的I-矢量(I-vector)近年来被广泛应用于当前最新的说话人识别系统中,成为 解决信道鲁棒性问题最有效的方法之一c^MLLlKmaximum likelihood linear regression, MLLR,即:最大似然线性回归)自适应上的M-矢量(M-vector)已经被证明在说话人确认系统 中能够取得较好的性能。基于自动语音识别(automatic speech recognition,ASR)音素类 的MLLR话者变换矩阵很早就开始被作为特征参数应用到各种说话人识别系统中,但该类算 法不仅计算量巨大而且还需要大量有准确文本标注的语音数据用于ASR的模型训练。

【发明内容】

[0003] 本发明的目的在于一种说话人确认模型及说话人确认方法和装置,旨在解决现有 说话人确认过程中对数据量要求大,运算量过多的技术缺陷。
[0004] 为此,本发明实施例首先提供了一种基于信道鲁棒的说话人确认模型的实现方 法,包括:
[0005] 将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理;
[0006] 构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子空间对应的M矢 量集合;
[0007] 将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持 向量机模型。
[0008] 优选地,所述将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理 的步骤之前还包括:
[0009] 将UBM模块通过EM方法进行聚类,形成若干个所述子空间。
[0010] 优选地,所述将UBM模块通过EM方法进行聚类的步骤包括:
[0011] 以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利用K-均值聚类方 法将若干个UBM模块的均值向量非配到所述若干个子空间中。
[0012] 优选地,所述构建与所述语音信号在所述子空间内对应的M矢量的步骤包括:
[0013] 对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所 述语音信号的变换矩阵;
[0014] 将所述变换矩阵的所有行进行排列,得到MLLR超矢量;
[0015] 对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。
[0016] 此外,本发明实施例还提供了一种基于信道鲁棒的说话人确认方法,包括:
[0017] 获取上述任一实施方式所述的与所述语音信号对应的支持向量机模型;
[0018] 利用所述支持向量机模型识别输入的语音信号的说话人。
[0019] 对应的,本发明实施例还再次提供了一种基于信道鲁棒的说话人确认模型的实现 装置,包括:
[0020] 自适应处理模块,用于将若干语音信号分别利用MLLR方法在若干子空间内进行自 适应处理;
[0021] 矢量集合生成模块,用于构建与所述语音信号在所述子空间内对应的M矢量,得到 与所述子空间对应的M矢量集合;
[0022] 支持向量机模块生成模块,用于将所述M矢量集合作为支持向量机的输入特征,得 到与所述语音信号对应的支持向量机模型。
[0023] 优选地,还包括:
[0024]子空间生成模块,用于将UBM模块通过EM方法进行聚类,形成若干个所述子空间。 [0025]优选地,子空间生成模块包括:
[0026]生成子模块,用于以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利 用K-均值聚类方法将若干个UBM模块的均值向量非配到所述若干个子空间中。
[0027]优选地,所述矢量集合生成模块包括:
[0028] 变换矩阵生成模块,用于对所述语音信号提取特征后,在所述UBM模块中利用MLLR 超矢量形成方法得到所述语音信号的变换矩阵;
[0029] 超矢量生成模块,用于将所述变换矩阵的所有行进行排列,得到MLLR超矢量;
[0030] 矢量生成模块,用于对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。
[0031] 此外,本发明实施例还提供了一种基于信道鲁棒的说话人确认装置,其特征在于, 包括:
[0032] 向量机模型获取模块,用于获取与所述语音信号对应的支持向量机模型;
[0033] 识别模块,用于利用所述支持向量机模型识别输入的语音信号的说话人。
[0034] 与现有技术相比,本发明实施方式提供的说话人确认模型及说话人确认方法和装 置将现有基于音素类变换矩阵的优势扩展到UBM的基础上来,结合SVM的区分性分类及其核 映射的特点构建了一种基于M-矢量的支持向量机说话人确认系统.相对于采用I-矢量和传 统音素类MLLR变换矩阵的系统,本发明实施方式提供的说话人确认模型及说话人确认方法 和装置对数据量和运算量要求要小很多;不需要任何有文本标注信息的数据,从而节省了 大量人力和财力资源,而且能够取得较高的识别性能及很强的与其他确认系统的互补性。
【附图说明】
[0035] 图1是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式的 流程图;
[0036] 图2是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式中 M-矢量的结构示意图;
[0037] 图3是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式中 基于多类MLLR中M-矢量的支持向量机说话人确认系统的训练流程示意图;
[0038] 图4是本发明所述一种基于信道鲁棒的说话人确认方法一实施方式的流程图;
[0039] 图5是本发明所述一种基于信道鲁棒的说话人确认模型的实现装置一实施方式的 结构示意图;
[0040] 图6是本发明所述一种基于信道鲁棒的说话人确认装置一实施方式的结构示意 图。
【具体实施方式】
[0041] 下面结合附图,对本发明的实施方式做进一步说明。
[0042] 支持向量机(即SVM)作为一种区分性分类方法已被成功应用到说话人确认中,同 时SVM还能灵活地将不同种信道补偿方法通过核函数的方式方便地对特征矢量进行映射从 而减轻信道问题的影响。本申请将传统基于音素类变换矩阵的优势扩展到UBM(即统一背景 模型)基础上来,结合SVM的区分性分类及其核映射的特点构建一种基于M-矢量的支持向量 机说话人确认系统。相对于采用矢量和传统音素类MLLR(maximum likelihood linear regreSsi〇n,MLLRg卩:最大似然线性回归)变换矩阵的系统,本申请具有以下优点:对数据量 和运算量要求要小很多;不需要任何有文本标注信息的数据,从而节省了大量人力和财力 资源;能够取得较高的识别性能及很强的与其他确认系统的互补性。
[0043] 参见图1,图1是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实 施方式的流程图。在图1示出的实施方式中,所述基于信道鲁棒的说话人确认模型的实现方 法包括步骤SI I-Sl 3。
[0044] 在步骤Sll中,将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处 理。其中,MLLR用于说话人自适应技术源自语音识别,给定说话人语音数据X= Ixl,x2,…, xT}的前提下,相对于UBM的MLLR说话人变换矩阵W的估计为:
[0045]
[0046]
[0047]
[0048]
[0049]
[0050] 其中:Wi为变换矩阵W的第i行;μ」和d分别为UBM的均值和方差;C为UBM的高斯混 合数;ω」和b。分别为第j个高斯分量的权重和第c个高斯分量的密度函数。把W矩阵的每一行 取出并重新排列成一个行矢量,该行矢量就称为MLLR超矢量。因此,所述的MLLR超矢量为 MLLR方法经过上述的计算方法得到。若采用39维特征参数,则MLLR超矢量的维数为39 X 39 = 1521维。在传统基于音素类MLLR变换矩阵的说话人识别中,这里的UBM可以被大词汇量连 续语音识别的隐马尔科夫模型(hidden Markov model,HMM)所替代,并将其中的单音素 HMM 聚类成少数几个音素大类,如元音、辅音和非语音等,再对这些音素类进行MLLR说话人自适 应得到与说话人相关的变换矩阵超矢量用于话者识别。由于说话人识别中每一位目标话者 的训练数据非常少而容易导致自适应过程中参数估计不准确,故音素大类通常选择在3-8
[0051]在步骤S12中,构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子 空间对应的M矢量集合。其中,所述构建与所述语音信号在所述子空间内对应的M矢量的步 骤包括: 类之间。
[0052]对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所 述语音信号的变换矩阵;
[0053] 将所述变换矩阵的所有行进行排列,得到MLLR超矢量;
[0054] 对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。
[0055]具体而言,在步骤S12中,对给定的说话人语音数据,提取特征后通过MLLR超矢量 形成方法从UBM模型自适应得到该说话人的变换矩阵W,把变换矩阵W的所有行按顺序排列 起来得到MLLR超矢量.对MLLR超矢量进行重叠加窗分割(含重叠元素的均勾分割)就得到一 系列的新矢量M 1,这些新矢量就称为M矢量。参见图2,图2是本发明所述一种基于信道鲁棒 的说话人确认模型的实现方法一实施方式中M-矢量的结构示意图。该过程如图2所示,图中 黑色方块表示MLLR超矢量的每一维.其中重叠分割的目的是为了能充分挖掘不同特征维度 空间中潜在的能反映说话人身份特性的信息,可类比特征提取过程中对原始语音信号进行 重叠加窗分帧的做法。
[0056] 在另外一些实施方式中,多类MLLR的M-矢量是在UBM的子空间基础上进行MLLR自 适应而获得的。发明人在参考传统音素类MLLR自适应技术的优点的同时,采用多个子空间 来描述语音信号中含有的丰富细节信息。如从不同的UBM子空间中估计出的M-矢量可从不 同语义层面、信道类型、说话人习惯用语等方面对说话人的原始语音进行细节描述。
[0057]其估计流程如下:
[0058] (I)UBM子空间聚类算法。对于给定UBM,期望子空间类别数S,以UBM各高斯分量的 均值向量作为聚类的特征参数Y= {μι,μ2,…,μ。},采用现有的K-均值聚类算法将C个UBM均 值向量分配到S个不同的子空间(类别)中去。
[0059] (2)多类MLLR的M-矢量估计方法。多类MLLR的M-矢量即在以上UBM聚类子空间中分 别计算针对原始输入特征X的MLLR自适应M-矢量。为了减少计算量,对任意UBM子空间而言, 其对应的MLLR的M-矢量计算过程中的高斯占有率γ j (t)可直接输入特征在UBM各高斯分量 上的统计量,同时结合上述UBM高斯分量聚类结果,可快速得到如下任意子空间中的自适应 矩阵W。如对第S个子空间而言,其对应的W i估计为:
[0060]
[0061]
[0062]
[0063] (3)最后得到各子空间的M-矢量。与音素类MLLR超矢量相比,基于UBM子空间的多 类MLLR的M-矢量具有以下优势:计算量少;训练数据处理成本低,无须标注;稀疏现象减轻, 无须估计大量的HMM参数.
[0064]在步骤S13中,将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信 号对应的支持向量机模型。
[0065] 在一些实施方式中,所述将若干语音信号分别利用MLLR方法在若干子空间内进行 自适应处理的步骤(即步骤SI 1)之前还包括将UBM模块通过EM方法进行聚类,形成若干个所 述子空间的步骤。其中,所述将UBM模块通过EM方法进行聚类的步骤包括:以所述UBM模块各 高斯分量的均值向量作为聚类的特征参数,利用K-均值聚类方法将若干个UBM模块的均值 向量非配到所述若干个子空间中。
[0066] 下面介绍本发明实施例提供的一种基于信道鲁棒的说话人确认模型的训练流程。
[0067] SVM作为一种直接以最小化分类错误为目标函数的分类器,在说话人确认这种两 类分类问题中优势明显,但因说话人识别中目标说话人的训练语料非常少的特殊性而使得 SVM的潜能尚未充分得到发挥。例如,每位目标说话人的正例样本点就只有一个GMM均值超 向量。本发明实施例中将多类MLLR的M-矢量作为SVM的输入特征进行模型的训练和测试。参 见图3,图3是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式中基 于多类MLLR中M-矢量的支持向量机说话人确认系统的训练流程示意图。图3示出的模型训 练流程的步骤如下:
[0068] 步骤1:将UBM通过EM算法聚类成S个子空间;
[0069] 步骤2:冒认者和目标说话人的每一句原始语音分别通过MLLR算法在各子空间中 进行自适应,构建每句话在每个子空间中对应的M-矢量,得到对应于各子空间的M-矢量集 合。
[0070] 步骤3:将M-矢量作为SVM的输入特征并在其核空间中进行信道补偿及相应的说话 人模型训练,用以消除跨信道的问题,从而得到最终每位目标说话人的SVM模型。
[0071] 在测试阶段,对于每一段原始语音,同样经过上述三个步骤在SVM核空间中进行信 道补偿与测试,得到用于最终判决的SVM得分.这里提出的说话人确认系统由于采用了基于 UBM子空间的多类M-矢量,即每位目标说话人的训练正例样本数为子空间数S乘以每个子空 间对应的M-矢量数目N,从而使得目标说话人的正例样本数大大增加,能很好地解决训练数 据的稀疏问题,在更大程度上挖掘出SVM强大的分类能力。须要提出的是:SVM核函数具有较 其他经典分类函数更好的灵活性和易扩展性,因此本申请可灵活地将多种信道补偿方法整 合到SVM核函数中,用以在核空间对M-矢量进行映射来减轻跨信道问题带来的影响,如类内 协方差规整、概率线性鉴别分析及扰动属性核空间映射等.在此以NAP算法为例构建基于M-矢量的SVM核函数(基于SVM余弦核函数基础上的扩展KNAP算法的本质是通过在核空间寻 找一个与信道空间互补的、仅与说话人相关的正交映射矩阵P来最小化信道变化的影响,其 目标函数1·
[0072]
[0073]式中P = I-RRT,R为须要消除的SVM空间中表示信道干扰的方向向量.若Mi和Mj属于 同一说话人,则Li, j = 0,否则Li, j = 1.通过转换成求特征值或特征向量问题即可解出NAP映 射矩阵P,从而实现SVM核空间中的M-矢量信道补偿。
[0074] 参见图4,图4是本发明所述一种基于信道鲁棒的说话人确认方法一实施方式的流 程图。在图4示出的实施方式中,该基于信道鲁棒的说话人确认方法包括步骤S41-42。
[0075] 在步骤S41中,获取如上述任一种与所述语音信号对应的支持向量机模型;
[0076]在步骤S42中,利用所述支持向量机模型识别输入的语音信号的说话人。
[0077] 采用国际说话人识别评测数据库NISTSRE2008[13]核心测试sh〇rt2-sh〇rt3中的 phonecall-phonecall (电话语音训练一电话语音测试)子任务中的女声测试部分作为实 验,总计有1141个目标说话人,23385次测试.总计有1573人,7489段语音.同时,该7489段语 音还用作UBM模型训练和支持向量机目标说话者模型训练中的负例样本.所有语音每段总 长约5分钟,有效语音长度约2.5分钟。
[0078]本申请所提的基于多类MLLR的M-矢量的支持向量机说话人确认系统配置如下:采 用39维PLP作为特征参数,其提取时的帧长为25ms,帧移为10ms。采用基于能量的静音检测 算法去除静音帧,提取的Co~C 12特征参数经过CMS和RASTA进行倒谱域滤波去除信道卷积噪 声,通过一、二阶差分总计构成39维,最后通过短时高斯化对特征进行规整。
[0079] UBM模型训练时采用对角方差的形式,高斯数设为512 矢量构成时重叠加窗的 窗移为169,M-矢量长度设为400,即每一个MLLR转换矩阵可构成39*39/169 = 9个M-矢量。值 得注意的是,在构建多类MLLR过程中,若由于落入某一UBM子空间上的训练数据不足而导致 可能的MLLR自适应时G(i)求逆出现奇异的情况,则可采用全局MLLR转换矩阵代替该子空间 的自适应输出结果.另外,SVM训练和测试时采用的工具为SVM Torch。
[0080] 为了比较,采用经典的音素类MLLR-SVM系统与基于I-矢量和SVM的说话人确认系 统(I-vector-SVM)作为基线系统。在基线系统的实验中,pMLLR-SVM中用到的自动语音识别 系统是在Switchboard数据库上训练得到的,MLLR自适应时采用的音素类别为非语音、元 音、鼻音和辅音(除鼻音、元音外的所有语音)四大类,其中非语音类的MLLR矩阵由于不携带 说话人信息而在本文pMLLR-SVM中不被使用,同样在此系统中采用NAP算法进行信道补偿。 I-vector-SVM系统中的总变异空间维数(即I-矢量维数)设为400。采用衡量说话人确认系 统常用的评价指标等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,minDCF)来比较基线系统和本文所提出的系统性能.表1给出了 将UBM空间聚成不同数目的子空间时,本申请所提的mM-vector-SVM说话人确认系统在MIST SRE2008核心测试的电话语音训练一电话语音测试子任务中的女声测试任务上的性能。
[0081] 从结果来看:整个UBM空间分成三类时系统取得的效果最好,相比表1中第一行采 用全局UBM自适应训练得到的系统而言,等错误率EER(表中用eEER表示)相对下降了9.7%, 最小检测代价minDCF(表中用minDCF表示)也从0.0341下降到0.0307。这表明多类MLLR自适 应得到的M-矢量能更好地描述目标说话人身份信息的细节特性,提高目标说话人模型的准 确性;同时,比较表1中最后两行实验结果可看出,用过细的子空间来描述说话人身份特性 的分布并不能保证系统能取得较优的性能。实际上,UBM子空间数目的设置与目标说话者的 训练数据量的多少紧密相关,在实际应用系统中,一般根据开发集合而定。
[0082] 表1不同UBM子空间聚类数目对系统性能的影响
[0084] 注:高斯分量数是聚类时落在每个UBM子空间内的高斯分量数目.
[0085] 表2给出了本申请所提系统与两套基线系统(系统1和系统2)的性能对比及不同系 统间在得分域上的融合结果。通过比较发现:系统3已经能取得与目前被广泛采用的基于I-矢量的说话人确认系统(系统2)非常接近的性能,但在系统复杂度和构建I-矢量的运算量 需求上,系统2却大得多.而与基于传统音素类的系统1相比,系统3也能取得与之相当甚至 稍好的识别性能。这表明在无需任何语音识别系统的基础上,采用系统3获得的某一 UBM子 空间不仅可与由某一音素类支撑的特征空间等价,还能灵活捕捉到与音素类无关的说话人 或者信道等信息。另外,在说话人的MLLR自适应过程中,系统3只须对聚类后的高斯模型进 行自适应,相比系统1在HMM模型上自适应的情况,系统3大大节省了运算量和时间开销。
[0086] 表2不同系统在女声测试集合上的实验结果
[0088]从系统之间的融合结果来看:由于系统1和3在本质上有相类似的地方,因此融合 后提升空间不大.但系统2和3的融合结果相比最好的系统2的结果在等错误率上相对下降 了 13.3%,minDCF相对下降了22.5%。将3种系统的得分都融合起来可获得进一步的性能提 升.这充分表明:基于MLLR自适应得到的M-矢量与采用因子分析方法得到的I-矢量是从不 同的角度来捕获隐含在原始语音信号中的说话人身份信息的,它们之间体现出了很强的互 补特性。
[0089] 实验结果表明:本申请提出的说话人确认系统可获得与最好的基线系统几乎相当 的性能,同时还表现出很强的互补特性.另外,由于SVM核函数特有的可扩展性,目前多种有 效的信道补偿算法都可整合到本文系统中来,甚至还可将经过不同信道补偿后的核空间进 行组合构建性能更高的SVM说话人确认系统。
[0090] 参见图5,图5是本发明所述一种基于信道鲁棒的说话人确认模型的实现装置一实 施方式的结构示意图。图5示出的基于信道鲁棒的说话人确认模型的实现装置包括自适应 处理模块、矢量集合生成模块和支持向量机模块生成模块。
[0091] 其中,自适应处理模块用于将若干语音信号分别利用MLLR方法在若干子空间内进 行自适应处理。矢量集合生成模块用于构建与所述语音信号在所述子空间内对应的M矢量, 得到与所述子空间对应的M矢量集合。其中,所述矢量集合生成模块包括变换矩阵生成模 块、超矢量生成模块和支持向量机模块生成模块。变换矩阵生成模块,用于对所述语音信号 提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所述语音信号的变换矩阵。超 矢量生成模块,用于将所述变换矩阵的所有行进行排列,得到MLLR超矢量。矢量生成模块, 用于对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。支持向量机模块生成模块用于 将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量机模 型。
[0092] 在一些实施方式中,该结构的基于信道鲁棒的说话人确认模型的实现装置还包括 子空间生成模块。其中,子空间生成模块用于将UBM模块通过EM方法进行聚类,形成若干个 所述子空间。在一些实施方式中,子空间生成模块包括生成子模块。生成子模块用于以所述 UBM模块各高斯分量的均值向量作为聚类的特征参数,利用K-均值聚类方法将若干个UBM模 块的均值向量非配到所述若干个子空间中。
[0093] 参见图6,图6是本发明所述一种基于信道鲁棒的说话人确认装置一实施方式的结 构示意图。图6示出的基于信道鲁棒的说话人确认装置包括向量机模型获取模块和识别模 块。向量机模型获取模块,用于获取前述的与所述语音信号对应的支持向量机模型。识别模 块用于利用所述支持向量机模型识别输入的语音信号的说话人。
[0094] 从上述的实施方式可以看出,本发明实施方式提供的说话人确认模型及说话人确 认方法和装置将现有基于音素类变换矩阵的优势扩展到UBM的基础上来,结合SVM的区分性 分类及其核映射的特点构建了一种基于M-矢量的支持向量机说话人确认系统.相对于采用 I-矢量和传统音素类MLLR变换矩阵的系统,本发明实施方式提供的说话人确认模型及说话 人确认方法和装置对数据量和运算量要求要小很多;不需要任何有文本标注信息的数据, 从而节省了大量人力和财力资源,而且能够取得较高的识别性能及很强的与其他确认系统 的互补性。
[0095] 应该理解,本发明并不局限于上述实施方式,凡是对本发明的各种改动或变型不 脱离本发明的精神和范围,倘若这些改动和变型属于本发明的权利要求和等同技术范围之 内,则本发明也意味着包含这些改动和变型。
【主权项】
1. 一种基于信道鲁棒的说话人确认模型的实现方法,其特征在于,包括: 将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理; 构建与所述语音信号在所述子空间内对应的Μ矢量,得到与所述子空间对应的Μ矢量集 合; 将所述Μ矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量 机模型。2. 如权利要求1所述的一种基于信道鲁棒的说话人确认模型的实现方法,其特征在于, 所述将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理的步骤之前还包 括: 将UBM模块通过ΕΜ方法进行聚类,形成若干个所述子空间。3. 如权利要求2所述的一种基于信道鲁棒的说话人确认模型的实现方法,其特征在于, 所述将UBM模块通过ΕΜ方法进行聚类的步骤包括: 以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利用Κ-均值聚类方法将 若干个UBM模块的均值向量非配到所述若干个子空间中。4. 如权利要求3所述的一种基于信道鲁棒的说话人确认模型的实现方法,其特征在于, 所述构建与所述语音信号在所述子空间内对应的Μ矢量的步骤包括: 对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所述语 音信号的变换矩阵; 将所述变换矩阵的所有行进行排列,得到MLLR超矢量; 对所述MLLR超矢量进行重叠加窗分割得到所述Μ矢量。5. -种基于信道鲁棒的说话人确认方法,其特征在于,包括: 获取如权利要求1-4任一项所述的与所述语音信号对应的支持向量机模型; 利用所述支持向量机模型识别输入的语音信号的说话人。6. -种基于信道鲁棒的说话人确认模型的实现装置,其特征在于,包括: 自适应处理模块,用于将若干语音信号分别利用MLLR方法在若干子空间内进行自适应 处理; 矢量集合生成模块,用于构建与所述语音信号在所述子空间内对应的Μ矢量,得到与所 述子空间对应的Μ矢量集合; 支持向量机模块生成模块,用于将所述Μ矢量集合作为支持向量机的输入特征,得到与 所述语音信号对应的支持向量机模型。7. 如权利要求6所述的一种基于信道鲁棒的说话人确认模型的实现装置,其特征在于, 还包括: 子空间生成模块,用于将UBM模块通过ΕΜ方法进行聚类,形成若干个所述子空间。8. 如权利要求7所述的一种基于信道鲁棒的说话人确认模型的实现装置,其特征在于, 子空间生成模块包括: 生成子模块,用于以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利用Κ-均值聚类方法将若干个UBM模块的均值向量非配到所述若干个子空间中。9. 如权利要求8所述的一种基于信道鲁棒的说话人确认模型的实现装置,其特征在于, 所述矢量集合生成模块包括: 变换矩阵生成模块,用于对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢 量形成方法得到所述语音信号的变换矩阵; 超矢量生成模块,用于将所述变换矩阵的所有行进行排列,得到MLLR超矢量; 矢量生成模块,用于对所述MLLR超矢量进行重叠加窗分割得到所述Μ矢量。10. -种基于信道鲁棒的说话人确认装置,其特征在于,包括: 向量机模型获取模块,用于获取如权利要求6-9任一项所述的与所述语音信号对应的 支持向量机模型; 识别模块,用于利用所述支持向量机模型识别输入的语音信号的说话人。
【文档编号】G10L17/04GK105845141SQ201610172765
【公开日】2016年8月10日
【申请日】2016年3月23日
【发明人】陈昊亮
【申请人】广州势必可赢网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1