一种用于语种识别的建模方法及装置的制作方法

文档序号:2823651阅读:201来源:国知局
专利名称:一种用于语种识别的建模方法及装置的制作方法
技术领域
本发明涉及语音识别、模式识别和信号处理,具体而言,本发明涉及一种用于语种 识别的建模方法及装置。
背景技术
语种识别是指利用机器判别给定语音语言种类的技术。语种识别技术是多语言处 理系统的前端,可用于语音人性化服务、语音安全监控等领域。目前,语种识别领域最流行的系统建模方法是对预处理后的语音提取频谱层 特征,随后采用 GMM(Gaussian Mixture Models,高斯混合模型)或 SVM (Support Vector Machine,支持向量机)进行系统建模。常用的频谱层特征有Mel频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)和感知 线性预测(PLP)及它们的衍生特征。经过特征提取过程,预处理的语音信号转化为更容易 进行语种识别的时间序列。GMM和SVM这两种建模方法试图从两种角度对时间序列进行识 别。前者利用模型参数对时间序列的分布进行拟合;后者在高维空间寻找最优分类面。两 类建模方法各有所长GMM建模方法参数物理意义明确,在训练、识别数据充分的情况下有 较好的性能;SVM建模方法基于结构风险最小化原则,在训练数据稀少的情况下有较好的 识别能力。最近提出的GMM-SVM建模方法将GMM模型本身作为SVM分类器的输入。与GMM或SVM建模方法相比,GMM-SVM建模方法具有两个明显优点1)利用支持向 量机算法对GMM的权重、权重或方差进行鉴别式建模,提高语种识别率;2)融合子空间投影(补偿)技术,可以解决训练数据与待识别语音数据信道不匹 配的问题,并进一步解决待识别语音数据稀少的问题。GMM-SVM建模方法的不足之处在于1)GMM的协方差矩阵通常被简化为对角阵,协方差矩阵的非对角阵元素所含有的 鉴别式信息并没有被利用;2)GMM模型不包含高阶统计量(3阶以及3阶以上),而合理使用高阶统计量可以 有效提高语种识别率;3)GMM-SVM的子空间投影和子空间补偿技术都基于线性空间,而时间序列所隐含 的非线性信息没有被有效利用。

发明内容
本发明的目的旨在至少解决上述技术缺陷之一,特别针对有效利用时间序列的高 阶统计量,更可以采用线性子空间、非线性子空间技术对提出的统计量进行投影补偿,进一 步提升语种识别系统性能,提出了一种用于语种识别的建模的方法及装置。为实现上述目的,本发明实施例一方面提出了一种用于语种识别的建模方法,包 括如下步骤输入语音数据,对所述语音数据预处理得到特征序列,所述特征序列由特征向量组成,并根据坐标系选择算法和特征矢量映射算法,将所述特征矢量映射为超矢量,对所述 超矢量进行投影和补偿,通过支持向量机算法建立并训练语种模型;输入待测语音,对所述待测语音预处理得到特征序列,所述特征序列由特征向量 组成,并根据坐标系选择算法和特征矢量映射算法,将所述特征矢量映射为待测超矢量,对 所述待测超矢量进行投影和补偿,利用所述语种模型对所述待测超矢量打分,识别所述待 测语音的语言种类。本发明实施例另一方面提出了一种用于语种识别的建模装置,包括语音预处理模 块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投 影补偿模块、训练模块和识别模块。其中,语音预处理模块,用于降噪,并去除与语种识别无关的内容,输出去除后的 纯语音;特征提取模块,用于读入所述预处理模块的语音,并提取特征,输出特征序列,所 述特征序列由特征向量组成;多坐标系原点选择模块,用于选取辅助训练集,在特征序列空间选择各个坐标系 原点;特征矢量映射模块,用于根据选定的各个坐标系原点,将所述特征提取模块输出 的特征矢量映射成为超矢量;子空间提取模块,用于利用辅助训练集上的超矢量训练语种子空间和信道子空 间;子空间投影补偿模块,用于利用所述语种子空间和信道子空间,对所述语音数据 的超矢量和待测语音的超矢量进行投影补偿;训练模块,用于对经过子空间投影补偿的超矢量,采用支持向量机算法建立并训 练语种模型;识别模块,利用所述语种模型对所述待测超矢量打分,识别所述待测语音的语言 种类。根据本发明实施例提供的用于语种识别的建模方法及装置,通过对语音信号特征 序列的高维统计量有效建模,并采用子空间技术,去除了高维统计量中对识别无效的信息, 提高了语种识别的正确率,又降低了在集成电路上的运算复杂度。本发明提出的上述方案,对现有系统的改动很小,不会影响系统的兼容性,而且实 现简单、高效。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。


本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中图1为根据本发明实施例的用于语种识别的建模方法结构框图;图2为图1中用于语种识别的建模方法的实施流程图;图3为根据本发明实施例的用于语种识别的建模装置的结构框图。
具体实施例方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。为实现本发明之目的,本发明实施例公开了一种用于语种识别的建模方法。图1 示出了该建模方法的流程框图。如图1所示,该方法包括如下步骤SlOl 输入语音数据,对语音数据预处理得到特征序列,并根据坐标系选择算法和 特征矢量映射算法,将特征矢量映射为超矢量,对超矢量进行投影和补偿,通过支持向量机 算法建立并训练语种模型;具体的说,结合图2所示,首先输入语音数据,然后执行如下步骤Al 语音数据预处理。All 对语音数据即语音信号进行零均值化和预加重,其中零均值化为整段语音减 去其均值。预加重为语音进行高通滤波。其中,高通滤波器传输函数为H(Z) = l-αζ—1,其中0.95彡α彡1。Α12 对语音信号分帧。其中,帧长为20ms,帧移为10ms。A2 从预处理的语音数据中提取特征序列。特征序列是由一系列的特征向量组成。A21 对语音信号加汉明窗,其中窗函数为 A22 对加汉明窗的数据做离散傅立叶变换(DFT) 其中代表频率,k代表频率标号,N是DFT变换点数。A23 选择有M(m = 1,2,…,Μ)个滤波器的滤波器组,其中第m个三角型滤波器如 下定义 其中,间=l,f[m]为三角窗的边界点,由下式确定 rnn^r^·)fx和fh为给定滤波器组的最低频率和最高频率,B为频率向梅尔频标的映射函数 B—1为梅尔频标向频率的映射函数B-1 (b) = 700exp ((b/1125) _1)。
A24 计算每个滤波器输出的对数能量 A25 离散余弦变换,并计算MFCC系数 取前7维系数,拼接成为MFCC基本特征c = [c0, C1,…,C6]。A26 计算第η时刻的偏移差分倒谱特征(SDC),s(iN+J) (η) = Cj(n+iS+b)-Cj(n+iS-b), j = 1,2, -,N-I ;i = 0,1,…,K_1其中,b为计算一阶差分特征时的帧数差,一般取值为1 ;K为块数,一般取值为7 ; S为各块之间的偏移帧数,一般取值为3。在本实施例中,b = 1,K = 7,S = 3A27 将基本特征与差分特征拼接,形成新的特征矢量。y(n) = Icj(η),j = 0,1,...,N_1 ;siN+J(n),j = 0,1,...,N_l,i = 0,l,...,K_1}。A3 选取各个坐标系原点,提取高维统计量。A31 在辅助训练数据集上,通过EM算法选取多坐标系原点坐标ο = Io1, O2,…, oj,C为坐标系数目。A32:选择特征矢量y(n)与原点坐标Oj的度量f[y (η),ο。],1彡c彡C,并计算特 征矢量y(n)在每个子坐标系的占有率 A33:选择特征矢量y(n)在坐标系内的扩展函数g[y (η),c。],结合步骤Α32计算 所得的占有率,将特征矢量y(η)映射为超矢量ν (n) = [r [y (η) | O1] g[y (η), oj , r [y (η) | ο2] g[y (η), ο2], ···, r[y (η) | oc) g(y (η),

Α34 超矢量序列ν(η)对时间取平均,得到该段语音的超矢量 Α4 采用子空间技术,寻找信道子空间和语种子空间。其中,信道子空间为超矢量所属空间所包含的,不利于识别的子空间。语种子空间 为超矢量所属空间所包含的,有利于识别的子空间。通过子空间投影、补偿技术,提取超矢量ν中仅有利于语种识别的部分。Α41 在辅助训练数据集上,提取语音超矢量Ivtl, V1, V2,…,vL}。对辅助训练集的 要求是,尽量包含训练、识别语音的语言种类,并且每个语种要对应多段语音。A42 对提取的语音超矢量{vQ,V1, V2,…,vL}采用主成分分析算法(PCA,包括直 接求解矩阵方法和迭代求解法),提取语种子空间L。A43 对提取的语音超矢量{Vq,Vi,V2,…,vj进行修正,每个超矢量减去对应语种 超矢量的期望,得到新的语音超矢量Iv' o'V ι;ν' 2,…,ν' J。对新的语音超矢量采 用主成分分析算法(PCA,包括直接求解矩阵方法和迭代求解法),提取信道子空间U。A5:利用语种子空间L、信道子空间U,对超矢量ν进行投影和补偿,提取超矢量ν仅存在于语种子空间L的部分/。A6 通过支持向量机算法,建立语种模型。A61 支持向量机训练算法;令输入样本集为(V》, ),p= [1,2,...,Ρ],θρ e {+1,-1},通常,θρ = +1 的样 本称为正样本,θρ = -1的样本称为负样本。SVM算法寻找最优分类面w,使得正负样本集 之间的距离最大。最优分类面w是通过求解下述优化函数而得 其中,Il w Il 2与正负样本之间距离成反比,ξ ρ是在样本线性不可分的情况下引入 的松弛变量,C是控制错分样本的惩罚程度。上式在对偶空间求解,优化函数变为 设最优解α 则最优分类面是训练样本的组合{《咚咕}, Α62 对步骤Α5中获得的超矢量,采用步骤Α61中的支持向量机算法建立并训练语 种模型。S102 输入待测语音,对待测语音预处理得到特征序列,并根据坐标系选择算法和 特征矢量映射算法,将特征矢量映射为待测超矢量,对待测超矢量进行投影和补偿,利用语 种模型对待测超矢量打分,识别待测语音的语言种类。具体的说,首先输入待测语音,然后采用上述步骤Α1、Α2、Α3和Α5中的方法提取超矢量。Bl 根据输入的待测语音,采用上述步骤Α1、Α2、Α3和Α5中的方法提取超矢量。具 体的说,Bll 对待测语音进行预处理,从预处理后的待测语音中提取特征序列,特征序列 是由一系列的特征向量组成;Β12 根据步骤A3中得到的各个坐标系原点,利用根据坐标系选择算法和特征序 列映射算法,将特征矢量映射成待测超矢量;Β13 根据待测超矢量,通过步骤Α4中得到的信道子空间和语种子空间,利用信道 子空间和语种子空间对待测超矢量进行投影和补偿,提取待测超矢量仅存在于语种子空间 的部分;Β2 利用步骤Α62中训练的语种模型,对步骤Bl中输出的超矢量进行打分,得到输 出分数。其中打分函数为 Β3 对步骤Β2的输出分数进行后处理,与判决门限比较,判别该段语音的语言种类。 根据本发明实施例提供的用于语种识别的建模方法,通过对语音信号特征序列的 高维统计量有效建模,并采用子空间技术,去除了高维统计量中对识别无效的信息,提高了 语种识别的正确率,又降低了在集成电路上的运算复杂度。本发明实施例还提出了一种用于语种识别的建模装置。图3示出了该建模装置的 结构框图。如图3中所示,该装置包括特征提取模块、多坐标系原点选择模块、特征矢量映 射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。其中,语音预处理模块,用于降噪,并去除彩铃、音乐等与语种识别无关的部分,输 出纯净语音供特征提取模块;All 语音预处理模块对语音数据即语音信号进行零均值化和预加重,其中零均值 化为整段语音减去其均值。预加重为语音进行高通滤波。其中,高通滤波器传输函数为H(Z) = l-αζ—1,其中0.95彡α彡1。Α12 语音预处理模块对语音信号分帧。其中,帧长为20ms,帧移为10ms。特征提取模块,用于读入预处理模块的语音,并提取特征,输出特征序列。其中,特 征序列由特征向量组成。特征序列是由一系列的特征向量组成。A21 特征提取模块对语音信号加汉明窗,其中窗函数为 A22 特征提取模块对加汉明窗的数据做离散傅立叶变换(DFT) 其中代表频率,k代表频率标号,N是DFT变换点数。A23:特征提取模块选择有M(m= 1,2, -,Μ)个滤波器的滤波器组,其中第m个三 角型滤波器如下定义 其中
三角窗的边界点,由下式确定fx和fh为给定滤波器组的最低频率和最高频率,B为频率向梅尔频标的映射函数B(f) = 11251η (1+(f/700)),B—1为梅尔频标向频率的映射函数B-1 (b) = 700exp ((b/1125) _1)。A24 特征提取模块计算每个滤波器输出的对数能量 Sfm] = In \Xu,[k}\2Hm[k} ,0 < m < MA25 离散余弦变换,并计算MFCC系数 取前7维系数,拼接成为MFCC基本特征c = [cQ,Cl,···,(』。A26 特征提取模块计算第η时刻的偏移差分倒谱特征(SDC),s(iN+J) (η) = Cj(n+iS+b)-Cj(n+iS-b), j = 1,2, -,N-I ;i = 0,1,…,K_1其中,b为计算一阶差分特征时的帧数差,一般取值为1 ;K为块数,一般取值为7 ; S为各块之间的偏移帧数,一般取值为3。在本实施例中,b = 1,K = 7,S = 3Α27 特征提取模块将基本特征与差分特征拼接,形成新的特征矢量。y(n) = {Cj(n), j = 0,1,…,N_1 ;siN+J (η),j = 0,1, ...,N_l,i = 0,l, ...,K_1}多坐标系原点选择模块,用于选取辅助训练集,在特征序列空间选择各个坐标系 原点。Α31 多坐标系原点选择模块在辅助训练数据集上,通过EM算法选取多坐标系原 点坐标ο = {0l,cv",0J,C为坐标系数目。A32 多坐标系原点选择模块选择特征矢量y (η)与原点坐标0j的度量f[y(n), oj , 1 ^ c ^ C,并计算特征矢量y (η)在每个子坐标系的占有率 特征矢量映射模块,用于根据选定的各个坐标系原点,将特征提取模块输出的特 征矢量映射成为超矢量。Α33 多坐标系原点选择模块选择特征矢量y (η)在坐标系内的扩展函数g[y (η), c。],根据计算所得的占有率,特征矢量映射模块将特征矢量y (η)映射为超矢量V (n) = [r [y (η) | O1] g[y (η), oj , r [y (η) | ο2] g[y (η), ο2], ···, r[y (η) | oc) g(y (η),
oj]Α34 超矢量序列ν(η)对时间取平均,得到该段语音的超矢量ν = ^ELivW0子空间提取模块,用于利用辅助训练集上的超矢量训练语种子空间和信道子空 间。其中,信道子空间为超矢量所属空间所包含的,不利于识别的子空间。语种子空间 为超矢量所属空间所包含的,有利于识别的子空间。通过子空间投影、补偿技术,提取超矢量ν中仅有利于语种识别的部分。Α41 在辅助训练数据集上,子空间提取模块提取语音超矢量Ivtl, V1, V2,…,vL}。 对辅助训练集的要求是,尽量包含训练、识别语音的语言种类,并且每个语种要对应多段语
曰°A42 子空间提取模块对提取的语音超矢量Ivtl, V1, V2,…,vL}采用主成分分析算 法(PCA,包括直接求解矩阵方法和迭代求解法),提取语种子空间L。
A43 子空间提取模块对提取的语音超矢量Ivtl,Vl,v2,…,vj进行修正,每个超矢 量减去对应语种超矢量的期望,得到新的语音超矢量{V 0,ν' ι;ν' 2,…,V' J。对新 的语音超矢量采用主成分分析算法(PCA,包括直接求解矩阵方法和迭代求解法),提取信 道子空间U。子空间投影补偿模块,用于利用语种子空间和信道子空间,对语音数据的超矢量 和待测语音的超矢量进行投影补偿。利用语种子空间L、信道子空间U,对超矢量ν进行投影和补偿,提取超矢量ν仅存 在于语种子空间L的部分/。训练模块,用于对经过子空间投影补偿的超矢量,采用支持向量机算法建立并训 练语种模型。A61 支持向量机训练算法;训练模块令输入样本集为(兮為),ρ = [1,2, -,P], θρ e {+1,-1},通常,θρ = +1的样本称为正样本,θρ = -1的样本称为负样本。SVM算法寻找最优分类面W,使得正负 样本集之间的距离最大。最优分类面w是通过求解下述优化函数而得其中,Il w Il 2与正负样本之间距离成反比,ξ ρ是在样本线性不可分的情况下引入 的松弛变量,C是控制错分样本的惩罚程度。上式在对偶空间求解,优化函数变为 设最优解α 则最优分类面是训练样本的组合{《 <},ρ = [1,2,…,P]。Α62 训练模块对已获得的超矢量,采用上述步骤Α61中的支持向量机算法建立并 训练语种模型。本发明实施例提供的用于语种识别的建模装置还包括多坐标系原点存储模块、子 空间模型存储模块和语种模型存储模块,其中,多坐标系原点存储模块,用于存储来自多坐标系原点选择模块的坐标系原 点;子空间模型存储模块,用于存储来自子空间选择模块的语种子空间和信道子空间;语 种模型存储模块,用于存储来自训练模块的语种模型。本发明实施例提供的用于语种识别的建模装置进一步包括识别模块,利用语种模 型对待测超矢量打分,识别待测语音的语言种类。具体的说,识别模块输入待测语音,对待测语音预处理得到特征序列,并根据坐标 系选择算法和特征矢量映射算法,将特征矢量映射为待测超矢量,对待测超矢量进行投影 和补偿,利用语种模型对待测超矢量打分,识别待测语音的语言种类。首先输入待测语音,然后采用上述步骤Al、Α2、A3和Α5中的算法提取超矢量。Bl 语音预处理模块根据输入的待测语音,采用上述步骤Al、Α2、A3和Α5中的算 法提取超矢量包括
Bll 特征提取模块对待测语音进行预处理,从预处理后的待测语音中提取特征序 列,特征序列是由一系列的特征向量组成;B12:根据多坐标系原点存储模块存储的坐标系原点,特征矢量映射模块通过坐标 系选择算法和特征序列映射算法,将所述特征矢量映射成待测超矢量;B13:根据待测超矢量以及子空间模型存储模块存储的语种子空间和信道子空间, 子空间投影补偿模块利用信道子空间和语种子空间对待测超矢量进行投影和补偿,提取待 测超矢量仅存在于语种子空间的部分;B2 识别模块利用语种模型存储模块存储的语种模型,根据子空间投影补偿模块 输出的超矢量进行打分,得到输出分数。其中打分函数为 B3:识别模块对输出分数进行后处理,与判决门限比较,判别该段语音的语言种类。根据本发明实施例提供的用于语种识别的建模装置,通过对语音信号特征序列的 高维统计量有效建模,并采用子空间技术,去除了高维统计量中对识别无效的信息,提高了 语种识别的正确率,又降低了在集成电路上的运算复杂度。本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可 以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中, 该程序在执行时,包括方法实施例的步骤之一或其组合。另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模 块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如 果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机 可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本发明的保护范围。
权利要求
一种用于语种识别的建模方法,其特征在于,包括如下步骤输入语音数据,对所述语音数据预处理得到特征序列,所述特征序列由特征向量组成,并根据坐标系选择算法和特征矢量映射算法,将所述特征矢量映射为超矢量,对所述超矢量进行投影和补偿,通过支持向量机算法建立并训练语种模型;输入待测语音,对所述待测语音预处理得到特征序列,所述特征序列由特征向量组成,并根据坐标系选择算法和特征矢量映射算法,将所述特征矢量映射为待测超矢量,对所述待测超矢量进行投影和补偿,利用所述语种模型对所述待测超矢量打分,识别所述待测语音的语言种类。
2.如权利要求1所述的建模方法,其特征在于,所述通过支持向量机算法建立并训练 语种模型进一步包括1)对所述语音数据进行预处理,从所述预处理后的语音数据中提取特征序列;2)从所述特征矢量所在的空间中选择各个坐标系原点,确定所述特征矢量与坐标系原 点之间的度量关系,根据坐标系选择算法和特征矢量映射算法,将所述特征矢量映射为超 矢量;3)根据所述超矢量,训练信道子空间和语种子空间,利用所述语信道子空间和语种子 空间对超矢量进行投影和补偿,提取超矢量仅存在于语种子空间的部分;4)通过支持向量机算法,建立并训练语种模型。
3.如权利要求2所述的建模方法,其特征在于,所述从特征序列所在的空间中选择各 个坐标系原点包括以下两种方式之一采用EM算法训练高斯混合模型,并将高斯混合模型均值作为各个坐标系原点;采用VQ算法,选用VQ码本作为各个坐标系的原点。
4.如权利要求1所述的建模方法,其特征在于,所述利用语种模型对所述待测超矢量 打分,识别所述待测语音的语言种类进一步包括1)对所述待测语音进行预处理,从所述预处理后的待测语音中提取特征序列;2)利用根据坐标系选择算法和特征序列映射算法,将所述特征矢量映射成待测超矢量;3)根据所述待测超矢量,利用所述信道子空间和语种子空间对所述待测超矢量进行投 影和补偿,提取所述待测超矢量仅存在于语种子空间的部分;4)利用所述语种模型对所述待测超矢量进行打分,与判决门限比较,识别所述待测语 音的语言种类。
5.如权利要求2所述的建模方法,其特征在于,所述训练信道子空间和语种子空间通 过以下算法之一主成分分析算法、概率主成分分析算法或者基于核方法的主成分分析算法。
6.如权利要求2或4所述的建模方法,其特征在于,利用所述信道子空间和语种子空间 对所述待测超矢量进行投影和补偿进一步包括对所述语音数据,选取所述超矢量仅存在于语种子空间的部分;对所述待测语音,选取所述待测超矢量仅存于语种子空间的部分。
7.一种用于语种识别的建模装置,其特征在于,包括语音预处理模块、特征提取模块、 多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块,其中,语音预处理模块,用于降噪,并去除与语种识别无关的内容,输出去除后的纯语曰;特征提取模块,用于读入所述预处理模块的语音,并提取特征,输出特征序列,所述特 征序列由特征向量组成;多坐标系原点选择模块,用于选取辅助训练集,在特征序列空间选择各个坐标系原占. 特征矢量映射模块,用于根据选定的各个坐标系原点,将所述特征提取模块输出的特 征矢量映射成为超矢量;子空间提取模块,用于利用辅助训练集上的超矢量训练语种子空间和信道子空间; 子空间投影补偿模块,用于利用所述语种子空间和信道子空间,对所述语音数据的超 矢量和待测语音的超矢量进行投影补偿;训练模块,用于对经过子空间投影补偿的超矢量,采用支持向量机算法建立并训练语 种模型;识别模块,利用所述语种模型对所述待测超矢量打分,识别所述待测语音的语言种类。
8.如权利要求7所述的建模装置,其特征在于,所述建模装置通过支持向量机算法建 立并训练语种模型进一步包括1)语音预处理模块对所述语音数据进行预处理,特征提取模块从所述预处理后的语音 数据中提取特征序列;2)所述多坐标系原点选择模块从所述特征序列所在的空间中选择各个坐标系原点,确 定所述特征矢量与坐标系原点之间的度量关系,所述特征矢量映射模块根据坐标系选择算 法和特征矢量映射算法,将所述特征矢量映射为超矢量;3)所述子空间提取模块根据所述超矢量,训练信道子空间和语种子空间,所述子空间 投影补偿模块利用所述语信道子空间和语种子空间对超矢量进行投影和补偿,提取超矢量 仅存在于语种子空间的部分;4)所述训练模块通过支持向量机算法,建立并训练语种模型。
9.如权利要求8所述的建模装置,其特征在于,所述多坐标系原点选择模块从特征序 列所在的空间中选择各个坐标系原点包括以下两种方式之一采用EM算法训练高斯混合模型,并将高斯混合模型均值作为各个坐标系原点; 采用VQ算法,选用VQ码本作为各个坐标系的原点。
10.如权利要求7所述的建模装置,其特征在于,所述建模装置还包括多坐标系原点存 储模块、子空间模型存储模块和语种模型存储模块,所述多坐标系原点存储模块,用于存储来自所述多坐标系原点选择模块的坐标系原占. 所述子空间模型存储模块,用于存储来自所述子空间选择模块的语种子空间和信道子 空间;所述语种模型存储模块,用于存储来自所述训练模块的语种模型。
11.如权利要求10所述的建模装置,其特征在于,所述建模装置利用语种模型对所述 待测超矢量打分,识别所述待测语音的语言种类进一步包括31)所述语音预处理模块对所述待测语音进行预处理,所述特征提取模块从所述预处理 后的待测语音中提取特征序列,所述特征序列由特征向量组成;2)根据所述多坐标系原点存储模块存储的坐标系原点,特征矢量映射模块,通过坐标 系选择算法和特征序列映射算法,将所述特征矢量映射成待测超矢量;3)所述子空间提取模块根据所述待测超矢量,利用所述子空间模型存储模块存储的语 种子空间和信道子空间,对所述待测超矢量进行投影和补偿,提取所述待测超矢量仅存在 于语种子空间的部分;4)所述识别模块利用所述语种模型存储模块存储的语种模型对所述待测超矢量进行 打分,与判决门限比较,识别所述待测语音的语言种类。
12.如权利要求8所述的建模装置,其特征在于,所述子空间提取模块训练信道子空间 和语种子空间通过以下算法之一主成分分析算法、概率主成分分析算法或者基于核方法的主成分分析算法。
13.如权利要求8或11所述的建模装置,其特征在于,所述子空间投影补偿模块利用所 述信道子空间和语种子空间对所述待测超矢量进行投影和补偿进一步包括对所述语音数据,选取所述超矢量仅存在于语种子空间的部分;对所述待测语音,选取所述待测超矢量仅存于语种子空间的部分。
全文摘要
本发明的实施例提出了一种用于语种识别的建模方法,包括输入语音数据,对语音数据预处理得到特征序列,将特征矢量映射为超矢量,对超矢量进行投影补偿,通过支持向量机算法建立训练语种模型;对待测语音采用上述步骤得到待测超矢量,对待测超矢量进行投影补偿,利用语种模型对所述待测超矢量打分,识别待测语音的语言种类。本发明实施例还提出了一种用于语种识别的建模装置包括语音预处理模块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。根据本发明实施例提供的方法及装置,去除高维统计量中对识别无效的信息,提高语种识别的正确率,降低在集成电路上的运算复杂度。
文档编号G10L15/02GK101894548SQ20101020723
公开日2010年11月24日 申请日期2010年6月23日 优先权日2010年6月23日
发明者何亮, 刘加, 张卫强 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1