用于构建多语言声学模型的设备和方法

文档序号:2826459阅读:168来源:国知局
用于构建多语言声学模型的设备和方法
【专利摘要】提供了一种用于构建多语言声学模型的设备和方法。用于构建多语言声学模型的方法包括:将输入特征划分为共同语言部分和区别语言部分,通过使用神经网络训练划分的共同语言部分和区别语言部分以估计和去除音素之间的相关性来获得串联特征,将使用串联特征构建的初始声学模型的参数划分为共同语言参数和区别语言参数,使用训练语言的数据适应于共同语言参数,使用目标语言的数据适应于区别语言参数,并使用适应的共同语言参数和适应的区别语言参数来构建针对目标语言的声学模型。
【专利说明】用于构建多语言声学模型的设备和方法
[0001]本申请要求于2012年11月23日在美国专利商标局提交的61/729,447号美国临时申请以及于2013年9月26日在韩国知识产权局提交的10-2013-0114397号韩国专利申请的优先权,该申请的公开通过引用合并于此。
【技术领域】
[0002]与示例性实施例一致的设备和方法涉及构建多语言声学模型,更具体地说,涉及构建反映多种语言以及体现语言的地区特点的方言的多语言声学模型。
【背景技术】
[0003]各种类型的电子装置(诸如智能电话和智能电视)可提供语音识别功能。例如,利用基于统计学的技术的声学模型可用于语音识别。
[0004]然而,由于每个国家或地区具有不同的语言特点,单个声学模型可能无法覆盖针对每个国家或地区中建立的所有语言和语言特点的语音识别。因此,语音识别技术可使用针对每个语言的不同的声学模型以提供语音识别的功能。
[0005]一种构建用于语音识别的声学模型的方法是确保每种语言具有充足的数据。对于许多人使用的语言(诸如英语、汉语、意大利语、德语和西班牙语),可能更容易获得充足的数据,然而对于少数人使用的语言或者难以接触的语言,可能难以获得充足的数据。
[0006]因此,可使用基于隐马尔可夫模型(HMM)/高斯混合模型(GMM)的自适应技术来构建用于多种语言或方言的声学模型。具体地说,可使用存在充足的数据的语言的数据来构建种子声学模型。可使用适应于将被构建的语言的声学模型的基于HMM/GMM的自适应技术来构建种子声学模型。
[0007]然而,当使用这种方法来基于HMM/GMM构建用于多种语言和方言的声学模型时,用于自适应技术的语言必须具有相同的音素级单位。例如,为了获得英式英语声学模型,美式英语声学模型可被用作训练声学模型,而韩语声学模型可能不能被使用。另外,当使用该方法来基于HMM/GMM构建用于多种语言和方言的声学模型时,为了提高语音识别性能,需要针对目标语言的大量数据来获得声学模型。

【发明内容】

[0008]示例性实施例可克服上述缺点和上面没有描述的其它缺点。此外,示例性实施例无需克服上述缺点,示例性实施例可不克服上述的任何问题。
[0009]根据示例性实施例,提供了一种用于构建多语言声学模型的方法,所述方法包括:将输入特征划分为共同语言部分和区别语言部分,通过使用神经网络训练划分的共同语言部分和区别语言部分以估计和去除音素之间的相关性,来获得串联特征;将使用串联特征构建的初始声学模型的参数划分为共同语言参数和区别语言参数,使用训练语言的数据适应于共同语言参数,使用目标语言的数据适应于区别语言参数,并使用适应的共同语言参数和适应的区别语言参数来构建针对目标语言的声学模型。[0010]划分输入特征的步骤可包括将目标语言的输入特征划分为共同语言部分和区别语言部分。获得串联特征的步骤可包括使用神经网络训练划分的共同语言部分和区别语言部分,通过将经由训练而输出的共同语言部分和区别语言部分组合,来获得串联特征。
[0011]训练的步骤可包括:使用神经网络估计共同语言部分和区别语言部分的音素的后验概率值;去除音素之间的相关性。
[0012]在估计的步骤中,可使用多层感知器(MLP)模型来估计训练语言的音素的后验概率值,在去除的步骤中,使用主成分分析(PCA)步骤来去除音素之间的相关性。
[0013]可使用训练语言数据基于神经网络训练共同语言部分,可使用目标语言数据基于神经网络训练区别语言部分。
[0014]构建的步骤可包括:通过针对获得的串联特征执行子空间高斯混合模型(SGMM)训练来构建SGMM声学模型声学模型的参数划分为共同语言参数和区别语言参数;使用训练语言数据适应于共同语言参数,使用目标语言数据适应于区别语言参数;通过将使用训练语言而适应的共同语言参数和使用目标语言而适应的区别语言参数组合,来构建针对目标语言的声学模型。
[0015]可使用最大似然线性回归(MLLR)算法和最大后验(MAP)算法中的至少一个来执行自适应。
[0016]训练语言的数据量可大于目标语言的数据量。
[0017]根据另一不例性实施例的一方面,提供了一种多语言声学模型构建设备,包括:串联特征获得器,被配置为将目标语言的输入特征划分为共同语言部分和区别语言部分,通过使用神经网络训练划分的共同语言部分和区别语言部分来获得串联特征;声学模型训练器,被配置为将使用串联特征构建的初始声学模型的参数划分为共同语言参数和区别语言参数,使用训练语言的数据适应于共同语言参数,使用目标语言的数据适应于区别语言参数,并使用适应的共同语言参数和适应的区别语言参数来构建针对目标语言的声学模型。
[0018]串联特征获得器可包括:划分器,被配置为将目标语言的输入特征划分为共同语言部分和区别语言部分;训练器,被配置为使用神经网络训练划分的共同语言部分和区别语言部分;特征组合器,被配置为通过将经由训练而输出的共同语言部分和区别语言部分组合,来获得串联特征。
[0019]训练器可包括:估计器,被配置为使用神经网络估计共同语言部分和区别语言部分的音素的后验概率值;去除器,去除音素之间的相关性。
[0020]估计器可使用多层感知器(MLP)模型来估计训练语言的音素的后验概率值,其中,去除器使用主成分分析(PCA)步骤来去除音素之间的相关性。
[0021]可使用训练语言数据基于神经网络训练共同语言部分,可使用目标语言数据基于神经网络训练区别语言部分。
[0022]声学模型训练器可包括:SGMM声学模型训练器,被配置为通过针对获得的串联特征执行子空间高斯混合模型(SGMM)训练来构建SGMM声学模型;参数划分器,被配置为将SGMM声学模型的参数划分为共同语言参数和区别语言参数;适应器,被配置为使用训练语言数据适应于共同语言参数,使用目标语言数据适应于区别语言参数;参数组合器,被配置为通过将使用训练语言而适应的共同语言参数和使用目标语言而适应的区别语言参数组合,来构建针对目标语言的声学模型。[0023]适应器可使用最大似然线性回归(MLLR)算法和最大后验(MAP)算法中的至少一个来执行自适应。
[0024]训练语言的数据量可大于目标语言的数据量。
[0025]根据另一示例性实施例的一方面,提供了一种记录用于执行多语言声学模型构建方法的程序的非暂时性计算机可读介质,所述方法包括:将输入特征划分为共同语言部分和区别语言部分,通过使用神经网络训练划分的共同语言部分和区别语言部分以估计和去除音素之间的相关性,来获得串联特征;将使用串联特征构建的初始声学模型的参数划分为共同语言参数和区别语言参数,使用训练语言的数据适应于共同语言参数,使用目标语言的数据适应于区别语言参数,并使用适应的共同语言参数和适应的区别语言参数来构建针对目标语言的声学模型。
【专利附图】

【附图说明】
[0026]通过参照附图描述特定示例性实施例,以上和/或其它方面将更明显,其中:
[0027]图1是根据示例性实施例的多语言语音识别设备的配置的框图;
[0028]图2是根据示例性实施例的串联特征获得器的配置的框图;
[0029]图3是根据示例性实施例的声学模型训练器的配置的框图;
[0030]图4A和图4B被提供以描述根据不例性实施例的基于HMM/GMM的声学模型和基于SGMM的声学模型;
[0031]图5是示出根据示例性实施例的构建多语言声学模型的方法的流程图。
【具体实施方式】
[0032]现在将参照附图更详细地描述特定示例性实施例。
[0033]在下面的描述中,即使在不同的附图中,相同的附图标号也用于相同的元件。在描述中定义的事项(诸如详细的构造和元件)被提供以帮助全面的理解。因此,显然,在没有那些具体定义的事项的情况下也可实施示例性实施例。此外,由于公知功能或构造可能模糊一个或多个示例性实施例,因此不详细描述公知功能或构造。
[0034]图1是根据示例性实施例的多语言声学模型构造设备100的配置的框图。如图1所示,多语言语音识别设备100可包括串联特征(tandem feature)获得器110、声学模型训练器120、训练语言输入器130和目标语言输入器140,其中,串联特征获得器110、声学模型训练器120、训练语言输入器130和目标语言输入器140均可存储在存储器中,并在电子装置的处理器上执行。以下,“目标语言”指示用户希望识别的具有少量数据的语言,“训练语言”指示用于获得目标语言的具有大量数据的语言。训练语言的数据量可大于目标语言的数据量。例如,目标语言可以是阿拉伯语,训练语言可以是英语。
[0035]如图1所示,串联特征获得器110将输入特征划分为共同语言部分116和区别语言部分117,通过将划分的共同语言部分116和区别语言部分117应用到基于神经网络的训练来获得串联特征。
[0036]参照图2更详细地描述串联特征获得器110。串联特征获得器110可包括划分器
111、训练器113和特征组合器115。
[0037]划分器111可将输入特征划分为共同语言部分116和区别语言部分117。共同语言部分116是与输入语言不相关的共同语言部分,区别语言部分117是与输入语言相关的区别语言部分。
[0038]训练器113将划分的共同语言部分116和区别语言部分117应用到基于神经网络的训练。具体地说,训练器113可使用训练语言的数据来训练共同语言部分116,使用目标语言的数据来训练区别语言部分117。具体地说,如图2所示,训练器113可包括估计器113-1和去除器113-2。估计器113-1针对共同语言部分116,从输入自训练语言输入器130的训练语言的数据估计训练语言的音素的后验概率值。此外,估计器113-1针对区别语言部分117,从输入自目标语言输入器140的目标语言的数据估计目标语言的音素的后验概率值。此时,估计器113-1可使用神经网络(诸如多层感知器)来估计音素的后验概率值。去除器113-2使用主成分分析(PCA)去除音素之间的相关性。更具体地说,当相关变量(xl,x2, x3,…,xp)被观察时,PCA可产生确保变量的最大信息的少量新的变量。去除器113-2可通过使用PCA去除训练语言的相关音素之间的相关性,来获得共同语言部分116和区别语言部分117的串联特征。
[0039]特征组合器115通过将共同语言部分116的串联特征和区别语言部分117的串联特征组合来获得目标语言的串联特征。
[0040]使用如上所述的串联特征获得器110,多语言声学模型构建设备100可从训练语言数据和目标语言数据获得用户希望识别的目标语言的串联特征。
[0041 ] 在上述示例性实施例中,估计器113-1使用MLP估计后验概率值仅是示例。还可使用其它神经网络估计音素的后验概率值。
[0042]返回图1,声学模型训练器120可使用由串联特征获得器110获得的串联特征来构建声学模型,将声学模型的参数划分为共同语言参数128和区别语言参数129,使用由训练语言输入器130输入的训练语言数据适应于共同语言参数128,使用由目标语言输入器140输入的目标语言数据适应于区别语言参数129,并使用适应的共同语言参数128和区别语言参数129来构建用于识别目标语言的声学模型。
[0043]具体地说,参照图3至图4B来描述声学模型训练器120。如图3所示,声学模型训练器120可包括子空间高斯混合模型(SGMM)声学模型训练器121、参数划分器123、适应器125和参数组合器127。
[0044]SGMM声学模型训练器121可针对输入的串联特征基于SGMM构建声学模型。SGMM声学模型训练器121可不基于现有技术的HMM/GMM来构建声学模型,而是基于SGMM来构建声学模型。参照图4A和图4B描述基于HMM/GMM的声学模型和基于SGMM的声学模型。
[0045]图4A是基于HMM/GMM的声学模型结构的示图。如图4A所示,通过多个状态连接HMM。每个状态被建模为在声学模型空间中的多个高斯中具有不同加权值的混合体。数学公式I表不在基于HMM/GMM的声学模型中的状态概率。
[0046][数学公式I]
[0047]
【权利要求】
1.一种多语言声学模型构建方法,包括: 将输入特征划分为共同语言部分和区别语言部分,通过基于神经网络训练共同语言部分和区别语言部分来获得串联特征; 将针对获得的串联特征的声学模型的参数划分为共同语言参数和区别语言参数,使用训练语言的数据适应于共同语言参数,使用目标语言的数据适应于区别语言参数,并使用适应的共同语言参数和适应的区别语言参数来构建针对目标语言的声学模型。
2.如权利要求1所述的方法,其中,获得的步骤包括: 将目标语言的输入特征划分为共同语言部分和区别语言部分; 基于神经网络训练共同语言部分和区别语言部分; 通过将经由基于神经网络的训练而输出的共同语言部分和区别语言部分组合,来获得串联特征。
3.如权利要求2所述的方法,其中,训练的步骤包括: 使用神经网络估计共同语言部分和区别语言部分的音素的后验概率值; 去除音素之间的相关性。
4.如权利要求3 所述的方法,其中,在估计的步骤中,使用多层感知器(MLP)来估计训练语言的音素的后验概率值, 在去除的步骤中,使用主成分分析(PCA)来去除音素之间的相关性。
5.如权利要求2所述的方法,其中,使用训练语言数据基于神经网络训练共同语言部分,使用目标语言数据基于神经网络训练区别语言部分。
6.如权利要求1所述的方法,其中,构建操作包括: 通过针对获得的串联特征执行子空间高斯混合模型(SGMM)训练来构建SGMM声学模型; 将SGMM声学模型的参数划分为共同语言参数和区别语言参数; 使用训练语言数据适应于共同语言参数,使用目标语言数据适应于区别语言参数;通过将使用训练语言而适应的共同语言参数和使用目标语言而适应的区别语言参数组合,来构建针对目标语言的声学模型。
7.如权利要求6所述的方法,其中,在适应操作中,使用最大似然线性回归(MLLR)算法和最大后验(MAP)算法之一来执行自适应。
8.如权利要求1所述的方法,其中,训练语言的数据量大于目标语言的数据量。
9.一种多语言声学模型构建设备,包括: 串联特征获得器,被配置为将目标语言的输入特征划分为共同语言部分和区别语言部分,通过基于神经网络训练共同语言部分和区别语言部分来获得串联特征; 声学模型训练器,被配置为将针对获得的串联特征的声学模型的参数划分为共同语言参数和区别语言参数,使用训练语言的数据适应于共同语言参数,使用目标语言的数据适应于区别语言参数,并使用适应的共同语言参数和适应的区别语言参数来构建针对目标语言的声学模型。
10.如权利要求9所述的设备,其中,串联特征获得器包括: 划分器,被配置为将目标语言的输入特征划分为共同语言部分和区别语言部分; 训练器,被配置为基于神经网络训练共同语言部分和区别语言部分;特征组合器,被配置为通过将经由基于神经网络的训练而输出的共同语言部分和区别语言部分组合,来获得串联特征。
11.如权利要求10所述的设备,其中,训练器包括: 估计器,被配置为使用神经网络估计共同语言部分和区别语言部分的音素的后验概率值; 去除器,去除音素之间的相关性。
12.如权利要求11所述的设备,其中,估计器使用多层感知器(MLP)来估计训练语言的音素的后验概率值, 去除器使用主成分分析(PCA)来去除音素之间的相关性。
13.如权利要求10所述的设备,其中,使用训练语言数据基于神经网络训练共同语言部分,使用目标语言数据基于神经网络训练区别语言部分。
14.如权利要求9所述的设备,其中,声学模型训练器包括: SGMM声学模型训练器,被配置为通过针对获得的串联特征执行子空间高斯混合模型(SGMM)训练来构建SGMM声学模型; 参数划分器,被配置为将SGMM声学模型的参数划分为共同语言参数和区别语言参数;适应器,被配置为使用训练语言数据适应于共同语言参数,使用目标语言数据适应于区别语言参数; 参数组合器,被配置为通过将使用训练语言而适应的共同语言参数和使用目标语言而适应的区别语言参数组合,来构建针对目标语言的声学模型。
15.如权利要求 14所述的设备,其中,适应器使用最大似然线性回归(MLLR)算法和最大后验(MAP)算法之一来执行自适应。
【文档编号】G10L15/06GK103839545SQ201310603916
【公开日】2014年6月4日 申请日期:2013年11月25日 优先权日:2012年11月23日
【发明者】金南勋, 彼得·莫特里赛克, 菲利浦·N·加纳, 大卫·易米森, 李在原, 曹贞美 申请人:三星电子株式会社, 戴尔莫尔感知人工智能研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1