多语言深神经网络的制作方法_2

文档序号：9476314阅读：来源：国知局

提取器组件104所提取的特征例如可以是Mel频率倒谱系数(MFCC)、知觉线性预测(PLP)特征、对数滤波器组特征，等等。
[0030]另外，识别系统100包括多语言深神经网络(MDNN) 106。如下文将更详细地描述的，MDNN 106的至少一部分可通过利用多语言训练数据来训练，其中多语言训练数据中的各语言在本文中被称为“源语言”。因而，“目标语言”是其中期望由识别系统100识别的所讲词语的语言，并且“源”语言是被用来训练MDNN 106的训练数据中包括的语言。因而可以查明，在一些实施例中，一种语言可以既是源语言又是目标语言。MDNN 106包括接收由提取器组件104从输入信号的至少一个帧提取的特征向量的输入层108。在一示例性实施例中，MDNN 106可以是上下文相关的MDNN，其中输入层108被配置成接收多个帧的特征向量，从而提供特定感兴趣的帧的上下文。
[0031]另外，MDNN 106包括多个隐藏层110，其中该多个隐藏层110中的隐藏层数量可以是至少三个隐藏层。另外，隐藏层的数量可多达一百个隐藏层。该多个隐藏层110中的各隐藏层可一个压一个地堆叠在一起，使得在一隐藏层处接收到的输入基于紧接该隐藏层之下的隐藏层或输入层108的输出。该多个隐藏层110中的每一隐藏层包括相应多个节点(神经元)，其中隐藏层中的每一节点被配置成对其相应输入执行相应线性或非线性变换。对节点的输入可以基于紧邻层中的一节点或若干节点的输出。
[0032]多个隐藏层110具有与其相关联的参数。例如，这些参数可以是相邻层的节点之间的突触的权重以及权重偏置。这样的权重和权重偏置的值可以在训练阶段期间学习，其中训练阶段中使用的训练数据包括源语言的所讲话语，在一示例性实施例中，源语言不同于目标语言。如上所述，上述参数的值可以在训练阶段期间基于多个源语言的训练数据来学习，其中这样的训练数据可以或可以不包括目标语言的训练数据。
[0033]另夕卜，MDNN 106包括包含多个输出单元的softmax层112。softmax层112中的输出单元是表示目标语言中使用的语音元素的建模单元。例如，softmax层112中的建模单元可以表示目标语言的语音中使用的语素(绑定三音素或五音素状态)。例如，建模单元可以是隐马尔科夫模型(HMM)或其他合适的建模单元。softmax层112包括具有与其相关联的值的参数，其中这些值可以在训练阶段期间基于目标语言的训练数据来学习。关于输入信号，softmax层112的输出是目标语言中使用的在softmax层112中建模的语音元素(语素)上的概率分布。
[0034]识别系统100还可包括被配置成计算经建模的音素单元的转移概率的HMM 114。解码器组件116接收HMM 114的输出并基于HMM 114的输出相对于输入信号执行分类。在识别系统100是ASR系统时，分类可以是输入信号中的一个或多个词语在目标语言中的标识。
[0035]尽管识别系统100已被描述为配置成识别目标语言的词语，但将理解，在其他实施例中，识别系统100可被配置成识别多种目标语言的话语。例如，MDNN 106可包括多个softmax层，需要由识别系统100识别的每一目标语言一个层。在其他实施例中，DNN 106可包括单个softmax层，该单个softmax层包括表示跨多种目标语言的语音元素的建模单元，其中在接收到特定目标语言的输入信号时，该多个隐藏层110中的最上隐藏层中的节点的突触被选择性地激活或停用，使得只有表示该特定目标语言中使用的语音元素的建模单元生成输出。例如，识别系统100可任选地包括标识输入信号中的所讲话语的语言的并行语言识别器，并且可基于所讲话语的语言使得多个隐藏层110中的最上隐藏层中的节点之间的突触和softmax层112中的建模单元被选择性地激活和/或停用。
[0036]此外，在识别系统110被配置成识别多种目标语言的词语时，识别系统100可特别适用于识别在单个所讲话语中用多种目标语言阐述的词语。例如，尝试用她的第二语言阐述短语或句子的人可能偶尔或习惯性地包括她的主要语言中的一个或多个词语。在这样的混合语言场景中，识别系统100通过利用MDNN 106可以识别单个话语中用多种语言阐述的词语。
[0037]现在转到图2，解说了示例性DNN 200的图形表示。DNN 200包括输入层202，输入层202捕捉输入特征向量V°。该输入在图2中被表示为X，它是I X I向量。DNN还包括多个隐藏层204-208。隐藏层204-208中的每一个包括相应的多个隐藏单元(节点)，其中每个隐藏单元包括相应的激活函数。相邻层中的隐藏单元潜在地是通过加权突触连接的，加权突触共同地可由隐藏层之间的权重矩阵210和212来表示。如所示，权重矩阵210表示隐藏层204 (隐藏层2)中的隐藏单元和隐藏层206 (隐藏层3中的隐藏单元之间的加权突触。类似地，权重矩阵212表示隐藏层206中的隐藏单元和隐藏层208 (隐藏层tf)中的隐藏单元之间的加权突触。DNN 200中的层214是输出，它是基于DNN 200中的加权突触以及隐藏单元的激活函数来确定的。该输出在图2中被表示为Y。在训练期间，使用多语言训练数据，与权重矩阵210和212相对应的权重以及权重偏置可被学习。
[0038]现在参考图3，解说了示例性MDNN 300。MDNN 300包括包含接收从输入信号提取的特征的值的节点304-310的输入层302。多语言DNN 300还包括多个隐藏层312-318。尽管MDNN 300被示为包括四个隐藏层，但将理解，MDNN 300可包括少至三个隐藏层以及多至数百隐藏层。第一隐藏层312包括第一多个节点320-326，第二隐藏层314包括第二多个节点328-334，第三隐藏层316包括第三多个节点336-342，且第四隐藏层318包括第四多个节点344-350。在一示例性实施例中，隐藏层312-318中的每一者中的节点的数量可以是相等的。在其他示例中，多个隐藏层312-318中的节点的数量可以不同。此外，隐藏层312-318中的每一者中的节点的数量可以在一百节点到一万节点之间。如图所示，MDNN 300中的相邻层中的节点可通过加权突触来连接，使得例如对第二隐藏层314中的节点328的输入可以是第一隐藏层312中的至少一个节点的加权输出的函数。
[0039]MDNN 300 还包括多个 softmax 层 352-354，其中多个 softmax 层 352-354 中的每一softmax层对应于不同的相应语言。第一 softmax层352包括分别对与第一 softmax层352相对应的语言(第一语言)中使用的多个语音元素进行建模的第一多个建模单元356-362。如上所述，语音元素可以是语素。类似地，第N softmax层354包括表示第N语言中采用的的语音元素的多个建模单元364-370。
[0040]在图3中描绘的体系结构中，输入层302和多个隐藏层312-318可以跨所有softmax层352-354共享，且因而可以跨通过利用MDNN 300可识别其所讲词语的所有语言共享。输入层302和多个隐藏层312-318可被认为是通用特征变换系统。然而，多个softmax层352-354未被共享，因为每一语言具有输出专用于一语言的语音元素的相应后验概率的其自己的softmax层。注意，图3中描绘且在此讨论的体系结构只是作为示例。如将参考图4示出和描述的，在此示出的体系结构不排除以下情况:softmax层也跨不同的语言来共享(例如，通过利用跨语言共享的音素或语素集合)。
[0041]如上所述，输入层302可覆盖声学特征帧的相对长的上下文窗口。因为多个隐藏层312-318可被用于识别许多不同语言的词语，因语言而异的变换(如HLDA)没有被应用在这样的隐藏层312-318中。
[0042]在MDNN 300的训练阶段期间，MDNN 300的参数的值(例如，突触的权重和权重偏置)可使用多语言(多种源语言)训练数据同时被学习；S卩，MDNN300不是首先使用第一源语言的训练数据来训练并随后使用第二源语言的训练数据来更新，以此类推。相反，为了避免将MDNN 300调节到特定源语言，多种源语言的训练数据可被同时利用来学习MDNN 300的参数值。例如，在批训练算法(如L-BFGS或Hessian-free算法)被用来学习MDNN 300的参数值时，多种源语言的训练数据的同时使用是相对直接的，因为所有训练数据可被用在MDNN 300的每一更新中。然而，如果最小批训练算法(如最小批随机梯度上升(SGA)算法)被采用，则每一最小批应当从所有可用训练数据(跨多种语言)中提取出来

完整全部详细技术资料下载

当前第2页1 2 3 4