用于语音识别的深度结构的全序列训练的制作方法

文档序号：2835927阅读：196来源：国知局

专利名称：用于语音识别的深度结构的全序列训练的制作方法
技术领域：
本发明涉及语言识别技术，尤其涉及深度结构化模型中的学习技术。
背景技术：
语音识别已经是大量研究和商业开发的课题。例如，语音识别系统已经并入到移动电话、台式计算机、汽车等等中以便提供对用户所提供的语音输入的具体响应。例如，在配备有语音识别技术的移动电话中，用户可以讲出移动电话中所列出的联系人的姓名，并且移动电话可以发起对该联系人的呼叫。此外，许多公司当前正在使用语音识别技术来在标识公司雇员以及标识产品或服务的问题等等方面帮助顾客。部分地被利用人类语音生成和感知系统中某些类似属性的要求所激励，对ASR的研究已经探究了分层的体系结构来执行语音识别。在这些研究中，对模型参数的学习已经是最显著且最困难的问题之一。与ASR研究中的发展并行，从神经网络研究中学习各方法所取得的当前进展已经点燃了对探查深度结构化模型的兴趣。一个具体的进步是深度信任网络(DBN)的有效学习技术的开发，该深度信任网络是具有许多隐藏层的密集连接的、直接的信任网络。一般而言，DBN可被认为是具有多层隐藏单元和至少一层可见单元的高度复杂的非线性特征提取器，其中隐藏单元的每一层学习表示在原始输入数据中捕捉更高阶的相关的特征。尽管DBN通常比其较浅的对应物有更高的建模能力，但在DBN中学习是困难的，部分地因为反向传播算法常常由于显著增加了的陷入局部最优的机会而不有效地执行。因此，针对DBN的改进的学习技术是期望的。

发明内容
以下是在本文详细描述的主题的简要概述。本发明内容不旨在是关于权利要求的范围的限制。在此描述了与自动语音识别(ASR)有关的各种技术。更具体地，本文描述了与利用深度结构化模型来执行ASR有关的各种技术。更具体地，本文描述了与执行对用于语音识别的深度结构化模型的全序列训练有关的各种技术。可结合ASR来使用的示例性深度结构化模型是深度信任网络(DBN)。可对DBN采取预训练过程，其中这一预训练过程可与学习DBN中的变量(可见的和隐藏的)的各层之间的初始权重有关。在一个示例中，这一预训练过程可通过将DBN中每一对层作为受限玻尔兹曼机(RBM)来对待，来贪婪地学习DBN的每一层的初始权重。在DBN经受预训练之后，可通过利用在序列级别处为DBN所设计的区别训练准则来对DBN权重、转移参数、以及语言模型(LM)分数联合地进行基本上优化。更具体地，语音识别可被称为顺序的或全序列学习问题，并且已知在序列级别处的区别信息对改进识别的准确性有贡献。在先前方法中，仅利用帧级信息来训练DBN权重，并且转移参数和LM分数是分开获得的。在阅读并理解了附图和描述后，可以明白其他方面。

图1是通过利用深度信任网络(DBN)来促进执行自动语音识别(ASR)的示例性系统的功能框图。图2是促进初始化DBN的权重的示例系统的功能框图。图3是促进联合地基本上优化DBN权重、转移参数和语言模型(LM)分数的示例性系统的功能框图。图4是示例性DBN。图5是示出用于联合地学习DBN权重、转移参数和LM分析的示例性方法的流程图。图6是示出用于联合地学习DBN权重、转移参数和LM分析的示例性方法的流程图。图7示出了示例性的深度隐藏条件随机场。图8是示例性计算系统。
具体实施例方式现在将参考附图来描述关于自动语音识别(ASR)系统的各种技术，其中贯穿全文，相同的附图标记表示相同的元素。另外，本文出于解释的目的示出并描述了各示例系统的若干功能框图；然而可以理解，被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地，例如可以将一组件配置为执行被描述为由多个组件执行的功能，并且在此所述的方法中的一些步骤可以被省略、重排序、或者组合。参考图1，示出了促进执行ASR的示例性系统100。系统100包括接收样本104的语音识别系统102。该样本可以是来自个体的在特定时间量内所讲出的词语(例如其通过利用麦克风被捕捉)。样本104可以通过利用模数转换器来被数字化，并且可以在期望时受到某种形式的归一化。尽管在此所提供的示例指示样本104是讲出的发言(utterance)，但是应当理解，系统100可以被配置为执行在线手写识别和/或实时姿势识别。因此，样本 104可以是在线手写样本或者描述诸如人类之类的对象的运动的视频信号。语音识别系统102包括深度结构化模型106。在一个示例中，深度结构化模型106 可以是深度信任网络(DBN)，其中该DBN是临时地参数绑定的。DBN是一种概率生成性模型，其具有处于表示数据矢量的所观察到的变量的单个底层之上的多层随机隐藏单元。更具体地，DBN是具有许多隐藏层的、密集连接且直接的信任网络，对其而言学习是困难的问题。深度结构化模型106可接收样本104，并且可输出关于输出单元的状态后验概率，该输出单元可以是音素、音素的聚类(senone)、或某种其他合适的输出单元。如下面将更详细地描述的，深度结构化模型106可通过预训练过程来生成，并且之后，可通过顺序的或全序列学习来对深度结构化模型106的权重、深度结构化模型106中的转移参数以及语言模型分数联合地进行充分优化。语音识别系统102附加地包括解码器108，该解码器可解码深度结构化模型的输出以生成输出110。根据一示例，输出110可包括被接收作为样本104的词语或词语序列的指示。在另一示例中，输出110可以是与视频样本中所捕捉的姿势有关的姿势。在又一示例中，输出110可以是在压敏屏幕上写的词语或词语序列的指示。根据一示例，语音识别系统102可以部署在多种上下文中。例如，语音识别系统 102可以部署在移动电话中，使得移动电话可以响应于用户所讲出的命令作出行动。在另一示例中，语音识别系统102可以部署在汽车中，使得汽车可以响应于用户所讲出的命令作出行动。可在其中采用语音识别系统102的其他系统包括自动转录系统、工业自动化系统、银行系统、以及采用ASR技术的其他合适系统。现在参考图2，示出了促进初始化DBN的权重的示例性系统200。系统200包括接收DBN 204的初始化器组件202。如前所述，DBN是具有许多隐藏层的、密集连接且直接的信任网络，对其而言学习是困难的问题。初始化器组件202可以行动以便通过将每一对层作为受限玻尔兹曼机(RBM)来对待，来贪婪地学习DBN 204的每一层。初始化器组件202 可访问数据储存库206中的训练数据以执行上述训练。更具体地，RBM是具有一层(通常为柏努利)随机隐藏单元和一层(通常为柏努利或高斯)随机可见单元的特定类型的马尔可夫随机场(MRF)。RBM可被表示为二分图，因为全部可见单元都被连接到全部隐藏单元，但不存在可见-可见或隐藏-隐藏的连接。在RBM中，给定模型参数θ，可见单元ν和隐藏单元h上的联合分布ρ (v，h ； Θ) 可按照以下算法的能量函数E (v，h ； θ )来定义
权利要求
1.一种方法，包括以下计算机可执行动作使处理器访问保留在计算机可读介质中的深度结构化模型，其中所述深度结构化模型包括带有所分配的权重的多个层、状态之间的转移概率、和语言模型分数；以及对所述深度结构化模型的所述权重、所述转移概率、所述语言模型分数进行联合地优化。
2.如权利要求1所述的方法，其特征在于，所述深度结构化模型是深度信任网络 (DBN)。
3.如权利要求2所述的方法，其特征在于，所述DBN被配置成执行以下各项之一自动语音识别、自动姿势识别、自动人体动作识别、或自动在线手写识别。
4.如权利要求2所述的方法，其特征在于，所述DBN是概率生成性模型，所述概率生成性模型包括处于表示数据矢量的所观察到的变量的单个底层之上的多层随机隐藏单元。
5.如权利要求1所述的方法，其特征在于，所述深度结构化模型包括多个隐藏随机层，并且还包括预训练所述深度结构化模型，其中预训练包括利用不受监督的算法来初始化所述隐藏随机层之间的连接的权重。
6.如权利要求5所述的方法，其特征在于，还包括利用反向传播来对所述深度结构化模型的所述权重、所述转移概率、和所述语音模型分数进行联合地充分优化。
7.如权利要求5的方法，其特征在于，所述预训练包括将所述深度结构化模型中各对层作为受限玻尔兹曼机来对待。
8.如权利要求1所述的方法，其特征在于，所述深度结构化模型是深度隐藏条件随机场(DHCRF)。
9.一种计算机实现的系统，包括处理器(802)；以及包括能由所述处理器执行的多个组件的存储器(804)，所述组件包括接收经预训练的深度结构化模型的接收器组件，其中所述深度结构化模型包括多个层、所述层之间的权重、转移参数、和语音模型分数；以及对经预训练的深度结构化模型的权重、经预训练的深度结构化模型的状态转移参数、和经预训练的深度结构化模型的语言模型分数进行联合地基本上优化的训练器组件。
10.如权利要求9所述的系统，其特征在于，所述经预训练的深度结构化模型被训练以供语言识别。
11.如权利要求9所述的系统，其特征在于，所述经预训练的深度结构化模型是深度信任网络(DBN)。
12.如权利要求11所述的系统，其特征在于，所述DBN是概率生成性模型，所述概率生成性模型包括处于表示数据矢量的所观察到的变量的单个底层之上的多层随机隐藏单元。
13.如权利要求11所述的系统，其特征在于，所述DBN的最顶层是线性链条条件随机场 (CRF)。
14.如权利要求9所述的系统，其特征在于，所述组件还包括初始化器组件，所述初始化器组件对深度结构化模型的权重进行初始化以生成所述经预训练的深度结构化模型。
15.如权利要求9所述的系统，其特征在于，所述训练器组件结合对所述权重、转移参数和语言模型分数进行充分优化来确定所述深度结构化模型的标签的全序列的条件概率。
全文摘要
本发明公开了用于语音识别的深度结构的全序列训练。本文公开了一种方法，该方法包括使处理器访问保留在计算机可读介质中的深度结构化模型的动作，其中该深度结构化模型包括带有所分配的权重的多个层、状态之间的转移概率、和语言模型分数。该方法还可包括使用基于序列而非一组不相关帧的优化准则来对该深度结构化模型的权重、转移概率和语言模型分数进行联合地充分优化的动作。
文档编号G10L15/14GK102436811SQ201110299678
公开日2012年5月2日申请日期2011年9月20日优先权日2010年9月21日
发明者A·S·A·穆罕默德, D·俞, L·邓申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D·俞;L·邓;A·S·A·穆罕默德
技术所有人：微软公司
我是此专利的发明人

上一篇：人机互动系统和方法
上一篇：一种具有语音识别功能的止吠器的制作方法