用于大词汇量连续语音识别的深度信任网络的制作方法

文档序号:2835916阅读:276来源:国知局
专利名称:用于大词汇量连续语音识别的深度信任网络的制作方法
技术领域
本发明涉及用于大词汇量连续语音识别的深度信任网络。
背景技术
语音识别已经是大量研究和商业开发的课题。例如,语音识别系统已经并入到移动电话、台式计算机、汽车等等中以便提供对用户所提供的语音输入的具体响应。例如,在配备有语音识别技术的移动电话中,用户可以讲出移动电话中所列出的联系人的姓名,并且移动电话可以发起对该联系人的呼叫。此外,许多公司当前正在使用语音识别技术在标识出公司雇员以及标识出产品或服务的问题等等方面来帮助顾客。然而,即使在几十年的研究以后,自动语音识别(ASR)系统在现实世界使用场景中的性能依然远远不能令人满意。按常规而言,隐马尔科夫模型(HMM)已经是用于大量词汇连续语音识别(LVCSR)的主要技术。HMM是一种生成性模型,其中可观察的声学特性被假定是从在状态S= Is1,…,sK}之间转移的隐马尔科夫过程生成的。HMM中的关键参数是初始状态概率分布η = {1 = ~|化-1 = 81},其中1是在时间{的状态;转移概率% =ρ (qt = Sj I Qt^1 = Si);以及用于估计观察概率ρ (xt I Si)的模型。在用于ASR的常规HMM中,观察概率是使用高斯混合模型(GMM)被建模的。这些 GMM-HMM通常被训练以最大化生成所观察到的特性的可能性。最近,已经开发出了各种区别策略和大余量技术。然而,这样的技术的潜力受到GMM发射分布模型的局限性的限制。已经尝试了扩展常规的GMM-HMM架构,使得区别性训练成为模型的固有部分。例如,已经提出使用人工神经网络(ANN)来估计观察概率。这样的模型已经被称为ANN-HMM 混合模型,并且在不久前曾被认为是用于LVCSR的有前景的技术。然而,这样的混合体已经与许多局限性相关联。例如,仅仅使用反向传播来训练前馈ANN未良好地利用两个以上的隐藏层。因此,在常规ASR系统存在不足的条件下,所期望的是改进的ASR系统。

发明内容
以下是在本文详细描述的主题的简要概述。本发明内容不旨在是关于权利要求的范围的限制。在此描述了与自动语音识别(ASR)有关的各种技术。更具体而言,在此描述了与供用在ASR中的依赖于上下文的深度信任网络(DBN)-隐马尔科夫模型(HMM)有关的各种技术。DBN可以被配置为输出senone的分布,并且HMM可以被配置为输出senone之间的转移概率。knone是可以由HMM中的状态来表示的基本子音素单元。可替代地,如果HMM 中的状态的数目极其巨大,则senone可以被表示为聚类的依赖于状态的输出分布。这两个输出可以被解码器用于对采样进行解码,其中该采样是讲出的词语、词语的一部分、或者短语。此外,在此描述了训练DBN-HMM以供在ASR中使用。根据一示例,DBN-HMM可以使用嵌入式韦特比(Viterbi)算法来训练。为了支持训练和利用DBN-HMM,可以开发出一系列工具。这样的工具中的一些包括用于将高斯混合模型(GMM)-HMM转换成DBN-HMM的工具、用于将训练数据中的帧对齐以训练DBN-HMM的工具、以及DBN-HMM解码器。尽管依赖于上下文的DBN-HMM在此已经参考了 DBN-HMM结合ASR的训练和利用, 但是应当理解,依赖于上下文的DBN-HMM可以用在其他上下文中。例如,依赖于上下文的 DBN-HMM可以与在线手写识别和自动人类活动识别/检测结合使用。此外,可以使用DBN以外的其他深度结构来执行ASR和其他顺序模式识别任务。在阅读并理解了附图和描述后,可以明白其他方面。


图1是通过利用混合深度信任网络(DBN)-隐马尔科夫模型(HMM)来促进执行自动语畜H只别(ASR)的示例性系统的功能框图。
图2是混合DBN-HMM的示例性描述。
图3是促进训练DBN-HMM的示例系统的功能框图。
图4是促进预训练DBN的示例系统的功能框图。
图5是示出用于通过利用混合DBN-HMM来对采样进行解码的示例方法的流程图。
图6是示出用于训练DBN-HMM以供在ASR系统中使用的示例性方法的流程图。
图7示出了示例性的深度隐藏条件随机场。
图8是示例性计算系统。
具体实施例方式现在将参考附图来描述关于自动语音识别(ASR)系统的各种技术,其中贯穿全文,相同的附图标记表示相同的元素。另外,本文出于解释的目的示出并描述了各示例系统的若干功能框图;然而可以理解,被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地,例如可以将一组件配置为执行被描述为由多个组件执行的功能,并且在此所述的方法中的一些步骤可以被省略、重排序、或者组合。参考图1,示出了促进执行ASR的示例性系统100。系统100包括接收采样104的语音识别系统102。该采样可以是来自个体的在特定时间量内所讲出的词语(例如其通过利用麦克风被捕捉)。采样104可以通过利用模数转换器来被数字化,并且可以在期望时受到某种形式的归一化。尽管在此所提供的示例指示采样104是讲出的发言,但是应当理解,系统100可以被配置为执行在线手写识别和/或实时姿势识别。因此,采样104可以是在线手写采样或者描述诸如人类之类的对象的运动的视频信号。语音识别系统102包括依赖于上下文的深度信任网络(DBN)-隐马尔科夫模型 (HMM)系统106。DNB是一种概率生成性模型,其具有处于表示数据矢量的所观察到的变量的单个底层之上的多层随机隐藏单元。前馈人工神经网络(ANN)也可以被认为是DBN,其中前馈人工神经网络的权重已经以下面所描述的预训练阶段的方式被初始化。HMM是一种生成性模型,其中可观测的声学特性被假定是从在状态S = Is1,…,之间转移的隐马尔科夫过程生成的。DBN-HMM系统106是依赖于上下文的,因为DBN被配置为接收从采样104 导出的观察的矢量以及输出关于senone对应于采样104的概率。knone是可以由HMM中的状态来表示的基本子音素单元。可替代地,如果HMM中的状态的数目极其巨大,则senone可以被表示为聚类的依赖于状态的输出分布。DBN-HMM系统106中的HMM确定senone之间的转移概率。因此,DBN-HMM系统106中的DBN可以输出关于senone的概率。语音识别系统102还包括解码器108,该解码器接收DBN-HMM系统106的输出,并且生成输出110,其中输出110是对对应于采样104的词语或短语的指示。根据一示例,语音识别系统102可以部署在多种上下文中。例如,语音识别系统 102可以部署在移动电话中,使得移动电话可以响应于用户所讲出的命令作出行动。在另一示例中,语音识别系统102可以部署在汽车中,使得汽车可以响应于用户所讲出的命令作出行动。内部可以采用语音识别系统102的其他系统包括自动转录系统、工业自动化系统、 银行系统、以及其他采用ASR技术的合适系统。附加地,依赖于上下文的DBN-HMM系统106可以部署在其他类型的系统中。例如, DBN-HMM系统106可以用在在线手写字符识别系统中(例如在个体在触敏屏上书写的情况下)。在这样的实施例中,DBN-HMM系统106中的DBN可以被配置为输出关于任意上下文单元的概率(senone与音素单元相关并且因此不适用于这样的系统)。另外还有,DBN-HMM系统106中的DBN可以被其他一些合适的深度结构代替。另一类型的深度结构的示例包括深度结构化的条件随机场(CRF)或者其他深度结构常规神经网络。现在参考图2,示出了示例的 DBN-HMM 200。DBN-HMM 200 包括 DBN202。DBN 202 可以接收采样110或其一些衍生物,其可以分割成随时间t的多个所观察到的变量204。所观察到的变量204可以表示时间上不同的实例的数据矢量。DBN 202还包括多层随机隐藏单元206。DBN 202具有顶部两层随机隐藏单元206之间的非定向连接208以及从上面的层到所有其他层的定向连接210。在下面将详细描述的预训练阶段期间,可以将权重w分别分配给定向和非定向连接208和210。附加地或可替代地,DBN 202可以是使用DBN预训练策略被预训练的前馈神经网络,其中λ是用于将二元概率的矢量转换成多项概率(在这种情况下为多senone)的softmax权重。在该示例性的实施例中,DBN 202可以被训练为使得最上面的层(第M层)中的输出单元可以被建模为依赖于上下文的单元,比如senone。更详细而言,DBN-HMM 200包括 HMM 212。HMM 212例如可以被配置为输出多个senone 214的转移概率。转移概率被示为 HMM 212的senone 214组之间的定向箭头216。在此处将描述的训练阶段期间,DBN 202的输出单元可以在HMM 212中的senone 214对齐,其中这样的输出单元通过softmax权重λ 对senone后验概率进行建模。HMM 212可以输出senone 214之间的转移概率。如下面将会示出的那样,这样的输出(senone后验概率和转移概率)可以用于对采样110进行解码。通过使用DBN 202更好地预测senone,依赖于上下文的DBN-HMM 200可以实现在与常规三音素GMM-HMM相比时改善的识别精确度。更确切而言,解码器108(图1)可以按如下方式确定经编码的词语序列
权利要求
1.一种方法,包括以下计算机可执行动作致使处理器接收采样,其中该采样是讲出的发言、在线手写采样、或者描述物体的运动的视频信号之一;以及致使处理器至少部分基于深度结构与隐马尔科夫模型(HMM)的依赖于上下文的组合的输出对该采样进行解码,其中该深度结构被配置为输出依赖于上下文的单元的后验概率。
2.如权利要求1所述的方法,其特征在于,该采样是讲出的发言,并且其中该依赖于上下文的单元是Senone0
3.如权利要求1所述的方法,其特征在于,该深度结构是深度信任网络(DBN)。
4.如权利要求3所述的方法,其特征在于,该DNB是概率生成性模型,该概率生成性模型包括处于表示数据矢量的所观察到的变量的单个底层之上的多层随机隐藏单元。
5.如权利要求4所述的方法,其特征在于,该DBN是前馈人工神经网络(ANN)。
6.如权利要求1所述的方法,其特征在于,进一步包括在该深度结构与该HMM的组合的训练阶段期间,从高斯混合模型(GMM) -HMM系统中导出该深度结构与该HMM的组合。
7.如权利要求1所述的方法,其特征在于,进一步包括在该深度结构与该HMM的组合的训练阶段期间,对该深度结构执行预训练。
8.如权利要求7所述的方法,其特征在于,该深度结构包括多个隐藏随机层,并且其中预训练包括使用不受监督的算法来初始化所述隐藏随机层之间的连接的权重。
9.如权利要求8所述的方法,其特征在于,进一步包括使用反向传播来进一步细化所述隐藏随机层之间的连接的权重。
10.一种计算机实现的语音识别系统,包括处理器(802);以及能够由该处理器来执行的多个组件,所述多个组件包括深度结构与HMM的计算机可执行的组合(106),该组合(106)接收输入采样,其中该输入采样是讲出的发言或者在线手写采样之一,其中深度结构与HMM的组合输出与该输入采样有关的依赖于上下文的单元的随机分布;以及解码器组件(108),该解码器组件(108)至少部分基于与该输入采样有关的依赖于上下文的单元的随机分布对来自该输入采样的词语序列进行解码。
11.如权利要求10所述的系统,其特征在于,该输入采样是讲出的解码器,并且其中该依赖于上下文的单元是senone。
12.如权利要求10所述的系统,其特征在于,该深度结构是深度信任网络(DBN)。
13.如权利要求12所述的系统,其特征在于,该DNB是概率生成性模型,该概率生成性模型包括处于表示数据矢量的所观察到的变量的单个底层之上的多层随机隐藏单元。
14.如权利要求13所述的系统,其特征在于,该组件进一步包括转换器/训练器组件, 该转换器/训练器组件至少部分基于高斯混合模型(GMM) -HMM系统生成深度结构与HMM的组合。
15.如权利要求12所述的系统,其特征在于,该HMM被配置为输出与该输入采样相对应的依赖于上下文的单元之间的转移概率。
全文摘要
本发明涉及用于大词汇量连续语音识别的深度信任网络。在此描述了一种方法,该方法包括致使处理器接收采样的行为,其中该采样是讲出的发言、在线手写采样或者移动图像采样之一。该方法还包括致使处理器至少部分基于深度结构与依赖于上下文的隐马尔科夫模型(HMM)的组合的输出对该采样进行解码的动作,其中该深度结构被配置为输出依赖于上下文的单元的后验概率。该深度结构是深度信任网络,其包括许多层非线性单元,这些非线性单元具有通过预训练步骤以及之后的细调步骤所训练的层之间的连接权重。
文档编号G10L15/16GK102411931SQ20111028901
公开日2012年4月11日 申请日期2011年9月14日 优先权日2010年9月15日
发明者D·俞, G·E·达尔, L·邓 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1