在识别系统中保守地适配深度神经网络的制作方法

文档序号:9401975阅读:476来源:国知局
在识别系统中保守地适配深度神经网络的制作方法
【专利说明】在识别系统中保守地适配深度神经网络
[0001] Μ?
[0002] 存在许多不同类型的计算机实现的识别系统,其中这些识别系统被配置成相对于 用户所提出的输入数据执行某种形式的分类。例如,计算机实现的语音识别系统被配置成 接收用户的说出的话语并识别说出的话语中的词。在另一示例中,手写识别系统已被开发 出以接收手写样本并标识例如该手写样本的作者、该手写样本中的个体字母、该手写样本 中的词等。在又一示例中,已经开发出执行面部识别、指纹识别等的计算机实现的识别系 统。
[0003] 更具体地就语音识别而言,此类识别已经是大量研究和商业开发的课题。例如,自 动语音识别(ASR)系统已被并入到移动电话、台式计算机、汽车、游戏控制台、顾客服务中 心等,以便识别命令/问题并提供对此类命令/问题的适当响应。例如,在配备有ASR系统 的移动电话中,用户可以讲出保留在移动电话上的联系人列表中的某一联系人的名字,而 移动电话可发起对该联系人的呼叫。
[0004] 然而,即使在数十年的研究以后,ASR在现实世界使用场景中的性能依然远远不能 令人满意。按常规而言,隐马尔科夫模型(HMM)已经是用于大词汇量连续语音识别(LVCSR) 的主导技术。在用于ASR的常规HMM中,针对输出状态的观测概率是使用高斯混合模型 (GMM)建模的。这些GMM-HMM系统通常被训练以最大化生成训练数据中观测到的特征的可 能性。近来,各种辨析策略和大边界(large margin)技术已经被探究。然而,这些技术的 潜力受到GMM发射分布模型的限制的约束。
[0005] 部分地被利用人类语音生成和感知系统中某些类似性质的期望所激励,对ASR的 较新近的研究已经探究了分层架构来执行语音识别。在这些研究中,对模型参数(与这些 分层架构中的突触相对应的权重和权重偏误(weight bias))的学习已经是最突出和困难 的问题之一。与ASR研究中的发展并行,来自神经网络研究的学习方法中所取得的当前进 展已经激起了对探究深度神经网络(DNN)的兴趣。DNN是具有许多隐藏层的密集连接的有 向信念网络。一般而言,DNN可被认为是具有多层隐藏单元和至少一层可见单元的高度复 杂的非线性特征提取器,其中隐藏单元的每一层被学习来表示捕捉原始输入数据中的高阶 相关的特征。
[0006] 传统上,利用DNN的ASR系统被训练成与说话者/通道无关的。换言之,DNN的参 数(例如,权重和权重偏误)不是关于特定说话者和/或通道来学习的。这出于至少两个 理由:首先,经常难以获得足够的训练数据量来稳健地学习针对某一说话者和/或通道的 参数,因为大多数用户不期望花费大量时间来提供有标记的话语来训练ASR系统。而且,由 于更宽且更深的隐藏层,DNN通常具有多得多的参数,并且还具有被设计成直接对senone 建模的大得多的输出层。这使得适配结合语音识别利用的DNN成为相对困难的任务。
[0007] 施述
[0008] 以下是在本文更详细描述的主题的简要概述。本概述不旨在成为关于权利要求的 范围的限制。
[0009] 本文描述了与适配(adapt)在识别系统中采用的深度神经网络(DNN)的至少一个 参数有关的各种技术,其中所述适配是针对特定用户或上下文进行的。在一示例性实施例 中,DNN可在自动语音识别(ASR)系统中被用作上下文相关深度神经网络隐马尔可夫模型 (CD-DNN-HMM)系统的一部分。计算设备(诸如移动电话、汽车中的计算设备、呼叫中心中的 计算设备、游戏控制台、服务器等)可包括ASR系统,该ASR系统包括已经利用来自多个不 同用户的训练数据训练过的与说话者无关的(SI) CD-DNN-HMM系统。为了针对特定用户或 上下文(例如,特定移动电话)改进CD-DNN-HMM系统的识别能力,可能期望将该DNN适配 到该特定用户或上下文。此处描述的技术可被用来执行这种适配而不需要用户提出大量的 训练数据。
[0010] 在ASR的上下文中,DNN被配置成直接对上下文相关单元(context dependent unit)建模,所述上下文相关单元在本文被称为Senonec3Senone可以是三音素(triphone)、 五音素(quinphone)等等。如上所述,可利用与多个不同用户相对应的训练数据来训练SI ASR系统中的DNN。当某一特定用户提出期望通过利用包括DNN的ASR系统解码的某一语 音话语时,该语音话语被划分成多个帧,并且针对某一个体帧的DNN的输出是在该DNN所建 模的senone上的概率分布。
[0011] 为了避免在为该特定用户适配该DNN时对用于该特定用户的训练数据(例如,所 捕捉的该用户的话语,经常被称为适配数据)的过拟合,这种适配可以按照保守方式进行, 使得未适配的DNN和已适配的DNN (具有使用适配数据适配的参数的所得DNN)之间的输出 偏差受到约束。在一示例性实施例中,这可以通过在执行适配时正规化(regularize)成本 函数来实现,然而也可以采用其他方法来使适配被保守地进行。例如,在一示例性实施例 中,可将Kullback-Leibler散度(KLD)正规化约束添加到适配准则。因此,由已适配的DNN 所估计的多个帧上的senone分布被迫使相对接近由未适配的DNN所估计的senone分布。
[0012] 以上概述呈现了简化概述,以提供对本文讨论的系统和/或方法的一些方面的基 本理解。本概述并不是对此处所讨论的系统和/或方法的全面综述。它并不旨在标识关键 /重要元素,也不描绘这样的系统和/或方法的范围。其唯一目的是以简化形式呈现一些概 念,作为稍后呈现的更详细实施例的序言。
[0013] 附图简述
[0014] 图1是包括识别系统的一示例性计算设备的功能框图,该识别系统包括DNN,其中 所述DNN能适配到特定用户和/或上下文。
[0015] 图2例示出一示例性深度神经网络。
[0016] 图3是一示例性系统的功能框图,该示例性系统便于将识别系统的DNN适配到特 定用户。
[0017] 图4是例示出用于基于所观测到的输入数据保守地适配深度神经网络的参数的 一种示例性方法的流程图。
[0018] 图5是例示出用于基于与正规化成本函数结合利用的正规化权重来适配DNN的参 数的一种示例性方法的流程图。
[0019] 图6是一示例性计算系统。
[0020] 详细描沐
[0021] 现在参考附图描述涉及保守地适配深度神经网络的参数来针对特定用户或上下 文定制这种深度神经网络的各种技术,其中在全部附图中,相同的附图标记用于指代相同 的元素。在以下描述中,为解释起见,阐明了众多具体细节以提供对一个或多个方面的全面 理解。然而,显然这(些)方面可以在没有这些具体细节的情况下实施。在其他实例中,以 框图形式示出公知的结构和设备以便于描述一个或多个方面。另外,要理解,被描述为由特 定系统组件执行的功能可由多个组件执行。类似地,例如,一组件可被配置成执行被描述为 由多个组件执行的功能。
[0022] 此外,术语"或"意指包括性"或"而非排斥性"或"。即,除非另有指定或从上下文 可以清楚,否则短语"X采用A或B"意指任何自然的包括性排列。即,术语"X采用A或B" 被以下实例中的任一个满足:X米用A ;X米用B ;或X米用A和B两者。另外,本申请和所 附权利要求书中所使用的冠词"一"和"一种"一般应被解释为是指"一个或多个",除非另 有指定或从上下文可以清楚指的是单数形式。
[0023] 此外,如本文所使用的,术语"组件"和"系统"旨在包含配置有使得在被处理器执 行时某一功能被执行的计算机可执行指令的计算机可读数据存储。计算机可执行指令可包 括例程、功能等等。还要理解组件或系统可以位于单个设备上或分布在若干设备之间。而 且,如此处所使用的,术语"示例性"旨在表示用作某些事物的例示或示例,而不意图指示优 选。
[0024] 现在参考图1,例示出一示例性计算设备100,该示例性计算设备包括识别系统 102,该识别系统可识别计算设备100的用户104所提出的输入。计算设备100可以是客户 端计算设备,诸如移动电话、游戏控制台、台式计算机、膝上型计算机、平板计算设备(板式 计算设备)、汽车中的计算设备等。在另一示例中,计算设备100可以是由用户104通过利 用计算设备或电话远程访问的计算设备,诸如包括在位于用户104的远程的客户服务中心 中的计算设备。
[0025] 识别系统102可以是能识别用户输入的任何适当的识别系统。例如,识别系统102 可以是用于识别用户104所提出的姿势的系统、用于识别用户104所提出的手写中的字符 的系统、能够解码用户104所提出的话语中的词的自动语音识别(ASR)系统等。出于解释 目的,本文中识别系统102将被描述为ASR系统。然而,要理解,识别系统102可以是前面 提到的识别系统类型中的任何类型,用于适配此处关于ASR系统描述的模型参数的适配技 术能在这些其他类型的识别系统中被使用。
[0026] 在一示例性实施例中,识别系统102可包括上下文相关深度神经网络隐马尔可夫 模型(⑶-DNN-HMM)。⑶-DNN-HMM包括上下文相关深度神经网络(在本文中将被称为深度 神经网络(DNN) 106)和隐马尔可夫模型108 (HMM)。DNN106是具有多个层110的多层感知 器。多个层110包括接收输入观测的输入层(有时被称为观测层),其中所述观测通过若 干(例如,9到13个)帧声学特征被提供给
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1