多语言深神经网络的制作方法

文档序号：9476314阅读：531来源：国知局

多语言深神经网络的制作方法
【专利说明】多语言深神经网络
[0001]背景
[0002]计算机实现的识别系统已被设计成执行各种识别任务。这样的任务包括分析视频信号以标识在这样的信号中捕捉到的人类、分析视频信号以标识由人类执行的姿势、分析视频信号以识别其中的对象、分析手写样本以标识该手写样本中包括的字符、分析音频信号以确定在音频信号中捕捉到的讲话者的身份、分析音频信号以识别所讲词语、分析音频信号以识别音频信号中的讲话者的语言、分析音频信号以识别音频信号中的讲话者的口音/方目，以及其他任务。
[0003]对于自动语音识别(ASR)系统，这样的系统正变得日益普遍。例如，移动电话当前配备有配置成识别由其用户阐明的所讲命令的ASR系统，从而允许用户在向移动电话阐明语音命令的同时执行其他任务。游戏控制台也配备有同样配置成识别某些所讲命令的ASR系统，从而允许这样的游戏控制台的用户与游戏控制器交互而无需使用手持式游戏控制器。另外，可通过电话访问的客户服务中心采用相对稳健的ASR系统结合获得所需信息来辅助用户。因此，用户可以通过电话访问客户服务中心并阐明一个或多个语音命令以获得所需信息(或要被定向到可帮助用户获得信息的操作者)。
[0004]可以理解，ASR系统的性能依赖于可供用于训练ASR系统的经标记的训练数据的量。对于许多语言，存在相对少量的经标记的训练数据当前可供用于训练ASR系统，而对于其他语言，存在相对大量的训练数据来用于训练ASR系统。因此，对于某些语言，ASR系统被相对差地训练并且因而不准确，并且在大词汇语音识别(LVSR)任务方面有困难。
[0005]概述
[0006]以下是在本文更详细描述的主题的简要概述。本概述不旨在成为关于权利要求的范围的限制。
[0007]本文描述了涉及使用多语言训练数据来训练的自动语音识别(ASR)系统的各种技术。更具体而言，ASR系统可包括深神经网络(DNN)，其中DNN包括接收从捕捉到的第一语言的话语提取的特征向量的输入层。DNN还包括多个隐藏层，其中该多个隐藏层中的每一隐藏层包括相应多个节点。隐藏层中的每一节点被配置成对其相应输入执行线性或非线性变换，其中该输入基于紧接该隐藏层之下的层中的节点的输出。即，该多个隐藏层中的各隐藏层一个压一个地堆叠，使得对隐藏层中的节点的输入基于紧接这一隐藏层之下的层中的节点的输出。
[0008]各隐藏层具有与其相关联的若干参数，诸如各独立层中各节点之间的权重，其中该权重表示突触强度以及权重偏置。在一示例性实施例中，这样的权重参数的值可以基于多语言训练数据(同时跨多语言训练数据中表示的各语言)来学习。DNN进一步包括被配置成输出表示目标语言中使用的语音元素的建模单元上的概率分布的至少一个softmax层。例如，这样的语音单元可以是语素(senone)(隐马尔科夫模型中的绑定三音素(triphone)或五音素(quintone)状态)。在一示例性实施例中，DNN可包括非分层的多个softmax层，需要由ASR系统识别的每一语言一个softmax层。在另一实施例中，DNN可包括单个softmax层，其中取决于捕捉到的话语的语言，该softmax层的突触被选择性地激活和停用。在其他实施例中，DNN可包括单个softmax层来表示跨多种语言的共享语音符号集合。
[0009]DNN的各隐藏层，具有基于多语言训练数据学习的参数值，可被重用(共享)以允许识别系统关于不同语言来执行识别任务。例如，对于其中没有足够量的训练数据的新目标语言，多个隐藏层(具有基于不带目标语言的多语言(源)训练数据学习的参数值)可被重用，且目标语言的softmax层可被添加到DNN(softmax层的参数是基于目标语言的可用训练数据学习的)。经修改的DNN允许相对于仅基于目标语言的训练数据来训练的DNN (或ASR系统中使用的其他类型的模型)的经改进的识别。在其他实施例中，如果存在目标语言可用的相对大量的训练数据(例如，九小时或更多)，则整个模型可基于目标语言的这样的训练数据来被调节(而非只是将softmax层添加到DNN)。在这样的实施例中，目标语言也可以是源语言。
[0010]在被训练之后，ASR系统可被采用来识别多种语言的语音，只要多种语言中的每一语言的声学数据已被用来训练DNN的至少一个softmax层。通过共享DNN中的各隐藏层并使用上述联合训练策略，相对于使用仅来自各单独语言中的每一者的声学(训练)数据来训练的单语言ASR系统，跨DNN可解码的所有语言的识别准确度可被改进。
[0011]以上概述呈现了简化概述，以提供对本文讨论的系统和/或方法的一些方面的基本理解。本概述并不是对此处所讨论的系统和/或方法的全面综述。并不旨在标识关键/重要元素，也不描绘这样的系统和/或方法的范围。其唯一目的是以简化形式呈现一些概念，作为稍后呈现的更详细说明的序言。
[0012]附图简述
[0013]图1是包括共享隐藏层多语言深神经网络(SHL-MDNN)的示例性识别系统的功能框图。
[0014]图2解说了示例性DNN。
[0015]图3解说了包括针对相应多种语言的多个softmax层的示例性MDNN。
[0016]图4解说了包括单个softmax层的示例性MDNN。
[0017]图5是促成学习MDNN的参数的值的示例性系统的功能框图。
[0018]图6是促成学习MDNN的softmax层的参数的值的示例性系统的功能框图。
[0019]图7是解说用于通过利用MDNN来标识捕捉到的所讲话语中的词语的示例性方法的流程图。
[0020]图8是解说用于学习MDNN的参数的值的示例性方法的流程图。
[0021]图9是解说用于学习MDNN中的softmax层的参数的值的示例性方法的流程图。
[0022]图10是不例性计算系统。
[0023]详细描述
[0024]现在参考附图来描述涉及利用多语言训练数据来训练深神经网络(DNN)以及通过利用使用多语言训练数据训练的DNN来执行识别任务的各种技术，在所有附图中相同的参考标号被用来引用相同的元素。在以下描述中，为解释起见，阐明了众多具体细节以提供对一个或多个方面的全面理解。然而，显然这(些)方面可以在没有这些具体细节的情况下实施。在其他实例中，以框图形式示出公知的结构和设备以便于描述一个或多个方面。另夕卜，要理解，被描述为由特定系统组件执行的功能性可由多个组件执行。类似地，例如，一组件可被配置成执行被描述为由多个组件执行的功能。
[0025]此外，术语“或”意指包括性“或”而非排斥性“或”。即，除非另有指定或从上下文显而易见，否则短语“X采用A或B”意指任何自然的包括性排列。S卩，短语“X采用A或B”箱由以下实例中任何实例得到满足:X米用A ；X米用B ;或X米用A和B两者。另外，本申请和所附权利要求书中所使用的冠词“一”和“某” 一般应当被解释成表示“一个或多个”，除非另外声明或者可从上下文中清楚看出是指单数形式。
[0026]此外，如本文所使用的，术语“组件”和“系统”旨在包含用使得在被处理器执行时执行特定功能性的计算机可执行指令配置的计算机可读数据存储。计算机可执行指令可包括例程、功能等等。还要理解组件或系统可以位于单个设备上或跨若干设备分布。而且，此处所用的术语“示例性”旨在表示用作某些事物的图示或示例，而不意图指示优选。
[0027]现在参考图1，解说了可被用来识别多种不同语言的所讲词语的示例性识别系统100。识别系统100可被任何合适的计算设备来包括，这些计算设备包括但不限于台式计算设备、移动计算设备(如移动电话、便携式媒体播放器、平板(板式)计算设备、膝上型计算设备)等等。在其他实施例中，识别系统100可被包括在服务器中或跨各服务器分布，使得识别系统100可通过网络连接来访问(例如，用户采用移动计算设备来联系客户服务中心)。本文阐明的示例将识别系统100描述为自动语音识别(ASR)系统。然而，将理解，识别系统100可被用来执行其他类型的识别任务。例如，识别系统100可被用来执行语义标签，其中可查明输入文本的语义含义。
[0028]在一示例性实施例中，识别系统100可被配置成识别多种语言的词语，其中该多种语言包括目标语言。识别系统100包括接收输入信号(声学信号)的接收器组件102，其中输入信号包括所讲话语，所讲话语包括用目标语言阐述的词语。
[0029]识别系统100还包括从接收器组件102接收到的输入信号提取特征的提取器组件104，由此生成输入信号的至少一个帧的特征向量。

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J-T·黄;J·李;D·俞;L·邓;Y·宫;
技术所有人：微软技术许可有限责任公司;
我是此专利的发明人

上一篇：用于关键字检测的自适应音频帧处理的制作方法
上一篇：混合性能缩放或语音识别的制作方法