多语言深神经网络的制作方法_4

文档序号：9476314阅读：来源：国知局

考图10，示出了可以根据本文公开的系统和方法使用的示例性计算设备1000的高级图示。例如，计算设备1000可以用在支持训练MDNN的系统中。作为另一示例，计算设备1000可被用在包括包含MDNN的ASR系统的系统中。计算设备1000包括执行存储在存储器1004中的指令的至少一个处理器1002。这些指令可以是例如用于实现被描述为由上述一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个的指令。处理器1002可以通过系统总线1006访问存储器1004。除了存储可执行指令，存储器1004还可存储训练数据、MDNN、HMM等。
[0059]计算设备1000还包括可由处理器1002通过系统总线1006访问的数据存储1008。数据存储1008可包括可执行指令、多语言训练数据、MDNN等。计算设备1000还包括允许外部设备与计算设备1000进行通信的输入接口 1010。例如，输入接口 1010可被用于从外部计算机设备、从用户等处接收指令。计算设备1000也可包括使计算设备1000和一个或多个外部设备相接口的输出接口 1012。例如，计算设备1000可以通过输出接口 1012显示文本、图像等。
[0060]考虑了通过输入接口 1010和输出接口 1012与计算设备1000通信的外部设备可被包括在提供实质上任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的(诸)输入设备的输入，以及在诸如显示器之类的输出设备上提供输出。此外，自然语言界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与计算设备1000交互。相反，自然用户界面可依赖于语音识另IJ、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语音、视觉、触摸、手势、以及机器智能等。
[0061]另外，尽管被示为单个系统，但可以理解，计算设备1000可以是分布式系统。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备1000执行的任务。
[0062]本文中描述的各功能可在硬件、软件或其任何组合中实现。如果在软件中实现，则这些功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是能被计算机访问的任何可用存储介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来承载或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟(BD)，其中盘通常以磁的方式再现数据，而碟通常用激光以光学方式再现数据。另外，所传播的信号不被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质，其包括促成计算机程序从一地向另一地转移的任何介质。连接例如可以是通信介质。例如，如果软件使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外线、无线电、以及微波之类的无线技术来从web网站、服务器、或其它远程源传输，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外线、无线电、以及微波之类的无线技术被包括在通信介质的定义中。上述的组合应当也被包括在计算机可读介质的范围内。
[0063]替换地或另选地，此处描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。例如、但非限制，可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。
[0064]以上所描述的包括一个或多个实施例的示例。当然，出于描绘前述各方面的目的而描述上述设备或方法的每个可以想到修改和改变是不可能的，但本领域内的普通技术人员可以认识到，各方面的许多另外的组合和置换都是可能的。因此，所描述的各方面旨在包括所有这些属于所附权利要求书的精神和范围内的改变、修改和变型。此外，就在详细描述或权利要求书中使用术语“包括”而言，这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。
【主权项】
1.一种方法，包括: 在包括深神经网络(DNN)的自动语音识别(ASR)系统处接收声学信号，所述DNN至少部分地基于训练数据来被训练，所述训练数据包括用源语言所讲的话语，所述声学信号包括包含目标语言的词语的所讲话语；从所述声学信号提取多个特征以形成特征向量；将所述特征向量提供给所述DNN的输入层，所述DNN响应于被提供了所述特征向量而产生输出；以及基于所述DNN的输出来标识所述所讲话语中的所述目标语言的词语。2.如权利要求1所述的方法，其特征在于，所述训练数据包括所述目标语言的所讲话语。3.如权利要求2所述的方法，其特征在于，所述所讲话语包括第二目标语言的第二词语，并且所述方法进一步包括基于所述DNN的所述输出来标识所述所讲话语中的所述第二目标语言的所述第二词语。4.如权利要求1所述的方法，其特征在于，所述DNN包括: 多个隐藏层，其中所述多个隐藏层中的每一隐藏层包括相应多个节点，每一节点被配置成对其相应输入执行线性或非线性变换；以及接收所述多个隐藏层中的最上层中的相应节点的输出的第一 softmax层，所述第一 softmax层包括表示所述目标语言中使用的相应语素的多个建模单元，其中所述第一softmax层仅基于所述目标语言的训练数据来被训练。5.如权利要求4所述的方法，其特征在于，所述DNN进一步包括接收所述多个隐藏层的所述最上层中的相应节点的输出的第二 softmax层，所述第二 softmax层包括表示第二目标语言的语音中使用的语素的多个建模单元，其中所述第二 softmax层仅基于所述第二目标语言的训练数据来被训练。6.如权利要求1所述的方法，其特征在于，所述方法在移动计算设备或游戏设备中执行。7.如权利要求1所述的方法，其特征在于，所述DNN是利用多个训练数据集来训练的，所述多个训练数据集中的每一训练数据集与不同的相应语言相对应。8.一种包括识别系统的计算设备，所述识别系统包括: 接收器组件，其接收包括目标语言的词语的声学信号；提取器组件，其从所述声学信号中提取特征以生成所述声学信号的至少一个帧的特征向量; 深神经网络(DNN)，包括: 接收所述特征向量的输入层；多个隐藏层，每一隐藏层包括相应多个节点，隐藏层中的每一节点被配置成对来自所述DNN中的相邻层的至少一个节点的输出执行线性或非线性变换，所述多个隐藏层具有与其相对应的参数，其中所述参数的值是基于训练数据的，所述训练数据包括包含多个不同源语言的所讲话语的声学信号；以及包括表示所述目标语言中使用的语音元素的建模单元的softmax层，所述softmax层具有与其相对应的参数，其中所述softmax层的参数的值是基于训练数据的，所述训练数据包括包含所述目标语言的所讲话语的声学信号，所述softmax层接收来自所述DNN中的最上隐藏层的节点的输出，其中所述softmax层的输出是所述建模单元上的概率分布；以及解码器组件，其基于所述建模单元上的所述概率分布来标识所述目标语言的所述词语。9.如权利要求8所述的计算设备，其特征在于，所述计算设备是移动电话或游戏设备。10.如权利要求8所述的计算设备，其特征在于，所述DNN包括多个softmax层，每一softmax层对应于相应语言。
【专利摘要】本文描述了涉及多语言深神经网络(MDNN)的各种技术。MDNN包括多个隐藏层，其中所述多个隐藏层的权重参数的值是在训练阶段期间基于训练数据在多种语言的声学原始特征方面学习的。MDNN进一步包括针对每一目标语言分别训练的softmax层，从而利用使用多种源语言联合训练的隐藏层值。MDNN是能自适应的，使得新softmax层可被添加在现有隐藏层顶上，其中新softmax层对应于新目标语言。
【IPC分类】G10L15/16
【公开号】CN105229725
【申请号】CN201480025694
【发明人】J-T·黄, J·李, D·俞, L·邓, Y·宫
【申请人】微软技术许可有限责任公司
【公开日】2016年1月6日
【申请日】2014年3月5日
【公告号】EP2973546A1, US20140257805, WO2014164080A1

完整全部详细技术资料下载

当前第4页1 2 3 4