语音识别方法和设备与流程

文档序号:14912854发布日期:2018-07-10 23:53

技术领域

下面的描述涉及一种语音识别技术,所述语音识别技术包括用于语音信号的语音识别的语音识别模型的学习和应用。



背景技术:

语音识别技术分析人类用于交流的语音语言并将语音语言转换为字符或文本数据。语音识别技术响应于针对方便的需求而发展。



技术实现要素:

提供本发明内容来以简化的形式介绍下面在具体实施方式中进一步描述的构思的选择。本发明内容不意图确定要求保护的主题的关键特征或必要特征,本发明内容也不意图用来帮助确定要求保护的主题的范围。

在一个总体方面,一种实现用于语音的识别的语音识别模型神经网络的处理器实现的语音识别方法,所述方法包括:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,识别被施加注意力权重的语音信号。

在之前时间的语音识别模型神经网络的所述至少一个层可以是语音识别模型神经网络的隐藏层。

在之前时间的语音识别模型神经网络的所述至少一个层包括到在当前时间的语音识别模型神经网络的循环连接,和/或在当前时间的语音识别模型神经网络的接下来被提供被施加注意力权重的语音信号的层和在当前时间的语音识别模型神经网络的分层的高层中的至少一个层可包括来自在之前时间的语音识别模型神经网络的各个连接。

确定的步骤可包括:基于由在之前时间的语音识别模型神经网络的输出层输出的输出值,确定注意力权重。

确定的步骤可包括:还基于根据关于将被识别的说话者的信息而确定的上下文值,确定注意力权重,其中,所述信息用于从其他说话者中突出所述将被识别的说话者。

确定的步骤可包括:基于根据关于将被识别的说话者的信息而确定的上下文值,来确定注意力权重,其中,所述信息用于从噪声中突出所述将被识别的说话者。

确定的步骤可包括:还基于输入到在当前时间的语音识别模型神经网络的语音帧的特征值或者被处理为将被输入到在当前时间的语音识别模型神经网络的语音帧的特征值,确定注意力权重。

所述方法还可包括:将语音信号划分为不同频率分量的信号,其中,施加的步骤可包括:将确定的注意力权重分别施加到所述不同频率分量的信号的特征值。

将确定的注意力权重分别施加到所述不同频率分量的信号的特征值的步骤,可通过并根据确定的注意力权重的分别施加,来在所述不同频率分量被输入到语音识别模型神经网络时或在所述不同频率分量被输入到语音识别模型神经网络之前,分别并选择性地突出所述不同频率分量。

所述确定的注意力权重可以是具有与从划分语音信号的步骤得到的并在施加的步骤中被施加确定的注意力权重的语音输入向量相等的维度的向量。

所述不同频率分量的信号的特征值可具有由所述不同频率分量的各自的窗口(bin)的大小表示的大小,并且将确定的注意力权重分别施加到特征值的步骤可包括:基于施加的确定的注意力权重,选择性地调节不同频率分量的各自的窗口的大小。

确定的步骤可包括:响应于包括在语音信号中的多个语音帧被输入到语音识别模型神经网络或被处理为将被输入到语音识别模型神经网络,确定将被施加到所述多个语音帧中的每个语音帧的各自的注意力权重,施加的步骤可包括:将确定的各自的注意力权重施加到所述多个语音帧。

识别的步骤可包括:识别由被施加注意力权重的语音信号指示的语言信息。

估计语言信息的步骤可包括:从被施加注意力权重的语音信号估计音素,所述识别的步骤还可包括:从所述识别的步骤的多次执行来估计字,其中,所述识别的步骤基于分别确定并施加的注意力权重而在多个时间被多次执行来估计用于所述估计的字的多个音素。

语音识别模型神经网络可被配置为:实现用于执行音素的估计的声学模型和用于执行字的估计的至少语言模型。

确定注意力权重的步骤可由与语音识别模型神经网络分离的神经网络执行。

所述的方法还可包括基于由在之前时间的语音识别模型神经网络的所述至少一个层和/或在之前时间的语音识别模型神经网络的另外的至少一个层输出的输出值,确定另一注意力权重,并且可包括将确定的另一注意力权重施加到在当前时间的语音识别模型神经网络的隐藏层输出的输出值或所述隐藏层的连接。

语音识别模型神经网络可被配置为基于训练处理而被训练,其中,所述训练处理包括:在处于训练中的语音识别模型的训练期间,基于由在训练语音的对应语音识别操作的之前时间的处于训练中的语音识别模型神经网络的至少一个层输出的处于训练中的输出值,确定并施加训练的注意力权重。

在一个总体方面,提供一种存储指令的非暂时性计算机可读介质,其中,当所述指令被处理器执行时使得处理器执行在此描述的一个或多个或所有的操作。

在一个总体方面,一种实现用于语音的识别的语音识别模型神经网络的处理器实现的语音识别方法,所述方法包括:接收语音信号;使用语音识别模型神经网络识别语音信号,其中,识别的步骤包括基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重,并将确定的注意力权重施加到在语音的识别的当前时间的语音识别模型神经网络的层的值。

将确定的注意力权重施加到语音识别模型神经网络的层的值的步骤可包括:将确定的注意力权重施加到由在当前时间的语音识别模型神经网络的所述层输出的输出值,以调节由在当前时间的语音识别模型神经网络的所述层输出的输出值的大小,作为从在当前时间的语音识别模型神经网络的所述层输出到分层的上层的结果的值。

将确定的注意力权重施加到在当前时间的语音识别模型神经网络的层的值的步骤可包括:基于确定的注意力权重调节训练的连接权重,其中,所述训练的连接权重在当前时间的语音识别神经网络的所述层内被结构上实现或者作为到在当前时间的语音识别神经网络的所述层的连接权重或者来自在当前时间的语音识别神经网络的所述层的连接权重。

确定的步骤可包括:基于由在之前时间的神经网络的隐藏层和输出层中的一个或二者输出的输出值,确定注意力权重。

确定的步骤可包括:还基于根据关于将被识别的说话者的信息而确定的上下文值,确定注意力权重,其中,所述信息用于从其他说话者中突出所述将被识别的说话者。

确定的步骤可包括:还基于输入到在当前时间的语音识别模型的语音帧的特征值,确定注意力权重。

识别的步骤还可包括:基于由在之前时间的语音识别模型神经网络的所述至少一个层和/或在之前时间的语音识别模型神经网络的另外的至少一个层输出的输出值,确定另一注意力权重,并且将确定的另一注意力权重施加到在当前时间的语音信号并基于被施加确定的另一注意力权重的语音信号来执行语音的识别。

在一个总体方面,一种语音识别设备包括处理器,所述处理器被配置为:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,实现被施加注意力权重的语音信号的识别。

所述设备还可包括非暂时性计算机可读存储器,所述非暂时性计算机可读存储器被配置为存储当被所述处理器执行时使得所述处理器执行以下处理的指令:基于所述输出值确定注意力权重,将确定的注意力权重施加到语音信号,实现被施加注意力权重的语音信号的识别。

所述处理器还可被配置为:包括语音识别模型神经网络。

语音识别模型神经网络可包括被配置为执行注意力权重的确定的至少一个层。

上下文值、输入到或被处理为输入到在当前时间的语音识别模型神经网络的语音帧的特征值和由在之前时间的语音识别模型神经网络的所述至少一个层输出的输出值中的任何一个或任何两个或更多个的任何组合可被输入到被配置为执行注意力权重的确定的至少一个层,来确定注意力权重。

在一个总体方面,一种语音识别系统包括:第一处理器,被配置为基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值来确定注意力权重;第二处理器,被配置为包括语音识别模型神经网络并使用用于语音的识别的语音识别模型神经网络来识别针对语音的识别的当前时间已被施加确定的注意力权重的语音信号。

第一处理器还可被配置为将语音信号划分为不同频率分量的信号,识别已被施加确定的注意力权重的语音信号的步骤可包括:识别划分的语音信号,其中,针对划分的语音信号,确定的注意力权重已被分别施加到所述不同频率分量的信号的特征值。

将确定的注意力权重分别施加到不同频率分量的信号的特征值的处理,可通过并根据确定的注意力权重的分别施加,来在所述不同频率分量被输入到语音识别模型神经网络时或在所述不同频率分量被输入到语音识别模型神经网络之前,分别并选择性地突出所述不同频率分量。

在一个总体方面,一种语音识别设备包括处理器,其中,所述处理器被配置为:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到由在语音的识别的当前时间的语音识别模型神经网络的层输出的输出值;使用利用施加的确定的注意力权重实现的语音识别模型神经网络,实现在当前时间的语音信号的识别的结果的估计。

所述的设备还可包括非暂时性计算机可读存储器,其中,所述非暂时性计算机可读存储器被配置为存储当被所述处理器执行时使得所述处理器执行以下处理的指令:确定注意力权重,施加确定的注意力权重,使用利用施加的确定的注意力权重实现的语音识别模型神经网络来实现语音信号的识别的结果的估计。

语音识别模型神经网络可包括被配置为执行注意力权重的确定的至少一个层。

在一个总体方面,一种语音识别设备,包括处理器,其中,所述处理器被配置为:基于来自在语音的识别的之前时间的语音识别模型神经网络的连接的信息并基于上下文值和/或输入到或被处理为输入到在语音的识别的当前时间的语音识别模型神经网络的对应的语音帧的特征值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,实现被施加注意力权重的语音信号的识别。

语音识别模型神经网络可包括被配置为基于来自在之前时间的语音识别模型神经网络的连接的信息并基于上下文值和/或特征值执行注意力权重的确定的至少一个层。

可基于关于将被识别的说话者的信息来确定上下文值,其中,所述信息用于从其他说话者中突出所述将被识别的说话者。

通过下面具体实施方式、附图和权利要求,其他特征和方面将变得清楚。

附图说明

图1示出语音识别处理的示例。

图2是示出语音识别方法的示例的流程图。

图3是示出语音识别处理的示例的流程图。

图4和图5均示出基于语音识别模型执行语音识别的示例。

图6是示出语音识别处理的示例的流程图。

图7和图8均示出基于语音识别模型执行语音识别的示例。

图9是示出语音识别处理的示例的流程图。

图10A-10B示出语音识别设备的示例。

图11是示出语音识别模型的训练方法的示例的流程图。

贯穿附图和具体实施方式,除非另外描述或提供,否则相同的附图参考标号将被理解为表示相同或相似的元件、特征和结构。附图可不按比例绘制,并且为了清楚、说明和方便,附图中的元件的相对大小、比例和描述可被夸大。

具体实施方式

提供下面的详细的描述以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将变得清楚。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定顺序发生的操作之外,可如在理解本申请的公开之后将变得清楚的那样改变。此外,为了更加清楚和简洁,可省略对本领域已知的功能和构造的描述。

在此描述的特征可以以不同的形式实施,并且不被解释为受限于在此描述的示例。相反,在此描述的示例仅被提供以示出在理解本申请的公开之后将变得清楚的实施在此描述的方法、设备和/或系统的多种可能的方式中的一些方式。

下面的具体结构或功能描述是示例性的,以仅描述示例,并且示例的范围不限于在本说明书中提供的描述。本领域的普通技术人员可对其进行各种改变和修改。

虽然术语“第一”或“第二”用于解释各种组件,但是所述组件不受限于所述术语。这些术语应仅用于区分一个组件与另一个组件。例如,在根据本公开的构思的权利的范围内,“第一”组件可被称为“第二”组件,或者类似地,“第二”组件可被称为“第一”组件。

如在此使用的,除非上下文另外清楚地指示,否则单数形式也意图包括复数形式。还应理解,除非本公开的上下文和理解另外指示,否则当在本说明书中使用时,术语“包括”和/或“包含”说明在一个或多个示例实施例中存在阐述的特征、整体、操作、元件、组件或它们的一个或多个组合/组,但是不排除在可选实施例中存在或添加一个或多个其它特征、整体、操作、元件、组件和/或它们的组合/组,也不排除在另外的可选实施例中缺少这样阐述的特征、整体、操作、元件和/或组件,和/或组合/组。此外,在此针对示例或实施例(例如,关于示例或实施例可包括或实现什么)的术语“可”的使用表示存在包括或实现这样的特征的至少一个示例或实施例,然而所有的示例和实施例不限于此。

除非在此另外定义,否则在此使用的所有术语(包括技术或科学术语)具有如与本领域普通技术人员基于对本公开的理解而通常理解的含义相同的含义。除非在此另外定义,否则在通用字典中定义的术语应被解释为具有与相关领域和本公开中的上下文含义匹配的含义,而不应被解释为理想化的或过于形式的含义。

图1示出语音识别处理的示例。

语音识别设备110通过识别输入到语音识别设备110的语音信号来执行语音识别并输出语音识别结果。例如,语音识别表示将包括在语音信号中的口头语言信息转换为对应的文本信息的处理。语音识别设备110分析输入语音信号并估计由包括在语音信号中的语言信息指示的文本信息。

在一个示例中,语音识别设备110可被嵌入在诸如以下各项的装置中,被配置为与诸如以下各项的装置进行交互或者代表诸如以下各项的装置:移动电话、蜂窝电话、智能电话、个人计算机(PC)(诸如,膝上型计算机、笔记本电脑、上网本或平板PC(平板))、个人数字助理(PDA)、数码相机、游戏机、MP3播放器、个人多媒体播放器(PMP)、电子书、全球定位系统(GPS)导航装置、机顶盒或家用电器,或者能够进行无线或网络通信的任何其他移动或固定装置。语音识别设备110还可被嵌入在诸如以下各项的装置中,被配置为与诸如以下各项的装置进行交互或者代表诸如以下各项的装置:智能电器、智能车辆、自主车辆、智能建筑系统、智能家居系统、智能办公系统或智能电子安全系统。此外,语音识别设备110可被包括在佩戴在用户的身体上的可穿戴装置(诸如,戒指、手表、眼镜、手镯、脚链、腰带、项链、耳环、头盔或嵌入在衣物中的装置)中,被配置为与佩戴在用户的身体上的可穿戴装置(诸如,戒指、手表、眼镜、手镯、脚链、腰带、项链、耳环、头盔或嵌入在衣物中的装置)进行交互,或者代表佩戴在用户的身体上的可穿戴装置(诸如,戒指、手表、眼镜、手镯、脚链、腰带、项链、耳环、头盔或嵌入在衣物中的装置)。语音识别设备110可被包括有用于捕捉语音信号的一个或多个麦克风,或者被配置为与用于捕捉语音信号的一个或多个麦克风进行交互。另外,例如,语音识别设备还可被包括有可将捕捉的语音信号解析为数字音频帧的模数转换器(ADC)和解析器,或者被配置为与可将捕捉的语音信号解析为数字音频帧的ADC和解析器进行交互。

语音识别设备110从语音信号提取特征,并基于提取的特征来估计语音识别结果。在一个示例中,语音识别设备110从语音信号获得频谱图或生成语音信号的频谱图,并从频谱图提取语音信号的频率特征。例如,语音识别设备110可通过表示使用傅里叶变换在时频域中分析语音信号的频谱的结果来获得或生成频谱图。仅作为示例,语音识别设备110可通过使用示例傅里叶变换计算语音信号的基频并计算与基频的n倍(例如,一倍、两倍或三倍)对应的频率的幅值来在x轴上表示基频的值并在y轴上表示幅值。这里,n为自然数。频谱图可通过在生成的频谱中随着幅值的增加而增加窗口(bin)的大小并且随着幅值的减小而减小窗口的大小来连续地表示针对每个频率位置的幅值的大小。语音识别设备110可提取在频谱图中表示的频率特征信息作为语音信号的特征。

从语音信号提取这样的特征的方法不限于此,并且各种方法可被用于从语音信号提取这样的特征。例如,语音识别设备110可使用基于用于语音识别的人耳的非线性频率特征的梅尔频率倒谱系数(MFCC)的特征值作为示例的提取的特征。可通过语音识别设备110执行以下步骤来获得MFCC的特征值:例如,(1)基于时间窗口以语音帧为单位划分语音信号,(2)使用快速傅里叶变换(FFT)将语音帧转换为频率范围,(3)使用滤波器组将语音帧划分为频率带的信号,(4)计算频率带的信号中的每个信号的能量,(5)例如,将离散余弦变换(DCT)应用于计算的能量。

语音识别设备110可实现例如包括声学模型120和语言模型130的一个或多个语音识别模型,以估计语音识别结果。声学模型120可用于例如基于从语音信号提取的特征来以音素为单位识别语音信号。语音识别设备110可基于由声学模型120获得的以音素为单位的语音识别结果来估计由语音信号指示的字。语言模型130可用于基于字之间的连接关系来获得概率信息。例如,语言模型130可提供与被连接在输入到语言模型130的字之后的后续字相关的概率信息。例如,响应于字“这”被输入到语言模型130,语言模型130提供与被连接到“这”之后的“是”的情况相关的概率信息。在一个示例中,语音识别设备110基于由语言模型130提供的概率信息来选择字之间概率最大的连接关系,并将选择的结果输出为语音识别结果。

可通过被配置为例如基于存储在语音识别设备110的存储器中的训练的神经网络参数的一个或多个模型或神经网络的一个或多个处理器或者可被配置为一个或多个模型或神经网络的这样的一个或多个处理器来实现声学模型120和/或语言模型130。神经网络可以是仅通过硬件或者一个或多个计算硬件和指令的组合实现的识别模型,其中,所述指令存储在一个或多个非暂时性计算机可读介质中,所述指令在被所述一个或多个计算硬件执行时使得所述一个或多个计算硬件被配置为并实现这样的神经网络。例如,诸如下面针对图11进一步描述的,可使用训练数据在学习或训练处理期间训练神经网络。在一个示例中,语音识别设备110还可执行训练或从外部处理设备和/或服务器或者从语音识别设备110的存储器获得对应的训练参数。在一个示例中,循环神经网络(RNN)例如可被配置为通过在此讨论的用于语音识别的语音识别设备110来例如一起或共同地实现声学模型120和语言模型130,其中,在RNN中,与之前时间对应的隐藏层的输出值可被重新输入到与当前时间对应的同一隐藏层。

在一个示例中,由被配置为神经网络的语音识别设备110实现的语音识别模型可通过接收关于在之前时间由神经网络计算的结果的反馈来动态地实现频谱掩蔽。当频谱掩蔽被执行时,可选择性地不按原始确定/捕捉的那样完全使用针对每个频带的特征值,而是可将例如根据动态地实现的频谱掩蔽而对针对所有或选择的频带的所有或选择的特征值的大小进行相应调整的结果用于语音识别或用在语音识别中。此外,例如,可动态地实现这样的频谱掩蔽方案,以从捕捉的语音信号集中地识别除噪声之外的人的语音和/或当在捕捉的语音信号中存在多个说话者的多个语音时集中地识别将被识别的特定的或选择的说话者的语音。

人具有基于将要输入的语音而专注于特定频谱范围的信号并自适应地去除包括在语音信号中的噪声的能力。例如,在人类听觉系统中存在从大脑的听觉区域到外周神经的下行路径(descending path),下行路径能够影响在有噪环境中的选择性地聚焦和识别语音的能力。在之前的技术语音识别方法中,这样的聚焦可能不可用或者可能难以实现,因此这是在处理器实现的语音识别技术中的在这个方面上的技术失败的示例。然而,在一个示例中,根据一个或多个实施例的语音识别模型可通过对这样的下行路径进行建模来很好地更准确地识别噪声环境中的语音和/或识别不同的语音,并为改进的语音识别提供选择性的注意力能力(attention ability)。为此,形成或被配置为实现语音识别模型的示例神经网络可基于确定的注意力权重在语音信号被输入到神经网络之前或者在语音信号输入到神经网络时调节语音信号。例如,已被施加注意力权重的捕捉的语音帧的提取的特征可被输入到神经网络,使得可基于注意力权重来控制并因此不同地突出(emphasize)和/或考虑在语音帧的频率范围的特征值之中的一个或多个频率范围的特征值的重要程度。例如,可通过响应于语音帧的每个设置的频率范围的各自的特征值被输入的施加的注意力权重,来分别实现多个频率范围中的每个频率范围的一个或多个特征值的注意力权重。

在一个示例中,语音识别设备110可基于由在之前时间的神经网络的至少一个层输出的输出值来确定将被施加到语音信号的注意力权重。例如,仅作为示例,至少一个层可以是神经网络的隐藏层,示例隐藏层的输出可以是单个值、多个输出节点值、结果特征向量或特征映射等。在另一个示例中,例如,除了对之前时间层输出的这样的考虑之外,神经网络可通过考虑上下文值(context value)来确定注意力权重。例如,语音识别设备可被配置为确定上下文值,然后在确定注意力权重时依赖于那个确定的上下文值。在另一个示例中,仅作为示例,在当前时间(例如,在确定的注意力权重的施加之前)将被输入的语音信号的特征值可另外用于确定然后可用于之后被施加到以下项中的注意力权重:示例输入、与输入层对应的示例连接关系、与在当前时间和/或随后时间中的同一层或其他层对应的示例连接关系和/或在当前或随后时间中的示例输入层或其他层的输出。

例如,语音识别设备110可基于与之前时间相关联的信息来确定注意力权重,并基于施加的注意力权重自适应地调节在当前时间给予将被识别的语音信号的每个频率范围的突出(emphasis)。因此,可通过减小噪声分量对识别语音信号的结果的影响和/或专注于特定说话者的语音信号来增强识别性能。

下面将更详细地讨论语音识别设备使用语音识别模型(例如,通过配置的神经网络)来识别语音信号的示例操作。这里,可通过图1的语音识别设备110、针对图2-9讨论的语音识别设备、图10A和图10B的语音识别设备1000、针对图11讨论的训练设备或者如不受限于在此描述的特定语音识别设备的实施例的其他语音识别设备来实现任何这样的操作或所有这样的操作。

图2是示出语音识别方法的示例的流程图。

可通过语音识别设备(例如,图1的语音识别设备110、图10A和图10B的语音识别设备1000或在此讨论的任何其他语音识别设备或训练设备)来执行语音识别方法,注意实施例不限于此。参照图2,在操作210中,语音识别设备接收或捕捉语音信号。语音信号可包括多个语音帧或者被捕捉为通过进一步处理而包括多个语音帧,其中,多个语音帧包括关于语音随着时间流逝而改变的信息。语音帧可包括例如梅尔频率倒谱系数(MFCC)的频率特征值或基于频谱图中表示的频率分量的窗口的值。语音识别设备可将语音信号划分为不同频率分量的信号,并从划分的信号提取对应的频率特征值。语音帧中的每个语音帧可包括基于频率分量的多个通道和与每个通道对应的频率分量的频率特征值。

在操作220中,语音识别设备使用通过一个或多个训练的神经网络实现的语音识别模型来识别语音信号。语音帧可被输入到语音识别模型,或者多个语音帧可被同时输入到语音识别模型。从语音信号划分的不同频率分量的信号的特征值可被输入到语音识别模型。

在一个示例中,语音识别设备在输入语音的之前时间基于被配置为实现语音识别模型的神经网络的中间层值或隐藏层值或来自至少一个层的状态来确定注意力权重,还可基于上下文值以及与输入语音的当前时间对应的输入到语音识别模型的语音特征值中的至少一个,并且在语音信号输入到语音识别模型之前或之后将确定的注意力权重施加到语音信号和/或在输入语音的当前时间将确定的注意力权重施加到中间层值或隐藏层值或连接。例如,语音识别设备可对输入语音施加输入到语音识别模型的语音帧中的每个频率分量的各自的注意力权重。如提到的,注意力权重还可以或可选地通过包括在语音识别模型的神经网络或被训练为基于输入信息(诸如,基于输入上下文信息、来自或关于实现语音识别模型的神经网络的一个或者多个层的信息或它们的输出或状态、输入语音和/或由用于输入语音的语音识别的语音识别模型使用的其他信息)确定注意力权重的另一神经网络中的至少一个层来确定。

可基于注意力权重,在输入到语音识别模型的语音帧中增大、减小或保持关于预定频率分量的信号的权重。例如,在神经网络示例中,可将语音帧输入提供给神经网络的输入层,之后在被神经网络的下一分层的层考虑之前或之时,将分别训练的权重施加到语音帧输入。因此,可通过确定的注意力权重来调节这个训练的权重。由注意力权重引起的权重的增加可对应于在语音识别模型估计语音帧的识别结果时那个频率分量的信号被突出或给予更多考虑。相反,由注意力权重引起的权重的减小可对应于在语音识别模型估计语音帧的识别结果时,那个频率分量的信号被减少突出(deemphasized)或给予更少考虑。注意力权重还可施加权重调节,其中,权重调节在语音识别模型估计语音帧的识别结果时能够使选择的频率分量不被考虑。在另外的示例中,不同频率分量的特征值可具有由不同频率分量的各个窗口的大小表示的大小,并且可将分别确定的注意力权重施加到特征值以基于施加的确定的注意力权重来选择性地调节不同频率分量的各个窗口的大小,从而实现对各个频率分量的这样的保持或选择性突出。因此,在一个示例中,注意力权重可执行频谱掩蔽的作用。

在另一个示例中,语音识别设备可将注意力权重施加到在神经网络的层之间传送的特征或输出层值或者施加到针对这样的层的预先训练的连接权重。仅作为示例,神经网络的示例当前层可将训练的连接权重分别施加到将被输入到当前层的至少一个节点的分层的下层的多个输出或特征值中的每一个输出或特征值(或者在输入到当前层之前施加这样训练的连接权重),例如,可对那些训练的权重的结果进行求和,并且求和的结果可被施加到当前层的所述至少一个节点的线性或非线性激活函数,并且线性或非线性激活函数的结果可被输出为当前层的所述至少一个节点的结果。诸如通过基于确定的注意力权重调节各自训练的权重中的一个或多个训练的权重和/或通过基于确定的注意力权重来调节分层的之前层/下层或当前层的激活函数的输出,确定的注意力权重可被施加到神经网络的分层的之前层/下层与当前层之间的这样的连接关系中的至少一个连接关系。例如,响应于注意力权重被施加到分层的下层的输出,可根据注意力权重来调节从分层的之前层/下层向当前层传送的值的大小。仅作为示例,可基于在之前时间的神经网络的一个或多个层的各自的输出或中间值以及与当前时间对应的到语音识别模型的语音输入值和示例上下文值中的至少一个来确定注意力权重。

语音识别设备可使用语音识别模型识别已被施加注意力权重的语音的语音信号,并输出语音信号的识别的结果和/或基于多个这样的语音信号的识别的组合的语音的识别的结果。在一个示例中,语音识别模型可以是以音素为单位估计包括在语音信号中的语言信息的声学模型。例如,可将以音素为单位估计的识别结果分别输入到与语言模型对应的另一个语音识别模型中,并可通过该另一个语音识别模型来估计关于包括在语音信号中的语言信息的整个文本的信息。如下面进一步解释的,被配置为实现语音识别模型的神经网络可被预先训练以输出与输入信息对应的识别结果。例如,作为这样训练的结果,训练的神经网络的结构参数和连接权重参数可被存储,并且基于那些存储的结构参数和连接权重参数,训练的神经网络可被再现、实现和利用。因此,可基于在训练处理中确定的神经网络的训练的结构参数和连接权重参数获得由语音识别模型输出的识别结果。下面参照图3至图9更详细地提供语音识别设备可使用这样的语音识别模型来识别语音信号的处理的进一步描述。

图3是示出语音识别处理的示例的流程图。参照图3,语音识别设备将注意力权重施加到输入到语音识别模型的语音信号,并对已被施加注意力权重的语音信号执行语音识别。这里,将针对语音识别设备讨论图3的操作,其中,仅作为非限制性示例,所述语音识别设备可以是以下项中的任何项:图1的语音识别设备110、图10A和图10B的语音识别设备1000或者在此讨论的任何其他语音识别设备或训练设备。

参照图3,在操作310中,语音识别设备基于由被配置为在通过语音识别设备进行语音的识别的处理中实现在之前时间的语音识别模型的神经网络的至少一个层(例如,隐藏层或输入层中的至少一个层)输出的输出值来确定注意力权重,以基于确定的注意力权重在通过语音识别设备进行语音的识别的处理中实现在当前时间的语音识别模型。在一个示例中,通过语音识别设备将包括不同频率分量的信号的当前时间的语音帧输入到语音识别模型,并且语音识别设备确定不同频率分量的信号中的每个信号的注意力权重。因此,由于施加的注意力权重,与横跨频率分量的原始的或相等的突出或考虑相比,可在输入到语音识别模型的不同频率分量的信号之间实现得到的不同的突出或聚焦,使得不同的频率分量对通过语音识别模型的语音帧的最终估计语音具有不同的加权效果。在另一个示例中,语音识别设备基于在当前时间输入到语音识别模型的语音帧的特征值,确定当前时间的注意力权重。

在另一个示例中,除了基于在之前时间由神经网络的示例的至少一个层输出的示例输出值之外,语音识别设备还基于由语音识别设备基于关于将被识别的说话者的信息确定的上下文值来确定注意力权重。例如,当多个说话者的语音被包括在语音信号中时,上下文值可用于集中地识别将被识别的说话者的语音。在一个示例中,可基于确定的或用户设置的关于说话者的年龄、说话者的性别、说话者的样本语音或说话者的确定的位置的信息来确定上下文值。此外,例如,除了考虑上下文值以确定注意力权重之外,语音识别设备还可基于在当前时间输入到语音识别模型的语音帧的特征值来确定注意力权重。

在操作320中,语音识别设备将确定的注意力权重施加到与当前时间对应的语音信号。例如,语音识别设备可将注意力权重施加到输入到语音识别模型的语音帧的每个频率分量的信号。作为示例,捕捉的语音的紧接地之前语音帧可在之前时间已经被输入到语音识别模型,以在之前时间识别之前语音帧。以当前时间为例,可基于注意力权重调节关于针对每个频率分量的输入到语音识别模型的信号的权重,从而可通过减少噪声分量的影响和/或专注于特定说话者的语音来执行捕捉的语音的语音识别。这里,也如图4-5和图7-8所示,针对之前的语音帧执行的语音识别也可基于在之前时间根据来自针对捕捉的语音的更之前的语音识别操作的信息而确定的当时施加的注意力权重。

在另一个示例中,在当前时间将针对捕捉的语音和包括在语音信号中的多个语音帧同时输入到语音识别模型。在这个示例中,语音识别设备可确定输入到语音识别模型的语音帧中的每个语音帧的注意力权重,并将确定的注意力权重施加到与确定的注意力权重对应的语音帧中的每个语音帧。与以上类似,在之前时间执行的语音识别也可以基于当时类似地确定的各个注意力权重,其中,所述确定的各个注意力权重是在之前时间基于来自针对捕捉的语音的更之前的语音识别操作的信息针对当时输入的捕捉的语音的多个语音帧而确定的注意力权重。

在操作330中,语音识别设备使用语音识别模型来识别已被施加注意力权重的语音信号。在一个示例中,响应于已被施加注意力权重的语音信号被输入到语音识别模型,语音识别模型以音素为单位估计由语音信号指示的语言信息并输出估计的结果。在另一个示例中,输出是以字为格式,诸如,在字格式中通过如上面讨论的由语音识别模型进一步实现的语言模型来进一步实现以音素为单位并根据施加的注意力权重而估计的语言信息的结果。在一个示例中,可在同一神经网络中实现语言模型和声学模型,诸如,将声学模型的输出结果提供给实现语言模型的神经网络的另一层。

图4和图5均示出基于语音识别模型执行语音识别的示例。将针对语音识别设备讨论图4和图5的各自的操作,其中,所述语音识别设备可以是以下项中的任何项:图1的语音识别设备110、图10A和图10B的语音识别设备1000或者在此讨论的任何其他语音识别设备或训练设备,注意实施例不限于此。

参照图4,语音信号的特征在每个时间段被输入到语音识别模型410。例如,语音信号Vt-1的特征在第一时间被输入到语音识别模型410,语音信号Vt的特征在第二时间被输入到语音识别模型410,语音信号Vt+1的特征在第三时间被输入到语音识别模型410。语音信号Vt-1、语音信号Vt和语音信号Vt+1可对应于随着时间从t-1、t到t+1被顺序输入到语音识别模型410的语音帧。作为非限制性示例,语音信号的特征可包括例如如通过经由实现语音识别模型的语音识别设备的一个或多个处理器或者语音识别设备的单独的信号处理器进行的捕捉的音频的信号处理而确定的从频谱图提取的特征值(例如,频率分量值)、使用滤波器组提取的特征值以及梅尔频率倒谱系数(MFCC)的特征值。

仅作为示例,被配置为实现语音识别模型410的神经网络可包括多个层415、420和425。因此,层415和层420代表隐藏层,层425代表用于输出语音识别模型410的识别结果Yt-1、Yt和Yt+1的输出层。神经网络可以是具有允许在之前时间段计算的信息被用于当前时间段(诸如,由一个层在之前时间段中计算的信息被同一层(诸如,由同一层的分别相同的节点)在当前时间段中使用)的一个或多个循环连接的循环神经网络。因此,基于来自之前时间的循环连接计算的信息可被输入到与当前时间对应的层。例如,图4表示在第一时间的层420的输出值例如通过一个或多个循环连接被重新输入到在第二时间的层420,并且在第二时间的层420的输出值例如通过一个或多个循环连接被输入到与第三时间对应的层420,其中,第二时间在时间上紧跟第一时间之后,第三时间在时间上紧跟第二时间之后。因此,利用这些示出的示例循环连接,层420基于在第一时间由层420输出的循环输出值以及基于在第二时间从示例分层的下层415输出的输出值来计算将在第二时间输出的值。在来自之前时间中的层的其他连接可被用于当前时间中的一个或多个分层的下层。

包括在语音识别模型410中的权重确定器430从神经网络的至少一个分层的上层接收指示关于之前时间的信息的反馈,并且基于指示所述信息的反馈自适应地确定将被施加到语音信号的注意力权重。例如,权重确定器430接收指示在第一时间由神经网络的层415、420或425中的至少一个层输出的各自的输出值的反馈,并基于指示所述信息的反馈确定将在第二时间被施加到语音信号Vt的注意力权重。因此,可基于注意力权重来调节在包括在语音信号Vt中的不同频率范围的信号之间给出的突出,使得根据施加的注意力权重,估计的语音相比于一些频率范围更多地基于其他频率范围。因为权重确定器430接收在之前时间由神经网络的分层的上部的隐藏层输出的输出值或者由输出层输出的输出值(或者,语音识别模型410的输出值),并基于接收的信息动态地调节针对当前时间输入的语音信号的频率分量,所以权重确定器430可对听觉选择性聚焦的前述下行路径方案进行建模。在一个示例中,权重确定器430包括包含在语音识别模型410的神经网络中的至少一个层,或者可通过另外的神经网络来实现。例如,在图4的示出的神经网络示例中,可通过示出的神经网络的至少一个神经网络层来实现权重确定器,其中,示出的神经网络可具有与接收语音信号Vt输入的输入层分离的输入层,或者可通过被配置为与在神经网络的输入和示例层415之间的连接并行的神经网络的层来实现权重确定器。在另一个示例中,可存在针对随后对应的目标层的不同的训练目标的多个输入层,并且权重确定器或者各自的权重确定器可以与各自的输入被并行地(或各自串行地)实现,或者被并入到每个训练的目标的层的各自的并行集合中,以便确定针对由多个输入层接收的输入中的每个输入的各自的注意力权重。

在另一个示例中,权重确定器430基于在当前时间t输入的上下文值Ct和语音信号Vt中的至少一个来确定注意力权重。可基于关于将被识别的说话者的信息(包括,例如,说话者的年龄、说话者的性别、说话者的样本语音或说话者的方位)来确定上下文值Ct。

因此,在一个示例中,仅作为示例,权重确定器430可使用下面的等式1和等式2来确定注意力权重。

等式1:

在等式1中,Vt表示在当前时间t输入到语音识别模型410的语音信号,并且语音信号可包括语音帧的频率特征值。代表隐藏层h1、h2、h3...在之前时间t-1的输出值(或隐藏状态值)。例如,在图4的示例中,隐藏层h1和h2可对应于层415和420。这里,st-1表示在之前时间t-1由输出层输出的输出值。例如,在图4的示例中,st-1可对应于在之前时间t-1由层425输出的输出值。仅作为示例,当示例层425是softmax层时,st-1可代表softmax函数的结果。在这个示例中,层425可指示之前语音帧的识别结果值(例如,音素的概率值或概率向量)。因此,在一个示例中,输出值之中的至少一个层的输出值可用于确定注意力权重。在等式1中,Ct表示包括关于将被识别的目标说话者的信息和用于通过专注于目标说话者的语音来执行语音识别的参数的上下文值。例如,上下文值Ct包括关于目标说话者的图像、目标说话者的语音音调、目标说话者的标识(ID)以及目标说话者的方位的信息。例如,响应于关于说话者A的语音的样本信息被输入为上下文值Ct,语音识别模型410用作适合于说话者A的语音的语音信号滤波器。等式1的示例attend()函数的参数中的至少一个参数可用于确定注意力权重或可被考虑以确定注意力权重。

这里,示例attend()函数表示用于基于考虑的参数计算中间结果值et的函数。在一个示例中,可通过响应于参数被输入到神经网络而计算中间结果值et的至少一个层来实现attend()。

等式2:

at=σ(et)

在等式2中,σ()表示用于将圆括号中的值输出为从0至1的值中的任何一个值的S型函数(sigmoid function),at表示与通过将中间结果值et施加到S型函数而获得的结果值对应的注意力权重。在一个示例中,中间结果值et是具有与输入到语音识别模型的语音帧的特征向量(例如,输入向量)的维度相等的维度的向量。

基于等式1和等式2,权重确定器430可基于用于attend()函数的示例输入参数中的至少一个来计算具有在0与1之间的值的注意力权重at。在一个示例中,输入到语音识别模型410的语音帧包括基于频带的多个通道,其中,针对所述多个通道中的每一个通道的对应的注意力权重被计算并被施加。在一个示例中,权重确定器430还可基于在一个或多个之前时间与权重确定器430的一个或多个循环连接(例如,加权或非加权循环连接)来计算在当前时间的注意力权重。

在一个示例中,例如,响应于注意力权重at被施加到语音信号,可如下面等式3所示计算图4的神经网络的隐藏层415的输出值Ot。

等式3:

在等式3中,Vt表示在当前时间t输入到语音识别模型410的输入值,at表示在当前时间t由权重确定器430确定的注意力权重。表示一个元素对应(element-wise)乘法运算。ht-1表示在之前时间t-1由示例隐藏层(例如,来自之前时间的层415和/或层420)输出的输出值。Wf表示在当前时间在分层的下层与当前层之间施加的前向权重,Wr表示施加到循环神经网络连接中的输出值ht-1的循环权重。b表示用于调节在当前时间t由隐藏层415输出的输出值Ot的偏移值。σ()表示S型函数。诸如下面针对图11进一步讨论的,在神经网络的训练处理中学习注意力权重at、前向权重Wf、循环权重Wr和偏移值b。

在一个示例中,基于等式3,神经网络的隐藏层可基于已被施加注意力权重的语音信号来计算被传送到分层的上层的输出值。

在另一个示例中,包括在语音信号中的多个语音帧被同时输入到语音识别模型410。在这个示例中,语音识别设备确定输入语音帧中的每个输入语音帧的注意力权重,并将确定的注意力权重施加到与确定的注意力权重对应的语音帧中的每个语音帧。响应于语音帧被输入到语音识别模型410,可基于在最近时间的语音帧的上下文值来执行语音识别。

参照图5,可通过包括在语音识别模型510的神经网络中的至少一个层515来实现图4的示例权重确定器430中的任何权重确定器的任何操作、任何组合或所有的操作。因此,上面针对图4的权重确定器的描述这里也适用于针对包括在语音识别模型510的神经网络中的一个或多个各自的层515。在之前时间由神经网络的至少一个层输出的输出值以及在当前时间输入到语音识别模型510的语音帧的上下文值和特征值中的一个或多个可被输入到层515。在一个示例中,层515使用等式1和等式2来确定各自的注意力权重。层515可将注意力权重施加到输入语音信号,并基于已被施加注意力权重的语音信号来计算层515的输出值。例如,可将层515的输出值传送到分层的上层520,通过层525和层530确定语音识别模型510的识别结果Yt。此外,在一个示例中,第二时间的层515还可基于与第一时间的层515的循环连接来确定各自的注意力权重,正如第三时间的层515还可基于与第二时间和/或第一时间的层515的循环连接来确定各自的注意力权重。

图6是示出语音识别处理的示例的流程图。参照图6,语音识别设备将注意力权重施加到在被配置为实现语音识别处理的神经网络的层之间传送的值。针对图3提供的描述可适用于图6的描述,因此,为了简洁的目的,将不重复一些讨论。将针对语音识别设备讨论图6的操作,其中,所述语音识别设备可以是以下项中的任何语音识别设备:图1的语音识别设备100、图10A和图10B的语音识别设备1000或者在此讨论的任何其他的语音识别设备或训练设备,注意实施例不限于此。

参照图6,在操作610中,语音识别设备基于通过被配置为实现在之前时间的语音识别模型的神经网络的至少一个层输出的输出值来确定注意力权重。注意力权重可调节与当前层对应的输出值的大小,其中,与当前层对应的输出值将被传送到神经网络的当前层的分层的上层。在一个示例中,语音识别设备基于在之前时间由神经网络的隐藏层和输出层的至少一个层输出的输出值来确定注意力权重。在另一个示例中,或者此外,语音识别设备基于在当前时间输入到语音识别模型的语音帧的特征值来确定注意力权重。

在另一个示例中,或在另外的组合中,例如,除了基于在之前时间由神经网络中的至少一个层输出的输出值之外,语音识别设备还基于根据关于将被识别的说话者的信息而确定的上下文值来确定注意力权重。在另一个示例中,语音识别装置基于上下文值、与当前时间对应的语音帧的特征值以及在之前时间由神经网络的至少一个层输出的输出值中的所有的值来确定注意力权重。

在操作620中,语音识别设备将确定的注意力权重施加到由在当前时间的至少一个层输出的输出值。例如,语音识别设备可将注意力权重施加到在分层的下层与分层的上层之间的连接关系中的至少一个。响应于注意力权重被施加,可根据注意力权重来调节从分层的下层传送到分层的上层的值的大小。例如,可基于注意力权重将传送的值调节为由分层的下层输出的原始值的0倍、1/2倍、1/4倍、1/8倍。

在此,根据实施例,对注意力权重被确定并被施加的参考可包括一个或多个注意力权重被分别确定并被分别施加到多个连接关系或者一个注意力权重被确定并被施加到一个连接关系。例如,可在示例神经网络的输入层与神经网络中的至少下一隐藏层之间存在连接关系。如在此进一步讨论的,可在一个或多个之前时间中的示例层的输出与在一个或多个后续时间中的同一层的输出之间存在循环连接关系。作为非限制性示例,可在一个或多个之前时间中的一个或多个示例层的这样的输出与在一个或多个后续时间中的神经网络中的其他分层的下层的输出之间存在连接关系。诸如图4的示例中所示,之前时间与后续时间之间的循环或其他连接可在时间上连续,虽然替代方案也是可用的,诸如通过依赖于来自一个或多个更之前时间的循环或其他连接,而不是用于当前时间识别的紧接地之前时间。仅作为示例,还可存在卷积连接、偏置连接以及其他神经网络上下文或记忆连接。诸如在上面讨论的图4-5和/或下面进一步讨论的图7-8的示例中,确定的注意力权重的数量可对应于正在施加注意力权重的位置。此外,在确定注意力权重被施加到选择的用于实现的注意力机制的连接关系的处理中,确定的注意力权重可针对被分别施加了确定的注意力权重的输入或特征值而被确定为相同或分别不同。例如,当注意力权重被确定时,具有相同值的确定的注意力权重可被施加到多个连接关系(诸如,与在神经网络内的注意力权重正被实现的位置对应的所有的或选择的连接关系)。可选择地,施加到与注意力权重正被实现的位置对应的这样的连接关系中的每个连接关系的各自的注意力权重可被独立地确定,因此,根据独立的确定的结果,施加的注意力权重可在连接关系之间彼此不同。作为另外的示例,对于选择的连接关系,一些注意力权重可以是相同的,对于其他选择的连接关系或者对于与注意力权重正被实现的位置对应的剩余的连接关系,一些注意力权重可被独立地确定,再次注意,这样的注意力权重可被实现在示例神经网络的多于一个的部分中(作为非限制性示例,至少诸如在图4-5的注意力权重还与图7和图8的注意力权重一起被实现的示例中)。因此,虽然通过参考注意力权重被确定并可被施加到输入值、层输出值或者在层之前、在层内或在层之间的对应的或其他的连接关系,已经提供了以上和以下示例,但是这样的参考还包括各自的注意力权重被确定并分别施加到不同的输入值、层输出值和/或这样的变化的连接关系。

因此,在操作630中,语音识别设备指示识别语音信号的结果。在一个示例中,识别结果指示关于音素的概率值或概率向量的信息、关于字的概率值或概率向量的信息,向用户显示结果或者另外指示结果(诸如,通过语音识别设备的进一步的控制的操作来指示结果)。因此,语音信号的识别的结果的指示可通过明确指示或者推理指示来进行。

图7和图8均示出基于语音识别模型执行语音识别的示例。将针对语音识别设备讨论图7和图8的各自的操作,其中,所述语音识别设备可以是以下项中的任何项:图1的语音识别设备110、图10A和图10B的语音识别设备1000或者在此讨论的任何其他的语音识别设备或训练设备,注意实施例不限于此。

参照图7,语音识别模型710基于在当前时间t输入的语音信号Vt输出识别结果Yt。被配置为实现语音识别模型710的神经网络包括层715、720、730和735。例如,神经网络可以是具有循环连接的循环神经网络。

与参照图4提供的描述类似,权重确定器740基于从神经网络的分层的上层接收到的关于之前时间的信息来确定当前时间的注意力权重,其中,参照图4提供的描述也适用于这里,。例如,权重确定器740接收指示在之前时间由层715、720、730和735中的至少一个层输出的输出值的反馈,并且基于指示所述信息的反馈与当前时间t对应的注意力权重。例如,权重确定器740使用等式1和等式2来确定注意力权重。在这个示例中,等式1和等式2中的at和et可以是向量(例如,作为非限制性示例,具有与被施加注意力权重的层的输出值的相同维度的向量)。

权重确定器740可包括包含在语音识别模型710的神经网络中的至少一个层,或者可由实现另外的神经网络以确定注意力权重的语音识别装置来实现。可选地,或此外,权重确定器740可基于在当前时间t输入的上下文值Ct和/或语音信号Vt中的至少一个来确定注意力权重。参照图4提供的描述可适用于确定注意力权重的方法,因此为了简洁的目的而不再重复。

由权重确定器740确定的注意力权重可被施加到神经网络的分层的下层与分层的上层之间的连接关系中的至少一个连接关系。在图7的示例中,注意力权重被施加到层720的输出值,然后注意力权重施加的结果被传送到分层的上层730。例如,在另一个示例中,注意力权重被确定并被施加到两个或更多个层之间的连接关系中的每个连接关系,注意力权重根据每个连接关系各自的权重的独立确定而彼此分别不同。因此,利用这样的示例,基于注意力权重减少语音识别中的特定分量的影响的掩蔽功能可被实现。

参照图8,可通过包括在语音识别模型810的神经网络中的至少一个层825来实现图7的权重确定器740的操作。响应于在当前时间t语音信号Vt被输入到层815,通过层815和层820计算的值被传送到层825。例如,由神经网络的至少一个层在之前时间输出的输出值以及上下文值可在当前时间被输入到层825。诸如上面讨论的,层825可基于输入信息来确定各自的注意力权重。层825可将通过将注意力权重施加到从分层的下层接收到的值而确定的结果值传送到分层的上层830。可通过层830和层835来确定语音识别模型810的识别结果Yt。因此,在图8的示例中,语音识别模型810的神经网络可包括执行层825的操作的至少一个层。

图9是示出语音识别处理的示例的流程图。可如图9所示的那样顺序地执行图9的操作,或者可在不偏离描述的实施例的技术构思和范围的情况下改变操作的顺序。此外,可并行或同时执行图9的操作。将针对语音识别设备讨论图9的操作,其中,所述语音识别设备可以是以下项中的任何项:图1的语音识别设备110、图10A和图10B的语音识别设备1000或者在此讨论的任何其他的语音识别设备或训练设备,注意实施例不限于此。

参照图9,在操作910中,语音识别设备获得语音帧的频谱图。在一个示例中,语音识别设备通过经由傅立叶变换将语音信号转换为频率范围的信号来生成频谱图,并且从频谱图提取语音信号的特征。作为非限制性示例,例如,参照图1提供的上面的描述可适用于从频谱图提取语音信号的特征。在操作920中,语音识别设备确定将被施加到或针对语音帧的一个或多个注意力权重。例如,参照图1至图5描述的上面的操作的任何或任何组合可被实现为确定注意力权重以将选择性的注意力施加到输入的语音数据或帧。此外,如上面讨论的,参照图6-8描述的上面的操作还可被实现为确定另一个注意力权重,以通过例如层之间的连接关系的调节来施加选择性注意力。在操作930中,在一个示例中,语音识别设备可使用语音识别模型(诸如,其中,语音识别模型为声学模型)以音素为单位识别被施加注意力权重的语音帧。诸如通过进一步实现语言模型,语音识别设备可基于以音素为单位的识别结果来识别由语音信号指示的字。

在操作940中,语音识别设备验证当前语音帧是否是最后的语音帧。基于当前语音帧是最后的语音帧的验证的结果,操作940终止。基于当前语音帧不是最后的语音帧的验证的结果,对下一个语音帧再次执行操作910至操作940。

然后,语音识别设备可指示语音识别的结果。

图10A-10B示出语音识别设备的示例。图10A和图10B的语音识别设备可执行上面针对图1-9和下面讨论的图11描述的操作中的任何一个或任何组合,注意实施例不限于此。此外,图10A和图10B的语音识别设备可对应于图1-9的语音识别设备和图11的训练设备中的任何一个或任何组合,注意实施例不限于此。此外,仅作为示例,图1的语音识别设备110可对应于图10A和图10B的语音识别设备中的任一个或二者。

参照图10A和图10B,各自的语音识别设备1000包括存储器1020和处理器1010。存储器1020可存储由处理器1010可执行的至少一个指令。存储器1020和处理器1010以及如图10B中示出的语音识别设备1000的其他组件可通过总线1025进行通信。处理器1010可被配置为执行存储在存储器1020中的至少一个指令,例如,存储器1020是存储指令的非暂时性计算机可读介质,其中,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器实现在此描述的一个或多个或全部处理。例如,处理器1010可被配置为响应于一个或多个指令被处理器1010执行而执行参照图2至图9和图11描述的一个或多个或所有的操作。如上所述,处理器还可被配置为或者被控制为诸如基于这样的指令而被配置为实现或对应于如上面针对图3-9描述的一个或多个神经网络。存储器1020还可存储这样的指令和/或这样的神经网络的训练的参数。可选择地,另一个存储器可被包括在各自的语音识别设备1000中,并且可存储指令(和/或训练的神经网络参数)和/或各自的语言识别设备1000的另一个处理器可执行存储的指令和/或存储这样的神经网络参数。

在一个示例中,处理器1010被配置为基于在之前时间实现的神经网络的至少一个层的输出值来确定将被施加到输入语音特征和/或实现的神经网络的隐藏层结果或连接的各自的注意力权重。

例如,处理器可被配置为将确定的各个注意力权重施加到与当前时间对应的捕捉的语音信号,并使用训练的语音识别模型来识别已被施加注意力权重的捕捉的语音信号。仅作为示例,由神经网络实现的语音识别模型的训练还可包括根据利用的训练数据以及通过经由监督的训练操作的针对标记的输入训练数据进行的神经网络的训练来使用变化的注意力权重来训练神经网络。

在另一个示例中,当使用训练的语音识别模型识别语音信号时,处理器1010可被配置为可选择地或另外地基于在之前时间的神经网络的至少一个层的输出值来确定当前时间的注意力权重,并将确定的注意力权重施加到在当前时间的神经网络的层的输出值,诸如,其中,基于施加的注意力权重选择地调节输出值的层为与神经网路的输入层不同的层。因此,处理器1010被配置为基于施加的注意力权重来估计语音信号的识别的结果。

此外,仅作为示例,处理器1010或另一个处理器可控制声音的采样、捕捉的声音的采样以及将得到的采样的音频帧提供给诸如图4-5和图7-8的神经网络的示例输入层。作为非限制性示例,处理器1010还可被配置为加载用于将处理器1010配置为图4-5和图7-8的神经网络示例中的任何或任何组合的示例神经网络的训练参数。此外,处理器1010可被配置为例行地请求并接收对这样的存储的训练参数的更新。

进一步参照图10B,用户接口1030可代表硬件有线和/或无线通信模块以及其他用户接口装置(诸如,仅作为示例,键盘、触摸屏、鼠标或触笔)。在这样的外部示例或远程示例中,处理器1010可执行用户的语音的采样(诸如,通过用户接口1030表示的由麦克风捕捉的模拟信号的采样),然后,仅作为示例,使用硬件通信模块将采样的用户的语音传送到可实现在此描述的操作中的任何操作的一个或多个外部服务器,和/或传送到被配置为实现在此描述的语音识别操作的语音识别设备1000的另一个处理器。作为通过语音识别模型实现的捕捉的语音的估计的语音的结果,估计的语音可诸如在语音识别设备1000为移动装置或个人助理装置的情况下通过用户接口1030输出,通过显示器1040显示,或由处理器1010使用以启动语音识别设备1010的进一步的操作,处理器1010控制移动装置的进一步的操作(诸如,仅作为示例,发起电话呼叫或播放选择的音乐)。

图11是示出语音识别模型的训练方法的示例的流程图。如上所述,图11的训练方法可由训练设备执行以训练图1至图9的语音识别模型和/或可由图10A至图10B的语音识别设备1000的处理器1010实现以训练图1至图9的语音识别模型。因此,图10A和图10B的处理器1010可代表从单独的训练设备接收或获得结果的训练的语音识别模型的训练的参数的语音识别设备,代表被配置为执行在此讨论的训练和语音识别二者的语音识别设备,或者代表被配置为仅实现在此讨论的语音识别模型的训练的语音识别设备。因此,通过针对图11的描述讨论在此讨论的语音识别模型的训练方面,实施例不限于此,并且这样的公开也可适用于并可用于与上述的语音识别操作和设备中的任何操作和设备的组合。

因此,参照图11,在操作1110中,示例训练设备确定将被施加到训练数据的注意力权重。训练数据被用于语音识别模型的训练处理中并包括多个语音信号,并且还可包括用于训练数据的多个对应的上下文值。在一个示例中,训练设备使用等式1和等式2来确定注意力权重。

在操作1120中,当语音识别模型正被训练时,训练设备使用语音识别模型获得训练数据的识别结果。训练设备可将注意力权重施加到用于训练的语音信号,并将已被施加注意力权重的语音信号输入到语音识别模型。在一个示例中,语音识别模型基于被施加注意力权重的语音信号以音素为单位输出识别结果。例如,训练语音识别模型的步骤可包括执行声学训练以生成训练的声学模型。

因此,在操作1130中,训练设备基于在操作1120中获得的识别结果来训练语音识别模型。在示例中,训练设备基于监督学习方案反复训练语音识别模型,直到语音识别模型被训练到预定的准确度水平和/或预定的最小误差水平为止。例如,在反复的训练操作中,训练设备反复地更新包括在语音识别模型的神经网络中的节点内和/或节点之间的连接权重,以反复地生成新的神经网络,直到实现语音识别模型的训练的神经网络中的一个训练的神经网络输出与训练数据对应的期望的识别结果为止。例如,训练设备可通过损失反向传播学习来更新节点之间的连接权重。损失反向传播学习是通过对提供的训练数据执行分层正向计算来估计损失,然后通过沿从神经网络的输出层到分层的下层的分层的反方向来减小和传播估计的损失来更新连接权重的方法。训练设备可定义用于测量表示训练的神经网络执行语音识别的当前设置的连接权重足够接近最优值的程度的目标函数,以基于目标函数的结果来控制连接权重的连续改变,迭代地训练语音识别模型以生成最终训练的语音识别模型(例如,可在上面针对图1-10B描述的语音识别设备中实现以执行语音识别的语音识别模型)。

因此,除了在根据图1-10B的语音识别模型的使用期间实现的这样的注意力权重确定和施加之外,训练处理还可包括学习确定注意力权重的操作的处理。例如,在训练过程中,响应于语音信号的不同频率分量的特征值被输入到正被训练的语音识别模型,正被训练的语音识别模型可被训练为基于在训练期间的之前时间的信息来选择将比在当前时间的其他频率分量的特征值更集中考虑的频率分量的特征值。在一个示例中,训练设备可定义用于测量注意力权重接近或者充分接近最优值的程度的目标函数,并可连续地或者重复地更新用于确定注意力权重的参数,使得目标函数的结果被确定为接近最优值。

通过硬件组件来实现执行在本申请中描述的操作的图1-11中的各个语音识别设备、训练设备、语音识别设备110、语音识别设备1000、声学模型120、语言模型130、语音识别模型410、510、710和180、权重确定器430和740、处理器1010、存储器1020、总线1025、用户接口1030和显示器1040,其中,硬件组件被配置为执行由硬件组件执行的在本申请中描述的操作。可被用于执行本申请中描述的操作的硬件组件的示例在适当的情况下包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中,通过计算硬件(例如,通过一个或多个处理器或计算机)来实现执行本申请中描述的操作的硬件组件中的一个或多个硬件组件。可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以定义的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合)来实现处理器或计算机。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行用于执行本申请中描述的操作的指令或软件(诸如,操作系统(OS)和在OS上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建并存储数据。为了简单起见,单数术语“处理器”或“计算机”可用于本申请中所述的示例的描述,但是在其他的示例中,多个处理器或计算机可被使用,或者一个处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如,单个硬件组件或者两个或更多个硬件组件可通过单个处理器,或者两个或更多个处理器,或者一个处理器和一个控制器来实现。一个或多个硬件组件可通过一个或多个处理器,或者一个处理器和一个控制器来实现,一个或多个其他硬件组件可通过一个或多个其他处理器,或者另一个处理器和另一个控制器来实现。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任何一个或多个不同的处理配置,其中,一个或多个不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

图1-11中示出的执行本申请中描述的操作的方法通过计算硬件(例如,通过一个或多个处理器或计算机)来执行,其中,计算硬件如上所述地被实现为执行用于执行本申请中描述的通过该方法执行的操作的指令或软件。例如,单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行。一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行,并且一个或多个其他操作可通过一个或多个其他处理器或者另一个处理器和另一个控制器来执行。一个或多个处理器或者一个处理器和一个控制器可执行单个操作或者两个或更多个操作。

用于控制计算硬件(例如,一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任何组合,以单独地或共同地指示或配置一个或多个处理器或者计算机作为机器或专用计算机进行操作,以执行由硬件组件执行的操作和如上所述的方法。在一个示例中,指令或软件包括由一个或多个处理器或者计算机直接执行的机器代码(诸如,由编译器生成的机器代码)。在另一个示例中,指令或软件包括由一个或多个处理器或者计算机使用解释器执行的高级代码。可基于附图中所示的框图和流程图以及说明书中的对应描述,使用任何编程语言来编写指令或软件,其中,说明书中的相应描述公开了用于执行由硬件组件执行的操作和如上所述的方法的算法。

用于控制计算硬件(例如,一个或多个处理器或者计算机)实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或者可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其它装置,其中,该任何其它装置被配置为:以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构,并且为一个或多个处理器或者计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构,使得一个或多个处理器或者计算机能够执行指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得指令和软件以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或者计算机以分布式方式被存储、访问和执行。

虽然本公开包括特定的示例,但是在理解了本申请的公开之后将清楚,在不脱离权利要求和它们的等同物的精神和范围的情况下可在这些示例中进行形式和细节的各种改变。在此描述的示例仅在描述性意义上被考虑,而不是为了限制的目的。每一个示例中的特征或方面的描述被认为可施加到其他示例中的相似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的系统、结构、装置或电路中的组件以不同方式被组合,和/或被其他组件或它们的等同物替换或补充,则可实现适当的结果。因此,本公开的范围不是由具体实施方式限定,而是由权利要求和它们的等同物限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开内。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1