语音识别方法、装置、设备及存储介质与流程

文档序号：15463888发布日期：2018-09-18 18:50阅读：245来源：国知局

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术：

随着计算机科学技术，尤其是人工智能(Artificial Intelligence，简称：AI)技术的不断发展，语音识别技术已经开始由实验室走向市场，被应用在越来越多的领域，如语音输入系统，用于工业控制、智能家居、智能玩具、终端设备的语音控制系统，智能对话查询系统等。语音识别技术使信息的获取和处理更加便捷，提高了用户的工作效率，为人们的生活带来了便利。

卷积神经网络(Convolutional Neural Network,简称：CNN)是一种前馈神经网络，在模式识别领域表现出色，近年来备受青睐，得到了广泛的应用。卷积神经网络CNN在语音处理领域的使用也越来越普遍，由于其卷积核通常是左右展开的，因此在进行语音识别时既需要利用当前帧之前的帧的信息，还需要利用当前帧之后的帧的信息，即在进行当前帧的语音识别的时候，会利用到未来的信息。例如，采用上下文是2的卷积神经网络进行语音识别时，在进行第N帧的语音识别时，需要利用第N-2、N-1、N、N+1、N+2这5帧的信息，语音识别系统需要等待2帧，等凑齐了这5帧的信息才进行处理，势必会造成2帧的硬延迟，而这种延迟在很多实时性要求较高的场合是不能被接受的。

综上所述，现有技术中基于卷积神经网络的语音识别技术无法满足高实时性的要求。

技术实现要素：

本发明实施例提供一种语音识别方法、装置、设备及存储介质，用以解决现有技术中基于卷积神经网络的语音识别技术存在硬延迟，无法满足高实时性的要求的问题。

第一方面，本发明实施例提供一种语音识别方法，包括：

获取待识别的语音信号；

采用预先训练的因果声学模型，根据语音信号中的当前帧和当前帧之前预设时间段内的帧，对语音信号中的当前帧进行识别，因果声学模型基于因果卷积神经网络训练得到。

在一种具体的实现方式中，所述方法还包括：

若当前帧之前的帧不足，则采用空帧进行补充。

在一种具体的实现方式中，预设时间段根据因果声学模型的上下文参数的取值确定。

在一种具体的实现方式中，因果声学模型包括多个堆叠的因果卷积层，多个堆叠的因果卷积层用于扩大因果声学模型的感受野。

在一种具体的实现方式中，因果声学模型还包括至少一层长短期记忆网络，长短期记忆网络用于学习语音信号的历史信息。

在一种具体的实现方式中，在对语音信号中的当前帧进行识别之前，还包括：

对待识别的语音信号进行高通滤波处理；

消除经高通滤波处理后的语音信号中的干扰信号。

在一种具体的实现方式中，干扰信号包括噪声信号和/或回声信号。

第二方面，本发明实施例提供一种语音识别装置，包括：

获取模块，用于获取待识别的语音信号；

识别模块，用于采用预先训练的因果声学模型，根据语音信号中的当前帧和当前帧之前预设时间段内的帧，对语音信号中的当前帧进行识别，因果声学模型基于因果卷积神经网络训练得到。

第三方面，本发明实施例提供一种语音识别设备，包括：

存储器；

处理器；以及

计算机程序；

其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现如上述任一项的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现如上述任一项的方法。

本发明实施例提供的语音识别方法、装置、设备及存储介质，通过获取待识别的语音信号，采用预先训练的因果声学模型，根据语音信号中的当前帧和当前帧之前预设时间段内的帧，对语音信号中的当前帧进行识别，因果声学模型基于因果卷积神经网络训练得到。本发明实施例提供的方法，在进行当前帧识别时，仅使用当前帧和当前帧之前的帧的信息，解决了现有技术中基于卷积神经网络的语音识别技术需要等待当前帧之后的帧而造成的硬延迟问题，提高了语音识别的实时性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明提供的语音识别方法一实施例的流程示意图；

图2为本发明一实施例中的补空帧的示意图；

图3为本发明一实施例中的因果声学模型的结构示意图；

图4为本发明提供的语音识别方法又一实施例的流程示意图；

图5为本发明提供的语音识别装置一实施例的结构示意图；

图6为本发明提供的语音识别设备一实施例的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明中的“第一”和“第二”只起标识作用，而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明实施例提供一种语音识别方法，请参见图1所示，本发明实施例仅以图1为例进行说明，并不表示本发明仅限于此。图1为本发明提供的语音识别方法一实施例的流程示意图。本实施例的执行主体包括但不限于以下中的至少一个：用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机。本实施例对此不做限制。如图1所示，本实施例提供的语音识别方法，可以包括：

步骤101、获取待识别的语音信号。

当执行主体是用户设备时，例如安装有传声器(麦克风)的电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等，可以通过用户设备中的传声器采集语音信号，获取待识别的语音信号；当执行主体是网络设备时，如服务器，服务器可以接收用户设备发送的语音信号，获取待识别的语音信号。

步骤102、采用预先训练的因果声学模型，根据语音信号中的当前帧和当前帧之前预设时间段内的帧，对语音信号中的当前帧进行识别，因果声学模型基于因果卷积神经网络训练得到。

采用已标记的语音数据库中的语音数据对因果声学模型进行训练，本实施例对于训练所采用的语音数据库和训练方法均不做限制。需要说明的是，本实施例中的帧的长度可以根据实际需要进行设置，考虑到语音识别对于实时性的要求，本实施例中的帧的长度不宜设置的过长，例如，可以设置一帧的长度为10毫秒。

现有技术中基于卷积神经网络CNN构建的非因果声学模型，由于卷积是左右展开的，因此，在进行语音识别时，既需要利用当前帧之前的帧的信息，还需要利用当前帧之后的帧的信息，即在进行当前帧的识别时，需要等待当前帧之后的帧，造成硬延迟。例如，采用上下文是2的卷积神经网络进行语音识别时，在进行第N帧的语音识别时，需要利用第N-2、N-1、N、N+1、N+2这5帧的信息，即在进行第N帧的识别时，语音识别系统需要等待第N+1和第N+2这2帧的信息，等凑齐了这5帧的信息才进行处理，势必会造成2帧的硬延迟，当帧长为10毫秒时，就会造成20毫秒的硬延迟，无法满足某些应用高实时性的要求。卷积神经网络的上下文参数取值越大，所造成的硬延迟的帧数越大。

本实施例提供了一种因果声学模型，采用本实施例提供的因果声学模型在对待识别的语音信号中的当前帧进行识别时，仅使用当前帧和当前帧之前的帧的信息，在进行语音识别时，无需等待，避免了硬延迟。本实施例中的因果声学模型，可以基于具有因果关系的网络训练得到，即网络在当前时刻的输出只和历史输入有关，而和未来的输入无关。

在一种具体的实现方式中，因果声学模型可以基于因果卷积神经网络训练得到。例如，采用上下文为2的因果卷积神经网络构建的因果声学模型，在进行第N帧的语音识别时，需要利用第N-4、N-3、N-2、N-1和N这5帧的信息，即在对当前帧进行识别时，仅使用了当前帧和当前帧之前的帧的信息，无需等待，避免了硬延迟。

在一种可能的实现方式中，因果声学模型还可以基于如贝叶斯网络等因果网络训练得到。

需要说明的是，本实施例中的预设时间段可以根据因果声学模型的上下文参数的取值确定。在一种可能的实现方式中，预设时间段的取值可以等于上下文参数取值的两倍乘以帧长。本实施例中的数值仅作示意，并不对本发明形成限制。

本实施例提供的语音识别的方法以其高实时性可以用于语音搜索、语音输入、语音交互等多种对于实时性要求较高的应用中。对于实时性要求不高的应用，也可以采用本实施例提供的方法，提高实时性，进而可以进一步提升用户体验。

本实施例提供的语音识别方法，通过获取待识别的语音信号，采用预先训练的因果声学模型，根据语音信号中的当前帧和当前帧之前预设时间段内的帧，对语音信号中的当前帧进行识别，其中，因果声学模型基于因果卷积神经网络训练得到。本发明实施例提供的方法，在进行当前帧识别时，仅使用了当前帧和当前帧之前的帧的信息，解决了现有技术中基于卷积神经网络的语音识别技术需要等待当前帧之后的帧而造成的硬延迟问题，提高了语音识别的实时性。

在上一实施例的基础上，本实施例还提供了一种语音识别的方法，针对上一实施例中，因果声学模型在对当前帧进行识别时，当前帧之前的帧不足的情况，给出了一种具体的实施方式。例如，当前帧为第1帧时，不存在之前的帧数据；或者，对于上下文为2的因果卷积神经网络，需要当前帧之前4帧的数据，而对于当前帧是第1帧、第2帧、第3帧或者第4帧时，当前帧之前的帧均不足。本实施例提供的语音识别方法，若当前帧之前的帧不足，则采用空帧进行补充。本实施例中的空帧可以采用全零向量实现。

下面采用一个具体的例子对补空帧进行说明，对于基于上下文参数值为2的因果卷积神经网络训练得到的因果声学模型，在进行第2帧的语音信号识别时，可以参照图2所示方法在当前帧之前补空帧。图2为本发明一实施例中的补空帧的示意图。如图2所示，其中黑色框表示有真实数据的数据帧，白色框表示由全零向量构成的空帧。箭头指向当前帧，即当前帧为第2帧，当前帧之前的帧信息不足以完成当前帧的识别，因此在当前帧之前补充3个由全零向量构成的空帧，凑成5帧，以完成当前帧的识别。

对当前帧进行识别所需要的数据帧的数量，取决于因果声学模型中因果卷积神经网络的上下文数值C。对当前帧进行识别所需要的数据帧的数量可以等于(2C+1)，即当前帧进行识别需要当前帧的信息以及当前帧之前2C帧的信息。因此，若当前帧之前的数据帧的数量小于2C时，需要采用空帧补齐，以完成当前帧的识别，即若当前帧的帧号N小于(2C+1)时，需要在当前帧之前补空帧，补空帧的数量为(2C+1-N)。

在上述任一实施例的基础上，本实施例针对上述实施例中的因果声学模型的具体实现方式进行进一步说明。为了进一步扩大因果声学模型的感受野，本实施例提供的语音识别方法中的因果声学模型可以包括多个堆叠的因果卷积层。

在一种具体的实现方式中，为了更加充分的利用历史信息，以提高语音识别的准确性，本实施例提供的语音识别方法中的因果声学模型在上一实施例的基础上，还可以包括至少一层长短期记忆网络LSTM。长短期记忆网络LSTM是一种时间递归神经网络，能够充分利用长远的历史信息，本实施例中的LSTM用于学习语音信号的历史信息。。

在上述实施例的基础上，本实施例对上述实施例进行结合，本实施例仅示出了一种可能的结合方式。

为了扩大感受野，可以采用堆叠的因果卷积层。对于这种堆叠的因果卷积神经网络，如果每层的上下文都是1，那么，第一层可以看到过去的2帧，第二层就可以看到过去的4帧，第三层就可以看到过去的6帧，第4层就可以看到过去的8帧。使用过去8帧的信息来对当前帧进行识别。上下文的数值越大，堆叠的因果卷积层越多，可以利用的过去的帧的信息就越多。为了保存更长久的信息，在堆叠的因果卷积神经网络层上采用多层长短期记忆网络LSTM，用于学习语音信号的历史信息。虽然堆叠的网络层数越多，可以利用的信息就越多，但是同时复杂度也随之升高。

本实施例提供的语音识别方法，对于信息量和复杂度进行了均衡。本实施例提供的语音识别方法可以采用如图3所示的因果声学模型。图3为本发明一实施例中的因果声学模型的结构示意图。如图3所示，该因果声学模型可以包括四层因果卷积神经网络：因果卷积层0-因果卷积层3、七层长短期记忆网络：长短期记忆网络层0-长短期记忆网络层6和联结注意时间分类器。

本实施例提供的语音识别方法，由于采用了四层堆叠的因果卷积神经网络，扩大了感受野，利用了尽可能多的信息，在进行当前帧的语音信号的识别时，利用了过去更多的帧的信息，且只需要利用过去的帧的信息，而不需要等待未来的帧信息，因此能够满足高实时性的要求。以因果卷积神经网络作为底层网络结构，细致的感受每一帧上语音的特性，上层采用长短期记忆网络LSTM这种时间递归神经网络，用于保存更长久的信息。本实施例提供的语音识别方法所采用的因果声学模型结合了因果卷积神经网络和LSTM网络，在进行当前帧的语音信号的识别时，既可以感受当前帧的信息，又能够利用长远的历史帧的信息，从而提高了语音识别的准确性。综上所述，本实施例提供的语音识别方法，不仅能够满足高实时性的要求，而且识别准确率高，进一步提升了用户体验。

考虑到用于进行因果声学模型训练的语音数据库中通常为纯净的语音信号，即因果声学模型是基于纯净的语音信号训练所得的，因此，为了进一步提高语音识别的准确率，在上述任一实施例的基础上，本实施提供的语音识别方法，在对语音信号中的当前帧进行识别之前，还可以包括：

对待识别的语音信号进行高通滤波处理，以阻隔或削弱频率小于预设频率阈值的语音信号。

消除经高通滤波处理后的语音信号中的干扰信号。可选的，干扰信号可以包括噪声信号和/或回声信号。

噪声信号可以存在于各种环境中，例如，公共场所、行驶的车辆内等，即使在安静的环境中，也会存在平稳的背景噪声。因此，获取到的待识别的语音信号中必然包括噪声信号，可以采用最小均方(Least Mean Square，简称：LMS)滤波算法、李雅普诺夫噪声主动控制算法等消除经高通滤波处理后的语音信号中的噪声信号。

当用于获取待识别的语音信号的电子设备安装有扬声器时，用户在利用该电子设备的语音合成(Text to Speech，简称：TTS)播放功能播放如导航语音、新闻阅读播报语音等的情况下，或者，在进行语音交互的情况下，电子设备的扬声器所发出的声音可以经空气等介质传播至传声器，形成声学回声。此时，干扰信号还可以包括由扬声器发送并传送至传声器的回声信号。可以采用回声消除(Acoustic Echo Cancellation，简称：AEC)技术消除经高通滤波处理后的语音信号中的回声信号。

本发明实施例还提供了一种语音识别方法，请参见图4所示，本发明实施例仅以图4为例进行说明，并不表示本发明仅限于此。图4为本发明提供的语音识别方法又一实施例的流程示意图。如图4所示，本实施例提供的语音识别方法，可以包括：

步骤401、获取待识别的语音信号。

步骤402、对待识别的语音信号进行高通滤波处理。

步骤403、消除经高通滤波处理后的语音信号中的干扰信号。

步骤404、采用预先训练的因果声学模型，根据语音信号中的当前帧和当前帧之前预设时间段内的帧，对语音信号中的当前帧进行识别，因果声学模型基于因果卷积神经网络训练得到。

本实施例提供的语音识别方法，通过对待识别的语音信号进行高通滤波处理和去干扰处理，提高了识别的准确率，通过采用因果声学模型，在进行当前帧的识别时，无需等待当前帧之后的帧，避免了硬延迟，能够满足高实时性的要求。本实施例提供的语音识别方法，不仅解决了现有技术中基于卷积神经网络的语音识别技术，在进行当前帧的识别时，需要等待当前帧之后的帧而造成的硬延迟问题，提高了语音识别的实时性，而且提高了识别的准确率，进一步提升了用户体验。

本发明实施例还提供了一种语音识别装置，请参见图5所示，本发明实施例仅以图5为例进行说明，并不表示本发明仅限于此。图5为本发明提供的语音识别装置一实施例的结构示意图。如图5所示，本实施例提供的语音识别装置50包括：获取模块501和识别模块502。

其中，获取模块501用于获取待识别的语音信号，识别模块502用于采用预先训练的因果声学模型，根据语音信号中的当前帧和当前帧之前预设时间段内的帧，对语音信号中的当前帧进行识别，因果声学模型基于因果卷积神经网络训练得到。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，若当前帧之前的帧不足，则采用空帧进行补充。

可选的，预设时间段可以根据因果声学模型的上下文参数的取值确定。

可选的，因果声学模型可以包括多个堆叠的因果卷积层，其中，多个堆叠的因果卷积层用于扩大因果声学模型的感受野。。

可选的，因果声学模型还可以包括至少一层长短期记忆网络，其中，长短期记忆网络用于学习所述语音信号的历史信息。

在上述任一实施例的基础上，本实施例提供的语音识别装置还可以包括：滤波模块和去干扰模块。其中，滤波模块用于，在对语音信号中的当前帧进行识别之前，对待识别的语音信号进行高通滤波处理。去干扰模块用于消除经高通滤波处理后的语音信号中的干扰信号。

本实施例提供的装置，可以用于执行图1或图4所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，干扰信号可以包括噪声信号和/或回声信号。

本发明实施例还提供了一种语音识别设备，请参见图6所示，本发明实施例仅以图6为例进行说明，并不表示本发明仅限于此。图6为本发明提供的语音识别设备一实施例的结构示意图。如图6所示，本实施例提供的语音识别设备60包括：存储器601、处理器602和总线603。其中，总线603用于实现各元件之间的连接。

存储器601中存储有计算机程序，计算机程序被处理器602执行时可以实现上述任一方法实施例的技术方案。

其中，存储器601和处理器602之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线603连接。存储器601中存储有语音识别方法的计算机程序，包括至少一个可以软件或固件的形式存储于存储器601中的软件功能模块，处理器602通过运行存储在存储器601内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器601可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-Only Memory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器601用于存储程序，处理器602在接收到执行指令后，执行程序。进一步地，上述存储器601内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器602可以是一种集成电路芯片，具有信号的处理能力。上述的处理器602可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(Network Processor，简称：NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解，图6的结构仅为示意，还可以包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件和/或软件实现。

例如，当语音识别设备为用户设备时，还可以包括用于输出和/或输入音频信号的音频组件。本实施例中，音频组件可以用于获取待识别的语音信号。

本实施例提供的语音识别设备，可以用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一方法实施例的技术方案。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李超;朱唯鑫;文铭
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种基于气动肌肉的仿人型机器人系统的制作方法
上一篇：一种组合柔铰式并联Roberts机构的制作方法