语音转写方法和装置、机器人与流程

文档序号：14941765发布日期：2018-07-13 21:04阅读：222来源：国知局

本发明涉及人工智能领域，具体而言，涉及一种语音转写方法和装置、机器人。

背景技术：

人工智能的应用中，语音识别如今取得显著的进步，不管是英文、中文还是其他语种，机器的语音识别准确率在不断上升。其中，语音听写技术的发展最为迅速，目前已广泛在语音输入、语音搜索、语音助手等产品中得到应用。但是语音转写目前还存在一定的难度，由于在产生录音文件的过程中使用者并没有估计到所录音会被用于语音识别，因此相比于语音听写，语音转写面临着方言、说话风格等难点。

卷积神经网络cnn在2012年就被用于语音识别系统，但始终没有大的突破。由于其使用固定长度的帧拼接作为输入，无法看到足够长的语音上下文信息；另一个不足是将cnn作为一种特征提取器，因此所用的卷积层数很少，表达能力有限。

目前最好的语音识别系统采用双向长短时记忆网络(lstm，longshorttermmemory),这种网络能够对语音的长时相关性进行建模，但是这一系统存在训练复杂度高、解码时延高的问题，在工业界的实时识别系统中很难应用。

针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种语音转写方法和装置、机器人，以至少解决现有技术中的语音转写方式的实时性不高的技术问题。

根据本发明实施例的一个方面，提供了一种语音转写方法，包括：获取语音信号的语谱图；将获取的语谱图输入到经训练后的深度全序列卷积神经网络，得到语音信号对应的文本数据；其中，深度全序列卷积神经网络为使用多个卷积层和池化层对对语音信号进行识别的神经网络；输出文本数据。

可选地，每个卷积层和池化层对包括：一个卷积层和一个池化层，且池化层的输入为卷积层的输出。

可选地，通过以下方式获得经训练后的深度全序列卷积神经网络：根据训练数据集对深度全序列卷积神经网络进行训练，得到所述训练后的深度全序列卷积神经网络；其中，所述训练数据集包括：多种语音信号的语谱图，以及与所述多种语音信号对应的多个文本数据。

可选地，将获取的语谱图输入到经训练后的深度全序列卷积神经网络，得到语音信号对应的文本数据包括：利用深度全序列卷积神经网络依次执行以下步骤：对语谱图进行图像识别，得到识别结果；对识别结果进行关键词抽取；基于抽取的关键词在预设的语料库中进行搜索，得到搜索结果；基于搜索结果结合语音信号所对应的领域得到文本数据。

可选地，基于搜索结果结合语音信号所在的领域得到文本数据包括：对搜索结果进行后处理，得到后处理结果；其中，后处理包括：对搜索结果进行排序、分类、筛选和提取；基于加权有限状态转换器的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据。

可选地，在存在多个解码网络的情况下，基于加权有限状态转换器的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据包括：将多个解码网络进行融合；基于融合后的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据。

可选地，在输出文本数据之后，方法还包括：对输出的文本数据进行分句、分段；删除文本数据中的停顿词、语气词和重复词。

可选地，对输出的文本数据进行分句、分段包括：通过预设的两级级联双线长短时记忆网络模型对输出的文本数据进行分句和分段；其中，两级级联双线长短时记忆网络模型包括：输入层、输出层，以及位于输入层和输出层之间的前向长短时记忆网络和后向长短时记忆网络。

根据本发明实施例的另一方面，还提供了一种语音转写装置，包括：获取模块，用于获取语音信号的语谱图；第一处理模块，用于将获取的语谱图输入到经训练后的深度全序列卷积神经网络，得到语音信号对应的文本数据；其中，深度全序列卷积神经网络为使用多个卷积层和池化层对对整句语音信号进行识别的神经网络；输出模块，用于输出文本数据。

可选地，每个卷积层和池化层对包括：一个卷积层和一个池化层，且池化层的输入为卷积层的输出。

可选地，第一处理模块包括：输入单元和深度全序列卷积神经网络；其中，输入单元，用于将语谱图输入到深度全序列卷积神经网络；深度全序列卷积神经网络，用于执行以下步骤：对语谱图进行图像识别，得到识别结果；对识别结果进行关键词抽取；基于抽取的关键词在预设的语料库中进行搜索，得到搜索结果；基于搜索结果结合语音信号所对应的领域得到文本数据。

可选地，深度全序列卷积神经网络基于搜索结果结合语音信号所在的领域得到文本数据包括：深度全序列卷积神经网络对搜索结果进行后处理，得到后处理结果；其中，后处理包括：对搜索结果进行排序、分类、筛选和提取；深度全序列卷积神经网络基于加权有限状态转换器的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据。

可选地，在存在多个解码网络的情况下，深度全序列卷积神经网络基于加权有限状态转换器的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据包括：深度全序列卷积神经网络将多个解码网络进行融合；深度全序列卷积神经网络基于融合后的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据。

可选地，装置还包括：第二处理模块，用于对输出的文本数据进行分句、分段；以及删除文本数据中的停顿词、语气词和重复词。

可选地，第二处理模块包括：处理单元，用于通过预设的两级级联双线长短时记忆网络模型对输出的文本数据进行分句和分段；其中，两级级联双线长短时记忆网络模型包括：输入层、输出层，以及位于输入层和输出层之间的前向长短时记忆网络和后向长短时记忆网络。

根据本发明实施例的另一个方面，提供了一种机器人，包括：上述语音转写装置。

在本发明实施例中，采用深度全序列卷积神经网络，将语音信号的语谱图作为输入，对整句语音信号进行识别，得到语音信号的文本数据的方式，即通过深度全序列卷积神经网络对整句语音信号进行识别，与现有技术中一个词一个词进行识别转写的方式相比，提高了转写的效率，提高了转写的实时性，进而解决了现有技术中的语音转写方式的实时性不高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音转写方法的流程图；

图2是根据本发明优选实施例提供的语音处理过程的示意图；

图3是根据本发明实施例的语音转写装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种语音转写的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的语音转写方法的流程图，如图1所示，该方法包括如下步骤：

步骤s102，获取语音信号的语谱图。

步骤s104，将获取的语谱图输入到经训练后的深度全序列卷积神经网络，得到语音信号对应的文本数据；其中，深度全序列卷积神经网络为使用多个卷积层和池化层对对整句语音信号进行识别的神经网络。

步骤s106，输出文本数据。

通过上述步骤，采用深度全序列卷积神经网络，将语音信号的语谱图作为输入，对整句语音信号进行识别，得到语音信号的文本数据的方式，即通过深度全序列卷积神经网络对整句语音信号进行识别，与现有技术中一个词一个词进行识别转写的方式相比，提高了转写的效率，提高了转写的实时性，进而解决了现有技术中的语音转写方式的实时性不高的技术问题。

需要说明的是，将语谱图作为输入端，与现有技术中采用的线性预测系数lpc、倒谱系数cep、mel倒谱系数mfcc和感知线性预测plp等语音特征作为输入的语音识别框架相比，具有最优特征自学习、提取等优势。

需要说明的是，每个卷积层和池化层对包括：一个卷积层和一个池化层，且池化层的输入为卷积层的输出。

在本发明的一个实施例中，上述步骤s104可以表现为：利用深度全序列卷积神经网络依次执行以下步骤：对语谱图进行图像识别，得到识别结果；对识别结果进行关键词抽取；基于抽取的关键词在预设的语料库中进行搜索，得到搜索结果；基于搜索结果结合语音信号所对应的领域得到文本数据。通过该方式进一步提高了语音转写的准确率。

需要说明的是，上述步骤s104中包含的各个步骤中的每个步骤可以是一个卷积层和池化层对来实现的，但并不限于此，比如可以通过一个卷积层、以及一个卷积层和池化层对来实现，或者可以通过两个卷积层和池化层来实现，并不对其进行限定。

需要说明的是，基于搜索结果结合语音信号所在的领域得到文本数据可以表现为：对搜索结果进行后处理，得到后处理结果；其中，后处理包括：对搜索结果进行排序、分类、筛选和提取；基于加权有限状态转换器的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据。

需要说明的是，上述搜索结果可以包括上下文信息，因而依据该上下文信息和上述关键词可以得到该关键词的真实所要表达的含义。

需要说明的是，在存在多个解码网络的情况下，基于加权有限状态转换器的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据可以表现为：将多个解码网络进行融合；基于融合后的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据。

需要说明的是，上述深度全序列卷积神经网络是经训练后的深度全序列卷积神经网络，在训练过程中需要大量的训练数据，称为训练数据集，其中，该训练数据集中包括多种语音信号的语谱图，以及该语音信号对应的文本数据。

在本发明的一个实施例中，可以通过以下方式获得经训练后的深度全序列卷积神经网络：根据训练数据集对深度全序列卷积神经网络进行训练，得到训练后的深度全序列卷积神经网络；其中，训练数据集包括：多种语音信号的语谱图，以及与多种语音信号对应的多个文本数据。

需要说明的是，上述训练的步骤可以是上述步骤s104所包含的步骤，但并不限于此。

为了提高语音转写的可阅读性，需要对本文数据进行后处理，因而在本发明的一个实施例中，在上述步骤s106之后，上述方法还可以包括：对输出的文本数据进行分句、分段；删除文本数据中的停顿词、语气词和重复词。

需要说明的是，对输出的文本数据进行分句、分段可以表现为：通过预设的两级级联双线长短时记忆网络模型对输出的文本数据进行分句和分段；其中，两级级联双线长短时记忆网络模型包括：输入层、输出层，以及位于输入层和输出层之间的前向长短时记忆网络和后向长短时记忆网络。

需要说明的是，可以通过语义泛化结合双向长短时记忆网络来实现内容的顺滑，即删除文本数据中的停顿词、语气词和重复词；进而使得文本更加简洁明了。

需要说明的是，上述方法可以应用于以下场景中，但并不限于此：电视节目、记者采访、各类机器人等。

需要说明的是，上述方法的执行主体可以是终端设备，比如手机、计算机、平板电脑、手环等，但并不限于此。

为了更好地理解本发明实施例，以下结合优选的实施例对本发明做进一步解释。

本发明优选实施例提出用深度全序列卷积神经网络(dfcnn)使用大量的卷积层直接对整句语音信号进行建模。首先，在输入端直接将语谱图作为输入，相比其他以传统语音特征(如线性预测系数lpc、倒谱系数cep、mel倒谱系数mfcc和感知线性预测plp)作为输入的语音识别框架相比具有最优特征自学习、提取等优势。其次，在模型结构上，借鉴了图像识别的网络配置，对语谱图做多层卷积变换，同时在卷积层之后再加上池化层，进而识别整个语音中的所有关联信息，而不是单个谱段的离散信息。这样就可以表达出语音的长时相关性，同时，对于新输入的语音信号，模型能自动记录并关联之前的相关信息，因此也可以实现短延时的在线解码。

本发明优选方案根据语音识别的解码结果自动进行关键信息抽取，实时进行语料搜索；随后，对搜索结果做排序、分类、筛选、提取等一系列后处理；之后采用基于加权有限状态转换器(wfst)的快速解码网络在相关领域内进行解码；同时，可将不同的wfst网络进行融合，从而优化解码过程，并最终形成特定语音相关的语言模型，从而进一步提高语音转写的准确率。综上所述，该模型建模过程中的关键步骤依次为：1.关键词抽取，2.语料搜索(相当于上述实施例中的基于抽取的关键词在预设的语料库中进行搜索，得到搜索结果)，3.语料后处理(相当于上述实施例中的对搜索结果进行排序、分类、筛选和提取)，4.领域wfst(相当于上述实施例中的基于加权有限状态转换器的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据)，5.wfst融合，如图2所示，其中，图2是根据本发明优选实施例提供的语音处理过程的示意图。

为了提高语音转写文本的可阅读性，要对文本进行后处理，即对口语化的文本进行分句、分段，并对文本内容的流利性进行处理，以利于更好的阅读与编辑。在分句与分段中，通过提取上下文相关的语义特征，同时结合语音特征，来进行子句与段落的划分，使用的技术为两级级联双向长短时记忆网络建模。该网络的输入层和输出层之间存在两个隐含层，分别为前向和后向的长短时记忆网络。这个结构提供给输出层输入序列中每个点的完整的过去和未来的上下文信息；内容顺滑，即除去转写结果中的停顿词、语气词、重复词，使顺滑后的文本更易于阅读，所使用技术为泛化特征结合双向长短时记忆网络建模。该网络在双向长短时记忆网络的基础上，将语义泛化作为网络输出层的约束条件，从而使得输出文本更加简洁明了。

实施例2

根据本发明实施例，提供了一种语音转写装置，该装置能够执行上述语音转写方法。

图3是根据本发明实施例的语音转写装置的示意图，如图3所示，该装置包括：获取模块32、第一处理模块34、输出模块36。

获取模块32，用于获取语音信号的语谱图。

第一处理模块34，与获取模块32连接，用于将获取的语谱图输入到经训练后的深度全序列卷积神经网络，得到语音信号对应的文本数据；其中，深度全序列卷积神经网络为使用多个卷积层和池化层对对整句语音信号进行识别的神经网络。

输出模块36，与上述第一处理模块34连接，用于输出文本数据。

通过上述装置，采用深度全序列卷积神经网络，将语音信号的语谱图作为输入，对整句语音信号进行识别，得到语音信号的文本数据的方式，即通过深度全序列卷积神经网络对整句语音信号进行识别，与现有技术中一个词一个词进行识别转写的方式相比，提高了转写的效率，提高了转写的实时性，进而解决了现有技术中的语音转写方式的实时性不高的技术问题。

需要说明的是，每个卷积层和池化层对包括：一个卷积层和一个池化层，且池化层的输入为卷积层的输出。

在本发明的一个实施例中，上述第一处理模块34包括：输入单元和深度全序列卷积神经网络；其中，输入单元，用于将语谱图输入到深度全序列卷积神经网络；深度全序列卷积神经网络，用于执行以下步骤：：对语谱图进行图像识别，得到识别结果；对识别结果进行关键词抽取；基于抽取的关键词在预设的语料库中进行搜索，得到搜索结果；基于搜索结果结合语音信号所对应的领域得到文本数据。进一步高了语音转写的准确率。

需要说明的是，上述深度全序列卷积神经网络所执行的每个步骤可以是一个卷积层和池化层对来实现的，但并不限于此，比如可以通过一个卷积层、以及一个卷积层和池化层对来实现，或者可以通过两个卷积层和池化层来实现，并不对其进行限定。

需要说明的是，深度全序列卷积神经网络基于搜索结果结合语音信号所在的领域得到文本数据包括：深度全序列卷积神经网络对搜索结果进行后处理，得到后处理结果；其中，后处理包括：对搜索结果进行排序、分类、筛选和提取；深度全序列卷积神经网络基于加权有限状态转换器的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据。

需要说明的是，上述搜索结果可以包括上下文信息，因而依据该上下文信息和上述关键词可以得到该关键词的真实所要表达的含义。

需要说明的是，上述在存在多个解码网络的情况下，深度全序列卷积神经网络基于加权有限状态转换器的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据包括：深度全序列卷积神经网络将多个解码网络进行融合；深度全序列卷积神经网络基于融合后的解码网络，依据后处理结果，在与语音信号所对应的领域内对关键词进行解码，得到文本数据。

在本发明的一个实施例中，上述装置还包括训练模块，用于根据训练数据集对深度全序列卷积神经网络进行训练，得到所述训练后的深度全序列卷积神经网络；其中，所述训练数据集包括：多种语音信号的语谱图，以及与所述多种语音信号对应的多个文本数据。

为了提高语音转写的可阅读性，需要对本文数据进行后处理，因而，在本发明的一个实施例中，上述装置还可以包括：第二处理模块，与上述输出模块36连接，用于对输出的文本数据进行分句、分段；以及删除文本数据中的停顿词、语气词和重复词。

需要说明的是，上述第二处理模块包括：处理单元，用于通过预设的两级级联双线长短时记忆网络模型对输出的文本数据进行分句和分段；其中，两级级联双线长短时记忆网络模型包括：输入层、输出层，以及位于输入层和输出层之间的前向长短时记忆网络和后向长短时记忆网络。

需要说明的是，上述第二处理模块，还用于通过语义泛化结合双向长短时记忆网络来实现内容的顺滑，即删除文本数据中的停顿词、语气词和重复词；进而使得文本更加简洁明了。

需要说明的是，上述装置可以应用于以下场景中，但并不限于此：电视节目、记者采访、各类机器人等。

需要说明的是，上述装置可以位于终端设备，比如手机、计算机、平板电脑、手环等，但并不限于此。

本发明实施例还提供了一种机器人，包括：上述实施例所述的装置。

此处需要说明的是，上述获取模块32、第一处理模块34、输出模块36对应于实施例1中的步骤s102至步骤s106，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人
技术所有人：深圳光启合众科技有限公司;深圳光启创新技术有限公司
我是此专利的发明人