一种语种识别方法以及语种识别设备与流程

文档序号：15048575发布日期：2018-07-27 23:26阅读：260来源：国知局

本发明涉及计算机技术领域，尤其涉及一种语种识别方法以及语种识别设备。

背景技术：

随着国际化交流日益紧密的趋势，在各项领域内，如信息查询服务、报警系统、银行、股票交易所以及紧急热线服务等领域，对语种识别的速度的要求也越来越高，以信息查询服务为例，很多信息查询系统可提供多语种服务，但只有在信息查询系统确定出用户的语言种类后，才能够针对性的提供相应语种的服务。这类典型服务的例子包括旅游信息、应急服务、以及购物等。

目前市场上的语种识别方案大部分采用混合高斯模型(英文全称：gaussianmixturemodel，英文简称：gmm)或者支持向量机(英文全称：supportvectormachine，英文简称：svm)等传统的浅层模型方法。

但是现有技术所采用的语种识别方案在大数据集上无法实际使用，而且准确率低，速度慢，不能满足当前对语种识别的速度需求。

技术实现要素：

本发明实施例提供了一种语种识别方法以及语种识别设备，其能够应用至大数据集上进行语种识别，而且识别准确性高，速度快。

本发明实施例第一方面提供了一种语种识别方法，包括：

获取用于线下训练的目标音视频数据；

对所述目标音视频数据进行特征提取，以获取与所述目标音视频数据对应的特征数据；

通过训练网络所包括的按层级排序的n层长短时记忆网络lstm依次对所述特征数据进行迭代训练，以获取目标训练模型，所述目标训练模型用于进行语种识别。

本发明实施例第二方面提供了一种语种识别方法，包括：

获取用于线上识别的第一目标音视频数据；

对所述第一目标音视频数据进行特征提取，以获取与所述第一目标音视频数据对应的第一特征数据；

确定目标训练模型，所述目标训练模型为使用训练网络对第二目标音视频数据进行训练得到，所述训练网络包括按层级排序的n层长短时记忆网络lstm，所述n为大于等于2的正整数；

根据所述目标训练模型和所述第一特征数据获取目标分数；

确定与所述目标分数对应的语种识别结果信息，所述语种识别结果信息用于指示所述第一目标音视频数据所属的语种。

本发明实施例第三方面提供了一种语种识别设备，包括：

第一获取单元，用于获取用于线下训练的目标音视频数据；

第二获取单元，用于对所述目标音视频数据进行特征提取，以获取与所述目标音视频数据对应的特征数据；

训练单元还，用于通过训练网络所包括的按层级排序的n层长短时记忆网络lstm依次对所述特征数据进行迭代训练，以获取目标训练模型，所述目标训练模型用于进行语种识别。

本发明实施例第四方面提供了一种语种识别设备，包括：

第一获取单元，用于获取用于线上识别的第一目标音视频数据；

第一识别单元，用于对所述第一目标音视频数据进行特征提取，以获取与所述第一目标音视频数据对应的第一特征数据；

第一确定单元，用于确定目标训练模型，所述目标训练模型为使用训练网络对第二目标音视频数据进行训练得到，所述训练网络包括按层级排序的n层长短时记忆网络lstm，所述n为大于等于2的正整数；

第二获取单元，用于根据所述目标训练模型和所述第一特征数据获取目标分数；

第二确定单元，用于确定与所述目标分数对应的语种识别结果信息，所述语种识别结果信息用于指示所述第一目标音视频数据所属的语种。

本实施例提供了一种语种识别方法以及语种识别设备，本实施例所示的方法能够对用于线下训练的目标音视频数据进行特征提取，以获取与所述目标音视频数据对应的特征数据，通过训练网络所包括的按层级排序的n层长短时记忆网络lstm依次对所述特征数据进行迭代训练，以获取用于进行语种识别目标训练模型。本实施例所示能够应用至大数据集上进行使用，通过本实施例所示的所述目标训练模块进行语种识别的过程中，识别准确性高，速度快，能够满足当前对语种识别的速度的需求。

附图说明

图1为本发明所提供的语种识别设备的一种实施例结构示意图；

图2为本发明所提供的语种识别方法的一种实施例步骤流程图；

图3为本发明所提供的递归神经网络的循环示意图；

图4为本发明所提供的lstm网络的结构示意图；

图5为本发明所提供的训练网络的结构示意图；

图6为本发明所提供的语种识别方法的另一种实施例步骤流程图；

图7为本发明所提供的语种识别设备的另一种实施例结构示意图；

图8为本发明所提供的语种识别设备的另一种实施例结构示意图。

具体实施方式

本发明实施例所提供的语种识别方法能够应用至具有计算功能的语种识别设备，为更好的理解本发明实施例所提供的语种识别方法，以下首先结合图1所示对本发明实施例所提供的语种识别设备的实体结构进行说明。

需明确的是，以下对本发明实施例所提供的语种识别设备的实体结构的说明为可选的示例，不作限定，只要能够实现本发明实施例所提供的语种识别方法即可。

如图1所示，图1是本发明实施例提供的一种语种识别设备结构示意图，该语种识别设备100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)122(例如，一个或一个以上处理器)和存储器132，一个或一个以上存储应用程序142或数据144的存储介质130(例如一个或一个以上海量存储设备)。其中，存储器132和存储介质130可以是短暂存储或持久存储。存储在存储介质130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对语种识别设备中的一系列指令操作。更进一步地，中央处理器122可以设置为与存储介质130通信，在语种识别设备100上执行存储介质130中的一系列指令操作。

语种识别设备100还可以包括一个或一个以上电源126，一个或一个以上有线或无线网络接口150，一个或一个以上输入输出接口158，和/或，一个或一个以上操作系统141，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。

图1所示的语种识别设备100能够实现语音的自动语种辨识技术(languageidentification，lid)。

lid是指语种识别设备100能够自动识别出语音所属语种的过程。

自动语言辨识技术在在信息检索、刑事侦查和军事领域都有很重要的应用，伴随着互联网技术的发展，语种识别会起到越来越重要的作用，伴随着技术的进步，终有一天会打破人类交流的障碍，语种识别在其中也定会起着十分重要的作用。未来的某一天，来自不同民族，不同肤色，说着不同语言的人们可以利用技术手段，实现自由的语言交流，语种识别技术是这之中重要的前端处理器。在未来信息查询系统可以提供多语种服务，例如在信息服务方面，很多信息查询系统可提供多语种服务，信息查询系统确定用户的语言种类后，提供相应语种的服务。这类典型服务的例子包括旅游信息、应急服务、以及购物和银行、股票交易。

自动语言辨识技术还能够用于多语言机器翻译系统的前端处理，以及直接将一种语言转换成另一种语言的通信系统。

此外军事上还可以用来对说话人身份和国籍进行监听或判别。随着信息时代的到来以及因特网的发展，语种辨识越来越显示出其应用价值。

基于图1所示的语种识别设备，以下结合图2所示对本发明实施例所提供的语种识别方法的具体执行步骤流程进行详细说明，其中，图2为本发明所提供的语种识别方法的一种实施例步骤流程图。

首先，实施例所示的步骤201至步骤207为线下训练部分的具体执行步骤流程：

步骤201、获取第二音视频文件。

在执行线下训练部分的过程中，所述语种识别设备可首先获取用于进行线下训练的第二音视频文件。

本实施例对所述第二音视频文件所包括的音视频数据的数目不作限定。

步骤202、通过解码器对所述第二音视频文件进行解码以生成第二音视频数据。

本实施例所示的多媒体视频处理工具(英文全称：fastforwardmpeg，英文简称：ffmpeg)解码器。

需明确的是，本实施例对所述解码器的说明为可选的示例，不作限定，只要所述解码器能够对所述第二音视频文件进行解码从而生成能够进行语种识别的所述第二音视频数据即可。

步骤203、对所述第二音视频数据进行过滤生成第二目标音视频数据。

为降低线下训练部分执行的时长，提升语种识别的效率，提升语种识别的准确性，则本实施例所示的语种识别设备可对所述第二音视频数据进行过滤。

具体的，本实施例所示的语种识别设备通过vad(英文全称：voiceactivitydetection，中文全称：话音激活检测)进行检测，从而过滤所述第二音视频数据中的无效静音段以生成所述第二目标音视频数据。

可见，采用本实施例所示的步骤203所获取到的所述第二目标音视频数据所包含的数据均为有效的数据，从而避免了所述语种识别设备对无用的数据进行处理所浪费的时长以及系统资源。

步骤204、对所述第二目标音视频数据进行特征提取以获取第二特征数据。

具体的，本实施例中，所述语种识别设备能够对所述第二目标音视频数据进行特征提取，从而获取与所述第二目标音视频数据对应的第二特征数据。

本实施例所示的能够对所述第二目标音视频数据进行特征提取的特征提取方法可为谱包络法、倒谱法、lpc内插法、lpc求根法、希尔伯特变换法、共振峰追踪算法等。

本实施例对所述特征提取方法不作限定，只要能够提取出所述第二目标音频数据的第二特征数据即可。

步骤205、在所述第二特征数据中设置目标分类标签。

所述目标分类标签为用于指示所述目标音频数据的语种的标签。

本实施例所示的所述目标分类标签为与所述第二特征数据对应的标签。

本实施例通过在所述第二特征数据中设置所述目标分类标签从而实现根据语种的不同对第二特征数据进行分类。

本实施例所示的分类，简单来说，就是根据所述第二特征数据的语言特征或属性，划分到已有的类别中。

如在自然语言处理nlp中，文本分类是一个分类问题，一般的模式分类方法都可用于文本分类研究。

常用的分类算法包括：决策树分类法，朴素的贝叶斯分类算法(nativebayesianclassifier)、基于支持向量机(svm)的分类器，神经网络法，k-最近邻法(k-nearestneighbor，knn)，模糊分类法等。

例如，以藏语识别场景为例进行示例性说明，可预先确定藏语的目标分类标签为1，通过所述目标分类标签从而使得藏语与其他语种进行区分，则在本实施例所示的步骤205中设置所述第二特征数据中设置为1的目标分类标签。

步骤206、将设置有所述目标分类标签的所述第二特征数据输入至所述训练网络。

步骤207、通过所述训练网络对设置有所述目标分类标签的所述第二特征数据进行迭代训练以获取所述目标训练模型。

具体的，本实施例所示通过所述训练网络所包括的所述n层长短时记忆网络lstm依次对设置有所述目标分类标签的所述第二特征数据进行迭代训练，以获取所述目标训练模型。

更具体的，因通过本实施例所示的步骤206，所述语种识别设备已将设置有所述目标分类标签的所述第二特征数据发送至所述训练网络，则所述训练网络能够通过所述训练网络所包括的所述n层长短时记忆网络lstm依次对设置有所述目标分类标签的所述第二特征数据进行迭代训练，以获取所述目标训练模型。

以下对本实施例所示的所述训练网络所包括的按层级排序的n层长短时记忆网络lstm进行说明：

人类并非每一秒都在从头开始思考问题，人类都是基于之前的单词来理解每个单词，而且并不会把所有内容都抛弃掉，然后从头开始理解，人类的思考具有持久性。传统的神经网络并不能做到这一点，这是其一个主要的缺点。例如，要把一部电影里面每个时间点所正在发生的事情进行分类，传统神经网络并不能把关于之前事件的推理运用到之后的事件中去。

递归神经网络(recurrentneuralnetworks,rnn)解决了这个问题。它们是一种具有循环的网络，具有保持信息的能力。rnn可以被看做是同一个神经网络的多次复制，每个神经网络模块会把消息传递给下一个。

以下结合图3所示对递归神经网络rnn的循环进行说明，如图3中的神经网络301所示为循环尚未展开的神经网络示意图，图3中的神经网络302为循环展开的神经网络示意图。

可见，展开后的神经网络302包括有多个依次相连的神经网络模块a。

具体的，神经网络301和神经网络302中，神经网络模块a的输入为xt，输出为ht。

在神经网络302中，循环展开的各神经网络模块a的循环结构使得信息从网络的上一步传到下一步。递归神经网络可以被认为是相同网络的多重复制结构，每一个网络把消息传给其继承者。

rnn可以学习利用过去的信息，并将之前的信息连接到现在的任务之中，例如用视频数据前一帧的信息可以用于理解视频数据当前帧的信息。

设想一个语言模型基于当前单词尝试着去预测下一个单词。如果我们尝试着预测thecloudsareinthesky的最后一个单词，我们并不需要任何额外的信息了很显然下一个单词就是“天空”。这样的话，目标预测的点与其相关信息的点之间的间隔较小。此时，我们需要遗忘上下文信息。

但是也有时候我们需要更多的上下文信息。设想预测这句话的最后一个单词：igrewupinfrance,ispeakfluentfrench。最近的信息表明下一个单词似乎是一种语言的名字，但是如果我们希望缩小确定语言类型的范围，我们需要更早之前作为france的上下文。而且需要预测的点与其相关点之间的间隔非常变得很大。此时，我们需要记住并依赖上下文信息。

就是说，依据具体情况，有的是时候需要遗忘上下文信息，有时候我们需要记住上下文信息。传统的rnn方法并不能够解决长期依赖问题，本实施例所示的长期依赖是指长期记住并依赖上下文信息。但是，本实施例所示的lstm可以解决长期依赖上下文信息的问题。

lstm网络是一种特殊的rnn，它能够学习长时间依赖。lstm是专门设计用来避免长期依赖问题的。记忆长期信息是lstm的默认行为，而不是它们努力学习的东西。lstm具有较强的时序相关性，可以很好利用上下文关系，对于涉及到序列输入的任务，比如语音和语言，lstm网络能获得更好的效果。

以下结合图4所示对lstm网络的具体结构进行说明：

lstm网络具有一个遗忘门结构401，可以在需要记忆上下文关系时，选择长时间依赖；在需要遗忘上下文关系时，选择遗忘。这样就可以很好地解决长时间依赖问题。

具体的，lstm网络设置带三个记忆门，输入门inputgate402、输出门outputgate403以及遗忘门forgetgate401的块结构。

所述输入门inputgate402会对输入进行过滤，然后存放到记忆单元cell404里，以使记忆单元cell404里既有上一时刻的状态，又添加了当前时刻的状态。

三个门的协作使得lstm网络可以存储长期信息，比如，只要输入门inputgate402保持关闭，记忆单元cell404所存储的信息就不会被之后时刻的输入所覆盖。

使用lstm网络后，当误差从输出层反向传播回来时，可以使用记忆单元cell404记下来。所以lstm可以记住比较长时间内的信息。

更具体的，所述输入门inputgate402起控制输入信息的作用，门的输入为上一个时刻点的隐藏节点的输出以及当前的输入，将输入门inputgate402的输出与输入节点的输出相乘可以起到控制信息量的作用。

所述遗忘门forgetgate401起控制内部状态信息的作用，门的输入为上一个时刻点的隐藏节点的输出以及当前的输入。

所述输出门outputgate403起控制输出信息的作用，门的输入为上一个时刻点的隐藏节点的输出以及当前的输入，激活函数为sigmoid，因sigmoid的输出为0-1之间，将输出门outputgate403的输出与内部状态节点的输出相乘可以起到控制信息量的作用。

以下结合图5所示对本实施例所示的所述训练网络的具体结构进行详细说明：

如图5所示，本实施例所示的所述训练网络包括按层级排序的n层长短时记忆网络lstm，本实施例对n的具体数目不做限定，只要所述n为大于或等于2的正整数即可。

本实施例以所述n等于2为例进行可选示例的说明，即本实施例以所述训练网络包括两层lstm为例。

具体的，两层lstm中，前一层的lstm的输出作为后一层的输入，可见，多层lstm之间能够进行数据的循环。

相对于单层的lstm，本实施例所示的双层lstm相对于单层的lstm，具有更优化的性能，而且可以更高效的使用lstm所具有的参数。

因本实施例所示的所述训练网络包括有多个所述lstm，位于下层的lstm能够对上层lstm所输入的迭代参数进行修正，可见，采用多层的lstm，能够有效的提升语种识别的准确性。

可选的，本实施例所示可将所述第二特征数据在所述训练网络中迭代m轮，每轮迭代所生成的训练模型可设定为候选训练模型。

本实施例所示的语种识别设备能够在m轮候选训练模型中选定所述目标训练模型。

本实施例对确定所述目标训练模型的具体方式不做限定，例如，本实施例所示的语种识别设备可根据覆盖率，误杀率、平均识别速度以及准确率等在m轮候选训练模型中选定所述目标训练模型。

以下所示的步骤208至步骤213为本发明实施例所示的语种识别方法的线上识别部分的具体执行步骤：

步骤208、获取第一音视频文件。

本实施例中，可将需要进行语种识别的第一音视频文件输入至本实施例所示的语种识别设备。

例如，本实施例所示的所述第一音视频文件可包括视频的数目为4654个，将4654个视频输入至所述语种识别设备。

步骤209、通过解码器对所述第一音视频文件进行解码以生成第一音视频数据。

本实施例所示的多媒体视频处理工具(英文全称：fastforwardmpeg，英文简称：ffmpeg)解码器。

需明确的是，本实施例对所述解码器的说明为可选的示例，不作限定，只要所述解码器能够对所述第一音视频文件进行解码从而生成能够进行语种识别的所述第一音视频数据即可。

步骤210、对所述第一音视频数据进行过滤生成第一目标音视频数据。

为降低线上识别部分执行的时长，提升语种识别的效率，提升语种识别的准确性，则本实施例所示的语种识别设备可对所述第一音视频数据进行过滤。

具体的，本实施例所示的语种识别设备通过vad(英文全称：voiceactivitydetection，中文全称：话音激活检测)进行检测，从而过滤所述第一音视频数据中的无效静音段以生成所述第一目标音视频数据。

可见，采用本实施例所示的步骤211所获取到的所述第一目标音视频数据所包含的数据均为有效的数据，从而避免了所述语种识别设备对无用的数据进行处理所浪费的时长以及系统资源。

步骤211、对所述第一目标音视频数据进行特征提取第一特征数据。

具体的，本实施例中，所述语种识别设备能够对所述第一目标音视频数据进行特征提取，从而获取与所述第一目标音视频数据对应的第一特征数据。

本实施例所示的能够对所述第一目标音视频数据进行特征提取的特征提取方法可为谱包络法、倒谱法、lpc内插法、lpc求根法、希尔伯特变换法、共振峰追踪算法等。

本实施例对所述特征提取方法不作限定，只要能够提取出所述第一目标音频数据的第一特征数据即可。

步骤212、确定目标训练模型。

在执行步骤212的过程中，本实施例所示的语种识别设备首先需要获取步骤207所获取的所述目标训练模型。

步骤213、根据所述目标训练模型和所述第一特征数据获取目标分数。

本实施例所示的语种识别设备能够根据已获取到的所述目标训练模型和所述第一特征数据进行对应的计算，从而获取所述目标分数。

具体的，本实施例所示的语种识别设备能够将所述目标训练模型所具有的各参数和所述第一特征数据进行计算以获取所述目标分数。

步骤214、确定与所述目标分数对应的语种识别结果信息。

具体的，本实施例所示的所述语种识别结果信息用于指示所述第一目标音视频数据所属的语种。

更具体的，本实施例所示的语种识别设备预先设置有不同的分数范围与不同的语种的对应关系，在执行本实施例所示的步骤214的过程中，所述语种识别设备可首先确定所述目标分数所属的目标分数范围，进而所述语种识别装置即可确定与所述目标分数范围对应的语种识别结果信息。

例如，以本实施例所述的与所述第一特征数据对应的语种为藏语为例，则本实施例所示的语种识别设备可预先存储有与藏语对应的分数范围，如0和1之间，当所述语种识别设备识别出的目标分数落在所述分数范围内，则所述语种设备识别即可识别出与所述第一特征数据对应的文件为藏语音视频文件。例如，若所述语种识别设备识别出所述目标分数为0.999，则所述语种识别设备能够识别出所述目标分数0.999位于分数范围0和1之间，则所述语种识别设备即可识别出与所述第一特征数据对应的文件为藏语音视频文件。

采用本实施例所示的方法的优势在于，本实施例所示的语种识别设备无需对音视频文件的内容进行分析，只需要创建能够对音视频文件进行训练的目标训练模型即可训练出音视频文件所属的语种，且因所述目标训练模型为使用训练网络对第二目标音视频数据进行训练得到，所述训练网络包括按层级排序的n层长短时记忆网络lstm，可使得识别语种的过程效率高，速度快，而且准确率和覆盖率远好于传统的浅层模型方法和普通的dnn网络，可以快速准确音视频文件所属的语种。

为更好的说明本实施例所示的方法的优势，则以下对本实施例所示的方法进行测试；

在本次测试中，以第一音视频文件中包括藏语视频79个，非藏语视频9604个为例，其中，各视频最大长度为180秒。

在确定所述目标训练模型的过程中，在线下训练部分，所述目标训练模型可为所述训练网络中迭代第4600轮的训练模型；

根据所述目标训练模型在对所述第一音视频文件进行训练以输出语种识别结果信息时，可得出，本次测试中，覆盖率＝67/79＝84.8％，误杀率＝1/(9064)＝0.01％，藏语视频平均识别速度1.6s/个，正常视频平均识别速度＝3.4s/个。

又如，在另一次测试中，以第一音视频文件中包括维语视频100个，非维语视频9608个为例，其中，各视频最大长度为180秒。

在确定所述目标训练模型的过程中，在线下训练部分，所述目标训练模型可为所述训练网络中迭代第3400轮的训练模型；

根据所述目标训练模型在对所述第一音视频文件进行训练以输出语种识别结果信息时，可得出，本次测试中，覆盖率＝30/100＝30.0％，误杀率＝10/9068＝0.1％，维语视频平均识别速度1.66s/个，正常视频平均识别速度＝3.51s/个。

为更好的理解本发明实施例所示的方法，以下对本发明实施例所示的方法所能够应用的应用场景进行示例性说明：

需明确的是，以下对本发明实施例所示的方法所应用的场景的说明为可选的示例，不做限定。

场景一：语音识别领域

随着移动互联时代的到来，类似siri这样的语音助手风靡起来，使用者需要根据自身语言的不同，下载不同语种的语音助手。还有市场上的各种语音转文本工具，需要依据所说语种选择对应的工具，十分不方便。采用本实施例所示的语种识别方法，可以根据使用者所说的语言快速定位到对应语种的语音助手，方便快捷。

场景二：银行和股票交易所信息服务

在银行和股票交易等场所，当遇到不会讲普通话的少数民族顾客时，很难办相关理业务，需要寻找专门懂少数名族语言的工作人员负责接待。在此之前，不能确定顾客所说语言，会浪费很多时间。利用本实施例所示的语种识别方法能够快速的识别出藏维语音频，根据使用者所说的内容，教机器听出少数民族同胞的声音，快速识别出对应语种类别，寻找相关工作人员进行接待。

场景三：紧急热线服务

在处理少数民族同胞的紧急呼救120和报警110等应急服务时，时间短暂，在无法确认说话人语种的情况下，会耽误宝贵的救急时间，危及呼救人的生命。利用本实施例所示的语种识别技方法，根据使用者所说的音频，快速识别出对应语种类别，寻找懂对应语种的工作人员记录，可以节省宝贵时间，拯救生命。

场景四：暴恐视频识别

随着移动互联网的发展，很多人喜欢在微信，qq空间等社交软件上发布视频，每天上传的视频数以亿计。这其中也会含有大量的恶意视频，涉及政治和暴恐等，类似藏独、疆独更是高危恶意视频。这类视频数量不是很多，客服人员每天的审核量是固定的，不一定能有效发现这类视频，而且会浪费大量的时间。采用本实施例所示的语种识别方法，可以快速定位海量视频中存在的疑似政治暴恐视频，例如将语种为藏维语的视频提供给客服审核，提高工作效率，准确查杀恶意视频。

场景五：监听犯罪嫌疑人

在军警对可疑分子进行监听时，需要鉴别说话的身份、国籍和说话内容，这需要大量的人力物力来进行，导致效率低下。采用本实施例的语种识别方法，可以精准判决被监听人的语种信息，从而判断其身份、民族和国籍等信息。

本实施例所示的语种识别设备可用于执行本实施例图2所示的语种识别方法，本实施例所示的语种识别设备也可执行本实施例图6所示的语种识别方法，在图6中，所述语种识别设备只需执行语种识别方法中的线下训练部分。

步骤601、获取音视频文件。

步骤602、通过解码器对所述音视频文件进行解码以生成音视频数据。

步骤603、对所述音视频数据进行过滤生成目标音视频数据。

步骤604、对所述目标音视频数据进行特征提取以获取特征数据。

步骤605、在所述特征数据中设置目标分类标签。

步骤606、将设置有所述目标分类标签的所述特征数据输入至所述训练网络。

步骤607、通过所述训练网络对所述特征数据进行迭代训练以获取所述目标训练模型。

本实施例所示的所述音视频文件的具体说明，请详见图2所示的第二音视频文件的说明，本实施例所示的所述目标音视频数据的具体说明，请详见图2所示的第二目标音视频文件的说明，本实施例所示的所述特征数据的具体说明，请详见图2所示的第二特征数据的说明，具体在本实施例中不做赘述。

本实施例所示的步骤601至步骤607所示的过程，请详见图2所示的步骤201至步骤207所示，具体在本实施例中不做赘述。

以下结合图7所示从功能模块角度对本实施例所示的语种识别设备的具体结构进行说明：

所述语种识别设备包括：

第三获取单元701，用于获取所述第二目标音视频数据；

具体的，所述第二获取单元701包括：

第二获取模块7011，用于获取用于线下训练的第二音视频文件；

第二解码模块7012，用于通过解码器对所述第二音视频文件进行解码以生成第二音视频数据；

第二过滤模块7013，用于通过话音激活检测vad过滤所述第二音视频数据中的无效静音段以生成所述第二目标音视频数据。

第二识别单元702，用于对所述第二目标音视频数据进行特征提取，以获取与所述第二目标音视频数据对应的第二特征数据；

设置单元703，用于在所述第二特征数据中设置目标分类标签，所述目标分类标签为用于指示所述目标音频数据的语种的标签；

训练单元704，用于通过所述训练网络所包括的所述n层长短时记忆网络lstm依次对所述第二特征数据进行迭代训练，以获取所述目标训练模型；

训练单元还704还用于，通过所述训练网络所包括的所述n层长短时记忆网络lstm依次对设置有所述目标分类标签的所述第二特征数据进行迭代训练，以获取所述目标训练模型。

第一获取单元705，用于获取用于线上识别的第一目标音视频数据；

具体的，所述第一获取单元705包括：

第一获取模块7051，用于获取用于线上识别的第一音视频文件；

第一解码模块7052，用于通过解码器对所述第一音视频文件进行解码以生成第一音视频数据；

第一过滤模块7053，用于通过话音激活检测vad过滤所述第一音视频数据中的无效静音段以生成所述第一目标音视频数据。

第一识别单元706，用于对所述第一目标音视频数据进行特征提取，以获取与所述第一目标音视频数据对应的第一特征数据；

第一确定单元707，用于确定目标训练模型，所述目标训练模型为使用训练网络对第二目标音视频数据进行训练得到，所述训练网络包括按层级排序的n层长短时记忆网络lstm，所述n为大于等于2的正整数；

第二获取单元708，用于根据所述目标训练模型和所述第一特征数据获取目标分数；

第二确定单元708，用于确定与所述目标分数对应的语种识别结果信息，所述语种识别结果信息用于指示所述第一目标音视频数据所属的语种。

本实施例所示的所示语种识别设备执行语种识别方法的具体过程请详见图2所示，具体在本实施例中不做赘述。

本实施例所示的语种识别设备执行语种识别方法过程中的有益效果，请详见图2所示的实施例，具体在本实施例中不做赘述。

以下结合图8所示从功能模块角度对本实施例所示的语种识别设备的具体结构进行说明，图8所示的所述语种识别设备能够实现语种识别方法中的线下训练部分。

具体的，所述语种识别设备包括：

第一获取单元801，用于获取用于线下训练的目标音视频数据；

具体的，所述获取单元801包括：

获取模块8011，用于获取用于线下训练的音视频文件；

解码模块8012，用于通过解码器对所述音视频文件进行解码以生成音视频数据；

过滤模块8013，用于通过话音激活检测vad过滤所述音视频数据中的无效静音段以生成所述目标音视频数据。

第二获取单元802，用于对所述目标音视频数据进行特征提取，以获取与所述目标音视频数据对应的特征数据；

设置单元803，用于在所述特征数据中设置目标分类标签，所述目标分类标签为用于指示所述目标音频数据的语种的标签；

训练单元804，用于通过训练网络所包括的按层级排序的n层长短时记忆网络lstm依次对所述特征数据进行迭代训练，以获取目标训练模型，所述目标训练模型用于进行语种识别；

所述训练单元还804还用于，通过所述训练网络所包括的所述n层长短时记忆网络lstm依次对设置有所述目标分类标签的所述特征数据进行迭代训练，以获取所述目标训练模型。

本实施例所示的所示语种识别设备执行语种识别方法的具体过程请详见图6所示，具体在本实施例中不做赘述。

本实施例所示的语种识别设备执行语种识别方法过程中的有益效果，请详见图6所示的实施例，具体在本实施例中不做赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，语种识别设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张大威;贲国生
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：远场环境噪声处理方法、装置、设备和存储介质与流程
上一篇：一种语音切换方法、服务器及系统与流程