一种语音识别训练系统及方法与流程

文档序号：17252265发布日期：2019-03-30 09:08阅读：438来源：国知局

本发明涉及一种语音识别技术，特别是涉及中文语音识别训练方法。

背景技术：

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

近些年，人工神经网络在语音识别中的应用研究的兴起。在这些研究中，大部分采用基于反向传播算法(bp算法)的多层感知网络。人工神经网络具有区分复杂的分类边界的能力，显然它十分有助于模式划分。特别是在电话语音识别方面，由于其有着广泛的应用前景，成了当前语音识别应用的一个热点。

但现有的应用于语音识别网络的人工神经网络中用于纠错的损失函数，其纠错机制或是纠错算法就为笼统或单一，无法快速、准确的针对语音识别的错误进行纠正。

技术实现要素：

鉴于现有技术中存在的问题，本发明提供一种语音识别训练系统，其特征在于：所述系统包括：特征提取单元、语音识别单元和损失函数；

所述特征提取单元对待识别语音信息进行特征提取；

所述语音识别单元，将输入的所述待识别语音信息进行语音识别得到识别结果；

所述系统通过所述待识别语音信息的预先标注，与所述识别结果进行对比，并构建所述损失函数，最后由所述损失函数逐级反向传导，逐级修正所述语音识别单元和所述特征提取单元；

所述损失函数由至少两种不同类型的损失函数之和构成。

优选地，所述两种不同类型的损失函数分别为：同音损失函数和近似损失函数。

优选地，所述同音损失函数表示读音相同的不同文字出现识别错误的概率；所诉近似损失函数表示读音相似的不同文字出现识别错误的概率。

优选地，所述系统的损失函数＝a*同音损失函数+b*近似损失函数，其中a、b为权重系数。

优选地，当所述识别结果包括读音相似的不同文字时，b>a；当所述识别结果包括读音相同的不同文字时，b<a。

优选地，所述文字识别单元包括第一文字识别单元和第二文字识别单元，其分别对应同音损失函数和近似损失函数。

优选地，所述系统还包括映射单元，其通过词典或字典的映射来预测所述识别结果。

优选地，所述系统还包括句子损失函数，句子损失函数表示容易出现歧义的句子出现识别错误的概率。

优选的，所述语音识别单元为多个。

本发明还提供了一种利用以上系统进行语音识别训练的方法，其特征在于：所述方法包括以下步骤：

特征提取步骤：对待识别语音信息进行特征提取；

语音识别步骤：输入的所述待识别语音信息进行语音识别得到识别结果；

修正步骤：所述系统通过所述待识别语音信息的预先标注，与所述识别结果进行对比，并构建所述损失函数，最后由所述损失函数逐级反向传导，逐级修正所述语音识别单元和所述特征提取单元；

所述损失函数由至少两种不同类型的损失函数之和构成。

优选地，所述两种不同类型的损失函数分别为：同音损失函数和近似损失函数。

优选地，所述损失函数还包括句子损失函数，句子损失函数表示容易出现歧义的句子出现识别错误的概率。

本发明的发明点包括但不限于以下几点：

(1)本发明提出了损失函数由相同损失函数和近似损失函数之和来表达；通过设置不同情况下，两者之间的权重，可解决语音识别中不同类型错误的问题；对于以上分类还可以根据实际情况仅限于常用字领域。

(2)本发明的损失函数还可以包括句子损失函数，针对容易产生歧义的句子，提供了训练系统的精度和速度。

(3)本发明还可同时使用多个语音识别单元，即两个循环神经网络，两者可分别有针对性的工作，提高工作效率。

附图说明

图1是本发明实施例1中基于深度学习的语音识别训练结构；

图2是本发明实施例2中基于深度学习的语音识别训练结构。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

为更好地说明本发明，便于理解本发明的技术方案，本发明的典型但非限制性的实施例如下：

本发明提供了一种基于深度学习的语音识别训练方法，首先确定待识别语音信息，通过卷积神经网络(convolutionalneuralnetwork，cnn)对输入的语音信息进行特征提取，然后将提取的特征输入到循环神经网络(recurrentneuralnetwork，rnn)中，然后由循环神经网络输出识别结果，再通过待识别语音信息的标注，即具体语音的内容，与识别结果进行对比，并构建损失函数，最后由损失函数逐级反向传导，依此逐级修正神经网络来实现训练的目的。

本发明提供了一种基于深度学习的语音识别训练系统，将待检测的语音信息通过上述系统的语音输入模块输入，然后经过预处理单元，所述预处理单元将输入语音信息进行滤波以避免干扰，然后将滤波后的语音信息输入特征提取单元进行特征提取，将提取的特征输入语音识别单元(一般为神经网络)进行识别。

实施例1

本发明的语音识别训练系统如图1所示，包括预处理单元、特征提取单元、语音识别单元、损失函数和映射单元；其中特征提取单元具体为卷积神经网络cnn，文字识别单元具体为循环神经网络rnn。

其中，所述系统还需要一些前期的准备工作，具体如下(1)为训练样本集，即语音信息样本进行标注，这里的标注具体指标识出具体的语音信息内容；(2)对中文文字字库中所有的文字进行分类，并对每个文字标注其类别，具体分类如下：

在一些实施例中，采用方式1，按照字形分类

将具有字形相似的文字都标注为类别1，例如：“菜”和“菜”、“去”和“丢”、“林”和“材”等等；

将具有没有字形相似的文字都标注为类别2；

在一些实施例中，采用方式2，按照发音分类

将具有发音相同的不同文字都标注为类别1，例如：“名”和“明”、“人”和“仁”；

将具有发音相似的文字都标注为类别2，这里的读音相同可以是边音和鼻音、前鼻音和后鼻音、声调的不同；例如：“流”和“牛”、“根”和“更”、“徐”和“许”等等；

由于汉字字数较多，相同或相近发音的汉字也较多；上述分类也可根据需要仅仅限定在常用字的范围，对于生僻字可进行另类标注。

按照方式1的分类，可用于文字识别技术，其方式与语音识别技术相类似，都是通过卷积神经网络进行特征提取，再由循环神经网络进行分类，最后再由损失函数进行修正，最后完成训练，区别在于特征的不同，一个是图片或图像的特征，另一个是音频的特征。

特征提取单元通过构建卷积神经网络cnn来实现，卷积神经网络首先通过卷积核对语音信息进行初步的特征提取，初步提取的特征可包括部分语音信息，可以是一个字也可以是多个；然后由卷积神经网络中的二次提取层或多次提取层逐级对上一级别提取的特征再次进行特征提取，得到需要的精准特征，去除了冗余特征；最后由卷积神经网络的全连接层将由同一语音信息特征提取形成的所有子语音信息串联起来组成完整的提取特征集。

语音识别单元通过构建循环神经网络rnn来实现，循环神经网络rnn的输入包括两种种数据，第一类数据为卷积神经网络cnn提取的特征数据，第二类数据为上一时候循环神经网络rnn的输出数据，最后循环神经网络rnn输出语音识别结果；为了确保语音识别的准确性通常需要考虑语言的通常用法，因此，在以上的基础上，循环神经网络rnn的输入还可包括第三类数据，即上一时候循环神经网络rnn对该时候的预测结果，该第三类数据可通过词典或字典的映射得到。

经过卷积神经网络cnn和循环神经网络rnn得到语音信息的识别结果，然后和语音信息预先的标注进行对比，当对比结果有差异时，再将数据进行反向传播，在反向传播过程中，逐渐修正各神经网络；重复上述过程直至识别结果的正确率或误差率达到设定的阈值。

以上识别结果与预先标注的对比通过损失函数来体现，而根据以往的经验对比的误差主要为两类，一类为同音误差，一类为近似误差，两者都属于文字误差；

对于文字误差可通过文字损失函数间接调整特征提取模型，使之能提取出最具表达能力的特征；

本实施例总的损失函数为同音损失函数+近似损失函数，由此可以很好的解决语音识别中的误差。

实施例2

本发明的语音识别训练系统如图2所示，包括预处理单元、特征提取单元、语音识别单元1、损失函数1、语音识别单元2、损失函数2和映射单元；其中特征提取单元具体为卷积神经网络cnn，文字识别单元具体为循环神经网络rnn。

将具有发音相同的不同文字都标注为类别1，例如：“名”和“明”、“人”和“仁”；

然后通过特征提取单元对输入的语音信息进行特征提取，将提取的特征同时分别输入到语音识别单元1和语音识别单元2中，然后由语音识别单元1和语音识别单元2输出识别结果；再通过待识别语音信息的标注，即具体语音的内容，与识别结果进行对比，并构建损失函数，最后由损失函数逐级反向传导，依此逐级修正神经网络来实现训练的目的。

以上函数为a同音损失函数+b近似损失函数，其中a、b为权重系数，且a+b＝1；如果识别结果中包括类别1，则b<a，优选的b为0.7-0.9；如果识别结果中包括类别2，则b>a，优选的b为0.1-0.2；如果两者都包括可令b＝a。

这里语音识别单元1和语音识别单元2即第一循环神经网路和第二循环神经网络可侧重不同方向，连接近似损失函数的第二循环神经网络可专门识别特定类型的语音，如语音相近的文字(类别1)，而连接同音损失函数的第一循环神经网络可侧重于识别文语音相同的文字(类别2)，这是本发明的创新点之一。

在该实施例中，特征提取单元是共用的，除此之外还可共用语音识别单元(图中未出示出)，然后文字识别单元将结果同时分别输出到损失函数1和损失函数2。

另外在语音识别过程中，除了单个文字识别误差外，还存在句子识别的误差，句子识别误差也是十分普遍的，对此，可以在系统中，设置语音识别单元3、损失函数3与语音识别单元1、损失函数1和语音识别单元2、损失函数2并列；

通常句子识别误差包括以下几种情况：

(1)断句不同造成的误差；

(2)多义字造成的误差；

(3)偏正短语造成的误差；

(4)多个定语或状语造成的误差；

如果待识别的语音信息包括以上几种情况，可在总损失函数中包括句子损失函数，具体函数可为：a同音损失函数+b近似损失函数+c句子损失函数；如果识别结果中包括以上几种句子的情况，可令c＝0.5，a+b＝0.5，而a和b的取值可参照以上比例。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡杰
技术所有人：初速度（苏州）科技有限公司
我是此专利的发明人

上一篇：一种建筑工地用建筑车辆用管理装置的制作方法
上一篇：一种轨道车辆交通系统的制作方法