一种基于知识迁移的序列到序列语音识别模型训练方法与流程

文档序号：19145630发布日期：2019-11-15 23:28阅读：448来源：国知局

本发明涉及智能信息处理领域，具体涉及一种基于知识迁移的序列到序列语音识别模型训练方法。

背景技术：

语音是人类最自然的一种交互方式。语音识别是将语音转换为对应的文字的一种智能信息处理技术。将语音转换为文字有利于计算机终端进行进一步地处理，所以语音识别技术被广泛地用于智能对话、智能客服、智能翻译等系统中。

序列到序列模型语音识别系统使用神经网络模型直接将语音和对应的文本序列建模，并进行联合优化，具有训练过程简单，同时避免错误传播的优点。然而序列到序列模型往往只用到了成对语料，而没有使用规模较大的外部语料。而大规模的外部语料中往往蕴含了丰富的语言学知识，使用将外部语料中的知识集成到序列到序列模型中可以进一步提升模型性能。

相应的，需要一种新的技术来解决上述问题。

技术实现要素：

本发明的目的在于针对现有技术的不足，提供一种基于知识迁移的序列到序列语音识别模型训练方法。

为了解决上述技术问题，采用如下技术方案：

一种基于知识迁移的序列到序列语音识别模型训练方法，包括以下步骤：

步骤s100、在外部文本语料上训练语言模型；

步骤s200、基于步骤s100中训练好的语言模型，生成语音-文本对的软标签；

步骤s300、将语音文本对的文本标签与语音-文本对的软标签进行结合来训练序列到序列语音识别模型。

进一步的，所述训练语言模型的具体步骤：

步骤s101、采集大规模文本已形成外部文本数据库。

步骤s102、基于步骤s101中采集的大规模外部文本数据库中，提取领域适配子集，用于训练语言模型。

进一步的，所述生成语音-文本对的软标签的具体步骤：

步骤s201、采集语音-文本对数据形成语音-文本对数据库；

步骤s202、将语音-文本对数据中的文本单独提出，进行标准化；

步骤s203、将步骤s202中提取出的文本输入到步骤s100中训练好的语言模型，采用前向传播算法，得到概率值作为语音-文本对的软标签。

进一步的，利用所述语音-文本对和所述语言模型预测出文本中每一个词的概率，来训练神经网络构成的编码器和解码器，编码器将语音编码为高层特征，解码器根据编码器提取的高层特征生成文本。

进一步的，所述训练序列到序列语音识别模型的具体步骤：

步骤s301、提取在步骤s201中采集的语音-文本对数据库中的语音数据；

步骤s302、基于步骤s301提取的语音数据，提取梅尔频率倒谱滤波器系数作为声学特征；

步骤s303、将s201中采集的语音-文本对中的文本数据作为标签，并与在步骤s202中得到的软标签进行结合；

步骤s304、步骤s303中结合得到的标签，训练序列到序列模型。

进一步的，所述序列到序列语音识别模型的准则为知识迁移准则，其损失函数表示为l(θ)，其公式表示为

l(θ)＝λlce(θ)+(1-λ)lkd(θ)；

模型参数的更新过程表示为

其中，θ表示整个序列到序列模型的所有参数，l表示总的训练损失函数，lce表示采用语音文本对中的文本作为标签的损失函数，lkd表示采用外部语言模型生成的概率作为标签的损失函数，λ表示lce损失的权重，λ的取值范围为[0，1]，α表示学习速率。

进一步的，采用所述语音文本对中的文本作为标签的损失函数lce表示为：

其中，k表示词表中第k个词，k表示词表中词的总个数，yt表示语音文本对中文本对应的词在词表中的序号，如果k＝yt则δ(k，yt)＝1，否则δ(k，yt)＝0，ps2s表示序列到序列模型解码器给出的第k个词的概率，yt-1表示上一个词的序号，ct-1表示上下文信息，x表示上下文特征。

进一步的，采用所述外部语言模型生成的概率作为标签的损失函数lkd表示为：

其中，plm表示外部语言模型对第k个词的概率值，ht-1表示上一步的历史信息，其余符号与lce中表示的意思相同。

进一步的，所述外部语言模型的概率由以下公式计算得出：

其中，zi表示输出层的第i个输出值，t为一个参数控制输出概率的平滑程度。

进一步的，所述外部语言模型为神经网络语言模型。

由于采用上述技术方案，具有以下有益效果：

本发明为一种基于知识迁移的序列到序列语音识别模型训练方法，通过用大量外部文本训练出外部语言模型，能够将大量外部文本中的语言学知识压缩到外部语言模型中，然后再用外部语言模型提供的概率作为标签训练序列到序列语音识别模型，可以将外部语言模型中的语言学知识提取到序列到序列模型中，来提升语音识别系统的准确率。

附图说明

下面结合附图对本发明作进一步说明：

图1为本发明的序列到序列模型知识迁移方法训练主要步骤流程图；

图2为本发明的序列到序列模型知识迁移方法中语言模型训练具体步骤流程图；

图3为本发明的序列到序列模型知识迁移方法中语音-文本对软标签生成的具体步骤流程图；

图4为本发明的序列到序列模型知识迁移方法中编码器-解码器语音识别序列到序列模型训练具体步骤流程图；

图5为本发明的序列到序列模型知识迁移方法的具体步骤流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参照图1，本实施例的序列到序列模型知识迁移方法训练主要步骤包括：

s100、在大规模外部语料上训练语言模型。该模型可以在给定上文的条件下，预测下一个词发生的概率；

利用语言模型预测出语音-文本的文本中每一个词发生的概率；

利用语音-文本对，和语言模型预测出文本中每一个词的概率，来训练神经网络构成的编码器和解码器，编码器将语音编码为高层特征，解码器根据编码器提取的高层特征生成文本。

具体地，参照图2，训练语言模型的具体步骤包括：

s101、采集大规模文本已形成外部文本数据库。

s102、基于s101中采集的大规模外部文本数据库中，提取领域适配子集，筛选出领域匹配的文本数据，用于训练语言模型；

更具体地，首先在语音-文本对的文本和外部文本分别训练n元语法语言模型，然后针对外部文本数据中的每一句话，计算两个模型交叉熵的差值，取差值相对最小的句子作为领域适配子集。

s103、基于s102中提取的领域适配子集，训练语言模型，语言模型可以使前馈神经网络语言模型，也可以是循环神经网络语言模型，也可以是n元语法语言模型。

更具体地，采用基于长短时记忆网络地循环神经网络进行语言模型建模，输入为当前时刻上下文信息向量和当前时刻词，输出为下一时刻上下文信息向量和下一时刻可能发生的词的概率。采用交叉熵学习准则进行学习，时间截断反向传播算法进行参数更新。

步骤s200、基于步骤s100中训练好的语言模型，生成语音-文本对的软标签。该步骤具体编码器和解码器联合训练；

编码器和解码器训练时，以外部语言模型生成的单词概率分布，以及语音对应标注文件的正确单词相结合作为标签进行训练；

解码器在生成文本训练时，结合外部语言模型给出的单词概率分布进行束搜索。

具体地，参照图3，利用前向传播算法，从步骤s100中训练好的语言模型中提取软标签的具体步骤为：

s201、采集语音-文本对数据形成语音-文本对数据库；

s202、将语音-文本对数据中的文本单独提出，进行标准化；

s203、将步骤s202中提取出的文本输入到步骤s100中训练好的语言模型，采用前向传播算法，得到概率值作为软标签。

步骤s300、训练序列到序列模型知识迁移方法中编码器-解码器语音识别模型。

具体地，参照图4，训练序列到序列模型知识迁移方法中编码器-解码器语音识别序列到序列模型的步骤具体为：

步骤s301、提取在步骤s201中采集的语音-文本对中的语音数据；

步骤s302、基于步骤s301提取的语音数据，提取梅尔频率倒谱滤波器系数作为声学特征；

步骤s303、将s201中采集的语音-文本对中的文本数据作为标签，并与在步骤s202中得到的软标签进行结合；

步骤s304、步骤s303中结合得到的标签，训练序列到序列模型知识迁移方法中编码器-解码器语音识别模型。

进一步的，所述序列到序列语音识别模型的准则为知识迁移准则，其损失函数表示为l(θ)，其公式表示为

l(θ)＝λlce(θ)+(1-λ)lkd(θ)；

模型参数的更新过程表示为

进一步的，采用所述语音文本对中的文本作为标签的损失函数lce表示为：

进一步的，采用所述外部语言模型生成的概率作为标签的损失函数lkd表示为：

其中，plm表示外部语言模型对第k个词的概率值，ht-1表示上一步的历史信息，其余符号与lce中表示的意思相同。

进一步的，所述外部语言模型的概率由以下公式计算得出：

其中，zi表示输出层的第i个输出值，t为一个参数控制输出概率的平滑程度。

具体地，所述外部语言模型为神经网络语言模型。

在上述序列到序列模型的优选技术方案中，采用语音-文本对中的文本作为标签的损失函数lce被用来学习语音-文本对中的知识表示。

在上述序列到序列模型的优选技术方案中，采用外部语言模型生成的概率作为标签的损失函数lkd被用来学习外部语料中的知识表示。

在上述序列到序列模型的优选技术方案中，输入到序列到序列模型的声学特征均为梅尔频率倒谱系数声学特征或感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征。

损失函数l(θ)还可以简化为一种变体形式：

其中，k表示词表中第k个词，k表示词表中词的总个数，yt表示语音文本对中文本对应的词在词表中的序号，如果k＝yt则δ(k，yt)＝1，否则δ(k，yt)＝0，ps2s表示序列到序列模型解码器给出的第k个词的概率，yt-1表示上一个词的序号，ct-1表示上下文信息，x表示上下文特征，plm表示外部语言模型对第k个词的概率值，ht-1表示外部语言模型上一步的历史信息，θ为模型所有参数，λ是一个可调节的权重参数。

模型参数的更新表示为

其中，α表示学习速率。

在本发明的优选技术方案中，通过利用在大规模外部文本语料上训练的语言模型，提取语音-文本对中文本的概率分布作为软标签，来训练序列到序列语音识别模型。这样可以从大规模外部文本语料中获取语言学知识，然后将其迁移到序列到序列语音识别模型中，从而提高语音识别模型准确率。

更具体地，参照图5，本发明的序列到序列模型知识迁移方法训练具体步骤如下：

s501、采集大量文本数据以形成外部文本数据库；s502、基于步骤s501中的外部文本数据库，提取与语音-文本对中文本领域匹配的子集；s503、基于步骤s502中提取的子集，训练语言模型；s504采集语音-文本数据对；s505、基于s504中的语音-文本数据对中的文本，输入到步骤s503中训练的语言模型，得到语音-文本数据对的软标签；s506、对语音-文本数据对中的语音提取声学特征；s507、将语音-文本数据对中文本标签与步骤s504中生成的软标签结合，训练编码器-解码器序列到序列语音识别模型。

关于图5的方法，需要指出的是，尽管本申请中以特定顺序对其进行了描述，但是这种顺序仅仅是示例性的，并不具有限制作用，本领域技术人员可以根据需要对其作出调整。例如，步骤s504可以与步骤s501同时进行等。这些顺序调整都没有偏离本发明的基本原理，因此都将落入本发明的保护范围之内。

此外本发明中的序列到序列模型知识迁移方法的语言模型不仅限于长短诗记忆网络，也可以是前馈神经网络、卷积神经网络、甚至是n元语法语言模型等，只要能给出词的概率分布即可。提取的声学特征可以是梅尔频率倒谱系数声学特征，也可以是其他特征，比如：感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征等。

以上仅为本发明的具体实施例，但本发明的技术特征并不局限于此。任何以本发明为基础，为解决基本相同的技术问题，实现基本相同的技术效果，所作出地简单变化、等同替换或者修饰等，皆涵盖于本发明的保护范围之中。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：温正棋;白烨
技术所有人：极限元(杭州)智能科技股份有限公司
我是此专利的发明人

上一篇：一种超长钢筋混凝土底板找平的施工装置及方法与流程
下一篇：轨道交通装配式内墙的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！