文本处理模型训练方法、语音文本处理方法及装置与流程

文档序号：26715197发布日期：2021-09-22 19:52阅读：来源：国知局

技术特征：
1.一种文本处理模型训练方法，其特征在于，所述方法包括：从互联网爬取对话文本，得到正样本；所述对话文本中的语句为语法正确的语句，所述正样本为所述对话文本中的语句；对所述对话文本中的语句进行变换操作，得到负样本和所述负样本的第一标签信息，所述负样本中的语句为语法错误的语句，所述第一标签信息表示将所述正样本变换为所述负样本的变换序列；将所述正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成所述第一文本处理模型的目标层的第一特征向量和所述第二文本处理模型的目标层的第二特征向量；所述第二文本处理模型的维度小于所述第一文本处理模型，所述第一文本处理模型是根据所述正样本、所述负样本和所述负样本的变换序列训练得到的；根据所述第一特征向量、所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。2.根据权利要求1所述的方法，其特征在于，在所述第一文本处理模型的层数与所述第二文本处理模型的层数相同的情况下，所述第一特征向量包括所述第一输入层特征向量、第一隐藏层特征向量、第一注意力向量和对所述负样本进行校对的第一预测校对向量，所述第二特征向量包括第二输入层特征向量、第二隐藏层特征向量、第二注意力向量和对所述负样本进行校对的第二预测校对向量。3.根据权利要求2所述的方法，其特征在于，所述根据所述第一特征向量和所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型，包括：根据所述第一文本处理模型的维度和所述第二文本处理模型的维度，确定投影矩阵；根据所述投影矩阵、所述第一输入层特征向量和所述第二输入层特征向量，计算所述第一文本处理模型的输入层和所述第二文本处理模型的输入层之间的第一均方差损失；根据所述投影矩阵、所述第一隐藏层特征向量和所述第二隐藏层特征向量，计算所述第一文本处理模型的隐藏层和所述第二文本处理模型的隐藏层之间的第二均方差损失；计算所述第一注意力向量和所述第二注意力向量之间的第三均方差损失；根据预设的温度参数计算所述第一预测校对向量和所述第二预测校对向量的交叉熵损失；根据所述第一均方差损失、所述第二均方差损失、所述第三均方差损失和所述交叉熵损失更新所述第二文本处理模型。4.根据权利要求1所述的方法，其特征在于，在所述第一文本处理模型的层数为m，所述第二文本处理模型的层数为n，且m不等于n的情况下，所述第一特征向量包括所述第一文本处理模型的m层中每一层的第一注意力向量、每一层隐藏层的第一隐藏层特征向量、第一输入层特征向量和对所述负样本进行校对的第一预测校对向量，所述第二特征向量包括所述第二文本处理模型的n层中每一层的第二注意力向量、每一层隐藏层的第二隐藏层特征向量、第一输入层特征向量和对所述负样本进行校对的第一预测校对向量。5.根据权利要求4所述的方法，其特征在于，所述根据所述第一特征向量和所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型，包括：根据所述第一文本处理模型的维度和所述第二文本处理模型的维度，确定投影矩阵；
根据所述投影矩阵、所述第一输入层特征向量和所述第二输入层特征向量，计算所述第一文本处理模型的输入层和所述第二文本处理模型的输入层之间的第一均方差损失；根据预设的温度参数计算所述第一预测校对向量和所述第二预测校对向量的交叉熵损失；对所述m层的中每一层的第一注意力向量和所述n层中每一层的第二注意力向量进行两两相比较，得到所述第一文本处理模型和所述第二文本处理模型之间的注意力损失矩阵；对所述m层的中每一层的第一隐藏层特征向量和所述n层中每一层的第二隐藏层特征向量进行两两相比较，得到所述第一文本处理模型和所述第二文本处理模型之间的隐藏层损失矩阵；根据所述第一文本处理模型中每一层的权重、所述第二文本处理模型中每一层的权重和所述注意力损失矩阵，计算第一陆地移动距离emd矩阵；根据所述第一文本处理模型中每一层的权重、所述第二文本处理模型中每一层的权重和所述隐藏层损失矩阵，计算第二emd矩阵；根据所述第一emd矩阵和所述注意力损失矩阵，计算所述第一文本处理模型中m层的第一注意力向量和所述第二文本处理模型中n层的第二注意力向量之间的第四均方差损失；根据所述第二emd矩阵和所述隐藏层损失矩阵，计算所述第一文本处理模型中m层的第一隐藏层特征向量和所述第二文本处理模型中n层的第二隐藏层特征向量之间的第五均方差损失；根据所述第一均方差损失、所述交叉熵损失、所述第四均方差损失和所述第五均方差损失，更新所述第一文本处理模型中每一层的权重和所述第二文本处理模型中每一层的权重，直至所述第一均方差损失、所述交叉熵损失、所述第四均方差损失和所述第五均方差损失收敛。6.根据权利要求1
‑
5任一项所述的方法，其特征在于，所述方法还包括：将所述正样本和负样本输入至待训练的第二文本处理模型中，生成所述负样本的预测校对序列；根据所述负样本的预测校对序列和所述第一标签信息训练所述文本处理模型。7.根据权利要求6所述的方法，其特征在于，所述训练样本还包括正样本对和所述正样本对的第二标签信息，所述第二标签信息表示将所述正样本转换为所述正样本的转换序列，所述正样本对中的两个正样本相同，所述方法还包括：将所述正样本对输入至训练后的文本处理模型中，生成所述正样本的预测校对序列；根据所述正样本的预测校对序列和所述第二标签信息，训练所述文本处理模型。8.根据权利要求1
‑
5任一项所述的方法，其特征在于，将所述正样本和负样本输入至待训练的第二文本处理模型中，生成所述负样本的预测校对序列，包括：在所述正样本中的字符数量大于预设数量的情况下，按照从前到后的顺序，将所述正样本中预设数量的字符、所述负样本中与所述正样本中预设数量的字符相对应的字符输入至所述待训练的第二文本处理模型中，得到所述负样本中预设数量的字符的预测校对序列；将所述正样本中剩余的字符和所述负样本中剩余的字符作为下一次模型训练过程的
训练样本。9.一种语音文本处理方法，其特征在于，所述方法包括：识别目标语音对应的语音文本；将所述语音文本输入至如权利要求1
‑
9任一项所述的第二文本处理模型中，确定所述语音文本的校对序列，所述校对序列表示所述语音文本中每个字符的校对规则；根据所述校对序列对所述语音文本进行校对，得到所述目标语音对应的校对文本。10.一种文本处理模型训练装置，其特征在于，所述装置包括：获取模块，用于从互联网爬取对话文本，得到正样本；所述对话文本中的语句为语法正确的语句，所述正样本为所述对话文本中的语句；变换模块，用于和所述负样本的第一标签信息，所述负样本中的语句为语法错误的语句，所述第一标签信息表示将所述正样本变换为所述负样本的变换序列；生成模块，用于将所述正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成所述第一文本处理模型的目标层的第一特征向量和所述第二文本处理模型的目标层的第二特征向量；所述第二文本处理模型的维度小于所述第一文本处理模型，所述第一文本处理模型是根据所述正样本、所述负样本和所述负样本的变换序列训练得到的；训练模块，用于根据所述第一特征向量、所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。

技术总结
本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置，涉及自然语言处理技术领域。该方法包括：从互联网爬取对话文本，得到正样本；对对话文本中的语句进行变换操作，得到负样本和负样本的第一标签信息；将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量；根据第一特征向量、第二特征向量，对第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。根据本申请实施例，能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。占用大的问题。占用大的问题。

技术研发人员：周军张震李成章李鹏刘建石瑾刘睿霖颜永红
受保护的技术使用者：国家计算机网络与信息安全管理中心
技术研发日：2021.06.24
技术公布日：2021/9/21

完整全部详细技术资料下载

当前第2页1 2