模型训练方法、装置、存储介质及电子设备与流程

文档序号：36314910发布日期：2023-12-07 22:49阅读：124来源：国知局

本发明涉及计算机，尤其涉及一种模型训练方法、装置、存储介质及电子设备。

背景技术：

1、目前，语音识别技术在智能手机、智能音箱和智能电视等设备上得到了广泛的应用，所谓的语音识别技术是将语音转为文字的技术，常见的语音识别系统通常为基于深度学习的端到端语音识别模型，比如ctc(connectionist temporal classification，联结主义时序分类，一种端到端语音识别结构)、las(listen attend and spell，一种基于注意力机制的编解码模型)、rnn-t(recurrent neural network-transducer，循环神经网络变化器)等等；其中，端到端的语音识别模型在训练过程中需要数万甚至数十万的语音数据(包含音频数据和音频数据对应的文本数据(即标注文本))。在实际场景中，音频数据获取比较容易且成本较低，但是音频数据对应的文本数据需要专业的标注人员进行人工标注来获取，使得获取文本数据的成本较高，从而导致模型训练的成本较高。基于此，如何降低模型训练的成本，并提高语音识别模型的准确率成为一个研究热点。

技术实现思路

1、有鉴于此，本发明实施例提供了一种模型训练方法、装置、存储介质及电子设备，以解决模型训练中音频数据对应文本数据的标注成本较高，从而导致模型训练成本较高等问题；也就是说，本发明实施例可降低模型训练的成本，并提高语音识别模型的准确率，即本发明实施例可在保证语音识别模型的准确率的前提下，降低模型训练的成本。

2、根据本发明的一方面，提供了一种模型训练方法，所述方法包括：

3、获取训练数据，以及获取第一语音识别模型，所述训练数据包括多个语音特征；

4、对所述训练数据进行特征掩码，得到特征掩码后的训练数据，所述特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果；

5、调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签；

6、调用所述第一语音识别模型，对所述特征掩码后的训练数据进行类别预测，得到所述至少一个掩码特征中各个掩码特征的预测类别标签；

7、采用所述各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述第一语音识别模型的模型损失值，并按照减小所述模型损失值的方向，优化所述第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，所述第二语音识别模型用于进行语音识别。

8、根据本发明的另一方面，提供了一种模型训练装置，所述装置包括：

9、获取单元，用于获取训练数据，以及获取第一语音识别模型，所述训练数据包括多个语音特征；

10、处理单元，用于对所述训练数据进行特征掩码，得到特征掩码后的训练数据，所述特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果；

11、所述处理单元，还用于调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签；

12、所述处理单元，还用于调用所述第一语音识别模型，对所述特征掩码后的训练数据进行类别预测，得到所述至少一个掩码特征中各个掩码特征的预测类别标签；

13、所述处理单元，还用于采用所述各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述第一语音识别模型的模型损失值，并按照减小所述模型损失值的方向，优化所述第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，所述第二语音识别模型用于进行语音识别。

14、根据本发明的另一方面，提供了一种电子设备，所述电子设备包括处理器、以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述所提及的方法。

15、根据本发明的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行上述所提及的方法。

16、本发明实施例可在获取到训练数据，以及获取到第一语音识别模型后，对训练数据进行特征掩码，得到特征掩码后的训练数据，训练数据包括多个语音特征，特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果，以便于后续通过训练数据和特征掩码后的训练数据，对第一语音识别模型进行模型训练。然后，可调用第一语音识别模型，对训练数据进行类别预测，得到多个语音特征中各个语音特征的参考类别标签；并调用第一语音识别模型，对特征掩码后的训练数据进行类别预测，得到至少一个掩码特征中各个掩码特征的预测类别标签；基于此，可采用各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算第一语音识别模型的模型损失值，并按照减小模型损失值的方向，优化第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，第二语音识别模型用于进行语音识别。可见，本发明实施例可将通过第一语音识别模型预测得到的参考类别标签作为训练数据对应的文本数据(即用于获取训练数据的音频数据对应的文本数据)，以基于各个参考类别标签进行模型训练，从而无需标注人员进行人工标注，以通过大量无标注的低成本数据对第一语音识别模型进行预训练，可有效降低模型训练的成本，并可提高语音识别模型的准确率，也就是说，可在保证语音识别模型的准确率的前提下，降低模型训练的成本。并且，语音识别模型为一个神经网络模型，本发明实施例可通过神经网络自聚类的方式生成无监督数据的参考类别标签，使得预测得到的参考类别标签更为准确，以提高语音识别模型的准确率，并可使得语音识别模型收敛的更快更好，从而使得本发明实施例可具有良好的鲁棒性和实际应用能力。

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一语音识别模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签，包括：

5.根据权利要求4所述的方法，其特征在于，所述分别对所述各个语音特征的类别概率进行平滑处理，得到所述各个语音特征的平滑类别概率，包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述基于模型优化后的第一语音识别模型，确定第二语音识别模型，包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述基于模型优化后的第一语音识别模型，确定第二语音识别模型，包括：

8.一种模型训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。

技术总结
本发明提供一种模型训练方法、装置、存储介质及电子设备，该方法包括：获取训练数据和第一语音识别模型；对训练数据进行特征掩码，得到特征掩码后的训练数据；调用第一语音识别模型，对训练数据进行类别预测，得到训练数据中各个语音特征的参考类别标签；调用第一语音识别模型，对特征掩码后的训练数据进行类别预测，得到特征掩码后的训练数据中各个掩码特征的预测类别标签；采用各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算模型损失值，并按照减小模型损失值的方向，优化第一语音识别模型中的模型参数，以确定第二语音识别模型。本发明实施例可降低模型训练的成本，并提高语音识别模型的准确率。

技术研发人员：单长浩,孙思宁,杨青
受保护的技术使用者：度小满科技(北京)有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：单长浩孙思宁杨青
技术所有人：度小满科技
我是此专利的发明人

上一篇：一种根系中草药组及其制备工艺的制作方法
下一篇：一种燃气灶废热回收装置的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！