语音大模型训练方法、装置、设备、存储介质以及产品与流程

文档序号：39682457发布日期：2024-10-18 13:31阅读：191来源：国知局

本技术涉及语音识别的，尤其涉及一种语音大模型训练方法、装置、设备、存储介质以及产品。

背景技术：

1、在语音识别领域中，以transformer为基础的模型架构成为工业界主流，人们对基于标注数据的语音大模型的模型学习效果也越来越重视。在语音识别领域中，对于语音大模型的训练往往采用正常训练数据和标注数据这两类数据。而在业务需求的驱动下，标注数据一般包括困难样本，也即模型学习有一定困难程度的训练样本。困难样本过少会导致模型过拟合到正常的训练样本数据，也会导致语音大模型对困难样本的学习效果不佳；困难样本过多则会导致模型过拟合到标注数据，导致语音大模型泛用能力不强。

2、因此，如何在不过分丢失泛用能力的基础上提高语音大模型对困难样本的学习效率是目前亟须解决的一个问题。

3、上述内容仅用于辅助理解本技术的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

1、本技术的主要目的在于提供一种语音大模型训练方法、装置、设备、存储介质以及计算机程序产品，旨在解决如何在不过分丢失泛用能力的基础上提高语音大模型对困难样本的学习效率的技术问题。

2、为实现上述目的，本技术提出一种语音大模型训练方法，应用于待训练的语音大模型，所述的方法包括：

3、获取当前批次的训练样本集，所述当前批次的训练样本集包括语音标注样本集；

4、将所述当前批次的训练样本集输入到所述语音大模型中，得到文本推理结果；

5、基于所述文本推理结果以及所述语音标注样本集，确定出所述当前批次的训练样本集中多个训练样本各自对应的困难程度估计值；

6、基于各所述困难程度估计值，对所述当前批次的训练样本集进行优化，得到优化后的训练样本集，基于所述优化后的训练样本集更新所述语音大模型的模型参数；

7、获取所述当前批次的下一批次的训练样本集，将所述当前批次的下一批次的训练样本集确定为新的当前批次的训练样本集；

8、返回执行将所述当前批次的训练样本集输入到所述语音大模型中，得到文本推理结果的步骤，直至满足预设训练结束条件后，获得训练完成的语音大模型。

9、在一实施例中，所述文本推理结果包括所述当前批次的训练样本集对应的当前推理文本和当前模型推理置信度；

10、所述基于所述文本推理结果以及所述语音标注样本集，确定出所述当前批次的训练样本集中多个训练样本各自对应的困难程度估计值的步骤包括：

11、基于所述当前推理文本以及所述语音标注样本集，计算得到所述当前批次的训练样本集对应的当前预测准确率；

12、基于所述当前预测准确率确定出模型预测准确率；

13、根据所述当前模型推理置信度、所述当前预测准确率和所述模型预测准确率，计算所述当前批次的训练样本集中多个训练样本各自对应的困难程度估计值。

14、在一实施例中，所述基于所述当前预测准确率确定出模型预测准确率的步骤包括：

15、若不存在所述当前批次的上一批次的训练样本集，则将所述当前预测准确率确定为所述模型预测准确率；

16、若存在所述当前批次的上一批次的训练样本，则获取所述当前批次之前的各历史批次的训练样本集对应的历史预测准确率；将所述当前预测准确率与各所述历史预测准确率进行合并处理，得到合并准确率，并将所述合并准确率确定为所述模型预测准确率。

17、在一实施例中，所述基于所述当前推理文本以及所述语音标注样本集，计算得到所述当前批次的训练样本集对应的当前预测准确率的步骤包括：

18、计算所述当前推理文本与所述语音标注样本集中的各条文本的编辑距离，以基于各所述编辑距离确定所述当前预测准确率。

19、在一实施例中，所述基于各所述困难程度估计值，对所述当前批次的训练样本集进行优化，得到优化后的训练样本集的步骤包括：

20、基于各所述困难程度估计值，将所述当前批次的训练样本集中困难程度估计值高于预设阈值的多个训练样本确定为目标训练样本；

21、基于所述目标训练样本构建样本集，得到所述优化后的训练样本集。

22、在一实施例中，所述基于所述目标训练样本构建样本集，得到所述优化后的训练样本集的步骤包括：

23、基于所述目标训练样本各自对应的困难程度估计值进行排序，得到所述目标训练样本对应的目标样本序列；

24、基于预设的样本筛选比例和所述目标样本序列进行筛选，得到所述优化后的训练样本集。

25、此外，为实现上述目的，本技术还提出一种语音大模型训练装置，所述语音大模型训练装置包括：

26、样本获取模块，用于获取当前批次的训练样本集，所述当前批次的训练样本集包括语音标注样本集；

27、模型推理模块，用于将所述当前批次的训练样本集输入到所述语音大模型中，得到文本推理结果；

28、困难估计模块，用于基于所述文本推理结果以及所述语音标注样本集，确定出所述当前批次的训练样本集中多个训练样本各自对应的困难程度估计值；

29、模型更新模块，用于基于各所述困难程度估计值，对所述当前批次的训练样本集进行优化，得到优化后的训练样本集，基于所述优化后的训练样本集更新所述语音大模型的模型参数；

30、迭代训练模块，用于获取所述当前批次的下一批次的训练样本集，将所述当前批次的下一批次的训练样本集确定为新的当前批次的训练样本集；

31、所述迭代训练模块，还用于返回执行将所述当前批次的训练样本集输入到所述语音大模型中，得到文本推理结果的步骤，直至满足预设训练结束条件后，获得训练完成的语音大模型。

32、此外，为实现上述目的，本技术还提出一种语音大模型训练设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序配置为实现如上文所述的语音大模型训练方法的步骤。

33、此外，为实现上述目的，本技术还提出一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的语音大模型训练方法的步骤。

34、此外，为实现上述目的，本技术还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上文所述的语音大模型训练方法的步骤。

35、本技术提出的一个或多个技术方案，至少具有以下技术效果：

36、通过对待训练的语音大模型进行多批次的迭代训练，在每一次迭代训练中优化训练样本，从而实现对语音大模型的模型学习效果的提升；其中，在每一次迭代训练的过程中，通过获取当前批次的训练样本集，所述当前批次的训练样本集包括语音标注样本集，使得语音标注样本集能够用于训练样本的优化；然后将所述当前批次的训练样本集输入到所述语音大模型中，得到文本推理结果，并基于所述文本推理结果以及所述语音标注样本集，确定出所述当前批次的训练样本集中多个训练样本各自对应的困难程度估计值，由此，可以实现对当前批次的训练样本进行模型学习的困难程度进行估计，并将其量化为具体数值，以便于进行各训练样本之间的比较，从而对当前批次的训练样本进行优化；通过基于各所述困难程度估计值，对所述当前批次的训练样本集进行优化，得到优化后的训练样本集，基于所述优化后的训练样本集更新所述语音大模型的模型参数，在每一轮的迭代训练过程中逐步提升语音大模型对于样本的学习能力；通过获取所述当前批次的下一批次的训练样本集，将所述当前批次的下一批次的训练样本集确定为新的当前批次的训练样本集，返回执行将所述当前批次的训练样本集输入到所述语音大模型中，得到文本推理结果的步骤，直至满足预设训练结束条件后，获得训练完成的语音大模型，也即，在下一轮迭代训练的过程中，在经过第一轮优化的语音大模型的基础上，又能够进一步通过学习优化后的训练样本集来提升对样本的学习能力，同时，基于各困难程度估计值来优化训练样本集，可以使得语音大模型不会过拟合到困难程度估计值高的训练样本，从而避免语音大模型失去通用泛化能力。因此，在本实施例中，在每一次迭代训练的过程中，采用语音标注样本估计训练样本进行模型学习的困难程度，从而优化训练样本，以在不过分丢失泛用能力的基础上提高语音大模型对困难样本的学习效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵伟伟,姜迪,连荣忠
技术所有人：深圳前海微众银行股份有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！