文本纠错模型的训练方法、装置、设备以及存储介质与流程

文档序号：36088224发布日期：2023-11-18 06:09阅读：33来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及人工智能领域，尤其涉及一种文本纠错模型的训练方法、装置、设备以及存储介质。

背景技术：

1、随着网络技术的飞速发展，信息资源越来越广泛，而大多数的信息是以语言文字为载体。为了提升信息内容质量，对信息内容进行文本纠错从而成为必要的文本处理环节。

2、现有的文本纠错方式往往是采用预训练的文本纠错模型进行，但是现有的文本纠错模型的纠错效果有限，准确性较差。因此如何训练出准确性较高的文本纠错模型成为亟需解决的问题。

技术实现思路

1、本申请实施例提供一种文本纠错模型的训练方法、装置、设备以及存储介质，可训练得到纠错准确性较高的文本纠错模型，适用性高。

2、一方面，本申请实施例提供一种文本纠错模型的训练方法，该方法包括：

3、确定多个训练样本对，每个上述训练样本对包括样本字符序列、以及对上述样本字符序列进行纠错后得到的目标字符序列；

4、将每个样本字符序列输入初始模型，得到对该样本字符序列进行纠错后的预测字符序列，上述预测字符序列中的各预测字符由上述初始模型基于以下方式确定：

5、基于该样本字符序列的每个样本字符的第一隐状态特征，确定各上述样本字符对应的预测编辑标签和预测排序标签，每个上述样本字符的预测编辑标签和预测排序标签分别表征该样本字符的预测编辑操作和预测排列顺序；

6、基于各上述预测编辑标签和各上述预测排序标签对该样本字符序列进行处理得到待预测字符序列，基于上述待预测字符序列的每个待预测字符的第二隐状态特征，确定各上述待预测字符对应的预测字符标签，每个上述待预测字符对应的预测字符标签表征该待预测字符对应的预测字符，基于各上述待预测字符对应的预测字符标签，确定该样本序列对应的预测字符序列；

7、基于各上述样本字符序列对应的预测字符序列所对应的各上述预测字符标签、以及各上述样本字符序列对应的各实际字符标签，确定总训练损失值，每个上述样本字符序列对应的各上述实际字符标签分别表征该样本字符序列对应的目标字符序列的各目标字符，基于上述总训练损失值和各上述训练样本对对上述初始模型进行迭代训练，直至上述总训练损失值符合训练结束条件时停止训练，并将停止训练时的模型确定为上述文本纠错模型。

8、另一方面，本申请实施例提供了一种文本纠错模型的训练装置，该装置包括：

9、样本确定模块，用于确定多个训练样本对，每个上述训练样本对包括样本字符序列、以及对上述样本字符序列进行纠错后得到的目标字符序列；

10、序列预测模块，用于将每个样本字符序列输入初始模型，得到对该样本字符序列进行纠错后的预测字符序列，上述预测字符序列由上述初始模型基于以下方式确定：

11、基于该样本字符序列的每个样本字符的第一隐状态特征，确定各上述样本字符对应的预测编辑标签和预测排序标签，每个上述样本字符的预测编辑标签和预测排序标签分别表征该样本字符的预测编辑操作和预测排列顺序；

12、基于各上述预测编辑标签和各上述预测排序标签对该样本字符序列进行处理得到待预测字符序列，基于上述待预测字符序列的每个待预测字符的第二隐状态特征，确定各上述待预测字符对应的预测字符标签，每个上述待预测字符对应的预测字符标签表征该待预测字符对应的预测字符，基于各上述待预测字符对应的预测字符标签，确定该样本序列对应的预测字符序列；

13、模型确定模块，用于基于各上述样本字符序列对应的预测字符序列所对应的各上述预测字符标签、以及各上述样本字符序列对应的各实际字符标签，确定总训练损失值，每个上述样本字符序列对应的各上述实际字符标签分别表征该样本字符序列对应的目标字符序列的各目标字符，基于上述总训练损失值和各上述训练样本对对上述初始模型进行迭代训练，直至上述总训练损失值符合训练结束条件时停止训练，并将停止训练时的模型确定为上述文本纠错模型。

14、另一方面，本申请实施例提供了一种电子设备，包括处理器和存储器，该处理器和存储器相互连接；

15、上述存储器用于存储计算机程序；

16、上述处理器被配置用于在调用上述计算机程序时，执行本申请实施例提供的文本纠错模型的训练方法。

17、另一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现本申请实施例提供的文本纠错模型的训练方法。

18、另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，上述计算机程序被处理器执行时实现本申请实施例提供的文本纠错模型的训练方法。

19、在本申请实施例中，通过多个训练样本对初始模型进行训练，可得到具有预测编辑操作、预测排列顺序以及确定待预测字符序列等处理多个任务的能力的文本纠错模型，文本纠错模型能够处理复杂的文本纠错任务，且具有较高的准确性和稳定性。如文本纠错模型可确定输入的任一文本序列的各字符的预测编辑操作以及预测排列顺序，从而基于各字符的预测编辑操作以及预测排序顺序对该文本序列进行纠错得到目标字符序列。

技术特征：

1.一种文本纠错模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于各所述第一隐状态特征确定各所述样本字符对应的预测编辑标签，包括：

3.根据权利要求1所述的方法，其特征在于，基于各所述第一隐状态特征确定各所述样本字符对应的预测排序标签，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于各所述样本字符的融合特征，确定各所述样本字符对应的预测排序标签，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于每个所述样本字符的融合特征，确定该样本字符对应的预测排序标签为各所述预设排序标签的第二概率，包括：

6.根据权利要求2所述的方法，其特征在于，所述基于各所述预测编辑标签和各所述预测排序标签对该样本字符序列进行处理得到待预测字符序列，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于各所述第二隐状态特征确定各所述待预测字符对应的预测字符标签，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于各所述样本字符序列对应的预测字符序列所对应的各所述预测字符标签、以及各所述样本字符序列对应的各实际字符标签，确定总训练损失值，包括：

9.根据权利要求8所述的方法，其特征在于，基于所述第一训练损失值、所述第二训练损失值和所述第三训练损失值，确定总训练损失值，包括：

10.根据权利要求1所述的方法，其特征在于，所述确定多个训练样本对，包括：

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

12.一种文本纠错模型的训练装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至11任一项所述的方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至11任一项所述的方法。

技术总结
本申请实施例公开了一种文本纠错模型的训练方法、装置、设备以及存储介质，可适用于人工智能、计算机以及区块链等领域。该方法包括：确定多个训练样本对，每个所述训练样本对包括样本字符序列、以及对所述样本字符序列进行纠错后得到的目标字符序列；将每个样本字符序列输入初始模型，得到预测字符序列：基于每个所述样本字符序列对应的目标字符序列和预测字符序列确定总训练损失值，基于所述总训练损失值和各所述训练样本对对所述初始模型进行迭代训练，直至所述总训练损失值符合训练结束条件时停止训练，并将停止训练时的模型确定为所述文本纠错模型。采用本申请实施例，可训练得到纠错准确性较高的文本纠错模型，适用性高。

技术研发人员：赵昂
受保护的技术使用者：腾讯科技（武汉）有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵昂
技术所有人：腾讯科技（武汉）有限公司
我是此专利的发明人

上一篇：人流密集预防方法与流程
上一篇：基于学习结构关系的化合物分子指纹预测算法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。