本申请涉及人工智能领域,尤其涉及一种文本纠错模型的训练方法、装置、设备以及存储介质。
背景技术:
1、随着网络技术的飞速发展,信息资源越来越广泛,而大多数的信息是以语言文字为载体。为了提升信息内容质量,对信息内容进行文本纠错从而成为必要的文本处理环节。
2、现有的文本纠错方式往往是采用预训练的文本纠错模型进行,但是现有的文本纠错模型的纠错效果有限,准确性较差。因此如何训练出准确性较高的文本纠错模型成为亟需解决的问题。
技术实现思路
1、本申请实施例提供一种文本纠错模型的训练方法、装置、设备以及存储介质,可训练得到纠错准确性较高的文本纠错模型,适用性高。
2、一方面,本申请实施例提供一种文本纠错模型的训练方法,该方法包括:
3、确定多个训练样本对,每个上述训练样本对包括样本字符序列、以及对上述样本字符序列进行纠错后得到的目标字符序列;
4、将每个样本字符序列输入初始模型,得到对该样本字符序列进行纠错后的预测字符序列,上述预测字符序列中的各预测字符由上述初始模型基于以下方式确定:
5、基于该样本字符序列的每个样本字符的第一隐状态特征,确定各上述样本字符对应的预测编辑标签和预测排序标签,每个上述样本字符的预测编辑标签和预测排序标签分别表征该样本字符的预测编辑操作和预测排列顺序;
6、基于各上述预测编辑标签和各上述预测排序标签对该样本字符序列进行处理得到待预测字符序列,基于上述待预测字符序列的每个待预测字符的第二隐状态特征,确定各上述待预测字符对应的预测字符标签,每个上述待预测字符对应的预测字符标签表征该待预测字符对应的预测字符,基于各上述待预测字符对应的预测字符标签,确定该样本序列对应的预测字符序列;
7、基于各上述样本字符序列对应的预测字符序列所对应的各上述预测字符标签、以及各上述样本字符序列对应的各实际字符标签,确定总训练损失值,每个上述样本字符序列对应的各上述实际字符标签分别表征该样本字符序列对应的目标字符序列的各目标字符,基于上述总训练损失值和各上述训练样本对对上述初始模型进行迭代训练,直至上述总训练损失值符合训练结束条件时停止训练,并将停止训练时的模型确定为上述文本纠错模型。
8、另一方面,本申请实施例提供了一种文本纠错模型的训练装置,该装置包括:
9、样本确定模块,用于确定多个训练样本对,每个上述训练样本对包括样本字符序列、以及对上述样本字符序列进行纠错后得到的目标字符序列;
10、序列预测模块,用于将每个样本字符序列输入初始模型,得到对该样本字符序列进行纠错后的预测字符序列,上述预测字符序列由上述初始模型基于以下方式确定:
11、基于该样本字符序列的每个样本字符的第一隐状态特征,确定各上述样本字符对应的预测编辑标签和预测排序标签,每个上述样本字符的预测编辑标签和预测排序标签分别表征该样本字符的预测编辑操作和预测排列顺序;
12、基于各上述预测编辑标签和各上述预测排序标签对该样本字符序列进行处理得到待预测字符序列,基于上述待预测字符序列的每个待预测字符的第二隐状态特征,确定各上述待预测字符对应的预测字符标签,每个上述待预测字符对应的预测字符标签表征该待预测字符对应的预测字符,基于各上述待预测字符对应的预测字符标签,确定该样本序列对应的预测字符序列;
13、模型确定模块,用于基于各上述样本字符序列对应的预测字符序列所对应的各上述预测字符标签、以及各上述样本字符序列对应的各实际字符标签,确定总训练损失值,每个上述样本字符序列对应的各上述实际字符标签分别表征该样本字符序列对应的目标字符序列的各目标字符,基于上述总训练损失值和各上述训练样本对对上述初始模型进行迭代训练,直至上述总训练损失值符合训练结束条件时停止训练,并将停止训练时的模型确定为上述文本纠错模型。
14、另一方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
15、上述存储器用于存储计算机程序;
16、上述处理器被配置用于在调用上述计算机程序时,执行本申请实施例提供的文本纠错模型的训练方法。
17、另一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本申请实施例提供的文本纠错模型的训练方法。
18、另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行时实现本申请实施例提供的文本纠错模型的训练方法。
19、在本申请实施例中,通过多个训练样本对初始模型进行训练,可得到具有预测编辑操作、预测排列顺序以及确定待预测字符序列等处理多个任务的能力的文本纠错模型,文本纠错模型能够处理复杂的文本纠错任务,且具有较高的准确性和稳定性。如文本纠错模型可确定输入的任一文本序列的各字符的预测编辑操作以及预测排列顺序,从而基于各字符的预测编辑操作以及预测排序顺序对该文本序列进行纠错得到目标字符序列。
1.一种文本纠错模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,基于各所述第一隐状态特征确定各所述样本字符对应的预测编辑标签,包括:
3.根据权利要求1所述的方法,其特征在于,基于各所述第一隐状态特征确定各所述样本字符对应的预测排序标签,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于各所述样本字符的融合特征,确定各所述样本字符对应的预测排序标签,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于每个所述样本字符的融合特征,确定该样本字符对应的预测排序标签为各所述预设排序标签的第二概率,包括:
6.根据权利要求2所述的方法,其特征在于,所述基于各所述预测编辑标签和各所述预测排序标签对该样本字符序列进行处理得到待预测字符序列,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于各所述第二隐状态特征确定各所述待预测字符对应的预测字符标签,包括:
8.根据权利要求1所述的方法,其特征在于,所述基于各所述样本字符序列对应的预测字符序列所对应的各所述预测字符标签、以及各所述样本字符序列对应的各实际字符标签,确定总训练损失值,包括:
9.根据权利要求8所述的方法,其特征在于,基于所述第一训练损失值、所述第二训练损失值和所述第三训练损失值,确定总训练损失值,包括:
10.根据权利要求1所述的方法,其特征在于,所述确定多个训练样本对,包括:
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
12.一种文本纠错模型的训练装置,其特征在于,所述装置包括:
13.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至11任一项所述的方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至11任一项所述的方法。