本发明涉及自然语言处理,具体涉及一种文本的纠错方法、装置及存储介质。
背景技术:
1、文本纠错旨在对文本中包含的拼写、语法等错误进行识别与校正。由于深度神经网络的快速发展,深度学习在自然语言处理的各项任务中取得了十分卓越的成绩。现有的文本纠错方法通常以序列到序列的编码器解码器网络为基础,以端到端的方式构建文本纠错流程,超越了传统的管道式的文本纠错方法。然而,这种方式无法对常见错误词表(如混淆集等)先验知识进行充分利用,制约了模型的性能和文本纠错的质量,如何利用混淆集对文本进行纠错进而提高文本的质量是现有技术需要解决的问题。
技术实现思路
1、本发明的目的在于克服上述技术不足,提供一种文本的纠错方法、装置及存储介质,解决现有技术中如何利用混淆集对文本进行纠错进而提高文本纠错的质量的技术问题。
2、为达到上述技术目的,本发明的技术方案提供一种文本的纠错方法,包括以下步骤:
3、s1、根据输入文本与混淆集获取输入文本中的词汇的校正候选;
4、s2、通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率;
5、s3、根据所述校正候选的输出概率对文本的词汇进行相应纠错。
6、进一步地,在步骤s1中,所述词汇的校正候选由以下得到:
7、s11、将编码器与解码器之间的注意力分布用于度量文本词汇的重要度,得到文本中的词汇的重要度分布;
8、s12、从混淆集数据中获取词汇对应的校正词汇的概率;
9、s13、将所述重要度分布乘以所述校正词汇的概率得到词汇相应的校正候选的词汇概率,根据所述校正候选的词汇概率得到词汇的校正候选。
10、进一步地,在步骤s12中,词汇的校正候选首先被限制为至多m个,使用基于transformer中的注意力计算机制,以词汇隐层状态向量作为查询,校正候选对应的词向量作为键值,词汇隐层状态向量会依次跟校正候选的词向量进行矩阵运算得到单个数值,然后通过softmax进行归一化得到所述校正词汇的概率;其中,m为大于1的整数。
11、进一步地,在步骤s2中,所述校正候选的输出概率由以下公式计算得到:校正候选的输出概率=(纠错动作概率*校正候选的词汇概率)+(1-纠错动作概率)*神经概率分布。
12、进一步地,在步骤s2中,所述纠错动作概率通过一个sigmoid激活函数得到0-1之间的概率数值,其以解码器隐层状态为输入向量,通过矩阵参数和偏置矩阵进行计算,得到单一的数值,然后通过sigmoid激活层转化得到所述纠错动作概率。
13、进一步地,在步骤s1之前还包括构建混淆集。
14、进一步地,所述混淆集通过收集常见的错误词汇、构建同音、音近、形近词典得到。
15、进一步地,在步骤s1之前,还包括将所述输入文本通过transformer编辑器对所述输入文本进行语义编码。
16、此外,本发明还提出一种文本的纠错装置,包括:
17、获取单元,用于根据输入文本与混淆集获取输入文本中的词汇的校正候选;
18、融合单元,用于通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率;
19、纠错单元,用于根据所述校正候选的输出概率对文本的词汇进行相应纠错。
20、进一步地,本发明还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本的纠错方法的步骤。
21、与现有技术相比,本发明的有益效果包括:本发明将混淆集引入至文本纠错中,通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率,根据所述校正候选的输出概率对文本的词汇进行相应纠错,从而实现更为精准的文本纠错,提高了文本纠错的质量。
1.一种文本的纠错方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的文本的纠错方法,其特征在于,在步骤s1中,所述词汇的校正候选由以下得到:
3.根据权利要求2所述的文本的纠错方法,其特征在于,在步骤s12中,词汇的校正候选首先被限制为至多m个,使用基于transformer中的注意力计算机制,以词汇隐层状态向量作为查询,校正候选对应的词向量作为键值,词汇隐层状态向量会依次跟校正候选的词向量进行矩阵运算得到单个数值,然后通过softmax进行归一化得到所述校正词汇的概率;其中,m为大于1的整数。
4.根据权利要求1所述的文本的纠错方法,其特征在于,在步骤s2中,所述校正候选的输出概率由以下公式计算得到:校正候选的输出概率=(纠错动作概率*校正候选的词汇概率)+(1-纠错动作概率)*神经概率分布。
5.根据权利要求4所述的文本的纠错方法,其特征在于,在步骤s2中,所述纠错动作概率通过一个sigmoid激活函数得到0-1之间的概率数值,其以解码器隐层状态为输入向量,通过矩阵参数和偏置矩阵进行计算,得到单一的数值,然后通过sigmoid激活层转化得到所述纠错动作概率。
6.根据权利要求1所述的文本的纠错方法,其特征在于,在步骤s1之前还包括构建混淆集。
7.根据权利要求6所述的文本的纠错方法,其特征在于,所述混淆集通过收集常见的错误词汇、构建同音、音近、形近词典得到。
8.根据权利要求1所述的文本的纠错方法,其特征在于,在步骤s1之前,还包括将所述输入文本通过transformer编辑器对所述输入文本进行语义编码。
9.一种文本的纠错装置,其特征在于,包括:
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的文本的纠错方法的步骤。