一种无监督语法纠错方法、装置、终端及介质

文档序号:36104528发布日期:2023-11-22 04:20阅读:42来源:国知局
一种无监督语法纠错方法

本发明涉及自然语言处理,尤其涉及一种无监督语法纠错方法、装置、终端及介质。


背景技术:

1、语法错误纠正(gec)是自然语言处理技术的一项挑战。人们对于通用语言做了许多关于gec的尝试,但对于低资源语言,由于缺乏大量的标注语料,相关的研究工作相对较少。同时,低资源语言缺乏如lang-81等语言学习平台的资源,从而对构建seq2seq gec语料库带来了重大挑战。为了解决这个问题,现有研究探索了为低资源gec任务建模的替代方法。一些研究人员试图将该任务描述为一个多类分类问题。为了针对低资源语言构建可靠的gec系统,仍然需要更加多样化且具有代表性的训练数据。为了解决缺乏可观的注释语料库的问题,大部分低资源语言的gec是通过无监督系统解决的。

2、近年来,面向基于困惑度融合的无监督语法纠错的研究主要有三种:一是无监督gec的数据合成方法,是通过无监督的方法在无标注语料库上进行数据合成,以生成大量的伪标注文本;基于transformer的seq2seq模型能够使用合成数据进行预训练,以实现建立在真实错误标注数据上的强大基线,这使得在真实错误标注数据匮乏的情况下创建一个可行的gec系统成为可能;二是无监督gec的语言模型评分,利用lm评分的gec方法,如假设低概率句子比高概率句子更有可能包含语法错误,而gec系统根据语言模型概率决定如何将前者转换为后者;校正候选转换器可以由混淆集、基于分类的gec模型或有限状态传感器生成;三是基于预训练模型的句子评分,是通过利用预训练模型进行句子评分方法。因此,目前开发gec的无监督方法侧重于使用无监督技术和语言模型评分方法生成训练数据,尚未建立低资源语言的seq2seq语料库;学者们集中精力将语言模型评分方法应用于低资源语言的gec任务,然而,对于语言模型的评分方法,过去大多数无监督的gec研究主要采用传统的语言模型或基于神经的方法,预训练的语言模型尚未在无监督gec领域的进行运用。


技术实现思路

1、本发明提供一种无监督语法纠错方法、装置、终端及介质,通过构建低资源语言评估语料库以及基于bert的无监督语法纠错框架能够不依赖于任何带注释的标注语料,以及评估句子的准确性。

2、为了实现上述目的,第一方面,本发明实施例提供了一种无监督语法纠错方法,包括:

3、对样本语料库中与词性标签相关的词汇进行排序,排除语法要求不相容的词性,得到低资源语言语法错误相对应的词性混淆集,利用低资源语言语法规则对所述词性混淆集进行审查,以构建低资源语言评估语料库;

4、根据所述词性混淆集,建立所述低资源语言评估语料库的目标句子中特定词语的派生句子数据流;

5、依据融合困惑度,采用预先训练好的语言模型对所述特定词语的派生句子进行困惑度评估,得到所述派生句子的困惑度得分;所述融合困惑度包括一阶困惑度和二阶困惑度;

6、基于所述困惑度得分,识别与纠正所述目标句子中的语法错误,生成正确的目标句子,以更新所述低资源语言评估语料库。

7、作为上述方案的改进,所述根据所述词性混淆集,建立所述低资源语言评估语料库的目标句子中特定词语的派生句子数据流,具体包括:

8、根据所述词性混淆集,判断所述低资源语言评估语料库的目标句子中特定词语是否为所述词性混淆集的词语;

9、若是,则将对应的词性标记分配给所述特定词语,将所述词性标记对应的词性混淆集的每一个混淆词语代替所述特定词语生成所述目标句子的派生句子,得到所述特定词语的派生句子数据流;

10、其中,所述词性标记与所述词性混淆集一一对应。

11、作为上述方案的改进,所述依据融合困惑度,采用预先训练好的语言模型对所述特定词语的派生句子进行困惑度评估,得到所述派生句子的困惑度得分;所述融合困惑度包括一阶困惑度和二阶困惑度,具体包括:

12、通过对所述特定词语的派生句子进行单一词语掩码操作,采用预先训练好的语言模型,根据所述派生句子中剩余词语的概率分布计算得到所述派生句子的一阶困惑度;

13、通过对所述派生句子中两个连续的词语进行掩码操作,采用所述预先训练好的语言模型,评估所述掩码操作后的派生句子的困惑度作为所述派生句子的二阶困惑度;

14、根据权重比例融合所述一阶困惑度和二阶困惑度,得到所述派生句子的困惑度得分;

15、其中,所述融合困惑度包括所述一阶困惑度和二阶困惑度。

16、作为上述方案的改进,所述通过对所述特定词语的派生句子进行单一词语掩码操作,采用预先训练好的语言模型,根据所述派生句子中剩余词语的概率分布计算得到所述派生句子的一阶困惑度,具体包括:

17、通过对所述特定词语的派生句子进行单一词语掩码操作,采用预先训练好的语言模型通过伪困惑度计算所述派生句子中剩余词语的条件对数概率并进行求和得到所述派生句子的一阶困惑度;

18、其中,所述一阶困惑度的数学表达式为:

19、

20、式中,pllfirst(x)为句子x的一阶困惑度;|x|为所述句子x的词语数量,|x|=n;pmlm(wt|xnt)为所述句子x中除了掩码词条wt以外的剩余词语的条件对数概率;wt为所述句子x中第t个词语,代表掩码词条;t为所述句子x的掩码词条wt对应的下标;xnt为所述句子x中除了掩码词条wt以外的剩余词语;其中,所述伪困惑度为所述条件对数概率用[mask]替换wt得到的mlm分数。

21、作为上述方案的改进,所述二阶困惑度的数学表达式为:

22、

23、

24、其中,pllsecond(x)为所述句子x的二阶困惑度;sor(·)是关于二阶困惑度的标记的mlm得分;xn{0,1}为所述句子x中除了所述掩码词条对应的下标为0和1以外的剩余词语;xn{t-1,t}为所述句子x中除了所述掩码词条对应的下标为t-1和t以外的剩余词语;xn{t,t+1}为所述句子x中除了所述掩码词条对应的下标为t和t+1以外的剩余词语;xn{|x|-1,|x|}为所述句子x中除了所述掩码词条对应的下标为|x|-1和|x|以外的剩余词语;w|x|为所述句子x中第|x|个词语,代表掩码词条;pmlm(wt|xn{0,1})为所述句子x中除了所述掩码词条对应的下标为0和1以外的剩余词语的条件对数概率;pmlm(wt|xn{t-1,t})为所述句子x中除了所述掩码词条对应的下标为t-1和t以外的剩余词语的条件对数概率;pmlm(wt|xn{t,t+1})为所述句子x中除了所述掩码词条对应的下标为t和t+1以外的剩余词语的条件对数概率;pmlm(w|x||xn{|x|-1,|x|})为所述句子x中除了所述掩码词条对应的下标为|x|-1和|x|以外的剩余词语的条件对数概率。

25、作为上述方案的改进,所述融合困惑度的数学表达式为:

26、pll(x)=αpllfirst(x)+(1-α)pllsecond(x),

27、其中,pll(x)为所述句子x的融合困惑度;α为一个可调整的权重系数,用于权衡两种困惑。

28、作为上述方案的改进,所述基于所述困惑度得分,识别与纠正所述目标句子中的语法错误,生成正确的目标句子,以更新所述低资源语言评估语料库,具体包括:

29、根据所述派生句子的困惑度得分对所述派生句子进行排序,得到困惑度得分最低的目标派生句子,匹配所述目标派生句子相应的混淆词;

30、若所述混淆词与所述目标句子中特定词语相同,则认为所述目标句子是正确的;

31、若所述混淆词与所述目标句子中特定词语不匹配,则所述混淆词替换所述特定词语,生成正确的目标句子,以更新所述低资源语言评估语料库。

32、第二方面,本发明实施例提供了一种无监督语法纠错装置,包括:

33、评估语料库构建模块,用于对样本语料库中与词性标签相关的词汇进行排序,排除语法要求不相容的词性,得到低资源语言语法错误相对应的词性混淆集,利用低资源语言语法规则对所述词性混淆集进行审查,以构建低资源语言评估语料库;

34、数据流构建模块,用于根据所述词性混淆集,建立所述低资源语言评估语料库的目标句子中特定词语的派生句子数据流;

35、句子复杂度评分模块,用于依据融合困惑度,采用预先训练好的语言模型对所述特定词语的派生句子进行困惑度评估,得到所述派生句子的困惑度得分;所述融合困惑度包括一阶困惑度和二阶困惑度;

36、错误检测和纠正模块,用于基于所述困惑度得分,识别与纠正所述目标句子中的语法错误,生成正确的目标句子,以更新所述低资源语言评估语料库。

37、第三方面,本发明实施例对应提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述无监督语法纠错方法。

38、此外,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述无监督语法纠错方法。

39、与现有技术相比,本发明实施例公开的一种无监督语法纠错方法、装置、终端及介质,通过对样本语料库中与词性标签相关的词汇进行排序,排除语法要求不相容的词性,得到低资源语言语法错误相对应的词性混淆集,利用低资源语言语法规则对所述词性混淆集进行审查,以构建低资源语言评估语料库;根据所述词性混淆集,建立所述低资源语言评估语料库的目标句子中特定词语的派生句子数据流;依据融合困惑度,采用预先训练好的语言模型对所述特定词语的派生句子进行困惑度评估,得到所述派生句子的困惑度得分;所述融合困惑度包括一阶困惑度和二阶困惑度;基于所述困惑度得分,识别与纠正所述目标句子中的语法错误,生成正确的目标句子,以更新所述低资源语言评估语料库。因此,本发明实施例能够基于bert的无监督gec,不依赖于任何带注释的数据,采用伪困惑度的评分方法来评价句子的正确性,并为低资源语言构建低资源语言评估语料库。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1