语句纠错的方法及装置、电子设备、存储介质与流程

文档序号:34942597发布日期:2023-07-28 18:05阅读:18来源:国知局
语句纠错的方法及装置、电子设备、存储介质与流程

本技术涉及文本处理,例如涉及一种语句纠错的方法及装置、电子设备、存储介质。


背景技术:

1、目前生活、工作中,各行各业都涉及到语句处理,由于语句中的字音字形语法顺序等都较为复杂,所以各类语句常常存在错误的情况,对语句进行纠错有非常大的需求量。现有技术在进行语句纠错时,获取多个备选纠正语句,然后提取备选纠正语句的特征,并根据备选纠正语句的特征确定最终的纠正语句。

2、现有技术中在提取备选纠正语句的特征时,通常仅考虑备选纠正语句中两个词共现的条件概率、备选纠正语句中的词语在语料库中出现的次数等,这种方式仅考虑了备选纠正语句本身的特征,从而导致对语句进行纠错的效果不佳。


技术实现思路

1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。

2、本公开实施例提供了一种语句纠错的方法及装置、电子设备、存储介质,以提高语句纠错的效果。

3、在一些实施例中,语句纠错的方法,包括:对待纠错语句进行词块替换处理,获得至少一个生成语句;将每个所述生成语句分别与所述待纠错语句进行组合,构成与所述至少一个生成语句一一对应的至少一个句对;对每个所述句对进行特征提取处理,得到每个所述句对的句对特征;根据每个所述句对的句对特征对每个所述生成语句进行评分,获得每个所述生成语句的分数;根据所述分数对所述待纠错语句进行纠错,获得纠错后的语句。

4、在一些实施例中,对待纠错语句进行词块替换处理,获得至少一个生成语句,包括:获取第一备选词块,所述第一备选词块由所述待纠错语句中若干个连续字符拼接而成;利用预设的混淆字符集中的混淆字符对第一备选词块中的至少一个字符进行替换,获得至少一个第二备选词块;若预设的词块表中不包含所述第一备选词块,则利用所述混淆字符集中的混淆字符对所述待纠错语句中的第一字符进行替换,获得所述待纠错语句的生成语句,其中,所述第一字符为所述第一备选词块中的任一字符;若所述预设的词块表中包含所述第二备选词块,则将所述待纠错语句中的第一备选词块替换为所述第二备选词块,获得所述待纠错语句的生成语句。

5、在一些实施例中,对每个所述句对进行特征提取处理,得到每个所述句对的句对特征,包括:针对每个所述句对执行以下处理:提取所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种;将所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种确定为所述句对的句对特征。

6、在一些实施例中,提取所述句对的分数特征,包括:获取所述句对中的待纠错语句中进行词块替换处理的字符位置的第一字符概率;获取所述句对中的生成语句中被词块替换处理后的字符位置的第二字符概率;计算所述第二字符概率和所述第一字符概率之间的第一差值;将所述第一字符概率、所述第二字符概率和所述第一差值确定为所述句对的分数特征。

7、在一些实施例中,提取所述句对的编辑距离特征,包括:计算所述句对中的生成语句与待纠错语句之间的汉字编辑距离;将所述句对中的生成语句及待纠错语句转换为拼音序列,并基于转换后的拼音序列分别计算所述句对中的生成语句与待纠错语句之间的拼音编辑距离;将所述句对对应的汉字编辑距离和拼音编辑距离确定为所述句对的编辑距离特征。

8、在一些实施例中,提取所述句对的困惑度分数特征,包括:获取所述句对中待纠错语句的第一困惑度分数;获取所述句对中生成语句的第二困惑度分数;获取所述句对中第二困惑度分数和第一困惑度分数之间的第二差值;将所述句对对应的第一困惑度分数、第二困惑度分数和第二差值确定为所述句对的困惑度分数特征。

9、在一些实施例中,获取所述句对的词块数量差特征,包括:获取所述句对中待纠错语句的第一词块数量;获取所述句对中生成语句的第二词块数量;获取所述句对中第二词块数量和第一词块数量之间的第三差值;将所述句对对应的第三差值确定为所述句对的词块数量差特征。

10、在一些实施例中,根据每个所述句对的句对特征对每个所述生成语句进行评分,获得每个所述生成语句的分数,包括:获取所述句对特征的权重向量;并针对每个所述句对执行以下处理:根据所述句对的句对特征和权重向量对所述句对中的生成语句进行评分,获得所述句对中的生成语句的分数。

11、在一些实施例中,根据所述分数对所述待纠错语句进行纠错,获得纠错后的语句,包括:选取最高的分数对应的生成语句作为备选语句;将所述备选语句确定为所述待纠错语句对应纠错后的语句。

12、在一些实施例中,所述语句纠错的装置,包括:替换模块,被配置为对待纠错语句进行词块替换处理,获得至少一个生成语句;句对生成模块,被配置为将每个所述生成语句分别与所述待纠错语句进行组合,构成与所述至少一个生成语句一一对应的至少一个句对;特征提取模块,被配置为对每个所述句对进行特征提取处理,得到每个所述句对的句对特征;评分模块,被配置为根据每个所述句对的句对特征对每个所述生成语句进行评分,获得每个所述生成语句的分数;纠错模块,被配置为根据所述分数对所述待纠错语句进行纠错,获得纠错后的语句。

13、在一些实施例中,替换模块通过以下方式对待纠错语句进行词块替换处理获得至少一个生成语句:获取第一备选词块,所述第一备选词块由所述待纠错语句中若干个连续字符拼接而成;利用预设的混淆字符集中的混淆字符对第一备选词块中的至少一个字符进行替换,获得至少一个第二备选词块;若预设的词块表中不包含所述第一备选词块,则利用所述混淆字符集中的混淆字符对所述待纠错语句中的第一字符进行替换,获得所述待纠错语句的生成语句,其中,所述第一字符为所述第一备选词块中的任一字符;若所述预设的词块表中包含所述第二备选词块,则将所述待纠错语句中的第一备选词块替换为所述第二备选词块,获得所述待纠错语句的生成语句。

14、在一些实施例中,特征提取模块通过以下方式对每个所述句对进行特征提取处理得到每个所述句对的句对特征:针对每个所述句对执行以下处理:提取所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种;将所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种确定为所述句对的句对特征。

15、在一些实施例中,特征提取模块通过以下方式提取所述句对的分数特征:获取所述句对中的待纠错语句中进行词块替换处理的字符位置的第一字符概率;获取所述句对中的生成语句中被词块替换处理后的字符位置的第二字符概率;计算所述第二字符概率和所述第一字符概率之间的第一差值;将所述第一字符概率、所述第二字符概率和所述第一差值确定为所述句对的分数特征。

16、在一些实施例中,特征提取模块通过以下方式提取所述句对的编辑距离特征:计算所述句对中的生成语句与待纠错语句之间的汉字编辑距离;将所述句对中的生成语句及待纠错语句转换为拼音序列,并基于转换后的拼音序列分别计算所述句对中的生成语句与待纠错语句之间的拼音编辑距离;将所述句对对应的汉字编辑距离和拼音编辑距离确定为所述句对的编辑距离特征。

17、在一些实施例中,特征提取模块通过以下方式提取所述句对的困惑度分数特征:获取所述句对中待纠错语句的第一困惑度分数;获取所述句对中生成语句的第二困惑度分数;获取所述句对中第二困惑度分数和第一困惑度分数之间的第二差值;将所述句对对应的第一困惑度分数、第二困惑度分数和第二差值确定为所述句对的困惑度分数特征。

18、在一些实施例中,特征提取模块通过以下方式获取所述句对的词块数量差特征:获取所述句对中待纠错语句的第一词块数量;获取所述句对中生成语句的第二词块数量;获取所述句对中第二词块数量和第一词块数量之间的第三差值;将所述句对对应的第三差值确定为所述句对的词块数量差特征。

19、在一些实施例中,评分模块通过以下方式根据每个所述句对的句对特征对每个所述生成语句进行评分获得每个所述生成语句的分数:获取所述句对特征的权重向量;并针对每个所述句对执行以下处理:根据所述句对的句对特征和权重向量对所述句对中的生成语句进行评分,获得所述句对中的生成语句的分数。

20、在一些实施例中,纠错模块通过以下方式根据所述分数对所述待纠错语句进行纠错获得纠错后的语句:选取最高的分数对应的生成语句作为备选语句;将所述备选语句确定为所述待纠错语句对应纠错后的语句。

21、在一些实施例中,电子设备包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的语句纠错的方法。

22、在一些实施例中,存储介质,存储有程序指令,所述程序指令在运行时,执行上述的语句纠错的方法。

23、本公开实施例提供的语句纠错的方法及装置、电子设备、存储介质,可以实现以下技术效果:

24、通过将待纠错语句与进行词块替换处理后的纠错语句组成句对,能够对同一句子进行多次词块替换处理,在对同一句子进行多次词块替换处理的情况下,会生成多个句对,再利用句对的句对特征对生成的纠错语句进行评分,从而能够根据不同的纠错要求实现根据不同的分数选择不同的纠错语句。这种纠错方式得到的纠错语句考虑了生成的纠错语句和原句的关系,能够基于生成的纠错语句和原句的关系在生成语句中确定出最终的纠错语句,从而提高了对语句进行纠错的效果。

25、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1