一种文本纠错方法、装置及终端与流程

文档序号:12063647阅读:来源:国知局

技术特征:

1.一种文本纠错方法,其特征在于,包括:

利用窗口对待纠错文本的词语进行至少一次选取,选取加入所述窗口内的词语形成词组;

通过移动所述窗口重新进行选取,直至利用所述窗口顺序遍历所述待纠错文本;

每次选取所述词组后,对所述窗口内的词组进行纠错。

2.根据权利要求1所述的文本纠错方法,其特征在于,利用窗口对待纠错文本中的词语进行至少一次选取包括:

从所述窗口的起始位置开始,依次从所述待纠错文本中选取待加入所述窗口的词语,以作为当前词语;

比较所述当前词语与所述窗口内已有的词组的长度之和与所述窗口的长度;

当所述当前词语与所述窗口内的词组的长度之和小于等于所述窗口的长度时,将所述当前词语更新至所述词组中,以完成单次选取。

3.根据权利要求2所述的文本纠错方法,其特征在于,通过移动所述窗口重新进行选取,直至利用所述窗口顺序遍历所述待纠错文本包括:

根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口。

4.根据权利要求3所述的文本纠错方法,其特征在于,根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口包括:

判断所述当前词语的类别是否为预设的第一类别;

若所述当前词语的类别为所述预设的第一类别,则比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;

当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

5.根据权利要求4所述的文本纠错方法,其特征在于,根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口还包括:

若所述当前词语为非第一类别,判断预设的纠错模式;

若所述纠错模式为精确纠错模式,则判断所述当前词语的长度;

当所述当前词语的长度为1时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

6.根据权利要求5所述的文本纠错方法,其特征在于,还包括:

若所述纠错模式为非精确纠错模式,则比较所述当前词语及所述窗口内的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

7.根据权利要求5所述的文本纠错方法,其特征在于,当所述当前词语的长度大于1时,还包括:

判断所述窗口内已有的词组中是否包含第一类别的词语;

若包含第一类别的词语,则所述比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口;

若不包含第一类别的词语,则移动所述窗口。

8.根据权利要求4至7任一项所述的文本纠错方法,其特征在于,所述预设的第一类别为拼音。

9.根据权利要求3所述的文本纠错方法,其特征在于,根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口包括:

判断所述当前词语的类别是否为预设的第二类别;

若所述当前词语的类别为非所述第二类别,则比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度,当所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

10.根据权利要求9所述的文本纠错方法,其特征在于,还包括:若所述当前词语的类别为预设的第二类别,则移动所述窗口。

11.根据权利要求9或10所述的文本纠错方法,其特征在于,所述第二类别为符号。

12.根据权利要求1所述的文本纠错方法,其特征在于,对所述窗口内的词组进行纠错包括:

对所述词组包含的词语进行词语纠错,以得到所述词语纠错的结果列表;

对所述窗口内的词组和所述结果列表进行拼音转换,以得到对应所述窗口内的词组拼音字符串和所述窗口内的词组与所述结果列表结合后的拼音字符串;

计算对应所述窗口内的词组的拼音字符串和各个所述窗口内的词组与所述结果列表结合后的拼音字符串之间的相似度,保留相似度数值大于阈值的所述词语纠错的结果;

对所述相似度数值大于阈值的所述词语纠错的结果进行筛选和/或排序。

13.根据权利要求12所述的文本纠错方法,其特征在于,对所述词组包含的词语进行词语纠错包括:将所述窗口内的词组作为一个词语进行所述词语纠错。

14.根据权利要求12所述的文本纠错方法,其特征在于,对所述相似度数值大于阈值的所述词语纠错的结果进行筛选包括:当预设的模式为精确纠错模式时,依据所述词组包含的词语的长度和词语纠错的结果的长度对所述词语纠错的结果进行筛选。

15.根据权利要求12所述的文本纠错方法,其特征在于,对所述相似度数值大于阈值的所述词语纠错的结果进行排序包括:按照所述待纠错文本的顺序进行所述排序。

16.根据权利要求1所述的文本纠错方法,其特征在于,移动所述窗口包括:

在所述待纠错文本中,将所述窗口向后移动一个词语,并清空所述窗口内已有的词组。

17.一种文本纠错装置,其特征在于,包括:

窗口选取单元,适于利用窗口对待纠错文本的词语进行至少一次选取,选取加入所述窗口内的词语形成词组;

窗口移动单元,适于通过移动所述窗口重新进行选取,直至利用所述窗口顺序遍历所述待纠错文本;

纠错单元,适于在每次选取所述词组后,对所述窗口内的词组进行纠错。

18.根据权利要求17所述的文本纠错装置,其特征在于,所述窗口选取单元包括:

当前词语选取单元,适于从所述窗口的起始位置开始,依次从所述待纠错文本中选取待加入所述窗口的词语,以作为当前词语;

第一长度比较单元,适于比较所述当前词语与所述窗口内已有的词组的长度之和与所述窗口的长度;

词组生成单元,适于在所述当前词语与所述窗口内的词组的长度之和小于等于所述窗口的长度时,将所述当前词语更新至所述词组中,以完成单次选取。

19.根据权利要求18所述的文本纠错装置,其特征在于,所述窗口移动单元适于根据所述当前词语的类别,和/或所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度的关系,确定是否移动所述窗口。

20.根据权利要求19所述的文本纠错装置,其特征在于,所述窗口移动单元包括:

第一类别判断单元,适于判断所述当前词语的类别是否为预设的第一类别;

第二长度比较单元,适于当所述当前词语的类别为所述预设的第一类别时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;

第一移动单元,适于当第二长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

21.根据权利要求20所述的文本纠错装置,其特征在于,所述窗口移动单元还包括:

纠错模式判断单元,适于当所述当前词语为非第一类别时,判断预设的纠错模式;

长度判断单元,适于当所述纠错模式为精确纠错模式时,判断所述当前词语的长度;

第三长度比较单元,适于所述当前词语的长度为1时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;

第二移动单元,适于所述当所述第三长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

22.根据权利要求21所述的文本纠错装置,其特征在于,所述窗口移动单元还包括:

第四长度比较单元,适于当所述纠错模式为非精确纠错模式,则比较所述当前词语及所述窗口内的词组的长度之和与所述窗口的长度;

第三移动单元,适于当所述第四长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

23.根据权利要求21所述的文本纠错装置,其特征在于,所述窗口移动单元还包括:

包含词语判断单元,适于当所述当前词语的长度大于1时,判断所述当前词语和/或所述窗口内已有的词组中是否包含第一类别的词语;

第五长度比较单元,适于当包含第一类别的词语时,所述比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;

第四移动单元,适于当所述第五长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口;

第五移动单元,适于当所述包含词语判断单元确定包含词语判断单元确定所述当前词语和/或所述窗口内已有的词组中不包含第一类别的词语时,移动所述窗口。

24.根据权利要求20至23任一项所述的文本纠错装置,其特征在于,所述预设的第一类别为拼音。

25.根据权利要求19所述的文本纠错装置,其特征在于,所述窗口移动单元包括:

第二类别判断单元,适于判断所述当前词语的类别是否为预设的第二类别;

第六长度比较单元,适于当所述当前词语的类别为非所述第二类别时,比较所述当前词语及所述窗口内已有的词组的长度之和与所述窗口的长度;

第六移动单元,适于当所述第六长度比较单元确定所述当前词语及所述窗口内已有的词组的长度之和大于所述窗口的长度时,移动所述窗口。

26.根据权利要求25所述的文本纠错装置,其特征在于,所述窗口移动单元还包括:第七移动单元,适于当所述第二类别判断单元确定所述当前词语的类别为预设的第二类别时,移动所述窗口。

27.根据权利要求25或26所述的文本纠错装置,其特征在于,所述第二类别为符号。

28.根据权利要求17所述的文本纠错装置,其特征在于,所述纠错单元包括:

词语纠错单元,适于对所述词组包含的词语进行词语纠错,以得到所述词语纠错的结果列表;

拼音转换单元,适于对所述窗口内的词组和所述结果列表进行拼音转换,以得到对应所述窗口内的词组拼音字符串和所述窗口内的词组与所述结果列表结合后的拼音字符串;

纠错结果生成单元,适于计算对应所述窗口内的词组的拼音字符串和各个所述窗口内的词组与所述结果列表结合后的拼音字符串之间的相似度,保留相似度数值大于阈值的所述词语纠错的结果;

筛选排序单元,适于对所述相似度数值大于阈值的所述词语纠错的结果进行筛选和/或排序。

29.根据权利要求28所述的文本纠错装置,其特征在于,所述词语纠错单元还适于:将所述窗口内的词组作为一个词语进行所述词语纠错。

30.根据权利要求28所述的文本纠错装置,其特征在于,所述筛选排序单元适于在预设的模式为精确纠错模式时,依据所述词组包含的词语的长度和词语纠错的结果的长度对所述词语纠错的结果进行筛选。

31.根据权利要求28所述的文本纠错装置,其特征在于,所述筛选排序单元适于按照所述待纠错文本的顺序进行所述排序。

32.根据权利要求17所述的文本纠错装置,其特征在于,所述窗口移动单元适于在所述待纠错文本中,将所述窗口向后移动一个词语,并清空所述窗口内已有的词组。

33.一种终端,其特征在于,配置有权利要求17至32任一项所述的文本纠错装置。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1