本技术涉及文本校对,尤其涉及一种基于文本输入习惯的词库更新方法及系统。
背景技术:
1、文本是信息流通的一种重要方式。文字工作者在输入文本时,可能由于输入者自身精力不集中、日常用字不规范等情况,导致稿件存在词汇上的错误选用。在弱互联网环境下,文字工作者在写完一篇稿件后,通常需要通过文字校对软件标记出文章中的错误,之后由文字工作者针对标记出的错误进行改正,再由专家审阅后才能进行公开发布。
2、在实现现有技术的过程中,发明人发现:
3、现有的文字校对系统都是基于大规模词库,通过将语句与词库中的词汇进行匹配来发现错误,若词库不及时更新将会影响校对效果。文字校对作为单位里的通用服务,无论通过安装第三方词库,还是派专人整理适用于本单位的专用词库,都无法从源头上提高输入的准确度。
4、因此,需要提供一种新的基于文本输入习惯的词库更新方案,用以解决由文本输入习惯导致文本输入准确度较低的技术问题。
技术实现思路
1、本技术实施例提供一种新的基于文本输入习惯的词库更新方案,用以解决由文本输入习惯导致文本输入准确度较低的技术问题。
2、具体的,一种基于文本输入习惯的词库更新方法,包括以下步骤:
3、获取待校对文本;
4、识别待校对文本中的错误文本;
5、获取校正文本;
6、识别校正文本中对应错误文本的改正文本;
7、根据改正文本,确定错误文本的错误原因;
8、建立错误文本、改正文本与错误原因的关联关系;
9、根据错误原因,将错误文本、对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库。
10、进一步的,所述错误原因至少包括音相似、形相似、错位、多字、漏字、重复字、语法语义、繁体字、异形词、敏感词中至少一种;
11、所述根据错误原因,将错误文本、对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库,具体包括:
12、当错误原因为音相似或多字,则将错误原因为音相似或多字对应的错误文本、对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库;
13、当错误原因为形相似、错位、多字、漏字、重复字、语法语义、繁体字、异形词、敏感词中至少一种,则将错误原因为形相似、错位、多字、漏字、重复字、语法语义、繁体字、异形词、敏感词中至少一种对应的错误文本、对应错误文本的改正文本作为输入习惯错误词典,传输至校对系统词库。
14、进一步的,所述校正文本记录校正用户id,所述输入法词库与校正用户id具有关联关系,所述校对系统词库与校正用户id具有关联关系;
15、所述根据错误原因,将错误文本、对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库,具体包括:
16、获取校正文本记录的校正用户id;
17、当错误原因为音相似或多字,根据校正用户id,确定对应校正用户id的输入法词库;
18、通过对应校正用户id的输入法词库提供的上传接口,将错误原因为音相似或多字对应的错误文本、对应错误文本的改正文本作为输入习惯错误词典,传输至对应校正用户id的输入法词库;
19、当错误原因为形相似、错位、多字、漏字、重复字、语法语义、繁体字、异形词、敏感词中至少一种,根据校正用户id,确定对应校正用户id的校对系统词库;
20、通过对应校正用户id的校对系统词库提供的上传接口,将错误原因为形相似、错位、多字、漏字、重复字、语法语义、繁体字、异形词、敏感词中至少一种对应的错误文本、对应错误文本的改正文本作为输入习惯错误词典,传输至对应校正用户id的校对系统词库。
21、进一步的,所述错误文本包括疑错文本或确错文本;
22、所述方法还包括:
23、当改正文本与疑错文本相同,记录改正文本与疑错文本相同的次数;
24、当改正文本与疑错文本相同的次数超过预设排查阈值,则将疑错文本加入至白名单;
25、当改正文本与疑错文本不同,标记所述疑错文本为确错文本;
26、根据改正文本,确定确错文本的错误原因;
27、建立确错文本、改正文本与错误原因的关联关系;
28、根据错误原因,将确错文本、对应确错文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库。
29、进一步的,所述根据改正文本,确定错误文本的错误原因,具体包括:
30、确定错误文本对应的拼音序列、校正文本对应的拼音序列;
31、当错误文本对应的拼音序列与校正文本对应的拼音序列的相似度超过第一预设相似度阈值,确定错误文本的错误原因为音相似。
32、进一步的,所述根据改正文本,确定错误文本的错误原因,具体包括:
33、确定错误文本对应的字根序列、校正文本对应的字根序列;
34、当错误文本对应的字根序列与校正文本对应的字根序列的相似度超过第二预设相似度阈值,确定错误文本的错误原因为形相似。
35、进一步的,所述根据改正文本,确定错误文本的错误原因,具体包括:
36、确定错误文本对应的文本序列、校正文本对应的文本序列;
37、当错误文本对应的文本序列与校正文本对应的文本序列存在实体文本的不同排列,确定错误文本的错误原因为错位。
38、进一步的,所述根据改正文本,确定错误文本的错误原因,具体包括:
39、确定错误文本对应的文本字数、校正文本对应的文本字数;
40、当错误文本对应的文本字数大于校正文本对应的文本字数,确定错误文本的错误原因为多字或重复字;
41、当错误文本对应的文本字数小于校正文本对应的文本字数,确定错误文本的错误原因为漏字。
42、进一步的,所述根据改正文本,确定错误文本的错误原因,具体包括:
43、当改正文本包括预设实体文本,则确定错误文本的错误原因为敏感词。
44、本技术实施例还提供一种基于文本输入习惯的词库更新系统。
45、具体的,一种基于文本输入习惯的词库更新系统,包括:
46、输入模块,用于获取待校对文本;
47、校对模块,用于识别待校对文本中的错误文本;
48、分发模块,用于获取校正文本;还用于识别校正文本中对应错误文本的改正文本;还用于根据改正文本,确定错误文本的错误原因;还用于建立错误文本、改正文本与错误原因的关联关系;还用于根据错误原因,将错误文本、对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库。
49、本技术实施例提供的技术方案,至少具有如下有益效果:
50、通过将输入习惯错误词典传输至输入法词库,以纠正拼音和提升候选词排名的方式减少误输入,从而在输入源头上就提高输入的准确度。通过将输入习惯错误词典传输至文字校对词库,可以实现文字校对词库的自学习,提高校对系统的准确性和专业性。