一种基于汉字混淆集的错字词知识生成方法

文档序号:9810507阅读:1547来源:国知局
一种基于汉字混淆集的错字词知识生成方法
【技术领域】
[0001] 本发明涉及人工智能计算机领域中的自然语言处理,特别涉及中文文本自动校对 领域,具体涉及一种基于汉字混淆集的错字词知识生成方法。
【背景技术】
[0002] 随着信息处理技术和互联网的高速发展,传统的文本工作几乎全部被计算机所取 代,电子书、电子报纸、电子邮件、办公文件等文本电子出版物不断涌现,文本中的错误也越 来越多。目前大多采用人工校对的方法,校对工作单调,劳动强度大,效率低,人工校对的方 式已经无法满足文本校对的需求,因此研究自动文本校对对于理论和应用都具有很深远的 意义。
[0003] 实现中文文本自动校对,需要大量的知识与资源,其中错字词知识是一种非常重 要的知识,能有效的发现中文文本的错误,并且对其进行校对。人工收集文本中的错字词知 识是一种非常繁重的工作,因此需要自动构建错字词知识。

【发明内容】

[0004] 发明目的:为了克服现有技术中存在的不足,本发明中将错字词知识定义为错字 词与其对应的正确词关联所形成的二元组,提供一种基于汉字混淆集的错字词知识生成方 法,达到提高中文文本自动校对的纠错质量和纠错速度的效果。
[0005] 技术方案:为实现上述目的,本发明的基于汉字混淆集的错字词知识生成方法,包 括以下步骤:
[0006] (1)以汉语词典中某一多字词为正确词,根据汉字混淆集获取所述正确词的所有 混淆词,所述混淆词的集合为混淆词集合;
[0007] (2)根据所述汉语词典和语料库对所述混淆词集合进行剪枝得到初步过滤的混淆 词集合;
[0008] (3)根据语料库对所述初步过滤的混淆词集合中的混淆词进行分词得到分词项, 并根据分词项利用预先设定的错词判断规则判断混淆词是否为错词,若为错词则保留,并 和所述正确词进行关联形成二元组;
[0009] 将所述汉语词典中的每个词语均按照步骤(1)至(3)中的操作关联每个词语与其 混淆词,最终形成错字词知识。
[0010]其中,所述正确词包含若干个汉字,步骤(1)中根据汉字混淆集获取所述正确词的 所有混淆词包括以下步骤:
[0011] 依次取所述正确词中的一个汉字,从所述汉字混淆集中找出该汉字的混淆集合, 依次取所述混淆集合中的一个汉字与该汉字进行替换得到混淆词;
[0012] 遍历所述正确词中的汉字,并遍历每个汉字的混淆集合便得到所述正确词的所有 混淆词。
[0013] 其中,步骤(2)中根据语料库对所述混淆词集合进行剪枝,包括以下步骤:
[0014] 1)若某一混淆词为所述汉语词典中的词,则对该混淆词进行剪枝;
[0015] 2)若该混淆词在语料统计中出现的频次大于所述正确词在语料统计中出现的频 次,则对该混淆词进行剪枝;
[0016] 所述剪枝是指从所述混淆词集合中去除该混淆词。
[0017] 其中,步骤(3)中所述预先设定的混淆词过滤规则与分词项的长度相关,具体如 下:
[0018] 若分词项长度为2,则所述剪枝后的混淆词集合中的某一混淆词W。被分为所述汉 语词典中的两个词Wi,W2,则所述错词判断规则为:
[0019] 若两个词1,W2在所述语料统计中共同出现的频次Freq^Ws) = 0,则认为该混淆 词W。是错字词;
[0020] 若两个词Wi,W2在所述语料统计中共同出现的频次FreqWiWd >0,则认为该混淆 词W。不是错字词,对该混淆词W。进行剪枝。
[0021] 进一步地,若分词项长度为3,则所述剪枝后的混淆词集合中的某一混淆词W。被分 为所述汉语词典中的三个词Wi,W2,W 3,则所述错词判断规则为:
[0022] 若三个词Wi,W2,W3在所述语料统计中共同出现的频次Freq^W.) >0,则认为该 混淆词W。不是错字词,对该混淆词W。进行剪枝;
[0023] 若三个词Wi,W2,W3在所述语料统计中共同出现的频次FreqWiWWs) =0,但是词, W2在所述语料统计中共同出现的频次Freq(W1W2)>a或者词W 2,W3在所述语料统计中共同出 现的频次Freq( W2W3) >a,则认为该混淆词W。不是错字词,对该混淆词W。进行剪枝;
[0024] 若三个词Wi,W2,W3在所述语料统计中共同出现的频次FreqWiWWs) = 0,但是词, W2在所述语料统计中共同出现的频次FreqWiWdX)并且词W2,W3在所述语料统计中共同出 现的频次Freq(W2W3) >0,则认为该混淆词W。不是错字词,对该混淆词W。进行剪枝;
[0025] 否则,认为该混淆词W。是错字词;其中a是预先设定的阈值。
[0026] 进一步地,若分词项长度为4,则所述剪枝后的混淆词集合中的某一混淆词W。被分 为所述汉语词典中的四个词Wi,W2,W 3,W4,则所述错词判断规则为:
[0027] 若词W!,W2,W3在所述语料统计中共同出现的频次Freq(WL) >0,且若词W2,W3,W4 在所述语料统计中共同出现的频次Freq(W2W3W4) >0,则认为该混淆词Wc不是错字词,对该 混淆词W。进行剪枝;
[0028] 若词UlWs在所述语料统计中共同出现的频次FreqWiWWdX),且词W3,W4在所 述语料统计中共同出现的频次Freq(W3W4)>a,则认为该混淆词Wc不是错字词,对该混淆词 W。进行剪枝;
[0029] 若词W2,W3,W4在所述语料统计中共同出现的频次Freq(W 2W3W4)>0,且词U2在所 述语料统计中共同出现的频次Freq(W1W2)>a,则认为该混淆词Wc不是错字词,对该混淆词 W。进行剪枝;
[0030] 若词Wi,W2在所述语料统计中共同出现的频次FreqWiW〗)>a,且词W 2,W3在所述语 料统计中共同出现的频次Freq(W2W3)>a,且词W 3,W4在所述语料统计中共同出现的频次 Freq(W3W4) >a,则认为该混淆词W。不是错字词,对该混淆词W。进行剪枝;
[0031] 否则,认为该混淆词Wc是错字词。
[0032] 进一步地,若分词项长度大于4,则所述剪枝后的混淆词集合中的某一混淆词Wc被 分为k个所述汉语词典中的词,则所述错词判断规则为:
[0033]若所有相邻的两个词在所述语料中的共同出现的频次都大于0,则认为该混淆词 W。不是错字词,对该混淆词W。进行剪枝;
[0034] 否则,认为该混淆词W。是错字词。
[0035]有益效果:本发明方法首先利用汉语词典和汉字混淆集生成混淆词集合,再利用 语料对混淆词集合进行剪枝,完成初步过滤,然后对剪枝后的混淆词集合中的混淆词进行 分词,根据预先设置的错字词判断规则利用统计知识对混淆词进行验证,最终所生成错字 词知识,既保证了错字词的全面性,同时考虑语料中该词存在的概率对混淆词进行第二次 剪枝处理,避免将部分本来合理存在的字词误判为错字词,保证了错字词判断的精确性。实 验表明,基于本发明方法所生产的错字词知识对汉语文本进行校对,召回率达到86.2%,精 度达到70.6 %,具有较高的有效性和准确性。
【附图说明】
[0036]图1错字词构造流程图;
[0037]图2混淆词构造示例;
[0038]图3错字词判断流程图。
【具体实施方式】
[0039]下面结合附图对本发明作更进一步的说明。
[0040] 如图1所示,本发明提出的一种基于汉字混淆集的错字词知识生成方法是基于汉 字混淆集和汉语词典生成混淆词集合,对生成的混淆词进行过滤和剪枝,最后利用统计知 识及规则对混淆词进行验证,从而生成错字词知识。该方法包括以下步骤:
[0041] 步骤1:利用汉语词典和汉字混淆集生成混淆词集合,混淆词集合是混淆词组成的 集合。
[0042] 汉字混淆集是指,对于一个汉字来说,与该汉字读音相似或形相似的汉字组成的 集合,本实施例中采用的汉字混淆集是采用文献《汉字种子混淆集的构建方法研究》(计算 机科学,2014,第8期(08) :229-232)中所介绍的构建方法生成的。由于一个多字词包含多个 汉字,因此利用每个汉字的混淆集中的汉字替换,生成混淆词,。根据统计,中文词发生错 误,一般都是词中的一个汉字发生错误,因此本实施在生成混淆词的汉字替换时,每次只替 换词中的一个汉字。
[0043]混淆词集合的构建过程,的具体步骤如下:
[0044] 步骤1.1读入汉语词典,依次取出词典中的多字词W(W的长度大于等于2),假设W = Cl · .Ci. · .Cn,其中Ci是汉字,n> = 2;
[0045] 步骤1.2读入汉字混淆集,取出W中的每个汉字Ci的汉字混淆集CSetKdzlCi1, Ci2,. . .cj},用Ci的汉字混淆集中的每个混淆汉字CV(1〈 = j〈 = k)替换Ci,得到W的混淆词 t = , .C/,, χγ。图2是混淆词构造示例,其中汉字"点"的混淆集CSet(点)={店,电, 怎};汉字"播"的混淆集CSet(播)={:拨,波,博,搏,番,潘},对词"点播"中的汉字进行替换 构造混淆词集合为CSet(点播)={店播,电播,怎播,点拨,点波,点搏,点番,点潘}。
[0046] 步骤2:根据汉语词典和语料库对上述混淆词集合进行剪枝得到初步过滤的混淆 词集合。
[0047] 通过汉语词典和汉字混淆集会生成大量的混淆词集合,而集合中有些混淆词显然 是不合理的错字词(例如:上例中的词串"点拨"是一个合理的表达),在实际的文本校对应 用中会导致误判,因此需要对生成的混淆词集合进行剪枝,过滤一些不合理的混淆词。
[0048] 步骤2.1如果替换后的混淆词Wc是汉语词典中的词,则对该混淆词Wc进行剪枝; [0049] 步骤2 · 2如果Freq(W。)> =Freq(W),则对该混淆词W。进行剪枝,其中Freq(X):表示 词串X在语料统计中出现的频次;
[0050]步骤3:根据语料库对经过初步过滤的混淆词集合中的混淆词进行分词得到分词 项,并根据分词项利用预先设定的错词判断规则判断混淆词是否为错词,若为错词则保留, 并和所述正确词进行关联形成二元组。
[0051 ] 对生成的混淆词进行正向最大匹配分词,然后利用统计知识对混淆词进行验证, 生成错字词知识。
[0052] 错字词知识是错字词与其对应的正确词组成的二元组,其具有以下结构:
[0053] (ff,ffe);
[0054] 其中We表示错字词,W表示We对应的正确的词。
[0055] 步骤3.1对步骤2中过滤后的混淆词% = CV.XY...Ca进行正向最大匹配分词;
[0056] 步骤3.2根据对混淆词W。分词结果中分词项的长度,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1