一种基于汉字混淆集的错字词知识生成方法_2

文档序号：9810507阅读：来源：国知局

对混淆词W。进行统计验证，过滤不合理的混淆词，从而生成错字词知识；
[0057] 对Wc分词后，会出现以下几种情况：
[0058] 情形1: Wc分词后，得到的分词项长度为2，即：Wc = ，其中I，12是汉语词典中的词，例如:W= "点播"，1= "点拨"，Wl= "点"，W2= "拨"，做如下判断：
[0059] 1-1)如果FreqWiW〗）=0，则W。认为是一个错字词，则W是其对应可能正确的词，则形成二元组(W，Wc)，加入到错字词知识库中；
[0060] 1-2)如果Freq(WiW2) >0，贝ljwc是合理的中文词，不是错字词，对Wc进行剪枝；
[0061 ] 情形2 :WC分词后，得到的分词项长度为3，即：Wc^W.Ws，其中W!，W2，W3是汉语词典中的词，例如:W= "万花筒"，Wc= "万花同"，W1= "万"，W2= "花"，W3= "同"，做如下判断：
[0062] 2-1)如果FreqWD >0，贝IJWC是合理的中文词，不是错字词，对Wc进行剪枝；
[0063] 2-2)如果Freq (W1W2W3) = 0，但是Freq (W1W2) > a或者Freq (W2W3) >a，则Wc是合理的中文串，对W。进行剪枝。
[0064] 2-3)如果 Freq(WiW2W3)=0,但是 Freq(WiW2)>0 并且 Freq(W2W3)>0,则 Wc 是合理的中文串，对W。进行剪枝。
[0065] 2-4)否则，形成二元组(W，W。），加入到错字词知识库中；
[0066] 情形3:W。分词后，得到的分词项长度为4，即:Wc^W.Wi，其中I，W2，W3，W4是汉语词典中的词，例如:W= "爱屋及乌"，Wc= "爱屋及鸟"，W1= "爱"，W2= "无"，W3= "及"，W4 = "鸟"，做如下判断：
[0067] 3-1)如果Freq(WL) >0，并且Freq(W2W3W4) >0，则认为是合理的中文串，对其进行剪枝；
[0068] 3-2)如果Freq^W^JX)并且Freq(W3W4)>a，则认为W c是合理的中文串，对其进行剪枝。
[0069] 3-3)如果Freq(W2W3W4)>0并且FreqWUSa，则认为W c是合理的中文串，对其进行剪枝。
[0070] 3-4)如果 Freq(WiW2)>a&&Freq(W2W3)>a&&Freq(W3W4)>a，则认为是合理的中文串，对其进行剪枝。
[0071] 3-5)否则，形成二元组(W，W。），加入到错字词知识库中；
[0072] 上述a是预先设定的阈值，在本实施例中a = 5。
[0073] 情形4:WC分词后，得到的分词项长度大于4,即：1?>4，1 = 112. . .Wk其中Wi， W2, . . .，Wk是汉语词典中的词，例如:W= "防患于未然"，Wc；= "防患于末然"，Wi= "防"，W2 = "患"，W3= "于"，W4= "末"，W4= "然"，做如下判断：
[0074] 4-1)如果所有相邻的两个词的共现都大于0,即：FreqWWdX^&Freq^Ws)〉 . .&&Freq(Wk-iWk)>0,则认为Wc是以合理的中文串，对其进行剪枝。
[0075] 4-2)否则，否则，形成二元组(W，W。），加入到错字词知识库中。
[0076]本实施例中上述汉语词典的大小是50493,利用本发明提供的基于汉字混淆集的错字词知识生成方法获得151317对错字词知识。为了验证生成的错字词知识的在汉语错别字识别中的有效性，本实施例采用2万行句子的问答系统日志语料，人工对语料中的汉字多字词中的别字错误进行标注，共1312处;利用本案生成的错字词知识建立一自动识别错别字识别实验系统，系统利用简单的错字词匹配算法，如果分词后的句子中出现错字词知识库中的错字词，则认为是一个错别字，其错字词知识中对应的正确的词即为其修改意见。实验系统自动校对的方法召回率达到86.2%，精度达到70.6%。实验表明本案生成的错字词知识能用于汉语文本自动校对中，达到了实际应用的需求，具有较高的有效性和准确性。
[0077] 在没有特别声明的情况下，本发明中汉语词典中的词包括:单字词和多字词，单字词是指该词中包括一个汉字，多字词是指该词中包括至少两个汉字。
[0078] 以上实施列仅是本发明的较佳实施例，对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的任何修改、等同替换、改进等，均落在本发明的保护范围内。
【主权项】
1. 一种基于汉字混淆集的错字词知识生成方法，其特征在于，包括以下步骤： (1) 以汉语词典中某一多字词为正确词，根据汉字混淆集获取所述正确词的所有混淆词，所述混淆词的集合为混淆词集合； (2) 根据所述汉语词典和语料库对所述混淆词集合进行剪枝得到初步过滤的混淆词集合； (3) 根据语料库对所述初步过滤的混淆词集合中的混淆词进行分词得到分词项，并根据分词项利用预先设定的错词判断规则判断混淆词是否为错词，若为错词则保留，并和所述正确词进行关联形成二元组；将所述汉语词典中的每个词语均按照步骤（1)至(3)中的操作关联每个词语与其混淆词，最终形成错字词知识。2. 根据权利要求1所述的基于汉字混淆集的错字词知识生成方法，其特征在于，所述正确词包含若干个汉字，步骤（1)中根据汉字混淆集获取所述正确词的所有混淆词包括以下步骤：依次取所述正确词中的一个汉字，从所述汉字混淆集中找出该汉字的混淆集合，依次取所述混淆集合中的一个汉字与该汉字进行替换得到混淆词；遍历所述正确词中的汉字，并遍历每个汉字的混淆集合便得到所述正确词的所有混淆3. 根据权利要求1所述的基于汉字混淆集的错字词知识生成方法，其特征在于，步骤 (2) 中根据语料库对所述混淆词集合进行剪枝，包括以下步骤： 1) 若某一混淆词为所述汉语词典中的词，则对该混淆词进行剪枝； 2) 若该混淆词在语料统计中出现的频次大于所述正确词在语料统计中出现的频次，则对该混淆词进行剪枝；所述剪枝是指从所述混淆词集合中去除该混淆词。4. 根据权利要求1所述的基于汉字混淆集的错字词知识生成方法，其特征在于，步骤 (3) 中所述预先设定的混淆词过滤规则与分词项的长度相关，具体如下：若分词项长度为2，则所述剪枝后的混淆词集合中的某一混淆词W。被分为所述汉语词典中的两个词Wi，W2，则所述错词判断规则为：若两个词1，W2在所述语料统计中共同出现的频次FreqWU =0，则认为该混淆词Wc是错字词；若两个词I，W2在所述语料统计中共同出现的频次FreqWU >0，则认为该混淆词Wc不是错字词，对该混淆词W。进行剪枝。5. 根据权利要求4所述的基于汉字混淆集的错字词知识生成方法，其特征在于，若分词项长度为3,则所述剪枝后的混淆词集合中的某一混淆词W c被分为所述汉语词典中的三个词I，W2，W3，则所述错词判断规则为：若三个词Wi，W2，W3在所述语料统计中共同出现的频次FreqWiWWs) >0，则认为该混淆词W。不是错字词，对该混淆词W。进行剪枝；若三个词W!，W2，W3在所述语料统计中共同出现的频次Freq () = 0，但是词W!，W2在所述语料统计中共同出现的频次Freq(W1W2)>a或者词W2，W 3在所述语料统计中共同出现的频次Freq( W2W3) >a，则认为该混淆词W。不是错字词，对该混淆词W。进行剪枝；若三个词Wi，W2，W3在所述语料统计中共同出现的频次Freq (WiW:^) = Ο，但是词Wi，W2在所述语料统计中共同出现的频次FreqmWdX)并且词W2，W3在所述语料统计中共同出现的频次Fre q(W2W3) >0，则认为该混淆词W。不是错字词，对该混淆词W。进行剪枝；否则，认为该混淆词W。是错字词;其中a是预先设定的阈值。6. 根据权利要求5所述的基于汉字混淆集的错字词知识生成方法，其特征在于，若分词项长度为4,则所述剪枝后的混淆词集合中的某一混淆词W c被分为所述汉语词典中的四个词Wi，W2，W3，W4,则所述错词判断规则为：若词Wi，W2，W3在所述语料统计中共同出现的频次Freq (WL) > 0，且若词W2，W3，W4在所述语料统计中共同出现的频次Freq(W2W3W4) >0，则认为该混淆词Wc不是错字词，对该混淆词W。进行剪枝；若词W!，W2，W3在所述语料统计中共同出现的频次Freq(WL) > 0，且词W3，W4在所述语料统计中共同出现的频次Freq(W3W4)>a，则认为该混淆词Wc不是错字词，对该混淆词W c进行剪枝；若词W2，W3，W4在所述语料统计中共同出现的频次Freq(W2W 3W4) > 0，且词W!，W2在所述语料统计中共同出现的频次Freq(W1W2)>a，则认为该混淆词Wc不是错字词，对该混淆词W c进行剪枝；若词I，W2在所述语料统计中共同出现的频次Freq (WW2) >a，且词W2，W3在所述语料统计中共同出现的频次F r e q (W 2 W 3) > a，且词W 3，W 4在所述语料统计中共同出现的频次F r e q (W3W4) >a，则认为该混淆词W。不是错字词，对该混淆词W。进行剪枝；否则，认为该混淆词W。是错字词。7. 根据权利要求6所述的基于汉字混淆集的错字词知识生成方法，其特征在于，若分词项长度大于4，则所述剪枝后的混淆词集合中的某一混淆词W c被分为k个所述汉语词典中的词，则所述错词判断规则为：若所有相邻的两个词在所述语料中的共同出现的频次都大于〇，则认为该混淆词W。不是错字词，对该混淆词W。进行剪枝；否则，认为该混淆词W。是错字词。
【专利摘要】本发明公开了一种基于汉字混淆集的错字词知识生成方法，该方法首先利用正确词词典和汉字混淆集生成混淆词集合；通过语料和规则对生成的混淆词集合进行剪枝完成初步过滤；再采用正向最大匹配分词对初步过滤完后的混淆词集合中的混淆词进行分词，根据预先设置的错字词判断规则利用统计知识对混淆词进行验证，最终生成错字词知识。本发明方法解决了现有的人工校对效率低且劳动量大的问题，利用本发明方法所得到的错字词知识进行自动校对和纠错，提高了中文文本自动校对的纠错质量和纠错速度。
【IPC分类】G06F17/27
【公开号】CN105573979
【申请号】CN201510917790
【发明人】顾德之, 刘亮亮, 吴健康, 刘海波, 张再跃, 张晓如
【申请人】江苏科技大学
【公开日】2016年5月11日
【申请日】2015年12月10日

完整全部详细技术资料下载

当前第2页1 2