一种基于词典的lucene中文分词方法_2

文档序号：9667488阅读：来源：国知局

频度进行统计计算他们的互信息。计算汉
字X和Y的百信彦.Μ(? Υ?管公?Μ
[0035]
[0036] 其中Ρ(Χ，Υ)是汉字X和Υ的相邻共现概率，也就是该候选词的出现概率，Ρ(Χ)、 Ρ(Υ)分别是汉字X、Υ的出现概率。
[0037] 互信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可以认为此字组构成了一个词。因此根据步骤S202统计得到的概率计算得到各个候选词中两个汉字的互信息，如果互信息大于预设的互信息阈值，则认为该候选词是词语，保留该候选词，否则不是词语，删除该候选词。本实施例中，设置互信息阈值为5。假定筛选得到的候选词有："中文"，"文分"，"分词"，"使用"，"用统"，"统计"，"计方"，"方法"，"进行"，"词典"，"构造"。
[0038]S204 :候选词合并：
[0039] 在筛选得到的候选词中，如果两个以上候选词的编号连续，并且前一个候选词的末字与后一个候选词的首字相同，则将这些候选词按照顺序进行合并，其他候选词不作任何操作。例如"中文文分分词"合并处理为词语"中文分词"，"统计计方方法"合并处理为 "统计方法"，可由"中文分词使用统计方法进行词典"这句话得到词语"中文分词"，"使用"， "统计方法"，"进行"，"词典"。
[0040]S205 :词语过滤：
[0041] 将合并处理后的候选词与通用词典进行匹配，如果候选词属于通用词典，则将该候选词删除，不加入专业词典当中，否则再将候选词与专业词典进行匹配，如果尚未存在于专业词典中，则加入专业词典，否则不作任何操作。
[0042] 对于本实施例中的候选词，发现候选词"利用"，"进行"，"词典"，"构造"这几个词是通用词典中的单词，所以将这几个候选词删除，而保留"中文分词"，"统计方法"这两个候选词。假设此时专业词典中不存在这两个候选词，则将它们加入专业词典。
[0043] 为了提高专业术语词典的正确率，本发明还提出建立一个非术语词典，对于经通用词典匹配后保留的候选词，采用非术语词典进行匹配，如果候选词属于非术语词典，则将其删除；然后保留的候选词在加入专业词典之前，进行人工检查，如果有非术语候选词则放入非术语词典中，不再加入专业词典。这样可以提高专业术语词典的构造速度。
[0044] S102 :待分词文本预处理：
[0045] 对于待分词文本，首先也要进行预处理，即去除停用词。
[0046] S103 :采用专业词典分词：
[0047] 对待分词文本采用专业词典分词。本实施例在分词时采用双向最大匹配算法。双向最大匹配算法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。正向最大匹配法和逆向最大匹配法是常用的分词方法，其具体步骤在此不再赘述。
[0048] 中文中90.0%左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9. 0%的句子两种切分方法得到的结果不一样，但其中必有一个是正确的（歧义检测成功），只有不到1. 〇%的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对（歧义检测失败）。因此在采用双向最大匹配算法时，需要加入一些启发式的规则来对分词结果进行进一步消歧的。
[0049] 本实施例提出的启发式规则为：当正向最大匹配法和逆向最大匹配法分词结果词数不同时，则取分词数量较少的那个分词结果作为最终结果；当分词结果词数相同时，如果分词结果相同，说明没有歧义，任意取一个分词结果作为最终结果，如果分词结果不同，则将单字较少的那个分词结果作为最终结果。
[0050] S104 :采用通用词典分词：
[0051] 对步骤S103中经过专业词典分词后剩下的文本，采用通用词典进行分词，从而得到最终的分词结果。本实施例中，通用词典分词也采用双向最大匹配算法。
[0052] 尽管上面对本发明说明性的【具体实施方式】进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于【具体实施方式】的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。
【主权项】
1. 一种基于词典的Iucene中文分词方法，其特征在于，包括以下步骤： 51 :收集语料，构建专业词典，其具体步骤为： SI. 1 :对收集到的语料去除停用词，将语料划分成文本片段； SI. 2 :对每个文本片段，提取相邻两个字作为候选词，对候选词按顺序进行编号，统计候选词和每个单字在所有文本片段中的出现概率； SI. 3 :计算每个候选词中两个汉字X和Y的互信息M (X，Y):其中P(X，Y)是汉字X和Y的相邻共现概率，P(X)、P(Y)分别是汉字X、Y的出现概率；如果候选词的互信息大于预设的互信息阈值，则保留该候选词，否则删除该候选词； SI. 4 :在筛选得到的候选词中，如果两个以上候选词的编号连续，并且前一个候选词的末字与后一个候选词的首字相同，则将这些候选词按照顺序进行合并，其他候选词不作任何操作； SI. 5 :将合并处理后的候选词与通用词典进行匹配，如果候选词属于通用词典，则将该候选词删除，否则再将候选词与专业词典进行匹配，如果尚未存在于专业词典中，则加入专业词典，否则不作任何操作； 52 :从待分词文本中去除停用词，然后对对待待分词文本采用专业词典分词，专业词典分词后剩下的文本再采用通用词典进行分词。2. 根据权利要求1所述的Iucene中文分词方法，其特征在于，所述步骤SI. 5中，还需要维护一个非术语词典，对于经通用词典匹配后保留的候选词，采用非术语词典进行匹配，如果候选词属于非术语词典，则将其删除；然后保留的候选词在加入专业词典之前，进行人工检查，如果有非术语候选词则放入非术语词典中，不再加入专业词典。3. 根据权利要求1所述的Iucene中文分词方法，其特征在于，所述步骤S2中采用专业词典或通用词典分词采用双向最大匹配算法，其具体方法为：对待分词文本先分别采用正向最大匹配法和逆向最大匹配法进行分词，当正向最大匹配法和逆向最大匹配法分词结果词数不同时，则取分词数量较少的那个分词结果作为最终结果；当分词结果词数相同时，如果分词结果相同，任意取一个分词结果作为最终结果，如果分词结果不同，则将单字较少的那个分词结果作为最终结果。
【专利摘要】本发明公开了一种基于词典的中文分词方法，首先收集语料，构建专业词典，构建方法为：首先去除停用词，将语料划分为文本片段，从文本片段中提取候选词，统计候选词和每个单字在所有文本片段中的出现概率，计算每个候选词中两个汉字的互信息，互信息大于预设的互信息阈值，则保留该候选词，否则删除该候选词，然后对筛选后的候选词进行合并，将合并处理后的候选词采用通用词典进行匹配过滤，将过滤后的候选词加入专业词典；对待分词文本先采用专业词典进行分词，剩下的文本再采用通用词典进行分词。本发明基于统计的方法从语料中抽取专业术语来构建专业词典，通用性较强，采用该专业词典进行分词可以有效满足专业领域的要求。
【IPC分类】G06F17/30
【公开号】CN105426539
【申请号】CN201510977358
【发明人】孙健, 张祥
【申请人】成都电科心通捷信科技有限公司
【公开日】2016年3月23日
【申请日】2015年12月23日

完整全部详细技术资料下载

当前第2页1 2