一种复合词挖掘方法及装置制造方法

文档序号:6492675阅读:109来源:国知局
一种复合词挖掘方法及装置制造方法
【专利摘要】本发明公开了一种复合词挖掘方法及装置。该方法包括:获取词性序列集合;在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回获取词性序列集合的步骤。通过上述方式,本发明根据词性序列集合对语料中的复合词进行循环挖掘,可实现覆盖广的复合词挖掘。
【专利说明】一种复合词挖掘方法及装置
【技术领域】
[0001]本发明涉及文本信息处理【技术领域】,特别涉及一种复合词挖掘方法及装置。
【背景技术】
[0002]词典又作“辞典”,是收集词汇按某种顺序排列并加以解释供人检查参考的工具书。从内容来区分,有语文词典、专科词典和综合性词典之分。而在表现形式上,又分为纸质的词典和电子化的词典。一般随着信息的增长,需要不断地往词典中加入新词以满足需要。
[0003]其中,随着计算机网络技术的快速发展和推广,网络数据急剧膨胀,各种新词特别是复合新词不断诞生并被广泛地应用到实际生活中,影响着人们的生活。同时,这些新词呈现出覆盖领域广的特点,往往散落在海量的网页语料中,所以亟需找到一种覆盖广的挖掘新词特别是挖掘复合新词的方法,能够将这些新词从网页语料中挖掘出来。

【发明内容】

[0004]本发明主要解决的技术问题是提供一种覆盖广的复合词挖掘方法及装置。
[0005]为解决上述技术问题,本发明采用的一个技术方案是:提供一种复合词挖掘方法,该方法包括步骤:获取词性序列集合;在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回获取词性序列集合的步骤。
[0006]其中,在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的步骤之后,方法进一步包括步骤:判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复;若是,将词性序列简化为包括至少一个词性的N-1 (N>=2)次重复的简化型词性序列,其中简化是指对词性序列中至少一个词性的重复进行去重处理,得到简化型词性序列;根据词性序列集合复合简化型词性序列对应的复合词;将复合简化型词性序列对应的复合词而得到的词语存储至第一词典。
[0007]其中,将复合简化型词性序列对应的复合词而得到的词语存储至第一词典的步骤包括:获取简化型词性序列对应的复合词在语料中出现的频次,视为第一频次,并且获取复合简化型词性序列对应的复合词而得到的词语在语料中出现的频次,视为第二频次;判断第二频次与第一频次之间的比值是否大于第一阈值;若比值大于第一阈值,则在第一词典中删除简化型词性序列对应的复合词并添加复合简化型词性序列对应的复合词而得到的词语;返回判断是否需要进行再次挖掘。
[0008]其中,获取词性序列集合的步骤包括:判断第一词典中是否已存储有复合词;若否,则抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合;若是,则抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合。
[0009]其中,抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合的步骤包括:利用分词工具对语料进行分词和词性标注;获取第二词典中复合词在语料中对应的多个词性序列;分别获取对应词性序列的复合词在语料中出现的频次,视为第三频次;判断第三频次是否大于第二阈值;若第三频次大于第二阈值,则存储词性序列至词性序列集合。
[0010]其中,抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合的步骤包括:获取对应第一词典的词性序列集合;根据第一词典对语料进行分词和词性标注;获取第一词典中复合词在语料中对应的多个词性序列;分别获取对应词性序列的复合词在语料中出现的频次,视为第四频次;判断第四频次是否大于第三阈值;若第四频次大于第三阈值,则存储词性序列至词性序列集合。
[0011]其中,在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的步骤包括:在语料中提取词性序列符合词性序列集合的复合词;获取复合词在语料中出现的频次,视为第五频次;判断第五频次是否大于第四阈值;若第五频次大于第四阈值,则存储复合词至第一词典。
[0012]其中,判断是否需要进行再次挖掘的步骤具体为:判断添加至第一词典的复合词的总数是否大于第五阈值,若大于第五阈值,则判断为需要进行再次挖掘,否则判断为不需要进行再次挖掘。
[0013]其中,判断是否需要进行复合词的再次挖掘的步骤具体为:判断是否达到预定的挖掘次数,若未达到预定的挖掘次数,则判断为需要进行再次挖掘,否则判断为不需要进行再次挖掘。
[0014]其中,词性序列集合采用正则表达式描述。
[0015]其中,所述方法还包括步骤:根据复合词在语料中出现的频次标识复合词为“热词-复合词”、“新词-复合词”或“复合词”。
[0016]为解决上述技术问题,本发明采用的另一个技术方案是:提供一种复合词挖掘装置,该装置包括:获取模块,获取词性序列集合;第一匹配模块,在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典;第一判断模块,判断是否需要进行复合词的再次挖掘。
[0017]其中,装置进一步包括:第二判断模块,判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复;简化模块,当第二判断模块判断第一词典中的复合词对应的词性序列包括至少一个词性的N(N>=2)次重复时,将词性序列简化为包括至少一个词性的N-1 (N>=2)次重复的简化型词性序列;第二匹配模块,根据词性序列集合复合简化型词性序列对应的复合词并将复合简化型词性序列对应的复合词而得到的词语存储至第一词典。
[0018]其中,获取模块包括:第一判断单元,判断第一词典中是否已存储有复合词;第一获取单元,当第一判断模块判断第一词典未存储复合词时,存储第二词典中复合词在语料中的频次大于第二阈值的词性序列至词性序列集合;第二获取单元,当第一判断模块判断第一词典存储有复合词时,存储第一词典中复合词在语料中的频次大于第三阈值的词性序列至词性序列集合。
[0019]其中,装置进一步包括:标识模块,根据复合词在语料中出现的频次标识复合词为“热词-复合词”、“新词-复合词”或“复合词”。
[0020]本发明的有益效果是:与现有技术相比,本发明复合词挖掘方法包括:获取词性序列集合;在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回获取词性序列集合的步骤。通过上述方式,本发明根据词性序列集合对语料中复合词进行循环挖掘,实现覆盖广的复合词挖掘。
【专利附图】

【附图说明】
[0021]图1是本发明复合词挖掘方法第一实施方式的流程图;
[0022]图2是本发明复合词挖掘方法第二实施方式的流程图;
[0023]图3是图2中在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的流程图;
[0024]图4是图2中将复合简化型词性序列对应的复合词而得到的词语存储至第一词典的流程图;
[0025]图5是本发明复合词挖掘方法第三实施方式的流程图;
[0026]图6是图5中抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合的流程图;
[0027]图7是图5中抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合的流程图;
[0028]图8是某一输入法的展示界面示意图;
[0029]图9是本发明复合词挖掘装置第一实施方式的结构示意图。
【具体实施方式】
[0030]下面结合附图和实施方式对本发明进行详细说明。
[0031]图1是本发明复合词挖掘方法第一实施方式的流程图。如图1所示,该方法包括步骤:
[0032]S10、开始;
[0033]S11、获取词性序列集合,并执行步骤S12 ;
[0034]词性是词的一种属性,不同语言中的词都定义有一种或者多种不同的词性。例如:日语中的词分为动词、形容词、形容动词、名词、代词、数词、副词、连体词、连续词、感叹词、助动词和助词等词性。特别地,日语中的词性被称为“品词”。汉语中的词分为名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等词性。英语中的词分为noun(名词)、verb (动词)、pronoun (代词)、adjective (形容词)、adverb (副词)、numeral (数词)、article (冠词)、preposition (介词)、conjunction (连词)、inter jection (感叹词)、gerund (动名词)等词性。在其他语言中,词也可分为多种不同的词性,在此不再赘述。
[0035]词性序列是相对于复合词而言的,复合词是指由两个或多个词结合后作为一个新词来使用的词,复合词的词性是指由两个或多个词的词性组成的词性序列。特别地,日语中的词性序列被称为“品词序列”。例如:日语中的“情報検索”这个复合词,其品词序列是“名词-动词”,“増田有華”这个复合词,其品词序列是“名词-姓-名词-名”。汉语中的“三个代表”这个复合词,其词性序列是“量词-名词”,“羡慕嫉妒恨”这个复合词,其词性序列为“动词-动词-动词”;英语中的“information retrieval”这个复合词,其词性序列是“名词-名词”,“pattern recognition and machine learning”这个复合词,其词性序列是“名词-名词-连词-名词-动名词”;
[0036]进一步,同一复合词可以有多个不同的词性序列。例如:日语中“ Af >9大t〈”这个复合词,其品词序列可以是“副词-形容词”、“名词-形容词”等。
[0037]词性序列集合中的词性序列各不相同,词性序列集合可以从第一词典中获取,或者从第二词典中获取,或者采用预设规则等。在本发明第一实施方式中,第一词典为存储有本发明挖掘出来的复合词的词典,在进行复合词挖掘前,第一词典中未存储任何复合词。第二词典为存储有复合词的已有小规模词典。预设规则是指例如预先设定词性序列集合中包括有“人姓-人名,,,“名词-名词”,“动词-动词”等词性序列。
[0038]在本发明第一实施方式中,第一次执行Sll,从第二词典获取词性序列集合或者米用预定规则。再次执行S11,从第一词典获取词性序列集合。
[0039]S12、在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典,并执行步骤S13 ;
[0040]在语料中分别匹配和词性序列集合中的词性序列相同的词语并存储至第一词典。语料可以为网页语料、某本书的语料或者其他类型的语料。在本发明第一实施方式中,均以网页语料为例来进行说明。 [0041]网页语料中存储有经过分词和词性标注的句子。例如,以日语为例,网页语料中存储有“太郎ti花子#読& T ^ 3本&次郎1二渡^ tz (大郎把花子正在读着的书给二郎了)”这个句子,其在网页语料中存储的格式为:
[0042]太郎/名词ti/助词花子/名词力5/助词読&/动词T/助词P 3/动词本/名词& /助词次/名词郎/名词I助词渡/动词t: /助动词
[0043]在网页语料中,“次郎”经过分词被切分成“次”和“郎”两个词。如果词性序列集合,也即品词序列集合中有“名词-名词”这个品词序列,即两个名词可以合并成一个复合名词,提取品词序列符合“名词-名词”的复合词便可得到“次郎”这个复合词。
[0044]在执行步骤S 12后,“次郎”被存储至第一词典,其对应的品词序列为“名词-名词”。
[0045]又例如,网页语料中存储有两个句子,这两个句子中都包括有“ A t >9大t〈”,其在网页语料中存储的格式为:
[0046]w0/名词wl/助词A t D /副词大t < /形容词w2/名词
[0047]w3/名词wl/助词A t D /名词大t < /形容词w4/名词
[0048]其中,w0-w4代表日语中的词。
[0049]在网页语料中,uht ”大爸 < 经分词被切分为“ *主>9 ’’和“大爸< ”,“ *主>9 ’’对应的品词为“副词” “名词”,“大务 < ”对应的品词为“形容词”。
[0050]如果品词序列集合中有“副词-形容词”这个品词序列,在网页语料中提取品词序列符合“副词-形容词”的复合词便可得到“ A t >9大t〈”这个复合词。
[0051]在执行步骤S12后,“A t >9大t < ”被存储至第一词典,其对应的品词序列为“副词-形容词”。同时,在网页语料中对“ A t ”大爸〈”进行匹配,还可以获取到“ A t ”大爸 < ”对应的另一个品词序列“名词-形容词”。
[0052]在本实施方式中,如果需要进行再次挖掘,再次执行步骤S11,从存储有“ A t >9大务 < ”这个复合词的第一词典中可以获取到包括品词序列“副词-形容词”和“名词-形容词”的品词序列集合,实现对品词序列集合的扩展。
[0053]在实际应用中,不同语言的网页语料中存储有大量的句子,例如,在网页语料提取符合“副词-形容词”的复合词,将会提取到大量的词性序列为“副词-形容词”的复合词并存储至第一词典。又因为提取到的复合词在网页语料中对应有多个不同的词性序列,因此再次执行步骤S11,从第一词典中就能获取到除“副词-形容词”之外的多个互不相同的词性序列组成的词性序列集合,以实现覆盖广、速度快的复合词的挖掘。
[0054]为了进一步提高挖掘速度,词性序列集合用正则表达式来描述。例如,词性序列集合中包括“名词-动词-动词”,“名词-动词”和“动词-动词”这三个词性序列,其相应的正则表达式为“名词{1}动词{1-2} I名词{0}动词{2}”。在语料中提取词性序列符合词性序列集合的复合词时,不是分别对“名词-动词-动词”,“名词-动词”和“动词-动词”这三个词性序列进行提取,而是利用等价的正则表达式“名词{1}动词{1-2} I名词{0}动词{2} ”来提取,三次循环变成一次循环,可大大提高挖掘速度。
[0055]S13、判断是否需要进行再次挖掘?若是,执行步骤S11,若否,执行步骤S14 ;
[0056]可以判断添加至第一词典的复合词的总数是否大于第五阈值,若大于第五阈值,则判断为需要进行再次挖掘,执行步骤Sll ;否则判断为不需要进行再次挖掘,流程结束。
[0057]具体来说,例如设定这个阈值为5个,假设经过第一次挖掘,添加至第一词典的复合词的总数为10个,10个大于第五阈值,则继续第二次挖掘。经过第二次挖掘,添加至第一词典的复合词的总数为4个,4个小于第五阈值则流程结束。其中,第一词典中复合词的数量为14个。
[0058]还可以判断是否达到预定的挖掘次数,预定的挖掘次数可根据实际情况进行设定,若未达到预定的挖掘次数,则判断为需要进行再次挖掘,执行步骤S 11 ;否则判断为不需要进行再次挖掘,流程结束。
[0059]具体来说,例如设定预定的挖掘次数为5次,在完成5次挖掘后流程结束。
[0060]S14、结束。
[0061 ] 通过上述实施方式,本申请第一实施方式可以从语料中挖掘到词性序列符合词性序列集合的大量复合词,进一步,通过对复合词的循环挖掘,可大大扩展词性序列集合,进而实现覆盖广的复合词的挖掘。
[0062]图2是本发明复合词挖掘方法第二实施方式的流程图。如图2所示,该方法包括步骤:
[0063]S20、开始;
[0064]在本实施方式中,以网页语料为例进行说明。
[0065]S21、获取词性序列集合,并执行步骤S22 ;
[0066]词性序列集合可以从第一词典中获取,或者从第二词典中获取,或者采用预定规则等。在本实施方式中,获取到的词性序列集合中包括“名词-名词”这个词性序列。
[0067]S22、在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典,并执行步骤S23 ;
[0068]图3是图2中在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的流程图。如图2所示,步骤S22具体包括如下步骤:
[0069]S221、在语料中提取词性序列符合词性序列集合的复合词,并执行步骤S222 ;[0070]在语料中分别匹配和词性序列集合中的词性序列相同的词语。在本实施方式中,网页语料中包括4个句子,句子中的每一个词的词性均为“名词”,其在网页语料中存储的格式为:
[0071]
【权利要求】
1.一种复合词挖掘方法,其特征在于,所述方法包括步骤: 获取词性序列集合; 在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典; 判断是否需要进行再次挖掘; 若是,返回所述获取词性序列集合的步骤。
2.根据权利要求1所述的复合词挖掘方法,其特征在于,所述在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典的步骤之后,所述方法进一步包括步骤: 判断所述第一词典中的所述复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复; 若是,将所述词性序列简化为包括至少一个词性的N-1 (N>=2)次重复的简化型词性序列,其中所述简化是指对所述词性序列中至少一个词性的重复进行去重处理,得到所述简化型词性序列; 根据所述词性序列集合复合所述简化型词性序列对应的复合词; 将所述复合所述简化型词性序列对应的复合词而得到的词语存储至所述第一词典; 返回所述判断是否需要进行再次挖掘。
3.根据权利要求2所述的复合词挖掘方法,其特征在于,所述将所述复合所述简化型词性序列对应的所述复合词而得到的词语存储至所述第一词典的步骤包括: 获取所述简化型词性序列对应的所述复合词在语料中出现的频次,视为第一频次,并且获取复合所述简化型词性序列对`应的所述复合词而得到的词语在语料中出现的频次,视为第二频次; 判断所述第二频次与所述第一频次之间的比值是否大于第一阈值; 若所述比值大于所述第一阈值,则在所述第一词典中删除所述简化型词性序列对应的复合词,并添加复合所述简化型词性序列对应的所述复合词而得到的词语。
4.根据权利要求1所述的复合词挖掘方法,其特征在于,所述获取词性序列集合的步骤包括: 判断所述第一词典中是否已存储有所述复合词; 若否,则抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合; 若是,则抽取所述第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合。
5.根据权利要求4所述的复合词挖掘方法,其特征在于,所述抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合的步骤包括: 利用分词工具对所述语料进行分词和词性标注; 获取第二词典中复合词在所述语料中对应的多个词性序列; 分别获取对应所述词性序列的所述复合词在所述语料中出现的频次,视为第三频次; 判断所述第三频次是否大于第二阈值; 若所述第三频次大于所述第二阈值,则存储所述词性序列至所述词性序列集合。
6.根据权利要求4所述的复合词挖掘方法,其特征在于,所述抽取第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合的步骤包括: 获取对应所述第一词典的词性序列集合; 根据所述第一词典对语料进行分词和词性标注; 获取所述第一词典中复合词在所述语料中对应的多个词性序列; 分别获取对应所述词性序列的所述复合词在所述语料中出现的频次,视为第四频次; 判断所述第四频次是否大于所述第三阈值; 若所述第四频次大于所述第三阈值,则存储所述词性序列至所述词性序列集合。
7.根据权利要求1所述的复合词挖掘方法,其特征在于,所述在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典的步骤包括: 在语料中提取词性序列符合所述词性序列集合的复合词; 获取所述复合词在所述语料中出现的频次,视为第五频次; 判断所述第五频次是否大于第四阈值; 若所述第五频次大于第四阈值,则存储所述复合词至第一词典。
8.根据权利要求1所述的复合词挖掘方法,其特征在于,所述判断是否需要进行再次挖掘的步骤具体为: 判断添加至所述第一词典的所述复合词的总数是否大于第五阈值,若大于所述第五阈值,则判断为需要进行`再次挖掘,否则判断为不需要进行再次挖掘。
9.根据权利要求1所述的复合词挖掘方法,其特征在于,所述判断是否需要进行复合词的再次挖掘的步骤具体为: 判断是否达到预定的挖掘次数,若未达到所述预定的挖掘次数,则判断为需要进行再次挖掘,否则判断为不需要进行再次挖掘。
10.根据权利要求1所述的复合词挖掘方法,其特征在于,所述词性序列集合采用正则表达式描述。
11.根据权利要求1所述的复合词挖掘方法,其特征在于,所述方法进一步包括步骤:根据所述复合词在所述语料中出现的频次标识所述复合词为“热词-复合词”、“新词-复合词”或“复合词”。
12.一种复合词挖掘装置,其特征在于,所述装置包括: 获取模块,获取词性序列集合; 第一匹配模块,在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典; 第一判断模块,判断是否需要进行复合词的再次挖掘。
13.根据权利要求12所述的复合词挖掘装置,其特征在于,所述装置进一步包括: 第二判断模块,判断所述第一词典中的所述复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复; 简化模块,当第二判断模块判断所述第一词典中的所述复合词对应的词性序列包括至少一个词性的N(N>=2)次重复时,将所述词性序列简化为包括至少一个词性的N-1 (N>=2)次重复的简化型词性序列; 第二匹配模块,根据所述词性序列集合复合所述简化型词性序列对应的复合词并将所述复合所述简化型词性序列对应的复合词而得到的词语存储至所述第一词典。
14.根据权利要求12所述的复合词挖掘装置,其特征在于,所述获取模块包括: 第一判断单元,判断所述第一词典中是否已存储有所述复合词; 第一获取单元,当第一判断模块判断所述第一词典未存储所述复合词时,存储第二词典中复合词在所述语料中的频次大于第二阈值的词性序列至词性序列集合; 第二获取单元,当第一判断模块判断所述第一词典存储有所述复合词时,存储第一词典中复合词在所述语料中的频次大于第三阈值的词性序列至词性序列集合。
15.根据权利要求12所述的复合词挖掘装置,其特征在于,所述装置进一步包括: 标识模块,根据所述复合词在所述语料中出现的频次标识所述复合词为“热词-复合词”、“新 词-复合词”或“复合词”。
【文档编号】G06F17/30GK103870472SQ201210532140
【公开日】2014年6月18日 申请日期:2012年12月11日 优先权日:2012年12月11日
【发明者】吴先超, 陈晓昕, 何径舟, 黄鋆 申请人:百度国际科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1