一种分词方法及装置制造方法

文档序号:6535133阅读:218来源:国知局
一种分词方法及装置制造方法
【专利摘要】本发明公开了一种分词方法及装置,属于信息处理领域。该方法包括:利用n阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本;当该第一文本中包括目标词串时,将该目标词串添加至词典,得到更新后的词典,该目标词串为未存储在该词典中的词串,该词典用于存储所有的词串以及对应的估计概率;根据该更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对该第一文本按预设算法进行分词,分别得到第二文本和第三文本;从该第二本文以及该第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。本发明通过仅将新词添加至现有词典中,对现有词典进行更新,使得在不增加分词歧义的前提下,灵活地添加新词。
【专利说明】一种分词方法及装置
【技术领域】
[0001]本发明涉及信息处理领域,特别涉及一种分词方法及装置。
【背景技术】
[0002]中文分词指将一个汉字序列切分成一个一个单独的词。中文分词在信息检索、机器翻译和语音识别等领域起重要作用,是中文语音处理过程中必不可少的一个环节。一般地,由于存在分词歧义的问题,传统的基于词典的机械分词方法的准确度达不到100%。例如,“南京市长江大桥”可以分成“南京市长江大桥”,也可以分成“南京市长江大桥”。如果不依赖其他知识,两种分词方式似乎都是合理的。
[0003]为了解决上述分词歧义的问题,现有技术中,采用n-gram语言模型进行中文分词。该n-gram语言模型指利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现中文分词。例如,P(南京市长江大桥)的概率一般会低于P(南京市长江大桥),因此上述两种分词中,后者是更合理的。
[0004]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005]如果要在n-gram语言模型中添加新词,需要为新词估计概率,导致需要收集包含新词的语料,重新构建n-gram语言模型,存在一定的局限性。

【发明内容】

[0006]为了解决现有技术的问题,本发明实施例提供了一种分词方法及装置。所述技术方案如下:
[0007]—方面,提供了一种分词方法,所述方法包括:
[0008]利用η阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,所述n-gram模型用于消除分词歧义,所述第一文本包括以空格为间隔的词串;
[0009]当所述第一文本中包括目标词串时,将所述目标词串添加至词典,得到更新后的词典,所述目标词串为未存储在所述词典中的词串,所述词典用于存储所有的词串以及对应的估计概率;
[0010]根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本按预设算法进行分词,分别得到第二文本和第三文本,所述前向最大匹配分词方法以及后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配;
[0011]从所述第二本文以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。
[0012]可选地,从所述第二本文以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果包括:
[0013]当所述第二本文以及所述第三文本中选取词长期望不相同时,从所述第二本文以及所述第三文本中选取词长期望大的文本作为分词结果;或,
[0014]当所述第二本文以及所述第三文本中选取词长期望相同时,从所述第二本文以及所述第三文本中选取词长方差小的文本作为分词结果。
[0015]可选地,利用n-gram模型,将待分词文本进行分词,得到第一文本包括:
[0016]通过对语料库进行分析和计算,生成单字同时出现的频度库,并由所述频度库生成分词词典;
[0017]利用Viterbi算法,从所述分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为所述第一文本。
[0018]可选地,所述方法还包括:
[0019]当所述第一文本中未包括所述目标词串,将所述第一文本作为分词结果。
[0020]另一方面,提供了一种分词装置,所述装置包括:
[0021]第一分词模块,用于利用η阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,所述n-gram模型用于消除分词歧义,所述第一文本包括以空格为间隔的词串;
[0022]词典更新模块,用于当所述第一文本中包括目标词串时,将所述目标词串添加至词典,得到更新后的词典,所述目标词串为未存储在所述词典中的词串,所述词典用于存储所有的词串以及对应的估计概率;
[0023]第二分词模块,用于根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本按预设算法进行分词,分别得到第二文本和第三文本,所述前向最大匹配分词方法以及后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配;
[0024]分词结果选取模块,用于从所述第二本文以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。
[0025]可选地,所述分词结果选取模块包括:
[0026]第一分词结果选取单元,用于当所述第二本文以及所述第三文本中选取词长期望不相同时,从所述第二本文以及所述第三文本中选取词长期望大的文本作为分词结果;或,
[0027]第二分词结果选取单元,用于当所述第二本文以及所述第三文本中选取词长期望相同时,从所述第二本文以及所述第三文本中选取词长方差小的文本作为分词结果。
[0028]可选地,所述第一分词模块包括:
[0029]分词词典生成单元,用于通过对语料库进行分析和计算,生成单字同时出现的频度库,并由所述频度库生成分词词典;
[0030]第一文本选取单元,用于利用Viterbi算法,从所述分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为所述第一文本。
[0031]可选地,所述分词结果选取模块还用于当所述第一文本中未包括所述目标词串,将所述第一文本作为分词结果。
[0032]本发明实施例提供的技术方案带来的有益效果是:
[0033]通过仅将新词添加至现有词典中,对现有词典进行更新,使得在不增加分词歧义的前提下,灵活地添加新词。【专利附图】

【附图说明】[0034]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1是本发明实施例提供的分词方法流程图;
[0036]图2是本发明实施例提供的分词装置结构示意图。
【具体实施方式】
[0037]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0038]图1是本发明实施例提供的分词方法流程图。参见图1,该实施例包括:
[0039]101、利用n-gram模型,将待分词文本进行分词,得到第一文本,该n-gram模型用于消除分词歧义,该第一文本包括以空格为间隔的词串;
[0040]在本发明实施例中,n-gram模型指将语言中字符的发生近似为(n_l)阶markov模型,也即是,设有I个字符的汉字字符串cl,c2,…,ci,在其上下文关系中,只有前n-1个字符对下一个字符即第η个字符出现的概率有影响,用概率表示就是:
[0041 ] P (C11 C1,…,Ch) ^ P (C1 c卜η+1,...,C1^1)
[0042]根据概率乘法定理和n-gram模型,汉字字符串cl,c2,…,ci的概率可表示为组成该字符串的字符的概率的乘积:
【权利要求】
1.一种分词方法,其特征在于,所述方法包括: 利用η阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,所述n-gram模型用于消除分词歧义,所述第一文本包括以空格为间隔的词串; 当所述第一文本中包括目标词串时,将所述目标词串添加至词典,得到更新后的词典,所述目标词串为未存储在所述词典中的词串,所述词典用于存储所有的词串以及对应的估计概率; 根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本按预设算法进行分词,分别得到第二文本和第三文本,所述前向最大匹配分词方法以及后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配; 从所述第二本文以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。
2.根据权利要求1所述的方法,其特征在于,从所述第二本文以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果包括: 当所述第二本文以及所述第三文本中选取词长期望不相同时,从所述第二本文以及所述第三文本中选取词长期望大的文本作为分词结果;或, 当所述第二本文以及所述第三文本中选取词长期望相同时,从所述第二本文以及所述第三文本中选取词长方差小的文本作为分词结果。
3.根据权利要求1所述的方法,其特征在于,利用n-gram模型,将待分词文本进行分词,得到第一文本包括: 通过对语料库进行分析和计算,生成单字同时出现的频度库,并由所述频度库生成分词词典; 利用Viterbi算法,从所述分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为所述第一文本。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括: 当所述第一文本中未包括所述目标词串,将所述第一文本作为分词结果。
5.一种分词装置,其特征在于,所述装置包括: 第一分词模块,用于利用η阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,所述n-gram模型用于消除分词歧义,所述第一文本包括以空格为间隔的词串; 词典更新模块,用于当所述第一文本中包括目标词串时,将所述目标词串添加至词典,得到更新后的词典,所述目标词串为未存储在所述词典中的词串,所述词典用于存储所有的词串以及对应的估计概率; 第二分词模块,用于根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本按预设算法进行分词,分别得到第二文本和第三文本,所述前向最大匹配分词方法以及后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配; 分词结果选取模块,用于从所述第二本文以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。
6.根据权利要求5所述的装置,其特征在于,所述分词结果选取模块包括:第一分词结果选取单元,用于当所述第二本文以及所述第三文本中选取词长期望不相同时,从所述第二本文以及所述第三文本中选取词长期望大的文本作为分词结果;或, 第二分词结果选取单元,用于当所述第二本文以及所述第三文本中选取词长期望相同时,从所述第二本文以及所述第三文本中选取词长方差小的文本作为分词结果。
7.根据权利要求5所述的装置,其特征在于,所述第一分词模块包括: 分词词典生成单元,用于通过对语料库进行分析和计算,生成单字同时出现的频度库,并由所述频度库生成分词词典; 第一文本选取单元,用于利用Viterbi算法,从所述分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为所述第一文本。
8.根据权利要求5所述的装置,其特征在于,所述分词结果选取模块还用于当所述第一文本中未包括所述目标词串,将`所述第一文本作为分词结果。
【文档编号】G06F17/27GK103678282SQ201410006570
【公开日】2014年3月26日 申请日期:2014年1月7日 优先权日:2014年1月7日
【发明者】王欢良, 薛峰, 惠寅华, 赵鹏程, 俞凯 申请人:苏州思必驰信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1