提供多粒度分词结果的方法及其装置的制作方法

文档序号:6336595阅读:459来源:国知局
专利名称:提供多粒度分词结果的方法及其装置的制作方法
技术领域
本申请涉及文字信息处理技术领域,尤其涉及一种建立分词词典的方法、一种提供多粒度分词结果的方法、一种建立分词词典的装置以及一种提供多粒度分词结果的装置。
背景技术
从是否具有词边界标记的角度,可以将世界范围的语言文字分为两种,其中一种为有词边界标记的语言,如英文、德文等,一般单词之间采用空格作为词边界标记来划界; 另一种是无词边界标记语言,如中文、日文或韩文,在一个句子中单词彼此之间没有定界符。在搜索引擎、机器翻译、语音合成等应用中都涉及语言文本的处理问题,计算机如何对给定的无词边界标记语言的文本进行分词,将一个句子分成由切分单元组成的切分单元序列成为一个关键步骤。分词词典中包含充分多的预先存储的词条,在进行分词时按照一定的策略(例如由左到右的方向的正向最大匹配法、由右到左的方向的逆向最大匹配法、最小切分法等) 将给定文本与分词词典中的词条进行匹配。比如在最大匹配方法中,若在词典中找到能够匹配该输入文本的最长的词条,则识别出一个词,将识别出的词作为一个切分单元。依次类推,从而将给定文本分词为由切分单元组成的切分单元序列(当然,切分单元不仅包含匹配成功的词,也可能包含单字或者动态识别出来的词)。对于相同的给定文本,从分词结果来看,如果作为分词结果的切分单元序列中切分单元的长度越长,即切分单元序列中包含的切分单元的数目越少,分词粒度越大;反之, 如果作为分词结果的切分单元序列中包含的切分单元的数目越多,分词粒度越小。例如,给定的文本为“中华人民共和国成立了 ”,粒度较小的分词结果为“中华-人民-共和国-成立-了”,粒度较大的分词结果为“中华人民共和国-成立-了”。不同应用对分词结果粒度层次的要求不同。比如,在机器翻译中,颗粒度应该大一些,“企业管理”就不要分成两个词。而在搜索引擎的索引系统中,“企业管理”一般是被分成两个词。仅仅对于同一类应用而言,对分词结果粒度层次的要求也是不同的,下面以搜索引擎这个应用为例进行说明。在搜索引擎这个应用中,不同领域的搜索引擎需要的切分粒度也是不一样的。举例来说,在电子商务领域,销售者和购买者都要求有较高的搜索召回率,搜索系统为了做到这一点,索引粒度较小才好,相应的需要粒度较小的分词结果;而在搜索网页时,由于存在海量的互联网网页,这时候搜索的精准率对用户尤其重要,搜索系统为了做到这一点,搜索系统需要粒度较大的分词结果。其中,搜索召回率和搜索准确性是评价搜索质量的重要指标。搜索召回率是指搜索到的相关文档与所有相关文档的比例,衡量的是查全率;搜索准确性是指搜索到的相关文档与搜索到的所有文档的比例,衡量的是查准率。分词粒度与搜索召回率和搜索准确性的关系为一般来说,分词粒度越小,搜索召回率越高;分词粒度越大,搜索准确性越高。
即使对同一类应用在同一领域的不同使用阶段而言,对分词结果粒度层次的要求也不相同。仍以搜索引擎这个应用为例,为了兼顾用户对搜索召回率和搜索准确率的要求, 在索引阶段和排序阶段对分词结果粒度层次的要求也是有差异的。在索引阶段,需要粒度较小的分词结果,以便找到足够多的网页;在排序阶段,出于搜索准确性的需要,避免向用户提供不相关的网页,需要粒度较大的分词结果。为解决上述问题,现有技术主要采用两种方案来提供多粒度层次的分词结果方案1 请参照附图Ia所示,先进行最小粒度分词,然后自下而上动态合并,其基本过程如下采用粒度较小的分词词典A对给定文本进行分词,在分词过程中会产生不同的切分单元序列,例如给定文本S1S2S3S4S5S6S7可以被分为S1S2-S3S4-S5-S6S7, S1S2S3-S4S5-S6S7,然后根据预定选择算法从中选择出一条作为最优切分单元序列,这里假设为S1S2-S3S4-S5-S6S7,预定选择算法可以为基于统计模型的算法等,在这里不再详述。为了提供较大粒度的分词结果,在序列Sj2-S3S4^5I6S7的基础上进行合并,具体合并过程为判断序列S1S2^J4-S5I6S7中两个切分单元的组合是否与包含较长词条的分词词典B中包含的词条匹配,若是对这两个切分单元进行合并,从而获得合并后的粒度较大的切分单元序列,这里假设Sj2和4 可以合并、S5和SS7可以合并,那么合并后的粒度较大的切分单元序列为S1S2S3S4-S5S6S70采用这种方法,在分词时会丢失部分语义项,例如语义单元Sjj3和被丢失了。这里以一个实际的例子进行说明,给定文本为“本不锈钢管用一级钢铸造”,其中“不锈钢管”实际上包含着“不锈钢”、“钢管”两个语义项。如果将“不锈钢管”在最小粒度切分为 “不锈钢-管”,然后又合并为“不锈钢管”,那么“钢管”这个语义项就丢失了,导致搜索“钢管”时检索不出来该文本;如果将“不锈钢管”在最小粒度切分为“不-锈-钢管”,然后又合并为“不锈钢管”,那么“不锈钢”这个语义项就丢失了,导致搜索“不锈钢”时检索不出来该文本。另外也难以保证合并的准确性,假定给定文本最小粒度分词获得的切分单元序列为“本-不锈钢-管-用-一级-钢-铸造”,在合并时将遇到合并歧义,同时存在合并为 “不锈钢管”或“管用”的可能性。如果在最小粒度分词时获得的切分单元序列为“本-不锈钢-管用-一级-钢-铸造”,则无法合并得到“不锈钢管”这个语义项。方案2 请参照附图Ib所示,先进行最大粒度分词,然后自上而下切分,其基本过程如下利用粒度较大的分词词典C,采用模型和算法对给定文本SjjJJj6S7进行动态分词(选择出最优切分单元序列),获得切分单元序列S1S2S3S4Ij6S7 ;为了提供较小粒度的分词结果,对Sj2S3S4-S5S6S7中的每个语义单元进行进一步切分,具体切分过程为判断序列中Sjj3S4-S5S6S7的每个切分单元是否包含分词词典C中的两个或两个以上其他粒度更小的词条,若是将该切分单元进一步切分为两个或两个以上其他词条,这里假设SjjJ4可以被切分为Sj2和S3S4Af6S7可以被切分为S5和S6S7,则切分后获得的较小粒度的分词结果为S1S2-SA-S5-SSp采用这种方法时,为了解决在最大粒度分词时出现的歧义问题,需要在词典中收录更多的大粒度词条。例如,给定文本为“企业管理科学技术”,如果词典中收录有“企业管理”、“管理科学”这些较大粒度的词条,那么“企业管理科学”可能被切分为“企业管理-科学”或“企业-管理科学”。解决这一歧义的方案为在词典中再收录“企业管理科学”这一更长的词条,然而“企业管理科学”又会与“科学技术”发生切分歧义,可见这类由大粒度的词条组成的集合是非闭合的,词典规模的扩大会给词典维护带来困难。可见,分词词典中的词条粒度越大,分词时会产生数目更多的不同的切分单元序列,即有更多的分词路径,从而存在较多的歧义问题,最大粒度切分的准确率难以得到保证。当有了最大粒度的切分结果后,这些切分单元的小粒度词可以通过查词典的方式来得到。但是,随着词典规模的扩大,人工维护这些词条以及这些词条的小粒度词并确保词条的质量,代价是非常大的。

发明内容
本申请实施例提出一种用于提供多粒度分词结果的方法,用以在提供多粒度分词结果时,避免丢失语义项、或分词准确性较低的问题。对应地,本申请实施例还提供了一种建立分词词典的方法、一种建立分词词典的装置和一种提供多粒度分词结果的装置。本申请实施例提供的技术方案如下一种建立分词词典的方法,包括根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果, 其中所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条在训练文本中与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;词条的分类结果为该词条是最小语义单元的标识或复合语义单元的标识;获取待分类词条,并确定所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;根据获得的所述分类器,以及确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;若确定出所述待分类词条为最小语义单元,则将所述待分类词条加入最小语义单元词典。—种提供多粒度分词结果的方法,包括建立最小语义单元词典;并根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及根据中间粒度分词结果、以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。
一种建立分词词典的装置,包括分类器获取模块,用于根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;分类结果为预先标定的所述训练样本词条为最小语义单元的标识或复合语义单元的标识;待分类词条获取模块,用于获取待分类词条;属性值确定模块,用于确定待分类词条获取模块获取的所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;分类结果确定模块,用于根据分类器获取模块获得的所述分类器,以及属性值确定模块确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值, 对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;第一词条添加模块,用于在分类结果确定模块确定出所述待分类词条为最小语义单元时,将所述待分类词条加入最小语义单元词典。一种提供多粒度分词结果的装置,包括分词词典建立模块,用于建立最小语义单元词典;分词处理模块,用于根据所述分词词典建立模块建立的最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;合并模块,用于根据比最小语义单元词典粒度大的词典对分词处理模块获得的中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;查找模块,用于依次针对分词处理模块获得的中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元对应的检索单元;确定模块, 用于分词处理模块获得的中间粒度分词结果、以及查找模块查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。本申请实施例通过基于训练样本词条的词长属性、短语特征属性、语义属性、交叠属性以及分类结果获取的分类器、以及待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,来确定待分类词条是否为最小语义单元,以及在待分类词条为最小语义单元时,将该待分类词条加入最小语义单元词典,并存储最小语义单元中每个词条的切分方式和对应的检索单元,从而建立最小语义单元词典。基于建立的最小语义词典,对给定文本进行分词处理,获取中间粒度分词结果;以及根据粒度大于最小语义单元词典的分词词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元对应的检索单元,以及根据中间粒度分词结果和查找到的检索单元确定粒度小于中间粒度分词结果的第二粒度分词结果。通过上述方案能够提供至少三种粒度层次的分词结果,并避免了最大粒度分词时出现的分词不准确的问题,同时通过检索单元来获取小粒度分词结果,避免了进行最小粒度分词时丢失语义项的问题。


图Ia为第一种提供多种粒度分词结果的现有方案的示意图;图Ib为第二种提供多种粒度分词结果的现有方案的示意图;图2为本申请实施例一提供的建立最小语义单元分词词典的原理流程图;图3为本申请实施例二提供的基于建立的最小语义单元分词词典,根据给定文本获得多粒度分词结果的原理流程图;图4为本申请实施例二中切词结果树的示意图;图5为本申请实施例提供的建立分词词典的装置的结构示意图;图6为本申请实施例提供的提供多种粒度分词结果的装置的结构示意图;图7为本申请实施例提供的提供多种粒度分词结果的装置中分词处理模块的结构示意图;图8为本申请实施例提供的提供多种粒度分词结果的装置中确定模块的结构示意图。
具体实施例方式针对现有的提供多粒度分词结果的技术存在因丢失语义项造成的召回率低的问题;或者,存在分词词典的规模过于庞大,分词处理准确性较低的问题,本申请实施例提出一种多粒度分词方案,其基本思路如下建立一个分词词典-最小语义单元词典,其中最小语义单元词典中的词条既具有合理的长度、同时又具有语义完整性,且不含有组合修饰特征;该最小语义单元词典中,存储了词条对应的检索单元。在对给定词条进行分词时,基于建立的最小语义单元词典对给定词条进行分词,获得中间粒度分词结果;利用包含粒度较大词条的分词词典对中间粒度分词结果进行合并,从而获得较大粒度分词结果;利用最小语义单元词典中存储的词条对应的检索单元,根据中间粒度分词结果获得较小粒度分词结果。下面将依据本申请上述发明原理,详细介绍一个实施例来对本申请方法的主要实现原理进行详细的阐述和说明。实施例一本实施例介绍如何建立规模合理的分词词典-最小语义单元词典。建立最小语义单元词典的过程如附图2所示步骤201,根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条都具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定各类别的枚举词条集合中包含的词条相同时,语义属性的属性值为包含与训练样本词条相同的词条的枚举词条集合的标识,否则语义属性的属性值为不同于任何设定枚举词条集合的标识的标识;交叠属性值包括训练样本词条与其他词条发生交叠的概率值和交叠部分是否为小粒度词的标识;分类结果为预先标定的所述训练样本词条为复合语义单元的标识或最小语义单元的标识;例如,训练样本词条“企业管理”中包含4个字,因此该训练样本词条的词长属性值为4。训练样本词条“企业管理”中包含的小粒度词为“企业”、“管理”,分别统计这2个小粒度词在独立使用词条集合Sl中出现的频率值,从中选择最高的频率值作为训练样本词条“企业管理”的短语特征属性的属性值中小粒度词的独立使用频率值。这里需要说明的是独立使用词条集合Sl可以通过互联网上的查询日志(query log),锚定链接词(anchor) 等方式获得。举例来说,用户在互联网搜索引擎中输入搜索关键词“信息”,则“信息”被记录到了查询日志中,说明“信息”可以被单独地使用,另外用户输入的以逗号、空格等间隔符隔开的各个词也可以看作可以独立使用的词。这里假定小粒度词“管理”在独立使用词条集合Sl中出现的频率值最高,为100万次;如果该词条没有小粒度词,则该频率值为0。短语构成规律是人们通过长时间对某种自然语言的研究获得的常规短语的组成模式,对于汉语来说,通常短语是由“形容词+名词”、或“名词+名词”、或“动词+名词”等构成,短语构成规律可以用正则表达式的形式存储。训练样本词条“企业管理”是由两个名词性质的小粒度词“企业”和“管理”组成的,那么训练样本词条“企业”符合短语构成规律, 假定设定符合短语构成规律的标识为1,不符合短语构成规律的标识为0 ;因而,训练样本词条“信息系统工程”的短语特征属性的属性值为(100万,1)。预先设定多个不同类别枚举词条集合,如影视节目名称集合的标识为S21,影视节
目名称集合包含的词条为S21= {我的兄弟姐妹、活着、焦点访谈、潜伏、甲方乙方......};
书目名称集合的标识为S22,书目名称集合包含的词条为S22 = {读者、青年文摘、瑞
丽......};学科名称集合的标识为S23,学科名称集合包含的词条为S23= {信息工程、心
理学、哲学、企业管理、工商管理......};地名集合的标识为S24,地名集合包含的词条为
S24= {呼和浩特、北京、银川、包头......}。这里训练样本词条“企业管理”包含在学科
名称集合中,因此训练样本词“企业管理”对应标识是S23。如果训练样本词不包含在任何一个类别枚举词条集合中,那么该训练样本词条的语义属性的属性值为区分于任何类别枚举词条集合标识的标识,例如S20。对于交叠属性来说,通过统计该训练样本词在训练文本中与词典中包含的其他词条发生交叠的概率值。交叠是指在包含该训练样本词条的训练文本中,该训练样本词条中的部分字与其之前或其之后的连续的其他字组成了词典中的另一个词条的情况。例如假定
训练样本词条为“企业管理”,在包含上下文“......众所周知,企业管理科学是一门新兴
的学科......”的训练文本中,“企业管理”与“管理科学”在“管理”上出现了交叠。在两
个词存在交叠时,其交叠部分可以是有语义含义的小粒度词,如这个例子中的“管理”,也可
以是单字,例如“甲方乙方”与“方才,,在包含上下文“......甲方乙方才上映......”的
训练文本中发生了交叠,“甲方乙方”的小粒度词是“甲方/乙方”,而交叠部分是“方”,不是 “甲方乙方”的小粒度词。依据类似的原理,可以统计出在训练文本中出现该训练样本词条的情况下训练样本词条与词典中的其他词条发生交叠的概率。可以设定交叠部分为小粒度词对应的标识为1,交叠部分不为小粒度词对应的标识为0。假定在本实施例中训练样本词条“企业管理”与其他词条发生交叠的概率为2%,与其他词交叠部分“管理”为小粒度词, 那么训练样本词条“企业管理”的交叠属性值为0%,1);在本实施例中训练样本词条“企业管理”被标定为复合语义单元。因而训练样本词条“企业管理”的属性值和标定结果如表1所示。表1训练集中训练样本词条属性值和标定结果示例
训练样本词条词长属性值短语特征属性值语义属性值交叠属性值分类结果
权利要求
1. 一种建立分词词典的方法,其特征在于,包括根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中 所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条在训练文本中与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;词条的分类结果为该词条是最小语义单元的标识或复合语义单元的标识; 获取待分类词条,并确定所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值; 根据获得的所述分类器,以及确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;若确定出所述待分类词条为最小语义单元,则将所述待分类词条加入最小语义单元词
2.如权利要求1所述的方法,其特征在于,在确定出所述待分类词条并非为最小语义单元时,将所述待分类词条加入复合语义单元词典。
3.如权利要求1所述的方法,其特征在于,将待分类词条加入最小语义单元词典后,还包括存储该待分类词条的切分方式以及该待分类词条对应的检索单元,所述切分方式为切分或不切分,当该待分类词条的切分方式为切分时,该待分类词条对应的检索单元为该待分类词条包含的小粒度词;当该待分类词条的切分方式为不切分时,该待分类词条对应的检索单元为该待分类词条本身。
4.一种基于权利要求1所述方法建立的最小语义单元词典提供多粒度分词结果的方法,其特征在于,包括建立最小语义单元词典;并根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及根据中间粒度分词结果以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。
5.如权利要求4所述的方法,其特征在于,根据最小语义单元词典对给定文本进行分词,获取中间粒度分词结果,具体包括根据最小语义单元词典对给定文本进行分词,以及在分词获得唯一切分单元序列时,将该切分单元序列作为中间粒度分词结果,以及在分词获得至少两个不同的切分单元序列时,基于消歧模型选择出一个切分单元序列作为中间粒度分词结果。
6.如权利要求4所述的方法,其特征在于,根据中间粒度分词结果、以及查找到的检索单元获得粒度小于中间粒度分词结果的第二粒度分词结果,具体包括将给定文本作为根节点,将中间粒度分词结果中的每个切分单元依次作为根节点的子节占.对于中间粒度分词结果中的每个切分单元,将该切分单元对应的检索单元依次作为该切分单元对应节点的叶子节点,形成切词结果树;依次获得切词结果树中各叶子节点,将依次获得的叶子节点作为较小粒度分词结果。
7.如权利要求4至6中任一权利要求所述的方法,其特征在于,所述粒度大于最小语义单元词典的分词词典为复合语义单元词典。
8.一种建立分词词典的装置,其特征在于,包括分类器获取模块,用于根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条与其他词条发生交叠的概率值、 和交叠部分是否为小粒度词的标识;分类结果为预先标定的所述训练样本词条为最小语义单元的标识或复合语义单元的标识;待分类词条获取模块,用于获取待分类词条;属性值确定模块,用于确定待分类词条获取模块获取的所述待分类词条的词长属性、 短语特征属性、语义属性以及交叠属性的属性值;分类结果确定模块,用于根据分类器获取模块获得的所述分类器,以及属性值确定模块确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;第一词条添加模块,用于在分类结果确定模块确定出所述待分类词条为最小语义单元时,将所述待分类词条加入最小语义单元词典。
9.如权利要求8所述的装置,其特征在于,还包括第二词条添加模块,用于在分类结果确定模块确定出所述待分类词条为非最小语义单元时,将所述待分类词条加入复合语义单元词典。
10.一种提供多粒度分词结果的装置,其特征在于,包括 分词词典建立模块,用于建立最小语义单元词典;分词处理模块,用于根据所述分词词典建立模块建立的最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;合并模块,用于根据比最小语义单元词典粒度大的词典对分词处理模块获得的中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;查找模块,用于依次针对分词处理模块获得的中间粒度分词结果中的每个切分单元, 在最小语义单元词典中查找该切分单元对应的检索单元;确定模块,用于分词处理模块获得的中间粒度分词结果、以及查找模块查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。
全文摘要
本申请公开了一种提供多粒度分词结果的方法及其装置,用以在提供多粒度分词结果时,避免丢失语义项、或分词准确性较低的问题。该方法包括建立最小语义单元词典;并根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及根据中间粒度分词结果、以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。
文档编号G06F17/30GK102479191SQ20101055576
公开日2012年5月30日 申请日期2010年11月22日 优先权日2010年11月22日
发明者侯磊, 初敏, 唐晶明, 孙健, 廖晓玲, 彭仁刚, 杨扬, 许冰婧 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1