一种消歧的方法和装置的制作方法

文档序号:6584714阅读:256来源:国知局
专利名称:一种消歧的方法和装置的制作方法
技术领域
本发明涉及一种消歧技术,尤其涉及一种消歧的方法和装置。
背景技术
歧义是指同一个字符串存在不止一种切分形式,S卩,一个字符串可以有多种切分 形式。随着词条量的增大,歧义也越来越大,如“南方城市南京”,由于“南方城”是一个小区 名称,词典中收集了该词条,正向最大匹配导致切分错误“南方城/市/南京”,而正确的切 分为“南方/城市/南京”,为了得到正确的切分为“南方/城市/南京”,需要对“南方城市 南京”进行消歧。一般来说,歧义按照结构可以分为两种歧义类型交集型歧义(交叉歧义)和组合 型歧义(覆盖歧义)。有研究者通过统计发现,在这两种歧义结构中,交叉歧义占到了总歧 义字段的86%,而在交叉歧义中大约有94%是伪歧义,只有6%的交叉歧义是真歧义。因 此,目前中文分词中歧义消除工作的重点通常集中于如何消除交叉歧义。在现有技术中,消歧策略主要有基于规则的方法和基于统计的方法。使用基于规则的方法可排除切分标注中的歧义,这是一种很常用的方法。通过规 则可以在整个句子的范围内查找对于排歧有用的信息,非常灵活。但规则的方法主要依赖 于规则的获取,在获取规则时需要兼顾完备性与合理性,当规则的数量达到一定规模时,规 则之间还会发生冲突,所以基于规则的方法在获取规则和解决规则之间冲突上都面临很大 的困难.基于统计的方法是从大规模的标注语料中统计η元语法模型,利用概率计算,达 到消歧的目的。缺点是需要大规模的标注语料;以整个句子为单位计算概率,降低了处理速度。

发明内容
本发明的实施例提供了一种消歧的方法和装置,可解决现有技术中消歧速度慢的 问题。本发明的实施例提供了一种消歧的方法,包括从当前字开始从待切分串中获取 最大链长的歧义链;利用动态规划算法对所述歧义链进行消歧。本发明的实施例还提供了一种消歧的装置,包括获取单元,用于从当前字开始从 待切分串中获取最大链长的歧义链;消歧单元,用于利用动态规划算法对所述歧义链进行 消歧。由于本发明无需标注语料,只需从一般语料中统计出词频,利用词典获取到歧义 链,在歧义链中使用动态规划方法进行歧义消解。由于是在歧义链中消歧,而并非整个句 子,所以极大的降低了处理复杂度,提高了处理效率。


图1示出了本发明实施例的消歧流程;图2示出了本发明实施例的获得最大歧义链的流程;图3示出了本发明实施例的根据动态规划算法的切分结果;图4示出了本发明实施例的消歧装置。
具体实施例方式为了便于本领域一般技术人员理解和实现本发明,现结合附图描绘本发明的实施例。实施例一如图1所示,本实施例提供了一种消歧方法,包括如下步骤步骤11、获取最大链长的歧义链。从当前字开始,以最大匹配方式将当前字为首的 待切分串中的词与词典中的词条进行匹配,以获取当前字开头的词典词;将获取的词典词 最后一个字作为当前字,以最大匹配方式将以当前字为首的待切分串中的词与词典中的词 条进行匹配,直至获取的词典词为单字且歧义链长大于0为止。所述词典包括词和所有的 单字。所述的字既可以是汉字,也可以是英文字母。如图2所示,获取最大链长的歧义链的步骤如下步骤201、将待切分串首个字作为当前字。步骤202、将歧义链的链长设置为-1。步骤203、从当前字开始,以最大匹配方式将待切分串与词典中的词条进行匹配, 以获取该字开头的词典词。步骤204、判断步骤203获取的词典词是否为单字,如果是,则执行步骤207 ;否则, 执行步骤205。步骤205、将链长加1。步骤206、将当前词典词最后一个字作为当前字,并返回步骤203。步骤207、判断链长是否大于0,若是,则执行步骤12 对当前歧义链进行消歧,接 着,执行步骤208,否则,执行步骤208。步骤208、将当前字的下一个字作为当前字。步骤209、判断当前字是否为空,若是,则执行步骤210 结束,否则,返回步骤202。步骤12、利用动态规划算法对步骤11获得的歧义链进行消歧。在词典规模较大时,通过步骤11可以获得具有最大链长的歧义链,对歧义链使用 动态规划算法进行消歧,动态规划的过程可以通过一个有向图来表示,图中的节点表示歧 义链可能的切分单元,即一个词,每个节点都带有前驱信息,词的位置和词长,及切分代价 和累计频度。具体而言,根据字典中的词对歧义链进行所有可能的切分以获得切分的词典 词,并记录各个词典词在歧义链中的位置和词长,将每一种切分结果(即获得的词典词)作 为一节点,并对每一节点赋上前驱信息、切分代价和累计频度,所述前驱信息、切分代价和 累计频度的计算方法如下设Wi为一个词,则Wi的切分代价函数用/w,表示,计算公式如下
权利要求
1.一种消歧的方法,其特征在于,包括从当前字开始从待切分串中获取最大链长的歧义链; 利用动态规划算法对所述歧义链进行消歧。
2.根据权利要求1所述的方法,其特征在于,所述从当前字开始从待切分串中获取最 大链长的歧义链具体包括将歧义链长设为-ι ;步骤A、判断当前字是否为空,如是,则结束本过程,否则,从当前字开始,以最大匹配方 式将当前字为首的待切分串中的词与词典中的词条进行匹配,以获取所述当前字开头的词 典词;判断获取的词典词是否为单字,若是,转步骤B,否则,将获取的词典词最后一个字作为 当前字,歧义链链长加1,返回步骤A ;步骤B、判断歧义链链长是否大于0,若歧义链链长大于0,则返回利用动态规划算法 对所述歧义链进行消歧,否则,将当前词的下一个字作为当前字,返回步骤A。
3.根据权利要求1所述的方法,其特征在于,所述利用动态规划算法对所述歧义链进 行消歧具体包括对所述歧义链进行分词以获得切分的词典词,并记录各个词典词在歧义链中位置和词 长,为每一个词典词赋上前驱信息、切分代价和累计频度,歧义链中的每一单字也作为一个 词;根据词的位置和词长、切分代价和累计频度确定歧义链的回溯起始节点; 从回溯起始节点根据前驱信息开始回溯,一直回溯到歧义链的首字,得到回溯路径上 的词的组合。
4.根据权利要求3所述的方法,其特征在于,所述根据前驱信息、词的位置和词长、切 分代价和累计频度确定歧义链的终结节点具体包括对所有节点,词的位置与词长之和等于歧义链的长度时,该节点为终结节点,所述词的 位置是指该词的首字在歧义链中的位置;当终结节点存在多个时,在终结节点中选择累积切分代价最小的节点作为回溯的起始 节点,当累积切分代价相等时,选择累积频度最大的节点作为回溯起始节点。
5.一种消歧的装置,其特征在于,包括获取单元,用于从当前字开始从待切分串中获取最大链长的歧义链; 消歧单元,用于利用动态规划算法对所述歧义链进行消歧。
6.根据权利要求5所述的装置,其特征在于,所述获取单元具体包括 第一设置单元,用于将歧义链长设为-ι ;匹配单元,判断当前字是否为空,如是,则结束本过程,否则,用于从当前字开始,以最 大匹配方式将当前字为首的待切分串中的词与词典中的词条进行匹配,以获取所述当前字 开头的词典词;第一判断单元,用于判断获取的词典词是否为单字,若是,则启动第二判断单元,否则, 歧义链链长加1,启动设置单元;第二判断单元,用于判断歧义链链长是否大于0,若是,则返回利用动态规划算法对 所述歧义链进行消歧,否则,将当前词的下一个字作为当前字,启动匹配单元;设置单元,用于将所述匹配单元获取的词典词最后一个字作为当前字,启动匹配单元。
7.根据权利要求5所述的装置,其特征在于,所述消歧单元具体包括 分词单元,用于对歧义链进行分词,并记录词的位置和词长,为每一个词赋上前驱信 息、切分代价和累计频度,歧义链中的每一单字也作为一个词;确定单元,用于根据词的位置和词长,切分代价和累计频度确定歧义链的回溯起始节点;结果获得单元,用于从回溯起始节点根据前驱信息开始回溯,一直回溯到歧义链的首 字,得到回溯路径上的词的组合。
全文摘要
本发明的实施例提供了一种消歧的方法和装置,可解决现有技术中消歧速度慢的问题。所述方法包括从当前字开始从待切分串中获取最大链长的歧义链;利用动态规划算法进行消歧。由于本发明无需标注语料,只需从一般语料中统计出词频,利用词典获取到歧义链,在歧义链中使用动态规划方法进行歧义消解。由于是在歧义链中消歧,而并非整个句子,所以极大的降低了处理复杂度,提高了处理效率。
文档编号G06F17/27GK102063423SQ200910238150
公开日2011年5月18日 申请日期2009年11月16日 优先权日2009年11月16日
发明者姜吉发, 朱海军 申请人:高德软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1