识别具有组合型歧义的歧义词的方法和装置制造方法

文档序号:6486432阅读:265来源:国知局
识别具有组合型歧义的歧义词的方法和装置制造方法
【专利摘要】本发明公开了一种识别具有组合型歧义的歧义词的方法和装置。该方法包括:利用核心词表对第一语言句子进行粗粒度切分;利用核心词表在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词;通过分解候选歧义词对第一语言句子进行细粒度切分;从与第一语言句子对应的第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词和更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词和更小粒度的多个词的译文中,以确定候选歧义词是真歧义词还是伪歧义词。
【专利说明】识别具有组合型歧义的歧义词的方法和装置
【技术领域】
[0001]本申请总体上涉及自然语言处理的领域,尤其涉及识别具有组合型歧义的歧义词的方法和设备。
【背景技术】
[0002]在自然语言处理中,分词是其中的一个基本课题。大部分自然语言处理都建立在分词的结果之上,因此分词的质量直接影响到后续工作的准确性。由于自然语言自身的特点,在自然语言的分词过程中,会遇到分词歧义的问题。以汉语为例,汉语的分词歧义主要包括如下两种:交集型歧义和组合型歧义。一般,假设A、X和B分别为词串,如果其组成的词串AXB满足AX和XB同时为词的条件,则称词串AXB具有交集型歧义。另外,假设W是汉
语词集合,如果一个词w G W,并且该词w可以分解为连续的词串W1, w2,......, wn (n为大
于或等于2的自然数),Wi G W (i=l,2,......,n),而且w和W1, w2,......,wn在汉语句子中
均存在,则称w具有组合型歧义。
[0003]交集型歧义的解决方案比较明确,现有的方案可以取得较好的效果。然而,对于组合型歧义,目前的解决方案还较少。关于组合型歧义,现有的解决方案主要分成以下两种:一种是通过观察预料库,人工总结歧义现象,另一种是人工标注一部分语料作为训练集,利用机器学习的方法来学习歧义现象。但是,现有的解决方案存在很多缺点。例如,人工很难总结出语料中潜在的歧义现象,而且人工的方式需要大量的时间和人力,成本很高。而且,组合型歧义具有领域相关的特点,即在不同的领域会产生不同的歧义现象,人工的方式很难预测。另外,人工标注语料也是成本很高的过程,如果分词系统应用在新的领域,就需要重新标注新的语料。
[0004]因此,期望提供一种能够适用于不同领域并且能够高效地和准确地识别具有组合型歧义的歧义词的方法和装置。

【发明内容】

[0005]在下文中将给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0006]发明人通过研究发现,组合型歧义具有如下特点:具有组合型歧义的歧义词在被拆分之后的词义变化很大。另外,这种词义上的变化可以通过其他语言,例如英语,明显地表现出来。因此,发明人认识到可以通过考察与汉语词对应的其它语言的译文的变化来识别具有组合型歧义的歧义词。也就是说,可以通过其他语言的辅助来识别具有组合型歧义的歧义词。
[0007]根据本发明的实施例,提供了一种识别具有组合型歧义的歧义词的方法,包括:利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;利用核心词表,在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;通过分解候选歧义词,对第一语言句子进行细粒度切分;将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中,以及判断所抽取的候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定候选歧义词是真歧义词还是伪歧义词,并且确定包含候选歧义词的第一语言句子是正例还是反例。
[0008]根据上述识别具有组合型歧义的歧义词的方法,其中,在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为真歧义词,并将包含真歧义词的第一语言句子作为反例。
[0009]根据上述识别具有组合型歧义的歧义词的方法,其中,在所抽取的候选歧义词的译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为伪歧义词,并将包含伪歧义词的第一语言句子作为正例。
[0010]根据上述识别具有组合型歧义的歧义词的方法,还包括:在第一语言单语语料中,根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。
[0011]根据上述识别具有组合型歧义的歧义词的方法,还包括:利用第一语言与第二语言词典,获取候选歧义词集合中的每个候选歧义词的所有译文;在第二语言单语语料中统计每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为每个候选歧义词的实际译文;对于每个候选歧义词的每个实际译文,在第二语言单语语料中选择固定词数的上下文作为特征词,并为每个特征词赋予对应的权重,从而由特征词及其对应的权重组成特征向量,以及将特征向量的集合作为共现模型;以及利用共现模型来判断包含候选歧义词的第一语言句子是正例还是反例。
[0012]根据本发明的另一实施例,提供了一种识别具有组合型歧义的歧义词的装置,包括:粗粒度切分单元,用于利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;检测单元,用于利用核心词表,在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;细粒度切分单元,用于通过分解候选歧义词,对第一语言句子进行细粒度切分;抽取单元,用于将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及确定单元,用于判断所抽取的候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中,以及判断所抽取的候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定候选歧义词是真歧义词还是伪歧义词,并且确定包含候选歧义词的第一语言句子是正例还是反例。
[0013]根据上述识别具有组合型歧义的歧义词的装置,其中,确定单元在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为真歧义词,并将包含真歧义词的第一语言句子作为反例。
[0014]根据上述识别具有组合型歧义的歧义词的装置,其中,确定单元在所抽取的候选歧义词的译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为伪歧义词,并将包含伪歧义词的第一语言句子作为正例。
[0015]根据上述识别具有组合型歧义的歧义词的装置,还包括:真伪歧义词判断单元,用于在第一语言单语语料中,根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。
[0016]根据上述识别具有组合型歧义的歧义词的装置,还包括:获取单元,用于利用第一语言与第二语言词典,获取候选歧义词集合中的每个候选歧义词的所有译文;选择单元,用于在第二语言单语语料中统计每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为每个候选歧义词的实际译文;特征向量生成单元,用于对于每个候选歧义词的每个实际译文,在第二语言单语语料中选择固定词数的上下文作为特征词,并为每个特征词赋予对应的权重,从而由特征词及其对应的权重组成特征向量,以及将特征向量的集合作为共现模型;以及正反例判断单元,用于利用共现模型来判断包含候选歧义词的第一语言句子是正例还是反例。
[0017]根据本发明,可以通过其他语言的辅助,来高效地和准确地识别具有组合型歧义的歧义词。另外,本发明不需要对使用的语料进行人工标注等加工,并且可以有效地自适应到目标领域。
【专利附图】

【附图说明】
[0018]本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
[0019]图1是示出根据本发明的实施例的识别具有组合型歧义的歧义词的方法的示意性流程图;
[0020]图2是示出根据本发明的实施例的根据候选歧义词的上下文特征集合来判断真伪歧义词的方法的示意性流程图;
[0021]图3是示出根据本发明的实施例的根据共现模型来判断正反例的方法的示意性流程图;[0022]图4是示出根据本发明的实施例的训练分类模型的方法的示意性流程图;
[0023]图5是示出根据本发明的实施例的利用分类模型来判断是否对候选歧义词进行切分的方法的示意性流程图;
[0024]图6是示出根据本发明的实施例的识别具有组合型歧义的歧义词的装置的示意性框图;
[0025]图7是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图;
[0026]图8是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图;
[0027]图9是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图;
[0028]图10是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图;以及
[0029]图11是示出可用于作为实施根据本发明的实施例的信息处理设备的示意性框图。
【具体实施方式】
[0030]在下文中将结合附图对本发明的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。
[0031]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。
[0032]下面将结合图1来描述根据本发明的实施例的识别具有组合型歧义的歧义词的方法。图1是示出根据本发明的实施例的识别具有组合型歧义的歧义词的方法的示意性流程图。
[0033]如图1所示,该处理在SlOO开始。接着,该处理前进到S102。
[0034]在S102,利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分。
[0035]核心词表表示分词系统所使用的基本汉语词典。现有技术中可以从各种途径获得基本汉语词典作为核心词表,其具体细节在此不再赘述。
[0036]平行语料库表示包含两种语言、即第一语言和第二语言的语料库,其中,两种语言以句子为单位互为译文。本文中,第一语言例如为汉语,而第二语言例如为英语,以及平行语料库例如为汉英双语平行语料库。本领域技术人员应当理解,第一语言和第二语言不限于汉语和英语,还可以是其他语言。
[0037]下文中,为了便于描述,以第一语言为汉语和第二语言为英语为例进行说明。假设汉语句子用S来表示,可以利用预先获得的核心词典对汉语句子S进行最大匹配切分,即按照核心词典中可能存在的最大长度的词为单位对汉语句子进行粗粒度切分,并将对汉语句子S进行粗粒度切分后得到的词串的集合表示为sw。
[0038]例如,假设在汉英双语平行语料库中存在第一语言句子(即汉语句子)S “在供料流中和在酹产物中”及其对应的第二语言句子(即英语句子)“in the feed stream and inthe phenol product”。可以利用预先获得的核心词典,按照核心词典中可能存在的最大长度的词为单位,例如将上述汉语句子S “在供料流中和在酚产物中”粗粒度切分为如下词串的集合Sw= { “在”、“供料”、“流”、“中和”、“在”、“酚”、“产物”、“中”}。由以上切分结果可见,因为在核心词典中,“中”、“和”以及“中和”都是存在于核心词典中的词,其中词“中”以及“和”的长度均为1,而词“中和”的长度为2,因此在粗粒度切分过程中,按照核心词典中可能存在的最大长度的词“中和”为单位,将“中和”切分为一个词。
[0039]在S102之后,该处理前进到S104。在S104,利用核心词表,在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合。
[0040]在步骤S102中对汉语句子S进行粗粒度切分得到词串的集合Sw之后,利用核心词表,在词串的集合3¥中检测能够被分解为更小粒度的多个词的候选歧义词W,并由候选歧义词w组成候选歧义词集合D。
[0041]还是以上述汉语句子“在供料流中和在酚产物中”为例,在步骤S102中将上述汉语句子S “在供料流中和在酚产物中”粗粒度切分为词串的集合sw={ “在”、“供料”、“流”、“中和”、“在”、“酚”、“产物”、“中”}之后,可以利用核心词表在上述分词结果中进行检测。通过检测发现,词“中和”能够被分解为更小粒度的两个词“中”以及“和”。因此,将词“中和”作为候选歧义词W。可以将检测出的所有候选歧义词组成候选歧义词集合D。
[0042]在S104之后,该处理前进到S106。在S106,通过分解候选歧义词,对第一语言句子进行细粒度切分。
[0043]在步骤S104中检测到候选歧义词w之后,可以通过将候选歧义词w进一步分解为更小粒度的多个词Wl、《2、……、&、……、《n,来对汉语句子S进行细粒度切分,并将得到的细粒度的词串的集合表示为S。,其中,I≤i≤n,i和n均为自然数。
[0044]接着上面的示例,因为在步骤S104中将词“中和”检测为候选歧义词W,因此可以通过将候选歧义词W “中和”进一步分解为词W1 “中”以及词W2 “和”,来将上述汉语句子S “在供料流中和在酚产物中”细粒度切分为词串的集合Sc=I “在”、“供料”、“流”、“中”、“和”、“在”、“酚”、“产物”、“中” }。
[0045]在S106之后,该处理前进到S108。在S108,将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文。
[0046]在步骤S102得到粗粒度切分后的词串的集合Sw以及在步骤S104得到细粒度切分后的词串的集合S。之后,可以将词串的集合Sw和S。中的词分别与汉语句子S所对应的英语句子中的英语词进行词对齐,以从英语句子中分别抽取候选歧义词w的译文Ew和候选歧义词w所分解成的更小粒度的词Wp w2、......、W1、......、wn的译文Ew1、Ew2、......、Ew1、......Ewn0
[0047]接着上面的示例,将粗粒度切分上述汉语句子S “在供料流中和在酚产物中”得到的粗粒度汉语词的集合Sw中的词“在”、“供料”、“流”、“中和”、“在”、“酚”、“产物”、“中”分别与对应的英语句子“in the feed stream and in the phenol product”中的词进行词对齐,也就是说,自动寻找汉语词与英语词之间的互译对应关系。例如,将词“在”与“in”对齐,将词“供料”与“feed”对齐,将词“流”与“stream”对齐,将词“中和”与“and”对齐,将词“在”以及“中”与“in”对齐,将词“酚”与“phenol”对齐,以及将词“产物”与“product”对齐。另外,现有技术中已经存在各种方法可以进行词对齐,其具体细节在此不再赘述。
[0048]根据以上词对齐的结果,由于将候选歧义词w “中和”与英语词“and”对齐,因此将英语词“and”抽取为候选歧义词“中和”的译文Ew。
[0049]类似地,将细粒度切分上述汉语句子S “在供料流中和在酚产物中”得到的细粒度汉语词的集合S。中的词“在”、“供料”、“流”、“中”、“和”、“在”、“酚”、“产物”、“中”分别与对应的英语句子“in the feed stream and in the phenol product”中的词进行词对齐,也就是说,自动寻找汉语词与英语词之间的互译对应关系。例如,将词“在”以及“中”与“in”对齐,将词“供料”与“feed”对齐,将词“流”与“stream”对齐,将词“和”与“and”对齐,将词“在”以及“中”与“ in”对齐,将词“酹”与“phenol ”对齐,以及将词“产物”与“product,,对齐。另外,现有技术中已经存在各种方法可以进行词对齐,其具体细节在此不再赘述。
[0050]根据以上词对齐的结果,由于将候选歧义词w “中和”所分解成的更小粒度的词W1 “中”与英语词“in”对齐,以及将候选歧义词w “中和”所分解成的更小粒度的词W2 “和”与英语词“and”对齐,因此将英语词“ in”抽取为候选歧义词w “中和”所分解成的更小粒度的词W1 “中”的译文Ewl,以及将英语词“and”抽取为候选歧义词w “中和”所分解成的更小粒度的词“和”的译文Ew2。
[0051]在S108之后,该处理前进到S110。在S110,判断所抽取的候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中,以及判断所抽取的候选歧义词所分解成的更小粒度的多个 词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定候选歧义词是真歧义词还是伪歧义词,并且确定包含候选歧义词的第一语言句子是正例还是反例。
[0052]第一语言与第二语言词典表示第一语言的词与第二语言的词之间的互译对应关系的词典。在本文中,第一语言与第二语言词典例如可以是汉英词典。可以根据第一语言与第二语言词典得到与第一语言的候选歧义词w对应的第二语言的所有译文tw。类似地,可以根据第一语言与第二语言词典得到与第一语言的候选歧义词W所分解成的更小粒度的
多个词W1、W2、......、W1、......、Wn对应的第二语言的所有译文twl、tw2、......、tw1、.......tm。然后,将所抽取的候选歧义词W的译文Ew与通过汉英词典得到的候选歧义词w的所有译文1进行比较,以判断£¥是否出现在^中;以及将所抽取的更小粒度的多个词W1、W2、……、Wi,……、wn的译文Ew1、Ew2、……、Ew1、……、Ewn分别与通过汉英词典得到的更小粒度的多
个词W1、W2、......、W1、......、Wn的所有译文twl、tw2、......、tw1、......、1^进行比较,以判断
Ewl> Ew2>......、Ew1、......、Ewn是否出现在twl、tw2、......、tw1、......、twn中,从而确定候选歧
义词w是真歧义词还是伪歧义词,并且确定包含候选歧义词w的第一语言句子S是正例还是反例。
[0053]接着上面的示例,根据汉英词典,可以得到与候选歧义词w “中和”对应的英语词tw为“neutralization”,neutralize”。类似地,根据汉英词典,可以得到与候选歧义词w “中和”所分解成的更小粒度的词W1 “中”对应的英语词twl为“in”、“middle”,以及可以得到与候选歧义词W “中和”所分解成的更小粒度的词W2 “和”对应的英语词tw2为“and”。然后,将所抽取的候选歧义词w “中和”的译文Ew “and”与通过汉英词典得到的候选歧义词w “中和”的所有译文 tw{ “neutralization”、“neutralize” }进行比较,以判断 Ew “and”是否出现在tw={ “neutralization”、“neutralize” }中,以及将将所抽取的更小粒度的多个词W1 “中”、w2 “和”的译文Ewl “in”、Ew2 “and”分别与通过汉英词典得到的更小粒度的多个词W1 “中”、w2 “和”的所有译文twl={ “in”、“middle”}、tw2={ “and”}进行比较,以判断Ewl “in,,、Ew2 “and”是否出现在 twl={ “in”、“middle” }、tw2={ “and,,}中,从而确定候选歧义词w “中和”是真歧义词还是伪歧义词,并且确定包含候选歧义词w “中和”的第一语言句子S “在供料流中和在酚产物中”是正例还是反例。
[0054]在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为真歧义词,并将包含真歧义词的第一语言句子作为反例。
[0055]如果所抽取的候选歧义词w的译文Ew没有出现在通过汉英词典得到的候选歧义
词W的所有译文tw中,并且所抽取的更小粒度的多个词Wp W2,......、Wp......、Wn的译文
Ewl> Ew2>......、Ew1、......、Ewn出现在通过汉英词典得到的更小粒度的多个词W:、w2、......、
Wi>......、wn的所有译文twl、tw2、......、tw1、......、twn中,则将候选歧义词w确定为真歧义
词,并将包含真歧义词w的第一语言句子S作为反例。
[0056]接着上面的示例,因为所抽`取的候选歧义词w“中和”的译文Ew“and”没有出现在通过汉英词典得到的候选歧义词w “中和”的所有译文tw{ “neutralization”、“neutralize”}中,并且所抽取的更小粒度的多个词W1 “中”、w2 “和”的译文Ewl “in”、Ew2 “and”出现在通过汉英词典得到的更小粒度的多个词W1 “中”、w2 “和”的所有译文twl={ “in”、“middle”}、tw2={ “and”}中,所以将候选歧义词w “中和”确定为真歧义词,并将包含真歧义词w “中和”的第一语言句子S “在供料流中和在酚产物中”作为反例。
[0057]在所抽取的候选歧义词的译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为伪歧义词,并将包含伪歧义词的第一语言句子作为正例。
[0058]如果所抽取的候选歧义词w的译文Ew出现在通过汉英词典得到的候选歧义词w
的所有译文、中,并且所抽取的更小粒度的多个词Wl、w2、......、W1、......、wn的译文Ewl、
Ew2>……、Ew1、……、E^/没有出现在通过汉英词典得到的更小粒度的多个词Wl、w2、……、
Wi>......、Wn的所有译文twl、tw2、......、tw1、......、twn中,则将候选歧义词W确定为伪歧义
词,并将包含伪歧义词W的第一语言句子S作为正例。
[0059]最后,该处理在S112处结束。
[0060]根据本实施例的方法,可以通过其他语言的辅助,来高效地和准确地识别具有组合型歧义的歧义词。而且,根据本实施例的方法,不需要对使用的语料进行人工标注等加工,并且可以有效地自适应到目标领域。[0061]下面结合图2来描述根据本发明的实施例的根据候选歧义词的上下文特征集合来判断真伪歧义词的方法。图2是示出根据本发明的实施例的根据候选歧义词的上下文特征集合来判断真伪歧义词的方法的示意性流程图。
[0062]如图2所示,该处理开始于S200。
[0063]在S200之后,该处理前进到S202。在S202,在第一语言单语语料中,根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。
[0064]当词语的意思发生变化的时候,其对应的上下文也很可能发生变化。因此,可以通过考察词的上下文来判断一个词是否具有歧义。
[0065]假设词w可以分解为W1和W2,可以从汉语单语语料中找出Wl、W2单独出现时经常与W、W2搭配的上下文。例如,对于W1,可以设置一个大小为N的窗口,统计所有出现在该窗口内的上下文,最后取权值Weighi^w1, Wi)最高的m个词作为W1的常用上下文。权值Weight(W11Wi)可由下面的公式得到:
【权利要求】
1.一种识别具有组合型歧义的歧义词的方法,包括: 利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分; 利用所述核心词表,在所述粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合; 通过分解所述候选歧义词,对所述第一语言句子进行细粒度切分; 将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通过细粒度切分所述第一语言句子得到的细粒度第一语言词分别与所述第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从所述第二语言句子中分别抽取所述候选歧义词的译文、和所述候选歧义词所分解成的更小粒度的多个词的译文;以及 判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的所述候选歧义词的所有译文中,以及判断所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定所述候选歧义词是真歧义词还是伪歧义词,并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。
2.根据权利要求1所述的识别具有组合型歧义的歧义词的方法,其中,在所抽取的所述候选歧义词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为真歧义词,并将包含所述真歧义词的所述第一语言句子作为反例。`
3.根据权利要求1所述的识别具有组合型歧义的歧义词的方法,其中,在所抽取的所述候选歧义词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为伪歧义词,并将包含所述伪歧义词的所述第一语言句子作为正例。
4.根据权利要求1-3中任一项所述的识别具有组合型歧义的歧义词的方法,还包括: 在第一语言单语语料中,根据所述候选歧义词的上下文特征集合来判断所述候选歧义词是真歧义词还是伪歧义词。
5.根据权利要求1-3中任一项所述的识别具有组合型歧义的歧义词的方法,还包括: 利用所述第一语言与第二语言词典,获取所述候选歧义词集合中的每个候选歧义词的所有译文; 在第二语言单语语料中统计所述每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为所述每个候选歧义词的实际译文; 对于所述每个候选歧义词的每个实际译文,在所述第二语言单语语料中选择固定词数的上下文作为特征词,并为每个所述特征词赋予对应的权重,从而由所述特征词及其对应的权重组成特征向量,以及将所述特征向量的集合作为共现模型;以及 利用所述共现模型来判断包含所述候选歧义词的第一语言句子是正例还是反例。
6.一种识别具有组合型歧义的歧义词的装置,包括: 粗粒度切分单元,用于利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分; 检测单元,用于利用所述核心词表,在所述粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合; 细粒度切分单元,用于通过分解所述候选歧义词,对所述第一语言句子进行细粒度切分; 抽取单元,用于将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通过细粒度切分所述第一语言句子得到的细粒度第一语言词分别与所述第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从所述第二语言句子中分别抽取所述候选歧义词的译文、和所述候选歧义词所分解成的更小粒度的多个词的译文;以及 确定单元,用于判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的所述候选歧义词的所有译文中,以及判断所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定所述候选歧义词是真歧义词还是伪歧义词,并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。
7.根据权利要求6所述的识别具有组合型歧义的歧义词的装置,其中,所述确定单元在所抽取的所述候选歧义词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为真歧义词,并将包含所述真歧义词的所述第一语言句子作为反例。
8.根据权利要求6所述的识别具有组合型歧义的歧义词的装置,其中,所述确定单元在所抽取的所述候选歧义词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为伪歧义词,并将包含所述伪歧义词的所述第一语言句子作为正例。
9.根据权利要求6-8中任一项所述的识别具有组合型歧义的歧义词的装置,还包括: 真伪歧义词判断单元,用于在第一语言单语语料中,根据所述候选歧义词的上下文特征集合来判断所述候选歧义词是真歧义词还是伪歧义词。
10.根据权利要求6-8中任一项所述的识别具有组合型歧义的歧义词的装置,还包括: 获取单元,用于利用所述第一语言与第二语言词典,获取所述候选歧义词集合中的每个候选歧义词的所有译文;选择单元,用于在第二语言单语语料中统计所述每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为所述每个候选歧义词的实际译文;特征向量生成单元,用于对于所述每个候选歧义词的每个实际译文,在所述第二语言单语语料中选择固定词数的上下文作为特征词,并为每个所述特征词赋予对应的权重,从而由所述特征词及其对应的权重组成特征向量,以及将所述特征向量的集合作为共现模型;以及 正反例判断单元,用于利用所述共现模型来判断包含所述候选歧义词的第一语言句子是正例还 是反例。
【文档编号】G06F17/27GK103514150SQ201210211767
【公开日】2014年1月15日 申请日期:2012年6月21日 优先权日:2012年6月21日
【发明者】郑仲光, 孟遥, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1