歧义消解的方法和系统的制作方法

文档序号:6549763阅读:257来源:国知局
歧义消解的方法和系统的制作方法
【专利摘要】本发明实施例公开了一种语言处理技术,尤其涉及一种歧义消解的方法和系统,用以通过新的方式实现在人机交互过程中处理器对语言的歧义消解。本发明实施例利用静态知识和动态知识之间的关系,对自然语言歧义进行动态分析,首先在词法分析阶段采用回溯试探切词算法进行歧义消解,对于未消除歧义的切词结果进行句法、语义、以及篇章分析。根据切词结果中的各个切词词组在知识库中进行匹配,在匹配到对应的歧义格式或多义词后,对具体的多义词引起的歧义和歧义结构引起的歧义进行重点分析,选取优先度最高的实例化表示作为正确的语义表示,由此可以快速将存在歧义的语句进行实例化表示,并在这些实例化表示中选取正确的语义表示,快速准确地消除歧义。
【专利说明】歧义消解的方法和系统

【技术领域】
[0001]本发明涉及语言处理技术,尤其涉及一种歧义消解的方法和系统。

【背景技术】
[0002]随着电子信息技术的发展,越来越多的智能电视具备语音交互的功能,因此需要使智能电视能够准确识别语言的语义。而歧义问题是语言中普遍存在的现象,主要包括由多义词引起的歧义以及由歧义结构引起的歧义。其中,歧义结构是指由多个词语或者短语组合的构成形式,由于各个词语或者短语之间能够形成多种内部关系,由此所引起的歧义,例如“了解中国的留学生”、“咬死了猎人的狗”等。
[0003]现有技术中采用的方法是以语句中的某一动词作为语句核心,将切词出现的动词歧义结果上升到句法分析的层面,通过句子全局语义核心的预期知识对歧义结构进行判断,得到歧义结构的合理语义表示。而除了上述方法外,目前还没有其它能够应用于人机交互的歧义消解方法。


【发明内容】

[0004]本发明实施例提供一种歧义消解的方法和系统,用以通过新的方式实现在人机交互过程中处理器对语言的歧义消解。
[0005]本发明实施例提供的一种歧义消解的方法,该方法包括:
[0006]确定语句的切词结果中的切词词组的词性;
[0007]根据所述切词词组的词性,将所述切词结果与知识库中的歧义格式进行匹配,确定所述切词结果中存在歧义的切词词组的组合;
[0008]在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示;
[0009]选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。
[0010]较佳地,在确定语句的切词结果中的切词词组的词性之前,还包括:
[0011]根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;
[0012]对预切分后的语句进行切词处理,获得所述语句的切词结果。
[0013]较佳地,根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示,包括:
[0014]根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对单义式的语序及结构进行调整;
[0015]将所述存在歧义的切词词组的组合中的切词词组,代入所述调整后的单义式中,获得所述单义式的实例化表示。
[0016]较佳地,选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示,包括:
[0017]进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示;
[0018]若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表示;
[0019]若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最高的实例化表示;
[0020]将所述优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表
/Jn ο
[0021]本发明实施例提供的另一种歧义消解的方法,该方法包括:
[0022]将语句的切词结果中的切词词组与知识库中的多义词组进行匹配,确定所述切词结果中存在的多义词组;
[0023]在知识库中查找所述多义词组对应的词项变体,并根据所述词项变体与其它切词词组的搭配限制关系,对所述切词结果进行实例化表示,其中所述词项变体记录有所述多义词组的词义及词性;
[0024]选取优先度最高的实例化表示作为所述切词结果的语义表示。
[0025]较佳地,在将语句的切词结果中的切词词组与知识库中的多义词组进行匹配之前,还包括:
[0026]根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;
[0027]对预切分后的语句进行切词处理,获得所述语句的切词结果。
[0028]较佳地,选取优先度最高的实例化表示作为所述切词结果的语义表示,包括:
[0029]进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示;
[0030]若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表示;
[0031]若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最高的实例化表示;
[0032]将所述优先度最高的实例化表示作为所述切词结果的语义表示。
[0033]较佳地,上述方法还包括:
[0034]将所述将语句的切词结果与知识库中预设的词组组合关系进行匹配,若所述知识库中未匹配到所述切词结果中多个连续的切词词组的组合关系,则将所述多个连续的切词词组的组合确定为未登录词;
[0035]根据所述未登录词中各个切词词组的搭配限制关系,确定所述未登录词的词性;
[0036]记录所述未登录词被识别为该词性的频率和次数;
[0037]当所述频率和次数超过阈值时,将所述未登录词添加至知识库中。
[0038]本发明实施例提供的一种歧义消解的系统,该系统包括:
[0039]词性确定模块,用于确定语句的切词结果中的切词词组的词性;
[0040]第一匹配模块,用于根据所述切词词组的词性,将所述切词结果与知识库中的歧义格式进行匹配,确定所述切词结果中存在歧义的切词词组的组合;
[0041 ] 第一实例化模块,用于在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示;
[0042]第一语义确定模块,用于选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。
[0043]较佳地,该系统还包括:
[0044]第一切词模块,用于在确定语句的切词结果中的切词词组的词性之前,根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;以及对预切分后的语句进行切词处理,获得所述语句的切词结果。
[0045]较佳地,所述第一实例化模块,具体用于:
[0046]在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式;
[0047]根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对单义式的语序及结构进行调整;
[0048]将所述存在歧义的切词词组的组合中的切词词组,代入所述调整后的单义式中,获得所述单义式的实例化表示。
[0049]较佳地,所述第一语义确定模块,具体用于:
[0050]进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示;
[0051]若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表示;
[0052]若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最高的实例化表示;
[0053]将所述优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表
/Jn ο
[0054]本发明实施例提供的另一种歧义消解的系统,该系统包括:
[0055]第二匹配模块,用于将语句的切词结果中的切词词组与知识库中的多义词组进行匹配,确定所述切词结果中存在的多义词组;
[0056]第二实例化模块,用于在知识库中查找所述多义词组对应的词项变体,并根据所述词项变体与其它切词词组的搭配限制关系,对所述切词结果进行实例化表示,其中所述词项变体记录有所述多义词组的词义及词性;
[0057]第二语义确定模块,用于选取优先度最高的实例化表示作为所述切词结果的语义表不。
[0058]较佳地,该系统还包括:
[0059]第二切词模块,用于在将语句的切词结果中的切词词组与知识库中的多义词组进行匹配之前,根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;以及对预切分后的语句进行切词处理,获得所述语句的切词结果。
[0060]较佳地,所述第二语义确定模块,具体用于:
[0061]进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示;
[0062]若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表示;
[0063]若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最高的实例化表示;
[0064]将所述优先度最高的实例化表示作为所述切词结果的语义表示。
[0065]较佳地,上述系统还包括:
[0066]识别模块,用于将所述将语句的切词结果与知识库中预设的词组组合关系进行匹配,若所述知识库中未匹配到所述切词结果中多个连续的切词词组的组合关系,则将所述多个连续的切词词组的组合确定为未登录词;根据所述未登录词中各个切词词组的搭配限制关系,确定所述未登录词的词性;记录所述未登录词被识别为该词性的频率和次数;当所述频率和次数超过阈值时,将所述未登录词添加至知识库中。
[0067]本发明实施例在对语句进行切词处理后,根据切词结果中的各个切词词组在知识库中进行匹配,在匹配到对应的歧义格式或者多义词后,能够确定语句中存在的歧义。然后在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式或者多义词所对应的词项变体,并根据语句的切词结果中切词词组的搭配限制关系,进行实例化表示,并选取优先度最高的实例化表示作为正确的语义表示。通过查找知识库中预先保存的静态知识,可以快速将存在歧义的语句进行实例化表示,并在这些实例化表示中选取正确的语义表示,快速准确地消除歧义。

【专利附图】

【附图说明】
[0068]图1为本发明实施例一提供的一种歧义消解的方法的流程图;
[0069]图2为本发明实施例一中对单义式进行实例化过程的流程图;
[0070]图3为本发明实施例一中确定语义表示过程的流程图;
[0071]图4为本发明实施例一中进行未登录词识别过程的流程图;
[0072]图5为本发明实施例二提供的另一种歧义消解的方法的流程图;
[0073]图6为本发明实施例三提供的一种针对歧义结构进行歧义消解的系统的结构示意图;
[0074]图7为本发明实施例四提供的一种针对多义词进行歧义消解的系统的结构示意图。

【具体实施方式】
[0075]本发明实施例中,在对语句进行切词处理后,根据切词结果中的各个切词词组在知识库中进行匹配,在匹配到对应的歧义格式或者多义词后,能够确定语句中存在的歧义。然后在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式或者多义词所对应的词项变体,并根据语句的切词结果中切词词组的搭配限制关系,进行实例化表示,并选取优先度最高的实例化表示作为正确的语义表示。
[0076]在处理过程中,通过查找知识库中预先保存的静态知识,可以快速将存在歧义的语句进行实例化表示,并在这些实例化表示中选取正确的语义表示,快速准确地消除歧义。其中,知识库中的静态知识用于描述词语之间的搭配限制关系、词语的语义以及相互之间的逻辑常识,例如某一动词和名词之间的关联,可能存在的搭配关系等。上述静态知识均与词语之间建立有对应关系,通过查找词语即可确定与该词语相关的静态知识。
[0077]下面结合说明书附图对本发明实施例作进一步详细描述。
[0078]如图1所示,本发明实施例一提供的一种歧义消解的方法,可以应用于计算机、智能电视、平板电脑或者手机等终端设备,以实现人机交互时的歧义消解。该方法包括:
[0079]步骤101,确定语句的切词结果中的切词词组的词性。切词词组的选取由具体所采用的切词算法决定,可以是单个的词,也可以是由多个词组成的短语。词性的确定是根据预先设定的词语和词性之间的对应关系来实现,将获得的切词词组在知识库中进行查找,查找到该切词词组的词性后,将该词性进行标记。
[0080]步骤102,根据切词词组的词性,将切词结果与知识库中的歧义格式进行匹配,确定切词结果中存在歧义的切词词组的组合。歧义格式为存在歧义的切词词组的组合的形式化表示,例如“了解/中国/的/留学生”中,“了解”、“中国”、“留学生”的词性依次为动词、名词和名词。在对“了解/中国/的/留学生”这个切词词组的组合进行匹配时,能够在知识库中匹配到对应的歧义格式:“VP+NP1+的+NP2”。
[0081]步骤103,在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对单义式进行实例化表示。
[0082]知识库除了预先保存有歧义格式,还保存有该歧义格式所对应的相关静态知识,例如该歧义格式所对应的单义式以及存在歧义的切词词组的组合中各个切词词组的搭配限制关系等。单义式即该歧义格式的理解方式,例如歧义格式“VP+NP1+的+NP2”的单义式数量为2,分别有动宾“VP+(NPl+的+NP2) ”和偏正“(VP+NP1+的)+NP2”两种单义式,即存在上述两种理解方式。
[0083]在查找到单义式之后,可以根据知识库中所保存的切词词组的搭配限制关系,来对单义式进行实例化表示。本实施例中采用如图2所示的方式对单义式进行实例化表示,包括以下步骤:
[0084]步骤201,根据存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对单义式的语序及结构进行调整。其中切词词组的搭配限制关系是用于描述各类词之间关系的静态知识,用于确定各个切词词组之间如何搭配之后可以消除歧义,例如通过调整语序及结构的方式。以“了解/中国/的/留学生”为例,对其两种单义式进行实例化。对于第一种单义式“VP+(NPl+的+NP2) ”,将语序调整为NP1+VP+的+NP2,同时在NPl前增加介词;而对于第二种单义式“(VP+NP1+的)+NP2”,将语序调整为NP2+VP+NP1。
[0085]步骤202,将存在歧义的切词词组的组合中的切词词组,代入调整后的单义式中,获得单义式的实例化表示,所获得的两个实例化表示分别为“对中国了解的留学生”和“留学生了解中国”。本步骤通过语句中的具体概念激活了保存于知识库中的静态知识,使得单义式以及切词词组之间的搭配限制关系等静态知识动态化,得到实例化表示。
[0086]步骤104,选取优先度最高的实例化表示作为存在歧义的切词词组的组合的语义表示。由此排除了表示其它含义的语义表示,实现了歧义消解。为了确定优先度最高的实例化表示,本发明实施例提供了如图3的方法,具体包括:
[0087]步骤301,进行对实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示。
[0088]例如,对上述的两个实例化表示“对中国了解的留学生”和“留学生了解中国”进行语句内的语义消歧,原语句为“我/ 了解/中国/的/留学生”,该存在歧义的切词词组的组合之前的为主语“我”,对于第二种实例化表示,无法查找到对应的语义搭配关系,由此确定不符合语义,而第一种实例化表示,则可以查找到对应的语义搭配关系,因而保留第一种实例化表示。而篇章消歧根据前后语句所得到的语义对该语句的语义进行限定,排除不符合的语义限定范围内的实例化表示,例如后续语句所表述的语义均为留学生的情况,因此该句的语义中了解的宾语应当是留学生,由此排除第二中实例化表示。在具体实施时,可以采用采用其中一种方式,也可以同时或者依次采用上述两种消歧方式。
[0089]步骤302,判断保留的实例化表示的数量是否超过一个,若只有一个,则执行步骤303 ;若超过一个,则执行步骤304。
[0090]步骤303,将保留的实例化表不确定为优先度最闻的实例化表不;
[0091]步骤304,将认知频率最高的实例化表示确定为优先度最高的实例化表示,其中认知频率是指歧义结构被理解为该单义式所对应的实例化表示的频率,即该实例化表示所指示的语义的可接受度。
[0092]步骤305,将优先度最高的实例化表示作为存在歧义的切词词组的组合的语义表
/Jn ο
[0093]在确定语句的切词结果中的切词词组的词性之前,还需要对语句进行切词处理,本发明实施例中所采用的方式如图4所示,包括:
[0094]根据切分标志和固定词对语句进行预切分,其中切分标志包括字母、数字和符号;以数字为例,可以在进行切词处理之前,在语句中扫描出数字,然后在数字的左右位置扫描量词、前缀词等,将包含数字及其量词、前缀词的短语单独作为一个切词词组。例如,对“北京举办第29届奥运会”进行预切分,其中,通过与知识库中预先保存的静态知识进行匹配,能够确定“第”为前缀词,“届”为量词,则会先切分出“北京举办/第29届/奥运会”。
[0095]对预切分后的语句进行切词处理,获得语句的切词结果。根据所采用的切词算法不同,得到的切词结果也不相同,本发明实施例基于最长切词原则,具体可以采用MM (Maximum Matching,正向最大匹配切词)算法或者 RMM (Reverse Maximum Matching,逆向最大切词)算法。
[0096]由于在切词处理的过程中,可识别的固定词越多,那么切词结果就越准确,因此该方法还包括了对于未登录词的识别处理过程,具体流程如图4所示,包括:
[0097]步骤401,将语句的切词结果与知识库中预设的词组组合关系进行匹配,若知识库中未匹配到切词结果中多个连续的切词词组的组合关系,则将多个连续的切词词组的组合确定为未登录词。对于第一次出现的未登录词,其切词的结果往往以多个切词词组的组合的形式出现,例如“刘德华”这个词,其切词结果是“刘/德/华”,此时会将“刘德华”确定为未登录词。
[0098]步骤402,根据未登录词中各个切词词组的搭配限制关系,确定未登录词的词性。根据知识库中预先保存的静态知识,“刘”是表示姓氏的词,其处于词的第一位时,该词可能属于一个姓名,因此确定“刘德华”的词性为名词。
[0099]步骤403,记录未登录词被识别为该词性的频率和次数;
[0100]步骤404,当频率和次数超过阈值时,将未登录词添加至知识库中。此后,若输入“我想看刘德华的电影”,那么其切词结果为“我/想看/刘德华/的/电影”,能够直接识别出“刘德华”这个词。
[0101]除了上述针对由歧义结构引起的歧义进行歧义消解的方案,在实际应用中还会有由多义词引起歧义的情况,本发明实施例还提供了一种针对由多义词引起歧义的情况的解决方案。
[0102]如图5所示,本发明实施例二提供了另一种歧义消解的方法,该方法包括:
[0103]步骤501,将语句的切词结果中的切词词组与知识库中的多义词进行匹配,确定切词结果中存在的多义词。以语句“母亲背着儿子去捡垃圾”为例,切词结果为“母亲/背着/儿子/去/捡/垃圾”。由于知识库中已经预先保存了多义词“背着”,通过匹配知识库可以确定切词结果中存在的多义词。
[0104]步骤502,在知识库中查找多义词对应的词项变体,并根据词项变体与其它切词词组的搭配限制关系,对切词结果进行实例化表示。在知识库中通过统一的模版保存多义词及其对应的词项变体的相关信息,其保存形式可以采用如下的格式:
[0105]多义词的信息模版:
[0106](背着(词名:背着)(词项变体数量:2))
[0107]多义词对应的词项变体的信息模版:
[0108](背着(词名:背着)(词性:动词)(词义:放置在背上))
[0109](背着(词名:背着)(词性:动词)(词义:隐瞒))
[0110]此外,与实施例一中类似,由于搭配限制关系是用于描述各类词之间关系的静态知识,用于确定各个切词词组之间如何搭配之后可以消除歧义。在对切词结果进行实例化表示时,还需要调整相关切词词组的语序。最终可以得到两种实例化表示为:第一种为:“母亲把儿子放置在背上去捡垃圾”,第二种为:“母亲瞒着儿子去捡垃圾”。
[0111]步骤503,选取优先度最高的实例化表示作为切词结果的语义表示。本步骤的处理方式与实施例一中相应的步骤类似,首先进行对实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示。
[0112]在对上述两个实例化表示进行语句内的语义消歧时,由于在语句内这两均符合语义,因此无法排除不符合语义的实例化表示。而在进行篇章消歧时,若前后语句的语义中已经包含儿子是刚满月,那么由于“背着”的第二个此项变体中,“隐瞒”的宾语必须是有具有认知能力的人,而刚满月的儿子不属于具有认知能力的人,由此可以排除第二个实例化表示。上述消歧过程所需要用到的语义知识均通过预先定义的方式保存于知识库中,包括动词语义库、名词语义库、介词语义库和量词语义库等,主要保存各类词之间的语义关系。
[0113]同样,在具体实施时,可以采用采用其中一种方式,也可以同时或者依次采用上述两种消歧方式。
[0114]然后,根据保留的实例化表示的数量执行对应的处理过程。若仅保留了一个实例化表示,那么直接将其确定为优先度最高的实例化表示,来作为最终的语义表示;若保留有至少两个,那么还需要将认知频率最高的实例化表示确定为优先度最高的实例化表示,来作为最终的语义表示。
[0115]较佳地,在将语句的切词结果中的切词词组与知识库中的多义词进行匹配之前,还包括:
[0116]根据切分标志和固定词对语句进行预切分,其中切分标志包括字母、数字和符号;
[0117]对预切分后的语句进行切词处理,获得语句的切词结果。
[0118]较佳地,本发明实施例二中的方法还包括:
[0119]将将语句的切词结果与知识库中预设的词组组合关系进行匹配,若知识库中未匹配到切词结果中多个连续的切词词组的组合关系,则将多个连续的切词词组的组合确定为未登录词;
[0120]根据未登录词中各个切词词组的搭配限制关系,确定未登录词的词性;
[0121]记录未登录词被识别为该词性的频率和次数;
[0122]当频率和次数超过阈值时,将未登录词添加至知识库中。
[0123]为达到更好地歧义消解效果,本发明实施例一和实施例二中所提供的歧义消解的方法可以在不产生冲突的前提下同时使用。
[0124]针对上述对歧义结构和多义词进行歧义消解的方法流程,本发明实施例还提供了歧义消解的系统,该系统的具体内容可以参照上述方法的实施,在此不再赘述。
[0125]如图6所示,本发明实施例三提供了一种对歧义结构进行歧义消解的系统,该系统包括:
[0126]词性确定模块610,用于确定语句的切词结果中的切词词组的词性;
[0127]第一匹配模块620,用于根据切词词组的词性,将切词结果与知识库中的歧义格式进行匹配,确定切词结果中存在歧义的切词词组的组合;
[0128]第一实例化模块630,用于在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对单义式进行实例化表示;
[0129]第一语义确定模块640,用于选取优先度最高的实例化表不作为存在歧义的切词词组的组合的语义表示。
[0130]第一切词模块650,用于在确定语句的切词结果中的切词词组的词性之前,对语句进行切词处理。
[0131]较佳地,第一切词模块650,具体用于:
[0132]根据切分标志和固定词对语句进行预切分,其中切分标志包括字母、数字和符号;以及对预切分后的语句进行切词处理,获得语句的切词结果。
[0133]较佳地,第一实例化模块630,具体用于:
[0134]在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式;
[0135]根据存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对单义式的语序及结构进行调整;
[0136]将存在歧义的切词词组的组合中的切词词组,代入调整后的单义式中,获得单义式的实例化表不。
[0137]较佳地,第一语义确定模块640,具体用于:
[0138]进行对实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示;
[0139]若保留的实例化表示的数量为一个,则将实例化表示确定为优先度最高的实例化表不;
[0140]若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最高的实例化表示;
[0141]将优先度最高的实例化表示作为存在歧义的切词词组的组合的语义表示。
[0142]较佳地,该系统还包括:
[0143]识别模块,用于将将语句的切词结果与知识库中预设的词组组合关系进行匹配,若知识库中未匹配到切词结果中多个连续的切词词组的组合关系,则将多个连续的切词词组的组合确定为未登录词;根据未登录词中各个切词词组的搭配限制关系,确定未登录词的词性;记录未登录词被识别为该词性的频率和次数;当频率和次数超过阈值时,将未登录词添加至知识库中。
[0144]如图7所示,本发明实施例四提供了一种对多义词进行歧义消解的系统,该系统包括:
[0145]第二匹配模块710,用于将语句的切词结果中的切词词组与知识库中的多义词组进行匹配,确定切词结果中存在的多义词组;
[0146]第二实例化模块720,用于在知识库中查找多义词组对应的词项变体,并根据词项变体与其它切词词组的搭配限制关系,对切词结果进行实例化表示,其中词项变体记录有多义词组的词义及词性;
[0147]第二语义确定模块730,用于选取优先度最高的实例化表示作为切词结果的语义表不。
[0148]第二切词模块740,用于在将语句的切词结果中的切词词组与知识库中的多义词组进行匹配之前,对语句进行切词处理。
[0149]较佳地,第二切词模块740,具体用于:
[0150]根据切分标志和固定词对语句进行预切分,其中切分标志包括字母、数字和符号;以及对预切分后的语句进行切词处理,获得语句的切词结果。
[0151]较佳地,第二语义确定模块730,具体用于:
[0152]进行对实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示;
[0153]若保留的实例化表示的数量为一个,则将实例化表示确定为优先度最高的实例化表不;
[0154]若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最高的实例化表示;
[0155]将优先度最高的实例化表示作为切词结果的语义表示。
[0156]较佳地,该系统还包括:
[0157]识别模块,用于将将语句的切词结果与知识库中预设的词组组合关系进行匹配,若知识库中未匹配到切词结果中多个连续的切词词组的组合关系,则将多个连续的切词词组的组合确定为未登录词;根据未登录词中各个切词词组的搭配限制关系,确定未登录词的词性;记录未登录词被识别为该词性的频率和次数;当频率和次数超过阈值时,将未登录词添加至知识库中。
[0158]从上述内容可以看出:在对语句进行切词处理后,根据切词结果中的各个切词词组在知识库中进行匹配,在匹配到对应的歧义格式或者多义词后,能够确定语句中存在的歧义。然后在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式或者多义词所对应的词项变体,并根据语句的切词结果中切词词组的搭配限制关系,进行实例化表示,并选取优先度最高的实例化表示作为正确的语义表示。通过查找知识库中预先保存的静态知识,可以快速将存在歧义的语句进行实例化表示,并在这些实例化表示中选取正确的语义表示,快速准确地消除歧义。
[0159]本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0160]本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0161]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0162]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0163]尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
[0164]显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
【权利要求】
1.一种歧义消解的方法,其特征在于,该方法包括: 确定语句的切词结果中的切词词组的词性; 根据所述切词词组的词性,将所述切词结果与知识库中的歧义格式进行匹配,确定所述切词结果中存在歧义的切词词组的组合; 在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示; 选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。
2.如权利要求1所述的方法,其特征在于,在确定语句的切词结果中的切词词组的词性之前,还包括: 根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号; 对预切分后的语句进行切词处理,获得所述语句的切词结果。
3.如权利要求1所述的方法,其特征在于,根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示,包括: 根据所述存在歧 义的切词词组的组合中各个切词词组的搭配限制关系,对单义式的语序及结构进行调整; 将所述存在歧义的切词词组的组合中的切词词组,代入所述调整后的单义式中,获得所述单义式的实例化表示。
4.如权利要求1所述的方法,其特征在于,选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示,包括: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示; 若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表不; 若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最闻的实例化表不; 将所述优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。
5.—种歧义消解的方法,其特征在于,该方法包括: 将语句的切词结果中的切词词组与知识库中的多义词组进行匹配,确定所述切词结果中存在的多义词组; 在知识库中查找所述多义词组对应的词项变体,并根据所述词项变体与其它切词词组的搭配限制关系,对所述切词结果进行实例化表示,其中所述词项变体记录有所述多义词组的词义及词性; 选取优先度最高的实例化表示作为所述切词结果的语义表示。
6.如权利要求5所述的方法,其特征在于,在将语句的切词结果中的切词词组与知识库中的多义词组进行匹配之前,还包括: 根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;对预切分后的语句进行切词处理,获得所述语句的切词结果。
7.如权利要求5所述的方法,其特征在于,选取优先度最高的实例化表示作为所述切词结果的语义表示,包括: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示; 若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表不; 若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最闻的实例化表不; 将所述优先度最高的实例化表示作为所述切词结果的语义表示。
8.如权利要求1~7中任一所述的方法,其特征在于,该方法还包括: 将所述语句的切词结果与知识库中预设的词组组合关系进行匹配,若所述知识库中未匹配到所述切词结果中多个连续的切词词组的组合关系,则将所述多个连续的切词词组的组合确定为未登录词; 根据所述未登录词中各个切词词组的搭配限制关系,确定所述未登录词的词性; 记录所述未登录词被识别为该词性的频率和次数; 当所述频率和次数超过阈值时,将所述未登录词添加至知识库中。
9.一种歧义消解的系统,其特征在于,该系统包括: 词性确定模块,用于确定语句的切词结果中的切词词组的词性; 第一匹配模块,用于根据所述切词词组的词性,将所述切词结果与知识库中的歧义格式进行匹配,确定所述切词结果中存在歧义的切词词组的组合; 第一实例化模块,用于在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示; 第一语义确定模块,用于选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。
10.如权利要求9所述的系统,其特征在于,该系统还包括: 第一切词模块,用于在确定语句的切词结果中的切词词组的词性之前,根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;以及对预切分后的语句进行切词处理,获得所述语句的切词结果。
11.如权利要求9所述的系统,其特征在于,所述第一实例化模块,具体用于: 在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式; 根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对单义式的语序及结构进行调整; 将所述存在歧义的切词词组的组合中的切词词组,代入所述调整后的单义式中,获得所述单义式的实例化表示。
12.如权利要求9所述的系统,其特征在于,所述第一语义确定模块,具体用于: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示;若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表不; 若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最闻的实例化表不; 将所述优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。
13.一种歧义消解的系统,其特征在于,该系统包括: 第二匹配模块,用于将语句的切词结果中的切词词组与知识库中的多义词组进行匹配,确定所述切词结果中存在的多义词组; 第二实例化模块,用于在知识库中查找所述多义词组对应的词项变体,并根据所述词项变体与其它切词词组的搭配限制关系,对所述切词结果进行实例化表示,其中所述词项变体记录有所述多义词组的词义及词性; 第二语义确定模块,用于选取优先度最高的实例化表示作为所述切词结果的语义表/Jn ο
14.如权利要求13所述的系统,其特征在于,该系统还包括: 第二切词模块,用 于在将语句的切词结果中的切词词组与知识库中的多义词组进行匹配之前,根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;以及对预切分后的语句进行切词处理,获得所述语句的切词结果。
15.如权利要求13所述的系统,其特征在于,所述第二语义确定模块,具体用于: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示; 若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表不; 若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最闻的实例化表不; 将所述优先度最高的实例化表示作为所述切词结果的语义表示。
16.如权利要求9~15中任一所述的系统,其特征在于,该系统还包括: 识别模块,用于将所述将语句的切词结果与知识库中预设的词组组合关系进行匹配,若所述知识库中未匹配到所述切词结果中多个连续的切词词组的组合关系,则将所述多个连续的切词词组的组合确定为未登录词;根据所述未登录词中各个切词词组的搭配限制关系,确定所述未登录词的词性;记录所述未登录词被识别为该词性的频率和次数;当所述频率和次数超过阈值时,将所述未登录词添加至知识库中。
【文档编号】G06F17/27GK104050157SQ201410267418
【公开日】2014年9月17日 申请日期:2014年6月16日 优先权日:2014年6月16日
【发明者】李霞, 王勇进, 王峰 申请人:海信集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1