一种基于词缀的用于对未知词进行语义分类的方法

文档序号:6377704阅读:172来源:国知局
专利名称:一种基于词缀的用于对未知词进行语义分类的方法
CN 102929858 A书明说1/3页—种基于词缀的用于对未知词进行语义分类的方法技术领域
本发明属于自然语言处理技术领域,涉及一种基于词缀的用于对未知词进行语义分类的方法。
背景技术
通常,用户能够先获得描述单词的某些字典。这些字典可以描述单词的出处(例如,通常在哪一段话中出现的等等)、语义类(例如人、事件、情感等等)、含义和例句等。对于那些没有出现在字典中的词我们称为“未知词”。一般而言,未知词可以来源于某些新词。
在文本信息处理中,未知词的出现常常会给用户带来麻烦,由于它的信息(例如例句、语义类等)的不足。
为解决上述麻烦,一种做法是用户在未知词出现时更新字典。但是这一做法在一般情况下很困难,原因如下(I)由于存在着很多的信息源(报纸、网络等等),因此无法保证用户在一未知词首次出现时就捕捉到该词;(2)由于字典是标准化的,对于任一未知词都需要经过许多专家的审核、同意后才能写入字典,因此这需要一段时间。
鉴于此,对未知词进行语义类别的猜测就成了一项很有必要的工作。本发明将关注语义类别信息。也就是,我们将试图猜测未知词的语义类别。发明内容
本发明的目的在于克服上述技术缺陷,提供一种基于词缀的用于对未知词进行语义分类的方法。
本发明解决其技术问题所采用的技术方案为
对于用户输入的任一未知词w = AB,针对其词根A或B,在字典中查找与其具有相同词根的词作为该未知词的相似词,分析各个相似词的构词方式,对于不是有内容部分扩展而来的情况,根据同义词词林字典分析各个相似词的内容部分与该未知词的内容部分的相似度,将相似度为I的内容部分的相似词作为该未知词的语义类;对于各相似词是由其内容部分扩展而来的情况,我们可以确定的认为该未知词也是由其内容部分扩展而来,此时只需要在同义词词林字典中查找出其内容部分的语义类,进而,将该语义类作为该未知词的语义类;对于词缀对其语义有较大影响的情况,根据同义词词林字典分别计算该未知词的内容部分与各相似词内容部分的语义类的相似度,并设定阈值,若其相似度大于该阈值则将其叠加在该相似词的内容部分的语义类的值上,筛选出语义类值最大的相似词的语义类作为该未知词的语义类。
与现有技术相比,本发明的有益效果为
本发明的方法基于词缀研究未知词的构词规律,进而分析它的语义类别。本发明可以作为一个独立的语法或语义成分识别系统对中文或其他基于字符的未知词的语义分类,同时也可以与其他语言成分识别系统相结合,对其他系统输出的结果进行分析,提高原有系统的分析精度。本发明尤其适用于对汉语未知词的分析,根据本发明实现的未知词语3义分类系统获得了良好的分析效果。


图I是示出本发明总体的方法流程图2是示出本发明实施例I基于词缀的未知词语义分类的操作流程图3是示出本发明实施例2基于词缀的未知词语义分类的操作流程图4是示出本发明实施例3基于词缀的未知词语义分类的操作流出图。
具体实施方式
下面结合附图与具体实施方式
对本发明的技术方案作进一步详细地说明。
如图I所示,一种基于词缀的用于对未知词进行语义分类的方法,包括以下步骤, 对于
用户输入的任一未知词w = AB,针对其词根A或B,在字典中查找与其具有相同词根的词作为该未知词的相似词,分析各个相似词的构词方式,对于不是有内容部分扩展而来的情况,根据同义词词林字典分析各个相似词的内容部分与该未知词的内容部分的相似度,将相似度为I的内容部分的相似词作为该未知词的语义类;对于各相似词是由其内容部分扩展而来的情况,我们可以确定的认为该未知词也是由其内容部分扩展而来,此时只需要在同义词词林字典中查找出其内容部分的语义类,进而,将该语义类作为该未知词的语义类;对于词缀对其语义有较大影响的情况,根据同义词词林字典分别计算该未知词的内容部分与各相似词内容部分的语义类的相似度,并设定阈值,若其相似度大于该阈值则将其叠加在该相似词的内容部分的语义类的值上,筛选出语义类值最大的相似词的语义类作为该未知词的语义类。
实施例I
图2的过程开始于步骤201,针对字典中的每个词根A,收集其所有包含A的相似同,这里根据本发明实施例,将各相似词的内容部分取出,并查找它们的语义类以满足本发明的需要。在步骤204中,输入一未知词w = XY,步骤205中,从所收集的相似词集合中选择词根A满足A = X或A = Y的相似词集合,然后经206装置计算其内容部分的相似度,最后得到未知词的语义类。举例来说,对于一未知词“摄像机”,在201装置中选择出其相似词集合,如“照相机”、“飞机”等。在不同部分识别单元中将他们相同的词缀部分“机”移除, 并在不同部分存储模块中,以[wr, parti, part2] (wr表示未知词w的相似词,parti表示未知词w的内容部分,part2表示相似词wr的内容部分)。如[照相机,摄像,照相],[飞机,摄像,飞],等等。假定在同义词林中,C(摄像)=Hg03, C(照相)=Hg03, C(飞)= IalO,C(照相机)=Bpl5,C(飞机)=Bo22,其中Hg03, I10,Bpl5为词林中所定义的语义类。在相似度计算模块206中计算未知词和各相似词内容部分的相似度,对于wr = “照相机”,S(摄像,照相)=1(其中SO表示计算两个语义类的相似度),相似度存储单元中以 [Bpl5,1]的形式存储其计算结果;对于wr = “飞机”,其内容部分相似度S(摄像,飞)= O. 1,将[Bo22,0. I]存储相似度存储模块中。假设未知词“摄像机”只有“照相机”和“飞机” 这两个相似词,由于词缀对其语义有很大影响的,因此语义类指定模块将Bpl5作为未知词 “摄像机”的语义类。
实施例2
图3的过程开始于步骤301,针对字典中的每个词根A,收集其所有包含A的相似词,这里根据本发明实施例,判断它们是否是由内容部分扩展而来,若不是则按第一方法确定未知词的语义类,若是,则根据同义词词林查找它们内容部分的语义类,进而确定该未知词的语义类。举例来说,对于一未知词“椅子”,从相似词集合301中查找具有相同词缀的词 (例如,带子,镜子等)存储在相似词存储模块中,由不同部分识别模块移除他们的相同部分“子”,并在内容存储模块中以[带子,椅,带],[镜子,椅,镜]的形式存储。假定在同义词林字典中,C(椅)=8 26,((带子)=C(带)=8 25,((镜子)=C(镜)=BpOl,其中,Bp26,Bp25, BpOl为词林中所定义的语义类。对于相似词wr = “带子”,由于C(带子) =C(带),词缀“子”被认为是词缀而存储在词缀存储单元中。同时,将未知词“椅子”的相同词缀“子”移除,并将“椅”存储在内容模块中,由于C(椅)=Bp26,在加分模块中为Bp26 的分值加I。对于相似词wr = “镜子”,也将其词缀“子”去掉,由加分模块为Bp26的分值加I。假设未知词“椅子”只有相似词“带子”和“镜子”,由上述分析可将Bp26作为“椅子” 的语义类。
实施例3
图4的过程开始于步骤401,针对字典中的每个词根A,收集其所有包含A的相似词,这里根据本发明实施例,判断其是否由内容部分扩展而来,若是则按第二方法计算它们内容部分的相似度;若否,则由相似度计算模块405计算它们内容部分的相似度,并由语义类判别模块406、407判断该未知词的语义类。举例来说,对于一未知词“厨子”,从存储字典中查找具有相同词缀的词(例如,带子,厨师等)存储在相似词存储模块中,由不同部分识别模块移除他们相同的词缀,并以[wr, parti, part2]的形式存储在内容模块中,例如, [带子,厨,带],[厨师,子,师]等。假定在同义词林字典中,C(厨)=Bn03,C(厨师)= Ae04,C(带子)=C(带)=Bp25,C(子)=A101,C(师)=A102,其中 Bn03,Ae04,Bp25, A101,A102为词林中所定义的语义类。对于相似词“带子”,由于C(带子)=以带),词缀 “子”被认为是词缀存储在词缀存储模块中。同时,移除未知词“厨子”中相同的词缀“子”, 并将其内容部分“厨”存放在不同模块存储单元中。由于C(厨)=Bn03,由相似度计算模块计算其内容部分的相似度S(厨,带)=S(Bn03,Bp25) = O. 4,在加分模块中,将O. 4加在语义类Bn03的score上;对于相似词“厨师”,其与未知词不同部分的相似度S (子,师) =S(A101,A102) = O. 9,在加分模块中,将O. 9加在语义类Ae04的score上。由于O. 9 > O. 4,假设未知词“厨子”只有相似词“带子”和“厨师”,由上述分析可将Ae04作为“厨子” 的语义类。另外,若设定阈值T = O. 5,则表示只有当相似度超过O. 5时才加入其语义类的 score上,而此时S(Bn03,Bp25) = O. 4,则不必将O. 4加在Bn03的score上,因此语义类排序模块仍将Ae04作为未知词“厨子”的语义类。
以上所述,仅为本发明较佳的具体实施方式
,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。
权利要求
1.一种基于词缀的用于对未知词进行语义分类的方法,其特征在于,包括以下步骤 对于用户输入的任一未知词W = AB,针对其词根A或B,在字典中查找与其具有相同词根的词作为该未知词的相似词,分析各个相似词的构词方式,对于不是有内容部分扩展而来的情况,根据同义词词林字典分析各个相似词的内容部分与该未知词的内容部分的相似度,将相似度为I的内容部分的相似词作为该未知词的语义类;对于各相似词是由其内容部分扩展而来的情况,认为该未知词也是由其内容部分扩展而来,此时只需要在同义词词林字典中查找出其内容部分的语义类,进而,将该语义类作为该未知词的语义类;对于词缀对其语义有较大影响的情况,根据同义词词林字典分别计算该未知词的内容部分与各相似词内容部分的语义类的相似度,并设定阈值,若其相似度大于该阈值则将其叠加在该相似词的内容部分的语义类的值上,筛选出语义类值最大的相似词的语义类作为该未知词的语义类。
2.如权利要求I所述方法,其特征在于,完全基于未知词的内容部分与相似词内容部分的相似度,其词缀部分对其语义类别没有影响的情况。
3.如权利要求I所述方法,其特征在于,对于计算未知词与相似词的内容部分的相似度,是完全基于相似词词林的语义类相似度计算的。
4.如权利要求I所述方法,其特征在于,对于未知词的相似词wr= AB,若C(wr)=C(B),其中CO表示该词的语义类,此时A为相似词wr和未知词w的词缀,在这种情况下,对于未知词可以很确信的将C(B)作为它的语义类,即C(W) =C(B)0
全文摘要
本发明公开了一种基于词缀的用于对未知词进行语义分类的方法,包括以下步骤对于用户输入的任一未知词,针对其词根,在字典中查找与其具有相同词的词作为该未知词的相似词,针对相似词模块中的未知词的相似词和该未知词,将他们的相同部分和不同的部分分离出来,根据同义词词林字典的语义类得算法,计算出各个相似词的内容部分与该未知词的内容部分的相似度,由相似度排序模块将计算模块中的各个相似度按大小顺序排列,最后得出该未知词的语义类。该方法提高原有系统的分析精度,本发明尤其适用于对汉语未知词的分析,根据本发明实现的未知词语义分类系统获得了良好的分析效果。
文档编号G06F17/27GK102929858SQ201210361150
公开日2013年2月13日 申请日期2012年9月25日 优先权日2012年9月25日
发明者强彦, 韩晓红, 路景贵, 赵涓涓, 裴博, 刘涛 申请人:太原理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1