一种基于中文词对关系相似度的类比检索控制方法

文档序号:6441071阅读:176来源:国知局
专利名称:一种基于中文词对关系相似度的类比检索控制方法
技术领域
本发明涉及中文词对关系相似度和信息检索技术领域,具体地说是基于中文词对关系相似度的类比检索技术。
背景技术
随着WWW的持续发展和搜索引擎的不断进步,网络搜索变得越来越容易。第一代搜索引擎是以Yah00为代表的人工目录分类导航检索的网站搜索,它开始了互联网搜索的时代。第二代是以Google为代表的是基于关键词和特殊算法的搜索,是依靠机器抓取的、建立在超链分析基础上的大规模网页搜索,其搜索结果的准确度从网站上升至了网页。目前的搜索引擎还存在一些问题,如单一的搜索引擎不能覆盖整个Internet资源,搜索不够精确,不能真实反映用户意图。下一代搜索引擎的目标是能够模仿人的一些思维和想法,是 概念的模糊搜索,它通过分析网页之间的关联,建立一种类似人的思维的更智能化的概念分类方式,通过模仿人的思维模式,对要查找的概念进行关键字联想和分类来扩大搜索的外延和深度。本发明希望提出一种新的检索控制方法。

发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于中文词对关系相似度的类比检索控制方法。根据本发明的一个方面,提供一种基于中文词对关系相似度的类比检索控制方法,其用于基于至少一个关键词检索获取至少一个目标词,其特征在于,包括如下步骤
a.获取词对,其中所述词对为与所述关键词和所述目标词相同关系的词对;b.根据所述检索结果,抽取包含所述词对的短句,其中所述短句为同时包含所述词对的一个完整的句子;c.根据所述包含所述词对的短句集合抽取词对关系模式集合;d.对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合;e.对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合;g.将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复上述步骤a至步骤e,从而针对每一个所述第一词对得到与所述第一词对对应的第二中间关系词集合,其中,所述关系词为所述关系模式中除所述词对之外的至少一个词语;h.将每一个所述第二中间关系词集合作为目标词集合,其中,每一个所述第二中间关系词集合中的关系词对应一个所述目标词集合,所述第四关系词集合与所述第二中间关系词集合形成二维结果集。优选地,在所述步骤e与所述步骤g之间还包括步骤f.对所述第一中间关系词集合进行三次聚类,并将所述三次聚类获得的结果作为所述第一中间关系词集合,其中,所述步骤g中对所述每个第一词对重复上述步骤a至步骤f。优选地,所述步骤a包括如下步骤a’在搜索引擎中检索所述词对。优选地,所述步骤a包括如下步骤al.将所述词对的检索结果中的标题分条目抽取出来。优选地,所述步骤c包括如下步骤cl.抽取所述包含所述词对的短句的集合中所述每一个短句的关系模式;c2.将所述关系模式按照关系模型进行分组,形成所述词对关系模式集合。优选地,所述步骤Cl还包括如下步骤cll.将所述包含所述词对的短句的集合中所述每一个短句分成具有独立语义的词语;cl2.将所述每一个短句中的所述每一个具有独立语义的词语进行词性标注;cl3.抽取所述每一个短句中词性为名词和动词的所述具有独立语义的词语;cl4.将抽取得到的所述每一个短句中的词语组合作为所述短句的所述关系模式。优选地,所述步骤c2还包括如下步骤c21.将所述关系模式与所述关系模型进 行匹配,具有相同的所述关系模型的所述关系模式分为一组;c22.将每一组中相同的所述关系模式进行合并,并累加所述关系模式的频率;c23.将每一组中不同的所述关系模式进行相似度计算;c24.将所述相似度超过第一阈值的所述关系模式进行合并,并累加所述关系模式的频率;c25.将所有经过上述合并操作的所述关系模式作为所述词对关系模式集合,其中所述每个词对关系模式对应一个频率值。优选地,所述步骤d包括如下步骤dl.抽取所述词对关系模式集合中所述第一关系词集合;d2.将所述第一关系词集合进行一次聚类,以获得所述第二关系词集合。优选地,所述步骤dl还包括如下步骤dll.抽取所述词对关系模式集合中所述每一个词对关系模式中的关系词,其中,所述关系词为所述词对关系模式中除了所述词对外的词语;dl2.将所有所述关系词作为所述第一关系词集合,其中,所述每个关系词对应一个频率值,所述频率值为所述关系词所在所述词对关系模式出现的频率;
优选地,所述步骤d2还包括如下步骤d21.将所述第一关系词集合中相同的所述关系词进行合并,并累加所述关系词对应的所述频率值;d22.将经过上述合并的所述关系词根据所述频率值进行排序;d23.将经过上述排序的所述关系词集合作为所述第二关系词
隹A
口 O优选地,所述步骤e包括如下步骤el.将所述第二关系词集合中的所述关系词进行分组;e2.将每组中所述关系词的所述频率值最高的所述关系词作为候选词;e3.所述每组选出的候选词集合作为所述第一中间关系词集合;
优选地,所述步骤el还包括如下步骤ell.将所述第二关系词集合中的所述频率值最高的所述关系词作为中心词;el2.将所述第二关系词集合中的除所述中心词外所述所有的关系词与所述中心词进行相似度计算;el3.将所述相似度相同的所述关系词分为一组。优选地,所述步骤f包括如下步骤fl.将所述第一中间关系词集合中的所述所有的关系词进行两两相似度计算;f2.将所述相似度超过第二阈值的所述关系词进行合并,并累加所述关系词对应的所述频率值;f3.经过上述合并后的关系词集合作为所述第~■中间关系词集合。优选地,所述步骤g前还包括如下步骤il.判断所述第二中间关系词集合是否为所述目标词集合。;i2.若所述第二中间关系词集合不为所述目标词集合,则继续执行步骤g。
优选地,在所述步骤i2后还包括如下步骤i3.若所述第二中间关系词集合为所述目标词集合,则执行步骤h。本发明基于词对之间的关系相似度对搜索关键词进行类比扩展,假设未知领域信息与已知领域信息在表现形式上具有相似性,通过比较已知领域信息和未知领域信息的关系相似度可以推测出未知领域的相关信息。例如,如果某一品牌产品的用户想搜索其他品牌的产品,她不知道想要的产品的名称或描述自己想要的产品的关键字,但常用品牌的产品及熟知品牌产品如何工作,产品功能和使用场合等等是用户熟知的,这是搜索其他品牌产品的一个重要线索。具体来讲,大多数用户知道ipod,一种苹果公司销售的音乐播放器。如果想要查找微软的相关产品,他们就要找到ipod和微软销售的音乐播放器的类比关系。更具体的就是,提供一个包含三个词条的元组,例如(苹果、iPod、微软),本发明就能把Zune查找出来。本领域技术人员理解,iPod是苹果公司的音乐播放器,Zune是微软的音乐播放器。潜在关系搜索是一种基于中文词对间类比关系程度进行检索的一种新型检索模·式。对于用户的未知领域,可以有效的获取需要的信息。本发明采用的方法基于大规模文本信息统计,可以在实体关系未知的前提下,找出实体对间存在的多种关系,然后根据每个关系找出此关系对应的候选项。


通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显
图I示出了获得间关系词的控制方法的示意 图2不出18种关系I旲型的不意 图3示出本发明第一实施例的,基于中文词对关系相似度的类比检索方法的流程图; 图4示出本发明第一实施例的,抽取词对关系的流程图;以及 图5示出本发明第一实施例的,三次聚类的流程图。
具体实施例方式通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显
图I示出了获得间关系词的方法。图示将查询作为例子。具体地看,本图示出本发明提供的六个处理模型,用户将需要检索的词对经过所述六个处理模型的处理最终获得中间关系词集合。具体地,本领域技术人员理解,所述词对为与所述关键词与所述目标词相同关系的词对,例如用户想要通过关键词“SQL Server 2008”检索出目标词“Microsoft”,因为SQL Server 2008是Microsoft的关系数据库管理系统,而所述用户已知mySQL是Oracle公司的关系数据库管理系统,则所述用户可以使用(mySQUOracle)作为所述词对。更为具体地,所述六个处理模型分别为预处理模型,短句抽取模型,关系模式抽取模型,聚类模型,二次聚类模型以及三次聚类模型。首先将所述词对输入所述预处理模型,所述预处理模型借助现有的搜索引擎,如Google、Bing、Baidu和Wikipedia,将词对输入搜索引擎中。从返回的结果页面中可以得到一系列包含词的句子。经过所述短句抽取模型的抽取处理得到所述短句集合。所述短句集合又经过所述关系模式抽取模型的匹配抽取处理得到所述词对关系模式集合。所述聚类模型对所述词对关系模式集合中的所述第一关系词集合进行模式聚类得到按频率排好序的第二关系词集合,所述二次聚类模型对所述第二关系词集合中的所述关系词进行2次聚类得到第一中间关系词集合,其中,所述第二关系词集合经过相似度计算进行分组,选取每组中频率最高的所述关系词得到所述第一中间关系词集合,对于所述第一中间关系词集合经过所述三次聚类模型的聚类处理获得所述第二中间关系词集合。更具体地,本领域技术人员理解,得到所述第二中间关系词集合后,将所述第二中间关系词集合中的所述每一个关系词结合所述关键词形成另一词对,所述另一词对将通过所述六个处理模型经过搜索引擎中搜索。抽取,聚类得出所述每一个关系词对应的更精确的目标词集合。图中输入获取目标词D的方法与图示相同,不再赘述。图2示出18种关系模型。具体地,本图示出的18种关系模式分别为ηνΧΥ,ΧηνΥ,XYnv,nXvY, nXYv, XnYv, nXY, XnY,XYn,νηΧΥ, XvnY, XYvn, vXnY, νΧΥη, XvYn, νΧΥ, XvY 以及ΧΥν,其中,η为词性为名词的一个词语,V为词性为动词的一个词语,X和Y为所述词对。例如所述词对可以是iPod和苹果,则所述X Y为iPod和苹果,具体地,本领域技术人员理解,所述XY的顺序并不影响本发明的实施,因此XY和YX所表达的意义相同,例如所述关系模 型nvXY与所述关系模型ηνΥΧ为同一种关系模型。所述词对为iPod和苹果时,所述所述关系模型nvXY,其组成首先是一个名词,之后为一个动词,最后是所述词对,例如“软件下载苹果iPod”,其与所述关系模型nvXY相匹配;所述所述关系模型ΧηνΥ,其组成首先是所述词对中的一个词语,之后为一个名词,一个动词在所述一个名词后,最后是所述词对中的另一个词语,例如“苹果新品发布iPod”,其与所述关系模型XnvY相匹配;所述所述关系模型ΧΥην,其组成首先是所述词对,之后为一个名词,之后是一个动词,例如“苹果iPod商品出售”,其与所述关系模型XYnv相匹配;剩余所述15种关系模型匹配方法与上述3种关系模型类似,具体地,在此不予赘述。图3示出本发明第一实施例的,基于中文词对关系相似度的类比检索方法的流程图。具体地,本图示出了从用户输入检索词对至最后获得二维结果集的整个流程图,其一共有7个步骤。首先是步骤201,本发明技术方案提供的预处理模型根据用户输入的词对进行检索,根据搜索引擎返回的搜索结果,将标题分条目抽取。所述搜索引擎优选地,为百度搜索引擎。具体地,本领域技术人员理解,所述词对是用户根据目标词与所述已知关键词的关系,输入的与之相同关系的另一已知词对。例如用户想要通过关键词“SQL Server 2008”检索出目标词“Microsoft”,因为SQL Server 2008是Microsoft的关系数据库管理系统,而所述用户已知mySQL是Oracle公司的关系数据库管理系统,则所述用户可以使用(mySQL,Oracle)作为所述词对。此后是步骤202,抽取包含所述词对的短句。具体地,本领域技术人员理解,根据上述抽取的标题判断所述词对之间是否存在任何的空格或标点符号,将所述词对之间不存在任何的空格的标点符合的所有标题作为短句形成短句集合,以保证词对出现在一个完整的句子中。例如,当所述词对为“苹果”和“iPod”时,所述标题为“苹果在线_中国苹果门户网站_苹果专卖店苹果软件下载iphoneipod”,则为了保证所述词对出现在一个完整的句子中,该标题抽取出的短句应为“苹果专卖店苹果软件下载iphoneipod”。又例如,当所述词对为“苹果”和“ iPod”时,所述标题为“iPod专区苹果iPod大全_苹果MP3报价-ZOL中关村在线”,则为了保证所述词对出现在一个完整的句子中,该标题抽取出的短句应为“苹果iPod大全”。步骤202后是步骤203,根据所述短句集合,对每一个短句进行相应的分词,分组匹配,计算频率等操作。将操作后的短句及其频率形成词对关系模式的集合。所述词对关系模式由所述词语组合构成,所述词语组合包括所述词对,至少一个名词或者至少一个动词。例如,当 所述词对为“苹果”和“iPod”时,所述词对关系模式可以是“苹果iPod新品出售”其频率值为3或者“苹果新品发布iPod”其频率值为5。具体地,所述词对关系模式的抽取和频率计算将在下文说明,在此不予赘述。形成了词对关系模式的集合后,执行步骤204,提取所述词对关系模式中的关系词,具体地,本领域技术人员理解,所述关系词为其对应关系模式中除所述词对外的词语,例如,当所述词对为“苹果”和“iPod”时,所述词对关系模式为“苹果新品发布iPod”的关系词为“新品”和“发布”,且所述词对关系模式为“苹果新品发布iPod”的频率值为5,则所述关系词为“新品”和“发布”的频率值也都为5。并将所述关系词及其相应的频率值加入所述第一关系词集合。又例如,所述词对关系模式为“苹果iPod新品出售”的关系词为“新品”和“出售”,且所述词对关系模式为“苹果iPod新品出售”的频率值为3,则所述关系词为“新品”和“出售”的频率值也都为
3。并将所述关系词及其相应的关系词加入所述第一关系词集合。形成第一关系词集合后,将所述第一关系词集合进行去重和频率累加操作,并根据频率将关系词进行排序形成第一次聚类后的第二关系词集合。具体地,例如所述第一关系词集合内有“新品”其频率值为5,“发布”其频率值为5,“新品”其频率值为3以及“出售”其频率值为3,则首先合并所述关系词“新品”,合并后其频率值为8。经所述频率值排序后得到所述第二关系词集合,其包括“新品”其频率值为8,“发布”其频率值为5,以及“出售”其频率值为3。更具体地,本领域技术人员理解,当所述关系词的频率值相同时,其优选地,可以根据首字母进行排序,其排序情况不影响本发明的实施情况,在此不予赘述。第一次聚类后执行第二次聚类,也就是步骤205,第二次聚类将第一次聚类后的第二关系词集合中频率最高的关系词作为中心词,例如上述例子中的所述关系词“新品”作为所述中心词,并将集合中其他的关系词与所述中心词进行相似度计算,将相似度相同的分为一组,提取每组中频率值最高的关系词形成第一中间关系词集合。之后为第三次聚类,步骤206,通过计算所述关系词集合中两两关系词的相似度,进一步聚类,将相似度超过第二阈值的关系词合并加入新的关系词集合,对所述第二次聚类后形成的关系词集合内的关系词全部进行上述操作后形成的新的关系词集合为第三次聚类后的第二中间关系词集合。三次聚类后,执行步骤207,判断三次聚类后得到第二中间关系词集合是否为目标词集合,如果不是目标词集合。则执行步骤208,提取所述三次聚类后的关系词集合中的关系词与所述欲进行检索的关键词作为所述词对,按上述步骤201至206进行处理,每一个所述三次聚类后的关系词集合中的关系词,根据上述操作都将得到一组候选词集合。步骤207判断所述候选词集合为目标词集合,则最终步骤209,根据所述关系词集合获得二维结果集也就是目标词集合,并将所述二维结果集返回至用户。图4示出本发明第一实施例的,抽取词对关系的流程图。具体地,本图示出了本发明提供的关系模式抽取模型抽取所述输入词对的关系模式并形成所述关系模式集合的整个过程,其共有5个步骤。首先是步骤231,对于上述短句集合中的每一个短句,本发明用中文分词工具将所述短句分词。所述分词工具优选地,可以是ICTCLAS分词工具,其分词及词性标注精度达95%以上。分词后所述短句被分成具有独立语义的词语,每个词语都有词性标注。对于集合中的每个短句中存在没有语义的词语,如停用词和连词。根据词性标注本发明可以去除这些无意义的词语。在本发明的方法中本发明只抽取名词和动词,这些名词和动词代表了整个句子的主干和意义。抽取后的词语组合构成词语组合集合。其后为步骤232,将所述词语组合的集合根据所述句子模式进行分组。具体地,本领域技术人员理解,为了更好地分组,本发明提出了一个包含18种模式的模型。如附图2所示,X代表词语A,Y代表词语B,n代表名词,V代表动词。对于集合中的每一个词语组合,本发明都对其进行句子模式匹配,然后按照其匹配的句子模式归类到18种句子模式对应的不同分组中。步骤232后为步骤233,在聚类的过程中要对分到同一组中的两个不同的词语组合进行相似度计算。具体地,本领域技术人员理解,所述相似度的计算使用同义词林。此后为步骤234,根据所述相似度计算在分组的过程中将句子模式相同且内容相同或相似的词语组合进行频率累加并记录。最后为步骤235,将上述操作后的词语组合及其频率的集合作为词对关系模式的集
口 ο图5示出本发明第一实施例的,三次聚类的流程图。具体地,本图示出了本发明提供的基于中文词对关系相似度的类比检索方法中第一次类聚,第二次类聚以及第三次类聚 获得所述第二中间关系词集合的整个过程,其共有9步,首先是步骤241,抽取上述词对关系模式集合中每个关系模式中的关系得到所述第一关系词集合。其后是步骤242,对所述第一关系词集合中的关系词进行去重即将相同的关系词进行合并,并将合并的关系词的出现频率累加。步骤243,所述关系词去重以后,根据每个关系词相适应的频率进行排名,获得所述第二关系词集合。其后为步骤244,对于所述第二关系词集合,本发明选取排名第一的关系词为中心词。计算所述第二关系词集合中的任意关系词与所述中心词的词语相似度。计算完相似度后,为步骤245,根据所述相似度进行二次分组,将所述相似度相同的关系词分到一组中,将每一组中出现频率最高的关系词提取出来作为候选词。其后为步骤246,所有所述候选词构成所述第一中间关系词集合。步骤246后为步骤247,计算所述第一中间关系词集合中关系词两两之间的相似度,进一步对所述关系词进行聚类。其后为步骤248,如果计算结果中两个词的相似度超过所述第二阈值就将关系词合并重新加入新的关系词集合中。最终为步骤249,所述新的关系词集合构成所述第二中间关系词集合。更为具体地,本领域技术人员理解,在一个优选实施例中,可以通过如下步骤来实现本发明所述的控制方法
步骤一、抽取关系词。首先抓取网页并抽取信息。本发明使用baidu作为搜索引擎。将词对输入搜索引擎中,将会返回一系列的搜索结果,将这些搜索结果保存为原始语料。从原始语料中将标题分条目抽取出来。为了提高搜索出的候选词D的准确性,需要抽取足够多的语料。步骤二、找到包含A和B的词条。本发明的目的是找到包含词对的句子。为了找到代表A和B两个词之间语义关系的句法模式,本发明考虑匹配形如的短句,匹配出的字串用t表示。其中P代表标点符号,*代表除空格和标点符号的任意连续字符,并且A和B词之间不存在任何的空格或标点符号。在这个前提下,本发明可以保证A词和B词出现在一个完整的句子中。经过抽取后,本发明得到t的集合。步骤三、分词,抽取主干和聚类。对于集合T中的每一个短句t,本发明用中文分词工具将t分词。分词后t被分成具有独立语义的词语,每个词语都有词性标注。本发明用表标注后的句子的集合。对于中的每个中存在没有语义的词语,如停用词和连词。根据词性标注本发明可以去除这些无意义的词语。在本发明的方法中本发明只抽取名词和动词,这些名词和动词代表了整个句子的主干和意义。抽取后的词语组合S构成集合。经过上述处理步骤本发明得到了包含词语碎片的集合。为了对集合进行聚类,本发明提出了一个包含18种模式的模型。如附图2所示,X代表词语A,Y代表词语B,n代表名词,V代表动词。对于集合中的每一个短句S,本发明都对其进行句子模式匹配,然后按照其匹配的句子模式归类到18种句子模式对应的不同分组中。在分组的过程中将句子模式相同且内容相同或相似的句子进行频率累加并记录,为了实现这一目标,在聚类的过程中要对分到同一组中的两个不同的s进行相似度计算。相似度的计算使用同义词林。经过聚类以后本发明得到包含聚类后模式P的集合,每个模式P对应一个频率值 fo步骤四、关系排名。将集合中的关系词抽取出来,因为在不同的句子结构中抽取出的词语存在大量重复的现象,所以要对关系词进行去重并将出现频率累加。关系词去重以后,根据频率值f进行排名,然后得到一个按频率排好名的词语集合。步骤五、利用关系相似度二次聚类。对于集合,本发明选取排名第一的关系词为中心词。对于任意的,计算与的词语相似度。计算完相似度后,根据相似度进行二次分组,相似度相同的词语被分到一组中,分组后的数据集合为。对于,按分组取分组中出现频率最高的词语提取出来作为候选词,得到关系词集合。步骤六、第三次聚类获得关系词。在集合依然存在一些关系相关度非常高的词,我们通过计算关系词两两之间的相关度,进一步对关系词进行聚类。如果两个词的相关度超过阈值就将词语合并重新加入新的关系词集合中,由此我们得到更精确的关系词集合。步骤七、获得目标词。对于集合中的每一个,按照I到6步对词对进行处理,最后得到目标词集合。对于每一个本发明都得到一组候选词集合。最终我们得到一个二维结果集。更为具体地,以下示出了本发明的另一个实施例,其通过一个具体的例子实现了本发明所述的控制方法。我们以{(姚明,叶莉);(林丹, )}作为例子,将(姚明,叶莉)输入搜索引擎中,我们得到完整的包含(姚明,叶莉)的句子,例如
姚明叶莉爱情童话_在线视频观看_土豆网视频姚明叶莉 杨澜英文专栏泄天机姚明叶莉宝宝是女儿(图)一青岛新闻网 姚明老婆叶莉姚明老婆叶莉身高是多少/详情_姚明老婆叶莉,叶莉身... 利用模版抽取句子后我们得到
姚明叶莉爱情童话 姚明叶莉宝宝是女儿 姚明老婆叶莉身高是多少 对短句进行分词后得到
姚明/n叶莉/n爱情/n童话/n 姚明/n叶莉/n宝宝/n是/v女儿/n 姚明/n老婆/n叶莉/n身高/n是/v多少/r 抽取主干后得到姚明/n叶莉/n爱情/n童话/n姚明/n叶莉/n宝宝/n是/v姚明/n老婆/n叶莉/n对于抽取出的关键词统计词频的结果为(为避免冗余,只列出前十个)婚礼/n 13爱情/n 12婚纱照/n 8澳洲/n 7结婚照/n 7举办/v 6拍/v 6女儿/n 6老婆/n 5携手/V 4 二次聚类后的结果为(只列出4组作为示例) 第一组
婚礼1.0 13 第二组
体育 O. 36923076923076925 I第三组
全家福 0.21721212121212127 I 照片 0.21721212121212127 2 合影 O. 21721212121212127 I 结婚照 0.21721212121212127 7 床头 O. 21721212121212127 I 第四组
后代 O. 12631578947368424 I千金 O. 12631578947368424 4小孩 O. 12631578947368424 I妻子 O. 12631578947368424 I女儿 O. 12631578947368424 6夫妇 O. 12631578947368424 2孩子 O. 12631578947368424 4老婆 O. 12631578947368424 5宝宝 O. 12631578947368424 3最后我们得到关系词如下所示
婚礼 13 I. O
喜酒 I 0.896
历程 2 0.6153846153846154趣事 4 0.6000000000000001 体育 I O. 36923076923076925 内幕 2 O. 28571428571428575 手段 3 O. 2424242424242425 结婚照 7 O. 21721212121212127 广告 2 O. 18863157894736846 爱情 12 O. 17142857142857146 体育场 I O. 1666976744186047 新房 I O. 14933333333333335 女儿 6 O. 12631578947368424 有情人 I O. 12193684210526318 美国 2 O. 11162790697674421 澳洲 7 O. 1116279069767442 结婚 3 0.07407407407407407 新婚 2 0.044444444444444446· 第三次聚类后得到
婚礼14 结婚照9 爱情12 有情人I 结婚3 新婚2 新房I 女儿7 体育I 体育场 I 手段3 广告2 美国3 澳洲I
对于以上关系词,例如(林丹,爱情)进行相同过程处理后,我们得到谢杏芳。对于确定关系的示例,准确匹配到谢杏芳即达到了本发明的目的。进一步地,本领域技术人员还理解,在另一个变化例中,优选地,提供包含三个关键词A,B, C,利用本发明能找出目标关键词D,其中A与B的关系近似等于C和D的关系。例如,输入词条A =苹果,B = iPod, and C =微软,输出Zune作为D,其中(苹果,iPod)和(微软,Zune)的关系是几乎相同的。如果两个实体之间的关系是唯一确定的,我们得到唯一的目标候选词或一组目标候选词集合。如果两个词语具有多种关系,则可以找出每种关系对应的一个或多个目标候选词,进而得到一个具有二维结构的结果集。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实 质内容。
权利要求
1.一种基于中文词对关系相似度的类比检索控制方法,其用于基于至少一个关键词检索获取至少一个目标词,其特征在于,包括如下步骤 a.获取词对,其中所述词对为与所述关键词和所述目标词相同关系的词对; b.根据所述检索结果,抽取包含所述词对的短句,其中所述短句为同时包含所述词对的一个完整的句子; c.根据所述包含所述词对的短句集合抽取词对关系模式集合; d.对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合; e.对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合; g.将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复上述步骤a至步骤e,从而针对每一个所述第一词对得到与所述第一词对对应的第二中间关系词集合,其中,所述关系词为所述关系模式中除所述词对之外的至少一个词语; h.将每一个所述第二中间关系词集合作为目标词集合,其中,每一个所述第二中间关系词集合中的关系词对应一个所述目标词集合,所述第四关系词集合与所述第二中间关系词集合形成二维结果集。
2.根据权利要求I所述的控制方法,其特征在于,在所述步骤e与所述步骤g之间还包括步骤 f.对所述第一中间关系词集合进行三次聚类,并将所述三次聚类获得的结果作为所述第一中间关系词集合, 其中,所述步骤g中对所述每个第一词对重复上述步骤a至步骤f。
3.根据权利要求I或2所述的控制方法,其特征在于,所述步骤a包括如下步骤 a’在搜索引擎中检索所述词对。
4.根据权利要求I至3中任一项所述的控制方法,其特征在于,所述步骤a包括如下步 骤 al.将所述词对的检索结果中的标题分条目抽取出来。
5.根据权利要求I至4中任一项所述的控制方法,其特征在于,所述步骤c包括如下步骤 Cl.抽取所述包含所述词对的短句的集合中所述每一个短句的关系模式; c2.将所述关系模式按照关系模型进行分组,形成所述词对关系模式集合。
6.根据权利要求5所述的控制方法,其特征在于,所述步骤Cl还包括如下步骤 cll.将所述包含所述词对的短句的集合中所述每一个短句分成具有独立语义的词语; cl2.将所述每一个短句中的所述每一个具有独立语义的词语进行词性标注; cl3.抽取所述每一个短句中词性为名词和动词的所述具有独立语义的词语; cl4.将抽取得到的所述每一个短句中的词语组合作为所述短句的所述关系模式。
7.根据权利要求5或6所述的控制方法,其特征在于,所述步骤c2还包括如下步骤 c21.将所述关系模式与所述关系模型进行匹配,具有相同的所述关系模型的所述关系模式分为一组;c22.将每一组中相同的所述关系模式进行合并,并累加所述关系模式的频率; c23.将每一组中不同的所述关系模式进行相似度计算; c24.将所述相似度超过第一阈值的所述关系模式进行合并,并累加所述关系模式的频率; c25.将所有经过上述合并操作的所述关系模式作为所述词对关系模式集合,其中所述每个词对关系模式对应一个频率值。
8.根据权利要求I至7中任一项所述的控制方法,其特征在于,所述步骤d包括如下步骤 dl.抽取所述词对关系模式集合中所述第一关系词集合; d2.将所述第一关系词集合进行一次聚类,以获得所述第二关系词集合。
9.根据权利要求8所述的控制方法,其特征在于,所述步骤dl还包括如下步骤 dll.抽取所述词对关系模式集合中所述每一个词对关系模式中的关系词,其中,所述关系词为所述词对关系模式中除了所述词对外的词语; dl2.将所有所述关系词作为所述第一关系词集合,其中,所述每个关系词对应一个频率值,所述频率值为所述关系词所在所述词对关系模式出现的频率。
10.根据权利要求8或9所述的控制方法,其特征在于,所述步骤d2还包括如下步骤 d21.将所述第一关系词集合中相同的所述关系词进行合并,并累加所述关系词对应的所述频率值; d22.将经过上述合并的所述关系词根据所述频率值进行排序; d23.将经过上述排序的所述关系词集合作为所述第二关系词集合。
11.根据权利要求I至10中任一项所述的控制方法,其特征在于,所述步骤e包括如下步骤 el.将所述第二关系词集合中的所述关系词进行分组; e2.将每组中所述关系词的所述频率值最高的所述关系词作为候选词; e3.所述每组选出的候选词集合作为所述第一中间关系词集合; 根据权利要求11所述的控制方法,其特征在于,所述步骤el还包括如下步骤ell.将所述第二关系词集合中的所述频率值最高的所述关系词作为中心词;el2.将所述第二关系词集合中的除所述中心词外所述所有的关系词与所述中心词进行相似度计算; el3.将所述相似度相同的所述关系词分为一组。
12.根据权利要求2至12中任一项所述的控制方法,其特征在于,所述步骤f包括如下步骤 fl.将所述第一中间关系词集合中的所述所有的关系词进行两两相似度计算;f2.将所述相似度超过第二阈值的所述关系词进行合并,并累加所述关系词对应的所述频率值; f3.经过上述合并后的关系词集合作为所述第二中间关系词集合。
13.根据权利要求I至13中任一项所述的控制方法,其特征在于,所述步骤g前还包括如下步骤 il.判断所述第二中间关系词集合是否为所述目标词集合。
14.; . 12.若所述第二中间关系词集合不为所述目标词集合,则继续执行步骤g。
15.根据权利要求14所述的控制方法,其特征在于,在所述步骤i2后还包括如下步骤 . 13.若所述第二中间关系词集合为所述目标词集合,则执行步骤h。
全文摘要
本发明提供基于中文词对关系相似度类比检索控制方法,其用于基于关键词检索获取目标词,包括a.获取词对;b.根据所述检索结果抽取包含所述词对的短句;c.根据所述包含所述词对的短句集合抽取词对关系模式集合;d.对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合;e.对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合;g.将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复步骤a至e;h.将每一个所述第二中间关系词集合作为目标词集合。本发明基于大规模文本信息统计,在实体关系未知的前提下找出实体对间存在的多种关系,并根据每个关系找出对应的候选项。
文档编号G06F17/30GK102955837SQ20111041540
公开日2013年3月6日 申请日期2011年12月13日 优先权日2011年12月13日
发明者吕钊, 梁超 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1