一种基于时间变化计算关键词对动态相关度的控制方法

文档序号:6377239阅读:205来源:国知局
专利名称:一种基于时间变化计算关键词对动态相关度的控制方法
技术领域
本发明涉及用于搜索系统的关键词对动态相关度计算方法领域,具体的说是一种针对关键词间随着时间的推移而动态变化的相关强度的度量方法。
背景技术
在搜索系统中,一项关键的任务是确定哪些关键词是与用户关心的被查询关键词是相关的,相关的强弱程度如何,另外,考虑某些网络文档具有很强时效性,如网络新闻,这就要求关键词之间的相关强度动态改变。如“地震”这一关键词,在2008年,与“四川”最相关,然而在2011年,相关度最强的关键词应该是“日本”,如何反映相关度的时效性非常重要。·
在信息检索和自然语言处理等领域中,相关度计算方法主要分为两类。第一类是根据语言知识和分类体系计算,通常的方法是利用知网或《同义词词林》等知识源提供的分类体系,去计算词语间的语义相关程度。此类方法通常将相关度计算构建在相似度计算的基础之上,也没有充分考虑词语间的关系,存在相关度不完整的缺点;而且,基于分类体系的方法依赖于一个静态、封闭的知识库,不能及时更新,所计算的相关度值是一个静态值。第二类是统计方法,采用概念统计,参数估计和特征获取等学习模型获得词语共现规律,计算语义的相关程度。在统计方法中,利用大规模语料库,通过统计的方法计算词语的相关度,这种方法能避免上述的问题。最基本的方法是通过对词语共现频率的计算,确定词语间的相关强度,认为共现频率越高的词语,他们之间的相关程度也越高。但是,本类方法针对时效性很强的网络信息,仍然存在着很大的不足,如该方法所度量的是整个语料库的一个临时值,它不能很好地体现词语之间的相关强度随时间的动态变化。

发明内容
针对网络信息的动态特性和现有技术的不足,本发明提供一种基于共现统计的关键词对动态相关度计算方法,能够根据关键词对在网络文档中的共现信息及其共现的时间点来调整关键词对间的相关强度,并对现有关键词对相关强度的更新设定了一个合理的更新周期。本发明解决其技术问题所采用的技术方案是一种针对关键词对间随着时间的推移而动态变化的相关度的度量方法,应用在搜索系统中,首先挖掘关键词对在网络文档中共现信息,归纳关键词对相关度随时间变化的发展规律。然后根据关键词对相关度随时间变化的发展规律建立关键词对相关度衰减模型和关键词对相关度冲激模型,整合两模型,得到关键词对动态相关度算法表达式,最后把关键词对动态相关度表达式应用于关键词对间的相关强度计算。根据本发明的又一方面,还提供一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法,其特征在于,包括如下步骤a.基于冲激过程计算关键词对相关度冲激增量;b.基于衰减过程计算关键词对相关度衰减减量;以及c.根据冲激增量以及衰减减量计算关键词对动态相关度。根据本发明的又一方面,还提供一种用于关键词搜索的关键词对动态相关度计算方法,其特征在于,包括如下步骤a.建立关键词对相关度值衰减模型;b.建立关键词对相关度值冲激模型构建关键词对动态相关度算法表达式。优选地,所述步骤a包括如下步骤al.根据关键词对相关度值随时间变化的发展规律,通过指数拟合得到关键词对相关度值衰减示意图;a2.根据所述关键词对相关度值衰减示意图,确定关键词对相关度值的衰减量,其计算方法如(2 )式所示。优选地,所述步骤b包括的步骤如下bl.根据关键词对相关度值随时间变化的发展规律,得到关键词对相关度值冲激示意图;b2.根据所述关键词对相关度值冲激示意图,确定关键词对相关度值的增量,其计算方法如(3)式所示。
优选地,所述步骤c包括如下步骤cl.对关键词对相关度值衰减模型和冲激模型进行整合;c2.根据整合模型对关键词对相关度值进行动态调整,并建立定量的动态相关度表达式如(4)式所示。与背景技术相比,本发明有一下优点本方法在计算关键词对间的相关度时,考虑到了关键词对在某段时间上如果在网络文档中大量共现,那么它们在此段时间内的相关强度将会得到加强;如果关键词对在某段时间上不再在网络文档中出现,那么它们在此段时间内的相关强度将会以一个合理的比率衰减,通过相关度值的加强和衰减,得到的相关度值更能合理反映关键词对实际的相关强度。本方法在计算关键词对间的相关度时,考虑到了关键词对相关度计算方法的高效性,采取每过时间周期更新一次的策略,压缩了不必要的更新次数,提供了系统的效率。


通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显图I示出根据本发明的第一实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度的流程图;图2示出根据本发明的第二实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度生成相关公式的流程图;图3示出根据本发明的一个具体实施例的,对关键词搜索后的数据处理曲线图;图4示出根据本发明的一个具体实施方式
的,一种在搜索系统中基于时间变化计算关键词对动态相关度值衰减模型示意图;图5示出根据本发明的一个具体实施方式
的,一种在搜索系统中基于时间变化计算关键词对动态相关度值冲激模型示意图;以及图6示出根据本发明的一个具体实施方式
的,平均差异值随值的变化示意图。
具体实施例方式通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显
图I示出根据本发明的第一实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度的流程图。具体地,图I示出了三个步骤。首先是步骤S201,根据关键词对的冲激过程计算关键词对动态相关度的冲激增量。步骤S202,根据关键词对的衰减过程计算关键词对的衰减减量。最后是步骤S203,根据上述步骤S201以及步骤S202计算的冲激增量以及衰减减量结合获得所述关键词对的动态相关度。进一步地,上述衰减过程的减量公式以及冲激过程的增量公式由相关数据以及数据图像拟合生成,具体地,如图2所示,在此不予赘述。更具体地,本领域技术人员理解,本发明提供的一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法优选地,适用于实体词对动态相关度计算,所述实体 词指人名、地名、机构名及专有名词,且实体间的相关度的动态性更为明显。图2示出根据本发明的第二实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度生成相关公式的流程图。具体地,本图示出了 6个步骤,该6个步骤具体描述了如何根据网络关键词对数据获取关键词对动态相关度变化规则。首先是步骤S301,选取关键词对作为搜索关键词,经过相同时间间隔多次进行搜索,也就是周期性地对选取的关键词对进行搜索。优选地,步骤S301之前包括,周期性地获取网络新闻作为训练语料库。步骤S302,记录每次搜索结果获取上述关键词对共现句的个数。具体地,本领域技术人员理解,搜索结果优选地提取搜索结果的标题和摘要,并以句子为单位记录每次搜索结果的共现句个数。其中,本发明以所述关键词对共现句个数的变化与所述关键词对动态相关度的变化相适应为前提,也就是所述共现句的个数的变化代表所述关键词对的动态相关度的变化。步骤S303,对上述间隔时间以及个数的数据进行处理获取关键词对动态相关度变化规贝U,优选地将上述数据根据次数-时间画出相关数据的函数图象。所述关键词对动态相关度变化规则根据所述函数图象可得所述关键词对动态相关度经过冲激过程所述关键词对动态相关度上升再经过衰减过程所述关键词对动态相关度下降。步骤S304,根据数据处理图像拟合生成冲激过程所述关键词对动态相关度冲激增量的计算公式。同理步骤S305,根据数据处理图像拟合生成衰减过程所述关键词对动态相关度衰减减量的计算公式。最后步骤S306,根据上述公式计算当前关键词对的动态相关度。具体地,在本实施例的一个变化例中,关键词对动态相关度变化规则的训练数据通过如下方式获取,定时从新浪、腾讯、雅虎等网站上定时抓取的新闻文本,以天为单位,一天抓取一次。然后,分析每天的新闻语料库中所考察的关键词对的共现句个数。最后根据统计的次数及对应的时间,通过归一化处理。对于相同的关键词对,在相同的时间间隔所搜索的语料是与时间相对应的。更具体地,本领域技术人员理解,在本市实施例的一个变化例中,为了使数据更加精确,拟合的公式更加符合动态相关度变化规则,步骤S301’选取多对关键词对作为搜索关键词,经过相同时间间隔对多对的关键词对分别进行多次搜索。之后为S302’,记录每次搜索结果获取上述关键词对共现句的个数。S303’,对上述多对关键词对的间隔时间以及个数的数据进行归一化处理获取关键词对动态相关度变化规则。具体地,由上述数据画出的函数图象由图3所示。更进一步地,本领域技术人员理解,所述关键词对动态相关度变化规则还包括所述关键词对动态相关度周期性经过冲激过程和衰减过程,相适应的,因为其周期性,其动态相关度冲激增量以及衰减减量的计算公式相应调整。使用不同周期值根据所述关键词对动态相关度计算结果与搜索引擎搜索结果进行差异度比较,将差异度最小的周期值作为所述周期性冲激过程的周期值。归纳关键词对相关度随时间变化的发展规律要计算关键词对的动态相关度,第一步是要知道关键词对相关度随时间变化的发展规律。基于这样的一个原理如果两关键词对的在同一文本窗口出现的次数越多,则关键词对的相关性越强。因此,本发明归纳关键词对相关度随时间变化的发展规律的具体步骤如下第一步选取一定量的相关关键词对作为统计分析的对象;第二步对第一步选取的关键词对,在大规模的网络文档中每天共现(共现的文本窗口大小为一个句子)的次数进行了统计;第三步对统计得到的数据进行归一化处理;第四步对归一化后的数据进行观察和分析,发现规律。通过以上步骤,参阅图3,归纳如下规律(I)关键词对的共现次数都经过上升到平稳再到下降的发展过程,中间可能会出现一定的起伏,但整体的发展趋势不会改变;(2)关键词对共现次数达到平稳后就开始下降,且初始下降速度快,以后缓慢;(3)关键词对共现次数在下降的过程中,有可能出现突然变为上升的情况,达到平稳后,又重复上一条规律的过程。由于在某一时间段内的文本中,两关键词对共现次数越多,两关键词对的相关强度就越强。因此,两关键词对的共现次数发展趋势与它们的相关强度随时间变化的发展趋势是一致的,所以,本发明把关键词对共现次数的发展规律作为关键词对相关度随时间变化的发展规律。建立关键词对相关度值衰减模型对于一关键词对,即使初始相关度值很高,如果不再在统计信息中出现或出现的次数减少,那么,随着时间的推移,关键词对间的相关度值会逐渐降低。为了精确表达相关度值衰减的幅度,本发明对图3中的下降过程的曲线进行指数拟合得到如下图4所示关键词对相关度值衰减模型示意图。在该模型中,设关键词对初始衰减的时间为t’,定义t时刻的相关度值大小为e2, t),其中e1;e2分别代表两关键词对,且G1幸e2。采用指数回归分析满足
权利要求
1.一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法,其特征在于,包括如下步骤 a.基于冲激过程计算关键词对相关度冲激增量; b.基于衰减过程计算关键词对相关度衰减减量;以及 c.根据冲激增量以及衰减减量计算关键词对动态相关度。
2.根据权利要求I所述的控制方法,其特征在于,所述关键词对动态相关度周期性进行更新,每个周期包括一个冲激过程和相应衰减过程。
3.根据权利要求I或2所述的控制方法,其特征在于,所述步骤a之前还包括如下步骤 I.根据网络关键词对数据获取关键词对动态相关度变化规则。
4.根据权利要求3所述的控制方法,其特征在于,所述步骤I还包括如下步骤 II.选取关键词对作为搜索关键词,经过相同时间间隔多次进行搜索; 12.记录每次搜索结果获取上述关键词对共现句的个数; 13.对上述间隔时间以及个数的数据进行处理获取关键词对动态相关度变化规则。
5.根据权利要求3或4所述的控制方法,所述关键词对共现句个数的变化与所述关键词对动态相关度的变化相适应。
6.根据权利要求3所述的控制方法,所述步骤I还包括如下步骤 II’ 选取第一参数对关键词对作为搜索关键词,经过相同时间间隔对第一参数对的关键词对分别进行多次搜索; 12’.记录每次搜索结果获取上述关键词对共现句的个数; 13’.对上述第一参数对关键词对的间隔时间以及个数的数据进行归一化处理获取关键词对动态相关度变化规则。
7.根据权利要求3至6任一项所述的控制方法,其特征在于,所述关键词对动态相关度变化规则为所述关键词对动态相关度经过冲激过程所述关键词对动态相关度上升再经过衰减过程所述关键词对动态相关度下降。
8.根据权利要求7所述的控制方法,其特征在于,所述关键词对动态相关度变化规则还包括所述关键词对动态相关度周期性经过冲激过程和衰减过程。
9.根据权利要求4所述的控制方法,其特征在于,获取所述步骤13还包括如下步骤 .131.根据数据处理图像拟合生成冲激过程所述关键词对动态相关度冲激增量的计算公式;以及 .132.根据数据处理图像拟合生成衰减过程所述关键词对动态相关度衰减减量的计算公式。
10.根据权利要求9所述的控制方法,其特征在于,获取所述步骤132之后包括如下步骤 .133.根据周期性的冲激过程调整所述关键词对动态相关度冲激增量以及衰减减量的计算公式。
11.根据权利要求10所述的控制方法,其特征在于,使用不同周期值根据所述关键词对动态相关度计算结果与搜索引擎搜索结果进行差异度比较,将差异度最小的周期值作为所述周期性冲激过程的周期值。
全文摘要
本发明提供一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法,其特征在于,包括如下步骤a.基于冲激过程计算关键词对相关度冲激增量;b.基于衰减过程计算关键词对相关度衰减减量;以及c.根据冲激增量以及衰减减量计算关键词对动态相关度。本发明是根据关键词对在网络文档中的共现信息并结合关键词对相关度值的衰减特性和冲激特性来动态调整关键词对间相关强度,其有的优点包括更实时地把握信息,更贴近关键词对间真是相关强度的变化趋势,更高效更快捷。
文档编号G06F17/30GK102968433SQ20121034979
公开日2013年3月13日 申请日期2012年9月19日 优先权日2012年9月19日
发明者王知书, 杨静 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1