基于相关反馈和聚类的搜索引擎技术的制作方法

文档序号:6601929阅读:149来源:国知局
专利名称:基于相关反馈和聚类的搜索引擎技术的制作方法
技术领域
本发明涉及互联网信息检索技术领域,尤其涉及一种基于相关反馈和聚类的Web 检索结果优化方法。
背景技术
目前,搜索引擎大都是基于关键词来进行索引和检索的,根据用户输入的关键词 列表,搜索引擎查找索引库,将匹配的文档按照与用户查询的相关度的不同排序显示。由于 关键词具有一词多义现象,而且用户往往只输入很少的关键词进行检索,使得搜索引擎返 回的搜索结果列表通常包含了很多主题不相关、混杂在一起的文档,用户必须逐个浏览检 索结果列表以找到相关文档,其中还有许多内容重复的网页,从这样的检索结果中浏览信 息会浪费用户许多时间和大量精力。为了方便用户的浏览,一些研究人员将自动聚类技术用于Web信息检索结果的类 别划分,将具有相似特征(例如同属于一个主题)的文档放在同一组,以便于用户缩小查找 范围,只在自己感兴趣的少数组中查找和浏览所关心的文档。但是对检索结果的自动聚类 没有考虑与用户的相关性,导致检索结果不能反映用户的特定意愿及专业领域,用户也不 能根据自己的需要和兴趣选择文档聚类的方式。另外,在Web搜索引擎上其检索结果数量 巨大,已有的自动聚类研究是对全部检索结果包括大量与用户不相关的结果进行聚类,聚 类过程需要时间长,从而影响搜索引擎的性能。为了使检索结果的聚类与特定用户的查询需求相关,出现了一种基于查询日志 的检索结果的半指导聚类方法。该方法根据查询日志中用户点击结果的记录数据得到 must-link约束,具体方法是假定用户点击了同一页的两个检索结果,则认为它们是和用户 查询相关的,由此可以得出它们之间具有must-link约束关系。考虑到由于个人的原因选 择的must-link约束会具有噪声,该方法首先统计查询日志中这些约束的产生频率,然后 选择频率大于某个阈值的约束作为最终的must-link约束。用此方法遍历查询日志可以得 到关于每个查询的must-link约束,最后根据约束进行检索结果的半指导聚类。由于查询 日志中并不包括用户的所有可能的查询,对于用户输入的新的查询,并不能从查询日志中 得到约束关系;此外,在聚类时保证了 must-link约束的结果在同一聚簇中,can not-link 约束的结果不在同一聚簇中,并没有考虑聚类过程的优化,按照该方法对Web信息检索结 果聚类时对全部与用户相关的和不相关的检索结果进行聚类处理仍然会耗时长,影响搜索 引擎的性能。另一种将用户反馈信息结合到文本聚类的方法,需要用户首先指定属于一些聚簇 的例子文档以指导聚类过程。然后将聚类结果呈现给用户,由用户检查聚类结果并给出一 些反馈信息,例如指出文档d应该属于聚簇S或不应属于聚簇S ;文档d应该从聚簇Si换 到聚簇h ;两个文档应在同一聚簇或不应在同一聚簇。根据用户反馈信息指导下一轮聚类 过程,再与用户交互,直到得到用户满意的聚类结果。对每个聚簇建模时使用了特征局部权 重来反映一个聚簇的特征的重要性。通过增加更多更准确的约束来提高特征局部权重的质量,从而提高聚类效果。该方法主要考虑了文本聚类的有效性,但需要用户多次输入反馈 信息,增加了用户的负担,尤其是首次聚类时需要用户指定属于一些聚簇的例子文档以指 导聚类过程,给用户增加了难度;而且聚类的过程耗时长,不适用于Web信息检索结果的聚 类。

发明内容
本发明针对上述方法存在的需要用户多次输入复杂的反馈信息或是查询日志对 新的查询无效,以及对全部检索结果聚类耗时长、结果划分中存在无关文档类或文档聚簇 中仍存在大量重复内容等弊端,提供了一种只需用户输入与查询需求相关和不相关的少部 分反馈信息来指导优化Web检索结果的方法。本发明采用以下技术方法(1)确定初始聚类类别数和各类别的初始聚类中心向量,包括将用户从检索结果中选取的相关文档划为一类,称为相关文档类,确定相关文档 类的初始聚类中心;相关文档类的初始聚类中心向量通过求取各个关键词在该类各个文档 中的权重平均值得到。将不相关文档划分为一个或若干个不相关文档类,确定每类的初始聚类中心,包 括-选一个不相关文档作为第一个不相关文档类,该文档的特征向量即为该文档类 的聚类中心向量-计算其余不相关文档和上述类别的相似度,根据相似度值将其划分到最相近的 某个不相关类别中或划分到新的不相关类,如果是划分到新的一类,则该文档的特征向量 即为该类的聚类中心向量(2)初始划分及确定最终聚类类别数;计算检索结果列表中用户未选取的文档与相关文档类和不相关文档类的相似度, 根据相似度值的大小进行以下处理-将其划分到最相近的某个文档类中-或划分到新的文档类,该文档特征向量即为该类的聚类中心向量;-或者判断出属于重复内容的文档并将其删除(3)去掉初始划分中的每个文档类(聚簇)中内容重复的文档;从该类中的某个文档dl开始,计算该文档的特征向量与其后各个文档向量之间 的相似度,根据相似度值判断某文档是否与文档dl内容重复,如果是,则从检索结果列表 和该文档类中删除与该文档dl内容重复的文档;然后从更新了的检索结果列表中的下一个开始,计算该文档的特征向量与其后各 个文档的特征向量之间的相似度,并进行是否是重复文档的判断。重复上述过程,直到检索结果列表的最后。(4)修改除了不相关文档类以外的其它类别的聚类中心向量;类的初始聚类中心向量通过求取各个关键词在该类各个文档中的权重平均值得 到。(5)重新计算检索结果列表中用户未选中的其它项与每个聚类中心的相似度,重新进行划分,包括-计算每个文档的特征向量和每个类别聚类中心向量之间的相似度,将文档划分 到最相近的类别中。-如果某文档属于不相关文档类,而且其与查询的相关度排序靠后,则分别从不相 关文档类别和检索结果列表中删除该文档。(6)重复步骤⑷和(5),直到满足终止条件。本发明同时利用用户相关反馈信息和相关度排序指导检索结果的聚类,使检索结 果的最终划分符合用户查询需求;在聚类过程中去除了大量与用户不相关的文档和重复网 页,提高了聚类速度,同时优化了检索结果。在聚类过程中,与用户不相关的一类聚簇不修 改聚类中心,确保了不会在不相关文档聚簇中因引入噪声而丢掉与用户相关的结果文档。


下面结合附图对本发明作详细说明图1为本发明的流程图。
具体实施例方式步骤S101 用户从搜索引擎检索结果中选择相关的文档和不相关的文档;步骤S102 确定初始聚类类别数和初始聚类中心;假设检索结果列表中文档为dl,d2,. . ds(s为文档数),假设检索系统的索引库中 索引的关键词不包括停用词,在检索系统的索引库中选取文档dl,d2,. . ds中关键词权重, 即关键词在文档中出现的频率,大于预设的阈值8 k的关键词tl,t2,t3,,.tn(n为关键词 数),构成向量空间模型中向量的维,则文档di的特征向量di定义为di = (wn, wi2, ,win)(1)其中,Wij= tfi」(i = l,2,...s,j = 1,2,...11)3、是第]_个关键词在第1个文 档di中出现的频率。1.抽取相关文档的公共特征向量将用户选取的相关文档作为一个相关文档类,用C1表示。假设C1文档类中的相 关文档为dl,d2,,.dm(m为用户选取的相关文档数),则关键词tl,t2,t3,. . tn在C1类中 的权重分别为 C1类的初始聚类中心向量定义为Clcenter = (an,a12,aln)此时聚类类别数k=l。2.对不相关文档进行类别划分用户选取的不相关文档可能属于同一文档类,也可能属于不同的文档类。对于t 个不相关文档按照以下步骤进行划分-任选一个不相关文档记为di(i= 1,2,...0,聚类类别数1^ = 1^1,将文档肚划分到Ck文档类,文档di的特征向量di作为Ck文档类的聚类中心向量Ck。entCT。-对其余的t_l个不相关文档重复以下过程计算文档di的特征向量di和每个不相关文档类的聚类中心向量之间的相似度, 相似度计算公式采用向量夹角余弦公式 其中,Cjcenter为第j个文档类的聚类中心向量,wiv是第v个关键词在第i个文档 di中的权重,其定义见式(1) 是第v个关键词在第j个聚类Cj中的权重。如果di与某个已有的不相关文档类Cg(g = 2,3,. . . k)的聚类中心向量 似度值最大且超过设定阈值S 1时,则将文档di归为Cg文档类;如果di与当前所有不相关类别的聚类中心向量的相似度值都小于设定阈值S 1, 则令k = k+1,将文档di划分到新的文档类Ck,文档di的特征向量di作为Ck文档类的聚 类中心向量Ck。entCT。上述过程结束,将不相关文档划分为d = k-1个类别。初始的聚类类别数为k。步骤S103 确定初始划分及最终聚类类别数k ;对用户未选中的结果列表中每个文档di,重复以下过程1.计算文档di的特征向量di和每个文档类的聚类中心向量之间的相似度,计算 采用式(3)。2.如果特征向量di与第r个文档类Cr的聚类中心向量Cr。entCT相似度值最大且 超过设定阈值S1时-如果相似度值小于设定阈值S2 ( S 2 > 6 1),则将文档di归为Cr类;_否则认为文档di为重复页,从检索结果列表中删除文档di。3.如果特征向量di与当前k个文档类的聚类中心向量的相似度值都小于设定阈 值S1,则令k = k+1,将文档di划分到新的文档类Ck,文档di的特征向量di作为Ck的聚
类中心向量Ck。entCT。上述过程结束,初始划分形成,最终聚类类别个数为k。步骤S104 去掉被划分到k个文档类中的网页的重复内容;设某一文档类中有p个文档组成文档列表dl,d2,. . dp。从文档dl开始,计算该文档向量与其后p-1个文档向量之间的相似度,如果与文 档dx的特征向量之间的相似度值大于设定阈值8 2,则认为两者是重复网页,分别从检索 结果列表和该文档类中删除文档dx,修改p = p-1 ;然后从更新了的检索结果列表中的d2开始,计算该文档向量与其后p-2个文档向 量之间的相似度,如果与文档dy的特征向量之间的相似度值大于设定阈值8 2,则认为两 者是重复网页,分别从检索结果列表和该聚类中删除文档dy,修改p = p-1 ;重复上述过程,直到检索结果列表的最后。步骤S105 修改除d个不相关类别外的其它文档类的聚类中心向量;步骤S106 重新计算检索结果列表中用户未选中的其它文档与这k类的相似度,并进行划分;对更新后的检索结果列表中用户未选中的每个文档di,重复以下过程1.根据公式(3)计算文档di的特征向量di和每个文档类的聚类中心向量之间的 相似度,将文档di划分到最相近的文档类中。2.如果文档di属于不相关文档类,而且其与查询的相关度排序靠后,则分别从不 相关文档类和检索结果列表中删除该文档。步骤S107 重复105和106,直到满足终止条件。设定终止条件为目标函数值最小或小于设定的迭代次数。
权利要求
一种基于相关反馈和聚类的搜索引擎技术,其特征在于,包括以下步骤步骤一确定初始聚类类别数和各类别的初始聚类中心向量,包括将用户从检索结果中选取的相关文档划为相关文档类,确定该相关文档类的初始聚类中心向量;所述初始聚类中心向量通过求取各关键词在该相关文档类各文档中的权重平均值得到;将不相关文档划分为一个或若干个不相关文档类,并确定所述各不相关文档类的初始聚类中心向量,包括-选一个不相关文档作为第一个不相关文档类,并将该不相关文档的特征向量定义为所述不相关文档类的聚类中心向量;-分别计算其余不相关文档和上述不相关文档类的相似度,并根据所得相似度值将该不相关文档划分到与其最相近的当前某个不相关文档类中或划分到新的不相关文档类中,并将该不相关文档的特征向量定义为所述新的不相关文档类的聚类中心向量;步骤二确定初始划分及最终聚类类别数;分别计算检索结果列表中用户未选取的文档与所述相关文档类和不相关文档类的相似度,根据相似度值的大小进行以下处理-将该文档划分到与其最相近的当前某个文档类中;-或将该文档划分到新的文档类,并将该文档的特征向量定义为所述新的文档类的聚类中心向量;-或判断该文档属于内容重复的文档并将其删除;步骤三去掉初始划分中的每个文档类中内容重复的文档;从该文档类中的第一个文档开始,计算该文档的特征向量与其后各个文档的特征向量之间的相似度,根据相似度值判断该文档是否与其它文档内容重复,如果内容重复,则从检索结果列表和该文档类中删除与该文档内容重复的文档;然后从更新后的检索结果列表中的下一个开始,计算该文档的特征向量与其后各文档的特征向量之间的相似度,据此判断并删除内容重复的文档;重复上述过程,直到检索结果列表的最后;步骤四修改除不相关文档类以外的其它文档类的聚类中心向量;所述聚类中心向量通过求取各关键词在该文档类各文档中的权重平均值得到;步骤五重新计算检索结果列表中用户未选中的其它文档的特征向量与当前每个文档类的聚类中心向量的相似度,并据此进行划分,包括-将文档划分到与其最相近的文档类中;-如果某文档属于某一不相关文档类,而且该文档与查询的相关度排序靠后,则分别从不相关文档类和检索结果列表中删除该文档;步骤六重复步骤四和五,直到满足终止条件。
2.如权利要求1所述的方法,其特征在于,所述文档的特征向量定义为 di = (wn, wi2, ... , win)其中,di为文档di的特征向量,Wij = tfu(j = 1,2...η,η为关键词个数),tf。.为第 j个关键词在文档di中出现的频率。
3.如权利要求1所述的方法,其特征在于,所述步骤一及步骤四中关键词j在文档类r的各文档中的权重平均值的计算公式为 其中,m为该文档类中的文档数。
4.如权利要求1所述的方法,其特征在于,某一文档类r的聚类中心向量表示为Crcenter — (arl,ar2,· · arn) 0
5.如权利要求1所述的方法,其特征在于,所述步骤一至五中文档的特征向量和文档 类的聚类中心向量之间的相似度的计算,采用向量夹角余弦公式
6.如权利要求1或5所述的方法,其特征在于,所述步骤二中通过设置阈值并与相似度 进行比较,从而判断对某一文档应采取的处理方式,具体的,如果所述相似度值超过设定的 阈值δ 1时_如果所述相似度值小于设定的阈值δ2(δ2> δ 1),则将该文档归入与该文档相似 度最高的一个文档类;-否则判断该文档为内容重复的文档。
全文摘要
本发明同时利用用户相关反馈信息和相关度排序指导检索结果的聚类,使检索结果的最终划分符合用户查询需求;在聚类过程中去除了大量与用户不相关的文档和重复网页,提高了聚类速度,同时优化了检索结果。在聚类过程中,与用户不相关的一类聚簇不修改聚类中心,确保了不会在不相关文档聚簇中因引入噪声而丢掉与用户相关的结果文档。
文档编号G06F17/30GK101853272SQ20101016558
公开日2010年10月6日 申请日期2010年4月30日 优先权日2010年4月30日
发明者李新叶 申请人:华北电力大学(保定)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1