搜索引擎中包含web对象的聚类方法

文档序号:6579062阅读:132来源:国知局
专利名称:搜索引擎中包含web对象的聚类方法
技术领域
本发明涉及垂直搜索引擎引擎文本检索技术,尤其是涉及一种搜索引擎中包含 WEB对象的聚类方法。
背景技术
随着互联网上数据的规模及复杂度以指数级增长,传统搜索引擎对于用户呈现杂 乱的搜索结果的表现方式已逐渐不能满足人们的需求。高细粒度的聚类方法针对这一问 题应运而生,目前研究机构以及大型互联网公司已经将高细粒度的聚类方法作为研究的热 点。 面向WEB对象的数据是指对网页经过简单前期处理但未对内容进行属性标注的 文本数据,这类数据描述大量对象信息,如产品,地址,事件等。虽然现在大部分垂直搜索系 统能一定程度上聚类搜索结果,但是这种聚类粒度远远没有达到很高的标准,在噪音的影 响下,使得用户亲和力降低很多。另一方面,提供高细粒度的搜索结果可以使垂直搜索引擎 提供附带的高质量的检索功能。 由于WEB对象各个属性在同一类别下具有一定的收敛性,差异性只会存在于个别 特殊的属性中,而且WEB对象一般是属于短文本信一息,因此利用这些联系可以设计出高 细粒度的聚类方法。

发明内容
本发明的目的在于提供一种搜索引擎中包含WEB对象的聚类方法。本发明解决其 技术问题采用的技术方案的步骤如下 1)根据垂直搜索引擎应用环境,对搜索结果中包含的WEB对象聚类结果高细粒度 的要求,选择衡量WEB对象关联度的建模方法,构建一个针对WEB对象的信息检索聚类系 统; 2)基于步骤1)中关联度的建模方法,建立一种WEB对象表示特征标志;
3)基于步骤2)中的特征标志,建立衡量词汇信息重要度和WEB对象的相似度;
4)基于步骤3)中定义的词汇信息重要度和相似度,建立一个自适应的记录合并 模型,结合词汇的信息分布模型和WEB对象的高相似度联合性; 5)基于步骤1)、步骤2)、步骤3)、步骤4),在搜索引擎服务系统上建立WEB对象的 信息聚类处理系统,实现垂直搜索引擎检索结果。 所述步骤1)的建模方法应将原始的WEB对象文本数据结构化,表示成计算机系统 易理解与处理的形式。 所述步骤2)中特征标志建立的一个WEB对象实体特征的模型,构建WEB对象应具 有以下特点a)能够重点突出同一类WEB对象之间的关键特征,减少文本差异对聚类结果 的影响;b)能够突出不同WEB对象之间的差异和同属性在不同类别下的差异。
所述步骤2)中特征标志建立的一种衡量词汇间关联度的建模方法,构建WEB对象应具有以下特点a)基于树状结构,具有语义的上下层次关系;b)表示各个词汇间的关联 性和凝聚性。 所述步骤3)应实现现实网络中同一个意义上WEB对象的相似度,提供正确的聚类 标准。 所述步骤4)中的一个自适应的记录合并模型应利用WEB对象的相似度,词汇间关
联度和现实网络的中闭包结构,统一WEB对象的聚类,归并所有统一对象。 所述步骤5)的具体实施应满足如下需求 1)所建立的层次化垂直搜索引擎系统,应满足搜索结果的统一性,确保各个网站 上的WEB对象可以准确高效聚类,减少噪音的影响。 2)所建立的层次化垂直搜索引擎系统,应满足服务器端对检索到的WEB对象进行 高效的一次聚类。然后根据具体的应用需求,对中间结果进行二次归类合并,得到准确的聚 类结果。 本发明具有的有益效果是 充分利用了垂直搜索引擎环境中检索系统的现有研究和实现成果,可以方便快捷 的提高WEB对象的聚类结果细粒度,并且不依赖于一种特有的文本检索技术,使用者根据 应用需求选择最合适的聚类合并技术,提供最好的性能。


图1是本发明实施步骤流程图。 图2是目标聚类检索系统工作原理示意图。
具体实施例方式
现结合附图和实施例对本发明作进一步说明。
如图1与图2所示,本发明具体实施过程和工作原理如下 1)根据垂直搜索引擎具体应用环境,对搜索结果中包含的WEB对象聚类结果高细 粒度的要求,选择WEB对象表示和关联度选型; 2)根据定义的建模方法,建立一种新型的WEB对象特征标志方法;
3)定义衡量词汇信息重要性的尺度,以及基于该尺度下WEB对象的相似程度;
4)建立一个自适应的记录合并模型,结合词汇的信息分布模型和WEB对象的高相 似度联合性; 5)根据具体应用,在以上步骤以及垂直搜索引擎服务系统上,建立WEB对象的信 息聚类处理系统,实现高标准的垂直搜索引擎检索结果。 所述步骤1)应将原始的WEB对象文本数据结构化,表示成计算机系统易理解与处 理的形式。 所述步骤2)中建立的一个真正突出WEB对象实体特征的模型,构建WEB对象应具 有以下特点 a)能够重点突出同一类WEB对象之间的关键特征,尽量减少文本差异对聚类结果 的影响; b)能够尽量突出不同WEB对象之间的差异和同属性在不同类别下的差异。
如网络垂直搜索引擎经常会检索诸如"诺基亚(Nokia)GSM手机N96","诺基亚N95 智能手机货到付款"和"诺基亚N958g GSM促销"等面向手机对象的数据,并且需要按照具 体手机的款式如"诺基亚n96手机","诺基亚n95普通手机"和"诺基亚n95大容量手机"进 行聚类,聚类结果需要严格区分三条记录的差异,提高搜索结果的准确性和完备性。建立信 息传递有向无环图根据词汇的层次关系建立信息传递有向无环图,然后,根据图中各节点 的拓扑关系确定低频词汇对高频词汇的信息传递量。最终将词汇信息分布的集中度作为特 征权重。 所述步骤2)中建立的一种衡量词汇间关联度的建模方法,构建WEB对象应具有以 下特点 a)基于树状结构,具有语义的上下层次关系; b)可以表示各个词汇间的关联性和凝聚性。建立相似连通图利用词汇的相似度 将所有记录划分成多个粗粒度的记录簇,允许单个记录重复出现在多个记录簇中。
所述步骤3)应实现现实网络中同一个意义上WEB对象的相似度,提供正确的聚类 标准。将聚类看作一个分辨对象的过程,对辨别对象能力较强的特征词汇赋予较高的权重, 因此具有很高的通用性。面向对象聚类是一个对象辨认过程,只有分辨出每条记录描述的 对象,才能进行准确的聚类。每条记录中存在对分辨对象起到关键作用的特征词汇,如例 子中的"8g" "n95"词汇;存在对分辨对象不起任何作用的噪音词汇,如例子中的"货到付 款""促销"词汇;存在分辨对象能力介于两者之间的一般词汇,如例子中"GSM"等词汇。
所述步骤4)中的一个自适应的记录合并模型应利用WEB对象的相似度,词汇间关 联度和现实网络的中闭包结构,统一WEB对象的聚类,归并所有统一对象。在提取特征并且 确定权重之后,记录合并模型需要根据记录间的相似度,得到最终聚类结果Clusters。
已有的合并模型一般有如下两个缺点首先,当记录合并到一个记录簇之后就不 允许更换新的记录簇,这种缺少自适应的局部最优过程很容易受到噪音的影响,产生较大 的误差。 其次,噪音词汇容易引起桥接效应,导致两条不同的记录因为存在相似的噪音而 错误地将各自所属的记录簇合并。 在本发明中首先根据每个特征的倒排索引建立粗粒度的聚类集合,这个集合取消 了对每条记录只能属于一个记录簇的限制,然后再将重复出现在多个记录簇的记录根据其 对记录簇相似度的影响程度重新自适应地选择最佳记录簇,这样产生的聚类结果可以极大 地修正上述所提到的两个缺点。记录去重对重复出现的记录选择最佳的保留记录簇,删除 其他重复的记录,得到最终细粒度的聚类结果。
所述步骤5)的具体实施应满足如下需求 1)所建立的层次化垂直搜索引擎系统,应满足搜索结果的统一性,确保各个网站 上的WEB对象可以准确高效聚类,减少噪音的影响; 2)所建立的层次化垂直搜索引擎系统,应满足服务器端对检索到的WEB对象进行 高效的一次聚类。然后根据具体的应用需求,对中间结果进行二次归类合并,得到准确的聚 类结果。
权利要求
一种搜索引擎中包含WEB对象的聚类方法,其特征在于该方法的步骤如下1)根据垂直搜索引擎应用环境,对搜索结果中包含的WEB对象聚类结果高细粒度的要求,选择衡量WEB对象关联度的建模方法,构建一个针对WEB对象的信息检索聚类系统;2)基于步骤1)中关联度的建模方法,建立一种WEB对象表示特征标志;3)基于步骤2)中的特征标志,建立衡量词汇信息重要度和WEB对象的相似度;4)基于步骤3)中定义的词汇信息重要度和相似度,建立一个自适应的记录合并模型,结合词汇的信息分布模型和WEB对象的高相似度联合性;5)基于步骤1)、步骤2)、步骤3)、步骤4),在搜索引擎服务系统上建立WEB对象的信息聚类处理系统,实现垂直搜索引擎检索结果。
2. 根据权利要求1所述的一种搜索引擎中包含WEB对象的聚类方法,,其特征在于所 述步骤1)的建模方法应将原始的WEB对象文本数据结构化,表示成计算机系统易理解与处 理的形式。
3. 根据权利要求2所述的一种搜索引擎中包含WEB对象的聚类方法,其特征在于所 述步骤2)中特征标志建立的一个WEB对象实体特征的模型,构建WEB对象应具有以下特 点a)能够重点突出同一类WEB对象之间的关键特征,减少文本差异对聚类结果的影响;b) 能够突出不同WEB对象之间的差异和同属性在不同类别下的差异。
4. 根据权利要求2所述的一种搜索引擎中包含WEB对象的聚类方法,其特征在于所 述步骤2)中特征标志建立的一种衡量词汇间关联度的建模方法,构建WEB对象应具有以下 特点a)基于树状结构,具有语义的上下层次关系;b)表示各个词汇间的关联性和凝聚性。
5. 根据权利要求3所述的一种搜索引擎中包含WEB对象的聚类方法,其特征在于所 述步骤3)应实现现实网络中同一个意义上WEB对象的相似度,提供正确的聚类标准。
6. 根据权利要求4所述的一种搜索引擎中包含WEB对象的聚类方法,其特征在于所 述步骤4)中的一个自适应的记录合并模型应利用WEB对象的相似度,词汇间关联度和现实 网络的中闭包结构,统一 WEB对象的聚类,归并所有统一对象。
7. 根据权利要求5所述的一种搜索引擎中包含WEB对象的聚类方法,其特征在于所 述步骤5)的具体实施应满足如下需求1) 所建立的层次化垂直搜索引擎系统,应满足搜索结果的统一性,确保各个网站上的 WEB对象可以准确高效聚类,减少噪音的影响。2) 所建立的层次化垂直搜索引擎系统,应满足服务器端对检索到的WEB对象进行高效 的一次聚类。然后根据具体的应用需求,对中间结果进行二次归类合并,得到准确的聚类结 果。
全文摘要
本发明公开了一种搜索引擎中包含WEB对象的聚类方法。通过挖掘词汇间的树状概率层次关系,计算词汇在数据集中的信息分布集中度,作为分辨对象的标志。该方法建立一个新型的信息传递有向无环图模型,准确提取数据中对辨别对象起到关键作用的特征词汇,提高相似度计算的精确性,并且建立一种新型的自适应记录合并模型,有效地提高各个记录簇中记录间高相似度比例,减少噪音对合并过程的影响,具有很高的准确性,健壮性和通用性。本发明充分利用了垂直搜索引擎环境中检索系统的现有研究和实现成果,可以方便快捷的提高WEB对象的聚类结果细粒度,并且不依赖于一种特有的文本检索技术,使用者根据应用需求选择最合适的聚类合并技术,提供最好的性能。
文档编号G06F17/30GK101706790SQ200910152879
公开日2010年5月12日 申请日期2009年9月18日 优先权日2009年9月18日
发明者寿黎但, 盛振华, 胡天磊, 陈刚, 陈珂 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1