一种搜索结果消重方法及系统与流程

文档序号:15399785发布日期:2018-09-11 17:12阅读:175来源:国知局

本申请涉及网络技术领域,尤其涉及一种搜索结果消重方法及系统。



背景技术:

随着网络技术的飞速发展,网络提供给人们的信息资源越来越丰富,想要在浩瀚的网络资源中查找到有用的信息,元搜索起到了重要作用。但是元搜索在整合搜索引擎数据的时候,搜索引擎自身会存在重复数据,不同搜索引擎之间又有大量的重叠数据,从而造成大量重复网页url数据的问题。

目前已有的关于消除重复网页url的研究中,方法主要都基于这样一个思想:根据一定的算法为每个url对应的网页内容计算出一组指纹,若两个网页内容有一定数量的相同指纹,则认为这两个网页的内容相似性较高,即两者是重复网页。

以往的基于url对应网页内容的指纹相似性的消重方法主要有以下不足:

(1)需要获取源网页内容。抓取和存储源网页内容会消耗大量时间和资源,花费的代价过大。

(2)相似性的程度难以判定。定的太高,消重的效果不好;定的太低,误删了有效的网页。其结果都会导致处理后数据不准确,对于后续分析和数据挖掘造成不利影响。



技术实现要素:

本发明提供了一种搜索结果消重方法及系统,用以解决现有技术中抓取和存储源网页内容消重会消耗大量时间和资源以及准确性较差的问题。

其具体的技术方案如下:

一种搜索结果消重方法,所述方法包括:

获取基于搜索词搜索到的各个搜索结果,并解析出每条搜索结果对应的统一资源定位符url以及设定参数;

将所述搜索结果中具有相同url归类为一组,在各组中保留一条搜索结果;

将保留的搜索结果中具有相同设定参数的重新归类为一组,在重新归类的各组中保留一条搜索结果,并将保留的搜索结果作为最终消重的搜索结果。

可选的,解析出每条搜索结果对应的统一资源定位符url以及设定参数,具体为:解析出每条搜索结果中包含的标题、媒体、发布时间以及url。

可选的,将搜索结果中具有相同url归类为一组,包括:

对搜索结果进行标题前后缀消除,并对url进行统一、媒体统一、发布时间矫正;

将矫正的搜索结果中具有相同url的归类为一组。

可选的,将保留的搜索结果中具有相同设定参数的重新归类为一组,具体为:将保留的搜索结果中具有相同标题、相同媒体以及相同发布时间的搜索结果归为一组。

一种搜索结果消重系统,所述系统包括:

处理单元,将搜索结果中具有相同url归类为一组;在各组中保留一条搜索结果,并将保留的搜索结果中具有相同设定参数的重新归类为一组;在重新归类的各组中保留一条搜索结果,并将保留的搜索结果作为最终消重的搜索结果。

可选的,所述系统还包括:

解析单元,用于获取基于搜索词搜索到的各个搜索结果,并解析出每条搜索结果对应的统一资源定位符url以及设定参数;

可选的,所述解析单元,具体用于解析出每条搜索结果中包含的标题、媒体、发布时间以及url。

可选的,所述处理单元,具体用于对搜索结果进行标题前后缀消除,并对url进行统一、媒体统一、发布时间矫正;将矫正的搜索结果中具有相同url的归类为一组。

可选的,所述处理单元,具体用于将保留的搜索结果中具有相同标题、相同媒体以及相同发布时间的搜索结果归为一组。

本发明所提供的技术方案至少具有如下技术效果:

1、不需要采集url对应的源网页的内容,只需要搜索结果中直接展现的字段数据,大大降低了爬虫采集的代价,能够广泛应用于元搜索的url消重。

2、对消重的处理过程,只需要根据相关字段执行两次关键的分组操作。不需要制定难以衡量的网页相似度标准,因此更加简单高效。

附图说明

图1为本发明实施例中一种搜索结果消重方法的流程图;

图2为本发明实施例中为4条搜索结果的示意图;

图3为本发明实施例中预处理后的每条搜索结果的示意图;

图4为本发明实施例中为将相同url的搜索结果进行分组之后的示意图;

图5为本发明实施例中第一次消重的结果示意图;

图6为本发明实施例中第一次消重结果中具有相同设定参数的进行分组的示意图;

图7为本发明实施例中第二次消重后的结果示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解,本发明实施例以及实施例中的具体技术特征只是对本发明技术方案的说明,而不是限定,在不冲突的情况下,本发明实施例以及实施例中的具体技术特征可以相互组合。

如图1所示为本发明实施例中一种搜索结果消重方法的流程图,该方法包括:

s101,获取基于搜索词搜索到的各个搜索结果,并解析出每条搜索结果对应的统一资源定位符url以及设定参数;

首先,基于用户的搜索词将搜索出多个搜索结果,如图2所示为4条搜索结果的示意图,每条搜索结果中包含了标题、url、媒体、发布时间等参数,其中,将url作为一个参数,并将标题、媒体、发布时间作为设定参数。

在得到搜索结果之后,首先对得到的搜索结果进行预处理,预处理的主要目的是将搜索结果的标题进行前后缀消除,并对url进行统一,将媒体进行统一,将发布时间进行矫正,如图3所示为预处理后的每条搜索结果的示意图,在预处理之后,得到搜索结果中部分搜索结果相同。

s102,将搜索结果中具有相同url归类为一组,在各组中保留一条搜索结果;

在对搜索结果进行预处理之后,首先基于url对搜索结果进行分组,也就是将具有相同url的归为一组,比如图4所示为将相同url的搜索结果进行分组之后的示意图,在第一组中包含了2条搜索结果,第二组以及第三组中分别包含了1条搜索结果。

若是同一组中包含了多条搜索结果时,则该组中只保留一条搜索结果,比如图4中第一组包含了2条搜索结果,此时就在第一组中删除一条搜索结果,这样就得到如图5所示的结果。在图5中各个组中都包含一条搜索结果。

s103,将保留的搜索结果中具有相同设定参数的重新归类为一组,在重新归类的各组中保留一条搜索结果,并将保留的搜索结果作为最终消重的搜索结果。

在对搜索结果进行第一次消重之后,基于设定参数对该搜索结果进行第二次消重,也就是基于标题、媒体、发布时间进行第二次消重,此时需要根据设定参数对第一次消重的结果进行重新分组。

具体来讲,将具有相同标题、媒体、发布时间的搜索结果归为一组,图6所示为基于图5的消重结果进行重新分组之后的示意图,在图5中具有相同标题、媒体、发布时间的搜索结果有2条,所以将这2条搜索结果归为一组,从而完成第二次分组。

在重新分组的搜索结果中确定同一组中是否存在多条搜索结果,若是在同一组中存在多条搜索结果时,该组中只保留一条搜索结果,比如图6中的第四组中有两条相同的搜索结果,因此在该组中删除一条搜索结果,从而每个组中就只保留一条搜索结果,如图7所示,最终保留的搜索结果作为最终的搜索结果。

本发明所提供的技术方案至少具有如下技术效果:

1、不需要采集url对应的源网页的内容,只需要搜索结果中直接展现的字段数据,大大降低了爬虫采集的代价,能够广泛应用于元搜索的url消重。

2、对消重的处理过程,只需要根据相关字段执行两次关键的分组操作。不需要制定难以衡量的网页相似度标准,因此更加简单高效。

对应本发明所提供的方法,本发明还提供了一种搜索结果消重系统,该系统包括:

处理单元,将搜索结果中具有相同url归类为一组;在各组中保留一条搜索结果,并将保留的搜索结果中具有相同设定参数的重新归类为一组;在重新归类的各组中保留一条搜索结果,并将保留的搜索结果作为最终消重的搜索结果。

进一步,在本发明实施例中,该系统还包括:

解析单元,用于获取基于搜索词搜索到的各个搜索结果,并解析出每条搜索结果对应的统一资源定位符url以及设定参数。

进一步,所述解析单元,具体用于解析出每条搜索结果中包含的标题、媒体、发布时间以及url。

进一步,所述处理单元,具体用于对搜索结果进行标题前后缀消除,并对url进行统一、媒体统一、发布时间矫正;将矫正的搜索结果中具有相同url的归类为一组。

进一步,所述处理单元,具体用于将保留的搜索结果中具有相同标题、相同媒体以及相同发布时间的搜索结果归为一组。

尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改,包括采用特定符号、标记确定顶点等变更方式。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1