一种网络搜索的方法和系统与流程

文档序号:12363836阅读:162来源:国知局
一种网络搜索的方法和系统与流程

本发明涉及互联网技术领域,特别涉及一种网络搜索的方法和系统。



背景技术:

随着网络的迅速发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问互联网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。

(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

为了解决上述问题,定向抓取相关网页资源的抓取服务器(又可以称为聚焦爬虫)应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网上下载网 页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

然而,网络爬虫对于网站资源消耗比较大,如果一个网络爬虫过于频繁地访问一个网站,很有可能该网站会屏蔽该网络爬虫所在抓取服务器的IP地址,导致该网络爬虫不能再次访问该网站。



技术实现要素:

本发明技术方案提供一种网络搜索的方法和系统,能够降低抓取服务器被封的风险,提高网络搜索的效率。

本发明技术方案提供了一种网络搜索的方法,其特征在于,包括以下步骤:

接收网络搜索的指令;

不少于两个抓取服务器从网络中搜索所述指令对应的信息;

将搜索到的信息发送给分析服务器进行处理。

进一步地,所述不少于两个抓取服务器从网络中搜索所述指令对应的信息,进一步包括以下步骤:

所述不少于两个抓取服务器分别连接不同的目标服务器;

所述不少于两个抓取服务器从各自连接的目标服务器搜索所述指令对应的信息。

进一步地,任务服务器接收所述指令,分配所述不少于两个抓取服务器连 接不同的目标服务器。

进一步地,还包括以下步骤:

当一个抓取服务器被目标服务器禁止抓取时,任务服务器分配其他抓取服务器连接所述目标服务器,搜索指令对应的信息。

进一步地,还包括以下步骤:

当所有的抓取服务器被所述目标服务器禁止抓取时,任务服务器发出告警信息。

进一步地,所述告警信息包括所述目标服务器的IP地址。

本发明技术方案还提供了一种网络搜索的系统,包括不少于两个抓取服务器和分析服务器,其中,

不少于两个抓取服务器用于从网络中搜索指令对应的信息,并发送给分析服务器;

分析服务器用于处理搜索到的信息。

进一步地,还包括任务服务器,所述任务服务器用于接收指令,分配所述不少于两个抓取服务器连接不同的目标服务器。

进一步地,所述任务服务器还用于当一个抓取服务器被目标服务器禁止抓取时,分配其他抓取服务器连接所述目标服务器,搜索指令对应的信息。

进一步地,所述任务服务器进一步包括告警单元,所述告警单元用于当所有的抓取服务器被所述目标服务器禁止抓取时,发出告警信息。

本发明技术方案由于采用多个抓取服务器分别从目标服务器抓取信息,统一有一个分析服务器进行处理,从而降低或者规避了一个抓取服务器被封的风险,提高了网络搜索的效率。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获 得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例一中网络搜索的流程图;

图2为本发明实施例二中网络搜索系统的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

图1为本发明实施例一中网络搜索的流程图。如图1所示,该网络搜索流程包括以下步骤:

步骤101、任务服务器接收网络搜索的指令。

由于以下需要多个抓取服务器去抓取信息,为了协调各个抓取服务器,本实施例引入了任务服务器,首先由任务服务器接收网络搜索指令。

步骤102、任务服务器向多个抓取服务器分配任务,分别去连接不同的目标服务器,这些目标服务器对应着各个网站。

任务服务器会根据指令,向不同的抓取服务器分配对应的目标服务器,然后每个抓取服务器开始访问自己对应的目标服务器。

步骤103、这些抓取服务器从各自连接的目标服务器搜索指令对应的信息。

抓取服务器连接目标服务器后,根据指令去搜索该目标服务器中与指令对应的相关信息。

步骤104、抓取服务器将搜索到的信息发送给分析服务器进行处理。

所有抓取服务器从各自的目标服务器中获取的、与搜索指令对应的信息, 全部发送给一台分析服务器,分析服务器再对所有收到的信息进行处理,最后给出搜索的结果。

步骤105、当一个抓取服务器被目标服务器禁止抓取时,任务服务器分配其他抓取服务器连接该目标服务器,搜索指令对应的信息。

如果一个抓取服务器由于目标服务器的限定,封了抓取服务器的IP地址,从而导致该抓取服务器不能够访问目标服务器,这时任务服务器将会分配其他抓取服务器连接该目标服务器,搜索指令对应的信息,从而规避了抓取服务器被目标服务器封IP之后产生的无法访问的风险。

步骤106、当所有的抓取服务器被目标服务器禁止抓取时,任务服务器发出告警信息,该告警信息包括该目标服务器的IP地址。

一旦出现所有的抓取服务器被一台目标服务器封IP的极端情况,任务服务器将发出告警信息,告知哪个IP地址的目标服务器所有抓取服务器都无法访问,以为后续处理提供信息。

为了实现上述流程,本发明的实施例还提供了一种网络搜索的系统。图2为本发明实施例二中网络搜索系统的结构示意图,如图2所示,该网络搜索的系统包括任务服务器201、不少于两个抓取服务器202和分析服务器203。

任务服务器接收指令,分配抓取服务器连接不同的目标服务器205。由于以下需要多个抓取服务器去抓取信息,为了协调各个抓取服务器,本实施例引入了任务服务器,首先由任务服务器接收网络搜索指令。

任务服务器还用于当一个抓取服务器被目标服务器禁止抓取时,分配其他抓取服务器连接该目标服务器,搜索指令对应的信息。

任务服务器中还包括告警单元204,该告警单元用于当所有的抓取服务器被所述目标服务器禁止抓取时,发出告警信息。

不少于两个抓取服务器分别从网络中搜索指令对应的信息,并发送给分析服务器。

每个抓取服务器收到任务服务器的任务分配,开始访问自己对应的目标服 务器,抓取服务器连接目标服务器后,根据指令去搜索该目标服务器中与指令对应的相关信息。

分析服务器用于处理搜索到的信息。所有抓取服务器从各自的目标服务器中获取的、与搜索指令对应的信息,全部发送给一台分析服务器,分析服务器再对所有收到的信息进行处理,最后给出搜索的结果。

本发明技术方案由于采用多个抓取服务器分别从目标服务器抓取信息,统一有一个分析服务器进行处理,从而降低或者规避了一个抓取服务器被封的风险,提高了网络搜索的效率。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1