网络爬虫集群信息的更新方法和装置与流程

文档序号:12121097阅读:来源:国知局

技术特征:

1.一种网络爬虫集群信息的更新方法,其特征在于,所述网络爬虫集群中每个网络爬虫配备一个本地检查器,所述方法包括:

目标本地检查器根据其对应的网络爬虫发送的消息在该目标本地检查器中查询是否存在目标爬取链接,其中,所述消息中携带有所述目标爬取链接;

在查询出不存在所述目标爬取链接时,所述目标本地检查器保存所述目标爬取链接,并向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器依据所述广播更新爬取链接。

2.根据权利要求1所述的方法,其特征在于,在所述目标本地检查器根据其对应的网络爬虫发送的消息查询在该目标本地检查器中是否存在目标爬取链接之后,所述方法还包括:

在查询出不存在所述目标爬取链接时,所述目标本地检查器向其对应的网络爬虫发送允许爬取的指令,以使所述网络爬虫爬取所述目标爬取链接;

在查询出存在所述目标爬取链接时,所述目标本地检查器向其对应的网络爬虫发送放弃爬取的指令,以使所述网络爬虫放弃爬取所述目标爬取链接。

3.根据权利要求1所述的方法,其特征在于,所述网络爬虫集群还包括广播模块,所述目标本地检查器向其他本地检查器发送携带有所述目标爬取链接的广播包括:

所述目标本地检查器向所述广播模块发送携带有所述目标爬取链接的爬取信息,以使所述广播模块根据所述爬取信息生成所述广播,并将所述广播发送给订阅广播的其他本地检查器。

4.根据权利要求1所述的方法,其特征在于,所述目标本地检查器向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器依据所述广播更新爬取链接包括:

所述本地检查器向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器接收所述广播,并保存所述广播携带的所述目标爬取链接。

5.一种网络爬虫集群信息的更新装置,其特征在于,所述网络爬虫集群中每个网络爬虫配备一个本地检查器,所述装置包括:

查询单元,用于根据目标本地检查器对应的网络爬虫发送的消息查询在所述 目标本地检查器中是否存在目标爬取链接,其中,所述消息中携带有所述目标爬取链接;

广播单元,用于在查询出不存在所述目标爬取链接时,保存所述目标爬取链接,并向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器依据所述广播更新爬取链接。

6.根据权利要求5所述的装置,其特征在于,所述装置还包括:

第一发送单元,用于在所述目标本地检查器根据其对应的网络爬虫发送的消息查询在该目标本地检查器中是否存在目标爬取链接之后,在查询出不存在所述目标爬取链接时,向所述目标本地检查器对应的网络爬虫发送允许爬取的指令,以使所述网络爬虫爬取所述目标爬取链接;

第二发送单元,用于在查询出存在所述目标爬取链接时,所述目标本地检查器向所述目标本地检查器对应的网络爬虫发送放弃爬取的指令,以使所述网络爬虫放弃爬取所述目标爬取链接。

7.根据权利要求5所述的装置,其特征在于,所述网络爬虫集群还包括广播模块,所述广播单元包括:

发送模块,用于向所述广播模块发送携带有所述目标爬取链接的爬取信息,以使所述广播模块根据所述爬取信息生成所述广播,并将所述广播发送给订阅广播的其他本地检查器。

8.根据权利要求7所述的装置,其特征在于,所述广播单元还用于向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器接收所述广播,并保存所述广播携带的所述目标爬取链接。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1