一种分布式多任务调度网络爬虫装置及系统的制作方法

文档序号:28161642发布日期:2021-12-24 20:15阅读:152来源:国知局
一种分布式多任务调度网络爬虫装置及系统的制作方法

1.本发明涉及网络爬虫技术领域,尤其涉及一种分布式多任务调度网络爬虫装置及系统。


背景技术:

2.网络爬虫,又称为网页蜘蛛,网络机器人,在foaf社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫等。
3.而现有的网络爬虫,大多数来说只能够单独的调取一个链接或者是只能抓取单独的程序,不能够进行多任务调度网络链接或者是某一程序,大大的影响了工作进度,降低了工作效率。


技术实现要素:

4.(一)发明目的为解决背景技术中存在的技术问题,本发明提出一种分布式多任务调度网络爬虫装置及系统,该装置设计巧妙,构思精良,通过安装的信息识别模块,可前期对该信息进行识别,抓住主题,提高其信息处理速度,安装的多个计算机爬虫模块,可根据信息主题从信息库中对相关主题的信息进行抓取,并能够对多个主题进行分别抓取,提高其信息抓取速度,同时安装的链接处理模块中的分析器模块和过滤重复模块,能够去除重复的信息,提高信息的处理速度,该装置方便使用,实用性强,便于推广。
5.(二)技术方案本发明提供了一种分布式多任务调度网络爬虫装置及系统,包括信息输入模块,所述信息输入模块的输出端连接有信息接收模块,所述信息接收模块的输出端连接有信息识别模块,所述信息识别模块的输出端连接有计算机爬虫模块,所述计算机爬虫模块的输出端连接有信息库模块,所述信息库模块的输出端连接有信息提取模块,所述信息提取模块的输出端连接有客户端。
6.优选的,所述计算机爬虫模块包括计算机爬虫1、计算机爬虫2和计算机爬虫3等,设置有多个计算机爬虫模块,可使得该装置通过信息输入模块可输入多组信息,并使得信息接收模块同时接收这些多组输入的信息,并通过多组计算机爬虫模块分别从信息库模块中对这些信息进行抓取,可提高其工作效率。
7.优选的,所述计算机爬虫模块包括爬虫下载器模块、爬虫解析器模块和爬虫调度器模块,所述计算机爬虫模块设置有多个,且能够共同爬取网络所需要的信息,提高计算机爬虫模块从信息库模块中爬取信息的速度,提高其工作效率。
8.优选的,所述信息提取模块包括信息识别模块和链接处理模块,信息提取模块将信息输入模块所输入的相关主题进行提取,并通过信息识别模块,对输入信息的相关主题进行识别,通过信息识别模块对信息识别之后进行抓取,可提高计算机爬虫抓取信息的有
效性和速度。
9.优选的,所述信息识别模块在识别输入信息相关主题,同时,能够根据信息相关主题识别是否有此信息新的链接,并通过在信息链接队列中对相关信息新的链接进行识别。
10.优选的,所述链接处理模块将对链接队列中的链接进行处理,对这些信息链接队列中的链接进行处理,并选择满足搜索条件的链接,在这些信息链接队列中,再通过链接处理模块,使得满足相关条件的链接显示到客户端。
11.优选的,所述连接处理模块没有获取相关满足搜索条件的链接时,此时,计算机爬虫将从信息库模块中再次爬取相关信息,使得满足条件的链接再通过信息提取模块,将计算机爬虫所抓取的相关信息进行提取,然后传送给客户端。
12.优选的,所述链接处理模块包括分析器模块和过滤重复模块,分析器模块将对链接中的相关信息进行分析,并通过过滤重复模块,将对重复的链接进行过滤,能够提高其工作效率,并将最终符合的链接传送至客户端。
13.与现有技术相比,本发明的上述技术方案具有如下有益的技术效果:1、安装的信息识别模块,通过信息识别模块可对该信息进行识别,识别出关键信息,提高其信息处理速度,避免了计算机爬虫抓取过多不相关的信息,从而导致计算机爬虫工作增多,降低了对关键信息的抓取,进而影响了人们的工作速度,降低了工作效率。
14.2、安装的多个计算机爬虫模块,可根据信息主题从信息库中对相关主题的信息进行抓取,并能够同时对多个主题进行分别抓取,提高其信息抓取速度,同时也实现了分布式多任务调度的网络爬虫抓取信息,加快了工作人员信息的处理速度,提高工作效率。
15.3、安装的链接处理模块中的分析器模块和过滤重复模块,在信息提取模块中,使得相关链接一同提取,再提取过程中难免会遇到许多重复的链接,此时可通过链接处理模块中的分析器模块和过滤重复模块,能够去除重复的信息,提高信息的处理速度,避免了信息重复提取,浪费时间。
附图说明
16.图1为本发明提出的一种分布式多任务调度网络爬虫装置及系统的工作流程示意图。
17.图2为本发明提出的一种分布式多任务调度网络爬虫装置及系统的信息提取模块工作流程示意图。
18.图3为本发明提出的一种分布式多任务调度网络爬虫装置及系统的链接处理模块内部结构示意图。
19.图4为本发明提出的一种分布式多任务调度网络爬虫装置及系统的计算机爬虫内部结构示意图。
具体实施方式
20.为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
21.如图1

4所示,本发明提出的一种分布式多任务调度网络爬虫装置及系统,包括信息输入模块,信息输入模块的输出端连接有信息接收模块,信息接收模块的输出端连接有信息识别模块,信息识别模块的输出端连接有计算机爬虫模块,计算机爬虫模块的输出端连接有信息库模块,信息库模块的输出端连接有信息提取模块,信息提取模块的输出端连接有客户端,通过信息识别模块可对该信息进行识别,识别出关键信息,提高其信息处理速度,避免了计算机爬虫抓取过多不相关的信息,从而导致计算机爬虫工作增多,降低了对关键信息的抓取,进而影响了人们的工作速度,降低了工作效率。
22.计算机爬虫模块包括计算机爬虫1、计算机爬虫2和计算机爬虫3等,设置而多个计算机爬虫能够同时爬取所需信息,提高工作效率,计算机爬虫模块包括爬虫下载器模块、爬虫解析器模块和爬虫调度器模块,计算机爬虫模块设置有多个,且能够共同爬取网络所需要的信息,信息提取模块包括信息识别模块和链接处理模块,信息提取模块将信息输入模块所输入的相关主题进行提取,并通过信息识别模块,对输入信息的相关主题进行识别,信息识别模块在识别输入信息相关主题,同时,能够根据信息相关主题识别是否有此信息新的链接,并通过在信息链接队列中对相关信息新的链接进行识别,安装的多个计算机爬虫模块,可根据信息主题从信息库中对相关主题的信息进行抓取,并能够同时对多个主题进行分别抓取,提高其信息抓取速度,同时也实现了分布式多任务调度的网络爬虫抓取信息,加快了工作人员信息的处理速度,提高工作效率。
23.链接处理模块将对链接队列中的链接进行处理,并选择满足搜索条件的链接,传递给客户端,连接处理模块没有获取相关满足搜索条件的链接时,此时,计算机爬虫将从信息库模块中再次爬取相关信息,将爬取到的相关信息再次传送至客户端,链接处理模块包括分析器模块和过滤重复模块,分析器模块将对链接中的相关信息进行分析,并通过过滤重复模块,将对重复的链接进行过滤,并将最终符合的链接传送至客户端,安装的链接处理模块中的分析器模块和过滤重复模块,在信息提取模块中,使得相关链接一同提取,再提取过程中难免会遇到许多重复的链接,此时可通过链接处理模块中的分析器模块和过滤重复模块,能够去除重复的信息,提高信息的处理速度,避免了信息重复提取,浪费时间。
24.本发明中,首先将想要的信息,通过信息输入模块输入,之后通过信息接收模块接收信息输入模块所输入的信息,此时,再通过信息识别模块对信息接收模块所接收的信息进行识别,之后,通过计算机爬虫,从信息库中的相关信息链接进行抓取,通过信息识别模块对信息识别之后进行抓取,可提高计算机爬虫抓取信息的有效性和速度,同时,在计算机爬虫信息库中的相关信息链接抓取时,可能会存在多组信息链接,此时,在这些信息链接队列中,再通过链接处理模块,对这些信息链接队列中的链接进行处理,使得满足相关条件的链接显示到客户端,其中,链接处理模块还包括分析器模块和过滤重复模块,通过分析器模块和过滤重复模块,将链接队列中的重复链接进行过滤,能够提高其工作效率,若相关的链接不满足条件时,则计算机爬虫将会再次从信息库模块中爬取相关的链接,满足条件的链接再通过信息提取模块,将计算机爬虫所抓取的相关信息进行提取,然后传送给客户端,使得工作人员及时得到所需要的信息,该装置设置有多个计算机爬虫模块,可使得该装置通过信息输入模块可输入多组信息,并使得信息接收模块同时接收这些多组输入的信息,并通过多组计算机爬虫模块分别从信息库模块中对这些信息进行抓取,其中,计算机模块还包括爬虫下载器模块、爬虫解析器模块和爬虫调度器模块,能够提高计算机爬虫模块从信
息库模块中爬取信息的速度,提高其工作效率。
25.应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1