一种基于农业网页信息采集的网络蜘蛛结构及其工作方法与流程

文档序号:14777984发布日期:2018-06-26 07:57阅读:172来源:国知局

本发明涉及一种农业网页信息采集结构及其工作方法,具体涉及一种基于农业网页信息采集的网络蜘蛛结构及其工作方法,属于农业互联网技术领域。



背景技术:

网页信息采集是指通过网络蜘蛛在互联网上采集网页信息的过程;不同的搜索引擎,网络蜘蛛程序会有所区别;通用搜索引擎的网络蜘蛛称为通用网络蜘蛛,它只考虑采集网页的数量,尽可能多地抓取网页信息,不考虑网页和主题的相关度;垂直搜索引擎(主题搜索引擎)中的网络蜘蛛称为主题网络蜘蛛,主题网络蜘蛛只在特定领域范围内采集与主题的相关的网页。



技术实现要素:

为解决上述问题,本发明提出了一种基于农业网页信息采集的网络蜘蛛结构及其工作方法,具有独立的工作和决策能力,能自动地在因特网上按照一定的爬行规则进行搜索爬行,并将搜集的信息返回给服务器。

本发明的基于农业网页信息采集的网络蜘蛛结构,包括网页下载模块、URL管理模块和网页解析模块;所述网页下载模块通过HTTP网络通信协议与待爬取的网站连接;所述URL管理模块包括URL链接库和初始URL种子队列;所述网页解析模块与网页数据库链接。

本发明的基于农业网页信息采集的网络蜘蛛结构的工作方法,所述方法包括以下步骤:

第一步,访问URL链接数据库,得到URL入口地址,生成具有优先级属性的有序访问队列;

第二步,网页下载模块通过HTTP协议与目标网站建立socket连接,然后按照网站根目录下的机器人协议进行下载;

第三步,网页分析模块对上一步下载的网页进行解析,提取页面内的超链接,添加到URL数据库中等待网络蜘蛛进行爬取;

第四步,依据预先设定的存储规则,把下载的网页内容存储到本地网页数据库中,为下一步索引工作做准备;

第五步,不断重复上述过程直到全部下载任务完成,或满足爬虫结束的条件,等待新的任务。

本发明与现有技术相比较,本发明的基于农业网页信息采集的网络蜘蛛结构及其工作方法,网页下载模块利用HTTP网络通信协议与待爬取的网站建立连接,首先读取该网站根目录下的机器人协议,然后按照约束规则对指定的页面进行读取、下载;URL管理模块对网页抓取顺序、更新策略、访问队列调度等工作进行管理;网页解析模块负责对下载的网页内容进行分析,提取网页上的超链接及文本内容。

附图说明

图1是本发明的整体结构示意框图。

具体实施方式

如图1所示,本发明的基于农业网页信息采集的网络蜘蛛结构,其特征在于:包括网页下载模块、URL管理模块和网页解析模块;所述网页下载模块通过HTTP网络通信协议与待爬取的网站连接;所述URL管理模块包括URL链接库和初始URL种子队列;所述网页解析模块与网页数据库链接。

本发明的基于农业网页信息采集的网络蜘蛛结构的工作方法,所述方法包括以下步骤:

第一步,访问URL链接数据库,得到URL入口地址,生成具有优先级属性的有序访问队列;

第二步,网页下载模块通过HTTP协议与目标网站建立socket连接,然后按照网站根目录下的机器人协议进行下载;

第三步,网页分析模块对上一步下载的网页进行解析,提取页面内的超链接,添加到URL数据库中等待网络蜘蛛进行爬取;

第四步,依据预先设定的存储规则,把下载的网页内容存储到本地网页数据库中,为下一步索引工作做准备;

第五步,不断重复上述过程直到全部下载任务完成,或满足爬虫结束的条件,等待新的任务。

本发明的基于农业网页信息采集的网络蜘蛛结构及其工作方法,网页下载模块利用HTTP网络通信协议与待爬取的网站建立连接,首先读取该网站根目录下的机器人协议,然后按照约束规则对指定的页面进行读取、下载;URL管理模块对网页抓取顺序、更新策略、访问队列调度等工作进行管理;网页解析模块负责对下载的网页内容进行分析,提取网页上的超链接及文本内容。

上述实施例,仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1