一种基于农业网页信息采集的网络蜘蛛结构及其工作方法与流程

文档序号：14777984发布日期：2018-06-26 07:57阅读：172来源：国知局

本发明涉及一种农业网页信息采集结构及其工作方法，具体涉及一种基于农业网页信息采集的网络蜘蛛结构及其工作方法，属于农业互联网技术领域。

背景技术：

网页信息采集是指通过网络蜘蛛在互联网上采集网页信息的过程；不同的搜索引擎，网络蜘蛛程序会有所区别；通用搜索引擎的网络蜘蛛称为通用网络蜘蛛，它只考虑采集网页的数量，尽可能多地抓取网页信息，不考虑网页和主题的相关度；垂直搜索引擎(主题搜索引擎)中的网络蜘蛛称为主题网络蜘蛛，主题网络蜘蛛只在特定领域范围内采集与主题的相关的网页。

技术实现要素：

为解决上述问题，本发明提出了一种基于农业网页信息采集的网络蜘蛛结构及其工作方法，具有独立的工作和决策能力，能自动地在因特网上按照一定的爬行规则进行搜索爬行，并将搜集的信息返回给服务器。

本发明的基于农业网页信息采集的网络蜘蛛结构，包括网页下载模块、URL管理模块和网页解析模块；所述网页下载模块通过HTTP网络通信协议与待爬取的网站连接；所述URL管理模块包括URL链接库和初始URL种子队列；所述网页解析模块与网页数据库链接。

本发明的基于农业网页信息采集的网络蜘蛛结构的工作方法，所述方法包括以下步骤：

第一步，访问URL链接数据库，得到URL入口地址，生成具有优先级属性的有序访问队列；

第二步，网页下载模块通过HTTP协议与目标网站建立socket连接，然后按照网站根目录下的机器人协议进行下载；

第三步，网页分析模块对上一步下载的网页进行解析，提取页面内的超链接，添加到URL数据库中等待网络蜘蛛进行爬取；

第四步，依据预先设定的存储规则，把下载的网页内容存储到本地网页数据库中，为下一步索引工作做准备；

第五步，不断重复上述过程直到全部下载任务完成，或满足爬虫结束的条件，等待新的任务。

本发明与现有技术相比较，本发明的基于农业网页信息采集的网络蜘蛛结构及其工作方法，网页下载模块利用HTTP网络通信协议与待爬取的网站建立连接，首先读取该网站根目录下的机器人协议，然后按照约束规则对指定的页面进行读取、下载；URL管理模块对网页抓取顺序、更新策略、访问队列调度等工作进行管理；网页解析模块负责对下载的网页内容进行分析，提取网页上的超链接及文本内容。

附图说明

图1是本发明的整体结构示意框图。

具体实施方式

如图1所示，本发明的基于农业网页信息采集的网络蜘蛛结构，其特征在于：包括网页下载模块、URL管理模块和网页解析模块；所述网页下载模块通过HTTP网络通信协议与待爬取的网站连接；所述URL管理模块包括URL链接库和初始URL种子队列；所述网页解析模块与网页数据库链接。

本发明的基于农业网页信息采集的网络蜘蛛结构的工作方法，所述方法包括以下步骤：

第一步，访问URL链接数据库，得到URL入口地址，生成具有优先级属性的有序访问队列；

第二步，网页下载模块通过HTTP协议与目标网站建立socket连接，然后按照网站根目录下的机器人协议进行下载；

第三步，网页分析模块对上一步下载的网页进行解析，提取页面内的超链接，添加到URL数据库中等待网络蜘蛛进行爬取；

第四步，依据预先设定的存储规则，把下载的网页内容存储到本地网页数据库中，为下一步索引工作做准备；

第五步，不断重复上述过程直到全部下载任务完成，或满足爬虫结束的条件，等待新的任务。

本发明的基于农业网页信息采集的网络蜘蛛结构及其工作方法，网页下载模块利用HTTP网络通信协议与待爬取的网站建立连接，首先读取该网站根目录下的机器人协议，然后按照约束规则对指定的页面进行读取、下载；URL管理模块对网页抓取顺序、更新策略、访问队列调度等工作进行管理；网页解析模块负责对下载的网页内容进行分析，提取网页上的超链接及文本内容。

上述实施例，仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马廷彦
技术所有人：哈尔滨派腾农业科技有限公司
我是此专利的发明人

上一篇：一种改善电子产品盖板颜色稳定性的方法与流程
上一篇：一种深水用地层隔离阀完井工具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。