一种基于网络爬虫的机器自动分类方法与流程

文档序号：14653725发布日期：2018-06-08 22:34阅读：255来源：国知局

技术领域

本发明涉及基于爬虫原理的机器自动分类方法。

背景技术：

信息化的浪潮席卷全球，同时随着互联网的普及以及网络技术的不断完善，Internet已经成为全球最为庞大最为丰富的信息资源库，由于互联网的开放性，各类信息都能通过各种形式第一时间发布到互联网，正式由于互联网的这种开放性，导致信息的冗余和杂乱，因此，自动分类技术随着数据时代的需求发展迅速，作为一种有效的信息处理方法，自动分类技术奖各类信息按照一定的分类体系进行分类整理，从而极大的提高了用户手机情报的效率，降低了人工分类技术造成的巨大的资源浪费。

技术实现要素：

本发明所要解决的技术问题是提供一种基于网络爬虫的机器自动分类方法，能够让冗余杂乱的数据整理成有相似内容，井井有条。

本发明解决技术问题所采用的技术方案是：一种基于网络爬虫的机器自动分类方法，包括以下步骤，

（1）设置数据处理容器，

（2）选取一部分种子网址，并将这些种子网址放入待抓取的网址队列；

（3）判断这些网址队列是否已经被采集，如果是，则直接发送至已采集网址队列，如果否，进入下一步；

（4）利用网络爬虫从待抓取的网址队列中进行数据采集；

（5）将数据采集的结果发送至数据处理容器，由数据处理容器进行数据分类处理；

（6）数据处理容器将分类处理后的数据按照不同类别分类存入数据库存储器中。

进一步地，数据处理容器是预先经过了信息分类训练的数据处理模型，信息分类训练是指预先定义出分类的数据，经过人工筛选并添加标识，然后利用这些数据对数据处理模型进行训练学习。

进一步地，利用网络爬虫进行数据采集的步骤包括：

（4.1）从待抓取的网址队列中取出待抓取网址的URL；

（4.2）解析URL的DNS，并得到主机的IP地址；

（4.3）下载URL对应的网址，存入已下载网页库中；

（4.4）将已抓取URL队列中的URL放入待抓取的URL队列，从而进入下一个循环。

本发明的有益效果是：本发明在实现网络爬虫时，定制了一个URL容器，该容器只管存储数据，使得任务单一，该容器的是一个经过海量数据训练出来的自动分类模型，在该模型将可以将采集回来的网站进行分类处理，并且根据分类存入相应的数据库中，从而将杂乱的数据进行合理的规整。这样的方式不仅降低了杂乱数据入库数量，而且将数据规规矩矩的放到库中，整个过程爬虫只关注采集部分，经采集的数据发送到数据处理容器当中，由数据处理容器自动分类，入库操作。本发明极大的提高了数据质量，降低人力物力的浪费。

附图说明

图1是本发明的流程图。

具体实施方式

以下结合附图对本发明的具体实施方案做进一步详细说明，应当指出的是，具体实施方案只是对本发明技术方案的具体阐述，并不是对本发明的限定。

如图1所示，本发明的基于网络爬虫的机器自动分类方法，包括以下步骤：

（1）设置数据处理容器，数据处理容器是预先经过了信息分类训练的数据处理模型，信息分类训练是指预先定义出分类的数据，分类可以根据信息的内容进行分类，例如关于政治，关于经济，关于体育等一系列，经过人工筛选并添加标识，然后利用这些数据对数据处理模型进行训练学习。

（2）选取一部分种子网址，并将这些种子网址放入待抓取的网址队列。