一种基于数据爬虫技术的信息监测系统的制作方法

文档序号:16159614发布日期:2018-12-05 19:19阅读:176来源:国知局
一种基于数据爬虫技术的信息监测系统的制作方法

本实用新型涉及网络爬虫应用领域,尤其涉及一种基于数据爬虫技术的信息监测系统。



背景技术:

随着网络技术的大力发展,通过互联网获取数据已成为当前人们获取信息资源的重要途径,采用网络爬虫获取数据已成为主流的获取手段,根据网络爬虫所部署的地理位置和网络拓扑结构不同,可以将网络爬虫分为部署于同一局域网的单一域网络爬虫(Single-domain Distributed crawler,又称局域网爬虫)和分散部署于广域网的多域网络爬虫((Multi-domain Distribute Crawler,又称广域网爬虫)。无论是单一域网爬虫还是广域网爬虫最基本的功能均是网页数据抓取,而其灵魂则是调度策略,调度策略不同则抓取方法不同。调度策略主要包括种子链接分配策略、负载均衡策略、网页查重策略等。

当前种子链接分配策略主要分为独立方式、静态方式和动态方式三类。独立方式中各网络爬虫互不通信独立采集各自页面;静态方式预先划分所有网络链接,将划分好的链接分配给网络爬虫;动态方式动态地为各网络爬虫分配网络链接,网络爬虫完成当前抓取任务时为其分配新的抓取任务。无论何种分配方式一般均是以域名(主机)为单位划分种子链接以降低通信开销。

目前负载均衡策略主要分为静态负载均衡和动态负载均衡,其中静态负载均衡主要有轮询方式、比率方式、优先权方式等;而动态负载均衡在抓取过程中收集各爬虫服务器负载信息,根据负载情况迁移节点任务。无论何种均衡策略其任务迁移的对象均是网络链接,将高负荷爬虫的网络链接分配给低负荷爬虫,以均衡整个系统的负载。

当前考生搜集考研信息多通过手动搜索,得到零碎的报考学校信息,还得需要自己统计历年分数、专业课参考资料及报录比等信息,效率十分低。



技术实现要素:

为了解决上述问题,本实用新型提出一种基于数据爬虫技术的信息监测系统,包括:数据抓取模块、爬虫检测模块、数据处理模块、 VPN代理服务器、学校招生网页、社交媒体网页、客户端、用户,所述爬虫检测模块及数据处理模块分别于数据抓取模块连接,所述数据抓取模块通过VPN代理服务器访问学校招生网页及社交媒体网页,所述数据处理模块处理网页数据送至云服务器,所述用户使用客户端通过Internet访问云服务器。

进一步的,所述数据抓取模块包括爬虫设置单元、爬虫主控单元、爬虫节点、缓存器,所述用户使用客户端在爬虫设置单元上配置数据源及关键词,所述爬虫设置单元、URL去重单元及爬虫主控单元依次连接,爬虫主控单元为爬虫节点分配任务,爬虫节点通过VPN代理服务器访问学校招生网页及社交媒体网页,所述爬虫节点、缓存器及数据处理模块依次连接。

进一步的,所述爬虫检测模块包括下载状态检测单元、内容解析状态单元、网络状态检测单元及报警单元,所述下载状态检测单元、内容解析状态单元及网络状态检测单元均与爬虫节点连接,所述下载状态检测单元、内容解析状态单元、网络状态检测单元及客户端均与报警单元连接。

进一步的,所述内容解析状态单元为正则匹配状态检测器。

进一步的,所述数据处理模块包括数据分析单元、数据分类单元及存储单元,所述数据分析模块与缓存器连接,所述数据分析单元、数据分类单元及存储单元依次连接,所述用户通过客户端访问存储单元。

进一步的,所述存储单元为结构化数据存储器。

进一步的,所述数据分类单元应用SVM算法对网页数据进行分类。

附图说明

图1是一种基于数据爬虫技术的信息监测系统的系统示意图。

具体实施方式

为了对本实用新型的技术特征、目的和效果有更加清楚的理解,现对照附图说明本实用新型的具体实施方式。

如图1所示的一种基于数据爬虫技术的信息监测系统,包括:数据抓取模块、爬虫检测模块、数据处理模块、 VPN代理服务器、学校招生网页、社交媒体网页、客户端、用户,所述爬虫检测模块及数据处理模块分别于数据抓取模块连接,所述数据抓取模块通过VPN代理服务器访问学校招生网页及社交媒体网页,所述数据处理模块处理网页数据送至云服务器,所述用户使用客户端通过Internet访问云服务器。

进一步的,所述数据抓取模块包括爬虫设置单元、爬虫主控单元、爬虫节点、缓存器,所述用户使用客户端在爬虫设置单元上配置数据源及关键词,所述爬虫设置单元、URL去重单元及爬虫主控单元依次连接,爬虫主控单元为爬虫节点分配任务,爬虫节点通过VPN代理服务器访问学校招生网页及社交媒体网页,所述爬虫节点、缓存器及数据处理模块依次连接,在缓存器达到缓存器的存储预设值时,所述缓冲器将数据发送到数据处理模。

进一步的,所述爬虫检测模块包括下载状态检测单元、内容解析状态单元、网络状态检测单元及报警单元,所述下载状态检测单元、内容解析状态单元及网络状态检测单元均与爬虫节点连接,所述下载状态检测单元、内容解析状态单元、网络状态检测单元及客户端均与报警单元连接,所述网络状态检测单元用于检测通过网络通信传递给数据处理模块的待保存数据,如果传递失败,判断网络存在异常,并且保存也存在异常。

进一步的,所述内容解析状态单元为正则匹配状态检测器,正则匹配状态检测模块包括计时器,当开始正则匹配时,开始计时,如果在预定时间未收到解析结果时,则判 断出现了正则匹配死循环。

进一步的,所述数据处理模块包括数据分析单元、数据分类单元及存储单元,所述数据分析模块与缓存器连接,所述数据分析单元、数据分类单元及存储单元依次连接,所述用户通过客户端访问存储单元。

进一步的,所述存储单元为结构化数据存储器。

进一步的,所述数据分类单元应用SVM算法对网页数据进行分类。

需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本实用新型较佳实施例而已,当然不能以此来限定本实用新型之权利范围,因此依本实用新型权利要求所作的等同变化,仍属本实用新型所涵盖的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1