一种网络爬虫运行异常监控方法和系统的制作方法

文档序号:7879897阅读:776来源:国知局
专利名称:一种网络爬虫运行异常监控方法和系统的制作方法
技术领域
本发明涉及一种网络爬虫运行异常监控方法和系统。
背景技术
网络爬虫是一种抓取网页的程序。网络爬虫通过网页的链接地址来寻找网页,例如:从网站某一个页面(通常是首页)开始,读取该页面的内容,并且找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。有的时候,网络爬虫需要抓取的数据可达数千万,面对这样大的抓取平台,在每一个环节,如网页下载、文档解析、正则匹配都可能出现运行异常的问题,从而影响了网络爬虫程序的运行可靠性。因此,需要设计一个较为完善的异常检测与监控方案。

发明内容
针对现有技术的缺陷,本发明的目的是提供一种能够监测网络爬虫多种运行状态的方法和系统。本发明提供了一种网络爬虫运行异常监控方法,该方法包括以下步骤:a.检测网络爬虫运行状态;b.判断网络爬虫运行状态是否存在异常;c.当爬虫运行状态出现异常时,进行异常报警。优选地,检测网络爬虫运行状态包括检测下载状态。优选地,步骤b包括:当网络连接故障或网站对IP地址屏蔽时,判断下载状态存在异常。优选地,当满足如下两个公式条件时,判定IP地址被网站屏蔽:
权利要求
1.一种网络爬虫运行异常监控方法,其特征在于,所述方法包括以下步骤: a.检测网络爬虫运行状态; b.判断网络爬虫运行状态是否存在异常; c.当爬虫运行状态出现异常时,进行异常报警。
2.根据权利要求1所述的方法,其特征在于,检测网络爬虫运行状态包括检测下载状态。
3.根据权利要求2所述的方法,其特征在于,步骤b包括:当网络连接故障或网站对IP地址屏蔽时,判断下载状态存在异常。
4.根据权利要求3所述的方法,其特征在于,当满足如下两个公式条件时,判定IP地址被网站屏蔽:
5.根据权利要求1所述 的方法,其特征在于,检测网络爬虫运行状态包括检测内容解析状态。
6.根据权利要求5所述的方法,其特征在于,通过Dom选择器或正则匹配方法对内容进行解析。
7.根据权利要求6所述的方法,其特征在于,在步骤b中,当出现以下任一种情况时,判断正则匹配方法出现异常: (1)正则匹配出现死循环; (2)urI地址改变或者内容发生改版。
8.根据权利要求7所述的方法,其特征在于,当开始正则匹配时,开始计时,如果在预定时间未收到解析结果时,则判断出现了正则匹配死循环。
9.根据权利要求1所述的方法,其特征在于,检测网络爬虫运行状态包括数据保存状态和网络异常状态。
10.根据权利要求9所述的方法,其特征在于,将需要保存的数据通过网络传递给调度端,如果传递失败,说明网络存在异常,同时数据保存也存在异常。
11.根据权利要求1所述的方法,其特征在于,检测网络爬虫运行状态包括检测内存占用状态。
12.根据权利要求11所述的方法,其特征在于,对爬虫系统中使用到的各种类对象,进行实时的内存占用状态统计,当部分类对象占用空间超过一定的阈值,或者整个爬虫程序占用内存超过一定的阈值,则判断内存状态出现异常。
13.根据权利要求1所述的方法,其特征在于,步骤c包括:当爬虫运行状态出现异常时,通过发送邮件或发送短信的方式进行异常报警。
14.一种网络爬虫运行异常监控系统,其特征在于,所述系统包括网络爬虫运行状态检测单元、状态判断单元、报警单元,其中: 网络爬虫运行状态检测单元用于检测网络爬虫运行状态; 状态判断单元用于判断所述网络爬虫运行状态是否存在异常; 报警单元用于当爬虫运行状态出现异常时进行异常报警。
15.根据权利要求14所述的系统,其特征在于,所述爬虫运行状态检测单元包括下载状态检测模块。
16.根据权利要求15所述的系统,其特征在于,下载状态检测模块用于当网络连接故障或网站对IP地址屏蔽时,判断下载状态存在异常。
17.根据权利要求14所述的系统,其特征在于,所述爬虫运行状态检测单元包括内容解析状态检测模块。
18.根据权利要求17所述的系统,其特征在于,内容解析状态检测模块为正则匹配状态检测模块,正则匹配状态检测模块包括计时器,当开始正则匹配时,开始计时,如果在预定时间未收到解析结果时,则判断出现了正则匹配死循环。
19.根据权利要求14所述的系统,其特征在于,所述爬虫运行状态检测单元包括数据保存和网络异常状态检测模块,数据保存和网络异常状态检测模块用于检测通过网络通信传递给调度端的待保存数据,如果传递失败,判断网络存在异常,并且保存也存在异常。
20.根据权利要求14所述的系统,其特征在于,所述爬虫运行状态检测单元包括内存状态监控模块,以进行内存状态监控,对网络爬虫使用到的各种类对象进行实时的内存占用状态统计,如果某些类对象占用空间超过一定的阈值,或者整个网络爬虫程序占用内存超过一定的阈值,则判断 出现了内存状态异常。
21.根据权利要求14所述的系统,其特征在于,报警单元为电子邮件发送模块或短信发送模块。
全文摘要
本发明公开了一种网络爬虫运行异常监控方法,该方法包括以下步骤检测网络爬虫运行状态;判断网络爬虫运行状态是否存在异常;当爬虫运行状态出现异常时,进行异常报警。本发明还提供了一种网络爬虫运行异常监控系统,该系统包括网络爬虫运行状态检测单元、状态判断单元、报警单元。本发明提供的网络爬虫运行异常监控方法和系统能够及时检测出网络爬虫的异常运行状态,并且发出报警信息,提高了网络爬虫的运行可靠性。
文档编号H04L29/06GK103248625SQ20131015239
公开日2013年8月14日 申请日期2013年4月27日 优先权日2013年4月27日
发明者周东, 廖耀华 申请人:北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1