一种数据维护方法及系统的制作方法

文档序号:6581555阅读:299来源:国知局
专利名称:一种数据维护方法及系统的制作方法
技术领域
本发明属于基于网络爬虫的数据维护领域,尤其涉及一种数据维护方法及系统。
背景技术
在当前信息空前爆炸的时代,人们不再担心信息的匮乏,而是为筛选有用的信息付出大量的代价。现有的数据聚合方法有:采用网络爬虫技术实现的聚合方法。下面具体以网络爬
虫技术的其中一种----Web-Harvest为例进行说明,Web-Harvest是一个Java开源Web数
据抽取工具,它能够收集指定的Web页面并从这些页面中提取有用的数据。其提取数据的过程主要是通过基于可扩展标记语言(Extensible Markup Language, xml)配置文件的方式来进行定义的,每个xml配置文件描述了提取数据的一系列任务,而这些任务又是以一种链式的方式执行,所以一个任务返回结果可以当作另外一个任务的输入内容,这可以从下面的代码看出:
权利要求
1.一种数据维护方法,其特征在于,所述方法包括下述步骤: A、提取指定地址的页面内容; B、以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式; C、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志; D、将生成的警告日志发送给开发人员。
2.如权利要求1所述的数据聚合方法,其特征在于,在步骤A之后,包括下述步骤: 判断提取指定地址的页面内容时是否发生提取异常,在发生提取异常时生成一条错误日志。
3.如权利要求1所述的数据聚合方法,其特征在于,在步骤A之后,包括下述步骤: 判断是否监控提取的页面内容,在监控提取的页面内容时,判断监控的页面内容是否为空,若监控的页面内容为空,生成一条提取为空的日志并发送给开发人员。
4.如权利要求3所述的数据聚合方法,其特征在于,在监控的页面内容不为空时,执行步骤B ; 所述步骤B具体包括:` 将提取的页面内容的格式与预设的监控器定义的有效的页面内容格式比较,以判断所述提取的页面内容的格式与预设的监控器定义的有效的页面内容格式是否相符合; 所述预设的监控器定义的有效的页面内容格式包括以下至少一种:有效的时间格式、有效的地址格式、有效的数字格式、有效的字符串格式。
5.如权利要求1所述的数据聚合方法,其特征在于,所述步骤D具体包括: 通过预先配置的邮件服务器、邮件服务器用户名、邮件服务器用户密码、邮件服务器邮件默认标题将生成的警告日志发送给开发人员。
6.如权利要求1所述的数据聚合方法,其特征在于,在步骤D之后,包括步骤: 接收开发人员发出的指令,根据接收的指令执行对应的操作,所述开发人员发出的指令包括配置文件查找指令和配置文件修改指令。
7.一种数据维护系统,其特征在于,所述数据维护系统包括: 页面内容提取单元,用于提取指定地址的页面内容; 页面内容监控单元,用于以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式; 日志生成单元,用于在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志; 页面内容预警单元,用于将生成的警告日志发送给开发人员。
8.如权利要求7所述的数据维护系统,其特征在于, 所述页面内容监控单元还用于判断提取指定地址的页面内容时是否发生提取异常,在发生提取异常时,所述日志生成单元生成一条错误日志。
9.如权利要求7所述的数据维护系统,其特征在于,所述数据维护系统包括: 判断器,用于判断是否监控提取的页面内容; 在监控提取的页面内容时,所述页面内容监控单元判断监控的页面内容是否为空,若监控的页面内容为空,所述日志生成单元生成一条提取为空的日志。
10.如权利要求9所述的数据维护系统,其特征在于,在监控的页面内容不为空时,所述页面内容监控单元以预设的监控器为依据监控所述页面内容的具体步骤包括: 将提取的页面内容的格式与预设的监控器定义的有效的页面内容格式比较,以判断所述提取的页面内容的格式与预设的监控器定义的有效的页面内容格式是否相符合; 所述预设的监控器定义的有效的页面内容格式包括以下至少一种:有效的时间格式、有效的地址格式、有效的数字格式、有效的字符串格式。
11.如权利要求7所述的数据维护系统,其特征在于,所述页面内容预警单元将生成的警告日志发送给开发人员的步骤具体包括: 通过预先配置的邮件服务器、邮件服务器用户名、邮件服务器用户密码、邮件服务器邮件默认标题将生成的警告日志发送给开发人员。
12.如权利要求7所述的数据维护系统,其特征在于,所述数据维护系统包括: 配置文件管理单元,用于接收开发人员发出的指令,根据接收的指令执行对应的操作,所述开发人员发出的指 令包括配置文件查找指令和配置文件修改指令。
全文摘要
本发明适用于基于网络爬虫的数据维护领域,提供了一种数据维护方法及系统。所述方法包括A、提取指定地址的页面内容;B、以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式;C、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志;D、将生成的警告日志发送给开发人员。本发明实施例能够使开发人员及时获取布局发生变化的页面内容。
文档编号G06F11/34GK103077107SQ20121059389
公开日2013年5月1日 申请日期2012年12月31日 优先权日2012年12月31日
发明者庄为亮 申请人:Tcl集团股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1