一种基于网络爬虫机制的数据抽取方法与流程

文档序号:20165100发布日期:2020-03-24 21:24阅读:537来源:国知局
一种基于网络爬虫机制的数据抽取方法与流程

本发明属于信息化技术领域,特别涉及一种基于网络爬虫机制的数据抽取方法。



背景技术:

现有监控平台类型不一、造成数据获取方式不一、监控深度不同,难以规划企业级的整体监控平台。本质上,对于企业级应用,核心是需要的监控数据,对于现有监控平台的监控深度、页面形式、访问方法等都不关注。而目前获取数据的方式主要以api方式为主。但这种方式是一种被动方式,即监控平台提供什么api则可获得什么数据,无形中增大了数据获取的难度,限制了其范围,同时,对于现有的人工上传的文本等仅能够当其转换为相应的数据格式后才能获取。



技术实现要素:

本发明提出一种主动获取数据的方式,即一种基于网络爬虫机制的数据抽取方法,能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。

本发明的一种基于网络爬虫机制的数据抽取方法的技术方案如下:

一种基于网络爬虫机制的数据抽取方法,包括如下步骤:

步骤一,对各个异构系统的人机界面中的监控数据添加标记;标记可以是预先定义好的,如一号异构系统的一号设施的温度监控数据的标记可定义为“a_a_001_wd”;如果异构系统的人机界面为html形式,那么就可在html代码中将此标记设置到某个<div>标签的id中去;

步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。

本发明的一种基于网络爬虫机制的数据抽取方法,在各个异构系统的人机界面中的监控数据添加标记,为爬虫程序提供目标指引,形成一种主动获取数据的方式,24小时对所有异构系统进行自动化数据抽取工作,从而能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。

进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对各个文档中的监控数据添加标记。对各个文档中的监控数据添加标记后,文档的监控数据也能被爬虫算法抓取,而从与各个异构系统的人机界面中的监控数据融合在一起。

进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对监控数据进行分级;步骤二中还包括,对不同级别的监控数据设置不同的抓取周期。不同的监控数据往往需要不同的抓取频率,因此,对监控数据进行分级并对不同级别的监控数据设置不同的抓取周期能有效提高数据采集的效率。例如,可以根据数据的性质进行分级,也可以根据各个异构系统的重要程度进行分级。

进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一还包括,建立监控数据的数据模式定义;还包括步骤三,通过数据转换系统对抓取获得的监控数据的数据类型、显示方式进行数据转换,生成符合数据模式定义的标准数据格式文件。根据企业数据标准建立数据模式定义,可以规范接入的信息系统的数据接入标准,为将来的信息系统开发提供了规范的数据格式参考依据。

进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,还包括步骤四,将标准数据格式文件读取到计算机系统,经程序处理保存到数据库中。

进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述数据模式定义为xmlschemadefinition,所述标准数据格式文件为xml文件。

进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述异构系统的人机界面为html形式;所述文档为word形式或excel形式或pdf形式。

附图说明

图1是本发明的一种基于网络爬虫机制的数据抽取方法的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。

实施例1:

参考图1,本实施例的一种基于网络爬虫机制的数据抽取方法,包括如下步骤:

步骤一,对各个异构系统的人机界面中的监控数据添加标记;标记可以是预先定义好的,如一号异构系统的一号设施的温度监控数据的标记可定义为“a_a_001_wd”;如果异构系统的人机界面为html形式,那么就可在html代码中将此标记设置到某个<div>标签的id中去;

步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。

本实施例的一种基于网络爬虫机制的数据抽取方法,在各个异构系统的人机界面中的监控数据添加标记,为爬虫程序提供目标指引,形成一种主动获取数据的方式,24小时对所有异构系统进行自动化数据抽取工作,从而能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。

作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对各个文档中的监控数据添加标记。对各个文档中的监控数据添加标记后,文档的监控数据也能被爬虫算法抓取,而从与各个异构系统的人机界面中的监控数据融合在一起。

作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对监控数据进行分级;步骤二中还包括,对不同级别的监控数据设置不同的抓取周期。不同的监控数据往往需要不同的抓取频率,因此,对监控数据进行分级并对不同级别的监控数据设置不同的抓取周期能有效提高数据采集的效率。例如,可以根据数据的性质进行分级,也可以根据各个异构系统的重要程度进行分级。

作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一还包括,建立监控数据的数据模式定义;还包括步骤三,通过数据转换系统对抓取获得的监控数据的数据类型、显示方式进行数据转换,生成符合数据模式定义的标准数据格式文件。根据企业数据标准建立数据模式定义,可以规范接入的信息系统的数据接入标准,为将来的信息系统开发提供了规范的数据格式参考依据。

作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,还包括步骤四,将标准数据格式文件读取到计算机系统,经程序处理保存到数据库中。

作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述数据模式定义为xmlschemadefinition,所述标准数据格式文件为xml文件。

作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述异构系统的人机界面为html形式;所述文档为word形式或excel形式或pdf形式。

上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1