一种互联网采集数据的过程化处理方法与流程

文档序号:12465064阅读:559来源:国知局

本发明涉及计算机应用技术领域,具体地说是一种互联网采集数据的过程化处理方法。



背景技术:

互联网网页数据是大数据领域的一个重要组成部分,是互联网等公司获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为数据服务提供了丰富的数据基础,因此,对互联网网页数据处理流程和技术进行探索具有重要意义。

目前对采集数据的处理主要是进行抽取、转换、加载,即ETL。ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。但是数据采集过程中经常会遇到数据源单一、定期采集、数据质量问题规律性不强的问题,数据采集过程容易出现异常,在处理异常时其处理效率不高,基于此,现提供一种互联网采集数据的过程化处理方法,对于数据源单一且数据质量问题规律性不强的采集数据,采用基于SQL的过程化数据处理方法,配合规范化的处理流程,实现数据的清洗、处理及数据处理过程的监控。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种互联网采集数据的过程化处理方法。

一种互联网采集数据的过程化处理方法,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。

采集数据进行清洗、处理的具体步骤为:

一、首先整理采集数据表;

二、然后分析采集数据表的数据规范性,编写数据清洗SQL,完成包括去除重复数据、规范数据显示格式的数据清洗工作,清洗后的数据分别保存到临时表中;

三、编写数据处理SQL,该数据处理SQL根据临时表之间的关联得到综合信息、汇总信息、分指标汇总信息,处理后的数据保存到目标表中;

四、设计存放数据清洗、处理SQL的表;

五、数据清洗、处理过程中的SQL均通过动态SQL执行,将动态SQL保存到步骤四设计的表中,相对应的,该表中包含:执行SQL的存储过程名称、SQL执行时间、实际执行的SQL语句,方便查看实际执行的数据清洗、处理脚本。

在监控整个数据处理过程时,首先需要获取数据处理过程中产生的具体数据信息:

首先记录存储过程开始执行时间;

进行采集数据清洗及处理的步骤,保留处理过程中的中间表或临时表,并将最终处理结果保存至目标表,记录各级数据处理过程的实际执行SQL;

记录本次清洗完成后保存到目标表的采集数据量;

记录存储过程结束执行时间;

当处理过程出现异常时,记录存储过程执行异常信息。

监控数据处理过程中产生的数据保存在以下对应的日志表中:

记录存储过程的执行日志表;

记录实际执行的SQL脚本的SQL日志表;

记录数据处理完成后的数据量的变化日志表;

记录数据处理过程中的异常信息的异常信息表。

上述执行日志表通过具有记录存储过程执行情况的函数记录,该函数通过输入参数,将输入参数相关信息保存到执行日志表中,这里的输入参数包括:过程名称、执行标志、执行时间、存储过程生成的目标数据量,这里的执行标志是指开始或结束两种标志。

所述变化日志表通过记录数据处理完成后的数据量的函数实现,该函数通过输入参数,将输入参数相关信息保存至该变化日志表中,其输入参数包括:存储过程名称、目标表名称、目标表本次新增记录数、新增记录时间。

所述异常信息表通过记录存储过程执行异常情况的函数实现,该函数通过输入参数,将将输入参数相关信息保存到异常信息表中,其输入参数包括:存储过程名称、执行异常时间、执行异常代码、执行异常信息。

本发明的一种互联网采集数据的过程化处理方法和现有技术相比,具有以下有益效果:

本发明的一种互联网采集数据的过程化处理方法,使用过程化数据处理方法,在不使用工具的情况下,通过执行规范化SQL的存储过程,实现对数据处理过程的监控,提供处理过程中的日志信息及异常信息;记录了采集数据清洗的开始时间、结束时间,可以提供数据处理过程的用时,为分析数据准确性提供参考;记录了数据处理完成后的数据量,为判断数据采集的质量和完整性提供参考;记录了数据处理过程中出现的异常问题及信息,为快速解决数据处理出现的问题提供参考;记录了整个数据处理过程中所有的实际执行SQL,查看动态参数在具体执行时传入的实际值,为分析数据处理SQL编写的正确性提供参考,同时为分析执行数据处理报错情况提供重要参考,实用性强,适用范围广泛,具有很好的推广应用价值。

附图说明

附图1位本发明的实现流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步说明。

针对数据源单一、定期采集、数据质量问题规律性不强的互联网采集数据,本发明设计规范化流程的存储过程完成数据的清洗、转化、处理,将采集数据的处理过程化,提高了互联网采集数据的处理效率。同时,过程化的数据处理可以有效监控数据清洗、处理的整个过程,通过监控的输出数据,查看数据清洗、处理的各个环节及最终结果,查看异常情况。

如附图1所示,本发明提供一种互联网采集数据的过程化处理方法,采用过程化的处理方法即具有规范化流程的存储过程进行数据处理。根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息等,将监控信息保存到相应的数据表,形成完善的数据处理机制,提高数据处理的规范型、安全性。

采集数据进行清洗、处理的具体步骤为:

1)整理采集数据表,如:T_CJXX1_201601、T_CJXX2_201601。

2)分析采集表的数据规范性,针对性的编写数据清洗SQL。如:去除重复数据、规范数据显示格式等,清洗后的数据分别保存到临时表,如T_TMP1、T_TMP2。

3)根据需要编写数据处理SQL。如:根据T_TMP1、T_TMP2关联得到综合信息、汇总信息、分指标汇总信息等,处理后的数据保存到目标表T_CJXX_QXCL。

4)设计存放数据清洗、处理SQL的表ZX_SQL_LOG。

数据清洗、处理过程中的SQL均通过动态SQL执行,将动态SQL保存到表ZX_SQL_LOG中,方便查看实际执行的数据清洗、处理脚本。

ZX_SQL_LOG包含:执行SQL的存储过程名称、SQL执行时间、实际执行的SQL语句。

在上述步骤执行过程中,通过设计对采集数据进行清洗、处理的主体存储过程P_CJXX_QXCL,完成相关数据处理过程的数据采集。具体包括:

1)记录存储过程开始执行时间。

2)实现采集数据清洗及处理,保留处理过程中的中间表或临时表,并将最终处理结果保存至目标表,记录各级数据处理过程的实际执行SQL。

3)记录本次清洗完成后保存到目标表的采集数据量。

4)记录存储过程结束执行时间。

5)如处理过程出现异常,记录存储过程执行异常信息。

记录的相关数据保存在对应的日志表中,具体包括:

记录存储过程执行日志(开始、结束情况),保存至存储过程执行日志表。

统一使用动态SQL,并记录实际执行的SQL脚本,保存至SQL日志表。

记录数据处理完成后的数据量,保存至数据库表的变化日志表。

记录数据处理过程中的异常信息,保存至异常信息表。

上述四个日志表分别通过不同的函数完成记录过程,具体为:

1、设计具有记录存储过程执行情况的函数F_PROC_ZX_LOG。

输入参数:过程名称、执行标志(开始、结束)、执行时间、存储过程生成的目标数据量。

函数功能:将输入参数相关信息保存到日志表T_PROC_ZX_LOG中。

2、设计记录数据处理完成后的数据量的函数F_TAB_DML_LOG。

输入参数:存储过程名称、目标表名称、目标表本次新增记录数、新增记录时间。

函数功能:将输入参数相关信息保存到变动表T_TAB_DML_LOG中。

3、设计记录存储过程执行异常情况的存储过程P_PROC_ZX_EXCEPTION。

输入参数:存储过程名称、执行异常时间、执行异常代码、执行异常信息。

函数功能:将输入参数相关信息保存到异常信息表T_PROC_ZX_EXCEPTION中。

4、保存实际执行的数据处理脚本的表ZX_SQL_LOG。

ZX_SQL_LOG表结构:执行SQL的存储过程名称、SQL执行时间、实际执行的SQL语句。

通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

除说明书所述的技术特征外,均为本专业技术人员的已知技术。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1