具有数据清洗的海量数据系统的制作方法

文档序号:12748067阅读:474来源:国知局

本发明涉及一种数据系统,具体涉及具有数据清洗的海量数据系统。



背景技术:

近年来,随着信息化技术的迅猛发展,收集、存储、处理和分析的数据量越来越大。面向海量数据的处理越来越火,区别于传统的数据结构化特点,大数据有三个特点,包括海量性、分布性、和异构性。其海量性主要是指数据规模的巨大并且增长速度持续增加;其分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析;其异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决大数据带来的问题,针对这三个特性,面向大数据的集成和清洗变得尤为重要。大数据同时还包含不确定性数据,现阶段不确定数据产生的原因比较多样化,主要体现在原始数据不准确、使用粗粒度数据集合、数据字段缺失以及数据集成。



技术实现要素:

本发明所要解决的技术问题是发现结构级错误和记录级错误并修正,目的在于提供具有数据清洗的海量数据系统,解决值缺失、值错误、重复记录以及数据源内部与数据源之间不一致性的错误。

本发明通过下述技术方案实现:

具有数据清洗的海量数据系统,包括:

数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;

数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;

数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;

数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;

数据服务模块:将所述数据存储管理模块存储的数据以各种方式与客户之间进行交互,实现客户对数据的访问需求,所述数据服务模块包括数据共享分发、元数据交换、Web检索服务、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理;

数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。

进一步地,错误类型包括结构级错误和记录级错误。

进一步地,识别错误的方法是基于数据按照预定义的清理规则,查找不匹配的记录。

进一步地,修正错误是指按照编制程序或借助于外部标准源文件或数据字典修正错误,又或者根据数理统计知识自动修正。

本发明与现有技术相比,具有如下的优点和有益效果:发现结构级错误和记录级错误并修正,解决值缺失、值错误、重复记录以及数据源内部与数据源之间不一致性的错误。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例

如图1所示,具有数据清洗的海量数据系统,包括:

数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;

数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;

数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;错误类型包括结构级错误和记录级错误;识别错误的方法是基于数据按照预定义的清理规则,查找不匹配的记录;修正错误是指按照编制程序或借助于外部标准源文件或数据字典修正错误,又或者根据数理统计知识自动修正。

数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据存储管理模块具有集中化备份管理、集中化复制管理、连续数据保护、分析和报告和简化管理的优点,提高了数据库可用性、增加了应用程序正常运行时间、减少了业务风险。

数据服务模块:将所述数据存储管理模块存储的数据以各种方式与客户之间进行交互,实现客户对数据的访问需求,所述数据服务模块包括数据共享分发、元数据交换、Web检索服务、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理;

数据监控模块:对所述数据采集模块中的数据收集过程、数据处理模块的数据处理、数据服务模块中的数据访问过程进行监控记录和处理。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1