一种数据加载清洗引擎、调度与存储系统的制作方法

文档序号:11950607阅读:254来源:国知局
一种数据加载清洗引擎、调度与存储系统的制作方法与工艺

本发明属于计算机技术领域,尤其涉及一种数据加载清洗引擎、调度与存储系统。



背景技术:

大数据技术的迅猛发展和信息化的推进,使得人类社会所积累的数据量已经超过了过去5000年的总和,海量数据的采集、存储、处理和传播的数量也与日俱增。企业实现数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后,丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。因此,如何对海量数据进行有效的集成管理已成为增强商业银行竞争力的必然选择。

近几年来,随着Hadoop、Spark等大数据处理技术的发展,数据已经引起人们重视,成为与水、石油同等重要的战略资源。当前大量数据主要存储在传统的SQL数据库中,与大数据技术使用的NoSQL数据库有很大的不同,同时由于数据的多样性特点,使用大数据平台处理数据前,需要把数据导入大数据平台自己的存储系统,且在导入时一般需要进行ETL处理,完成各类数据的抽取,清洗,装载等过程。传统ETL系统主要运行的单机上,也有分布式ETL处理,但主要是面向多任务场景。这些传统的ETL系统功能已经发展的较为完善,但是在应对大数据量的场景时,在处理速度上难以满足处理需求,功能对接上存在很多偏差,导致传统的ETL处理方式难堪重负。



技术实现要素:

本发明目的在于解决现有技术中存在的上述技术问题,提供一种数据加载清洗引擎、调度与存储系统,具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。

为了解决上述技术问题,本发明采用如下技术方案:

一种数据加载清洗引擎、调度与存储系统,其特征在于:包括数据源、数据仓库和用户展现模块,数据仓库连接有ETL管理模块,ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,ETL调度模块用于控制所有ETL任务的运行,ETL监控模块用于跟踪监控ETL任务的运行,数据质量模块用于跟踪数据仓库的数据质量,ETL任务模块用于完成具体的数据ETL工作;数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR,细节数据SOR连接数据总结模块,数据总结模块连接反馈模块,文件接口区用于存储和处理接口文件,文件接口区连接有权限设定模块,权限设定模块用于按照特定的目录结构组织起来,对每个目录按照其特定的用途设定对不同用户的访问权限,ETL管理模块以元数据为中心进行交互和协作,从数据源中抽取数据,然后进行传转换、清洗和加载,按照定义好的数据仓库模型,将数据加载到数据仓库中,很好地满足数据集成的续期,实现各业务之间的数据的汇总和分发;

细节数据暂存区SSA连接有验证模块,验证模块连接有查找模块,查找模块连接细节数据SOR,验证模块连接有处理模块,处理模块连接细节数据SOR,细节数据SOR连接有交换分区模块,元数据存储MDR用来保存关于数据仓库中的过程和数据的信息,元数据存储MDR连接有元数据管理模块;数据集市连接有多维立方体模块,多维立方体模块用于存储多维数据,数据仓库和数据集市存储在一个TDH数据群内,各个不同的数据在TDH数据群内按不同的私有区域来区分,数据集市存储在三维视觉区域内,用于分析多维数据,多维立方体模块存储在集成区域内;交换分区模块采用“分区忽略”和“分而治之”两种分区机制,可以减少导入数据操作对用户实时访问数据的影响,操作模式就像使用可热插拔的硬盘一样,使用方便,在性能上,由于系统中存储了海量数据,可以通过“分区忽略”能够有效地提高查询性能,可以提高数据的可管理性和可用性,如数据删除、数据备份等,采取“分而治之”进行更加完善快捷的管理,可以将任务产生的故障局限在分区中,并且可以有效地缩短恢复时间;由于各个工具和系统都会生成自己的元数据,利用元数据管理模块把这些元数据尽可能的集中存储到元数据存储MDR内,元数据存储MDR只是一个共享元数据供用户集中访问的地方,真正元数据的维护地还是在生成这些元数据的系统和工具内;用户展现模块连接有查询模块,查询模块用于根据用户需求展现业务内容。该系统具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。

进一步,ETL调度模块连接有时间设定模块,每个任务都可以设定在什么时候执行,使得每个任务都能够在指定的时刻自动运行,任务的执行周期具有很大的差异性,有的定义了时间间隔,有的定义了确定时间,通过时间设定模块在系统中建立了一个调度链表,链表中的每个结点包含了“任务的调度信息”和“下次执行时刻”,并始终按照“下次执行时刻”从小到大进行排序,提高了调度效率,以应对大数量的任务。

进一步,ETL监控模块连接有故障处理模块,故障处理模块连接ETL调度模块,当出现任务运行错误或是故障时,故障处理模块会重新分配任务,保证系统继续运行。

进一步,ETL任务模块连接有图形转化模块,图形转化模块将任务的运行情况转化为可视化的图形,直观清楚。

进一步,接口文件区的数据处理工具主要是Kettle,接口文件区在Unix系统下按照特定的目录结构组织起来,通过权限设定模块对每个目录按照其特定的用途设定对不同用户的访问权限,相互独立,分区明确。

进一步,细节数据SOR是基于BDW开发的一套符合3NF范式规范的表结构,细节数据SOR存储了数据仓库内最细节层次的数据,通过交换分区模块按照不同的主题域进行分类组织,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,扩大了系统的适用范围。

进一步,细节数据SOR连接有BDW升级更新模块,通过BDW升级更新模块可支持BDW的进一步升级和更新。

进一步,ETL管理模块采用微软的DTS组件,通过标准接口OLE DB或ODBC定义ETL过程的数据源连接,通过DTS自带的抽取规则或使用T-SQL脚本语言定义数据抽取、清洗和转换方法,使用微软SQL Server的DTS工具设计并完成所有的数据仓库中的ETL操作。

进一步,数据集市呈星型或雪花型结构,数据集市是数据仓库的一个子集,可以称作"小数据仓库",数据集市的应用是对数据仓库应用的补充,数据集市为面向分析的多维数据,为特定用户存储预先计算好的数据,从而满足用户特殊的需求,具有独立性,访问快速且方便,不受系统进行中的更新的影响。

本发明由于采用了上述技术方案,具有以下有益效果:

本发明快速地实现了自动、可靠的数据采集、传输、转换和加载,ETL处理速度快,能够完成大数据量的处理加工,使得ETL任务执行起来更加容易实现,并能支持多任务执行,相互独立,互不影响,且降低了ETL数据处理的成本,提高了ETL数据处理的性能,提高了数据的可管理性和可用性,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,系统的适用范围大大增强。本发明具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。

附图说明

下面结合附图对本发明作进一步说明:

图1为本发明一种数据加载清洗引擎、调度与存储系统的流程示意图;

图2为本发明中数据仓库的流程示意图。

具体实施方式

如图1至图2所示,为本发明一种数据加载清洗引擎、调度与存储系统,包括数据源、数据仓库和用户展现模块,数据仓库连接有ETL管理模块,ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,ETL调度模块用于控制所有ETL任务的运行,ETL调度模块连接有时间设定模块,每个任务都可以设定在什么时候执行,使得每个任务都能够在指定的时刻自动运行,任务的执行周期具有很大的差异性,有的定义了时间间隔(如每隔3分钟执行一次),有的定义了确定时间(如每周的星期五晚上21:00开始执行),对于确定时间,又可以分为按年、月、周、日等很多方式,通过时间设定模块在系统中建立了一个调度链表,链表中的每个结点包含了“任务的调度信息”和“下次执行时刻”,并始终按照“下次执行时刻”从小到大进行排序,提高了调度效率,以应对大数量的任务。ETL监控模块用于跟踪监控ETL任务的运行,ETL监控模块连接有故障处理模块,故障处理模块连接ETL调度模块,当出现任务运行错误或是故障时,故障处理模块会重新分配任务,保证系统继续运行。数据质量模块用于跟踪数据仓库的数据质量,ETL任务模块用于完成具体的数据ETL工作,ETL任务模块连接有图形转化模块,图形转化模块将任务的运行情况转化为可视化的图形,直观清楚。

ETL管理模块采用微软的DTS组件,通过标准接口OLE DB或ODBC定义ETL过程的数据源连接,通过DTS自带的抽取规则或使用T-SQL脚本语言定义数据抽取、清洗和转换方法,使用微软SQL Server的DTS工具设计并完成所有的数据仓库中的ETL操作,用DTS组件设计完DTS包后,可以对包进行一次性执行,也可以把包设置为自动调度,使包的执行过程无需人工干预。为了给系统管理员提供方便,将后台的DTS包的执行和调度通过ASP技术实现为B/S模式用户界面,这样系统管理员无须在服务器上对数据仓库的ETL进行管理和维护,管理员可以在其他任何一个地方完成管理和维护操作,管理方便,提高工作效率。ETL管理模块以元数据为中心进行交互和协作,从数据源中抽取数据,然后进行传转换、清洗和加载,按照定义好的数据仓库模型,将数据加载到数据仓库中,很好地满足数据集成的续期,实现各业务之间的数据的汇总和分发。

数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR,细节数据SOR连接数据总结模块,数据总结模块连接反馈模块,文件接口区用于存储和处理接口文件,文件接口区连接有权限设定模块,文件接口区在Unix系统下按照特定的目录结构组织起来,通过权限设定模块对每个目录按照其特定的用途设定对不同用户的访问权限,接口文件区的数据处理工具主要是Kettle,相互独立,互不影响,分区明确,保证访问的有效性。细节数据暂存区SSA连接有验证模块,验证模块连接有查找模块,查找模块连接细节数据SOR,验证模块连接有处理模块,处理模块连接细节数据SOR,细节数据暂存区SSA用于数据的暂存,把支持的接口文件装载到数据库,验证模块根据查找模块到的细节数据SOR内已有的数据与新加载的数据进行比较,通过验证则由出处理模块将这些新加载的数据整合到细节数据SOR内。

细节数据SOR是基于BDW开发的一套符合3NF范式规范的表结构,细节数据SOR存储了数据仓库内最细节层次的数据,细节数据SOR连接有交换分区模块,通过交换分区模块按照不同的主题域进行分类组织,交换分区模块采用“分区忽略”和“分而治之”两种分区机制,可以减少导入数据操作对用户实时访问数据的影响,操作模式就像使用可热插拔的硬盘一样,使用方便,在性能上,由于系统中存储了海量数据,可以通过“分区忽略”能够有效地提高查询性能,可以提高数据的可管理性和可用性,如数据删除、数据备份等,采取“分而治之”进行更加完善快捷的管理,可以将任务产生的故障局限在分区中,并且可以有效地缩短恢复时间,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,扩大了系统的适用范围。细节数据SOR连接有BDW升级更新模块,通过BDW升级更新模块可支持BDW的进一步升级和更新。

元数据存储MDR用来保存关于数据仓库中的过程和数据的信息,数据的信息包括日志、数据词典和配置信息等,元数据存储MDR连接有元数据管理模块,由于各个工具和系统都会生成自己的元数据,利用元数据管理模块把这些元数据尽可能的集中存储到元数据存储MDR内,元数据存储MDR只是一个共享元数据供用户集中访问的地方,真正元数据的维护地还是在生成这些元数据的系统和工具内。数据集市连接有多维立方体模块,数据仓库和数据集市存储在一个TDH数据群内,各个不同的数据在TDH数据群内按不同的私有区域来区分,数据集市存储在三维视觉区域内,用于分析多维数据,多维立方体模块存储在集成区域内,用于存储多维数据。数据集市呈星型或雪花型结构,数据集市是数据仓库的一个子集,可以称作"小数据仓库",数据集市的应用是对数据仓库应用的补充,数据集市为面向分析的多维数据,为特定用户存储预先计算好的数据,从而满足用户特殊的需求,具有独立性,访问快速且方便,不受系统进行中的更新的影响。数据总结模块设计为反规范化,用来更新多维数据,反馈模块以数据挖掘结果为主。用户展现模块连接有查询模块,查询模块用于根据用户设定的需求展现相应的业务内容,包括业务的办理时间,业务的截止时间,业务的详细内容参数等。特定用户可快速查询到自己需求的业务的详细内容。

本发明快速地实现了自动、可靠的数据采集、传输、转换和加载,ETL处理速度快,能够完成大数据量的处理加工,使得ETL任务执行起来更加容易实现,并能支持多任务执行,相互独立,互不影响,且降低了ETL数据处理的成本,提高了ETL数据处理的性能,提高了数据的可管理性和可用性,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,系统的适用范围大大增强。本发明具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。

以上仅为本发明的具体实施例,但本发明的技术特征并不局限于此。任何以本发明为基础,为解决基本相同的技术问题,实现基本相同的技术效果,所作出的简单变化、等同替换或者修饰等,皆涵盖于本发明的保护范围之中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1