一种基于数据全生命周期管理的数据管理平台的制作方法

文档序号:11952528阅读:661来源:国知局
一种基于数据全生命周期管理的数据管理平台的制作方法与工艺

本发明涉及大数据技术领域,具体地说是一种实用性强、基于数据全生命周期管理的数据管理平台。



背景技术:

数据越来越成为重要的信息资源,各部门各单位掌握的数据资源量越来越庞大、数据种类越来越多样、数据类型也越来越复杂,同时围绕着数据的处理、分析任务越来越多,共享的数据服务也越来越多,数据以及围绕数据相关的采集、处理、分析、共享等任务的管理工作越来越繁锁、数据的质量越来越难评估,数据的安全越来越难保证,急需一套统一的、数据全生命周期管理的数据管理平台来进行对数据以及围绕数据展开的各项工作进行集中管理。

鉴于此,现提供一种基于基于数据全生命周期管理的数据管理平台。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种实用性强、基于数据全生命周期管理的数据管理平台。

一种基于数据全生命周期管理的数据管理平台,包括数据源层、数据集成层、数据存储层、数据整合层、数据服务层、数据视图层及统一管理层,其中:

数据源层负责对所有数据源的配置和管理;

数据集成层负责对外部数据的接入、采集、传输进行管理;

数据存储层负责对存储数据、数据存储环境、状态进行管理;

数据整合层实现数据的标准、标签、分类分级进行管理和数据转换、加工处理任务的管理、以及对数据与数据逻辑关系建模管理和数据分析任务管理工作;

数据服务层负责对数据共享服务进行管理;

数据视图层通过数据视图、服务视图、监控视图、数据建模视图、统计分析视图的方式实现数据的可视化、服务的可视化、监控的可视化、数据建模的可视化和统计分析的可视化;

统一管理层用于数据全生命周期的数据质量管理、数据安全管理、元数据管理和集中监控管理。

数据源层完成以下管理功能:采集源、目标源的数据源定义、数据源接入、数据源模型描述、数据源权限配置和数据源检验规则,该采集源包括EXCEL文档、多媒体数据、数据库,数据源介入通过业务系统接口实现,目标源的数据源定义、数据源模型描述、数据源权限配置和数据源检验规则由数据填报人完成。

数据集成层完成以下管理功能:采集任务的定义管理、采集任务调度管理、数据采集实施管理、采集规则配置管理和采集日志管理,对应该管理功能,数据采集层通过EXCEL接入、服务调用、数据库抽取、文件传输协议和手工填报接口实现。

数据存储层完成以下管理功能:数据存储介质定义、存储资源管理、数据存储状态管理、存储备份管理、存储日志的管理,与该管理功能相对应的,数据存储层通过关系数据库、消息队列、分布式文件系统和NOSQL数据库实现。

数据整合层完成以下管理:数据标准管理、数据标签管理、数据分类分级管理;数据处理任务定义、数据清洗、数据转换等任务实施;数据建模定义,数据模型管理和数据建模实施;数据分析任务定义、任务管理、数据分析实施管理,与该管理功能相对应的,数据整合层通过数据清洗转换、数据建模、数据分析和NOSQL数据库实现。

数据服务层完成包括数据服务的定义、服务发布、服务订阅、服务授权、服务调用的实施和管理,该数据服务层的功能实现基于技术协议和数据协议,其中技术协议包括HTTP、FTP、REST、Socket,数据协议包括Json、XML。

所述数据视图包括管理的数据内容视图、数据状态视图;服务视图包括服务资源目录视图、服务授权视图;监控视图包括采集任务监控视图、数据处理监控视图、数据使用监控视图;数据建模视图包括数据建模视图、数据模型视图;统计分析视图包括对数据使用热度统计分析视图数据、数据日志分析视图、元数据影响分析、血缘分析。

在统一管理层中,质量管理负责数据全过程的质量管理,包括质量目标定义、质量度量设置、质量识别配置、数据质量监控和质量预警;安全管理实现数据从接入、采集、存储、处理和使用全生命周期的安全管理,包括数据采集安全管理、数据存储安全管理、数据访问安全管理、数据传输安全管理和数据使用安全管理;集中监控实现数据从接入、采集、存储、处理和使用全过程的数据和任务监控,包括数据采集监控、数据存储环境和存储状态监控、数据处理监控、服务状态和调用监控、数据使用如数据访问、应用系统调用监控;元数据管理负责数据从定义到存储、处理、分析和共享元数据的管理,包括数据源元数据、目标源元数据,采集元数据、处理元数据、分析元数据、建模元数据、服务元数据、整合元数据。

本发明的一种基于数据全生命周期管理的数据管理平台,具有以下优点:

本发明提供的一种基于数据全生命周期管理的数据管理平台,从数据源、数据集成、数据存储、数据质量、数据整合、数据共享和数据使用等过程全流程管理,从制度、标准、监控、质量、安全几个方面全方位提升数据信息管理能力,实现对数据以及围绕数据开展的采集、处理、加工、质量评估、分析、共享等工作的一体化管理,实现数据的可靠、可信、可溯源,实用性强,适用范围广泛,易于推广。

附图说明

附图1为数据管理平台功能架构图。

附图2为数据管理平台技术实现图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

如附图1、图2所示,本发明的一种基于数据全生命周期管理的数据管理平台,提供完整的数据管理,实现外部数据源的管理、数据的采集管理,保障外部源的安全性和采集的安全性,实现数据编码、存储、清洗、整合、共享、治理等功能,实现数据物理模型、逻辑模型的可视化管理,保障数据的透明性和处理过程、使用过程的透明性;实现全面的数据采集、存储、处理、整合、使用日志监控和元数据管理,采用统一数据标准、编码规范实现被管理的数据统一标准,保证数据的一致性,根据业务制定数据质量标准规格参数,实现数据质量分析评估、问题跟踪和合规性监控,保证数据的质量,数据处理各阶段采用多种安全策略,保障数据安全性。

其结构包括数据源层、数据集成层、数据存储层、数据整合层、数据服务层、数据视图层及统一管理层,同时建立数据全生命周期的数据质量管理、数据安全管理、元数据管理和集中监控管理,实现数据存储的透明化,数据管理的可视化、数据采集、存储、传输、处理、分析、使用过程的安全化,实现数据的可靠、可信、可溯源,其中:

数据源层:负责对所有数据源的配置和管理,包括采集源、目标源的数据源定义、数据源接入、数据源模型描述、数据源权限配置和数据源检验规则。该采集源包括EXCEL文档、多媒体数据、数据库,数据源介入通过业务系统接口实现,目标源的数据源定义、数据源模型描述、数据源权限配置和数据源检验规则由数据填报人完成。

数据集成层:负责对外部数据的接入、采集等管理,包括采集任务的定义管理、采集任务调度管理、数据采集实施管理、采集规则配置管理和采集日志管理等。数据采集层通过EXCEL接入、服务调用、数据库抽取、文件传输协议和手工填报接口实现。

数据存储层:负责对存储数据、数据存储环境、状态等管理,包括数据存储介质定义、存储资源管理如存储节点、存储空间等,数据存储状态管理如存储设备状态、存储类型等,存储备份管理,存储日志的管理。与该管理功能相对应的,数据存储层通过关系数据库、消息队列、分布式文件系统和NOSQL数据库实现。

数据整合层:实现数据的标准、标签、分类分级等管理和数据转换、加工处理任务的管理、以及对数据与数据逻辑关系建模管理和数据分析任务管理等工作,包括数据标准管理、数据标签管理、数据分类分级管理;数据处理任务定义、数据清洗、数据转换等任务实施;数据建模定义,数据模型管理和数据建模实施;数据分析任务定义、任务管理、数据分析实施等管理。与该管理功能相对应的,数据整合层通过数据清洗转换、数据建模、数据分析和NOSQL数据库实现。

数据服务层:负责对数据共享服务进行管理,包括数据服务的定义、服务发布、服务订阅、服务授权、服务调用等实施和管理。该数据服务层的功能实现基于技术协议和数据协议,其中技术协议包括HTTP、FTP、REST、Socket,数据协议包括Json、XML。

数据视图层:实现数据的可视化、服务的可视化、监控的可视化、数据建模的可视化和统计分析视图的可视化,数据视图如管理的数据内容视图、数据状态视图,服务视图包括服务资源目录视图、服务授权视图等,监控视图包括采集任务监控视图、数据处理监控视图,数据使用监控视图等,数据建模视图包括数据建模视图、数据模型视图等,统计分析视图包括对数据使用热度统计分析视图、数据,数据日志分析视图、元数据影响分析、血缘分析等。

统一管理层用于数据全生命周期的数据质量管理、数据安全管理、元数据管理和集中监控管理。

质量管理:数据质量对于数据应用至关重要,数据分析应用时,首先要评估数据质量,包括评估数据的完整性、规范性、一致性、准确性、唯一性和关联性等,质量管理负责数据全过程的质量管理,实现数据可测量和可验证,包括质量目标定义、质量度量设置、质量识别配置、数据质量监控和质量预警等。

安全管理:实现数据从接入、采集、存储、处理和使用全生命周期的安全管理,确保数据全生命周期安全可靠,包括数据采集安全管理、数据存储安全管理、数据访问安全管理、数据传输安全管理和数据使用安全管理等。

集中监控:实现数据从接入、采集、存储、处理和使用全过程的数据和任务监控,实现数据全面监控,包括数据采集监控、数据存储环境和存储状态监控、数据处理监控、服务状态和调用监控、数据使用如数据访问、应用系统调用等监控。

元数据管理:负责数据从定义到存储、处理、分析和共享等全角度、全方位元数据的管理,实现数据和与数据相关的任务的可理解性。包括数据源元数据、目标源元数据,采集元数据、处理元数据、分析元数据、建模元数据、服务元数据、整合元数据等。

数据管理平台从数据源、数据集成、数据存储、数据整合、数据服务、数据视图六个过程管理,同时建立数据全生命周期的数据质量管理、数据安全管理、元数据管理和集中监控管理,实现数据存储的透明化,数据管理的可视化、数据采集、存储、传输、处理、分析、使用过程的安全化,实现数据的可靠、可信、可溯源。

本发明实现数据全生命周期管理:平台从数据源、数据集成、数据存储、数据质量、数据整合、数据共享和数据使用等过程实现数据全生命周期管理。

数据透明化、采集过程、处理过程、使用过程透明化:数据管理平台通过对数据的物理模型和逻辑模型管理的可视化,实现数据的透明;对采集过程、处理过程、使用过程的全流程监控和日志分析,实现采集过程、处理过程、使用过程透明化。

数据安全、可靠、可信、可溯源:平台实现数据从接入、采集、存储、处理和使用全生命周期的安全管理,确保数据全生命周期安全可靠,包括数据采集安全管理、数据存储安全管理、数据访问安全管理、数据传输安全管理和数据使用安全管理等,同时建立一套完整的监控体系,对数据使用、状态转换、数据变化等全过程实行监控,方便捕获数据异常。同时配套全生命周期的元数据管理,通过对元数据的血统分析,实现数据的溯源。

平台采用改进的分布式文件系统、键值数据库、列式数据库、图数据库等大数据存储技术,实现存储的能效优化、计算融入、数据去冗余、高性价比、高可靠性等目标,有效管理海量异构数据,并支持线性扩展,满足未来持续扩展的业务需求。

平台通用性强、功能扩展方便:在平台整体规划下,平台有采集各种数据源的能力,不受数据源类型影响,同时目标数据源支持多种主流的数据存储方式,平台纯组件式开发,方便扩展。

上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于数据全生命周期管理的数据管理平台的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1