一种数据处理方法、装置及应用其的计算机设备与流程

文档序号:12887283阅读:257来源:国知局
一种数据处理方法、装置及应用其的计算机设备与流程

本发明涉及大数据处理领域,具体涉及一种数据处理方法、装置及应用其的计算机设备。



背景技术:

在当前大数据分析应用中,数据治理是基础工作,基于数据治理当前有一套相对完整的方法论,比如国际标准化组织dama(datamanagementassociation,数据管理协议)发布的数据治理体系架构。

在数据治理过程中,不同业务系统产生的数据需要进行抽取、清晰、转换以及标准化,在这些步骤中会产生大量的过程信息和结果信息。例如,数据的结构、描述、数据标准的定义、执行以及数据质量的监控、数据任务执行状态的监控及管理。目前常用的数据治理方法基本都有各自相对独立的元数据产品、主数据产品、数据同步监控产品,结合这几类产品大致上能够完成数据治理。然而,由于各功能模块相对独立,实现一个简单的功能和流程需要横跨几个系统,从而导致了工具使用成本相对较高,系统负载比较重,数据管理效率较低,不利于用户管理数据资产。



技术实现要素:

有鉴于此,本发明提供一种数据处理方法、装置及应用其的计算机设备,以解决上述提及的至少一个问题。

根据本发明的一个方面,提供了一种数据处理装置,该装置包括:数据对象获取模块,用于通过预设接口获取当前数据源的数据对象;元数据管理模块,用于获取数据对象的元数据,并根据元数据记录数据对象的变更情况,其中,元数据包括数据对象的以下至少之一:结构信息、字段描述信息、版本信息;数据资产生成模块,用于根据数据对象的内容对数据对象进行分类,并根据分类结果生成数据资产信息;以及数据质量生成模块,用于根据预定规则检测数据对象的内容,并根据检测结果生成数据质量报告。

根据本发明的另一个方面,提供了一种数据处理方法,该方法包括:通过预设接口获取数据源中的数据对象;获取数据对象的元数据,并根据元数据记录数据对象的变更情况,其中,元数据包括数据对象的以下至少之一:结构信息、字段描述信息、版本信息;根据数据对象的内容对数据对象进行分类,并根据分类结果生成数据资产信息;以及根据预定规则检测数据对象的内容,并根据检测结果生成数据质量报告。

根据本发明的又一个方面,提供了计算机设备,包括存储器、处理器及存储在该存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法。

根据本发明的还有一个方面,提供了计算机可读存储介质,该计算机可读存储介质存储有执行上述方法的计算机程序。

通过本发明提供的技术方案,可以提高数据管理的效率,便于用户更好地管理数据资产。

附图说明

通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:

图1是根据本发明实施例的数据处理装置的结构框图;

图2是根据本发明实施例的数据处理装置的具体结构框图;

图3是根据本发明实施例的数据治理系统的具体结构框图;

图4是根据本发明实施例的教学数据治理示意图;

图5是根据本发明实施例的数据质量管理示意图;

图6是根据本发明实施例的数据检测示意图;

图7是根据本发明实施例的数据检测分类示意图;

图8是根据本发明实施例的质量报告示意图;

图9是根据本发明实施例的数据处理方法的流程图。

具体实施方式

以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。

图1是根据本发明实施例的数据处理装置的结构框图。如图1所示,本发明实施例的数据处理装置1包括:数据对象获取模块11、元数据管理模块12、数据资产生成模块13以及数据质量生成模块14。以下详细描述各模块。

数据对象获取模块11,用于通过预设接口获取当前数据源的数据对象。通过该预设接口可以获取不同类型的数据库中的数据,从而实现在统一界面中管理数据源。通过该数据对象获取模块11,现有的各类主流关系型数据库也能够集成到统一的界面进行管理和查看。

元数据管理模块12,用于获取数据对象的元数据,并根据元数据记录数据对象的变更情况,其中,元数据包括数据对象的以下至少之一:结构信息、字段描述信息、版本信息。通过将获取的对象信息以元数据形式进行采集和管理,可以记录数据对象的结构和内容,便于清晰地描绘数据对象,从而可以有效地进行后续的分析操作。由于元数据包括数据对象的版本信息,因而用户能够清晰查看各个时期数据对象的变更情况。

数据资产生成模块13,用于根据数据对象的内容对数据对象进行分类,并根据分类结果生成数据资产信息。通过该数据资产生成模块对多个数据对象(可以称为主数据)分类定义以及内容管理,可以根据用户需求生成不同的数据资产视图,以便用户查看和分析,进而可以更有效地管理数据资产。

数据质量生成模块14,用于根据预定规则检测数据对象的内容,并根据检测结果生成数据质量报告。具体地,可以以行业权威的标准源作为预定标准规则,对数据对象的结构和内容进行检验,并以报告形式呈现数据对象的检验结果,以便于用户进行分析。通过该模块,用户能够更有效地掌控全局的数据质量状态。

在一个实施例中,如图2所示,数据处理装置1还包括预警模块15,用于根据第三方etl(extract提取、transform转换、load加载)工具和预设的监控体系监控数据对象,并根据监控结果生成预警信息。在实际操作中,第三方etl工具运行过程和状态信息可被预警模块提取,从而实现在同一个界面进行统一管理和监控。

如图2所示,数据处理装置1还包括数据发布模块16,用于根据用户请求发布与数据对象相关的信息,并根据预定权限规则对发布的信息进行监控。例如,根据权限管控体系,对数据对象的查看、编辑和访问进行安全管理,以保障数据管理的安全。

如图2所示,数据处理装置1还包括标准化模块17,用于根据预定标准对数据源中的数据对象进行标准化处理,以实现数据的标准化。如此,可实现对数据的统一管理,便于后续的查看、编辑和分析。

图3是根据本发明实施例的数据治理系统的具体结构框图。如图3所示,该系统在对业务数据进行数据治理时,将数据对象通过元数据管理模块对各种信息以元数据的形式进行管理,通过数据标准管理模块规范化数据对象的定义,以数据质量管理模块为基础对数据对象的内容进行管理,最终形成数据资产。数据安全管理模块对数据进行监控和管理,用户安全管理模块对用户的权限进行确认,从而实现数据治理过程中数据的安全性。该数据治理系统对现有的工具体系进行了轻量化处理,将必要的模块进行了整合及合并,简化了工具学习成本,减轻了系统负载,方便了用户的使用。

其中,元数据管理模块可以直接从当前连接的数据源中自动采集数据对象的结构和描述信息,并且可以保存不同时期的元数据版本。在实际操作中,元数据还可以包括数据状态、数据结构以及对于标准的定义等信息,这些信息除了在线下通过文档进行记录和管理之外,还可以在线上通过流程和权限进行管理、变更和查看。

数据标准管理模块可以根据当前行业权威的标准源作为自身构建标准的参考,并可以方便地引入标准和变更修改标准。在实际操作中,对于数据内容是否符合要求可以通过自定义规则来检测,通过线上的方式实时掌控数据的状态,提高数据治理和管理的效率。

数据质量管理模块可以设置自定义规则并且可查看规则在数据对象上的执行情况,便于生成数据质量报告。通过该模块,用户可以掌控全局的数据质量状态。

数据资产管理模块通过设置分析规则对数据对象的结构和内容进行分析,将数据对象的详细信息以报告的形式整体呈现出来,生成数据资产分析结果,便于用户进行决策,实现有效地管理数据资产。

该系统在数据共享交换的过程中,可以快速发布数据,从而用户可以灵活的对外提供数据,同时对于发布出去的数据,系统可以进行权限的管理和控制。

该系统还可以全局监控数据流向,将不同etl工具中的执行信息进行汇总,实时采集数据流向的状态数据,从而提高数据管理效率。

以下给出治理学校数据的实例。

图4是根据本发明实施例的教学数据治理示意图。如图4所示,数据集中库通过数据加载和数据识别从数据集成中心获取数据,通过对数据清洗和转换来解决数据质量问题,使得共享数据集中的数据可在各系统间共享使用。通过数据管理和发布,可以可视化地管理学校元数据和主数据,对数据质量进行分析,还可以对数据接口发布的有效期、字段、权限等实现有效地控制,使数据交换与共享都在监管之下,从而保证数据安全。

对于数据标准管理,结合行业发布的标准,制定该学校的数据标准规范。具体地,通过可视化工具根据数据标准规范对数据源、元数据、主数据、代码标准集、编码规则等进行维护和更新。同时,建立数据标准的使用规范和日常管理、维护流程,用于各应用系统之间进行的数据共享与交换,确保所有应用系统数据的准确性和一致性。

通过上述数据的管理和发布方案,可以建立一个统一标准、业务系统数据高度融合、稳定权威的数据统一平台,并在平台上构建敏捷、高效的支撑和响应各业务部门业务需求的应用服务系统。

图5是上述数据质量管理的示意图。如图5所示,通过对获取的数据进行数据内容分析、数据完整性检查、主外键关联探索和敏感数据探索,实现对数据的基本分析、结构分析、频率分析和分布统计,结合智能探索和人工探索生成数据质量评估报告,以便于用户对数据质量的分析。

在具体操作中,如图6所示,在输入界面输入值域内容,即取值范围,规定格式例如1...100。在字段绑定规则中设置取值范围,用于检测数据内容的有效范围,超过该范围则认为是脏数据。

数据治理系统通过定义好的规则,根据相应的数据范围,生成数据质量报告。在实际操作中,可以根据设置的规则,变化数据质量报告表格的内容和结构,生成整体质量分析报告。

在进行全局检测操作时,数据治理系统选择当前所有的元数据,以数据库为单位,根据相应的规则和元数据的版本变化对所有元数据进行遍历,生成异常数据报告。

或者,也可以进行自定义检测,如图7所示的检测分类示意图,用户可以选择对应的检测类型和检测项,最终可生成如图8所示的质量报告示意图,便于用户查看数据关联的情况。

通过本发明实施例的数据治理系统,可以解决数据标准化处理过程中的各种信息不一致的问题,从而提高数据管理的效率,通过数据治理体系,能够更好地管理数据资产。

基于相似的发明构思,本发明实施例还提供一种数据处理方法,可以应用于上述的数据处理装置。图9是该数据处理方法的流程图,如图9所示,该方法包括:

步骤901,通过预设接口获取数据源中的数据对象;

步骤902,获取数据对象的元数据,并根据元数据记录数据对象的变更情况,其中,元数据包括数据对象的以下至少之一:结构信息、字段描述信息、版本信息;

步骤903,根据数据对象的内容对数据对象进行分类,并根据分类结果生成数据资产信息;以及

步骤904,根据预定规则检测数据对象的内容,并根据检测结果生成数据质量报告。

通过上述方法,可以更有效地对数据进行管理和分析,方便用户对数据地统一管理,从而更高效地管理数据资产。

在一个实施例中,在步骤901之前,可以根据预定标准对数据源中的数据对象进行标准化处理,以实现数据的标准化,方便对数据的统一管理和分析。

该方法还可以根据第三方etl工具和预设的监控体系监控数据对象,并根据监控结果生成预警信息。

另外,该方法还可以根据用户请求发布与数据对象相关的信息,并根据预定权限规则对发布的信息进行监控。

由于该方法解决问题的原理与数据处理装置相似,因此该方法的实施可以参见数据处理装置的实施,重复之处不再赘述。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述的方法。

本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有执行上述方法的计算机程序。

本发明实施例通过对底层数据库的集成和监控,以元数据、主数据、数据质量等标准定义的内容和模块,将相关的数据对象进行管理,梳理数据的脉络,掌握数据的上下游关系,对数据的集成过程进行监控,同时对于数据的生产方和使用方之间的关系进行严格的管控,从而可以提高数据的使用效率,帮助用户更好地掌控数据资产。

显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算机系统来实现,它们可以集中在单个计算机上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1