大数据治理中基于元数据实现数据标准与数据质量关联处理的方法与流程

文档序号:18414248发布日期:2019-08-13 19:08阅读:607来源:国知局
本发明涉及计算机软件领域,尤其涉及大数据治理领域,具体是指一种大数据治理中基于元数据实现数据标准与数据质量关联处理的方法。
背景技术
::随着大数据技术的快速发展,越来越多的企业开始关注自身的数据问题,开始在企业数据管理和数据规划中使用一定手段进行数据管控,如采用元数据系统来管理企业元数据,或采用数据质量系统来识别企业的问题数据,提高数据质量,或聘请咨询公司帮助企业梳理数据标准。这些手段在一定程度上可以帮助企业提升数据质量,实现数据治理的效果,而随着企业信息化建设步伐加快,企业面临越来越多的数据问题,仅从一个视角去管理数据,已无法满足企业对数据治理的需求。因此,这就需要打通元数据、数据标准、数据质量三者的维度壁垒,通过数据标准制定质量规则,通过质量规则检核元数据,通过元数据找到对应的数据标准,让数据问题有据可查、有法可依,从而提高数据质量、规范数据定义,保证数据资产的有效管理,构建良性闭环的数据管控体系。现有大数据治理相关技术如下:(1)数据治理中的数据血缘关系可视化图形系统(申请号:201711383801.0),其提供一种数据治理中的数据血缘关系可视化图形系统,包括信息节点,还包含以下模块:数据流转线路;是指所述数据流转的路径;抽取策略节点、清洗规则节点、转换规则节点、加载规则节点和处理规则节点中至少一种节点所述抽取策略节点用于说明数据是如何抽取的;所述清洗规则节点用于表示所述数据流转过程中所述数据的筛选标准;所述转换规则节点用于表示所述数据流转过程中所述数据的变化标准;所述加载规则节点用于说明数据是如何入库的;所述处理规则节点用于表示所述数据归档或销毁。该申请通过不同层级的血缘关系,可以很清楚的了解数据的迁徙流转,为数据价值的评估、数据的提供了依据。(2)一种数据标准处理方法、装置及其存储介质(申请号:201811356788.4)其提供了一种数据标准处理方法、装置及其存储介质,涉及大数据处理
技术领域
:。所述数据标准处理方法包括:从存储生产源数据的业务数据库采集元数据;从所述元数据中抽象出n个数据标准,所述n个数据标准至少包括标准名称,n为正整数;选择所述n个数据标准中的m个构成数据标准集,m为小于n的正整数;基于所述数据标准集生成校验结果表。该数据标准处理方法基于元数据的数据标准构成数据标准集,提高了数据标准的相关性。通过上述数据治理中的数据血缘关系可视化图形系统的技术,通过采集数据流转线路:抽取策略节点、清洗规则节点、转换规则节点、加载规则节点和处理规则节点中至少一种节点的方式可以实现元数据的血缘关系,了解数据的迁徙流转,为数据价值的评估、数据的提供依据。但缺乏与数据标准的关联,无法建立元数据与数据标准的快速溯源,更无法依靠元数据发现企业的问题数据,因此无法实现企业大数据治理的良性闭环。通过上述一种数据标准处理方法、装置及其存储介质的技术:从存储生产源数据的业务数据库采集元数据;从所述元数据中抽象出n个数据标准,所述n个数据标准至少包括标准名称,n为正整数;选择所述n个数据标准中的m个构成数据标准集,m为小于n的正整数;基于所述数据标准集生成校验结果表。其数据标准的来源是元数据,而元数据来源于各业务系统的数据库,因此,需要事先确保各业务系统数据库是完全按照企业标准建设的,否则一旦元数据的正确性出现偏差,由此提炼出的数据标准将变得毫无意义,对应的数据质量也将缺乏真实性、可用性。技术实现要素:本发明的目的是克服了上述现有技术的缺点,提供了一种数据质量高、真实性高、可用性好的大数据治理中基于元数据实现数据标准与数据质量关联处理的方法。为了实现上述目的,本发明的大数据治理中基于元数据实现数据标准与数据质量关联处理的方法如下:该大数据治理中基于元数据实现数据标准与数据质量关联处理的方法,其主要特点是,所述的方法包括以下步骤:(1)采集元数据;(2)导入企业数据标准;(3)将元数据按照数据标准进行归类,并以数据标准编号为关键字段进行存储;(4)根据数据标准制定数据质量标准;(5)根据数据质量标准编写质量规则;(6)根据质量规则检核元数据。较佳地,所述的步骤(1)具体包括以下步骤:(1.1)获取数据源配置,通过元数据适配器扫描数据源中的数据库信息;(1.2)对数据进行转换,将数据写入元数据系统。较佳地,所述的步骤(1.1)中的数据库信息包括数据库的组织及结构、表名、字段名、视图、关系、主键和外键。较佳地,所述的步骤(2)具体包括以下步骤:(2.1)将企业数据标准整理至元数据可识别的文件模版中;(2.2)以元数据采集的方式将数据标准导入至元数据系统;(2.3)将数据标准作为独立的元数据进行管理。较佳地,所述的步骤(3)中的数据标准适用多个元数据,单个元数据只对应单条数据标准。较佳地,所述的步骤(4)具体包括以下步骤:(4.1)将数据质量标准导入元数据系统,作为独立的元数据进行管理。较佳地,所述的步骤(4)中的数据标准对应多条数据质量标准,单条数据质量标准只对应单条数据标准。较佳地,所述的步骤(5)中的数据质量标准对应多条质量规则,单条质量规则只来自于单条数据质量标准。较佳地,所述的步骤(5)中的质量规则包括检测范围、检测属性和检测规则。较佳地,所述的步骤(6)具体包括以下步骤:(6.1)执行质量规则,并收集在执行过程中产生的问题数据;(6.2)根据数据的字段名和所属表名查出对应的元数据,获取元数据对应的数据标准;(6.3)将检核信息整理并形成数据质量报告。采用了本发明的大数据治理中基于元数据实现数据标准与数据质量关联处理的方法,由于通过元数据、数据标准、数据质量三者的关联,打破了企业在数据治理中业务需求与技术需求上的壁垒,通过数据标准制定数据质量,数据质量检核元数据,达到了对数据质量管控师出有名的目的,同时,在发现企业问题数据时能提供出该问题对应的业务依据,另外,还可以根据数据标准要求给出整改意见,真正做到了以业务为目标,以技术为手段,实现了在企业大数据治理中的完整闭环,对企业提高数据质量、规范数据定义,保证数据资产的有效管理具有重要意义,具有很好的推广应用价值。附图说明图1为本发明的大数据治理中基于元数据实现数据标准与数据质量关联处理的方法的流程示意图。图2为本发明的大数据治理中基于元数据实现数据标准与数据质量关联处理的方法的元数据、数据标准、质量标准、质量规则的关系图。图3为本发明的大数据治理中基于元数据实现数据标准与数据质量关联处理的方法的实施例的所用数据资产平台各模块的功能架构图。图4为本发明的大数据治理中基于元数据实现数据标准与数据质量关联处理的方法的质量规则检核流程图。具体实施方式为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。本发明的该大数据治理中基于元数据实现数据标准与数据质量关联处理的方法,其中包括以下步骤:(1)采集元数据;(1.1)获取数据源配置,通过元数据适配器扫描数据源中的数据库信息;(1.2)对数据进行转换,将数据写入元数据系统;(2)导入企业数据标准;(2.1)将企业数据标准整理至元数据可识别的文件模版中;(2.2)以元数据采集的方式将数据标准导入至元数据系统;(2.3)将数据标准作为独立的元数据进行管理;(3)将元数据按照数据标准进行归类,并以数据标准编号为关键字段进行存储;(4)根据数据标准制定数据质量标准;(4.1)将数据质量标准导入元数据系统,作为独立的元数据进行管理;(5)根据数据质量标准编写质量规则;(6)根据质量规则检核元数据;(6.1)执行质量规则,并收集在执行过程中产生的问题数据;(6.2)根据数据的字段名和所属表名查出对应的元数据,获取元数据对应的数据标准;(6.3)将检核信息整理并形成数据质量报告。作为本发明的优选实施方式,所述的步骤(1.1)中的数据库信息包括数据库的组织及结构、表名、字段名、视图、关系、主键和外键。作为本发明的优选实施方式,所述的步骤(3)中的数据标准适用多个元数据,单个元数据只对应单条数据标准。作为本发明的优选实施方式,所述的步骤(4)中的数据标准对应多条数据质量标准,单条数据质量标准只对应单条数据标准。作为本发明的优选实施方式,所述的步骤(5)中的数据质量标准对应多条质量规则,单条质量规则只来自于单条数据质量标准。作为本发明的优选实施方式,所述的步骤(5)中的质量规则包括检测范围、检测属性和检测规则。本发明的具体实施方式中,本发明针对上述
背景技术
:中存在的缺点,提出了将数据标准与元数据关联,根据数据标准创建质量标准,再配置质量规则,最后根据质量规则对元数据进行检核的方法,打通业务与技术壁垒,以企业的真实需求为标准,以元数据为依托,以质量规则为手段,让数据问题有据可查、有法可依,从而提高数据质量、规范数据定义,保证数据资产的有效管理,构建良性闭环的数据管控体系。本发明公开了一种在大数据治理中基于元数据打通数据标准与数据质量的方法,包括:系统元数据采集,企业数据标准的导入,之后将元数据与数据标准进行关联,并根据数据标准来创建质量标准,再配置质量规则,最后根据质量规则对元数据进行检核。利用本发明,能够快速识别企业信息化系统中元数据的质量差异,通过数据标准与数据质量的关联,打破了企业在数据治理中业务需求与技术需求上的壁垒,让数据问题有据可查、有法可依,对企业提高数据质量、规范数据定义,保证数据资产的有效管理具有重要意义,具有很好的推广应用价值。本发明的目的在于提供一种在大数据治理中基于元数据打通数据标准与数据质量的方法,能够快速识别企业信息化系统中元数据的质量差异,通过数据标准与数据质量的关联,打破企业在大数据治理中业务需求与技术需求上的壁垒,识别出不满足质量标准的元数据,从源头保障企业数据的真实有效,从而实现对企业数据资产的有效治理,具体操作步骤如下:步骤1、元数据采集:包括获取数据源配置,然后通过元数据适配器扫描数据源中的数据库信息,如:schema、表名、字段名、视图、关系、主键、外键等,其中,schema指数据库的组织及结构,并对数据进行转换,最后将数据写入到元数据系统中,整体上可分客户端与服务器端,客户端包括适配器,数据源,采集任务等的配置,服务器端则负责真正的采集数据、转换数据、入库落地等操作。常见的元数据模型一般包含但不限于:包、类、数据类型三种要素,包:是一个容器,它可以把元数据模型相关的类和数据类型按照特定的元数据来源分组,类:定义了元数据对象的类型,比如数据库类型、etl类型,类自身具有属性,类之间具有关系,包括组合关系、依赖关系和继承关系。数据类型:是用来定义属性的,例如数据库类的“描述”属性,其数据类型是文本型的,这样元数据系统就可以识别出该如何向用户展示这个属性。步骤2、导入企业数据标准:将企业数据标准整理至元数据可识别的文件模版中,如excel、xml,以元数据采集的方式,将数据标准导入到元数据系统中,将数据标准作为一种独立的元数据进行管理,数据标准模版需包含但不限于:1)数据标准编号2)标准一级分类3)标准二级分类4)标准中文名称5)标准别名6)业务定义7)定义依据8)数据类型9)取值范围10)数据长度11)数据精度12)数据展示格式13)权威系统14)数据标准状态15)填写日期。步骤3、元数据关联数据标准:对元数据属于哪个数据标准进行归类,以数据标准编号为关键字段进行存储,数据标准与元数据的关系为1:n,一条数据标准可以适用在多个元数据中,而一个元数据只能对应一条数据标准。步骤4、根据数据标准制定质量标准:根据数据标准中对数据的完整性、一致性、唯一性、规范性、及时性和准确性的要求进行质量标准的编制,编制工作可以线上或者线下完成,如果线下完成,可以采用步骤2的方式,将数据质量标准导入到元数据系统,作为一种独立的元数据进行管理,数据标准与数据质量标准的关系为1:n,一条数据标准可以对应多条质量标准,而一条质量标准只能对应一条数据标准,质量标准的建设内容包括但不限于:1)对应数据标准编号2)对应数据标准名称3)质量标准编号4)数据质量维度5)数据质量维度编码6)数据质量标准描述7)参考对象标准编号8)参考对象标准名称9)原因说明。步骤5、根据质量标准编写质量规则:数据质量规则是数据质量标准的技术化实现,一般为可执行的sql语句(数据库语言),也可以使用专业的数据质量系统通过配置化的方式来完成,数据质量标准与质量规则的关系为1:n,一条数据质量标准可以编写多条质量规则,而一条质量规则只能来自于一条数据质量标准。一条质量规则应至少包括检测范围、检测属性、检测规则三块内容。检测范围是定义、维护数据质量检测规则中所涉及的基础范围元素。检测范围的定义可以是具体数据项,可以是sql语句取值,也可以是使用其他属性进行组合。检测范围的目的是定义标准规范的检测范围,方便基础规则的定义维护。检测范围包括名称、说明、值、添加时间、添加人等。常见的检测范围如:登记发证日期、系统当前日期、法定代表人名称、身份证号码等。检测属性是根据数据质量管控要求,定义基础的数据质量判断规则。通过检测属性管理,与检测范围进行有机结合,实现检测规则的灵活定义。检测属性包括但不限于空值检查、值域检查、规范检查、重复数据检查、记录缺失检查、引用完整性检查、结果集比对、sql脚本检查、离群值检查、平衡检查、波动检查、及时性检查、逻辑性检查等质量规则。检测规则是判断数据是否存在异常的逻辑规则,检测规则基于检测范围、检测属性,用来定义检测出来的结果集属于正确的一方还是不正确的一方。步骤6、根据质量规则检核元数据:执行质量规则,并且收集在执行过程中产生的问题数据,问题数据包含但不限于字段名称、字段描述、数据值、数据类型、所属表名,根据数据的字段名和所属表名可以查出对应的元数据,从而获取到元数据对应的数据标准,将这些信息整理后形成数据质量报告,包含但不限于:元数据名称、数据问题率、数据明细、问题原因、标准值、修改后目标问题率、修改意见、对应的数据标准名称、标准依据。该报告可递交给业务系统负责人或数据治理小组,为企业大数据治理提供有力依据。经上述六个步骤,通过元数据、数据标准、数据质量三者的关联,打破了企业在数据治理中业务需求与技术需求上的壁垒,通过数据标准制定数据质量,数据质量检核元数据,达到了对数据质量管控师出有名的目的,同时,在发现企业问题数据时能提供出该问题对应的业务依据,另外,还可以根据数据标准要求给出整改意见,真正做到了以业务为目标,以技术为手段,实现了在企业大数据治理中的完整闭环,对企业提高数据质量、规范数据定义,保证数据资产的有效管理具有重要意义,具有很好的推广应用价值。采用了本发明大数据治理中基于元数据打通数据标准与数据质量的方法,由于通过元数据、数据标准、数据质量三者的关联,打破了企业在数据治理中业务需求与技术需求上的壁垒,通过数据标准制定数据质量,数据质量检核元数据,达到了对数据质量管控师出有名的目的,同时,在发现企业问题数据时能提供出该问题对应的业务依据,另外,还可以根据数据标准要求给出整改意见,真正做到了以业务为目标,以技术为手段,实现了在企业大数据治理中的完整闭环,对企业提高数据质量、规范数据定义,保证数据资产的有效管理具有重要意义,具有很好的推广应用价值。结合附图1至附图4对本发明的技术方案的实施例进行具体说明:本发明提供了一种在大数据治理中基于元数据打通数据标准与数据质量的方法,本发明的具体实施步骤请参考附图1,附图3是本实施例中使用的数据资产平台功能架构:步骤1、元数据采集:具体实施中,我们可以通过元数据采集模块完成这步操作,首先,采集各业务系统数据源,将业务库中的表名、字段名、视图、关系、主键、外键等采集到元数据系统中,作为数据库类型的元数据保存,其次,采集企业中库与库之间做数据交换的etl过程,作为etl类型的元数据保存,比如:powercenter、存储过程、kettle、datastage、sqlserverintegrationservices、sqlserveranalysisservices、perl脚本等,最后,将etl过程中的来源库与目标库挂载到对应的数据库元数据中,形成元数据的血缘地图。步骤2、导入企业数据标准:具体实施中,将企业或咨询公司梳理的数据标准成果根据元数据采集模版整理成excel格式,通过元数据excel采集器,将数据标准采集到元数据库中,作为一种独立的元数据进行管理。下表展示了在实施过程中某企业定义的数据标准模版:步骤3、元数据关联数据标准:具体实施中,在元数据管理界面提供对数据标准的关联功能,根据元数据名称、所属系统和数据标准中的标准分类、权威系统等属性,系统自动推荐该元数据对应可能性最大的数据标准,同时也提供查找其他数据标准的方式进行关联,已关联完成的元数据展现方式有一定变化,用来区分尚未做关联的元数据,以所有元数据都已关联数据标准为结束。步骤4、根据数据标准制定质量标准:具体实施中,一条数据标准可以从对数据的完整性、一致性、唯一性、规范性、及时性和准确性要求中衍生出多条质量标准,将质量标准作为数据标准的从表保存。编制完成后,再通过元数据解析,将质量标准采集到元数据库中,作为一种独立的元数据进行管理。下表为在实施过程中某企业制定的数据质量标准:步骤5、根据质量标准编写质量规则:具体实施中,在数据质量管理模块根据质量标准的要求,编写质量规则,质量规则应至少包括检测范围、检测属性、检测规则三块内容,例如,人员信息的完整性质量标准是员工编码、员工id、所在部门不能为空值,检测范围中配置具体的数据库用户名、表名、字段名,检测属性中添加空值检查规则,检测规则中配置值为空作为问题数据处理,以下为质量规则执行时运行的部分sql语句:(1)空值检核总数sql:selectcount(*)ascountfromtest.emp_tablewhere1=1;(2)空值检核问题数sql:selectcount(*)ascountfromtest.emp_tablewhere1=1and(test.emp_table.empcodeisnullortest.emp_table.empnameisnullortest.emp_table.orgidisnull);步骤6、根据质量规则检核元数据:具体实施中,将质量规则添加到执行任务中,设置执行周期,如每晚22:00执行该任务,执行后系统会记录本次规则的执行结果,如问题数,总数,执行时间等,并且收集在执行过程中产生的问题数据,问题数据包括字段名称、字段描述、数据值、数据类型、所属表名,根据数据的字段名和所属表名可以查出对应的元数据,从而获取到元数据对应的数据标准,将这些信息整理后形成数据质量报告,该报告可递交给业务系统负责人或数据治理小组。下表为在实施中某企业的数据质量报告:经上述六个步骤,通过元数据、数据标准、数据质量三者的关联,打破了企业在数据治理中业务需求与技术需求上的壁垒,通过数据标准制定数据质量,数据质量检核元数据,达到了对数据质量管控师出有名的目的,同时,在发现企业问题数据时能提供出该问题对应的业务依据,另外,还可以根据数据标准要求给出整改意见,真正做到了以业务为目标,以技术为手段,实现了在企业大数据治理中的完整闭环,对企业提高数据质量、规范数据定义,保证数据资产的有效管理具有重要意义,具有很好的推广应用价值。采用了本发明的大数据治理中基于元数据实现数据标准与数据质量关联处理的方法,由于通过元数据、数据标准、数据质量三者的关联,打破了企业在数据治理中业务需求与技术需求上的壁垒,通过数据标准制定数据质量,数据质量检核元数据,达到了对数据质量管控师出有名的目的,同时,在发现企业问题数据时能提供出该问题对应的业务依据,另外,还可以根据数据标准要求给出整改意见,真正做到了以业务为目标,以技术为手段,实现了在企业大数据治理中的完整闭环,对企业提高数据质量、规范数据定义,保证数据资产的有效管理具有重要意义,具有很好的推广应用价值。在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1