一种基于第三方平台数据规则的质量检核方法及装置与流程

文档序号:34723393发布日期:2023-07-07 18:51阅读:54来源:国知局
本发明属于数据质量检核,尤其涉及一种基于第三方平台数据规则的质量检核方法及装置。
背景技术
::1、数据质量检核,是在大数据背景下,针对用户所有的数据库、数据表、数据基于一定的规则,对数据的完整性、准确性、有效性、唯一性、及时性、业务合理性进行检核。目前很多系统的检核方案是用户在数据质量平台,创建检核规则模板,基于该规则模板,用户可以创建作业,对数据表的某个字段选择某个规则模板进行数据质量检核,然而,数据质量平台作业使用的规则只能是基于质量平台维护的规则,不能使用第三方规则。因此,现有的上述检核方案存在以下缺陷:用户可能在第三方平台已经维护了数据规则,但这些规则不能直接在质量平台上使用,必须重新创建规则模板。2、举例来说,用户在第三方平台(数据标准平台或第三方标签平台)基于国家标准、行业标准、地方标准、团体标准等各级标准维护了一套数据表字段的数据标准,下面以第三方平台为数据标准平台为例,说明现有方案下数据质量平台如何使用第三方规则。数据标准是指数据必须遵循的规则,例如身份证号的长度、身份证末尾数字、日期属期等必须遵循的标准及规则,然而,目前市面上的系统,由于数据标准维护平台和数据质量平台相互独立,数据无法共享,因此标准平台创建的标准无法在质量平台上用于数据检核,导致标准平台和质量平台针对数据的某些特征,需要建立两套相互独立数据体系。比如需要检核某个表中某个表示城市的字段的数据合理性,在标准平台建立了城市标准,在质量平台还需要编写一套城市数据规则模板,造成工作冗余、效率低下,同时浪费了大量的人工成本。技术实现思路1、为了克服现有数据质量检核方法存在的上述缺陷,本发明提出了一种新的基于第三方平台数据规则的质量检核方法。2、术语解释3、数据标准:数据标准(data standards)是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。数据标准也会以文件的形式存在,在除了国标、行标定义的标准外,企业内部为了便于各部门采取同样的数据建设规范,通常会使用文件来定义数据标准,以供各部门达成统一的共识。4、检核规则:用于检核数据准确性、完整性、一致性、有效性、唯一性、行业合理性建立的数据检核规则。5、达梦:达梦数据库管理系统是达梦公司推出的具有完全自主知识产权的高性能国产数据库管理系统,简称dm。6、hadoop:hadoop是apache旗下的一个用java语言实现的开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。7、flink:flink是一个框架和分布式处理引擎,用于对无限制和有限制的数据流进行有状态的计算。flink可在所有常见的集群环境中运行,以内存速度和任何规模执行计算。8、greenplum:greenplum是一个面向数据仓库应用的关系型数据库,它基于流行的postgresql开发而成。9、本发明提供的基于第三方平台数据规则的质量检核方法和装置,实现了其他平台(数据标准平台、标签平台等)维护的规则用于数据质量检核,以数据标准平台为例,通过本方法可使数据标准平台维护的各类数据标准(国家标准、行业标准、地方标准等)直接在数据质量平台使用,数据质量平台可选择某个标准,作用于数据表、字段并使其自动生成检核规则对数据表进行检核。用户仅需在数据标准平台维护所需要的标准,便可以实现在数据质量平台动态使用该数据标准,降低了在质量平台维护大量基于各种数据标准的检核规则和模板的工作量,实现了数据质量平台和数据标准平台之间的数据规则共享。10、本方案的整体构思及实施策略如下:11、首先,数据质量平台给数据标准平台提供一个通用的标准模板,该通用标准模板使用动态的数据表、(数据)字段以及标准的规则条件。其次,在创建质量检核作业时,通过调用数据标准平台的对应接口,用户可以通过界面选择字段使用的检核标准(即检核规则)。最后,在生成检核作业时,再通过替换标准的具体规则,动态生成检核sql。12、具体地,为了实现质量平台与标准平台数据规则共享,本发明提供了一种基于第三方平台数据规则的质量检核方法,本方法包括:13、s1.数据质量平台创建通用标准模板;14、s2.动态配置通用标准模板和第三方平台数据接口地址url间的对应关系;15、s3.数据质量平台创建检核作业,配置数据表、字段检核规则;16、s4.根据上步配置的检核规则智能生成数据表检核sql,向数据引擎提交检核sql并执行作业。17、详细实现方案如下:18、s1.数据质量平台创建通用标准模板(或称标准通用模板);19、首先进行数据质量模板管理,创建一个通用标准模板,命名为标准代码对照。以适用hive数据源类型的模板为例,通用模板的检核sql如下:20、select nvl(b-a,0),nvl(a,0),nvl(b,0),nvl((b-a)/b,0)from((select count(1)as afrom${table}where${col}${bm_condition})a,(select count(1)as bfrom${table})b)21、该模板的意思为,查询数据表${table}某个字段${col}基于某个标准条件${bm_condition}的异常数据量、正常数据量、总数据量、异常数据占比。22、名词解释如下:23、24、25、进一步地,根据本发明的一些实施例,本发明基于第三方平台数据规则的质量检核方法步骤s1中所述的通用标准模板使用动态的数据表、字段以及标准的规则条件。26、s2.动态配置通用标准模板和第三方平台数据接口地址url(查询标准代码接口地址)间的对应关系;27、通过通用标准模板接口的配置功能,动态配置通用标准模板对应的查询标准代码接口地址url。28、第三方平台包括数据标准平台和标签平台,第三方平台提供的数据接口遵守下述规则:29、首先由数据质量平台提供一个通用的接口数据接入规范,然后第三方平台基于该接口数据接入规范给数据质量平台提供接口。通用的接口数据接入规范中定义了通用的入参和通用的返回参数:30、通用的入参包括id、名称、分页参数;31、通用的返回参数包括id、规则名称、规则条件类型、具体条件的对象(包括名称和值2个属性)。32、其中,规则条件类型包括下述5种条件类型:33、数值类型:指标准维护的数据必须是某个数据区间,例如年龄范围标准;34、枚举类型:直接返回枚举值集合,例如性别直接返回男、女;35、时间类型:返回一个时间区间值;36、代码名称类型:返回对象包括名称和值2个属性,例如省市区标准,包括名称、区域代码2个属性,2个属性都要检验;37、简单sql类型:返回一个简单sql,需要对该sql进行解析,解析出where后面的条件作为规则条件。38、s3.数据质量平台创建检核作业,配置数据表、字段检核规则(检核标准),包括:39、s31.数据质量平台创建检核作业;40、s32.配置数据表、字段检核规则,选择通用标准模板;41、s33.调用与该通用标准模板对应的第三方平台数据接口,查询获得相应的第三方平台数据检核规则;42、s34.保存检核作业。43、特别地,当数据质量平台配置数据表、字段检核规则时,如果识别到选择的通用标准模板维护了第三方平台上某个查询数据的接口地址,则动态调用模板对应的该标准接口,页面动态填充规则设置下拉框数据,用户选择第三方平台(标准平台)的具体标准(检核规则)。44、s4.根据上步配置的检核规则智能生成数据表检核sql,向数据引擎提交检核sql并执行作业。45、把通用标准模板的占位符替换成实际的数据,把${table}替换成检核的数据表,${col}替换成检核的字段名,${bm_condition}替换成基于标准生成的真实的检核条件。46、其中,${bm_condition}的替换逻辑如下:47、通过用户选择的标准id,查询标准平台维护的具体标准条件,然后对该具体标准条件进行解析。下表中针对5种具体的条件类型,数值类型、枚举类型、时间类型、代码名称类型、简单sql类型进行了举例。48、49、50、注:数值类型,支持返回"(a,b]"、"(a,b)"、"[a,b]"、"[a,b)",符号具体解析如下:51、①(解析成>;52、②[解析成>=;53、③)解析成<;54、④]解析成<=。55、最后,将所有检核规则智能生成数据表检核sql,将检核sql提交给flink、hadoop、达梦、greenplum等数据引擎执行作业。56、第二方面,本发明还提供了一种基于第三方平台数据规则的质量检核装置,本装置包括:57、模板创建模块:用于创建通用标准模板;58、关系配置模块:用于动态配置通用标准模板和第三方平台数据接口地址url间的对应关系;59、作业创建模块:用于创建检核作业;60、规则配置模块:用于配置数据表、字段检核规则;61、检核sql生成模块:用于根据检核规则智能生成数据表检核sql;62、作业执行模块:用于向数据引擎提交检核sql并执行作业;63、各模块按照上述数据质量检核方法实施运行。64、最后,本发明还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现上述的基于第三方平台数据规则的质量检核方法的步骤。65、综上,本发明基于第三方平台数据规则的质量检核方法提供了第三方平台维护的数据规则(标准)直接在数据质量平台上动态扩展使用的方案,大大提高了数据质量平台和第三方平台进行数据规则共享的能力。通过本方法用户仅需在数据标准平台维护所需要的标准,便可实现在数据质量平台动态使用该数据标准,降低了在质量平台维护大量检核规则和模板的工作量,在显著提高检核效率的同时,节约了大量的人力成本。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1