星型数据治理存储方法、装置、终端设备及存储介质与流程

文档序号:24984967发布日期:2021-05-07 23:02阅读:147来源:国知局
星型数据治理存储方法、装置、终端设备及存储介质与流程

本发明涉及大数据存储技术领域,尤其涉及一种星型数据治理存储方法、装置、终端设备及存储介质。



背景技术:

随着计算机和网络技术的发展,特别是移动网络技术的飞速发展,大数据时代随之到来,各机构对各类数据的获取都非常重视,各类机构中的数据信息总量成几何级数增长,如何分析处理和存储这海量的数据信息、提高信息的利用效率成为各机构的当务之急,因此数据质量治理受到各类机构的高度重视。目前数据质量治理系统的存储方案多种多样,存储效率参差不齐,许多治理系统的存储结构极其混乱,灵活性差,业务扩张能力不强,只要进行修改,则需要大量修改表结构,开发周期长,维护成本较高,普遍存在着存储方法扩展性差、健壮性差、易用性差的问题。

因此,现有技术还有待改进和提高。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种星型数据质量治理方法、装置、及存储介质,旨在解决现有技术中用户在数据治理存储时,存储方法扩展性差、健壮性差、易用性差问题。

为了解决上述技术问题,本发明所采用的技术方案如下:

第一方面,本发明提供一种星型数据治理存储方法,用于通过数据治理系统对大数据进行数据质量的存储管理,其中,包括如下步骤:

预设维度表和事实表;

在所述维度表中设置业务内容及其对应的治理手段;

在所述事实表中设置业务事实及其对应的度量值;

获取业务事实后将其与所述维度表中的所述业务内容进行对应确认;

当所述业务事实达到所述事实表中对应的度量值时,调用相应业务内容对应的治理手段进行数据质量治理,并将治理手段中的数据进行存储。

作为一种改进,所述维度表包括业务线表、治理维度表和执行引擎表。所述事实表包括执行清单表、质量结果明细表、质量历史明细表。

作为一种改进的技术方案,所述维度表中设置业务内容及其对应的治理手段包括如下步骤:

在所述业务线表中记录需要进行数据治理的项目,将所述项目对应到不同业务线的一级分类和二级分类;

在所述治理维度表中记录对数据治理的维度,按照父维度和子维度展示;

在所述执行引擎表中记录所采用的计算执行引擎,以及计算执行引擎的基本信息。

作为一种改进的技术方案,所述在所述事实表中设置业务事实及其对应的度量值包括如下步骤:

在所述执行清单表记录治理指标的详细内容,所述数据治理系统根据所述执行清单表的记录详细内容执行,其包括:业务线中的治理项目、治理维度、治理执行引擎;

在所述质量结果明细表中记录治理指标计算出来的分值,并通过日期记录;

在所述质量历史明细表中记录治理指标的历史详细信息。

作为一种改进技术方案,所述维度表中的主键设置为所述事实表中的外键。

作为一种改进技术方案,所述方法还包括如下步骤:

所述数据治理系统在调用相应业务内容对应的治理手段进行数据质量治理后,还输出数据质量明细数据进行存储。

第二方面,本发明实施例还提供一种星型数据治理存储装置,其中,所述星型数据治理装置包括管理表预设模块、维度表设置模块、事实表设置模块、业务事实确认模块和数据治理存储模块;

所述管理表预设模块,用于预设维度表和事实表;

所述维度表设置模块,用于在所述维度表中设置业务内容及其对应的治理手段;

所述事实表设置模块,用于在所述事实表中设置业务事实及其对应的度量值;

所述业务事实确认模块,用于获取业务事实后将其与所述维度表中的所述业务内容进行对应确认;

所述数据治理存储模块,用于当所述业务事实达到所述事实表中对应的度量值时,调用相应业务内容对应的治理手段进行数据质量治理。

第三方面,本发明还提供一种星型数据治理存储终端设备,所述存储器、处理器及存储在所述存储器上并可在所述处理器上运行的终端设备的星型数据治理存储程序,所述处理器执行所述终端设备的星型数据治理存储程序时,实现方案中任一项的星型数据治理存储方法的步骤。

第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有星型数据治理存储程序,处理器执行星型数据治理存储程序时,实现上述方案中任一项的星型数据治理存储方法的步骤。

有益效果:与现有技术相比,本发明提供了一种星型数据治理存储方法,本发明通过采用星型数据表支撑数据治理系统的后端存储,维度表在业务线层面、治理维度层面、执行引擎层面不断进行扩张,记录维度信息,提供给事实表使用,达到高扩展性、高易用性,维度表扩张不影响事实表中的现有和历史结果,实现高健壮性。因此,本发明解决了现有技术中用户在数据质量治理存储时,存储方法扩展性差、健壮性差、易用性差问题。

附图说明

图1为本发明实施例提供的星型数据治理存储方法的具体实施方式的流程图。

图2为本发明实施例提供的星型数据治理存储方法中数据存储的数据流图。

图3是本发明实施例提供的星型数据治理存储装置的结构图。

图4是本发明实施例提供的星型数据治理存储装置中维度表结构图。

图5是本发明实施例提供的星型数据治理存储装置中事实表结构图。

图6是本发明实施例提供的终端设备的内部结构原理图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

在科技助力生活的今天,随着计算机技术和网络技术的飞速发展,特别是智能手机和移动互联网的发展,人们的生活从信息的获取到娱乐以及购物都高度依赖网络。为了更好地满足人们的需求,各种数据的收集和利用成为各机构和部门重要事务,大数据时代随之兴起。随着大数据时代的到来,各机构和部门的数据总量成几何级数增长。如何甄别、处理和存储这些数据,就成为了各机构和部门的大事,因此数据质量治理就受到各机构和部门的高度关注。然而目前数据质量治理系统的存储方案千差万别,水平参差不齐,灵活性差,业务扩张能力不强,一修改则需要大量修改表结构,开发周期较长,维护成本较高,导致各机构和部门目前的存储方法扩展性差、健壮性差、易用性差。

为了解决现有技术中的问题,本实施例提供了一种星型数据治理存储方法,通过本实施例的方法,可以解决目前的存储方法扩展性差、健壮性差、易用性差的问题。具体实施时,本实施例采用维度表和事实表两张表,其中维度表又包含业务线表、治理维度表、执行引擎表,事实表又包含执行清单表、质量结果明细表、质量历史明细表,数据治理存储在执行中,首先圈定业务数据、治理维度、执行引擎,之后对需要治理的业务数据进行配置在执行清单中,最后程序进行调度,输出数据质量明细数据,维度表中的主键为事实表中的外键,维度表扩张不影响事实表中的现有和历史结果。可见,本发明通过三张维度表(业务线表、治理维度表、执行引擎表)在业务线层面、治理维度层面、执行引擎层面不断进行扩张,并记录维度信息提供给事实表使用,达到高扩展性、高易用性,通过三张事实表(执行清单表、质量结果明细表、质量历史明细表)达到存储的高健壮性。

示例性方法

本实施例的星型数据治理存储方法可应用于终端设备中,具体如图1中所示,所述星型数据治理存储方法包括如下步骤:

步骤s100、预设维度表和事实表。

所述维度表包含了对于业务的文字描述内容。在维度表的设置上,为了使得维度表在数据存储上具有高扩展性,具体而言,该维度表的设置包括业务线表、治理维度表和执行引擎表,用于记录维度信息,并提供给事实表使用,事实表如何使用维度表的维度信息在后续描述。维度表可以在业务线层面、治理维度层面、执行引擎层面不断进行扩张,从而使得在大数据在存储过程中不会因为存储问题而受到限制。而事实表则包括执行清单表、质量结果明细表和质量历史明细表。

步骤s200,在所述维度表中设置业务内容及其对应的治理手段。

具体而言,所述维度表中设置业务内容及其对应的治理手段包括如下步骤:

在所述业务线表中记录需要进行数据治理的项目,将所述项目对应到不同业务线的一级分类和二级分类;

在所述治理维度表中记录对数据治理的维度,按照父维度和子维度展示;

在所述执行引擎表中记录所采用的计算执行引擎,以及计算执行引擎的基本信息。

其中,业务线表如下表1所示,所述业务线表具体记录各机构和部门需要数据治理的项目,所述项目需要对应到不同业务线的一级分类和二级分类,以便于在治理计算指标时使用,同时英文表名称和中文表名称是唯一的。

表1业务线表

从该业务线表可见,包括了自增id值、业务线、一级分类、二级分类、表中文、表英文、描述、创建人、新增时间和修改时间等字段,其中,自增id值是记录业务线上人员自行增加内容的序列值字段。

其中,治理维度表如下表2所示,所述治理维度表具体记录各机构和部门对数据治理的维度,但大多都是按照父维度和子维度展示,以便于以后扩张。

表2治理维度表

从该治理维度表可见,治理维度表包括自增id值、父维度和子维度三个字段,同理,自增id值是记录业务线上人员自行增加内容的序列值字段。所说的子维度是父维度的下属特性,比如,当父维度为“一致性”的维度特征时,子维度“格式有效”的维度特征则是“一致性”的下属特征。

其中,执行引擎表如下表3所示,所述执行引擎表具体记录各机构和部门所要采用的计算执行引擎,包括:clickhouse、hive、mysql等等,以及计算引擎的基本信息。

表3执行引擎表

从该执行引擎表可见,执行引擎表包括自增id值、引擎名称、数据库连接url、驱动、用户名、密码、库名、文件路径和执行类型等字段。同理,自增id值是记录业务线上人员自行增加内容的序列值字段。

步骤s300、在所述事实表中设置业务事实及其对应的度量值。

具体而言,建立事实表,该事实表的一行对应一个度量值,相当于某个业务事实在实际发生后,该业务事实的数据质量对应可量化的数值,通过该度量值来确定该业务事实是否需要进行数据治理。事实表包括执行清单表、质量结果明细表和质量历史明细表。维度表在业务线层面、治理维度层面、执行引擎层面不断进行扩张时,不影响事实表的现有和历史结果,因为维度表中的主键为事实表中的外键,对事实表的扩展不会造成影响。

其中,执行清单表如下表4所示,执行清单表记录各机构和部门治理指标的详细细节,数据治理系统根据执行清单表的记录进行执行。包括:业务线中治理的内容有哪些,需要什么维度,需要什么执行引擎,或者需要什么sql语句或者脚本进行计算。

表4执行清单表

从该执行清单表可见,执行清单表包括自增id、业务线id、检测维度、执行语句、字段名称、治理维度id、任务描述、执行引擎id、任务执行状态、创建人、新增时间和修改时间等字段,同理,自增id值是记录业务线上人员自行增加内容的序列值字段。执行清单记录了业务事实达到一定度量值后,其所需要进行数据治理任务的执行过程记录。

下表5所示的质量结果明细表记录了各机构和部门治理指标计算出来的分值及相应日期记录。其中,执行id对应着所述执行清单表中的自增id。

表5质量结果明细表

从该质量结构明细表可见,该质量结构明细表即记录对业务事实发生后的数据治理的执行任务的评分值内容。

治理历史明细表则如下表6所示,所述治理历史明细表具体记录了各机构和部门治理指标的所有详细信息,便于展示以及可追溯上游配置。其中,执行id对应着所述执行清单表中的自增id。

表6治理历史明细表

治理历史明细表是记录业务事实进行数据治理后的全过程历史数据记录表,通过记录治理的历史记录,可以对全部治理的过程进行历史追溯。

步骤s400、获取业务事实后将其与所述维度表中的所述业务内容进行对应确认。

通过上述建立的维度表和事实表后,当企业大数据在运行过程中,发生对应事实表中的各种业务事实后,根据各种业务事实,数据治理系统对于需要治理的业务数据进行配置,将业务事实与维度表中的业务内容进行对应,以便后续确认。

步骤s500、当所述业务事实达到所述事实表中对应的度量值时,调用相应业务内容对应的治理手段进行数据质量治理,并将治理手段中的数据进行存储。

在步骤s400中,发生的业务事实与维度表中的业务内容对应确认后,对照事实表中该业务事实是否达到对应度量值,在其达到预先设定的度量值时,数据治理系统则调用事实表中相应的治理手段,即通过执行清单对应执行引擎进行数据质量治理。

另外,作为一种改进的实施方式,所述数据治理系统在调用相应业务内容对应的治理手段进行数据质量治理后,还输出数据质量明细数据进行存储。

综上,本实施例提供的星型数据治理存储方法,本实施例预先建立维度表和事实表两张表,在维度表中对应设置业务线表、治理维度表和执行引擎表;事实表对应设置执行清单表、质量结果明细表和质量历史明细表三张表。图2示出了本实施例提供的星型数据治理存储方法中数据流图,用于说明业务事实数据在各个表中的数据流向。在进行数据治理存储操作中,首先圈定业务数据、治理维度、执行引擎,之后对需要治理的业务数据进行配置在执行清单中,最后程序进行调度,输出数据质量明细数据,达到高扩展性、高健壮性和高易用性。

示例性装置

如图3中所示,本发明实施例提供一种星型数据治理存储装置,该星型数据治理存储装置包括管理表预设模块10、维度表设置模块20、事实表设置模块30、业务事实确认模块40和数据治理存储模块50。

所述管理表预设模块10,用于预设维度表和事实表两张管理表。

所述维度表设置模块20,用于在所述维度表中设置业务内容及其对应的治理手段。

所述事实表设置模块30,用于在所述事实表中设置业务事实及其对应的度量值。

所述业务事实确认模块40,用于获取业务事实后将其与所述维度表中的所述业务内容进行对应确认。

所述数据治理存储模块50,用于当所述业务事实达到所述事实表中对应的度量值时,调用相应业务内容对应的治理手段进行数据质量治理。

具体地,如图4所示,维度表设置模块20设置包括业务线表21、治理维度表22、执行引擎表23,分别用于在业务线层面、治理维度层面、执行引擎层面不断进行扩张。

具体地,如图5所示,事实表设置模块30设置包括执行清单表31、质量结果明细表32和质量历史明细表33,分别用于存储执行任务清单、执行任务结果、历史明细结果。

具体各个模块之间的工作过程参见上述星型数据治理存储方法中的步骤,其工作原理与上述星型数据治理存储方法工作原理相同,此处不赘述。

示例性终端设备

如图6所示,本发明实施例提供一种星型数据治理存储终端设备,在一个实施例中,提供了一种终端设备,终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的终端设备的计算机程序,该计算机程序为星型数据质量程序,处理器执行终端设备的计算机程序时,实现如下操作指令:

预设维度表和事实表;

在所述维度表中设置业务内容及其对应的治理手段;

在所述事实表中设置业务事实及其对应的度量值;

获取业务事实后将其与所述维度表中的所述业务内容进行对应确认;

当所述业务事实达到所述事实表中对应的度量值时,调用相应业务内容对应的治理手段进行数据质量治理,并将治理手段中的数据进行存储。

本实施例中,具体的操作指令实现方法与上述星型数据治理存储方法相同,此处不赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

综上,本发明公开了一种星型数据治理存储方法、装置、终端设备及存储介质,方法采用星型存储方法支撑数据治理系统的后端存储,通过建立维度表(包含业务线表、治理维度表和执行引擎表)和事实表(包含执行清单表、质量结果明细表和质量历史明细表),使用维度表记录维度信息、实现信息扩展,达到高扩展性、高易用性,使用事实表,其上存储的现有和历史结果不受维度表业务线层面、治理维度层面、执行引擎层面的扩张影响,实现高健壮性。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1