1.本技术涉及数据管理技术领域,尤其涉及一种数据的血缘关系建立方法、装置及电子设备、存储介质。
背景技术:2.在办公系统中,通常用户会对原始数据进行多个步骤的各种加工,最后产生出新的数据,在整个数据加工过程中会产生多个数据表,多个数据表之间的链路关系可称之为数据血缘。高质量、高完整的数据血缘是保障数据质量的关键,也是保障数据能够被追溯、被分析的基础条件。
3.现有技术中,针对数据血缘构建主要以解析数据处理脚本代码,解析数据库每个数据的操作语句,得到每个数据库操作语句访问的数据表来源表,将每个数据库操作语句的语句标识与访问的数据库目的表的表名的对应关系存储在对应关系表中,在关系表中存储数据中各个业务表之间的相互关系,关系包括目标表对应的脚本、目标表对应的来源表关系,基于此关系表再构建出各个业务表之间的血缘关系。由于通常用于数据处理的脚本代码包括sql、tcl、python、perl等,每一类脚本语法都不一样,同时每个编程人员的代码编写风格也有较大差异,造成脚本代码解析不准确,同时,无法及时更新数据之间的血缘依赖关系,并且上述的流程复杂,效率低、成本高。
技术实现要素:4.第一方面,本技术实施例提供了一种数据的血缘关系建立方法,所述方法包括:
5.接收用户终端发送的关系建立请求;
6.在数据处理流程中的每一个处理节点,记录数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名;
7.将每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名添加至元数据池中;
8.在元数据池中根据每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名,建立多个数据之间的血缘关系链。
9.第二方面,本技术实施例还提供了一种数据的血缘关系建立装置,所述装置包括:
10.信息接收单元,被配置成接收用户终端发送的关系建立请求;
11.信息记录单元,被配置成在数据处理流程中的每一个处理节点,记录数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名;
12.信息添加单元,被配置成将每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名添加至元数据池中;
13.关系建立单元,被配置成在元数据池中根据每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名,建立多个数据之间的血缘关系链。
14.第三方面,本技术实施例还提供了一种电子设备,包括:
15.处理器;
16.用于存储所述处理器可执行指令的存储器;
17.其中,所述处理器被配置为执行所述指令,以实现本技术实施例第一方面上述的数据的血缘关系建立方法。
18.第四方面,本技术实施例还提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述的数据的血缘关系建立方法。
19.本技术实施例采用的上述至少一个技术方案能够达到以下有益效果:通过接收用户终端发送的关系建立请求;在数据处理流程中的每一个处理节点,记录数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名;将每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名添加至元数据池中;在元数据池中根据每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名,建立多个数据之间的血缘关系链,无需对解析脚本代码即可精确地建立多个数据之间的血缘关系链上述的流程简单,效率高、成本低。
附图说明
20.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
21.图1为本技术一种实施例提供的数据的血缘关系建立方法的流程图;
22.图2为本技术一种实施例提供的电子设备与用户终端的交互示意图;
23.图3为本技术一种实施例提供的数据的血缘关系建立方法的流程图;
24.图4为本技术一种实施例提供的数据的血缘关系建立装置的功能模块框图;
25.图5为本技术一种实施例提供的数据的血缘关系建立装置的功能模块框图;
26.图6为本技术一种实施例提供的电子设备的电路连接框图。
具体实施方式
27.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.以下结合附图,详细说明本技术各实施例提供的技术方案。
29.请参阅图1,本技术实施例提供了一种数据的血缘关系建立方法,应用于电子设备100。如图2所示,电子设备100可以为服务器,服务器与用户终端200通信连接,以便进行数据交互。所述方法包括:
30.s11:接收用户终端200发送的关系建立请求。
31.在用户终端200安装有应用程序,用户可以在应用程序的交互界面点击“关系建立”按钮,即可发送关系建立请求至电子设备100。其中,用户终端200可以为但不限于智能手机或者工业电脑。
32.s12:在数据处理流程中的每一个处理节点,记录数据来源表的表名、当前处理节
点的表名以及每个数据的父本数据名。
33.通常地,数据处理的流程包括:数据采集、数据装载、数据轻度汇总、数据业务汇总、数据分发等流程。数据来源表表征当前处理的数据是从哪个表获取的,当前处理节点的表名表征数据在处理后会被记录的表名。其中,表名可以为例如,表1、表2、表3等等。数据的父本数据名表征当前的数据有哪个数据生成。其中,数据可以为但不限于话单数据、网络规划数据、流量数据等等。
34.s13:将每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名添加至元数据池中。
35.数据名可以为但不限于数据a、数据b、数据c、数据d等等。
36.s14:在元数据池中根据每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名,建立多个数据之间的血缘关系链。
37.其中,血缘关系链可以为:例如,血缘关系链1:表1的数据a1由表2的数据a2生成,表2的数据a2由表3的数据a3生成,表3的数据a3由表4的数据a4生成。再例如,血缘关系链2:表1的数据a1由表2的数据a2、a3生成,表2的数据a2、a3由表3的数据a4、a5生成,表3的数据a3、a5由表4的数据a6、a7生成。
38.该数据的血缘关系建立方法,通过接收用户终端200发送的关系建立请求;在数据处理流程中的每一个处理节点,记录数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名;将每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名添加至元数据池中;在元数据池中根据每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名,建立多个数据之间的血缘关系链,无需对解析脚本代码即可精确地建立多个数据之间的血缘关系链上述的流程简单,效率高、成本低。
39.可选地,s12包括:在数据处理流程中的每一个处理节点,以sql语句的形式记录数据处理过程,从sql语句中解析出数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名进行记录。
40.在元数据填写中,需要填写数据处理逻辑的sql语句。在填写完成后,根据sql的语法解析出该处理逻辑的数据来源表,并将表名自动填充至数据来源表要素信息栏。sql解析规则简单清晰,获取sql语句中from和schema即可解析出来源表。
41.可选地,如图3所示,所述方法还包括:
42.s31:接收用户终端200发送的关系查询请求,其中,所述关系查询请求携带有表名与数据名。
43.s32:从多个血缘关系链中提取出包括关系查询请求携带的表名与数据名的目标血缘关系链。
44.s33:将提取出的目标血缘关系链反馈至所述用户终端200。
45.用户可以在用户终端200安装的应用程序的交互界面即可查阅到需要查询的数据名所在的目标血缘关系链。
46.请参阅图4,本技术实施例还提供了一种数据的血缘关系建立装置400,应用于电子设备100。如图2所示,电子设备100可以为服务器,服务器与用户终端200通信连接,以便进行数据交互。需要说明的是,本技术实施例所提供的数据的血缘关系建立装置400,其基
本原理及产生的技术效果和上述实施例相同,为简要描述,本技术实施例部分未提及之处,可参考上述的实施例中相应内容。所述装置400包括信息接收单元401、信息记录单元402、信息添加单元403以及关系建立单元404,其中,
47.信息接收单元401,被配置成接收用户终端200发送的关系建立请求。
48.信息记录单元402,被配置成在数据处理流程中的每一个处理节点,记录数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名。
49.其中,数据处理流程包括但不限于:数据采集、数据装载、数据轻度汇总、数据业务汇总、数据分发。
50.信息添加单元403,被配置成将每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名添加至元数据池中。
51.关系建立单元504,被配置成在元数据池中根据每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名,建立多个数据之间的血缘关系链。
52.该数据的血缘关系建立装置400在执行时可实现如下功能:通过接收用户终端200发送的关系建立请求;在数据处理流程中的每一个处理节点,记录数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名;将每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名添加至元数据池中;在元数据池中根据每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名,建立多个数据之间的血缘关系链,无需对解析脚本代码即可精确地建立多个数据之间的血缘关系链上述的流程简单,效率高、成本低。
53.可选地,信息记录单元402被具体配置成在数据处理流程中的每一个处理节点,以sql语句的形式记录数据处理过程,从sql语句中解析出数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名进行记录。
54.可选地,信息接收单元401还被配置成接收用户终端200发送的关系查询请求,其中,所述关系查询请求携带有表名与数据名;
55.请参阅图5,所述装置400还包括:信息查询单元501,被配置成从多个血缘关系链中提取出包括关系查询请求携带的表名与数据名的目标血缘关系链;
56.信息发送单元404,被配置成将提取出的目标血缘关系链反馈至所述用户终端200。
57.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
58.图6是本技术的一个实施例电子设备的结构示意图。请参考图6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
59.处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industry standardarchitecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standardarchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
60.存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
61.处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据的血缘关系建立装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
62.接收用户终端发送的关系建立请求;
63.在数据处理流程中的每一个处理节点,记录数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名;
64.将每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名添加至元数据池中;
65.在元数据池中根据每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名,建立多个数据之间的血缘关系链。
66.上述如本技术图1所示实施例揭示的数据的血缘关系建立装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
67.该电子设备还可执行图1的方法,并实现数据的血缘关系建立装置在图1所示实施例的功能,本技术实施例在此不再赘述。
68.当然,除了软件实现方式之外,本技术的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
69.本技术实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子
设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
70.接收用户终端发送的关系建立请求;
71.在数据处理流程中的每一个处理节点,记录数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名;
72.将每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名添加至元数据池中;
73.在元数据池中根据每一个处理节点处理的数据名、数据来源表的表名、当前处理节点的表名以及每个数据的父本数据名,建立多个数据之间的血缘关系链。
74.总之,以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
75.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
76.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
77.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
78.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。