本发明涉及计算机,尤其涉及一种数据治理平台和面向数据治理的数据确权方法。
背景技术:
1、所谓数据确权,就是确定数据的权利属性,最关键的是确定权利主体。确定权利主体是数据资产的交易、定价、保护、共享的重要条件。数据资产的数据确权是数据治理面临的一个重要问题。
2、目前现有的数据确权,是由数据管理人员根据经验判断数据资产的权利主体,在系统中给每个数据资产标记出权利主体。缺点:(1)每次新增数据资产都需要手工进行数据资产的确权操作;(2)数据资产的确权,凭经验,缺少依据;(3)一般数据资产的确权粒度是到表,没有到字段,粒度比较粗。
技术实现思路
1、为了解决上述现有技术中存在的技术问题,本发明提供了一种数据治理平台和一种面向数据治理的数据确权方法,能够在数据治理场景下在生成数据资产时自动进行数据确权的技术方案。
2、为实现上述目的,本发明实施例提供了如下的技术方案:
3、第一方面,在本发明提供的一个实施例中,提供了一种数据治理平台,该平台包括:至少一个以上的数据治理单元;所述数据治理单元用于读取数据源中的数据,按照预设的数据治理规则对数据进行标准化处理;
4、所述数据治理单元包括sql解析模块和列变换模块。
5、所述sql解析模块用于对sql语句进行解析,获取查询结果集的字段名称和数据来源表名称。
6、所述列变换模块用于将查询结果集的字段名称的映射到目标表中,以实现数据确权。
7、作为本发明的进一步方案,所述数据治理单元的输入是一张或多张数据来源表,经过sql解析模块和列变换模块,将处理结果输出到一张目标表,以实现按照预设的数据治理规则对数据进行标准化处理。
8、第二方面,在本发明提供的又一个实施例中,提供了面向数据治理的数据确权方法,该方法包括:
9、s10、接收数据治理单元变更的信号;其中,所述数据治理单元变更,包括新增数据治理单元、数据治理单元sql变更和数据治理单元列变换变更;则依次对数据治理平台中数据治理单元的进行处理,获得并保存第一列变换特征矩阵x、第一数组b1和第二列变换特征矩阵y;
10、s20、根据第一列变换特征矩阵x、第一数组b1和第二列变换特征矩阵y,获得第一目标表数据溯源信息数组d1,所述第一目标表数据溯源信息数组d1用于实现第一数据确权;
11、s30、接收数据来源表的权利主体变更的信号,则依次对数据治理平台中数据治理单元的进行处理,获得第二数组b2;
12、s40、根据第一列变换特征矩阵x、第二数组b2和第二列变换特征矩阵y,获得第二目标表数据溯源信息数组d2,所述第二目标表数据溯源信息数组d2用于实现第二数据确权。
13、作为本发明的进一步方案,所述步骤s10、,包括:
14、s101、接收数据治理单元变更的信号。
15、s102、清空用于储存目标表的第一队列和用于储存数据治理单元的id的第二队列,且广度优先遍历数据治理单元。
16、s103、解析发生变更的数据治理单元的sql语句,获得数据治理单元的数据来源表和目标表。
17、s104、判断所述目标表在第一队列中是否存在,若是,则存在有向环不符合数据治理业务规则,异常退出;若否,则将数据来源表保存到第一队列中。
18、s105、将所述发生变更的数据治理单元的id插入第二队列,以实现数据治理单元的排序。
19、s106、基于第二队列中的数据治理单元的id,依次对数据治理单元的进行处理,获得并保存第一列变换特征矩阵x、第一数组b1和第二列变换特征矩阵y。
20、作为本发明的进一步方案,所述步骤s106,包括:
21、s1061、数据治理单元中的sql解析模块对sql语句进行解析获得并保存第一列变换特征矩阵x和第一数组b1;
22、s1062、列变换模块基于所述目标表获取第二列变换特征矩阵y。
23、作为本发明的进一步方案,s106、基于第二队列中的数据治理单元的id,依次对数据治理单元的进行处理,获得并保存第一列变换特征矩阵x、第一数组b1、第一数据溯源信息数组c1和第二列变换特征矩阵y,包括:
24、s1061、数据治理单元中的sql解析模块对sql语句进行解析获得并保存第一列变换特征矩阵x和第一数组b1;
25、s1062、列变换模块基于所述目标表获取第二列变换特征矩阵y。
26、6.作为本发明的进一步方案,所述第一数组b1通过如下方式获得:
27、sql解析模块处理sql语句,根据sql语法树中的表顺序t1、t2...tn,构建第一数组b1=[a1,a2,...,an],b1有k1个元素;其中,数据来源表ti的数据溯源信息数组ai由元素e构成。
28、作为本发明的进一步方案,s20、根据第一列变换特征矩阵x、第一数组b1和第二列变换特征矩阵y,获得第一目标表数据溯源信息数组d1,包括;
29、s201、基于所述第一列变换特征矩阵x和第一数组b1,按照c1=b1x进行矩阵计算得到第一数据溯源信息数组c1;
30、s202、基于所述第一数据溯源信息数组c1和第二列变换特征矩阵y,按照d1=c1y进行矩阵计算后得到第一目标表数据溯源信息数组d1,完成权利主体信息计算,返回至s102遍历发生变更的数据治理单元。
31、作为本发明的进一步方案,s30接收数据来源表的权利主体变更的信号,则依次对数据治理平台中数据治理单元的进行处理,获得第二数组b2,包括:
32、s301、接收数据来源表的权利主体变更的信号;
33、s302、遍历第二队列中的数据治理单元的id,直到遍历结束;
34、s303、基于第二队列中的数据治理单元的id,依次对数据治理单元的sql语句进行解析,获得第二数组b2。
35、作为本发明的进一步方案,s40、根据第一列变换特征矩阵x、第二数组b2和第二列变换特征矩阵y,获得第二目标表数据溯源信息数组d2,包括:
36、s401、基于所述第一列变换特征矩阵x和第二数组b2,按照c2=b2x进行矩阵计算得到第二数据溯源信息数组c2;
37、s402、基于所述第二数据溯源信息数组c2和第二列变换特征矩阵y,按照d2=c2y进行矩阵计算后得到第二目标表数据溯源信息数组d2,完成权利主体信息计算,返回至s302遍历数据治理单元。
38、本发明提供的技术方案,具有如下有益效果:
39、本发明提供的一种数据治理平台和一种面向数据治理的数据确权方法,本发明实现数据资产表字段级权利主体的自动计算;支持四种场景下数据资产权利主体的自动计算:(1)新增数据治理单元;(2)数据治理单元sql变更;(3)数据治理单元列变换变更;(4)数据来源表的权利主体变更;无需执行治理操作,即可实现权利主体的自动计算。
40、本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。