一种大数据平台数据安全保护方法与流程

文档序号:35059987发布日期:2023-08-06 21:34阅读:84来源:国知局
一种大数据平台数据安全保护方法与流程

本发明涉及计算机,尤其涉及一种大数据平台数据安全保护方法。


背景技术:

1、数据库,简而言之可视为电子化的文件柜。在现有技术领域,元数据是在数据库管理过程中生成的一类非常重要的数据。元数据又称中介数据、中继数据,其为描述数据的数据,或者说是用于提供某种资源的有关信息的结构数据。元数据主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。从数据结构上说,元数据算是一种电子式目录,为了达到编制目录的目的,必须描述并收藏数据的内容或特色,进而达成协助数据检索的目的。

2、大数据平台中数据仓库通常是分层管理,不同数据层都存放敏感数据。在数据采集、数据开发和数据治理过程中各数据层产生大量新数据表。这些数据表包含敏感数据,目前对于敏感数据的保护已有不少相关的方法。中国专利申请号为201511026582.1公开了一种大数据平台的数据流通与交易的敏感数据保护系统及方法,从数据流通的整个环节实现了敏感数据的保护,同时提出了基于专家系统和自然语言处理的敏感数据自动发现方法,能够有效的验证脱敏结果正确性和真实性。但现有技术中对数据的安全保护所依赖的人工参与量很大,且效率并不高。


技术实现思路

1、有鉴于此,本发明提出了一种大数据平台数据安全保护方法,通过将数据血缘关系结合数据表形成关系图,利用关系图的优越性能对敏感数据进行批量的标记和安全保护,极大的提高了识别数据的效率,且降低了错漏的情况。

2、本发明的技术方案是这样实现的:本发明提供了一种大数据平台数据安全保护方法,包括:

3、s1 获取大数据平台中所有的数据表,将所有的数据表按照类别存放于数据仓库中,数据仓库包括多个数据层,一个数据层中的数据表具有相同的类别;

4、s2 根据数据治理平台的etl调度作业依赖关系自动捕获各数据表之间的数据血缘关系,将数据表和数据血缘关系形成关系图,保存至元数据数据库;

5、s3 根据不同的业务需求采取安全保护措施,将业务需求与对应的安全保护措施形成多个数据安全保护策略,并保存至数据安全管理平台;

6、s4 用户输入当前数据和当前业务需求,根据当前业务需求查询当前数据的安全保护措施,基于该安全保护措施对当前数据执行安全保护。

7、在以上技术方案的基础上,优选的,步骤s2中,关系图的形成过程包括:

8、将数据表中的表头执行sql语句解析,得到表头的语法树,根据语法树确定表头的语义信息,将其作为表头的表名信息;

9、将数据表中表格的每个字段执行sql语句解析,得到每个字段的语法树,根据语法树确定每个字段的语义信息,将其作为字段的字段信息;

10、将每个字段信息与对应的表名信息进行链接,得到表字段,将其作为关系图的节点;

11、将数据表之间的数据血缘关系存储为关系图的边,其中,数据血缘关系为表字段与表字段之间的有向关系,每一个有向关系将对应的表字段分为上游表字段和下游表字段。

12、在以上技术方案的基础上,优选的,步骤s3包括:

13、对数据表中的数据按安全管理规范制定对应的数据安全等级,数据安全等级分为多个安全级别;

14、将业务需求分为数据访问和业务操作;

15、根据业务需求、数据所在的数据层、数据的数据安全等级确定所采取的安全保护措施;

16、将数据-业务需求-数据安全等级-数据层-安全保护措施按照一一对应的关系构成数据安全保护策略,并保存至数据安全管理平台。

17、更进一步优选的,步骤s3还包括:

18、采用识别方法对大数据平台中的数据安全保护策略及其对应的数据基于关系图进行识别,将识别的过程及结果与对应的数据安全保护策略进行链接后存储于数据安全管理平台。

19、更进一步优选的,识别方法包括:

20、步骤一、专家随机选取大数据平台中的数据作为目标数据,提取目标数据的目标表字段和数据安全等级,专家对目标数据进行敏感性判断,若目标数据为敏感数据,则专家给出相应的脱敏算法,标记目标数据的数据安全等级、目标数据的敏感性判断结果、脱敏算法,得到目标数据的标记结果;

21、步骤二、在关系图中将目标表字段对应的节点作为起始点,根据有向关系从起始点出发按照深度优先算法递归遍历关系图,搜索与起始点相关的下游表字段,将搜索到的结果保存至第一列表;

22、步骤三、在关系图中将目标表字段对应的节点作为起始点,根据有向关系从起始点出发按照深度优先算法递归遍历关系图,搜索与起始点相关的上游表字段,将搜索到的结果保存至第一列表;

23、步骤四、将第一列表中的表字段进行整理,得到目标数据的关联数据,专家对关联数据进行人工识别,标记出关联数据的数据安全等级、关联数据的敏感性判断结果、脱敏算法,得到关联数据的标记结果;

24、步骤五、重复步骤一至步骤四,直至大数据平台中的所有数据均标记完毕,将最终的目标数据和关联数据的标记结果存储至数据安全管理平台。

25、更进一步优选的,当前数据为访问数据,当前业务需求为数据访问,步骤s4包括:

26、用户执行数据访问操作,输入访问数据,访问数据为敏感数据;

27、从数据安全管理平台中调取访问数据的的脱敏算法;

28、对访问数据执行脱敏算法。

29、更进一步优选的,当前数据为业务数据,当前业务需求为业务操作,步骤s4包括:

30、用户执行业务操作,输入业务数据;

31、从数据安全管理平台中调取业务数据的数据安全等级;

32、从元数据数据库查询业务数据的数据层;

33、根据业务操作、业务数据的数据层、业务数据的数据安全等级,从数据安全管理平台中查询业务数据的安全保护措施;

34、对业务数据执行安全保护措施。

35、更进一步优选的,所述方法还包括:

36、当大数据平台检测到关系图进行了更新后,自动对数据安全管理平台中的数据安全保护策略进行识别,并将结果更新保存至数据安全管理平台。

37、更进一步优选的,所述自动对数据安全管理平台中的数据安全保护策略进行识别,包括:

38、第一步、遍历搜索更新后的关系图中更新的数据血缘关系,并与原关系图做对比,得到与更新的数据血缘关系之间具有直接或间接链接关系的多个目标数据表,将多个目标数据表保存到第二列表;

39、第二步、遍历第二列表中的每个目标数据表,在更新后的关系图中根据图谱查询方式得到每个目标数据表的所有表字段,作为第一表字段集合,并保存至第三列表;

40、第三步、遍历第三列表,根据更新的数据血缘关系确定第一表字段之间的有向关系,利用更新的数据血缘关系和第一表字段形成多条更新的路径,基于第一表字段之间的有向关系搜索位于每条更新的路径中最上游的表字段,将最上游的表字段作为第二表字段,并保存至第四列表;

41、第四步、遍历第四列表,依次在数据安全管理平台中查询第二表字段的数据安全等级和标记结果;

42、第五步、遍历第四列表,在更新后的关系图中递归搜索每个第二表字段的所有下游表字段,得到每个第二表字段的第三表字段集合,将第二表字段与对应的第三表字段集合、对应的数据安全等级和对应的标记结果保存至第五列表;

43、第六步、遍历第五列表,将第二表字段的数据安全等级和标记结果自动赋给相对应的第三表字段集合,直至第五列表中的所有表字段均含有数据安全等级和标记结果,将遍历后的第五列表保存至数据安全管理平台。

44、更进一步优选的,所述脱敏算法是对敏感信息进行隐藏的方法,包括掩码类脱敏算法、哈希类脱敏算法、截断类脱敏算法、对称加密类脱敏算法。

45、本发明的方法相对于现有技术具有以下有益效果:

46、(1)通过将数据表和数据血缘关系进行解析后形成关系图,对数据进行更深层次的管理和利用,极大的增加了数据的利用率;

47、(2)通过利用关系图的图谱性能,在人工识别敏感数据时,实现批量的标记和安全保护,提高了数据识别的效率,也增加了安全保护的性能;

48、(3)设置了一个自动更新验证机制,在关系图更新后,利用数据血缘关系对平台中的数据进行相关的安全保护检查,以保证敏感数据的安全性不被破坏。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1