本发明涉及数据处理领域,具体涉及一种数据脱敏方法、系统、设备以及存储介质。
背景技术:
1、大数据集群在使用过程中一直存在数据安全风险,因此在用户访问时会对数据进行脱敏处理,现有技术是基于权限鉴定来控制用户访问,很难满足用户多样化的需求,尤其针对敏感数据,例如:电话号码,身份证号,家庭地址等敏感信息很难使用权限来限制用户访问使用。
2、针对以上问题,一般的处理方式是:读取hdfs(hadoop distributed filesystem,一种分布式文件系统)数据,根据脱敏规则进行多线程处理,写入存储库,当用户请求时从存储库返回给用户。该方式中的脱敏规则配置不灵活,不支持实时修改生效,一经修改则需要重新执行程序并重新生成数据,此外,该方式也需要额外的存储来保存脱敏后的数据,增加了存储成本。
3、因此,针对大数据集群,例如hdfs集群,现有数据脱敏处理,不仅不灵活,且效率低下,不能满足用户需求。
技术实现思路
1、有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种数据脱敏方法,包括以下步骤:
2、在集群的每一个数据节点上部署脱敏装置并在所述集群中部署脱敏管理器;
3、接收用户实时配置的脱敏策略并推送到所述脱敏管理器中;
4、响应于所述脱敏管理器接收到所述脱敏策略,将所述脱敏策略同步到每一个所述脱敏装置上;
5、响应于所述数据节点接收到数据访问请求,利用所述脱敏装置基于所述脱敏策略对所述数据访问请求对应的数据进行脱敏处理以使所述数据节点返回脱敏处理后的数据。
6、在一些实施例中,在所述集群中部署脱敏管理器,进一步包括:
7、根据所述集群的规模确定部署脱敏管理器的节点数量或者从所述集群中选择多个节点部署脱敏管理器;
8、将多个所述脱敏管理器中的一个所述脱敏管理器设置为活跃状态,并将其余所述脱敏管理器设置为休眠状态以利用活跃状态的所述脱敏管理器接收用户实时配置的脱敏策略以及向休眠状态的所述脱敏管理器同步所述脱敏策略。
9、在一些实施例中,将多个所述脱敏管理器中的一个所述脱敏管理器设置为活跃状态,并将其余所述脱敏管理器设置为休眠状态以利用活跃状态的所述脱敏管理器接收用户实时配置的脱敏策略以及向休眠状态的所述脱敏管理器同步所述脱敏策略,进一步包括:
10、响应于多个所述脱敏管理器第一次启动,将启动时间最早的所述脱敏管理器设置为活跃状态,其余所述脱敏管理器设置为休眠状态。
11、在一些实施例中,还包括:
12、响应于活跃状态的脱敏管理器故障,比较每一个处于休眠状态的所述脱敏管理器同步所述脱敏策略的时间并将具有最新同步时间的脱敏管理器设置为活跃状态;
13、响应于若干个休眠状态的所述脱敏管理器的同步时间最新且相同,比较所述若干个休眠状态的脱敏管理器对应节点的编号并将对应节点的编号最大的脱敏管理器设置为活跃状态。
14、在一些实施例中,接收用户实时配置的脱敏策略并推送到所述脱敏管理器中,进一步包括:
15、部署可视化页面,所述可视化页面中包括脱敏管理中心、用户管理中心、脱敏策略配置中心,其中所述脱敏管理中心用于提供所述集群的目录和文件信息,包括路径、所属用户和所属用户组;所述用户管理中心用于管理所述集群的用户信息;所述脱敏策略配置中心用于创建管理脱敏策略,包括路径、用户、用户组、脱敏匹配项和脱敏伪装选项,所述脱敏匹配项包括关键字和正则表达式。
16、在一些实施例中,响应于所述脱敏管理器接收到所述脱敏策略,将所述脱敏策略同步到每一个所述脱敏装置上,进一步包括:
17、在每一个所述脱敏装置部署定时任务以每隔预设时间段在所述脱敏管理器中主动获取所述脱敏策略。
18、在一些实施例中,响应于所述数据节点接收到数据访问请求,利用所述脱敏装置基于所述脱敏策略对所述数据访问请求对应的数据进行脱敏处理以使所述数据节点返回脱敏处理后的数据,进一步包括:
19、响应于所述脱敏装置中没有所述脱敏策略,主动去处于活跃状态的脱敏管理器中获取所述脱敏策略以进行二次判定。
20、基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种数据脱敏系统,包括:
21、部署模块,配置为在集群的每一个数据节点上部署脱敏装置并在所述集群中部署脱敏管理器;
22、脱敏策略配置中心,配置为接收用户实时配置的脱敏策略并推送到所述脱敏管理器中;
23、脱敏管理器模块,配置为响应于所述脱敏管理器接收到所述脱敏策略,将所述脱敏策略同步到每一个所述脱敏装置上;
24、脱敏装置模块,配置为响应于所述数据节点接收到数据访问请求,利用所述脱敏装置基于所述脱敏策略对所述数据访问请求对应的数据进行脱敏处理以使所述数据节点返回脱敏处理后的数据。
25、基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
26、至少一个处理器;以及
27、存储器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时执行如上所述的任一种数据脱敏方法的步骤。
28、基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种数据脱敏方法的步骤。
29、本发明具有以下有益技术效果之一:本发明提出的方案能够实时应用用户修改的脱敏策略,且采用在每一个数据节点上分布式部署脱敏装置,大大提高了对于数据脱敏的处理速度。
1.一种数据脱敏方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,在所述集群中部署脱敏管理器,进一步包括:
3.如权利要求2所述的方法,其特征在于,将多个所述脱敏管理器中的一个所述脱敏管理器设置为活跃状态,并将其余所述脱敏管理器设置为休眠状态以利用活跃状态的所述脱敏管理器接收用户实时配置的脱敏策略以及向休眠状态的所述脱敏管理器同步所述脱敏策略,进一步包括:
4.如权利要求3所述的方法,其特征在于,还包括:
5.如权利要求1所述的方法,其特征在于,接收用户实时配置的脱敏策略并推送到所述脱敏管理器中,进一步包括:
6.如权利要求1所述的方法,其特征在于,响应于所述脱敏管理器接收到所述脱敏策略,将所述脱敏策略同步到每一个所述脱敏装置上,进一步包括:
7.如权利要求1所述的方法,其特征在于,响应于所述数据节点接收到数据访问请求,利用所述脱敏装置基于所述脱敏策略对所述数据访问请求对应的数据进行脱敏处理以使所述数据节点返回脱敏处理后的数据,进一步包括:
8.一种数据脱敏系统,其特征在于,包括:
9.一种计算机设备,包括:
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。