具有关联关系的多字段数据的脱敏方法、系统、装置及计算机存储介质与流程

文档序号:30411143发布日期:2022-06-15 09:33阅读:120来源:国知局
具有关联关系的多字段数据的脱敏方法、系统、装置及计算机存储介质与流程

1.本技术涉及信息安全技术领域,具体涉及一种具有关联关系的多字段数据的脱敏方法、系统、装置及计算机存储介质。


背景技术:

2.随着大数据的快速发展,无刻都在不断产生着包含大量数据的原始数据集,同时原始数据集中可能含有一些隐私数据,如用户身份证信息、银行信息等,原始数据集在未经处理的情况下应用于业务分析、开发测试,甚至一些外包业务等场景中可能会导致隐私泄露。为了降低隐私泄露,需要针对原始数据集进行脱敏处理,从而得到脱敏数据集,以利用脱敏数据集来代替原始数据集中的真实数据,从而隐藏原始数据集中的隐私数据。
3.传统的脱敏方式主要针对单个字段进行脱敏处理,当多个字段存在一定的关联关系时,针对单个字段进行脱敏会破坏关联字段的关联关系,导致脱敏后数据关系破坏而影响业务系统的数据使用。


技术实现要素:

4.为了改善在关联关系的多个字段脱敏后数据关系遭破坏而影响业务系统的数据使用,本技术提供了一种具有关联关系的多字段数据的脱敏方法、系统、装置及计算机存储介质。
5.第一方面,本技术提供的具有关联关系的多字段数据的脱敏方法,其通过以下技术方案实现:具有关联关系的多字段数据的脱敏方法,包括:对具有关联关系的字段设置同一目标脱敏规则,同时具有关联关系的字段的目标脱敏规则根据字段间的关联关系设置脱敏规则的关联关系;基于所述目标脱敏规则及脱敏规则间的关联关系,分别生成各字段对应的脱敏后的目标脱敏数据;更新脱敏后的目标脱敏数据至目标文件或目标数据库。
6.在一些实施方式中,所述对具有关联关系的字段设置同一目标脱敏规则,同时具有关联关系的字段的目标脱敏规则根据字段间的关联关系设置脱敏规则的关联关系包括:预设敏感类型,及各敏感类型对应的脱敏规则;对待脱敏的文件进行解析,基于预设的敏感类型从待脱敏的文件中获取所述待脱敏的文件中的目标敏感数据;获取目标敏感数据中字段间的关联关系;基于所述敏感类型确定所述目标敏感数据中个字段对应的目标脱敏规则,其中,具有关联关系的若干字段设置为同一目标脱敏规则;根据字段间的关联关系设置具有关联关系的字段的目标脱敏规则的关联关系。
7.在一些实施方式中第,每种所述脱敏规则包括至少一个脱敏基数及与每个所述脱敏基数对应的脱敏转换规则。
8.在一些实施方式中,所述基于所述目标脱敏规则及脱敏规则间的关联关系,分别生成各字段对应的脱敏后的目标脱敏数据包括:响应于脱敏需求,确定所述目标脱敏规则所选中的脱敏基数;分别根据每种所述目标脱敏规则所选中的目标脱敏基数对应的目标脱敏转换规则及脱敏规则间的关联关系,对所述目标敏感数据进行脱敏操作。
9.在一些实施方式中,具有关联关系的若干字段中,包括条件字段和结果字段,所述基于所述目标脱敏规则及脱敏规则间的关联关系,分别生成各字段对应的脱敏后的目标脱敏数据包括:所述条件字段根据所述目标脱敏规则所选中的目标脱敏基数对应的目标脱敏转换规则进行脱敏操作,得到目标脱敏条件字段;通过所述目标脱敏条件字段生成目标脱敏结果字段。
10.第二方面,本技术提供的具有关联关系的多字段数据的脱敏系统,其通过以下技术方案实现:具有关联关系的多字段数据的脱敏系统,包括:用于存储预设敏感类型及各敏感类型对应的脱敏规则的脱敏规则模型库;用于对待脱敏的文件进行解析,并基于预设的敏感类型从待脱敏的文件中获取所述待脱敏的文件中的目标敏感数据,及获取目标敏感数据中字段间的关联关系的文件解析单元;用于根据字段间的关联关系设置脱敏规则间的关联关系的脱敏规则关联单元;用于基于所述目标脱敏规则及脱敏规则间的关联关系,生成各字段对应的脱敏后的目标脱敏数据的脱敏单元;用于更新脱敏后的目标脱敏数据至目标文件或目标数据库的更新单元。
11.第三方面,本技术提供的具有关联关系的多字段数据的脱敏设备,其通过以下技术方案实现:具有关联关系的多字段数据的脱敏设备,包括:一个或多个处理器;计算机存储介质,用于存储一个或多个计算机可读指令,当所述一个或多个计算机可读指令被所述一个或多个处理器执行时,使得一个或多个处理器实现上述的方法。
12.第四方面,本技术提供的计算机存储介质,其通过以下技术方案实现:计算机存储介质,存储有一个或多个计算机可读指令,所述计算机可读指令被处理器执行时,使得处理器实现上述的方法。
13.本技术提供的具有关联关系的多字段数据的脱敏方法、系统、装置及计算机存储介质与现有技术相比其优点在于:基于目标敏感数据中字段间的关联关系,具有关联关系的目标敏感数据采用同一脱敏规则,从而实现脱敏多字段后保持原有的关联关系的功能。
附图说明
14.图1为本技术提供的具有关联关系的多字段数据的脱敏方法的流程图;图2为图1中步骤s1的流程图;图3为图1中步骤s2的流程图流程图;图4为本技术提供的具有关联关系的多字段数据的脱敏系统的结构框图。
15.图中,1、脱敏规则模型库;2、文件解析单元;3、脱敏规则关联单元;4、脱敏单元;5、更新单元。
具体实施方式
16.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
17.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
18.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。
19.随着大数据的快速发展,无刻都在不断产生着包含大量数据的原始数据集,同时原始数据集中可能含有一些隐私数据,如在某一文件中,涉及产品的第一金额(a字段)、金额浮动比例(b字段)及浮动后的第二金额(c字段),其中,字段a、字段b、及字段c即为原始隐私数据,需要针对此类原始隐私数据集进行脱敏处理,从而得到脱敏数据集。而往往,这些原始隐私数据间可能会存在关联关系,如在上述示例中,a字段、b字段和c字段间的关联关系为a字段*b字段=c字段,因此,需要保证脱敏后的a字段、b字段和c字段依然能够保持原有的关联关系。
20.如图1至图3所示,本技术首先公开了具有关联关系的多字段数据的脱敏方法,其能够实现脱敏后的书依然能够保持原有的关联关系,其具体通过以下步骤实现:s11:预设敏感类型,及各敏感类型对应的脱敏规则。
21.预置敏感类型的目的在于约定将一种或几种类型的信息定义为敏感数据,其中,所述预置敏感类型的方式包括但不限于通过正则表达式定义配置敏感类型、内置敏感类型存储库(比如地址库、邮编库、身份证地址码库等)等方式;在预置好敏感类型后,还需为每种敏感类型配置对应的脱敏规则,使得每种脱敏规则能够应用于其对应的敏感类型所包含的所有敏感数据,以便后续能够根据脱敏需求将一种或多种类型的信息匹配为敏感类型,并为匹配到的敏感类型调用对应的脱敏规则,从而能够按照匹配到的敏感类型对应的脱敏规则直接对该种匹配到的敏感类型下的敏感数据进行脱敏。
22.其中,每种脱敏规则包括至少一个脱敏基数及与每个所述脱敏基数对应的脱敏转换规则。在同一个脱敏策略中,不同的脱敏基数对应的脱敏转换规则是不同的,可以通过选择不同的脱敏基数,控制同一目标敏感数据转化为不同的脱敏结果。由于在数据脱敏的过程中,会存在不同的脱敏任务,即,会针对同一待脱敏文件进行多次脱敏任务,当不同的脱
敏任务之间存在相同脱敏策略时,若不考虑脱敏基数,则不同脱敏任务基于同一脱敏策略会得出相同的脱敏结果,因此,为了区分不同的脱敏任务,需要通过对不同的脱敏任务设置不同的脱敏基数,进而得到不同的脱敏结果,以便实现对不同的脱敏任务进行区分。
23.s12:对待脱敏的文件进行解析,基于预设的敏感类型从待脱敏的文件中获取所述待脱敏的文件中的目标敏感数据,同时获取目标敏感数据中字段间的关联关系,并基于所述敏感类型确定所述目标敏感数据中个字段对应的目标脱敏规则,其中,具有关联关系的若干字段设置为同一目标脱敏规则。
24.在此,对待脱敏文件的结构进行解析的方式包括但不限于递归解析等方式,通过对待脱敏文件的结构进行解析,可以遍历待脱敏文件的每个节点对应的节点值和属性值,从而通过解析查找到待脱敏文件的每个节点对应的节点值和属性值中所有可能存在的目标敏感数据;通过直接对节点值和属性值进行解析,可以更准确的查找到待脱敏文件中的敏感数据。
25.以上述示例为例,基于预设的敏感类型,从解析后的待脱敏的文件中获得目标敏感数据包括产品编号(d字段)、产品的第一金额(a字段)、金额浮动比例(b字段)及浮动后的第二金额(c字段),同时获取到a字段、b字段和c字段间的关联关系为a字段*b字段=c字段,基于预设的敏感类型对应的脱敏规则,分别获得d字段、a字段、b字段和c字段间的目标脱敏规则。由于a字段、b字段和c字段间之间具有关联关系,因此a字段、b字段和c字段设置为任一且同一目标脱敏规则。
26.s13、根据字段间的关联关系设置具有关联关系的字段的目标脱敏规则的关联关系;具有关联关系的若干字段中,包括条件字段和结果字段,如以上述示例为例,具有关联关系的a字段、b字段和c字段间的关联关系为a字段*b字段=c字段,其中,a字段、b字段均为条件字段,c字段为结果字段,则根据字段间的关联关系设置具有关联关系的字段的目标脱敏规则的关联关系,即根据a字段、b字段和c字段间的关联关系设置a字段、b字段和c字段分别对应的目标脱敏规则的关联关系,如a字段为金额,b字段为幅动比例,c字段为实际金额,则对a字段、b字段和c字段设置“金额比例生成”脱敏规则,脱敏规则选择设置参数为原始金额字段a、浮动比例字段b、实际金额字段c,设置脱敏金额字段生成范围为100-10000,浮动比例生成范围为10%-100%,则设置完成“金额比例生成”脱敏规则。
27.s2:基于所述目标脱敏规则及脱敏规则间的关联关系,分别生成各字段对应的脱敏后的目标脱敏数据,如图3所示,具体包括:s21:响应于脱敏需求,确定所述目标脱敏规则所选中的脱敏基数;s22:分别根据每种所述目标脱敏规则所选中的目标脱敏基数对应的目标脱敏转换规则及脱敏规则间的关联关系,对所述目标敏感数据进行脱敏操作,其具体为:s221:所述条件字段根据所述目标脱敏规则所选中的目标脱敏基数对应的目标脱敏转换规则进行脱敏操作,得到目标脱敏条件字段,通过所述目标脱敏条件字段生成目标脱敏结果字段。
28.如以上述示例为例,a字段、b字段均为条件字段,如:金额字段a原始数据为100,根据脱敏规则设置生成范围为100-10000,则脱敏后新的值为2000,浮动比例字段b原始值为 10%,根据脱敏规则设置的脱敏生成范围为10%-100%,则脱敏后值为30%,通过所述目标脱敏
条件字段生成目标脱敏结果字段,则实际金额字段c脱敏后为2000*30%=600则c脱敏后值为600。
29.s3:更新脱敏后的目标脱敏数据至目标文件或目标数据库。
30.本技术还公开了具有关联关系的多字段数据的脱敏系统,如图4所示,包括:用于存储预设敏感类型及各敏感类型对应的脱敏规则的脱敏规则模型库1;用于对待脱敏的文件进行解析,并基于预设的敏感类型从待脱敏的文件中获取所述待脱敏的文件中的目标敏感数据,及获取目标敏感数据中字段间的关联关系的文件解析单元2;用于根据字段间的关联关系设置脱敏规则间的关联关系的脱敏规则关联单元3;用于基于所述目标脱敏规则及脱敏规则间的关联关系,生成各字段对应的脱敏后的目标脱敏数据的脱敏单元4;用于更新脱敏后的目标脱敏数据至目标文件或目标数据库的更新单元5。
31.本技术还公开了具有关联关系的多字段数据的脱敏设备,包括:一个或多个处理器;计算机存储介质,用于存储一个或多个计算机可读指令,当所述一个或多个计算机可读指令被所述一个或多个处理器执行时,使得一个或多个处理器实现上述的方法。
32.本技术还公开了计算机存储介质,其存储有一个或多个计算机可读指令,所述计算机可读指令被处理器执行时,使得处理器实现上述的方法。计算机存储介质可能包括计算机可读介质中的非永久性存储器,计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
33.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
34.以上对本技术及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本技术的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本技术创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1