数据脱敏方法、装置、电子设备和介质与流程

文档序号:26006297发布日期:2021-07-23 21:24阅读:163来源:国知局
数据脱敏方法、装置、电子设备和介质与流程

本公开涉及数据处理技术领域,尤其涉及一种数据脱敏方法、装置、电子设备和介质。



背景技术:

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。待脱敏的数据可包括数值类数据和文本类数据;其中,对于数值类数据的脱敏实现,主要是通过随机替换以及取整等数据计算实现。

现有方案的缺陷在于:随机替换以及取整会影响原始数据的数据规律,即增大原始数据与脱敏后数据的误差,降低了数据的使用效能。



技术实现要素:

为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种数据脱敏方法、装置、电子设备和介质。

第一方面,本公开提供了一种数据脱敏方法,所述方法包括:

从数据库表中确定目标数据;其中,所述目标数据根据所述数据库表中数据的标识状态确定;

基于预设插值平滑算法对所述目标数据进行脱敏操作,得到脱敏数据。

可选的,所述从数据库表中确定目标数据,包括:

获取数据库表中每一候选数据的标识状态;其中,所述标识状态包括待脱敏和已脱敏;

将标识状态为待脱敏的候选数据作为目标数据。

可选的,所述基于预设插值平滑算法对所述目标数据进行脱敏操作,得到脱敏数据,包括:

根据所述目标数据的数量设置平滑超参数;

基于所述平滑超参数对所述目标数据进行脱敏操作,得到脱敏数据。

可选的,所述基于所述平滑超参数对所述目标数据进行脱敏操作,得到脱敏数据,包括:

计算所述目标数据中当前数值与所述当前数值的下一个数值之和,得到第一数值;

将所述第一数值与所述平滑超参数的比值作为所述当前数值对应的脱敏数值;

其中,所述当前数值与所述下一个数值在所述目标数据中相邻。

第二方面,本公开还提供了一种数据脱敏装置,包括:

数据确定模块,用于从数据库表中确定目标数据;其中,所述目标数据根据所述数据库表中数据的标识状态确定;

数据脱敏模块,用于基于预设插值平滑算法对所述目标数据进行脱敏操作,得到脱敏数据。

可选的,所述数据确定模块,具体用于:

获取数据库表中每一候选数据的标识状态;其中,所述标识状态包括待脱敏和已脱敏;

将标识状态为待脱敏的候选数据作为目标数据。

可选的,所述数据脱敏模块,包括:平滑超参数设置单元和数据脱敏单元;

所述平滑超参数设置单元,用于根据所述目标数据的数量设置平滑超参数;

所述数据脱敏单元,用于基于所述平滑超参数对所述目标数据进行脱敏操作,得到脱敏数据。

可选的,所述数据脱敏单元,具体用于:

计算所述目标数据中当前数值与所述当前数值的下一个数值之和,得到第一数值;

将所述第一数值与所述平滑超参数的比值作为所述当前数值对应的脱敏数值;

其中,所述当前数值与所述下一个数值在所述目标数据中相邻。

第三方面,本公开还提供了一种电子设备,该电子设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中的任一种所述的数据脱敏方法。

第四方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例中的任一种所述的数据脱敏方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点:能够较大程度的保持原始数据与脱敏后数据的相似性,从而有效提高脱敏处理后数据的使用效能。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种数据脱敏方法的流程示意图;

图2是本公开实施例提供的另一种数据脱敏方法的流程示意图;

图3是本公开实施例提供的一种数据脱敏装置的结构示意图;

图4是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。

图1是本公开实施例提供的一种数据脱敏方法的流程示意图。本实施例可适用于对数值类数据进行脱敏的情况。本实施例方法可由数据脱敏装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中。可实现本申请任意实施例的数据脱敏方法。

随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战:个人隐私信息的保护。个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,也将是数据脱敏必须解决的难题。

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护;在涉及客户安全数据或者一些商业性敏感数据的情况下,以及不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号或者客户号等个人信息都需要进行数据脱敏。

数据脱敏通过对敏感信息采用脱敏方式进行匿名化,防止因生产库中的主要数据,明文显示在测试系统中,导致数据泄漏问题。通过数据脱敏产品,可以有效防止企业内部对隐私数据的滥用,防止隐私数据在未经脱敏的情况下从企业流出;满足企业既要保护隐私数据,同时又保持监管合规,满足企业合规性。

如图1所示,该方法具体包括如下:

s110、从数据库表中确定目标数据;其中,目标数据根据数据库表中数据的标识状态确定。

在本实施例中,数据库表中存储着多类型数据,例如数值类数据或者文本类数据;其中,数值类数据可为由整数、小数或者分数组成的一列数据;文本类数据可由文字、字符或者标号组成的一列数据。本实施例中所指的目标数据包括数值类数据。

由于数据库表中包含的数据不一定都是有脱敏需求的,因此,为其进行标识状态的标记,有利于数据库表中多数据的统一管理。示例性的,对于有脱敏需求的,可将其标识状态分为未脱敏和已脱敏,对于没有脱敏需求或者暂时无脱敏需求的,可将其标识状态划分为暂定或者不脱敏。

具体的,还可将数据库表划分为两个数据库子表,其中,第一个数据库子表存储标识状态为未脱敏和已脱敏的数据,即存储有脱敏需求的数据;第二个数据库子表存储标识状态为暂定和不脱敏的数据,即存储无脱敏需求或者暂无脱敏需求的数据,以根据脱敏需求对数据库表中的多数据进行分类存储。

s120、基于预设插值平滑算法对目标数据进行脱敏操作,得到脱敏数据。

数据脱敏又称数据去隐私化或数据变形,是在给定的规则或者策略下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题;根据数据保护规范和脱敏策略,对业务数据中的敏感信息实施自动变形,实现对敏感信息的隐藏。

在本实施例中,预设插值平滑算法为对目标数据中的数值进行数学运算,以改变目标数据的数据形态,从而实现保持目标数据规律性的同时有效实现数据脱敏。

本公开实施例从数据库表中确定目标数据;其中,目标数据根据数据库表中数据的标识状态确定;基于预设插值平滑算法对目标数据进行脱敏操作,得到脱敏数据。本公开实施例能够较大程度的保持原始数据与脱敏后数据的相似性,从而有效提高脱敏处理后数据的使用效能。

图2是本公开实施例提供的另一种数据脱敏方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化,并可与上述技术方案中任意可选方案组合。如图2所示,该方法包括:

s210、获取数据库表中每一候选数据的标识状态;其中,标识状态包括待脱敏和已脱敏;将标识状态为待脱敏的候选数据作为目标数据。

在本实施例中,候选数据为具有脱敏需求的一类数据,其可被单独存储在数据库表的子表中,也可直接与不具有脱敏需求的一类数据一起存储在数据库表中。

将标识状态为待脱敏的候选数据作为目标数据,可包括:若检测到标识状态为待脱敏的候选数据的数量大于或等于第一数量阈值,则根据各候选数据的生成时间,或者数据优先级确定目标数据;其中,第一数量阈值可为2;候选数据的数据优先级可人工依据数据需求进行预先配置。

若检测到标识状态为待脱敏的候选数据的数量等于第二数量阈值,则将该候选数据作为目标数据;其中,第二数量阈值可为1。

本实施例能够为数据库表中的数据设置标识状态,以使得在进行数据查找时,能够直接有效的根据各数据的标识状态快速确定出所需数据,从而有效节省数据的查找时间。

s220、根据目标数据的数量设置平滑超参数。

在本实施例中,目标数据的数量为目标数据中包含数值的个数。

根据目标数据的数量设置平滑超参数可包括:若检测到目标数据的数量小于第一阈值,则将平滑超参数设置为第一参数值;若检测到目标数据的数量大于等于第一阈值且小于等于第二阈值,则将平滑超参数设置为第二参数值;若检测到目标数据的数量大于第二阈值,则将平滑超参数设置为第三参数值。

s230、基于平滑超参数对目标数据进行脱敏操作,得到脱敏数据。

在本实施例中,根据平滑超参数对目标数据中的数值进行数学运算,以改变目标数据中的数值大小,但不会改变目标数据整体的规律性,即不会影响后续目标数据的使用。

数据脱敏具有一定的脱敏规则,一般的脱敏规则可分为可恢复与不可恢复两类;其中,可恢复类,指脱敏后的数据可以通过一定的方式,可以恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则;不可恢复类,指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出,一般可分为替换算法和生成算法两大类;替换算法即将需要脱敏的部分使用定义好的字符或字符串替换,生成类算法则更复杂一些,要求脱敏后的数据符合逻辑规则,即是“看起来很真实的假数据”。

本实施例属于不可恢复类,使用生成算法实现对目标数据的有效脱敏;本实施例通过对目标数据进行脱敏处理,且得到的脱敏数据不可恢复为原始数据,即有效保护了原始数据(即本实施例中的目标数据)的数据隐私,但脱敏后的数据保持了原始数据的数据逻辑性,不会影响数据的使用性能。

在本实施例中,可选的,基于平滑超参数对目标数据进行脱敏操作,得到脱敏数据,包括:

计算目标数据中当前数值与当前数值的下一个数值之和,得到第一数值;

将第一数值与平滑超参数的比值作为当前数值对应的脱敏数值;

其中,当前数值与下一个数值在目标数据中相邻。

其中,本实施例中基于目标数据中包含的数值均为正数进行脱敏实现,若目标数据中既包含正数又包含负数,其脱敏方法与本实施例方法原理类似,以下进行示例说明。

示例一:目标数据中包含的数值均为正数。

目标数据:{1.1,2.4,3.2,1.8,4.5,4.9,5.1,5.2,6.5,7.3,7.8,7.9,8.4};设置平滑超参数n=2;采用公式ci=(ci+ci+1)/n进行脱敏操作;其中,ci为目标数据中的第i个数值。

脱敏过程示意:

c1=(c1+c2)/2=(1.1+2.4)/2=1.75;

c2=(c2+c3)/2=(2.4+3.2)/2=2.8;

c3=(c3+c4)/2=(3.2+1.8)/2=2.5;

c4=(c4+c5)/2=(1.8+4.5)/2=3.15;

c5=(c5+c6)/2=(4.5+4.9)/2=4.55;

c6=(c6+c7)/2=(4.9+5.1)/2=5;

c7=(c7+c8)/2=(5.1+5.2)/2=5.15;

c8=(c8+c9)/2=(5.2+6.5)/2=5.85;

c9=(c9+c10)/2=(6.5+7.3)/2=6.9;

c10=(c10+c11)/2=(7.3+7.8)/2=7.55;

c11=(c11+c12)/2=(7.8+7.9)/2=7.85;

c12=(c12+c13)/2=(7.9+8.4)/2=8;

c13=8.4。

则经过脱敏后的数据为:{1.75,2.8,2.5,3.15,4.55,5,5.15,5.85,6.9,7.55,7.85,8,8.4}。

可见,本实施例方法在完成脱敏后,其目标数据的规律并无改变,从目标数据中可看出,c1-c3呈上升趋势,c3-c4呈下降趋势,c4-c13呈上升趋势;而脱敏后的数据趋势为,c1-c3呈上升趋势,c3-c4呈下降趋势,c4-c13呈上升趋势;与未脱敏前数据趋势相同,本实施例的脱敏方法能够根据相邻数值间的数学运算改变一列数据的存储数值,从而有效保持原始数据的数据趋势。

图3是本公开实施例提供的一种数据脱敏装置的结构示意图;该装置配置于电子设备中,可实现本申请任意实施例所述的数据脱敏方法。该装置具体包括如下:

数据确定模块310,用于从数据库表中确定目标数据;其中,所述目标数据根据所述数据库表中数据的标识状态确定;

数据脱敏模块320,用于基于预设插值平滑算法对所述目标数据进行脱敏操作,得到脱敏数据。

在本实施例中,可选的,所述数据确定模块310,具体用于:

获取数据库表中每一候选数据的标识状态;其中,所述标识状态包括待脱敏和已脱敏;

将标识状态为待脱敏的候选数据作为目标数据。

在本实施例中,可选的,所述数据脱敏模块320,包括:平滑超参数设置单元和数据脱敏单元;

所述平滑超参数设置单元,用于根据所述目标数据的数量设置平滑超参数;

所述数据脱敏单元,用于基于所述平滑超参数对所述目标数据进行脱敏操作,得到脱敏数据。

在本实施例中,可选的,所述数据脱敏单元,具体用于:

计算所述目标数据中当前数值与所述当前数值的下一个数值之和,得到第一数值;

将所述第一数值与所述平滑超参数的比值作为所述当前数值对应的脱敏数值;

其中,所述当前数值与所述下一个数值在所述目标数据中相邻。

通过本发明实施例的数据脱敏装置,能够较大程度的保持原始数据与脱敏后数据的相似性,从而有效提高脱敏处理后数据的使用效能。

本发明实施例所提供的数据脱敏装置可执行本发明任意实施例所提供的数据脱敏方法,具备执行方法相应的功能模块和有益效果。

图4是本公开实施例提供的一种电子设备的结构示意图。如图4所示,该电子设备包括处理器410、存储器420、输入装置430和输出装置440;电子设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据脱敏方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现本发明实施例所提供的数据脱敏方法。

存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,可以包括键盘、鼠标等。输出装置440可包括显示屏等显示设备。

本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现本发明实施例所提供的数据脱敏方法。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据脱敏方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1