数据脱敏方法、装置及存储介质与流程

文档序号:17373730发布日期:2019-04-12 23:04阅读:265来源:国知局
数据脱敏方法、装置及存储介质与流程

本发明涉及大数据技术领域,尤其涉及一种数据脱敏方法、装置及计算机可读存储介质。



背景技术:

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。随着大数据分析的成熟和价值挖掘的深入,利用大数据技术从大量相关联的普通数据中还原出用户是敏感、隐私信息等数据已不再困难。一旦数据发生泄漏,将会对个人、企业甚至国家造成极大地损失。因此,需要对,诸如身份证号、手机号、卡号、客户号等敏感信息数据进行数据脱敏。目前,业内的脱敏处理方法较为单一,不能根据不同的敏感数据类型提供不同的脱敏规则,无法适应于敏感数据类型复杂的场景,敏感数据安全性较低。



技术实现要素:

鉴于以上内容,本发明提供一种数据脱敏方法、装置及计算机可读存储介质,其主要目的在于提高敏感数据使用的安全性。

为实现上述目的,本发明提供一种数据脱敏方法,该方法包括:

创建步骤:创建预设数量的脱敏规则,设置敏感数据类型与所述脱敏规则之间的映射关系生成敏感数据类型表,将所述脱敏规则及所述敏感数据类型表存入脱敏规则库;

识别步骤:接收原始数据,利用预设方式识别并定位所述原始数据中的敏感字段,分析敏感字段的特征得到对应的敏感数据类型;

脱敏步骤:根据每个敏感字段的敏感数据类型,自动调用所述脱敏规则库中对应的脱敏规则对该敏感字段进行脱敏处理生成脱敏字段,将所述原始数据中的该敏感字段替换为所述生成的脱敏字段,直至所述原始数据中所有的敏感字段替换完毕,生成脱敏数据。

优选地,所述脱敏规则是指对敏感字段进行脱敏处理采用的脱敏算法,所述脱敏算法包括以下任意一种或多种的组合:对敏感字段进行替换处理、对敏感字段进行秘钥加密处理、对敏感字段进行均值化处理、对敏感字段进行无效化处理及对敏感字段进行基于字符随机偏移处理。

优选地,所述敏感数据类型表定义敏感字段特征与敏感数据类型的对应关系,所述敏感字段特征包括:字段名称、敏感等级、字段类型及字段长度的一种或多种特征。

优选地,所述识别步骤包括:

对接收到的原始数据进行初步识别,根据原始数据信息及结构,利用预设方式将原始数据分割成多个数据字段;

分析每个数据字段的内容及类型,识别每个数据字段的格式和语义,若识别某数据字段为敏感信息,则将该数据字段标记为敏感字段;

提取敏感字段特征,根据所述敏感数据类型表中敏感字段特征与敏感数据类型的对应关系,得到敏感字段对应的敏感数据类型。

优选地,所述预设方式可以采用命名实体识别、词法分析及句法分析中的一种或多种方法。

优选地,该方法还包括:

针对每种敏感数据类型设置不同的脱敏规则,包括第一脱敏规则和第二脱敏规则;及

判断某敏感数据类型的某敏感字段在原始数据中的敏感等级,包括高敏感字段和一般敏感字段,若该敏感字段为高敏感字段,则使用第一脱敏规则对该敏感字段进行脱敏处理,若该敏感字段为一般敏感字段,则使用第二脱敏规则对该敏感字段进行脱敏处理。

优选地,所述脱敏步骤可以替换为:

选择步骤:根据每个敏感字段的敏感数据类型,向用户展示所述脱敏规则库中的多个脱敏规则及对应的预设周期使用率,供用户自行选择相应的脱敏规则进行脱敏处理生成脱敏字段,将所述原始数据中的该敏感字段替换为所述生成的脱敏字段,直至所述原始数据中所有的敏感字段替换完毕,生成脱敏数据。

优选地,所述预设周期使用率的计算公式为:

其中,n>0,且n为正整数,yi代表预设周期内某敏感数据类型的第i个脱敏规则的使用率,xi代表预设周期内该敏感数据类型的第i个脱敏规则的使用次数,代表预设周期内该敏感数据类型的所有脱敏规则的使用次数。

此外,本发明还提供一种电子装置,该电子装置包括:存储器及处理器,所述存储器上存储数据脱敏程序,所述数据脱敏程序被所述处理器执行,可实现如下步骤:

创建步骤:创建预设数量的脱敏规则,设置敏感数据类型与所述脱敏规则之间的映射关系生成敏感数据类型表,将所述脱敏规则及所述敏感数据类型表存入脱敏规则库;

识别步骤:接收原始数据,利用预设方式识别并定位所述原始数据中的敏感字段,分析敏感字段的特征得到对应的敏感数据类型;

脱敏步骤:根据每个敏感字段的敏感数据类型,自动调用所述脱敏规则库中对应的脱敏规则对该敏感字段进行脱敏处理生成脱敏字段,将所述原始数据中的该敏感字段替换为所述生成的脱敏字段,直至所述原始数据中所有的敏感字段替换完毕,生成脱敏数据。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括数据脱敏程序,所述数据脱敏程序被处理器执行时,可实现如上所述数据脱敏方法中的任意步骤。

本发明提出的数据脱敏方法、装置及计算机可读存储介质,通过创建预设数量的脱敏规则,设置敏感数据类型与所述脱敏规则之间的映射关系生成敏感数据类型表存入脱敏规则库,接着,接收原始数据,利用预设方式识别并定位所述原始数据中的敏感字段,分析敏感字段的特征得到对应的敏感数据类型,最后,根据每个敏感字段的敏感数据类型,自动调用所述脱敏规则库中对应的脱敏规则对该敏感字段进行脱敏处理生成脱敏字段,生成脱敏数据,从而适应敏感数据类型复杂的环境,增强敏感数据的安全保护。

附图说明

图1为本发明电子装置较佳实施例的示意图;

图2为图1中数据脱敏程序较佳实施例的模块示意图;

图3为本发明数据脱敏方法第一实施例的流程图;

图4为本发明数据脱敏方法第二实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,是本发明电子装置1较佳实施例的示意图。

在本实施例中,电子装置1是指产品服务平台,该电子装置1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该电子装置1可以是独立的服务器,也可以是多个服务器所组成的服务器集群。

该电子装置1包括但不限于:存储器11、处理器12、及网络接口13。所述电子装置1通过网络接口13连接网络,获取原始数据。其中,所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication,gsm)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi、通话网络等无线或有线网络。

所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子装置1的外部存储设备,例如该电子装置1配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述电子装置1的操作系统和各类应用软件,例如数据脱敏程序10的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行数据脱敏程序10的程序代码等。

网络接口13可选地可以包括标准的有线接口、无线接口(如wi-fi接口),该网络接口13通常用于在所述电子装置1与其他电子设备之间建立通信连接。

图1仅示出了具有组件11-13以及数据脱敏程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

可选地,该电子装置1还可以包括显示器,所述显示器可以称为显示屏或显示单元。在一些实施例中显示器可以是led显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(organiclight-emittingdiode,oled)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面,例如显示推荐给客户的产品。

可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(keyboard)、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。

可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动数据脱敏程序10。

此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

该电子装置1还可以包括射频(radiofrequency,rf)电路、传感器和音频电路等等,在此不再赘述。

如图2所示,是图1中数据脱敏程序10较佳实施例的模块示意图。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

在本实施例中,数据脱敏程序10包括:创建模块110、识别模块120及脱敏模块130,所述模块110-130所实现的功能或操作步骤如下:

创建模块110,用于创建预设数量的脱敏规则,设置敏感数据类型与所述脱敏规则之间的映射关系生成敏感数据类型表,将所述脱敏规则及所述敏感数据类型表存入脱敏规则库。其中,所述脱敏规则是指对敏感字段进行脱敏处理采用的脱敏算法。所述脱敏算法包括以下任意一种或多种的组合:对敏感字段进行替换处理、对敏感字段进行秘钥加密处理、对敏感字段进行均值化处理、对敏感字段进行无效化处理及对敏感字段进行基于字符随机偏移处理。具体的,所述替换处理是指构建虚拟数据表,表中每一个敏感字段随机产生一个虚拟字段与之对应,对敏感字段进行哈希映射以虚拟字段代替敏感字段。所述秘钥加密处理是指通过加密秘钥和算法对敏感字段进行加密,加密后格式与敏感字段在逻辑规则上一致。所述均值化处理是指针对数值型敏感字段,先计算其均值,然后使脱敏后的值在均值附近随机分布,保持数据的总和不变。所述无效化处理是指以空值(null)或“*”代替敏感字段或敏感字段的一部分。所述基于字符随机偏移处理是指通过随机位移改变数值型原始数据。但应理解的是,所述脱敏规则不仅限于上述所列举的脱敏算法,还可以包括其他算法,如反推断算法,查找可能由某些非敏感字段推断出另一敏感字段的映射,并对所述非敏感字段进行脱敏。

所述敏感数据类型表定义敏感字段特征与敏感数据类型的对应关系,所述敏感字段特征包括:字段名称、敏感等级、字段类型及字段长度的一种或多种特征。具体的,以敏感字段仅包括字段名称为例,区分敏感字段的敏感数据类型。先根据字段名称将敏感字段包括但不限于进行三级分类,每个一级分类包括多个二级分类,每个二级分类包括多个三级分类,每个三级分类对应一项脱敏规则。若敏感字段特征包括字段名称及敏感等级,则在三级分类后还需判断该敏感字段在所述原始数据中的敏感等级,包括高敏感类及一般敏感类,根据该敏感字段的敏感等级进一步确定敏感数据类型。敏感字段特征包括:字段名称、敏感等级、字段类型及字段长度时区分敏感数据类型的方法类似,在此不再赘述。所述字段类型包括通用类及特定类。所述字段长度包括长字段及非长字段。应理解的是,不同类型的敏感数据的脱敏规则可以相同,也可以不同。在敏感数据类型表中同一敏感数据类型可以对应一种脱敏规则,也可以对应多种脱敏规则。

进一步地,还可以根据实际情况的需要自定义新的脱敏规则,并在敏感数据类型表中设置新脱敏规则与敏感数据类型之间的映射关系。

识别模块120,用于接收原始数据,利用预设方式识别并定位所述原始数据中的敏感字段,分析敏感字段的特征得到对应的敏感数据类型。具体的,对接收到的原始数据进行初步识别,根据原始数据信息及结构,利用命名实体识别方法识别出原始数据中的人名、地名、时间及数字等实体类型,根据识别出的实体将原始数据分割成多个数据字段。所述命名实体识别方法包括:基于规则和词典的方法、基于统计的方法及词典与统计混合的方法。接着,对每个数据字段进行句法分析,分析每个数据字段之间的依赖关系、结构及数据字段所在句子的语义,根据该数据字段及所在句子的内容及该数据字段的类型,如字符或数值等,进一步识别每个数据字段是否为敏感字段,若识别某数据字段为敏感信息,则将该数据字段标记为敏感字段。所述句法分析包括句法结构分析及依存分析。最后,提取敏感字段特征,包括:字段名称、敏感等级、字段类型及字段长度的一种或多种特征,根据所述敏感数据类型表中敏感字段特征与敏感数据类型的对应关系,得到敏感字段对应的敏感数据类型。所述预设方式可以采用自然语言处理中的命名实体识别、词法分析及句法分析中的一种或多种方法。

脱敏模块130,用于根据每个敏感字段的敏感数据类型,自动调用所述脱敏规则库中对应的脱敏规则对该敏感字段进行脱敏处理生成脱敏字段,将所述原始数据中的该敏感字段替换为所述生成的脱敏字段,直至所述原始数据中所有的敏感字段替换完毕,生成脱敏数据。进一步地,在生成脱敏数据后,还可以对生成的脱敏数据进行验证,若验证失败,则返回验证失败的脱敏字段及失败原因,若验证成功,则输出该脱敏数据并提示用户。

进一步地,还可以针对每种敏感数据类型设置不同的脱敏规则,包括第一脱敏规则和第二脱敏规则,并根据某敏感数据类型的某敏感字段在原始数据中的语义判断该敏感字段的敏感等级,包括高敏感字段和一般敏感字段,若该敏感字段为高敏感字段,则使用第一脱敏规则对该敏感字段进行脱敏处理,若该敏感字段为一般敏感字段,则使用第二脱敏规则对该敏感字段进行脱敏处理。

在另一个实施例中,还可以根据每个敏感字段的敏感数据类型,向用户展示所述脱敏规则库中的多个脱敏规则及对应的预设周期使用率,供用户自行选择相应的脱敏规则进行脱敏处理生成脱敏字段,将所述原始数据中的该敏感字段替换为所述生成的脱敏字段,直至所述原始数据中所有的敏感字段替换完毕,生成脱敏数据。所述预设周期使用率的计算公式为:

其中,n>0且n为正整数,yi代表预设周期内某敏感数据类型的第i个脱敏规则的使用率,xi代表预设周期内该敏感数据类型的第i个脱敏规则的使用次数,代表预设周期内该敏感数据类型的所有脱敏规则的使用次数。

本发明不仅限于对敏感字段的敏感数据进行脱敏,还可以对敏感图片的敏感数据进行脱敏,不同类型的敏感数据使用的敏感数据识别方式及脱敏方式不同。但其实现方式类似,在此不再赘述。

如图3所示,是本发明数据脱敏方法第一实施例的流程图。

在本实施例中,处理器12执行存储器11中存储的数据脱敏程序10的计算机程序时实现数据脱敏方法包括:步骤s10-步骤s30:

步骤s10,创建模块110创建预设数量的脱敏规则,设置敏感数据类型与所述脱敏规则之间的映射关系生成敏感数据类型表,将所述脱敏规则及所述敏感数据类型表存入脱敏规则库。其中,所述脱敏规则是指对敏感字段,如姓名、身份证号码、住址、电话、银行卡号及工资表等,进行脱敏处理采用的脱敏算法。所述脱敏算法包括以下任意一种或多种的组合:对敏感字段进行替换处理、对敏感字段进行秘钥加密处理、对敏感字段进行均值化处理、对敏感字段进行无效化处理及对敏感字段进行基于字符随机偏移处理。具体的,所述替换处理是指构建虚拟数据表,表中每一个敏感字段随机产生一个虚拟字段与之对应,对敏感字段进行哈希映射以虚拟字段代替敏感字段。所述秘钥加密处理是指通过加密秘钥和算法对敏感字段进行加密,加密后格式与敏感字段在逻辑规则上一致,如格式维持加密(formatpreservingencryption,fpe)。所述均值化处理是指针对数值型敏感字段,先计算其均值,然后使脱敏后的值在均值附近随机分布,保持数据的总和不变,如工资表、物资采购表等。所述无效化处理是指以空值(null)或“*”代替敏感字段或敏感字段的一部分,如利用“*”遮盖身份证号码后8-14位。所述基于字符随机偏移处理是指通过随机位移改变数值型原始数据。例如,将11位手机号码随机打乱重新排序得到新的11位数字。但应理解的是,所述脱敏规则不仅限于上述所列举的脱敏算法,还可以包括其他算法,如反推断算法,查找可能由某些非敏感字段推断出另一敏感字段的映射,并对所述非敏感字段进行脱敏,例如从某非敏感字段的某用户的出生日期中可推断出该用户的身份证号码。又或者,从某用户经常出现的地点数据推断该用户的居住地址等。

所述敏感数据类型表定义敏感字段特征与敏感数据类型的对应关系,所述敏感字段特征包括:字段名称、敏感等级、字段类型及字段长度的一种或多种特征。具体的,以敏感字段仅包括字段名称为例,区分敏感字段的敏感数据类型。先根据字段名称将敏感字段包括但不限于进行三级分类,每个一级分类包括多个二级分类,每个二级分类包括多个三级分类,每个三级分类对应一项脱敏规则。例如,根据字段名称将敏感字段的一级分类分为个人敏感信息及商业敏感信息,个人敏感信息包括:个人基本信息、个人身份信息、个人生物识别信息、个人网络身份信息及个人财产信息等,其中,个人生物识别信息包括:个人基因码信息、个人指纹信息、个人虹膜信息等,个人基因码信息对应脱敏规则a,个人指纹信息对应脱敏规则b,个人虹膜信息对应脱敏规则c,所述脱敏规则a、b、c是指上述所提及的脱敏算法。若敏感字段特征包括字段名称及敏感等级,则在三级分类后还需判断该敏感字段在所述原始数据中的敏感等级,包括高敏感类及一般敏感类,根据该敏感字段的敏感等级进一步确定敏感数据类型。例如,银行卡号可以属于个人敏感信息也可以属于商业敏感信息,但是银行卡号在个人敏感信息的敏感等级为一般敏感类,在商业敏感信息的敏感等级为高敏感类。敏感字段特征包括:字段名称、敏感等级、字段类型及字段长度时区分敏感数据类型的方法类似,在此不再赘述。所述字段类型包括通用类及特定类。所述字段长度包括长字段及非长字段。应理解的是,不同类型的敏感数据的脱敏规则可以相同,也可以不同。在敏感数据类型表中同一敏感数据类型可以对应一种脱敏规则,也可以对应多种脱敏规则。

进一步地,还可以根据后续的实际情况创建新的脱敏规则存入脱敏规则库,并在敏感数据类型表中设置新脱敏规则与敏感数据类型之间的映射关系。

步骤s20,识别模块120接收原始数据,利用预设方式识别并定位所述原始数据中的敏感字段,分析敏感字段的特征得到对应的敏感数据类型。具体的,对接收到的原始数据进行初步识别,根据原始数据信息及结构,利用命名实体识别方法识别出原始数据中的人名、地名、时间及数字等实体类型,根据识别出的实体将原始数据分割成多个数据字段。例如,原始数据“我的身份证号码是42082218600203112x”,利用基于规则和词典的方法构建词典库,根据构建的词典库识别原始数据的实体类型及名称,包括人名及身份证号码,并进行分割该原始数据“我/的/身份证号码/是/42082218600203112x”。所述命名实体识别方法还包括:基于统计的方法及词典与统计混合的方法。接着,对每个数据字段进行句法分析,分析每个数据字段之间的依赖关系、结构及数据字段所在句子的语义,根据该数据字段及所在句子的内容及该数据字段的类型,如字符或数值等,进一步识别每个数据字段是否为敏感字段,若识别某数据字段为敏感信息,则将该数据字段标记为敏感字段。例如,根据句法分析得到数据字段“42082218600203112x”的数据类型为数值型数据,并结合“身份证号码”数据字段分析得到数据字段“42082218600203112x”代表该用户的身份证号码,将数据字段“42082218600203112x”标记为敏感字段。所述句法分析包括句法结构分析及依存分析。最后,提取敏感字段特征,包括:字段名称、敏感等级、字段类型及字段长度的一种或多种特征,根据所述敏感数据类型表中敏感字段特征与敏感数据类型的对应关系,得到敏感字段对应的敏感数据类型。所述预设方式可以采用自然语言处理中的命名实体识别、词法分析及句法分析中的一种或多种方法。

步骤s30,脱敏模块130根据每个敏感字段的敏感数据类型,自动调用所述脱敏规则库中对应的脱敏规则对该敏感字段进行脱敏处理生成脱敏字段,将所述原始数据中的该敏感字段替换为所述生成的脱敏字段,直至所述原始数据中所有的敏感字段替换完毕,生成脱敏数据。例如,使用基于字符随机偏移处理敏感字段“42082218600203112x”得到脱敏字段“262120084231x02018”,则脱敏数据“我的身份证号码是262120084231x02018”。进一步地,在生成脱敏数据后,还可以对生成的脱敏数据进行验证,若验证失败,则返回验证失败的脱敏字段及失败原因,若验证成功,则输出该脱敏数据并提示用户。

进一步地,还可以针对每种敏感数据类型设置不同的脱敏规则,包括第一脱敏规则和第二脱敏规则,并根据某敏感数据类型的某敏感字段在原始数据中的语义判断该敏感字段的敏感等级,包括高敏感字段和一般敏感字段,若该敏感字段为高敏感字段,则使用第一脱敏规则对该敏感字段进行脱敏处理,若该敏感字段为一般敏感字段,则使用第二脱敏规则对该敏感字段进行脱敏处理。例如,银行卡号相对应的脱敏规则可以是基于字符随机偏移处理,也可以是无效化处理,银行卡号在个人敏感信息的敏感等级为一般敏感类,在商业敏感信息的敏感等级为高敏感类,则在个人敏感信息中使用基于字符随机偏移对银行卡号进行处理,在商业敏感信息中使用无效化对银行卡号进行处理。

上述实施例提出的数据脱敏方法,通过定义不同的脱敏规则,并在敏感数据类型表中设置敏感数据类型与所述脱敏规则之间的映射关系,存入脱敏规则库,接着,接收原始数据,利用预设方式识别并定位所述原始数据中的敏感字段,分析敏感字段的敏感数据类型并根据每个敏感字段的敏感数据类型,自动调用所述脱敏规则库中对应的脱敏规则进行脱敏处理生成脱敏字段,得到脱敏数据,从而提高敏感数据的安全性,增强不同环境的脱敏能力。

如图4所示,是本发明数据脱敏方法第二实施例的流程图。

在本实施例中,数据脱敏方法包括:步骤s10-步骤s30。其中,步骤s10、步骤s20与第一实施例中的内容大致相同,这里不再赘述。

步骤s30,根据每个敏感字段的敏感数据类型,向用户展示所述脱敏规则库中的多个脱敏规则及对应的预设周期使用率,供用户自行选择相应的脱敏规则进行脱敏处理生成脱敏字段,将所述原始数据中的该敏感字段替换为所述生成的脱敏字段,直至所述原始数据中所有的敏感字段替换完毕,生成脱敏数据。例如,银行卡号相对应的脱敏规则可以是基于字符随机偏移处理,也可以是无效化处理,用户可以根据自己的需求选择相应的脱敏规则将该原始数据中所有银行卡号按照自己所选的脱敏规则处理。所述预设周期使用率的计算公式为:

其中,n>0,且n为正整数,yi代表预设周期内某敏感数据类型的第i个脱敏规则的使用率,xi代表预设周期内该敏感数据类型的第i个脱敏规则的使用次数,代表预设周期内该敏感数据类型的所有脱敏规则的使用次数。

本发明不仅限于对敏感字段的敏感数据进行脱敏,还可以对敏感图片的敏感数据进行脱敏,不同类型的敏感数据使用的敏感数据识别方式及脱敏方式不同。但其实现方式类似,在此不再赘述。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括数据脱敏程序10,所述数据脱敏程序10被处理器执行时实现如下操作:

创建步骤:创建预设数量的脱敏规则,设置敏感数据类型与所述脱敏规则之间的映射关系生成敏感数据类型表,将所述脱敏规则及所述敏感数据类型表存入脱敏规则库;

识别步骤:接收原始数据,利用预设方式识别并定位所述原始数据中的敏感字段,分析敏感字段的特征得到对应的敏感数据类型;

脱敏步骤:根据每个敏感字段的敏感数据类型,自动调用所述脱敏规则库中对应的脱敏规则对该敏感字段进行脱敏处理生成脱敏字段,将所述原始数据中的该敏感字段替换为所述生成的脱敏字段,直至所述原始数据中所有的敏感字段替换完毕,生成脱敏数据。

优选地,所述脱敏规则是指对敏感字段进行脱敏处理采用的脱敏算法,所述脱敏算法包括以下任意一种或多种的组合:对敏感字段进行替换处理、对敏感字段进行秘钥加密处理、对敏感字段进行均值化处理、对敏感字段进行无效化处理及对敏感字段进行基于字符随机偏移处理。

优选地,所述敏感数据类型表定义敏感字段特征与敏感数据类型的对应关系,所述敏感字段特征包括:字段名称、敏感等级、字段类型及字段长度的一种或多种特征。

优选地,所述识别步骤包括:

对接收到的原始数据进行初步识别,根据原始数据信息及结构,利用预设方式将原始数据分割成多个数据字段;

分析每个数据字段的内容及类型,识别每个数据字段的格式和语义,若识别某数据字段为敏感信息,则将该数据字段标记为敏感字段;

提取敏感字段特征,根据所述敏感数据类型表中敏感字段特征与敏感数据类型的对应关系,得到敏感字段对应的敏感数据类型。

优选地,所述预设方式可以采用命名实体识别、词法分析及句法分析中的一种或多种方法。

优选地,该方法还包括:

针对每种敏感数据类型设置不同的脱敏规则,包括第一脱敏规则和第二脱敏规则;及

判断某敏感数据类型的某敏感字段在原始数据中的敏感等级,包括高敏感字段和一般敏感字段,若该敏感字段为高敏感字段,则使用第一脱敏规则对该敏感字段进行脱敏处理,若该敏感字段为一般敏感字段,则使用第二脱敏规则对该敏感字段进行脱敏处理。

优选地,所述脱敏步骤可以替换为:

选择步骤:根据每个敏感字段的敏感数据类型,向用户展示所述脱敏规则库中的多个脱敏规则及对应的预设周期使用率,供用户自行选择相应的脱敏规则进行脱敏处理生成脱敏字段,将所述原始数据中的该敏感字段替换为所述生成的脱敏字段,直至所述原始数据中所有的敏感字段替换完毕,生成脱敏数据。

优选地,所述预设周期使用率的计算公式为:

其中,n>0,且n为正整数,yi代表预设周期内某敏感数据类型的第i个脱敏规则的使用率,xi代表预设周期内该敏感数据类型的第i个脱敏规则的使用次数,代表预设周期内该敏感数据类型的所有脱敏规则的使用次数。

本发明之计算机可读存储介质的具体实施方式与上述数据脱敏方法的具体实施方式大致相同,在此不再赘述。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1