数据脱敏方法、装置、设备及计算机可读存储介质与流程

文档序号:33896755发布日期:2023-04-21 05:27阅读:49来源:国知局
数据脱敏方法、装置、设备及计算机可读存储介质与流程

本技术属于数据安全,尤其涉及一种数据脱敏方法、装置、设备及计算机可读存储介质。


背景技术:

1、大数据时代在数据开放共享的同时还存在诸多的隐私风险。目前虽然能够通过数据挖掘、机器学习等数据分析技术大量挖掘潜藏的数据价值,并通过众多的隐私保护算法对用户隐私进行保护,但在实际应用场景中,由于数据的种类在不断变化,数据间的关系也变得错综复杂,且系统开发方通常会利用代码等手段对数据集的原始元数据进行操作处理,使生产环境中经代码处理后的数据集的敏感属性难以识别,导致无法精确定位敏感属性的数据,故而不能利用合适的隐私保护手段对敏感属性的数据进行处理,使敏感数据的保护效率较低。


技术实现思路

1、本技术实施例提供了一种数据脱敏方法、装置、设备及计算机可读存储介质,能够对敏感数据进行快速识别和精准分类,提高了敏感数据的识别效率和识别精准度,实现了对于敏感数据的精准保护。

2、第一方面,本技术实施例提供了一种数据脱敏方法,数据脱敏方法包括:获取包含敏感数据的文本信息;基于预先建立的规则库和自适应敏感数据识别模型,对文本信息中的字段数据进行识别和分类处理,得到数据表;将数据表转换为数据表字段矩阵,并确定数据表字段矩阵中的字段类别;根据数据表字段矩阵中的字段类别,确定数据表对应的目标敏感等级;根据预先建立的敏感等级与脱敏策略之间的对应关系,确定目标敏感等级对应的脱敏策略;根据目标敏感等级对应的脱敏策略,对敏感数据进行脱敏处理。

3、根据本技术第一方面的实施方式,在获取包含敏感数据的文本信息之前,方法还包括:获取包含样本敏感数据的训练数据,训练数据包括结构化数据表;根据结构化数据表中的熵与最大熵,定义结构化数据表中的属性敏感度;以属性敏感度作为聚类分析的数据点,利用目标聚类算法识别样本敏感数据的属性敏感度;基于关联规则挖掘算法建立属性间的关联关系,并将训练数据划分为敏感属性集与非敏感属性集;将敏感属性集和非敏感属性集代入预先建立的机器学习模型,并基于目标分类算法对机器学习模型进行训练,得到训练好的自适应敏感数据识别模型。

4、根据本技术第一方面前述任一实施方式,基于预先建立的规则库和自适应敏感数据识别模型,对文本信息中的字段数据进行识别和分类处理,得到数据表,具体包括:构建由正则表达式和/或字段信息组成的规则库,字段信息包括字段类别和字段描述;基于规则库中存储的正则表达式和/或字段信息,对文本信息中的字段进行识别;在文本信息中的字段能够被识别的情况下,对于文本信息中与正则表达式和/或字段信息匹配的目标字段进行标记;在文本信息中的字段无法被识别的情况下,调用自适应敏感数据识别模型对文本信息中的字段进行识别。

5、根据本技术第一方面前述任一实施方式,基于规则库中存储的正则表达式和/或字段信息,对文本信息中的字段进行识别,具体包括:对文本信息中各列对应的全部属性值依次进行识别,并基于规则库中存储的正则表达式和/或字段信息对于属性值进行分类;统计被检测的各列对应的全部属性值的分类分布情况;对于任意第i列,若第i列中的频数最高的类别对应的属性值的数量占据第i列中的全部属性值的总数的比例超过第一预设阈值,则将第i列的类别标记为频数最高的类别,i为正整数;若第i列中的频数最高的类别对应的属性值的数量占据第i列中的全部属性值的总数的比例小于或等于第一预设阈值,则将第i列的类别标记为无法识别。

6、根据本技术第一方面前述任一实施方式,将数据表转换为数据表字段矩阵,并确定数据表字段矩阵中的字段类别,具体包括:构建数据表维度分类类别库;根据数据表和数据表维度分类类别库中记录的字段,使用独热编码构建数据表字段矩阵,数据表字段矩阵包括多个字段及各个字段对应的向量属性值;将数据表字段矩阵输入预先训练的随机森林算法模型,预测数据表字段矩阵对应的数据表的类别;根据数据表字段矩阵中的字段类别,确定数据表对应的目标敏感等级,具体包括:根据数据表字段矩阵对应的数据表的类别,确定数据表对应的目标敏感等级。

7、根据本技术第一方面前述任一实施方式,根据数据表字段矩阵对应的数据表的类别,确定数据表对应的目标敏感等级,具体包括:构建数据表类别与敏感等级之间的对应关系;根据数据表类别与敏感等级之间的对应关系,确定数据表的类别对应的至少一个敏感等级;按照预设的优先级排列顺序,从至少一个敏感等级中选取优先级最高的敏感等级作为数据表对应的目标敏感等级。

8、根据本技术第一方面前述任一实施方式,脱敏策略包括选择通用字符串对应的自定义脱敏算法对通用字符串进行脱敏处理;自定义脱敏算法包括以下至少一项:对通用字符串进行部分保留、对通用字符串进行部分屏蔽、对通用字符串进行部分截取和对通用字符串进行部分替换。

9、根据本技术第一方面前述任一实施方式,在根据目标敏感等级对应的脱敏策略,对敏感数据进行脱敏处理之后,方法还包括:对终端设备内的多个应用软件进行监测与评估,计算多个应用软件各自对应的隐私风险值;根据多个应用软件各自对应的隐私风险值,对多个应用软件进行分类,得到多个应用软件的分类结果;根据多个应用软件的分类结果,执行对应的目标安全操作。

10、根据本技术第一方面前述任一实施方式,对终端设备内的多个应用软件进行监测与评估,计算多个应用软件各自对应的隐私风险值,具体包括:获取多个应用软件的应用信息,应用信息至少包括应用软件调用用户隐私权限的历史信息;从应用信息中提取预设所需特定值,并进行归一化处理,得到应用隐私项向量;对应应用隐私项向量,设置用户隐私项向量;计算应用隐私项向量与用户隐私项向量的点积,得到隐私风险指标;根据隐私风险指标,建立隐私风险值评估模型;基于隐私风险值评估模型,计算多个应用软件各自对应的隐私风险值。

11、第二方面,本技术实施例提供了一种数据脱敏装置,数据脱敏装置包括:第一获取模块,用于获取包含敏感数据的文本信息;识别模块,用于基于预先建立的规则库和自适应敏感数据识别模型,对文本信息中的字段数据进行识别和分类处理,得到数据表;第一确定模块,用于将数据表转换为数据表字段矩阵,并确定数据表字段矩阵中的字段类别;第二确定模块,用于根据数据表字段矩阵中的字段类别,确定数据表对应的目标敏感等级;第三确定模块,用于根据预先建立的敏感等级与脱敏策略之间的对应关系,确定目标敏感等级对应的脱敏策略;脱敏模块,用于根据目标敏感等级对应的脱敏策略,对敏感数据进行脱敏处理。

12、第三方面,本技术实施例提供了一种电子设备,电子设备包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如第一方面提供的数据脱敏方法的步骤。

13、第四方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第一方面提供的数据脱敏方法的步骤。

14、本技术实施例的数据脱敏方法、装置、设备及计算机可读存储介质,结合规则库和自适应敏感数据识别模型两种方式,对文本信息中的字段数据进行识别和分类处理,得到数据表,实现了对于敏感数据的精准标记;以及将数据表转换为数据表字段矩阵,并确定数据表字段矩阵中的字段类别;根据数据表字段矩阵中的字段类别,确定数据表对应的目标敏感等级,根据预先建立的敏感等级与脱敏策略之间的对应关系,确定目标敏感等级对应的脱敏策略,根据目标敏感等级对应的脱敏策略,对敏感数据进行脱敏处理,实现了敏感数据的快速识别和精准分类,提高了敏感数据的识别效率和识别精准度,实现了对于敏感数据的精准保护。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1