数据脱敏方法及装置与流程

文档序号:19311848发布日期:2019-12-03 23:36阅读:来源:国知局

技术特征:

1.一种数据脱敏方法,其特征在于,包括:

获得目标数据集合,所述目标数据集合包含相同内容类型的若干条数据记录;

对所述数据记录进行分词处理,得到所述数据记录的若干个分词;

计算各个分词在所有数据记录的所有分词中的出现频率;

将出现频率达到预设频率阈值的分词确定为特征分词;

针对每条数据记录,将所述数据记录包含的特征分词之外的分词进行加密处理,以得到脱敏后的数据记录。

2.根据权利要求1所述的数据脱敏方法,其特征在于,所述数据记录的数据类型为文字;则对所述数据记录进行分词处理,得到所述数据记录的若干个分词,包括:

获得与所述数据记录的内容类型对应的前缀词典,所述前缀词典包括所述内容类型的多个数据语料,且每个数据语料对应有若干种分词子结果;

在所述前缀词典包括的数据语料中,确定所述数据记录包含的目标数据语料;

分别从不同目标数据语料的分词子结果中获取一种分词子结果并依次进行组合,得到所述数据记录的分词总结果;

在数据记录的分词总结果中,确定目标分词总结果,其中所述目标分词总结果用于表示所述数据记录的若干个分词。

3.根据权利要求2所述的数据脱敏方法,其特征在于,所述前缀词典中的每种分词子结果具有对应的出现概率值;

则所述在数据记录的分词总结果中,确定目标分词总结果,包括:

针对数据记录的每一种分词总结果,从所述前缀词典中获得用于组合得到所述分词总结果的分词子结果的出现概率值;

将用于组合得到所述分词总结果的分词子结果的出现概率值进行相乘,得到所述分词总结果的出现概率总值;

将出现概率总值最大的分词总结果确定为目标分词总结果。

4.根据权利要求1所述的数据脱敏方法,其特征在于,所述数据记录的数据类型为字符串;则对所述数据记录进行分词处理,得到所述数据记录的若干个分词,包括:

确定与所述数据记录的内容类型对应的数据切分方式;

按照所述数据切分方式,对所述数据记录进行分词处理,得到所述数据记录的若干个分词。

5.根据权利要求1所述的数据脱敏方法,其特征在于,还包括:

针对每个所述脱敏后的数据记录,将所述脱敏后的数据记录包括的特征分词进行编码处理,以得到的目标脱敏数据记录。

6.一种数据脱敏装置,其特征在于,包括:

获取模块,用于获得目标数据集合,所述目标数据集合包含相同内容类型的若干条数据记录;

分词模块,用于对所述数据记录进行分词处理,得到所述数据记录的若干个分词;

计算模块,用于计算各个分词在所有数据记录的所有分词中的出现频率;

确定模块,用于将出现频率达到预设频率阈值的分词确定为特征分词;

加密模块,用于针对每条数据记录,将所述数据记录包含的特征分词之外的分词进行加密处理,以得到脱敏后的数据记录。

7.根据权利要求6所述的数据脱敏装置,其特征在于,所述数据记录的数据类型为文字;则所述分词模块在对所述数据记录进行分词处理,得到所述数据记录的若干个分词时,具体用于:

获得与所述数据记录的内容类型对应的前缀词典,所述前缀词典包括所述内容类型的多个数据语料,且每个数据语料对应有若干种分词子结果;在所述前缀词典包括的数据语料中,确定所述数据记录包含的目标数据语料;分别从不同目标数据语料的分词子结果中获取一种分词子结果并依次进行组合,得到所述数据记录的分词总结果;在数据记录的分词总结果中,确定目标分词总结果,其中所述目标分词总结果用于表示所述数据记录的若干个分词。

8.根据权利要求7所述的数据脱敏装置,其特征在于,所述前缀词典中的每种分词子结果具有对应的出现概率值;

则分词模块在数据记录的分词总结果中,确定目标分词总结果时,具体用于:

针对数据记录的每一种分词总结果,从所述前缀词典中获得用于组合得到所述分词总结果的分词子结果的出现概率值;将用于组合得到所述分词总结果的分词子结果的出现概率值进行相乘,得到所述分词总结果的出现概率总值;将出现概率总值最大的分词总结果确定为目标分词总结果。

9.根据权利要求6所述的数据脱敏装置,其特征在于,所述数据记录的数据类型为字符串;则所述分词模块在对所述数据记录进行分词处理,得到所述数据记录的若干个分词时,具体用于:

确定与所述数据记录的内容类型对应的数据切分方式;按照所述数据切分方式,对所述数据记录进行分词处理,得到所述数据记录的若干个分词。

10.根据权利要求6所述的数据脱敏装置,其特征在于,还包括:

编码模块,用于针对每个所述脱敏后的数据记录,将所述脱敏后的数据记录包括的特征分词进行编码处理,以得到的目标脱敏数据记录。


技术总结
本申请提供了一种数据脱敏方法及装置。其中,该方法通过获取存储于数据库中的目标数据集合,该集合中包含多条数据记录;对数据记录进行分词处理,得到对应的若干个分词,计算每个分词所出现的频率,若某分词出现的频率大于预设频率阈值,则将该分词作为特征分词;针对某条数据记录,将该数据记录中除特征分词之外的其他分词进行加密处理,以得到脱敏后的数据记录。该方法从目标数据集合中提取出出现频率较多的分词作为特征分词,对特征分词之外的分词进行加密处理,以得到加密后的数据记录。若某条数据记录被恶意用于所窃取,该恶意用户也无法获取到该数据记录中除特征分词之外的其他数据信息,进而保障数据记录的安全。

技术研发人员:杨华;李澜;景峰;马维青;张雪芹
受保护的技术使用者:国网山西省电力公司阳泉供电公司;国网汇通金财(北京)信息科技有限公司;国家电网有限公司
技术研发日:2019.09.05
技术公布日:2019.12.03
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1