1.一种数据脱敏方法,其特征在于,包括:
获得目标数据集合,所述目标数据集合包含相同内容类型的若干条数据记录;
对所述数据记录进行分词处理,得到所述数据记录的若干个分词;
计算各个分词在所有数据记录的所有分词中的出现频率;
将出现频率达到预设频率阈值的分词确定为特征分词;
针对每条数据记录,将所述数据记录包含的特征分词之外的分词进行加密处理,以得到脱敏后的数据记录。
2.根据权利要求1所述的数据脱敏方法,其特征在于,所述数据记录的数据类型为文字;则对所述数据记录进行分词处理,得到所述数据记录的若干个分词,包括:
获得与所述数据记录的内容类型对应的前缀词典,所述前缀词典包括所述内容类型的多个数据语料,且每个数据语料对应有若干种分词子结果;
在所述前缀词典包括的数据语料中,确定所述数据记录包含的目标数据语料;
分别从不同目标数据语料的分词子结果中获取一种分词子结果并依次进行组合,得到所述数据记录的分词总结果;
在数据记录的分词总结果中,确定目标分词总结果,其中所述目标分词总结果用于表示所述数据记录的若干个分词。
3.根据权利要求2所述的数据脱敏方法,其特征在于,所述前缀词典中的每种分词子结果具有对应的出现概率值;
则所述在数据记录的分词总结果中,确定目标分词总结果,包括:
针对数据记录的每一种分词总结果,从所述前缀词典中获得用于组合得到所述分词总结果的分词子结果的出现概率值;
将用于组合得到所述分词总结果的分词子结果的出现概率值进行相乘,得到所述分词总结果的出现概率总值;
将出现概率总值最大的分词总结果确定为目标分词总结果。
4.根据权利要求1所述的数据脱敏方法,其特征在于,所述数据记录的数据类型为字符串;则对所述数据记录进行分词处理,得到所述数据记录的若干个分词,包括:
确定与所述数据记录的内容类型对应的数据切分方式;
按照所述数据切分方式,对所述数据记录进行分词处理,得到所述数据记录的若干个分词。
5.根据权利要求1所述的数据脱敏方法,其特征在于,还包括:
针对每个所述脱敏后的数据记录,将所述脱敏后的数据记录包括的特征分词进行编码处理,以得到的目标脱敏数据记录。
6.一种数据脱敏装置,其特征在于,包括:
获取模块,用于获得目标数据集合,所述目标数据集合包含相同内容类型的若干条数据记录;
分词模块,用于对所述数据记录进行分词处理,得到所述数据记录的若干个分词;
计算模块,用于计算各个分词在所有数据记录的所有分词中的出现频率;
确定模块,用于将出现频率达到预设频率阈值的分词确定为特征分词;
加密模块,用于针对每条数据记录,将所述数据记录包含的特征分词之外的分词进行加密处理,以得到脱敏后的数据记录。
7.根据权利要求6所述的数据脱敏装置,其特征在于,所述数据记录的数据类型为文字;则所述分词模块在对所述数据记录进行分词处理,得到所述数据记录的若干个分词时,具体用于:
获得与所述数据记录的内容类型对应的前缀词典,所述前缀词典包括所述内容类型的多个数据语料,且每个数据语料对应有若干种分词子结果;在所述前缀词典包括的数据语料中,确定所述数据记录包含的目标数据语料;分别从不同目标数据语料的分词子结果中获取一种分词子结果并依次进行组合,得到所述数据记录的分词总结果;在数据记录的分词总结果中,确定目标分词总结果,其中所述目标分词总结果用于表示所述数据记录的若干个分词。
8.根据权利要求7所述的数据脱敏装置,其特征在于,所述前缀词典中的每种分词子结果具有对应的出现概率值;
则分词模块在数据记录的分词总结果中,确定目标分词总结果时,具体用于:
针对数据记录的每一种分词总结果,从所述前缀词典中获得用于组合得到所述分词总结果的分词子结果的出现概率值;将用于组合得到所述分词总结果的分词子结果的出现概率值进行相乘,得到所述分词总结果的出现概率总值;将出现概率总值最大的分词总结果确定为目标分词总结果。
9.根据权利要求6所述的数据脱敏装置,其特征在于,所述数据记录的数据类型为字符串;则所述分词模块在对所述数据记录进行分词处理,得到所述数据记录的若干个分词时,具体用于:
确定与所述数据记录的内容类型对应的数据切分方式;按照所述数据切分方式,对所述数据记录进行分词处理,得到所述数据记录的若干个分词。
10.根据权利要求6所述的数据脱敏装置,其特征在于,还包括:
编码模块,用于针对每个所述脱敏后的数据记录,将所述脱敏后的数据记录包括的特征分词进行编码处理,以得到的目标脱敏数据记录。