文本脱敏处理方法及装置与流程

文档序号:34907385发布日期:2023-07-27 19:18阅读:255来源:国知局
文本脱敏处理方法及装置与流程

本发明涉及数据安全防护,具体而言,涉及一种文本脱敏处理方法及装置。


背景技术:

1、目前,各行积累了大量包含银行卡号、客户姓名、手机号、地址敏感信息的文档。此外,对数据安全要求也在不断提高。然而,对于数据的管理以及保存却存在着安全隐患,例如,一些敏感数据存在泄漏的风险,相关技术中并未提供安全可靠的措施。

2、针对上述相关技术中用于进行数据管理的方式可靠性较低,容易导致数据泄漏的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本发明实施例提供了一种文本脱敏处理方法及装置,以至少解决相关技术中用于进行数据管理的方式可靠性较低,容易导致数据泄漏的技术问题。

2、根据本发明实施例的一个方面,提供了一种文本脱敏处理方法,包括:对目标文本进行分词处理,得到多个词语,其中,所述目标文本为需要进行脱敏处理的文本;将所述多个词语与敏感信息词库进行匹配,得到所述多个词语中的至少一个敏感词,其中,所述敏感信息词库是基于多个样本文本预先构建,并包含多个参考敏感词的词库,所述多个样本文本对应的领域与所述目标文本对应的领域相同;确定所述目标文本中至少一个用户的识别码,其中,所述识别码用于唯一标识所述用户;确定所述用户的识别码的哈希值,并将所述哈希值作为所述至少一个敏感词的密钥;基于所述至少一个敏感词的密钥和所述至少一个敏感词的长度确定所述至少一个敏感词的脱敏词;利用所述脱敏词替换所述至少一个敏感词,以对所述目标文本进行脱敏处理。

3、可选地,在对目标文本进行分词处理之前,还包括:对所述目标文本进行清洗处理,其中,所述清洗处理包括以下至少之一操作:拼接纠错处理、字符大小写转换处理、标点符号转换处理、特殊符号识别处理。

4、可选地,对目标文本进行分词处理,包括以下之一:利用双向最大匹配法对所述目标文本进行分词处理;利用隐马尔可夫算法对所述目标文本进行分词处理;利用条件随机场方式对所述目标文本进行分词处理。

5、可选地,将所述多个词语与敏感信息词库进行匹配,得到所述多个词语中的至少一个敏感词,包括:通过预定方式识别所述多个词语中的每一个进行词性标注,得到标注后的所述多个词语,其中,所述预定方式包括以下之一:隐马尔可夫算法、条件随机场方式;确定所述目标文本中敏感词的词性;确定标注后的所述多个词语中与所述词性相同的部分词语;将所述部分词语与所述敏感信息词库进行匹配,得到所述多个词语中的所述至少一个敏感词。

6、可选地,基于所述至少一个敏感词的密钥和所述至少一个敏感词的长度确定所述至少一个敏感词的脱敏词,包括:基于所述至少一个敏感词中的每一个的长度选择至少一个字符;根据所述密钥和所述至少一个字符对所述至少一个敏感词做对称加密,得到对称加密后的所述至少一个敏感词;确定所述哈希值的零宽度字符;将所述零宽度字符增加至对称加密后的所述至少一个敏感词,得到所述至少一个敏感词的脱敏词。

7、可选地,将所述零宽度字符增加至对称加密后的所述密钥,得到所述至少一个敏感词的脱敏词,包括:在将所述零宽度字符增加至对称加密后的所述密钥,得到所述至少一个敏感词的初始脱敏词后,对所述初始脱敏词添加水印,得到所述至少一个敏感词的脱敏词。

8、可选地,该文本脱敏处理方法还包括:在数据追溯时,提取脱敏处理后的所述目标文本中的水印信息,得到去除水印的所述目标文本;从去除水印的所述目标文本中解码出所述零宽度字符,还原得到所述识别码。

9、可选地,该文本脱敏处理方法还包括:在数据追溯时,利用所述密钥解析脱敏后的所述至少一个敏感词;将脱敏后的所述至少一个脱敏词语与脱敏前的所述至少一个脱敏词进行比对,还原得到所述识别码。

10、可选地,利用所述脱敏词替换所述至少一个敏感词,包括:确定所述至少一个敏感词在所述目标文本中的位置;按照所述位置在所述目标文本中定位所述至少一个敏感词;在所述目标文本的原始文本格式的基础上,利用所述脱敏词替换定位所得的所述至少一个敏感词。

11、根据本发明实施例的另外一个方面,还提供了一种文本脱敏处理装置,包括:分词单元,用于对目标文本进行分词处理,得到多个词语,其中,所述目标文本为需要进行脱敏处理的文本;匹配单元,用于将所述多个词语与敏感信息词库进行匹配,得到所述多个词语中的至少一个敏感词,其中,所述敏感信息词库是基于多个样本文本预先构建,并包含多个参考敏感词的词库,所述多个样本文本对应的领域与所述目标文本对应的领域相同;第一确定单元,用于确定所述目标文本中至少一个用户的识别码,其中,所述识别码用于唯一标识所述用户;第二确定单元,用于确定所述用户的识别码的哈希值,并将所述哈希值作为所述至少一个敏感词的密钥;第三确定单元,用于基于所述至少一个敏感词的密钥和所述至少一个敏感词的长度确定所述至少一个敏感词的脱敏词;脱敏单元,用于利用所述脱敏词替换所述至少一个敏感词,以对所述目标文本进行脱敏处理。

12、可选地,在对目标文本进行分词处理之前,该文本脱敏处理装置还包括:清洗单元,用于对所述目标文本进行清洗处理,其中,所述清洗处理包括以下至少之一操作:拼接纠错处理、字符大小写转换处理、标点符号转换处理、特殊符号识别处理。

13、可选地,所述分词单元,包括以下之一:第一分词模块,用于利用双向最大匹配法对所述目标文本进行分词处理;第二分词模块,用于利用隐马尔可夫算法对所述目标文本进行分词处理;第三分词模块,用于利用条件随机场方式对所述目标文本进行分词处理。

14、可选地,所述匹配单元,包括:标注模块,用于通过预定方式识别所述多个词语中的每一个进行词性标注,得到标注后的所述多个词语,其中,所述预定方式包括以下之一:隐马尔可夫算法、条件随机场方式;第一确定模块,用于确定所述目标文本中敏感词的词性;第二确定模块,用于确定标注后的所述多个词语中与所述词性相同的部分词语;匹配模块,用于将所述部分词语与所述敏感信息词库进行匹配,得到所述多个词语中的所述至少一个敏感词。

15、可选地,所述第三确定单元,包括:选择模块,用于基于所述至少一个敏感词中的每一个的长度选择至少一个字符;加密模块,用于根据所述密钥和所述至少一个字符对所述至少一个敏感词做对称加密,得到对称加密后的所述至少一个敏感词;第三确定模块,用于确定所述哈希值的零宽度字符;获取模块,用于将所述零宽度字符增加至对称加密后的所述至少一个敏感词,得到所述至少一个敏感词的脱敏词。

16、可选地,所述获取模块,包括:添加子模块,用于在将所述零宽度字符增加至对称加密后的所述密钥,得到所述至少一个敏感词的初始脱敏词后,对所述初始脱敏词添加水印,得到所述至少一个敏感词的脱敏词。

17、可选地,该文本脱敏处理装置还包括:提取模块,用于在数据追溯时,提取脱敏处理后的所述目标文本中的水印信息,得到去除水印的所述目标文本;解码模块,用于从去除水印的所述目标文本中解码出所述零宽度字符,还原得到所述识别码。

18、可选地,该文本脱敏处理装置还包括:解析模块,用于在数据追溯时,利用所述密钥解析脱敏后的所述至少一个敏感词;比对模块,用于将脱敏后的所述至少一个脱敏词语与脱敏前的所述至少一个脱敏词进行比对,还原得到所述识别码。

19、可选地,所述脱敏单元,包括:第四确定模块,用于确定所述至少一个敏感词在所述目标文本中的位置;定位模块,用于按照所述位置在所述目标文本中定位所述至少一个敏感词;替换模块,用于在所述目标文本的原始文本格式的基础上,利用所述脱敏词替换定位所得的所述至少一个敏感词。

20、根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行上述中任意一项所述的文本脱敏处理方法。

21、根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的文本脱敏处理方法。

22、在本发明实施例中,对目标文本进行分词处理,得到多个词语,其中,目标文本为需要进行脱敏处理的文本;将多个词语与敏感信息词库进行匹配,得到多个词语中的至少一个敏感词,其中,敏感信息词库是基于多个样本文本预先构建,并包含多个参考敏感词的词库,多个样本文本对应的领域与目标文本对应的领域相同;确定目标文本中至少一个用户的识别码,其中,识别码用于唯一标识用户;确定用户的识别码的哈希值,并将哈希值作为至少一个敏感词的密钥;基于至少一个敏感词的密钥和至少一个敏感词的长度确定至少一个敏感词的脱敏词;利用脱敏词替换至少一个敏感词,以对目标文本进行脱敏处理。通过本发明实施例提供的技术方案,实现了根据从目标文本中提取的用户的识别码的哈希值以及目标文本中敏感词的长度确定脱敏词,以利用脱敏词对目标文本中的敏感词进行脱敏处理的目的,提高了数据安全性,进而解决了相关技术中用于进行数据管理的方式可靠性较低,容易导致数据泄漏的技术问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1