敏感数据识别方法、装置、设备以及存储介质与流程

文档序号:36247580发布日期:2023-12-02 14:14阅读:35来源:国知局
敏感数据识别方法与流程

本申请涉及数据安全,尤其涉及一种敏感数据识别方法、装置、设备以及存储介质。


背景技术:

1、在相关技术中,通常会将敏感数据识别问题转化为文本分类问题,针对特定场景制定语法规则,并通过语法规则对文本进行匹配识别。

2、虽然此类识别方法对于诸如电话号码、ip地址和邮箱地址等的简单文本具有较好的识别效果,但对于诸如姓名、地址和公司名称等的复杂文本,却难以设计出覆盖率较高的语法规则,导致敏感数据的识别效果较差。


技术实现思路

1、本申请的主要目的在于提供一种敏感数据识别方法、装置、设备以及存储介质,旨在解决敏感数据的识别效果较差的问题。

2、为实现上述目的,本申请提供一种敏感数据识别方法,所述方法包括:

3、获取待识别数据;

4、基于待识别数据,获得非汉字待识别数据和汉字待识别数据;

5、通过预设规则识别器对非汉字待识别数据进行敏感数据识别,获得第一识别结果;

6、通过预训练的敏感识别模型对汉字待识别数据进行敏感数据识别,获得第二识别结果;

7、基于第一识别结果和第二识别结果,获得敏感数据识别结果。

8、可选地,通过预设规则识别器对非汉字待识别数据进行敏感数据识别,获得第一识别结果,包括:

9、将非汉字待识别数据与预设规则识别器中多个正则表达式进行匹配,获得匹配结果;

10、基于匹配结果,获得第一识别结果。

11、可选地,基于匹配结果,获得第一识别结果,包括:

12、若非汉字待识别数据与正则表达式匹配,则将非汉字待识别数据识别为正则表达式对应种类的敏感数据;

13、若非汉字待识别数据与正则表达式不匹配,则将非汉字待识别数据作为非敏感数据。

14、可选地,正则表达式包括手机号正则表达式、邮箱地址正则表达式、ip地址正则表达式和银行卡号正则表达式中的至少一种。

15、可选地,通过预训练的敏感识别模型对汉字待识别数据进行敏感数据识别,获得第二识别结果之前,还包括:

16、获取语料数据集;其中,语料数据集包括公司名称、客户名称和地址等至少一类敏感数据以及非敏感数据;

17、基于语料数据集训练bert模型,获得敏感识别模型。

18、可选地,敏感识别模型包括概率计算层,概率计算层连接于bert模型的输出层;

19、概率计算层用于计算汉字待识别数据属于每个敏感类别的概率,根据概率,获得第二识别结果。

20、可选地,非汉字待识别数据包括数字型数据和字母型数据中的至少一种。

21、此外,为实现上述目的,本申请还提出一种敏感数据识别装置,装置包括:

22、数据获取模块,用于获取待识别数据;

23、待识别数据划分模块,用于基于待识别数据,获得非汉字待识别数据和汉字待识别数据;

24、第一识别模块,用于通过预设规则识别器对非汉字待识别数据进行敏感数据识别,获得第一识别结果;

25、第二识别模块,用于通过预训练的敏感识别模型对汉字待识别数据进行敏感数据识别,获得第二识别结果;

26、识别结果生成模块,用于基于第一识别结果和第二识别结果,获得敏感数据识别结果。

27、此外,为实现上述目的,本申请还提出一种敏感数据识别设备,其特征在于,包括:处理器,存储器以及存储在所述存储器中的计算机程序,计算机程序被处理器运行时实现敏感数据识别方法的步骤。

28、此外,为实现上述目的,本申请还提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现敏感数据识别方法。

29、本申请提供的敏感数据识别方法中,将获取的待识别数据分为非汉字待识别数据和汉字待识别数据,再通过预设规则识别器对非汉字待识别数据进行敏感数据识别,获得第一识别结果;通过预训练的敏感识别模型对汉字待识别数据进行敏感数据识别,获得第二识别结果,在此基础上将第一识别结果和第二识别结果整合形成最终的敏感数据识别结果。从而可以对汉字和非汉字的待识别数据针对性识别,由此可以有效提升敏感数据的识别效果。



技术特征:

1.一种敏感数据识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的敏感数据识别方法,其特征在于,所述通过预设规则识别器对所述非汉字待识别数据进行敏感数据识别,获得第一识别结果,包括:

3.根据权利要求2所述的敏感数据识别方法,其特征在于,所述基于所述匹配结果,获得所述第一识别结果,包括:

4.根据权利要求2所述的敏感数据识别方法,其特征在于,所述正则表达式包括手机号正则表达式、邮箱地址正则表达式、ip地址正则表达式和银行卡号正则表达式中的至少一种。

5.根据权利要求1所述的敏感数据识别方法,其特征在于,所述通过预训练的敏感识别模型对所述汉字待识别数据进行敏感数据识别,获得第二识别结果之前,还包括:

6.根据权利要求5所述的敏感数据识别方法,其特征在于,所述敏感识别模型包括概率计算层,所述概率计算层连接于所述bert模型的输出层;

7.根据权利要求1所述的敏感数据识别方法,其特征在于,所述非汉字待识别数据包括数字型数据和字母型数据中的至少一种。

8.一种敏感数据识别装置,其特征在于,所述装置包括:

9.一种敏感数据识别设备,其特征在于,包括:处理器,存储器以及存储在所述存储器中的计算机程序,所述计算机程序被所述处理器运行时实现如权利要求1至7中任一项所述敏感数据识别方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的敏感数据识别方法。


技术总结
本申请公开了一种敏感数据识别方法、装置、设备以及存储介质,属于数据安全技术领域。该方法包括获取待识别数据;基于待识别数据,获得非汉字待识别数据和汉字待识别数据;通过预设规则识别器对非汉字待识别数据进行敏感数据识别,获得第一识别结果;通过预训练的敏感识别模型对汉字待识别数据进行敏感数据识别,获得第二识别结果;基于第一识别结果和第二识别结果,获得敏感数据识别结果。本申请可以有效提升敏感数据的识别效果。

技术研发人员:邹修箭,陈翔,夏宇声
受保护的技术使用者:招商银行股份有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1