敏感数据的识别模型的获取方法、装置、电子设备及介质与流程

文档序号:36783496发布日期:2024-01-23 11:57阅读:25来源:国知局
敏感数据的识别模型的获取方法、装置、电子设备及介质与流程

本技术涉及数据处理,具体而言,涉及一种敏感数据的识别模型的获取方法、装置、电子设备及介质。


背景技术:

1、企业对个人敏感数据的使用日趋保守。目前,如需使用个人敏感信息用于数据分析挖掘工作,如黑名单扫描模型优化、集团内不同专业公司客户信息匹配模型建设等,均只能按次、按需经过审批后,由数据中心的操作员到生产环境导出至本地,手工加密发送用户使用。待用户使用完成后,用户需及时销毁数据并提供销毁证据,公司层面需定期对敏感数据使用进行评审,确保数据不泄露。

2、目前的数据脱敏,均需要花费大量的人力物力梳理和辨别全行几百个应用系统几十万张数据表,确定每张表是否涉及敏感信息,并根据梳理结果进行脱敏处理,以满足敏感信息安全管理条例,涉及的工作量较大。且一旦数据表发生变更,应用系统的sic需同步更新,无法保证及时、准确和不遗漏。


技术实现思路

1、本技术实施例的目的在于提供一种敏感数据的识别模型的获取方法、装置、电子设备及介质,用以可实时识别敏感信息字段,高效地实现敏感数据的动态脱敏。

2、第一方面,提供了一种敏感数据的识别模型的获取方法,该方法可以包括:

3、获取训练样本和相应样本标注信息构建的样本数据集;所述训练样本包括所述非涉敏类型的数据字段和不同涉敏类型的数据字段;

4、对任一类型的数据字段进行分词处理,得到相应类型的不同样本分词的文本向量;

5、基于所述不同类型下不同样本分词的文本向量和相应的样本标注信息,对待训练的深度学习模型进行迭代训练,得到敏感信息识别模型。

6、在一个可能的实现中,所述敏感信息识别模型包括输入层、第一隐藏层、第二隐藏层和一个softmax层;

7、所述待训练的深度学习模型的训练过程包括:

8、输入层输入任一类型下的任一样本分词的文本向量,并将其传输至第一隐藏层;

9、第一隐藏层对所述不同样本分词的文本向量进行叠加平均,得到相应类型对应的平均向量,并将其传输至第二隐藏层;

10、第二隐藏层基于配置的线性处理算法,对接收的各类型对应的平均向量进行线性变换,并将数据变换结果输出至softmax层;所述配置的线性处理算法中不同类型赋予不同的权重参数;

11、softmax层对接收的数据变换结果进行分类;

12、若分类结果与相应文本向量对应的样本标注信息不满足预设损失条件,则对所述待训练的深度学习模型中的各参数进行调节,并返回向第一隐藏层输入任一类型下其他样本分词的文本向量,直至分类结果与相应文本向量对应的样本标注信息满足预设损失条件。

13、在一个可能的实现中,所述非涉敏类型或不同涉敏类型的数据字段包括英文名字段、中文名字段和数据内容字段。

14、在一个可能的实现中,对任一类型的数据字段进行分词处理,得到相应类型的不同样本分词的文本向量,包括:

15、按照字段字符顺序,对任一类型的数据字段进行分词,得到相应数据字段的不同样本分词,所述不同样本分词包括数据字段中至少两个字符组合的样本分词;

16、使用word2vec,将所述不同样本分词转化为相应的文本向量。

17、在一个可能的实现中,得到敏感信息识别模型之后,所述方法还包括:

18、搭建虚拟桌面,同时pc段的用户通过虚拟桌面的浏览器或客户端,向配置的分布式涉敏数据库发送数据请求;

19、对所述数据请求对应的请求数据进行字段识别,确定所述不同类型的当前数据字段;

20、对所述任一类型的当前数据字段进行分词处理,得到相应类型的不同样本分词的当前文本向量;

21、将当前文本向量输入所述敏感信息识别模型,得到所述敏感信息识别模型输出的识别结果;

22、若所述识别结果为所述当前文本向量是敏感数据,则对所述当前文本向量进行加密后通过所述虚拟桌面实现数据与pc端的互传。

23、在一个可能的实现中,获取训练样本和相应样本标注信息构建的样本数据集,构建样本数据集,包括:

24、获取初始训练集中的各少数类初始训练样本;初始训练集包括少数类初始训练样本、多数类初始训练样本和相应样本标注信息;

25、采用预设插值算法,对各少数类初始训练样本进行插值,得到各少数类初始训练样本对应的插值训练样本;其中,所述插值训练样本的样本标注信息与相应被插值的少数类初始训练样本的样本标注信息相同;

26、基于插值训练样本、多数类初始训练样本和相应样本标注信息,构建样本数据集。

27、第二方面,提供了一种敏感数据的识别模型的获取装置,该装置可以包括:

28、获取单元,用于获取训练样本和相应样本标注信息构建的样本数据集;所述训练样本包括非涉敏类型的数据字段和不同涉敏类型的数据字段;

29、分词单元,用于对任一类型的数据字段进行分词处理,得到相应类型的不同样本分词的文本向量;

30、训练单元,用于基于所述不同类型下不同样本分词的文本向量和相应的样本标注信息,对待训练的深度学习模型进行迭代训练,得到敏感信息识别模型。

31、在一个可能的实现中,所述敏感信息识别模型包括输入层、第一隐藏层、第二隐藏层和一个softmax层;

32、所述待训练的深度学习模型的训练过程包括:

33、输入层输入任一类型下的任一样本分词的文本向量,并将其传输至第一隐藏层;

34、第一隐藏层对所述不同样本分词的文本向量进行叠加平均,得到相应类型对应的平均向量,并将其传输至第二隐藏层;

35、第二隐藏层基于配置的线性处理算法,对接收的各类型对应的平均向量进行线性变换,并将数据变换结果输出至softmax层;所述配置的线性处理算法中不同类型赋予不同的权重参数;

36、softmax层对接收的数据变换结果进行分类;

37、若分类结果与相应文本向量对应的样本标注信息不满足预设损失条件,则对所述待训练的深度学习模型中的各参数进行调节,并返回向第一隐藏层输入任一类型下其他样本分词的文本向量,直至分类结果与相应文本向量对应的样本标注信息满足预设损失条件。

38、第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

39、存储器,用于存放计算机程序;

40、处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。

41、第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

42、本技术提供的敏感数据的识别模型的获取方法在获取训练样本和相应样本标注信息构建的样本数据集;训练样本包括非涉敏类型的数据字段和不同涉敏类型的数据字段,对任一类型的数据字段进行分词处理,得到相应类型的不同样本分词的文本向量;之后,基于不同类型下不同样本分词的文本向量和相应的样本标注信息,对待训练的深度学习模型进行迭代训练,得到敏感信息识别模型。该方法可实时识别敏感信息字段,高效地实现敏感数据的动态脱敏。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1