敏感数据识别方法及电子设备与流程

文档序号:37416145发布日期:2024-03-25 19:04阅读:16来源:国知局
敏感数据识别方法及电子设备与流程

本技术属于人工智能,具体涉及一种敏感数据识别方法及电子设备。


背景技术:

1、在进行敏感数据识别时,通常直接使用多分类深度学习模型训练出文本分类模型,并使用文本分类模型预测文本是否为敏感数据以及敏感数据的类型。文本分类模型的输入数据一般是单一字段,即一条单一字段数据对应预测一种敏感数据类型。

2、由于当前的文本分类模型只能处理单一字段数据,对于可能存在多种类别数据的复杂的复合字段文本,则无法进行正确分类,因而导致敏感数据识别准确性差的问题。


技术实现思路

1、本技术提供一种敏感数据识别方法及电子设备,目的在于提高敏感数据的识别准确性。

2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。

3、根据本技术实施例的一个方面,提供一种敏感数据识别方法,该方法包括:

4、将待识别敏感数据的输入文本进行语义分割,得到一个或多个文本字段,所述文本字段包括一个或多个用于表示相同语义信息的文本字符;

5、根据预先训练的敏感等级识别模型对所述文本字段进行分类处理,得到所述文本字段在多个敏感等级上的分类概率,并选取分类概率最高的敏感等级作为所述文本字段的目标敏感等级;

6、根据与所述目标敏感等级相对应的敏感类型识别模型对所述文本字段进行分类处理,得到所述文本字段在多个敏感类型上的分类概率;

7、当分类概率最高的敏感类型是与所述目标敏感等级具有相关性的第一敏感类型时,将所述第一敏感类型作为所述文本字段的目标敏感类型;

8、当分类概率最高的敏感类型是与所述目标敏感等级具有互异性的第二敏感类型时,更新所述文本字段的目标敏感等级,并根据更新后的目标敏感等级识别所述文本字段的敏感类型。

9、根据本技术实施例的一个方面,提供一种敏感数据识别装置,该装置包括:

10、分割模块,被配置为将待识别敏感数据的输入文本进行语义分割,得到一个或多个文本字段,所述文本字段包括一个或多个用于表示相同语义信息的文本字符;

11、等级分类模块,被配置为根据预先训练的敏感等级识别模型对所述文本字段进行分类处理,得到所述文本字段在多个敏感等级上的分类概率,并选取分类概率最高的敏感等级作为所述文本字段的目标敏感等级;

12、类型分类模块,被配置为根据与所述目标敏感等级相对应的敏感类型识别模型对所述文本字段进行分类处理,得到所述文本字段在多个敏感类型上的分类概率;

13、第一类型确定模块,被配置为当分类概率最高的敏感类型是与所述目标敏感等级具有相关性的第一敏感类型时,将所述第一敏感类型作为所述文本字段的目标敏感类型;

14、第二类型确定模块,被配置为当分类概率最高的敏感类型是与所述目标敏感等级具有互异性的第二敏感类型时,更新所述文本字段的目标敏感等级,并根据更新后的目标敏感等级识别所述文本字段的敏感类型。

15、在本技术的一些实施例中,基于以上技术方案,所述分割模块包括:

16、字符识别模块,被配置为在待识别敏感数据的输入文本中,识别组成所述输入文本的各个字符的字符类型;

17、文本拆分模块,被配置为根据所述字符类型将所述输入文本拆分为一个或多个字符串,所述字符串包括一个或多个具有相同字符类型的连续字符;

18、语义分割模块,被配置为当所述字符串的长度大于预设的长度阈值时,将所述字符串进行语义分割,得到一个或多个文本字段。

19、在本技术的一些实施例中,基于以上技术方案,所述语义分割模块包括:

20、一致性校验模块,被配置为对所述字符串中的各个字符与在前的一个或多个连续字符进行语义信息的一致性校验,得到所述字符与所述一个或多个连续字符用于表示相同语义信息的一致性概率;

21、字符组合模块,被配置为当所述一致性概率大于预设的概率阈值时,将所述字符与所述一个或多个连续字符组成表示相同语义信息的文本字段。

22、在本技术的一些实施例中,基于以上技术方案,所述一致性校验模块包括:

23、数据库获取模块,被配置为获取用于对字符串进行语义信息的一致性校验的文本数据库;

24、第一字段检索模块,被配置为在所述文本数据库中对所述字符与在前的一个或多个连续字符组成的第一字段进行字段检索,得到所述第一字段在所述文本数据库中的第一分布频次;

25、第二字段检索模块,被配置为在所述文本数据库中对所述一个或多个连续字符组成的第二字段进行字段检索,得到所述第二字段在所述文本数据库中的第二分布频次;

26、一致性概率确定模块,被配置为根据所述第一分布频次与所述第二分布频次的比值确定所述字符与所述一个或多个连续字符用于表示相同语义信息的一致性概率。

27、在本技术的一些实施例中,基于以上技术方案,第二类型确定模块进一步被配置为:依次将所述文本字段的目标敏感等级更新为分类概率次高的敏感等级,并根据与所述分类概率次高的敏感等级相对应的敏感类型识别模型对所述文本字段进行分类处理,直至得到所述文本字段的目标敏感类型。

28、在本技术的一些实施例中,基于以上技术方案,所述等级分类模块包括:

29、字符映射模块,被配置为对所述文本字段中的各个字符进行映射处理,得到与所述字符相对应的词向量;

30、特征提取模块,被配置为将所述文本字段中的各个字符的词向量取平均值,得到所述文本字段的文本特征;

31、特征分类模块,被配置为根据预先训练的敏感等级识别模型对所述文本特征进行分类处理,得到所述文本字段在多个敏感等级上的分类概率。

32、在本技术的一些实施例中,基于以上技术方案,所述装置还包括敏感等级识别模型训练模块,被配置为:

33、获取用于训练敏感等级识别模型的样本数据,所述样本数据包括字段样本以及与所述字段样本相关联的敏感等级标签;

34、根据所述敏感等级识别模型对所述字段样本进行分类处理,得到所述字段样本在多个敏感等级上的分类预测信息,所述分类预测信息与所述字段样本的分类概率呈正相关关系;

35、根据所述敏感等级标签与所述分类预测信息确定所述敏感等级识别模型的损失误差,并根据所述损失误差更新所述敏感等级识别模型的模型参数。

36、在本技术的一些实施例中,基于以上技术方案,所述装置还包括敏感类型识别模型训练模块,被配置为:

37、获取用于训练敏感类型识别模型的样本数据,所述样本数据包括字段样本以及与所述字段样本相关联的敏感等级标签和敏感类型标签;

38、根据所述敏感等级识别模型对所述字段样本进行分类处理,得到所述字段样本在多个敏感等级上的分类概率,并选取分类概率最高的敏感等级作为所述字段样本的预测敏感等级;

39、根据所述分类概率确定所述字段样本的误差权重,所述误差权重包括与所述预测敏感等级相对应的第一误差权重以及与所述敏感类型标签相对应的第二误差权重;

40、根据与所述预测敏感等级相对应的敏感类型识别模型对所述字段样本进行分类处理,得到所述字段样本在多个敏感类型上的分类预测信息,并根据所述第一误差权重和所述分类预测信息更新与所述预测敏感等级相对应的敏感类型识别模型的模型参数;

41、根据与所述敏感类型标签相对应的敏感类型识别模型对所述字段样本进行分类处理,得到所述字段样本在多个敏感类型上的分类预测信息,并根据所述第二误差权重和所述分类预测信息更新与所述敏感类型标签相对应的敏感类型识别模型的模型参数。

42、在本技术的一些实施例中,基于以上技术方案,所述误差权重与所述字段样本在多个敏感等级上的分类概率呈负相关关系。

43、根据本技术实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的敏感数据识别方法。

44、根据本技术实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为执行所述可执行指令来实现如以上技术方案中的敏感数据识别方法。

45、根据本技术实施例的一个方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如以上技术方案中的敏感数据识别方法。

46、在本技术实施例提供的技术方案中,通过将待识别敏感数据的输入文本进行语义分割得到一个或多个文本字段,可以根据预先训练的敏感等级识别模型对文本字段进行分类处理,得到文本字段在多个敏感等级上的分类概率,并选取分类概率最高的敏感等级作为文本字段的目标敏感等级;然后根据与目标敏感等级相对应的敏感类型识别模型对文本字段进行分类处理,得到文本字段在多个敏感类型上的分类概率;当分类概率最高的敏感类型是与目标敏感等级具有相关性的第一敏感类型时,将第一敏感类型作为文本字段的目标敏感类型;当分类概率最高的敏感类型是与目标敏感等级具有互异性的第二敏感类型时,更新文本字段的目标敏感等级,并根据更新后的目标敏感等级识别文本字段的敏感类型。本技术实施例采用将待识别敏感数据按照语义信息分割为文本字段的方式,可以有效识别复杂文本中包含的敏感数据,同时采用先识别敏感等级并根据每个敏感等级对应地进行敏感类型识别,可以缩小文本字段的敏感类型识别范围,因此能够提高敏感数据的识别效率。

47、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1