公共网络敏感数据自动分类识别方法及装置与流程

文档序号：35962590发布日期：2023-11-09 01:26阅读：55来源：国知局

本发明涉及数据安全，尤其涉及一种公共网络敏感数据自动分类识别方法及装置。

背景技术：

1、敏感数据,是指泄漏后可能会给社会或个人带来严重危害的数据。敏感数据的识别与分类是指根据已有的知识库，从海量数据中提取对应的重要敏感数据，并按照重要级别对这些数据进行分类。目前环境下出于对数据安全的考虑，急需解决对公共网络空间中可能存在的敏感数据泄露的风险，因此需要对敏感数据做识别，并按照一定的标准进行分类分级保护。当前的敏感数据识别方法主要有两种，第一种是通过人工指定，比如通过模版来指定敏感数据的格式；第二种方式就是自动识别，比如基于自然语言处理等技术进行敏感数据识别的自动识别方案。

2、国内外数据安全解决方案提供商的研究主要集中在以下两点：一是敏感数据识别技术；二是数据隐私保护计算。但集中于特定行业和领域，且数据都有一定密级难以处理。目前国内外还没有能提供全公共网络的敏感数据智能准确分类和识别的解决方案，原因在于，对于公共网络，其所需先验知识较多，不同领域之间的需求和差异较大。

技术实现思路

1、针对上述问题，本发明提出一种公共网络敏感数据自动分类识别方法及装置，主要解决常用神经网络模型对于敏感数据的处理速度慢、泛化能力弱的问题。

2、为解决上述技术问题，本发明第一方面提出一种公共网络敏感数据自动分类识别方法，包括以下步骤：

3、s1，从公共网络获取分行业的数据，以及所述数据相应的分类标准，形成训练数据集；

4、s2，使用实体识别模型对所述训练数据集进行分词切割和实体抽取，得到以三元组格式存储的知识图谱；

5、s3，基于信息熵自定义敏感值公式，根据所述敏感值公式计算所述知识图谱的三元组的敏感值，按照所述敏感值的分布对所述三元组的实体关系进行聚类，初步划分为敏感三元组和不敏感三元组；

6、s4，将所述敏感三元组输入分类学习模型进行分类识别，得到分类后的较敏感三元组和非常敏感三元组；

7、s5，使用知识图谱补全算法对所述非常敏感三元组的隐式关系进行补全，得到与敏感数据存在关联的完整三元组。

8、在一些实施方式中，在s1中，根据所述分类标准对所述数据进行数据清洗以及分类，形成所述训练数据集。

9、在一些实施方式中，在s2中，所述实体识别模型为bert预训练模型、bilstm语义模型和crf识别模型的耦合体，其中，所述bert预训练模型用于提取所述训练数据集中的词在句子中的关系特征，所述bilstm语义模型捕捉所述训练数据集中的句子的序列依赖关系，并输出标注序列，所述crf识别模型定义一个特征函数集，所述特征函数集内的每个特征函数以所述标注序列作为输入，提取的特征作为输出。

10、在一些实施方式中，在s2中，所述实体识别模型将识别到的任意两个实体，以及两个所述实体之间的关系，以三元组格式存储。

11、在一些实施方式中，在s2中，按照所述关系对对应的的三元组进行标记，并对所述关系以语义相似度为基础进行整理和分组，得到所述知识图谱。

12、在一些实施方式中，在s3中，根据所述敏感值公式计算所述知识图谱的三元组的敏感值，得到对应的所述关系的敏感值；按照所述敏感值的大小对所述三元组的实体关系进行kmeans聚类，初步划分为所述敏感三元组和所述不敏感三元组；剔除所述不敏感三元组，保留的所述敏感三元组按照所述敏感值的大小进行排序；将排序后的所述敏感三元组作为所述分类学习模型的输入。

13、在一些实施方式中，在s4中，所述敏感三元组输入分类学习模型，设置敏感数据阈值，按照所述敏感数据阈值将所述敏感三元组的输出分类结果设置为所述较敏感三元组和所述非常敏感三元组两个级别。

14、在一些实施方式中，在s5中，将所述非常敏感三元组作为种子集，其他所有的三元组作为候选集，然后补全所述种子集与所述候选集之间可能存在的隐式关系；使用评分函数对所述候选集进行评分；从所述候选集中选取评分高于预设分数的实体，选取对应的所述种子集对所述候选集中的实体或关系进行补全，形成新增三元组；所述新增三元组较敏感归入所述较敏感三元组。

15、本发明第二方面提出一种公共网络敏感数据自动分类识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

16、本发明第三方面提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

17、本发明的有益效果为：通过预先建立知识图谱，并且利用信息熵自定义敏感值公式应用于敏感数据和关联关系预处理识别阶段，有效解决常用神经网络模型速度慢、泛化能力弱的问题，并且也可省去专业人员对于数据集的维护，真正达到免配置和自动功能的实现，为用户带来价值提升。

技术特征：

1.一种公共网络敏感数据自动分类识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的公共网络敏感数据自动分类识别方法，其特征在于，在s1中，根据所述分类标准对所述数据进行数据清洗以及分类，形成所述训练数据集。

3.如权利要求1所述的公共网络敏感数据自动分类识别方法，其特征在于，在s2中，所述实体识别模型为bert预训练模型、bilstm语义模型和crf识别模型的耦合体，其中，所述bert预训练模型用于提取所述训练数据集中的词在句子中的关系特征，所述bilstm语义模型捕捉所述训练数据集中的句子的序列依赖关系，并输出标注序列，所述crf识别模型定义一个特征函数集，所述特征函数集内的每个特征函数以所述标注序列作为输入，提取的特征作为输出。

4.如权利要求1所述的公共网络敏感数据自动分类识别方法，其特征在于，在s2中，所述实体识别模型将识别到的任意两个实体，以及两个所述实体之间的关系，以三元组格式存储。

5.如权利要求4所述的公共网络敏感数据自动分类识别方法，其特征在于，在s2中，按照所述关系对对应的的三元组进行标记，并对所述关系以语义相似度为基础进行整理和分组，得到所述知识图谱。

6.如权利要求1所述的公共网络敏感数据自动分类识别方法，其特征在于，在s3中，根据所述敏感值公式计算所述知识图谱的三元组的敏感值，得到对应的所述关系的敏感值；按照所述敏感值的大小对所述三元组的实体关系进行kmeans聚类，初步划分为所述敏感三元组和所述不敏感三元组；剔除所述不敏感三元组，保留的所述敏感三元组按照所述敏感值的大小进行排序；将排序后的所述敏感三元组作为所述分类学习模型的输入。

7.如权利要求1所述的公共网络敏感数据自动分类识别方法，其特征在于，在s4中，所述敏感三元组输入分类学习模型，设置敏感数据阈值，按照所述敏感数据阈值将所述敏感三元组的输出分类结果设置为所述较敏感三元组和所述非常敏感三元组两个级别。

8.如权利要求1所述的公共网络敏感数据自动分类识别方法，其特征在于，在s5中，将所述非常敏感三元组作为种子集，其他所有的三元组作为候选集，然后补全所述种子集与所述候选集之间可能存在的隐式关系；使用评分函数对所述候选集进行评分；从所述候选集中选取评分高于预设分数的实体，选取对应的所述种子集对所述候选集中的实体或关系进行补全，形成新增三元组；所述新增三元组较敏感归入所述较敏感三元组。

9.一种公共网络敏感数据自动分类识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一所述方法的步骤。

技术总结
本发明公开一种公共网络敏感数据自动分类识别方法及装置，该方法包括：从公共网络获取分行业的数据，以及数据相应的分类标准，形成训练数据集；使用实体识别模型对训练数据集进行分词切割和实体抽取，得到以三元组格式存储的知识图谱；基于信息熵自定义敏感值公式，根据敏感值公式计算知识图谱的三元组的敏感值，按照敏感值的分布对三元组的实体关系进行聚类，初步划分为敏感三元组和不敏感三元组；将敏感三元组输入分类学习模型进行分类识别，得到分类后的较敏感三元组和非常敏感三元组；使用知识图谱补全算法对非常敏感三元组的隐式关系进行补全。本发明的有益效果是：有效解决常用神经网络模型速度慢、泛化能力弱的问题。

技术研发人员：崔巍,田炜斌,许勇
受保护的技术使用者：人工智能与数字经济广东省实验室（广州）
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔巍田炜斌许勇
技术所有人：人工智能与数字经济广东省实验室（广州）
我是此专利的发明人

上一篇：液态放射源施源装置的制作方法
上一篇：一种高力学性能阻燃复合材料的制备方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。