一种基于图神经网络的敏感信息检测方法与流程

文档序号:34448477发布日期:2023-06-13 12:42阅读:94来源:国知局
一种基于图神经网络的敏感信息检测方法与流程

本发明涉及的是信息安全领域,涉及敏感信息监测技术,具体涉及一种基于图神经网络的敏感信息检测方法。


背景技术:

1、企业敏感数据包含这用户的敏感信息,一旦泄露不仅会对企业带来巨大的经济损失,也会对用户造成麻烦。因此如何保障企业敏感数据的安全,成为企业信息保护工作的重点。传统方法使用人工对照,人力成本高,灵活性差,同时会泄露敏感信息给检测人员。随着深度学习的发展,有些学者使用词向量的方法进行敏感信息检测。但是这种基于内容的检测方法,忽略了文本之间的关系,容易导致模型的误报率较高。本发明通过图结构来构建文本之间的关系,同时对数据进行同态加密,在保护用户隐私的情况下进行计算。解决了以往方法中检测过程中泄露敏感信息和缺乏文本之间关系导致的误报率过高的问题。


技术实现思路

1、针对现有技术上存在的不足,本发明目的是在于提供一种基于图神经网络的敏感信息检测方法,通过图结构构建各个文档之间的关系,解决了传统方法漏报率和误报率过高的问题,降低了人力成本。同时通过对用户数据进行同态加密的方法,保护了用户敏感数据的隐私性。

2、为了实现上述目的,本发明是通过如下的技术方案来实现:一种基于图神经网络的敏感信息检测方法,包括以下步骤:

3、1、收集训练集,训练数据分为两部分。第一部分是通过爬虫和人工在代码共享平台收集的非敏感信息。对收集的信息使用beautifulsoup库进行解析,并进行过滤只留下文本信息设置标签为(0,0,0,1)t。第二部分由用户提供的敏感信息,设置标签为(1,0,0,0)t,(0,1,0,0)t,(0,0,1,0)t,分别表示高、中、低敏感等级。

4、2、构建图结构,根据训练集构建图结构用于训练。图结构中,训练集中文本的词袋模型作为图结构中的节点,文本之间的jacard相似度作为节点之间边的权重。具体公式为:

5、

6、其中,di,dj表示两个文档分词后所得的词的集合,|di|表示词集合di中词的个数,|di∩dj|表示词集合di和dj之间交集的词个数,|di∪dj|表示词集合di和dj之间并集的词个数,|di-dj|表示词集合di和dj之间差集的词个数,α是一个超参数用于调节由于文档长度不同而引入的惩罚大小。

7、3、训练图神经网络,使用训练集构建的图结构训练图神经网络。通过采样子图的方式进行图神经网络的训练,直到损失函数不在下降。

8、4、收集检测数据,通过爬虫和人工的方法收集信息共享平台中的数据,并记录收集信息的来源和收集的时间。使用beautifulsoup库进行解析后,只保留文本信息。使用检测数据和训练数据一起构建用于检测的图结构。

9、5、使用训练好的图神经网络对步骤4中所述图结构进行节点分类。

10、6、判断检测的数据中是否有敏感数据,如无敏感信息则不做任何处理,如发现有任何敏感等级的敏感信息则记录下该敏感信息的敏感等级。根据步骤4所述数据的来源和收集时间生成敏感信息记录。

11、具体记录结构如下:

12、 敏感信息编号 敏感信息等级 敏感信息来源 敏感信息收集时间

13、作为优选,为了保护用户敏感信息的隐私性,所述步骤1的敏感信息使用同态加密技术对信息进行加密。

14、作为优选,所述的步骤3的模型使用采样子图的方式进行训练。节点的更新发生在一个子图中,而不是整张图。该子图由节点所有邻居通过随机采样得到的邻居节点构成。

15、作为优选,所述步骤3的损失函数为crossentropy loss。具体公式为:

16、

17、n是节点总数、yi表示节点i的真实标签、ai表示节点i的预测标签、σ是softmax激活函数。

18、本发明具有以下有益效果:

19、1、使用深度学习的方式来代替人工检测,大大的减少了人力成本。

20、2、使用图结构来表示整个文本集合,可以构建文本之间的关系,减少误警率,提高模型的检测效果。在构建测试图结构时,可以同时添加多个文档,大大的提高了检测效率。

21、3、使用同态加密,在用户可以指定敏感信息的同时保护用户数据的隐私性。



技术特征:

1.一种基于图神经网络的敏感信息检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于图神经网络的敏感信息检测方法,其特征在于,所述的步骤(2)的具体公式为:

3.根据权利要求1所述的一种基于图神经网络的敏感信息检测方法,其特征在于,为了保护用户敏感信息的隐私性,所述步骤(1)的敏感信息使用同态加密技术对信息进行加密。

4.根据权利要求1所述的一种基于图神经网络的敏感信息检测方法,其特征在于,所述的步骤(3)的模型使用采样子图的方式进行训练;节点的更新发生在一个子图中,而不是整张图;该子图由节点所有邻居通过随机采样得到的邻居节点构成。

5.根据权利要求1所述的一种基于图神经网络的敏感信息检测方法,其特征在于,所述步骤(3)的损失函数为crossentropy loss;具体公式为:


技术总结
本发明公开了一种基于图神经网络的敏感信息检测方法,从网络和用户处收集文本数据构建图结构。以文本的词袋模型作为图的节点,计算文本的Jacard相似度作为节点之间边的权重。在训练阶段,由用户指定敏感信息,并对用户提供的敏感信息进行同态加密以保护用户隐私。通过用户指定的敏感信息和在网络上收集的信息构建图结构用于模型训练。在检测阶段,通过对信息共享平台和黑客网站进行扫描获得数据,对数据进行预处理。把收集到的数据作为节点添加到图结构中,获得新的图结构,并利用图神经网络进行检测。本发明通过图结构构建各个文档之间的关系,降低了人力成本。同时通过对用户数据进行同态加密的方法,保护了用户敏感数据的隐私性。

技术研发人员:虞雁群,刘彦伸,吴艳,郭银锋
受保护的技术使用者:浙江御安信息技术有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1