本发明涉及信息安全,具体涉及一种基于babelnet语义网的隐私信息泄露度量方法及系统。
背景技术:
1、长期以来,信息安全领域中如何准确度量隐私数据泄露都是一个难题:研究者们难以准确而统一地对隐私信息的泄露进行度量,继而影响隐私保护技术的发展。在隐私保护技术的发展过程中,准确而统一的隐私泄露度量可以帮助研究者们更好地进行各个场景下隐私信息保护技术的研究与完善,进而更加全面地保护隐私信息,但是传统隐私信息泄露度量方法只针对特定的隐私保护技术进行特定的隐私信息泄露风险度量,缺少统一的度量标准。
2、近年来,随着互联网技术的发展,语义网逐渐应用到了计算机技术的各个领域。语义网是一种智能网络,可以理解词语和概念以及它们之间的逻辑关系,使交流变得更加有效率与价值。基于以上特点,语义网经常被用于进行词义消歧、语义推理等工作,从概念间关系的角度解决自然语言处理相关任务。
3、babelnet语义网是一种多语言词汇语义网络,以自动映射的方式完成多语言网络百科全书维基百科与常用的英语计算词典wordnet进行链接,提供了多种语言的概念和命名实体,以及其间丰富的语义关系。通过将babelnet语义网与隐私信息泄露度量思路相结合,可以构建一套准确与标准的隐私信息泄露度量方法,为各种隐私保护技术的完善与发展提供理论基础,验证隐私保护技术的效果,促使研究者对隐私保护技术进行改进,以达到更高的隐私保护效果。同时,babelnet语义网多语言的特性可以使所构建的隐私信息泄露度量方法具有更好的普适性,可以应用在多种语言场景中。
4、但是,受限于语义网的庞大及其复杂的语义关系,传统的基于语义网的自然语言处理方法存在着效率较低,难以大规模应用的问题,并且隐私信息泄露度量方面的相关研究较少。因此,目前语义网在隐私信息泄露度量方面的应用较为缺乏。
技术实现思路
1、针对现有技术中存在的不足之处,本发明提供一种基于babelnet语义网的隐私信息泄露度量方法及系统,供隐私保护领域的研究者们准确地掌握隐私信息泄露,从而更好地对隐私信息保护技术进行完善与创新。
2、本发明公开了一种基于babelnet语义网的隐私信息泄露度量方法,包括:
3、提取应用场景中的隐私信息,并将所述隐私信息映射到babelnet语义网的对应概念节点中,提取所述概念节点之间所包含的语义关系;
4、基于所述概念节点和语义关系,制定隐私泄露传递规则;
5、在babelnet语义网中,基于预设的遍历路径长度范围对每个已知隐私信息与目标隐私信息所对应的概念节点之间路径进行遍历,得到路径集合;
6、计算所述路径集合中每条语义边的权重值;
7、基于所述隐私泄露传递规则以及每条语义边的权重值,对每个已知隐私信息与目标隐私信息的每条路径的进行贡献值计算,将每条路径的贡献值进行求和,得到每个已知隐私信息对目标隐私信息泄露的贡献值;
8、根据已知隐私信息之间的关系,计算每个已知隐私信息的权重值;基于每个已知隐私信息的权重值对所有已知隐私信息对目标隐私信息泄露的贡献值进行加权求和,得到目标隐私信息泄露度量值。
9、作为本发明的进一步改进,所述将所述隐私信息映射到babelnet语义网的对应概念节点中,包括:
10、在babelnet语义网中搜索与隐私信息属性名、隐私信息具体内容相对应的多组概念节点;
11、对于单个具体内容相对应的多个概念节点,选择其中邻居节点最多的概念节点;
12、计算具体内容对应的概念节点与属性名对应的多个概念节点之间的平均路径长度,将隐私信息属性名与平均路径最短的概念节点建立映射。
13、作为本发明的进一步改进,所述隐私泄露传递规则基于“上位词—下位词”、“整体—部分”两大类语义关系进行制定,语义关系所连接的两个节点中,起点称为起始节点,从起始节点出发,语义关系所指向的节点称为终止节点;其中,
14、对于“上位词—下位词”关系,若上位词节点完全泄露,即泄露概率为1;则下位词节点的泄露概率为1/n,n为上位词节点的下位词节点个数;
15、对于“整体—部分”关系,其具有“整体—成员”、“整体—构件”两种情况;其中,对于“整体—成员”的情况,若整体节点完全泄露,即泄露概率为1;则部分节点的泄露概率为1/n,n为整体的部分节点个数;对于“整体—构件”的情况,若部分节点完全泄露,即泄露概率为1;则整体节点的泄露概率为1/n,n为部分的整体节点个数。
16、作为本发明的进一步改进,所述遍历路径长度范围根据应用场景需要进行设定,采用图的深度优先遍历算法对每个已知隐私信息与目标隐私信息所对应的概念节点之间路径进行遍历。
17、作为本发明的进一步改进,所述计算所述路径集合中每条语义边的权重值,包括:
18、基于babelnet语义网中的物理特征,对所述路径集合中每条语义边的两个节点间隐私信息泄露传递概率赋予权重,作为每条语义边的权重值。
19、本发明还公开了一种基于babelnet语义网的隐私信息泄露度量系统,包括:
20、传递规则制定模块,用于提取应用场景中的隐私信息,并将所述隐私信息映射到babelnet语义网的对应概念节点中,提取所述概念节点之间所包含的语义关系;基于所述概念节点和语义关系,制定隐私泄露传递规则;
21、隐私信息贡献值计算模块,所述隐私信息贡献值计算模块包括语义网遍历子模块、贡献值计算子模块和贡献值修正子模块;其中,
22、所述语义网遍历子模块,用于在babelnet语义网中,基于预设的遍历路径长度范围对每个已知隐私信息与目标隐私信息所对应的概念节点之间路径进行遍历,得到路径集合;
23、所述贡献值计算子模块,用于基于所述隐私泄露传递规则以及每条语义边的权重值,对每个已知隐私信息与目标隐私信息的每条路径的进行贡献值计算,将每条路径的贡献值进行求和,得到每个已知隐私信息对目标隐私信息泄露的贡献值;
24、所述贡献值修正子模块,用于计算所述路径集合中每条语义边的权重值;
25、语义相关性计算模块,用于根据已知隐私信息之间的关系,计算每个已知隐私信息的权重值;基于每个已知隐私信息的权重值对所有已知隐私信息对目标隐私信息泄露的贡献值进行加权求和,得到目标隐私信息泄露度量值。
26、作为本发明的进一步改进,所述将所述隐私信息映射到babelnet语义网的对应概念节点中,包括:
27、在babelnet语义网中搜索与隐私信息属性名、隐私信息具体内容相对应的多组概念节点;
28、对于单个具体内容相对应的多个概念节点,选择其中邻居节点最多的概念节点;
29、计算具体内容对应的概念节点与属性名对应的多个概念节点之间的平均路径长度,将隐私信息属性名与平均路径最短的概念节点建立映射。
30、作为本发明的进一步改进,所述隐私泄露传递规则基于“上位词—下位词”、“整体—部分”两大类语义关系进行制定,语义关系所连接的两个节点中,起点称为起始节点,从起始节点出发,语义关系所指向的节点称为终止节点;其中,
31、对于“上位词—下位词”关系,若上位词节点完全泄露,即泄露概率为1;则下位词节点的泄露概率为1/n,n为上位词节点的下位词节点个数;
32、对于“整体—部分”关系,其具有“整体—成员”、“整体—构件”两种情况;其中,对于“整体—成员”的情况,若整体节点完全泄露,即泄露概率为1;则部分节点的泄露概率为1/n,n为整体的部分节点个数;对于“整体—构件”的情况,若部分节点完全泄露,即泄露概率为1;则整体节点的泄露概率为1/n,n为部分的整体节点个数。
33、作为本发明的进一步改进,
34、所述遍历路径长度范围根据应用场景需要进行设定;
35、采用图的深度优先遍历算法对每个已知隐私信息与目标隐私信息所对应的概念节点之间路径进行遍历;
36、基于babelnet语义网中的物理特征,对所述路径集合中每条语义边的两个节点间隐私信息泄露传递概率赋予权重,作为每条语义边的权重值。
37、作为本发明的进一步改进,所述语义相关性计算模块,具体用于:
38、为已知隐私信息建立隐私泄露贡献值权重数组;
39、对于已知隐私信息,逐一进行相似度计算,并更新对应已知隐私信息的权重值;
40、使用计算所得权重值对已知隐私信息的贡献值进行修正。
41、与现有技术相比,本发明的有益效果为:
42、本发明利用babelnet语义网的多语言特性,可以帮助研究者将所述隐私信息泄露度量方法应用到多种语言环境中,具有较高的语言普适性;可以使研究者们根据自身的研究内容,针对不同的研究环境调整隐私信息泄露的语义传递规则,具有较高的场景适应性;考虑到隐私信息间的叠加效应,考虑多种已知隐私信息之间的关系及其对目标隐私信息泄露的影响,在多种隐私信息已知的情况下,依旧可以准确度量出目标隐私信息泄露的程度,具有较高的通用性;基于以上所述几大特性,本发明所提供的基于babelnet语义网的隐私信息泄露度量方法可以为隐私保护技术研究者提供一个通用的隐私信息泄露度量方法,帮助研究者们准确地度量目标隐私信息泄露的程度,进而促进隐私信息保护技术的发展与完善,适用于目前复杂的网络环境与多样化的隐私信息保护技术研究。