用于个人隐私安全风险识别的多尺度意图图谱构建方法与流程

文档序号:36610557发布日期:2024-01-06 23:12阅读:22来源:国知局
用于个人隐私安全风险识别的多尺度意图图谱构建方法与流程

本发明属于大数据和信息处理,具体涉及在大数据下的个人隐私安全风险分析识别。


背景技术:

1、在大数据和信息技术的持续发展下,个人的隐私信息被不断收集、存储和使用,而这些个人信息包括但不限于人们的姓名、地址、电子邮件、社交网络账户和电话号码等等,这些都是极其敏感的信息。由于数据结构复杂,数据之间的关联性变得越来越强,一个包含个人隐私的系统可以被认为是一个个人隐私安全风险复杂系统。在这个系统中,收集和使用个人信息的实体包括但不限于政府机构、医疗机构、金融机构和互联网公司。这些实体都有着各自的收集和使用个人信息的方式和目的。个人的隐私信息随时可能因为这些实体收集、使用、泄露、或者被黑客攻击等原因而产生安全风险。针对这个问题,为了保证个人的隐私安全,我们需要建立一个面向个人隐私安全风险复杂系统的多尺度认知图谱,以获取和传递更多的个人隐私安全相关的数据、信息和知识。

2、在对个人隐私安全风险复杂系统进行认知建模时,我们发现大多数研究仍然停留在利用具有针对性的相关数据进行建模的方法中。具体来说,一些研究只考虑了单个视角和直接关系,这种做法很容易忽略掉问题的根本原因,而且无法适应当前复杂社会环境下涉及多个方面和多个层面的复杂系统的需求。对于个人隐私安全风险这一复杂系统的建模,大多数研究停留在简单的直连链路的关系模型中,这并不能充分反映出个人隐私安全问题的复杂性和多层次性,这影响到对个人隐私安全风险的准确识别。


技术实现思路

1、针对现有技术存在的不足,本发明提供一种用于个人隐私安全风险识别的多尺度意图图谱构建方法,以全面获取和传递个人隐私安全相关的数据、信息和知识,在多个层面对复杂系统进行建模和分析,更准确地建模和识别个人隐私安全风险复杂系统,从而更好地识别和评估个人隐私安全风险的根本原因,并采取相应的安全策略来应对这些风险。

2、本发明的技术方案如下:

3、一种用于个人隐私安全风险识别的多尺度意图图谱构建方法,该方法包括:

4、个人隐私安全风险概念模型构建:对收集的网络安全风险相关数据进行关键驱动因素的识别和统计,得到个人风险认知的多个类别,以及各类别下的实体和风险属性以及关联关系。概念模型构建中,可以通过改进的融合层次分析法和德尔菲法等获得关键驱动因数。

5、个人隐私安全风险原始图谱构建:主要是利用实体抽取和概念模型关系映射构建原始图谱。

6、用户意图节点生成与定位:根据用户指令指定关键词生成用户意图节点,然后基于意图节点转换成向量与原始图谱的节点进行相似度计算,生成结果,从原始图谱中计算出图谱根节点,进行意图关联节点定位。这里,根据用户指令指定关键词可以采用多种方式:例如用户给给定关键词、或者用户给定指令通过大模型提取等,方式不限定。

7、多尺度量化计算:根据场景的定义以图谱根节点为起点,利用用户需求输出以阶数量化为基准的宏观-介观-微观标定,更新形成新的拓扑和权重,形成新的多尺度量化计算结果。

8、个人隐私安全风险意图图谱生成与可视化:基于计算结果,生成用于个人隐私安全风险分析的多尺度意图图谱并可视化。

9、优选地,根据本发明一个实施例,所述个人隐私安全风险概念模型构建包括如下步骤:

10、(1)从收集的数据中筛选出网络安全风险相关的数据集;

11、(2)对网络安全风险数据集进行关键驱动因素的识别和统计,得到个人风险认知的多个类别,以及各类别下的实体和风险属性:

12、(3)确定每一类实体之间,实体与实体之间和所有实体包含的风险属性之间存在的关联关系,包括涵盖,交叉,引发,链式等:

13、进一步地,为解决关键驱动因素稀疏,存在冷启动的问题,所述关键驱动因素可以通过如下方式获得:通过tf-idf方法将第一次搜集的数据,根据单词的词频与逆向文件频率来判断单词的重要程度,基于重要程度生成的关键驱动因素之间进行相似度计算,形成种子因素,再通过德尔菲法和文献法发散种子因素,汇合生成新的因子集合,再基于德尔菲法与层次分析法结合对因子分层,得到个人隐私安全风险要素,作为所述关键驱动因素。

14、优选地,根据本发明一个实施例,所述个人隐私安全风险原始图谱构建具体包括如下步骤:

15、(1)根据领域知识的结构和内在逻辑,结合概念模型设计结果,形成包括实体、属性、关系等概念集合;

16、(2)数据源整合处理,提取出概念模型中所需的数据元素,并对其进行清理和转换;

17、(3)构建原始知识图谱:基于概念模型和整合处理后的数据元素,获得原始知识图谱的实体、属性、关系内容,通过实体与实体之间的关系建立连接,形成多层网络,第一层为个人认知风险节点,第二层为五大类别节点,第三层为类别下的各个实体节点,这些节点根据关系进行相互连接,得到原始知识图谱。

18、优选地,根据本发明一个实施例,所述实体包括个人身份信息、电子邮件、在线活动、移动设备和应用程序工五个类别下的实体:

19、第一类实体,个人身份信息,实体包含身份证号码、手机号码、信用卡;

20、第二类实体,电子邮件,实体包含邮箱账号、邮件、邮件内容、邮件广告;

21、第三类实体,在线活动,实体包含游戏账号、社交账号;

22、第四类实体,移动设备,实体包含手机、平板、浏览器;

23、第五类实体,应用程序,实体包含微信小程序、应用程序。

24、所述属性包括:

25、第一类实体的属性包含泄露、利用、恶意盗用;

26、第二类实体的属性包含盗用、勒索、诈骗、消耗内存;

27、第三类实体的属性包含注销、盗用、恶意利用;

28、第四类实体的属性包含泄露、滥用;

29、第五类实体的属性消耗流量、采集利用。

30、所述关联关系包括:

31、每一类别下的实体与实体之间存在的关联关系,包含引发、包含、连锁关系;

32、不同类别下的实体之间存在的关联关系,包括协同关系、依赖关系、竞争关系、反馈关系、合作关系、共享关系、递增关系。

33、优选地,根据本发明一个实施例,所述用户意图节点生成过程如下:

34、(1)预处理:对预处理文本进行分词、短语提取和实体识别;

35、(2)意图类别识别:根据主题类型确定关键词和搜索短语;

36、(3)关键词提取:从预处理文本中识别并提取关键词和短语;

37、(4)上下文分析:分析预处理文本上下文,确定意图节点在文本中的位置;

38、(5)意图节点生成:将提取出的关键词和短语作为意图节点。

39、优选地,根据本发明一个实施例,所述用意图节点定位的过程如下:

40、(1)确定意图类别:根据主题类型来确定分析的方向和搜索的范围;

41、(2)搜索与匹配:根据意图类别和提取出的关键词以及短语,在原始谱图中进行搜索,找出与意图匹配的实体节点;

42、(3)决策与输出:对搜索到的节点进行排序、过滤以及加权操作,并基于连通性和相关度因素,计算出每个节点与文本中意图的联系程度,并按照关联强度为文本推荐一个或者多个节点,最终输出与文本相关联的原始图谱节点。

43、优选地,根据本发明一个实施例,所述搜索采用基于图匹配和最近邻算法。

44、优选地,根据本发明一个实施例,所述搜索采用最近邻算法:基于关键词和短语的匹配和语义相似度计算,计算原始图谱中所有节点与文本中提取出的关键词和短语的相似度,挑选出相似度最高的几个节点,作为与意图匹配的节点,计算公式为:

45、

46、其中(w_i,w_j)表示中心词和上下文词,v_i和v_j分别表示中心词和上下文词的嵌入向量,·表示向量的点积运算。

47、优选地,根据本发明一个实施例,所述搜索采用基于实体和属性的匹配:针对文本中提取出的实体,根据它们的类型和属性在知识图谱中查找匹配的节点。

48、优选地,根据本发明一个实施例,本发明的多尺度分为宏观尺度、介观尺度和微观尺度,宏观为所构建的整个个人认知安全风险图谱,介观为一个类别实体所构建的网络,微观为单个节点。所述多尺度量化计算包括:

49、(1)基于意图节点pn的宏观尺度是以意图节点为视角,通过意图节点生成与定位,以意图节点为根节点,来生成意图图谱网络;

50、(2)基于意图节点pn的介观尺度是以意图节点为视角,通过意图节点生成与定位,采用社区检测算法,检测复杂网络的社区结构;

51、(3)基于意图节点pn的微观尺度是以意图节点为视角,通过意图节点生成与定位,基于节点度、中心性以及网络密度等局部指标来刻画节点的重要度,当节点度越高、中心性越高并且节点之间的通信越密集时,则表示这个节点在网络中的位置更加重要,应该被优先考虑,同时基于用户交互形成基于pn节点的微观图谱刻画。

52、优选地,根据本发明一个实施例,所述社区检测算法包括子图提取、子图分析和输出:

53、子图提取:根据pn节点所在社团的id,通过遍历社团内所有节点,逐一计算节点之间的连通性,获得社团的子图;

54、子图分析:对子图进行分析,包括节点数、边数、平均度、聚类系数、中心性等指标;

55、输出:将最终提取出的社团子图作为算法的输出。

56、优选地,根据本发明一个实施例,所述意图图谱的生成与可视化,是在原始图谱的基础上,结合多尺度量化计算,以意图图谱为根节点,从宏观-介观-微观三个尺度,更新图谱的拓扑结构和权重,其中在宏观层面表现基于用户意图,交互选择多阶意图图谱的可视化,在介观层面以意图节点为起点,形成意图节点社团的可视呈现,在微观尺度为意图节点高相关性节点呈现。

57、本发明所提供的用于个人隐私安全风险识别的多尺度意图图谱构建方法,具有如下优点:

58、1、通过基于统计与知识工程相结合的方法约束生成概念模型,能够对复杂系统进行较好的解构,为原始图谱的生成奠定基础条件。

59、2、基于用户交互过程中的意图视角结合场景知识表达出用户的意图特征,通过意图特征与概念模型比较计算与优化生成意图节点,能够更好的聚焦到用户意图视角,为多尺度意图图谱构建奠定基础。

60、3、意图节点定位方法结合概念模型,通过意图类别搜索与匹配进行决策与输出,对搜索到的节点进行排序、过滤以及加权等操作,并基于连通性和相关度等因素,计算出每个节点与文本中意图的联系程度,并按照关联强度为文本推荐一个或者多个节点。最终输出与文本相关联的原始图谱节点。

61、4、多尺度量化算法总共刻画了三种尺度,分别是宏观尺度、介观尺度、和微观尺度,能够同时满足用户多维分析与决策需求。一是基于意图节点pn的宏观尺度主要是以意图节点为视角,通过意图节点生成与定位,以意图节点为根节点,来生成意图图谱网络;二是基于意图节点pn的介观尺度主要是以意图节点为视角,通过意图节点生成与定位,采用合适的社区检测算法。在这个过程中,会根据意图节点pn所在的位置,找到它所在的社团。三是基于意图节点pn的微观尺度,主要是以意图节点为视角,通过意图节点生成与定位,基于节点度、中心性以及网络密度等局部指标来刻画节点的重要度。当节点度越高、中心性越高并且节点之间的通信越密集时,则表示这个节点在网络中的位置更加重要,应该被优先考虑。同时基于用户交互形成基于pn节点的微观图谱刻画。因此,从宏观-介观-微观三个尺度,更新图谱的拓扑结构和权重,三种视角为用户提供了差异性信息,能够满足不同场景的需求,其中在宏观层面表现基于用户意图,交互选择多阶意图图谱的可视化,介观层面以意图节点为起点,形成意图节点社团的可视呈现;微观尺度为意图节点高相关性节点呈现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1