本发明属于自然语言处理,具体涉及一种基于图谱的节点敏感度分析方法。
背景技术:
1、传统的图算法包括标签传播算法(lpa)和网页排名算法(pagerank),其中,lpa算法主要根据已知实体标签预测未知实体标签,pagerank算法是根据网络结构计算出pagerank值,该算法主要用于网站排名。
2、标签传播算法(lpa)是由zhu等人于2002年提出,它是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。利用样本间的关系建立关系完全图模型,在完全图中,节点包括已标注和未标注数据,其边表示两个节点的相似度,节点的标签按相似度传递给其他节点。标签数据就像是一个源头,可以对无标签数据进行标注,节点的相似度越大,标签越容易传播。由于该算法简单易实现,算法执行时间短,复杂度低且分类效果好,引起了国内外学者的关注,并将其广泛地应用到多媒体信息分类、虚拟社区挖掘等领域中。
3、pagerank算法以前就是google的网页排序算法。pagerank算法,对每个目标网页进行附上权值,权值大的就靠前显示,权值小的就靠后显示,而pagerank算法就是给每个网页附加权值的。其基本想法是在有向图上定义一个随机游走模型,即一阶马尔可夫链,描述随机游走者沿着有向图随机访问各个结点的行为。在一定条件下,极限情况访问每个结点的概率收敛到平稳分布,这时各个结点的平稳概率值就是其pagerank值,表示结点的重要度。pagerank是递归定义的,pagerank的计算可以通过迭代算法进行。
4、lpa标签传播算法主要是对标签传播,本质上是半监督学习的分类问题。pagerank算法虽然不是分类问题,可以直接数值计算,但本质是一个无监督算法,只与图谱结构有关。当前的业务场景是根据知识图谱中已知节点的敏感度(权重),预测未知节点的敏感度(权重),本质上是一个敏感度(权重)计算问题,不属于标签分类范畴,但需要有效的利用已知节点的敏感度(权重),因此lpa和pagerank均不能完全满足当前场景。本发明则是结合lpa半监督和pagerank数值计算的优势,解决了lpa不能敏感度(权重)数值计算,pagerank不能有效利用已知敏感度(权重)信息的缺点,同时引入两节点之间最短距离对敏感度(权重)传播的影响要素,从而解决了在知识图谱中进行节点敏感度(权重)分析这一任务。
技术实现思路
1、本发明的目的在于提供一种基于图谱的节点敏感度分析方法,以解决未标注节点敏感度分析的技术问题。
2、本发明提供一种基于图谱的节点敏感度分析方法,包括:
3、预标注处理;
4、确定待预测节点并找出相关联节点;
5、计算任意两点带权重节点的最短路径;
6、构造图谱的节点转移矩阵;
7、根据所有节点的已知敏感度值,构建标注矩阵;
8、节点转移矩阵和标准矩阵迭代计算直至收敛,确定待预测节点的敏感度值。
9、可选地,所述预标注处理,包括:对图谱中的节点下的敏感度属性进行人工预标注。
10、可选地,所述确定待预测节点并找出相关联节点,包括:
11、确定待预测节点;
12、找出待预测节点在图谱中预设度数关系内的其他节点和关联关系。
13、可选地,所述预设度数为3。
14、可选地,所述计算任意两点带权重节点的最短路径,包括:
15、构建迪杰斯特拉算法网络,计算任意两点带权重节点的最短路径d。
16、可选地,所述构造图谱的节点转移矩阵,包括:
17、初始化概率转移矩阵a,其中,权重计算方法为wij=exp(-dij2);
18、对同一行中的数据归一化,得到对应概率。
19、可选地,所述根据所有节点的已知敏感度值,构建标注矩阵,包括:
20、对未标注样本随机初始化;
21、对已标注样本采用已标注敏感度数值;
22、构建标注矩阵b。
23、可选地,所述节点转移矩阵和标准矩阵迭代计算直至收敛,包括:
24、将概率转移矩阵a与标注矩阵相乘b,得到矩阵c;
25、固定c矩阵中已标注样本处数值,更新未标注矩阵处的数值,直至矩阵c收敛。
26、可选地,所述确定待预测节点的敏感度值,包括:
27、在矩阵c收敛之后,矩阵c对应未标注节点位置的值为未标注节点的敏感值。
28、可选地,矩阵c计算过程及收敛,采用以下模型:
29、定义概率转移矩阵p,标注矩阵f,其中
30、
31、迭代如下步骤直至收敛:
32、fu←puufu+pulyl
33、本发明提供一种基于图谱的节点敏感度分析方法,包括预标注处理;确定待预测节点并找出相关联节点;计算任意两点带权重节点的最短路径;构造图谱的节点转移矩阵;根据所有节点的已知敏感度值,构建标注矩阵;节点转移矩阵和标准矩阵迭代计算直至收敛,确定待预测节点的敏感度值。本发明结合lpa半监督和pagerank数值计算的优势,解决了lpa不能敏感度(权重)数值计算,pagerank不能有效利用已知敏感度(权重)信息的缺点,同时引入两节点之间最短距离对敏感度(权重)传播的影响要素,从而解决了在知识图谱中进行节点敏感度(权重)分析这一任务。
34、本发明具有以下技术效果:
35、1、该方法将节点之间的最短路径引入了转移矩阵中,从而实现了节点与节点之间,随着距离变大,影响度逐渐衰减的功能。
36、2、创新式采用融入带权重的节点最短距离的方式构造转移矩阵。
37、3、将lpa的转移矩阵和pagerank中的pr值相结合这一创新方案,同时采用固定确定节点pr值的方式,使计算出的未知节点的敏感度(权重)更具科学性和可解释性。
1.一种基于图谱的节点敏感度分析方法,其特征在于,包括:
2.根据权利要求1所述的一种基于图谱的节点敏感度分析方法,其特征在于,所述预标注处理,包括:对图谱中的节点下的敏感度属性进行人工预标注。
3.根据权利要求1所述的一种基于图谱的节点敏感度分析方法,其特征在于,所述确定待预测节点并找出相关联节点,包括:
4.根据权利要求3所述的一种基于图谱的节点敏感度分析方法,其特征在于,所述预设度数为3。
5.根据权利要求1所述的一种基于图谱的节点敏感度分析方法,其特征在于,所述计算任意两点带权重节点的最短路径,包括:
6.根据权利要求1所述的一种基于图谱的节点敏感度分析方法,其特征在于,所述构造图谱的节点转移矩阵,包括:
7.根据权利要求1所述的一种基于图谱的节点敏感度分析方法,其特征在于,所述根据所有节点的已知敏感度值,构建标注矩阵,包括:
8.根据权利要求1所述的一种基于图谱的节点敏感度分析方法,其特征在于,所述节点转移矩阵和标准矩阵迭代计算直至收敛,包括:
9.根据权利要求8所述的一种基于图谱的节点敏感度分析方法,其特征在于,所述确定待预测节点的敏感度值,包括:
10.根据权利要求7所述的一种基于图谱的节点敏感度分析方法,其特征在于,矩阵c计算过程及收敛,采用以下模型: