一种融合邻接性和节点角色相似性的网络表征方法与流程

文档序号:17158179发布日期:2019-03-20 00:16阅读:264来源:国知局
一种融合邻接性和节点角色相似性的网络表征方法与流程

本发明涉及网络表征、降维技术领域,具体涉及一种融合邻接性和节点角色相似性的网络表征方法。



背景技术:

在大数据现实应用中,数据样本之间经常存在复杂的关联关系,从而形成关联网络。典型的场景包括社交网络、金融网络、传感器网络和蛋白质网络等。由于网络的高维度特性,目前对大型网络的分析存在计算复杂度高和难以并行化的困境。

网络表征学习是研究如何将高维网络空间中的节点映射到低维向量空间的一类方法。通过网络表征学习,许多现有的机器学习方法可以直接应用于表征后的向量空间,以解决复杂的网络问题,如社区挖掘、节点分类、链路预测和网络可视化等。目前大多数网络表征学习方法主要关注保持网络的拓扑结构,即如果两个节点在网络中距离较近,则它们在表征后的低维空间中的距离也接近,否则,它们的距离就较远。在这种情况下,通过低维空间中学习到的表征也可以重构出原有网络结构。然而,除了节点的邻接性,在现实应用中经常需要对网络上距离较远但具有相同性质或角色的节点进行分类或预测(例如,金融网络中不同欺诈团伙里的关键人物往往具有相似的网络特征)。这就需要一种同时融合网络邻接性和节点相似性的网络表征方法。



技术实现要素:

本发明要解决的技术问题是:目前网络表征方法不能融合网络邻接性和节点相似性的技术问题。提出了一种用非同构子图中角色刻画节点间相似性的融合邻接性和节点角色相似性的网络表征方法。

为解决上述技术问题,本发明所采取的技术方案为:一种融合邻接性和节点角色相似性的网络表征方法,包括以下步骤:a)根据应用对象实体之间的相互关系构建网络拓扑结构,即网络邻接矩阵w={wij},i,j∈[1,n],n为对象实体的数量;b)列举网络邻接矩阵w的所有子图中非同构轨道,其数目为m,针对每个节点,列出其参加不同非同构轨道的情况,构成一个m维向量,记为非同构子图度向量,用gdv表示,根据非同构子图度向量计算任意两点的角色相似度sij,i,j∈[1,n],构成相似度矩阵s;c)将网络邻接矩阵w的表征记为un×d,d为网络的表征目标维度,由人工设定,列出式:

其中:为邻接矩阵w的拉普拉斯矩阵,dw是网络邻接矩阵w的度矩阵,u即为un×d,tr为求迹运算,由计算式(1)获得使ju取值最大的矩阵un×d,作为网络邻接矩阵w的候选表征,将节点角色相似度矩阵s的表征记为gn×d,列出以下目标函数:

其中,为相似度矩阵s的拉普拉斯矩阵,ds是s的度矩阵,由计算式(2)获得使jg取值最大的矩阵gn×d,作为节点角色相似度矩阵s的候选表征;d)列出以下计算式:

maxρ1=tr(uthhtu),(3)

maxρ2=tr(gthhtg),(4)

其中,矩阵h的维度为n×d,表示网络的最终表征矩阵;e)将计算式(1)、(2)、(3)以及(4)代入以下目标函数:

其中,α可以用来调节网络邻接性和节点角色相似性在网络表征中的相对权重,为了使得计算式(5)有解,需加以下限制条件:utu=i,gtg=i,hth=i,其中,i为单位矩阵;f)通过计算式(5)得到的矩阵hn×d作为最终的网络表征。为了同时表征网络的拓扑邻接性和节点角色相似性,本发明利用图谱理论分别针对邻接矩阵的拉普拉斯矩阵和相似度矩阵的拉普拉斯矩阵构建了优化目标函数。最后,为了同时表征以上两种网络性质,利用矩阵最大化可分性以及优化理论,确立了联合优化目标函数,目的是将以上两种表征映射到同一低维空间。

作为优选,步骤b中计算任意两点的角色相似度sij的方法为:sij=0.5+0.5*sim(gdv(i),gdv(j)),sim(gdv(i),gdv(j))为gdv(i)和gdv(j)的余弦相似度。

作为优选,步骤b中使用非同构子图度向量计算任意两节点的角色相似度前,对非同构子图度向量进行中心化和标准化处理,所述中心化的方法为:将非同构子图度向量中的每个元素减去该向量中全部元素的均值;所述标准化的方法为:计算中心化后非同构子图度向量全部元素的标准差,将非同构子图度向量中的每个元素除以标准差。

作为优选,在步骤a中构建网络邻接矩阵时,若实体之间存在直接关联,则认为两个实体存在相邻关系,反之,则通过-邻居方法或者k-邻近算法(knn)来确定二者之间是否存在相邻关系。

作为优选,-邻居方法确定两个实体之间是否存在相邻关系的方法为:若两个实体之间的拓扑距离或实际距离小于人工设定值则认为所述两个实体存在相邻关系,反之,则认为所述两个实体无相邻关系。

作为优选,k-邻近算法(knn)确定两个实体之间是否存在相邻关系的方法为:获取实体与其他实体的最近距离l,认为与该实体距离小于σ*l的k个实体与该实体存在相邻关系,其余实体与该实体无相邻关系,σ为容差系数,其值大于1,其值由人工设定。

本发明的实质性效果是:通过对节点在非同构子图中角色的度量,刻画了网络中节点间的相似性;提出了网络表征方法,实现了对网络邻接性和节点相似性的联合表征,满足大型网络中基于邻接性的数据挖掘,也可以实现基于节点相似性的分类。

附图说明

图1为实施例一网络表征方法流程图。

图2为实施例一非同构子图划分举例。

图3为某网络的拓扑结构示意图。

图4为图3网络的偏重网络拓扑邻接性表征示意图。

图5为与图3同网络的拓扑结构示意图。

图6为与图3同网络的偏重角色相似性表征示意图。

具体实施方式

下面通过具体实施例,并结合附图,对本发明的具体实施方式作进一步具体说明。

实施例一:

一种融合邻接性和节点角色相似性的网络表征方法,如图1所示,为实施例一网络表征方法流程图,本实施例包括以下步骤:a)根据应用对象实体之间的相互关系构建网络拓扑结构,即网络邻接矩阵w={wij},i,j∈[1,n],n为对象实体的数量,网络拓扑网络邻接矩阵w为n×n的矩阵;b)列举网络邻接矩阵w的所有子图中非同构轨道,其数目为m,针对每个节点,列出其参加不同非同构轨道的情况,构成一个m维向量,若节点位于某个非同构轨道上,则该位置记为1,若节点不在某个非同构轨道上,则相应位置记为0,该序列记为非同构子图度向量,用gdv表示,根据非同构子图度向量计算任意两点的角色相似度sij,i,j∈[1,n],构成相似度矩阵s;c)将网络邻接矩阵w的表征记为un×d,d为网络的表征目标维度,由人工设定,列出式:

为了使得相邻点i和j的表征相近,设置以下目标函数:

wij||ui-uj||2

当考到网络中所有节点时,目标函数变为:

通过图谱理论,上述公式可以等价为:

其中:为邻接矩阵w的拉普拉斯矩阵,dw是网络邻接矩阵w的度矩阵,u即为un×d,tr为求迹运算,由计算式(1)获得使ju取值最大的矩阵un×d,作为网络邻接矩阵w的候选表征,将节点角色相似度矩阵s的表征记为gn×d,列出以下目标函数:

其中,为相似度矩阵s的拉普拉斯矩阵,ds是s的度矩阵,由计算式(2)获得使jg取值最大的矩阵gn×d,作为节点角色相似度矩阵s的候选表征;d)列出以下计算式:

maxρ1=tr(uthhtu),(3)

maxρ2=tr(gthhtg),(4)

其中,矩阵h的维度为n×d,表示网络的最终表征矩阵;e)将计算式(1)、(2)、(3)以及(4)代入以下目标函数:

其中,α可以用来调节网络邻接性和节点角色相似性在网络表征中的相对权重,为了使得计算式(5)有解,需加以下限制条件:utu=i,gtg=i,hth=i,其中,i为单位矩阵;f)通过计算式(5)得到的矩阵hn×d作为最终的网络表征。为了同时表征网络的拓扑邻接性和节点角色相似性,本发明利用图谱理论分别针对邻接矩阵的拉普拉斯矩阵和相似度矩阵的拉普拉斯矩阵构建了优化目标函数。最后,为了同时表征以上两种网络性质,利用矩阵最大化可分性以及优化理论,确立了联合优化目标函数,目的是将以上两种表征映射到同一低维空间。

获得网络表征矩阵h的计算过程举例如下:

令f=j+λ1(i-utu)+λ2(i-utu)+λ3(i-utu),然后分别对u,g,h求偏导,得到如下:

(lw+hht)u=λ1u(6)

α(ls+hht)g=λ2g(7)

(uut+hht)u=λ3h(8)

求解以上计算式等价于求相应矩阵前d个最大特征值对应的特征向量。求解算法程式大致过程举例如下:

初始化u=g=h=0,t=0,

通过等式(6)更新u;

通过等式(7)更新g;

通过等式(8)更新h;

t++;

输出h。

在步骤a中构建网络邻接矩阵时,若实体之间存在直接关联,则认为两个实体存在相邻关系,反之,则通过-邻居方法或者k-邻近算法(knn)来确定二者之间是否存在相邻关系。

-邻居方法确定两个实体之间是否存在相邻关系的方法为:若两个实体之间的拓扑距离或实际距离小于人工设定值则认为两个实体存在相邻关系,反之,则认为两个实体无相邻关系。

k-邻近算法(knn)确定两个实体之间是否存在相邻关系的方法为:获取实体与其他实体的最近距离l,认为与该实体距离小于σ*l的k个实体与该实体存在相邻关系,其余实体与该实体无相邻关系,σ为容差系数,其值大于1,其值由人工设定。

如图2所示,为实施例一非同构子图划分举例,用于说明非同构子图的寻找方法,图2显示了子图大小小于等于4的全部子图中的非同构轨道数的寻找方法,图2中(a)显示了当子图大小为2时,非同构位置仅有1个,图2中以数字0表示,所有参与了大小为2的子图的节点,在其非同构子图度向量第0个位置均记为1,图2中(b)显示了当子图大小为3时,举例的网络具有两个大小为3的子图结构,共有3个非同构位置,图2中以数字1、2、3表示,节点参与了大小为3的非环形的子图时,参与两端的情况时,在其非同构子图度向量第1个位置记为1,参与中间的情况时,在其非同构子图度向量第2个位置记为1,参与了大小为3的环形子图的节点,在其非同构子图度向量第3个位置均记为1,依次类推;存在位于中间位置情况时图2中(c)显示了当子图大小为4时,举例的网络具有六个大小为4的子图结构,其中非同构位置共有11个,图2中以数字4-14表示,所以该举例网络中,子图大小小于等于4的非同构轨道共有15个,同样的方法获得该举例网络的全部子图的非同构位置,统计其数量记为m。

利用本实施例方法,进行基于表征结果的机器学习方法应用举例,该举例只是本实施例的一个实际应用举例,不属于本发明的保护内容,不能理解为对本实施例以及本发明应用的限制。本实施例可以进一步结合现有技术中的聚类、分类和预测等机器学习方法,为网络社区挖掘、节点分类和标注以及网络可视化提供新的解决方案。比如,对一个网络社区挖掘的一个经典实例——空手道俱乐部人物关系网,行可视化的结果展示:

步骤1:俱乐部人物关系网作为本实施例方法的输入项,得到关于网络的表征h;

步骤2:将h作为k-means算法的输入,取输出类别数k=2;

步骤3:将属于相同类别的节点赋予相同的颜色,画出该网络结构及其二维空间表征(目标维度d=2,如图3中(b)以及图5所示)。

在步骤e中的α取不同的值可以使本举例得到不同的结果。如图3所示,为某网络偏重网络拓扑邻接性表征示意图,如图4所示,为图3网络的偏重网络拓扑邻接性表征示意图,如图5所示,为与图3中同网络的拓扑结构示意图,如图6所示,为与图3中同网络的偏重角色相似性表征示意图。图3与图5中的待表征网络相同,图3中的空心圆内的数字表示以0和1为中心的关系节点,灰色实心圆内的数字表示以32、33为中心的关系网节点,比如两个有少量业务交叉的课题组,两个课题组分别以0、1以及32、33为主要研究员,图4显示了当α取一个较小的值时,最终节点分类更倾向于反映节点的邻接性,图4可见表征结果将这两个课题组基本区分开,有业务交叉关系的2和8则比较靠近,图6显示了当α取一个较大的值时,最终节点分类更倾向于反映节点的角色相似性,使得在两个课题组中担任相似角色的节点比较靠近,如0、1、32、33都是主要研究员,所以他们比较靠近,而节点2担任较多后勤类的节点沟通工作,该关系表达中并未区分研究类节点沟通关系以及后勤类节点沟通关系,导致其与0、1、32、33节点比较靠近。由图6可见,该拓扑结构中,共分为3类角色,中心角色类节点0、1、2、32、33,中间角色类节点如3、8、31,以及与其他节点缺乏联系的边缘类节点5、11、10。该拓扑结构也可以是一种社交关系网络,图6按照该社交网络中的活跃度,将节点进行了充分表征。

实施例二:

本实施例对任意两点的角色相似度sij的计算方法做了具体的改进,本实施例中,在步骤b中使用非同构子图度向量计算任意两节点的角色相似度前,对非同构子图度向量进行中心化和标准化处理,中心化的方法为:将非同构子图度向量中的每个元素减去该向量中全部元素的均值;标准化的方法为:计算中心化后非同构子图度向量全部元素的标准差,将非同构子图度向量中的每个元素除以标准差。计算任意两点的角色相似度sij的方法为:sij=0.5+0.5*sim(gdv(i),gdv(j)),sim(gdv(i),gdv(j))为gdv(i)和gdv(j)的余弦相似度。其余步骤同实施例一。

以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1