一种基于异构社会网络的检测方法

文档序号:10471715阅读:368来源:国知局
一种基于异构社会网络的检测方法
【专利摘要】本发明涉及信息科学领域,提供了一种基于异构社会网络的检测方法,将异构社会网络映射成多维矩阵;确定所述多维矩阵中节点的转移概率和关系的转移概率;利用随机游走算法,获得节点的均衡分布以及关系的均衡分布;根据节点的均衡分布以及关系的均衡分布,获得带权重的单关系社会网络;以及利用单关系社会网络检测算法,基于所述带权重的单关系社会网络而获得异构社会网络的检测结果。本发明充分利用了异构社会网络中的节点和关系的相互影响,把异构网络融合成带有权重的单关系社会网络,然后,再利用传统的单关系社会网络的社区检测方法对带有权重的单关系网络进行社区检测。
【专利说明】
-种基于异构社会网络的检测方法
技术领域
[0001] 本发明设及信息科学领域,提供了一种基于异构社会网络的检测方法。
【背景技术】
[0002] 本部分旨在向读者介绍可能与本申请的各个方面有关的本领域的各个方面的技 术,相信本部分有助于向读者提供背景信息,W便更好地理解本申请的各个方面。因此,应 当理解,应该从运个角度来进行解读,而不是将其视为是对现有技术的承认。
[0003] 随着Internet和万维网的快速发展,Web社区和基于Web社区的社会网络的研究逐 渐兴起,因此寻找社会网络中的社区结构的方法己经成为社会网络分析中的研究热点,而 且也存在很大的商机,目前社会网络分析已经在很多领域得到了应用。如舆情分析、意见领 袖挖掘、学科热点、广告投放、引文分析、科研合作、恐怖袭击分析、犯罪核屯、挖掘、知识管 理、网络链接分析、社交网络等。社会网络分析己经成为了数据挖掘学科的重要分支之一, 近几年来发展尤其迅猛,因为社会网络分析是与现实生活紧密相关且具有广泛的应用价 值。从传统的成员关系网络到互联网时代的社交网络,从大型电力网络到交通运输网络,从 真实的商务模式到虚拟平台的商务模式,从科研工作者的合作网络到各种政治、教育、经 济、医疗、科技的社会关系网络等,可W说,各种各样的复杂网络充斥着我们的生活,运些网 络都具有社会网络的特征,通过对运些社会网络的分析学习,能够得到我们需要的潜在的 有用信息。
[0004] 网页和其链入链出的关系通常按照图的方式建模,例如,众所周知的HITS和 化geRank算法被用来计算每个节点的权威值,在单关系网络里运两种算法都能够被用作排 序模型。
[0005] 但是当面对异构社会网络时,我们就需要联合排序节点和边的权威值。大多数社 会网络分析的算法仅仅考虑的是同质关系的社会网络,即单关系网络,例如网页与网页之 间只存在链接的关系,而在现实世界中的社会网络大部分是W异构社会网络的形式存在 的,大多数实体之间总是存在着各种各样的关系,运些关系在不同情况下体现着不同的重 要性,同时运些关系中的每一种关系都被看作是一种单关系网络,因此随着社区检测的深 入研究,异构社会网络分析受到越来越多的学者关注。目前,已有的研究普遍认为异构网络 中不同的关系是相互独立的,平等对待的,实际上运在现实生活中是不合理的。

【发明内容】

[0006] 为了克服现有技术中存在的不足,本发明的示例性实施例充分利用了异构社会网 络中的节点和关系之间的相互影响,提出了一种基于异构社会网络的检测方法,该检测方 法可W通过迭代计算得出异构网络中节点和关系的权重,并可W把异构网络融合成带有权 重的单关系网络,然后,再利用传统的单关系网络的社区检测方法对经过本发明融合的带 有权重的单关系网络进行社区检测。
[0007] 根据本发明的一方面,提供了一种基于异构社会网络的检测方法,包括:
[0008] 将异构社会网络映射成多维矩阵;
[0009] 确定所述多维矩阵中节点的转移概率和关系的转移概率;
[0010] 利用随机游走算法,获得节点的均衡分布W及关系的均衡分布;
[0011] 根据节点的均衡分布W及关系的均衡分布,获得带权重的单关系社会网络;W及
[0012] 利用单关系社会网络社区检测算法,基于所述带权重的单关系社会网络而获得异 构社会网络的社区检测结果。
[0013] 在示例性实施例中,所述多维矩阵为η XnXm的矩阵,多维矩阵中的值代表节点i 和节点j在第d个关系下的合成的权重,其中1 ^ 1,j ^n,l ^ cKm,m和η均为大于等于2的正 整数。
[0014] 在示例性实施例中,确定所述多维矩阵中节点的转移概率和关系的转移概率包 括:
[0015]定义Ξ维的张量S=[sij,d],其表示关系和节点的合成;W及
[0016]确定节点的转移概率为0 = [oi, j,d] W及关系的转移概率为R = [ri, j,d],其中
[0019]在示例性实施例中,利用随机游走算法,获得节点的均衡分布W及关系的均衡分 布为根据
[0022] 确定所述节点的均衡分布W及所述关系的均衡分布,其中/=(A,扭,...,/〇和 9&=:(3;,<:/;....,知分别是节点和关系的先验分布,。和0是调整因子。
[0023] 在示例性实施例中,所述合成的权重为节点i和节点j在d个关系下的张量与关系 权重的乘积之和。
[0024] 在示例性实施例中,所述单关系社会网络社区检测算法包括Kmeans算法、GMM算法 W及GMM-NK算法中的至少一个。
[0025] 更加具体地,本发明的示例性实施例提供了一种联合排序算法,其充分利用了异 构社会网络中的节点和关系之间的相互影响,把异构网络融合成带有权重的单关系网络, 然后,再利用传统的单关系网络的社区检测方法对经过本发明融合的带有权重的单关系网 络进行社区检测。
【附图说明】
[0026] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据运些附图获得其他的附图,其中
[0027] 图1是节点的转移概率0和关系的转移概率R在多维空间里的坐标图;
[00%]图2是条件概率在多维空间里的坐标图;
[0029] 图3联合排序算法的伪代码;
[0030] 图4是Iris数据集上4个关系的密切度矩阵的坐标图;
[0031] 图5是通过发明中联合排序算法的迭代计算,最终得到的Iris和化east数据集上 关系的均衡分布的柱状图;
[0032] 图6是在Iris数据集上,通过联合排序算法迭代得到的合成网络进行社区检测和 每个单关系上的网络进行社区检测的性能对比的柱状图;W及
[0033] 图7是在Iris的合成数据集上联合排序算法的收敛情况的曲线图。
【具体实施方式】
[0034] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅 仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人 员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
[0035] 此外,在本发明的描述中,除非另有说明,"多个"的含义是两个或更多。
[0036] 根据本发明的示例性实施例,提供了一种基于异构社会网络的检测方法,主要包 括W下步骤:
[0037] 将异构社会网络映射成多维矩阵;
[0038] 确定所述多维矩阵中节点的转移概率和关系的转移概率;
[0039] 利用随机游走算法,获得节点的均衡分布W及关系的均衡分布;
[0040] 根据节点的均衡分布W及关系的均衡分布,获得带权重的单关系社会网络;W及
[0041] 利用单关系社会网络社区检测算法,基于所述带权重的单关系社会网络而获得异 构社会网络的社区检测结果。
[0042] W下将结合附图,对上述步骤逐一说明。
[0043] 将异构社会网络映射成多维矩阵:
[0044] m个关系的社会网络通常定义成图组的形式(¥,6^),(1=1,2,...,111,其中乂代表含 有η个元素的节点集合。eW是在d个关系上无向网络的邻接矩阵。eW实际上是一个二元矩 阵,如果节点巧Η之间有一条边,则蝶叫),否则马f=0(4刀。
[0045] -个异构社会网络能够通过一个nXnXm立方体的张量形式来表示。如果节点i通 过第d条关系连接到节点j上,则张量里的条目(i,j,d)是非零的。定义R为一个实体,S = (Sij,d)为一个密切关系张量,Sij,dER表示节点巧日节点j在第d个关系下的关系权重。并且 多维矩阵中的值代表节点i和节点j在第d个关系下的合成的权重,其中1 < 1,j <n,l <d< m,m和η均为大于等于2的正整数,所述合成的权重为节点i和节点j在d个关系下的张量与关 系权重的乘积之和,具体可W通过W下公式计算:
[0046]
[0047] 确定所述多维矩阵中节点的转移概率和关系的转移概率:
[004引一般地,定义一个Ξ个方向的张量s=[si,j,d](i y,j如,1如如)代表关系和实体 的合成。对于合成的社会网络来说,S= A是一个具有m个关系的集合,S包含了 m个矩阵,相当 于各种类型交互的优化目标函数。对于特征合成来说,S代表了带了点的特征合成,一般地通 过重叠社区的检测方法来进行每一个关系抽取。如果我们进一步定义尸=|>1,^,...,化]和 ?/=|;巾,(/,,...,^;1分别为多关系网络中节点和关系的权重,合成的权重可W定义为:
[0049]
(1)
[0化0] 迭代的关键任务就是计算关系的权重向量? D就多关系网络而言,节点和关系之 间是相互影响的,我们需要得到一个节点和关系的联合排序,定义R为一个真实的世界,两 个向量Jpgei?"和^片/?居巧讯:
[0053]我们假设将随机游走应用到多关系网络里,运样能够构建出两个转移概率张量0 = [0i,j,d]和R=[ri,w],分别代表节点的转移概率和关系的转移概率。通过对密切关系张 量S规格化,0和R的转移概率如下:
[0056] 图1从空间上展示了基于A的节点的转移概率0和关系的转移概率R,具体来说, 〇i,j,d是在第d个关系上、第i行对密切关系张量S水平方向进行规格化处理,是在第i和 j个节点上的对密切关系张量S垂直纵向进行规格化处理。定义Xt和Yt是在t时刻分别访问任 何一个节点和任何一个关系的随机变量,因此,我们可W得到:
[0057] 〇i,j,d = p(Xt = i |Xt-i = j ,Yt = d) (6)
[005引 0i,j,d = p(Yt = d |Xt=i,Xt-i = j) (7)
[0059]显然地,随即变量的次序(Xt,Yt: t = 0,1...)是一个马尔科夫链,联合排序的算法 能够计算节点的转移概率ο和关系的转移概率R。
[0062] 利用随机游走算法,获得节点的均衡分布W及关系的均衡分布:
[0063] ^和^分别是节点和关系的均衡或者稳定的概率分布,如果我们将化旨61?曰证的随 机游走模型应用在异构网络里,当t无限大的时候,P和q能达到均衡。因此,可W得到:
[0064]
(10)
[0065] 由上我们可W分析出,计算口'〇6陆-1叫,¥* = (^和口'〇6陆=1而-1叫]是决定节 点的均衡分布i和关系的均衡分布i的关键步骤。
[0066] 根据节点的均衡分布W及关系的均衡分布,获得带权重的单关系社会网络:
[0067] 异构网络里,不同的节点和不同的关系都显示了其重要性,下面详细介绍联合排 序算法分别如何获得节点和关系的概率分布的,然后展示其存在的唯一的概率分布。
[0068] 本发明提出了使用条件概率来进行联合概率分布的建模。将两个联合概率Prob [Xt-i = j,Yt = d巧日Prob [ Xt = i,Xt-i = j ]进行变形,可W通过条件概率的公式形式来表示,可 W得到:
[0069] Prob[Xt-i = j,Yt = d]=Prob[Xt-i = j] · Prob[Yt = d | Xt-i = j] (11)
[0070] Prob[Xt = i ,Xt-i = j] = Prob[Xt-i = j] · Prob[Xt = i I Xt-i = j] (12)。
[0071] 图2展示了 W上两种条件概率在多维空间里的计算:
[0072] 公式(13)展示了从节点j到节点i的转移概率,然而和化geRank不同的是Probn (j i)没有一直保持不变,它受关系权重的影响。在异构网络里,节点的权重不单单被其近邻节 点影响,还被授予不同权重的关系强度影响。给定一个节点j,从节点j选择节点i条件概率 表不如下:
[0076]因此,使用条件概率,公式(11)和公式(12)可W写成如下的形式:
[0079] 联合排序算法的迭代计算通过公式(15)和公式(16)来完成,然而,和随机游走模 型类似的是,联合排序算法也可W通过简明的向量矩阵形式来表示。有鉴于此,我们建立了 两个辅助的矩阵F = 和口 =巧j = l,. . .,n.V和U向量的维度都是nXm,其分别由m XI维的向量和nXl维的向量岸成。二的J和巧二巧J定义如下:
[0080]
[0081 ]如果我们将V和U向量进行行规格化操作,就有如下公式:
[0082] Prob[Xt-i = j | Yt = d] =Vj,d,Prob[Xt = i |Xt-i = j] =uj,i (18)
[0083] 此外,联合排序算法也考虑了节点和关系的先验概率产生的影响,结合W上公式, 我们使用下面的迭代公式来同时计算节点和关系的排序值:
[0086] 运里// =(/,|',/,;,...,/〇和<7-=如,(/;,...,<;/;)分别是节点和关系的先验分布,〇和0是 用来平衡网络结构和先验知识的调整因子。在理想的情况下,先验分布是由该领域专家计 算得出节点和关系的重要性。现在,我们假定随机游走目前停留在节点i(即,Xt=i),我们 能够通过公式(19)能够计算出选择节点j的概率,通过公式(20)能够计算出选择关系d的概 率。通过pt和qt迭代计算pt+i和qt+i,最终我们获得节点和关系的均衡分布,联合排序算法的 伪代码如图3所示。
[0087] 利用单关系社会网络社区检测算法,基于所述带权重的单关系社会网络而获得异 构社会网络的社区检测结果:
[0088] 用传统单关系社区检测方法对融合带有权重的单关系矩阵进行社区检测,例如使 用Kmeans、GMM和GMM-NK算法进行社区检测,得到划分的社区。
[0089] 综上所述,根据本发明的示例性实施例,在实施过程中首先构建异构网络;其次根 据异构网络中节点的属性计算在每个关系上的相似度矩阵;再次使用联合排序算法进行迭 代计算,得到融合带有权重的单关系相似度矩阵;最后用传统单关系社区检测方法对融合 带有权重的单关系矩阵进行社区检测。
[0090] 根据本发明的示例性实施例提供的一种基于异构社会网络的检测方法,可包括W 下的步骤:
[0091] 步骤1:在实施过程中首先构建异构网络;其次根据异构网络中节点的属性计算在 每个关系上的相似度矩阵。
[0092] 定义Pi,d和分别为在关系d上节点i,j的值。用空间上的距离用来构造公式(21) 中的关系密切度矩阵: 闺
剧)
[0094] 步骤2:输入多个关系上的关系密切度矩阵,使用联合排序算法进行迭代计算,得 到融合带有权重的单关系相似度矩阵,同时能得到异构网络中节点和关系的权重值。如无 例外的说明,下文中α = 0 = 0.5。
[0095] 步骤3:用传统单关系社区检测方法对融合带有权重的单关系矩阵进行社区检测, 例如使用Kmeans、GMM和GMM-NK算法进行社区检测,得到划分的社区。
[0096] 为了验证根据本发明方法示例性实施例的基于异构社会网络的检测方法的有效 性,选取Iris数据集作为合成网络的数据集进行实验,最终实验数据表明了本发明提出的 联合排序算法用于异构社会网络检测的效果是显著的。Iris数据集的属性如表1所示:
[0097] 表1. Iris数据集 [009引
[0099] 因为一个先验的社区关系(也就是Ground Truth)是已知的,然后我们采用常用的 归一化互信息(NMI)作为评价标准。NMI定义如下:
[0100]
[0101] 为了验证联合排序算法的在异构社会网络里的有效性,我们用公式(21)分别计算 在Pi,d和pj,庙关系上的相似度,由此构成一个在关系d上的密切度矩阵Tendor_d,Tendor_d 矩阵是一个对称矩阵,矩阵上每一个元素分别代表Pi,d和PW在关系d上的密切度的值。我们 用明亮度来表示Pi,d和w,d的紧密程度,越明亮代表节点之间的紧密度越高,因此构造出的 图中明亮方块区域中很有可能就是潜在的社区,运些明亮方块区域里的节点在关系d上形 成了紧密结合的社区,此外每个不同的明亮方块区域反映了关系d对相应社区的重要程度。
[0102] 图4分别展示了在Iris数据集上4个关系的相似度矩阵。
[0103] 由图4可知,对于Iris数据集而言,关系3和关系4包含了更多的比较明显的明亮方 块区域,因此关系3和关系4对于Iris数据集的社区检测更具有意义,相应的地,关系3和关 系4相比于关系1和关系2在Iris数据集具有更大的权重。总体来看,如果我们要对Iris数据 集做社区检测,Iris数据集的关系3和关系4,下面导入Iris,应用联合排序算法分别计算关 于关系的均衡分布。
[0104] 通过联合排序算法迭代计算得到的关系均衡分布如图5所示,由分析可知通过联 合排序算法迭代计算得到的Iris的关系均衡分布基本上与图4反映的密切度矩阵相吻合。
[0105] 图6展示了在运两个数据集的异构网络上计算得出的NMI值的对比情况,显而易见 的,不管我们采用哪一种聚类算法,在经过联合排序算法合成的网络上所表现出的性能远 远超过单个关系网络上的性能。实验表明,联合排序算法能将异构网络融合成高质量的单 关系网络,运个合成的单关系网络里的社区结构要比任何一个原始的单关系网络要清晰很 多。而且,经过图表数据分析可知,GMM-NK算法表现出来的性能是高于GMM和Kmeans的。
[0106] 图7展示了联合排序算法在合成数据集上的收敛性。参照图7,我们可W清楚地看 到节点和关系的均衡分布的变化,II pt-pW II2+II qt-qW II2的值在有限的迭代次数内急促 地下降,经过连续地迭代最终逐渐减小,当ε = 10-5是一个收敛充分的标准值,在Iris和 化east合成数据集上,连续排序算法的迭代次数分别是11到17轮(不超过20)。
[0107] 本发明提出的基于异构社会网络的检测方法考虑到节点和关系的分布都是相互 影响和禪合的,所W使用条件概率来进行联合概率分布的建模,从而来获得异构网络关系 的均衡分布,通过迭代计算可W得到带有权重的单关系网络,也可W得到异构网络中节点 和关系的权重。
[0108] W上所述,仅为本发明的【具体实施方式】,但是,本发明的保护范围不局限于此,任 何熟悉本技术领域的技术人员在本发明掲露的技术范围内,可轻易想到的变化或替代,都 应涵盖在本发明的保护范围之内。因此,本发明的保护范围应W所述权利要求的保护范围 为准。
【主权项】
1. 一种基于异构社会网络的检测方法,包括: 将异构社会网络映射成多维矩阵; 确定所述多维矩阵中节点的转移概率和关系的转移概率; 利用随机游走算法,获得节点的均衡分布以及关系的均衡分布; 根据节点的均衡分布以及关系的均衡分布,获得带权重的单关系社会网络;以及 利用单关系社会网络社区检测算法,基于所述带权重的单关系社会网络而获得异构社 会网络的社区检测结果。2. 根据权利要求1所述的检测方法,其中所述多维矩阵为nXnXm的矩阵,多维矩阵中 的值代表节点i和节点j在第d个关系下的合成的权重,其中1 < i, j <n,l 和η均为 大于等于2的正整数。3. 根据权利要求2所述的检测方法,其中确定所述多维矩阵中节点的转移概率和关系 的转移概率包括: 定义三维的张量S = [si, j,d],其表示关系和节点的合成;以及 确定节点的转移概率为〇 = [〇i, j, d]以及关系的转移概率为R = [ri, j, d],其中4. 根据权利要求3所述的检测方法,其中利用随机游走算法,获得节点的均衡分布以及 关系的均衡分布为根据确定所述节点的均衡分布以及所述关系的均衡分布,其中/=(/<,¥,...,pi)和 / 分别是节点和关系的先验分布,α和β是调整因子。5. 根据权利要求2所述的检测方法,其中所述合成的权重为节点i和节点j在d个关系下 的张量与关系权重的乘积之和。6. 根据权利要求1-5任一所述的检测方法,其中所述单关系社会网络社区检测算法包 括Kmeans算法、GMM算法以及GMM-NK算法中的至少一个。
【文档编号】G06Q50/00GK105825430SQ201610011812
【公开日】2016年8月3日
【申请日】2016年1月8日
【发明人】伍之昂, 朱桂祥, 吴俊杰
【申请人】南通弘数信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1