综合行动者兴趣与网络拓扑的社区发现方法

文档序号:6605771阅读:230来源:国知局
专利名称:综合行动者兴趣与网络拓扑的社区发现方法
技术领域
本发明涉及一种Web2.0下资源共享平台中的社区挖掘,尤其是一种综合行动者 兴趣与网络拓扑的社区发现方法,属于社会网络技术领域。
背景技术
社区广泛存在于人类社会中,它们有多种多样的结构形式和组织形式,如家庭、同 事圈子、朋友圈子、小区、城市、甚至国家。一般来讲,一个社区(或者称作群组)是由一系 列节点组成,社区内节点的相互联系相对紧密,社区间节点联系则相对稀松。近年来,随着 Web2. 0技术的迅猛发展,Web上出现了各种虚拟群组、在线社区等应用系统。在线社会网络 系统的发展,使得大规模社会网络数据的获取成为了可能性。如何在大规模社会网络中挖 掘出社区信息,成为了一个热门的研究方向,吸引了众多研究者的参与。社区的主要功能是为具有相同兴趣的人们提供一个交流和共享的平台。一般来 说,有两类社区发现的方法,第一类方法基于行动者的个人兴趣,将社区发现的问题映射为 计算行动者的兴趣相似度的问题,进而将兴趣划分到不同的群组,从而得到以兴趣为中心 的社区结构。例如,使用最广泛的划分聚类方法一一k-means聚类法。第二类方法直接基 于行动者间的联系,根据社区的定义,将社会网络划分为各个社区,形成以行动者为中心的 社区结构。例如,Grivan和Newman提出了的分裂式社区发现算法,该算法通过依次移除边 介(betweermess)数大的边,发现图中的社区结构。不论是基于兴趣的社区发现方法,还是 基于社会联系的社区发现方法均只考虑了社区特性的一个方面。实际上,兴趣和社会联系 对于社区的共享和交流功能来说都具有重要的作用。例如,社区的两个成员可能因为共同 兴趣而成为朋友,成员也有可能推荐其有类似兴趣的朋友加入社区。社区和行动者社会网 络是相互作用、共同发展的。

发明内容
本发明的目的在于综合社会行动者兴趣和社会网络拓扑结构,从而实现一种新的 社区发现方法,该方法比起传统的社区发现算法,更加接近于真实社区的发展过程。本发明提出的方法分为两个部分第一部分,基于兴趣的社区发现。首先利用聚类算法,提取行动者兴趣特征,聚类 成兴趣社区。然后将根据行动者-兴趣关联信息,将行动者划分到相应的社区中,形成以兴 趣为中心的社区C”第二部分,基于社会网络的社区扩展。首先利用行动者社会网络和行动者的兴趣, 计算社会网络中边的权值。然后在这个带权社会网络中,使用带重启机制的随机游走算法, 计算行动者之间的相关度。接着根据行动者间相关度和方法第一部分发现的社区,计算行 动者到社区的相关度,从而将行动者加入到相关度最高的k个社区中,形成第三种结构的 社区Ciu。方法的流程如图1所示,具体包括如下步骤
3
A.把用户按照标注过的资源表示成标签向量(即兴趣向量)的形式;B.对上一步产生的向量进行k-medoids聚类,产生基于兴趣的用户社区;C.按照用户之间建立的朋友关系,计算用户社会网络边的权重,生成带权社会网 络图;D.在社会网络图上用随机游走算法,计算两个用户之间的相关度;E.根据用户相关度和步骤B中产生的基于兴趣的社区,计算用户与社区的相关度。本发明的有益效果本发明提出方法逻辑比起传统的社区发现算法,更加接近于 真实社区的发展过程,在有效性上有较大的提高。本发明应用于社会网络、资源共享平台, 可以为信息检索系统、个性化推荐系统等服务,挖掘社区结构,利用社区特性,改进个性化 服务质量。


图1为根据本发明的综合行动者兴趣与网络拓扑的社区发现方法的总流程图
图2为以兴趣为中心的社区结构;
图3为以行动者为中心的社区结构;
图4为本发明提出的综合社区结构;
图5为扩展社区_女k对纯度的影响示意图6为扩展社区_女k对熵的影响示意图7为随机游走启概率a对纯度的影响示意图8为随机游走启概率a对熵的影响示意图。
具体实施例方式下面通过实例对本发明做进一步说明。需要注意的是,公布实施例的目的在于帮 助进一步理解本发明,但是本领域的技术人员可以理解在不脱离本发明及所附权利要求 的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内 容,本发明要求保护的范围以权利要求书界定的范围为准。实例1以下结合一个照片共享网站的例子,详细描述本发明的具体实施方式
。在一个照片共享平台中,用户能够对每一张照片进行标签、收藏等行为。同时,用 户之间形成社区,用户可以根据自身兴趣参加到不同社区。用户与用户之间可以显示申明 朋友关系。综合行动者兴趣与网络拓扑的社区发现方法一共有以下几个步骤。步骤1 对原始数据进行预处理,把用户按照标注过的资源表示成标签向量的形 式。步骤2 对上一步产生的向量进行k-medoids聚类,产生基于兴趣的用户社区。 k-medoids聚类方法流程如下1)随机挑选k个点作为质心;2)对每个点计算该点到每个社区中心的距离,把该点加入与它距离最近的社区;
4
3)重新计算每个社区的中心,中心向量定义为社区内所有点的向量平均值;4)重新计算每个点到所属中心的距离,选离中心最近的点作为社区中心;5)重复2)、3)、4)三个步骤,直到每个社区内的点不再变化。步骤3 按照用户之间建立的朋友关系,计算用户社会网络边的权重,生成带权社 会网络图。社会网络中边的权重代表了用户之间熟悉程度。然而真实社会网络权值信息往往 很难获取,因此本发明考虑行动者之间的显式联系和共同拥有的资源数作为量化社会网络 权重的方法。只要社会行动者之间声明了社会联系,那么这条边的权值基数就为0. 5,使用 共同资源计算出的权重作为权重的另一部分,与权重基数叠加形成最终的权重,权重的具 体计算方法如下设行动者Ui拥有的资源集合为Ri,行动者~拥有的资源集合为、同时Ui到Uj存 在边eij,那么边 的权值Wij由公式⑴计算出 步骤4 在社会网络图上用随机游走算法,计算两个用户之间的相关度。得到了带权的社会网络,并将每个社会行动者的关联边权重进行归一化后,可以 使用带重启机制的随机游走算法,计算一个行动者到其他所有行动者的相关度。带重启机制的随机游走(Random Walk with Restarts(RffR))可以用于计算图中 任意两点之间的相关度。从点u出发,每一步RWR随机地沿图中的边由一个结点到达另一 个结点,同时,每一步都以a的概率从点u重新出发(restart)。RWR的基本思想可以表示为p(t+1) = (l-a)Sp(t)+aq(2)ρω和q为列向量,其中Pi⑴表示第t步时到达点i的概率,Pi(°)表示从目标行动 者出发。q表示初始状态,元素Qi表示初始时在结点i的概率,本发明将起始点在q中的初 始概率设为1,其它点的概率设置为0。S是转移概率矩阵,Su是当前在点i,下一步达到结 点j的概率。对于一个非周期不可约的图,在有限步迭代之后,到达图中任意点的概率达到 平稳分布的状态,再次迭代也不改变图中的概率分布。对社会网络中每一个结点,从该结点出发,进行RWR计算,直至算法收敛,从而得 到了目标结点到网络中其它结点的相关度S。这里的结点间的相关度是有序的,即一般来
说,对于 U1 Φ U2,有 S (U1, U2) Φ S (U2, U1)。步骤5 根据用户相关度和步骤2中产生的基于兴趣的社区,计算用户与社区的相 关度。其中用户社区的相关度定义为用户与该社区所有成员相关度的平均值。对于一个用户Ui,和一个社区Ck,用户到社区的相关度s(Ui,Ck)由以下公式定义 对用户Ui,根据公式(3),计算该用户到所有社区的相关度;根据用户与社区的相 关度,把用户加入相关度最高的前k个社区。
性能评测本发明的实验以Flickr社会网络数据集中真实社区集合为标准集,通过纯度 (Purity)和熵(Entropy)两种评价方法,将基于兴趣聚类的社区发现方法和综合方法得到 的社区集合与标准社区集进行对比,从而评价算法的效果。1)纯度(Purity)假设Flickr数据集中的真实社区集合为G = (G1, G2,... Gj,称作标准社区集合。 算法生成的社区集合为C = {C” C2.... Ck},称作测试社区集合,那么测试社区Ci的纯度定 义为 由于每个算法生成的测试社区可能包含属于不同标准社区的样本,纯度定义了测 试社区Ci与其主导的标准社区交集的样本个数与Ci样本数的比值。算法社区纯度值越高, 说明这个测试社区作为主导标准社区的一个子集纯度越高。根据测试社区的纯度定义,我们还可以定义测试社区集合C的纯度 测试社区集合的值纯度越高,说明越接近标准社区集合,其对应算法效果也就更 好。2)熵(Entropy)假设标准社区集合为G = {G1; G2, . . . GJ,测试社区集合为C = IC1, C2. . . . Cj,那
么测试社区Ci的熵定义为
公式中的熵值归一化到0和1之间,0表示测试社区Ci由一个标准社区Gj完整的 包含了,1表示社区均勻地包括了所有的标准社区,是一个很差的结果。熵不仅可以单独评 价一个测试社区,也可以利用测试社区大小进行加权平均对整个社区发现算法结果进行评 价。测试社区集合C的熵定义为 其中N为测试社区集合中的对象数(可重复,即,一个行动者可以属于多个社区, 他属于多少个社区就被记数多少次)。熵值越小,说明社区发现算法的效果越好。本发明采用基于兴趣的社区发现方法作为基线方法。对于基于兴趣聚类的社区发现,采用不添加社会网络信息的兴趣聚类方法,在 Flickr数据集上得到了 20个社区,社区集合记为C”在基于行动者兴趣聚类发现的社区集合的基础上,本发明利用Flickr社会网络 拓扑结构,对社区进行了扩展。由于Flickr数据集上共同收藏的图片数比较少,使用共同 收藏图片计算出的权值极小,对总权值影响不大,所以Flickr数据集上只使用共同tag的 权值计算方法,最终得到的结果社区集合记为Gh。在综合方法的社区扩展过程中,算法将用户划入最相关的前k个社区。k的取值会 对社区发现的结果产生影响。同样,和不同的重启机制随机游走重启概率参数a也会对算
6法结果产生影响。本发明分别取k= 1,2,3,4,5和& = 0.2,0.4,0.5,0.6,0.8对综合方法 进行实验,以确定参数k和a对算法的影响。从表1中可以看出,综合方法普遍比兴趣聚类方法发现的社区效果更好。在综合 方法中,当设置k = 3,a = 0. 2时,发现的社区纯度最高(比兴趣聚类的纯度提高了 57% ), 而熵值最小(比兴趣聚类的熵降低了 11. 8%,比最大团聚性的熵降低了 4% ),所以效果最 好。表1实验结果
固定随机游走重启概率a,设置不同的k值,可以观察k值变化对算法效果产生的 影响。图5和图6分别展示了取不同的a值,纯度和熵随k值的变化的曲线。由图5知,随着k的增大,纯度基本上呈先增长再降低的趋势。由图6知,特别是 取k > 3后,熵呈随k增大而增大的趋势。这说明k取较小的值,即将行动者根据网络拓扑结构,划入最相关的一个社区更加接近真实情况。固定随机游走相关社区扩展数k,设置不同的随机游走重启概率a值,可以观察a 值变化对算法效果产生的影响。图7和图8分别展示了取不同的k值,纯度和熵随a值的 变化的曲线。由图7和图8知,随着a的增大,除去少量的特殊点(如图8中k = 2,a = 0. 5), 纯度基本上呈下降趋势,而熵则呈上升趋势。也就是说a越大,综合算法效果越差。这说明 频繁重启随机游走,行动者邻居获得更大的相关性在综合方法中效果不明显,反而使用普 通的随机游走策略,得到与初始结点无关的平稳分布,更有利于提高社区发现的效果。可以看出,提出的方法确实比单纯基于兴趣聚类的方法和基于社会网络拓扑结构 的方法在有效性上有较大的提高。
9
权利要求
一种Web社区发现方法,应用于社会网络和资源共享平台,其特征在于,所述方法综合了社会行动者兴趣和社会网络拓扑结构,包括以下步骤A.把用户按照标注过的资源表示成标签向量的形式;B.对上一步产生的向量进行k medoids聚类,产生基于兴趣的用户社区;C.按照用户之间建立的朋友关系,计算用户社会网络边的权重,生成带权社会网络图;D.在社会网络图上用随机游走算法,计算两个用户之间的相关度;E.根据用户相关度和步骤B中产生的基于兴趣的社区,计算用户与社区的相关度。
2.如权利要求1所述的方法,其特征在于,所述步骤B中的k-medoids聚类方法流程如下1)随机挑选k个点作为质心;2)对每个点计算该点到每个社区中心的距离,把该点加入与它距离最近的社区;3)重新计算每个社区的中心,中心向量定义为社区内所有点的向量平均值;4)重新计算每个点到所属中心的距离,选离中心最近的点作为社区中心;5)重复2)、3)、4)三个步骤,直到每个社区内的点不再变化。
3.如权利要求2所述的方法,其特征在于,所述步骤C中计算用户社会网络边的权重的 方法如下设行动者Ui拥有的资源集合为Ri,行动者~拥有的资源集合为&,同时Ui到~存在边 eij,那么边的权值为Wii =0.5 + -^——^”2 I R1 IO
4.如权利要求3所述的方法,其特征在于,所述步骤D中的随机游走算法采用公式p(t+1) =(l-a)Sp(t)+aq,其中ρω和q为列向量,Pi(t)表示第t步时到达点i的概率,Pi(°)表示从 目标行动者出发,q表示初始状态,元素Qi表示初始时在结点i的概率,S是转移概率矩阵, Sij是当前在点i,下一步达到结点j的概率;起始点在q中的初始概率设为1,其它点的概 率设置为0。
5.如权利要求4所述的方法,其特征在于,所述步骤D的实现方法为对社会网络中每一个结点,从该结点出发,使用带重启机制的随机游走算法进行计算, 直至算法收敛,从而得到目标结点到网络中其它结点的相关度。
6.如权利要求5所述的方法,其特征在于,所述步骤E中计算用户与社区相关度的方法为对于一个用户Ui,和一个社区Ck,用户到社区的相关度按如下公式计算Σ s(uhitj)s(u,,Ck) = "jeCk —— \Ck\
全文摘要
本发明提出了一种综合社会行动者兴趣和社会网络拓扑结构的社区发现方法,属于社会网络技术领域。对于一个包含了社会行动者兴趣信息的社会网络数据集,首先对行动者个人兴趣进行聚类,得到基于兴趣的行动者社区,然后使用行动者社会网络拓扑结构信息,对兴趣社区进行扩展,使之更符合社区形成和发展的规律,从而达到更好的社区发现效果。本发明文提出的方法比单纯基于兴趣聚类的方法在有效性上有较大的提高。本发明应用于社会网络、资源共享平台,可以为信息检索系统、个性化推荐系统等服务,挖掘社区结构,利用社区特性,改进个性化服务质量。
文档编号G06F17/30GK101916256SQ201010225110
公开日2010年12月15日 申请日期2010年7月13日 优先权日2010年7月13日
发明者张铭, 燕飞, 谭裕韦 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1