一种基于跨模态节点链接聚类的社区发现方法

文档序号:9844117阅读:510来源:国知局
一种基于跨模态节点链接聚类的社区发现方法
【技术领域】
[0001] 本发明涉及网络结构分析技术领域;特别是涉及多模态网络的社区发现方法。
【背景技术】
[0002] 无线通信技术的快速发展与智能便携设备的广泛普及,使得人类进入移动互联时 代。移动社交空间中普遍存在的感知设备,能够获取丰富的实体交互数据与实体属性数据, 形成多模态多属性的移动社交网络。随之而来的问题之一是如何构建面向多模态多属性社 交网络的有效社区发现方法,该问题所面临的挑战表现在两个方面:其一,网络中存在多种 模态的实体,如用户、地点等,每一类实体皆具有丰富的属性信息;其二,既存在同一模态实 体之间的交互数据,又存在不同模态实体之间的交互信息。因此,传统基于结构特征的社区 发现方法不能适用于多模态多属性社交网络。
[0003] -方面,传统基于结构特征的社区发现方法所发现的社区不易解释。具体而言,虽 然知道社区成员之间的链接关系紧密,但是却无法直观地刻画并呈现社区具有的特征。导 致这一问题的原因主要有二:其一,结构特征本身不蕴含可用于诠释与刻画社区特征的信 息;其二,传统条件下较难大规模地获取可用于社区特征诠释的元数据,如社交实体的属性 信息等。
[0004] 另一方面,传统基于结构特征的社区发现方法所发现社区的重叠度较低,一般只 有很小一部分用户隶属于多个社区。然而,现实生活中用户的生活模式往往呈现多样性的 特点,使其倾向于隶属多个社区,例如一个学生可同时隶属于"文学社"、"体育爱好者"及 "游戏爱好者"等多个社区。因此,传统基于结构特征的社区发现方法不适合面向多模态多 属性移动社交网络的重叠式社区发现。

【发明内容】

[0005] 综合以上,需要提出新的方法以解决多模态多属性社交网络的社区发现问题。本 发明提供一种构建准确、相似度特征以实现高质量的社区发现方法。
[0006] 本发明一种基于跨模态节点链接聚类的社区发现方法的技术方案为:
[0007] -种基于跨模态节点链接聚类的社区发现方法,采用以跨模态节点链接为聚类对 象的重叠式社区发现体系,融合跨模态特征与模态内特征两类相似性度量特征的节点链接 相似度量化方法,刻画移动社交空间所蕴含的多模态实体属性及交互信息,将相似度高的 跨模态节点链接划分至同一社区。
[0008] 优选地,一种基于跨模态节点链接聚类的社区发现方法的跨模态特征主要利用不 同模态节点之间的交互信息,用一个模态实体的信息描述另一个模态实体的特征。
[0009] 优选地,一种基于跨模态节点链接聚类的社区发现方法的模态内特征兼顾同一模 态节点之间的交互信息与属性信息,利用与目标实体隶属同一模态的信息对其进行描述的 特征。
[0010] 优选地,一种基于跨模态节点链接聚类的社区发现方法的跨模态特征包括用户- 地点相似度,利用地点类型向量刻画用户特征。
[0011] 优选地,一种基于跨模态节点链接聚类的社区发现方法的跨模态特征包括地点-用户相似度,利用用户向量刻画地点类型特征。
[0012] 优选地,一种基于跨模态节点链接聚类的社区发现方法的模态内特征包括用户社 会相似度,利用朋友关系描述用户特征。
[0013] 优选地,一种基于跨模态节点链接聚类的社区发现方法的模态内特征包括用户空 域相似度,利用空间活动半径描述用户特征。
[0014] 优选地,一种基于跨模态节点链接聚类的社区发现方法的模态内特征包括地点时 域相似度,利用时域热度向量刻画地点类型特征。
[0015] 优选地,一种基于跨模态节点链接聚类的社区发现方法还包括基于元数据的社区 诠释机制,通过计算社区中每一用户成员与地点成员的隶属度,然后基于社区中重要成员 的元数据对社区特征进行刻画与诠释。
[0016] 以基于位置的社交网络为例,用户的每一次签到皆体现了其某一方面的偏好或兴 趣,这一观察启发我们以节点链接取代节点作为社区聚类的对象,即同时将结构特征和属 性特征作为社区发现的依据,聚类的目标是将相似度高的跨模态节点链接划分至同一社 区。由于每一节点与多条节点链接相关联,故而构造的节点链接社区将使得节点被自然地 分配至多个重叠式社区之中。这说明本发明是一种构建准确、相似度特征以实现高质量的 社区发现方法。
【附图说明】
[0017] 图1为基于位置的多模态多属性移动社交网络示意
【具体实施方式】
[0018] 下面结合实施例和附图来对本发明进行详细说明。
[0019] M2Clustering 算法不意:
[0020]
[0021]
[0022]该方法中跨模态特征与模态内特征的定义如下:
[0023]定义1:跨模态特征是指利用一个模态实体的信息描述另一个模态实体的特征。例 如,基于位置的社交网络中用户的偏好特征可以通过其历史签到地点的类型向量刻画,而 地点的类型特征则可以基于在其之上进行签到的用户向量描述。显然,跨模态特征主要利 用了不同模态节点之间的交互信息。
[0024] 定义2:模态内特征是指利用与目标实体隶属同一模态的信息对其进行描述的特 征。例如,一个用户的社交特征可以通过其朋友关系进行刻画,一个地点的访客数量与签到 数量则可以直观反映其热度特征。因此,模态内特征兼顾了同一模态节点之间的交互信息 与属性信息。
[0025] 依据上述定义可知,跨模态特征主要刻画不同模态节点之间的交互关系,而模态 内特征则描述同一模态内的节点交互信息与节点属性信息,二者共同涵盖了多模态多属性 移动社交网络所蕴含的各类信息。
[0026] 不失一般性地,本发明着重关注基于位置的社交网络,即属性二分网络,提出两个 跨模态特征与三个模态内特征。其中跨模态特征包括:
[0027] ,用户-地点相似度,即利用地点类型向量刻画用户特征;
[0028] ,地点-用户相似度,即利用用户向量刻画地点类型特征。
[0029]模态内特征包括:
[0030],用户社会相似度,即利用朋友关系描述用户特征;
[0031] ,用户空域相似度,即利用空间活动半径描述用户特征;
[0032] ,地点时域相似度,即利用时域热度向量刻画地点类型特征。
[0033] 基于上述特征,本发明进一步提出跨模态相似度特征的融合机制。由于作为聚类 对象的跨模态节点链接同时关联于用户与地点两个模态上的节点,所以分别定义用户相似 度与地点相似度如下:
[0034] (1)
[0035] (2)
[0036]其中| fu |与| fv |分别表不用户模态与地点模态的特征数量,而sin/ u*与sin/ v*则表 示归一化后的相似度特征。进一步地,跨模态节点链接相似度定义为:
[0037]
(3)
[0038] 在准确度量跨模态节点链接相似性的基础上,本发明提出适合多模态多属性移动 社交网络社区发现的M2Clustering(Multi_Mode Multi-Attribute Edge Clustering)算 法。具体而言,结合跨模态节点链接的特点,该方法对经典k-means算法进行三方面的改进:
[0039] 1经典k-means算法将簇的质心定义为簇中聚类对象的几何中心。然而,当跨模态 节点链接作为聚类对象时,如果将一组跨模态节点链接表示为一个单独的向量,则使得相 应的相似度结果显著不同。因此,我们将跨模态节点链接簇的质心定义为其全体成员的集 合,即一个矩阵。
[0040] ,经典k-means算法中聚类对象之间的相似度一般依据某种距离函数直接计算。 然而,由于跨模态节点链接关联于两个不同模态的节点且每一节点具有多个属性,导致其 相似度特征由长度不同的多个向量组成,所以无法采用统一的距离函数计算跨模态节点链 接之间的相似度,而需通过融合用户模态与地点模态的相似度间接获得。
[0041] ,虽然质心定义的变化保证了计算精度,却使得算法完成一次迭代的时间复杂度 由O(kXN)上升为0(N2)。为了提升算法的时间效率,将任意一个聚类对象形成的簇Cj表示为 包含如下四个组成部分的结构体的成员列表E(Q),上次迭代中新加入Q的成员列表Ea (Cj),上次迭代中从Q中移除的成员列表ER(CJ,以及上次迭代中Q的成员EP(CJ与全体聚 类对象的相似度数组sim(E P(Cj),E)。通过引入该结构体,算法一次迭代的计算复杂度变为0 (Σ ( |EA(Cj) | + |ER(Cj) |) XN),其中 Σ (|EA(Cj) | + |ER(Cj) |)可能的最大值为N,随着迭代的进 行其取值将急速降低。
[0042] 进一步地,为了便于向社区提供自适应服务,本发明提出了基于元数据的社区诠 释机制,其基本思想是:首先,计算社区中每一用户成员与地点成员的隶属度;之后,基于社 区中重要成员的元数据对社区特征进行刻画与诠释。对于社区Q,其包含的节点链接集合 为,若uxSCj的用户成员,而且关联于1^的跨模态节点链接集合为£^,则将ujiCj的隶属 度bu(ux,Cj)定义为:
[0043]
C4)
[0044] 类似地,若vy是Q的地点类型成员,C冲关联于vy的节点链接集合为%(士),则Vy 对Cj的隶属度bv(Vy,Cj)定义为:
[0045]
(5)
[0046] 用户ux或者地点类型vy是社区Q的重要成员的条件是:隶属度bu(u x,Q)或bv(Vy, Cj)取值大于给定的隶属度阈值Θ。
[0047] 对任意社区Q,皆可计算其重要用户成员集合UKEY(Cj)以及重要地点成员集合VKEY (Cj ),并进而将该社区量化诠释为:
[0048] (6)
[0049] 其中任意二元组ιΜ?Η%χ)或(f eamreY )表示一组用户或地点 模态的特征及其取值。一方面,社区的用户模态特征的取值基于其重要用户成员UKEY(Cj)的 元数据计算,例如,(^的活动半径即为UKEY(Cj)中用户活动半径的算术平均值;另一方面,地 点模态特征则依赖社区的重要地点成员V KEY(Cj),若地点类型vy隶属于VKEY(Cj),则vy即为一 个地点模态特征相应的取值为bv(vy,Cj)。
[0050]本发明提出以跨模态节点链接为聚类对象的重叠式社区发现体系,设计了融合跨 模态与模态内两类相似性度量特征的节点链接相似度量化方法。下面结合典型基于位置的 社交服务Foursqure数据实例,对跨模态与模态内相似度特征做出进一步阐述。
[00511 (1)用户-地点相似度
[0052] Foursquar
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1