一种基于跨模态节点链接聚类的社区发现方法_2

文档序号:9844117阅读:来源:国知局
e将所有地点按照类型归类为三个层次,其中第一层包含9种类型,第二 层包含280种类型,第三层则包含400种类型。鉴于第一层次类型的粒度较为粗糙,而第三层 次部分类型之间的差异不甚显著,本发明选用第二层次地点类型对用户偏好进行刻画,即 将用户表示为一个280维的地点类型向量。面向整个用户集合U即可构造大小为|U| X280的 用户偏好矩阵。
[0053] 进一步地,采用主成分分析法PCA(Principal Component Analysis)对上述用户 偏好矩阵进行线性变换,将其降维至隐空间中若干线性无关的综合变量。主成分分析的结 果保留前100维综合变量,得到大小为I u I X 100的矩阵,涵盖了原始矩阵中95.62%的变化 性(Variance)。经上述转换,用户被表示为隐空间中一个100维向量。任意一对用户u x与uy的 用户-地点相似度形式化为:
[0054]
(7)
[0055] 其中冗与1^分别表不用户ux与uy的特征向量。
[0056] (2)地点-用户相似度
[0057] Foursquare中地点类型可表示为将在其之上签到的用户视为特征的向量。因此, 面向整个地点类型集合V即可构造大小为280X |U|的特征矩阵。同样地,采用主成分分析对 该特征矩阵进行降维处理,并保留前100维综合变量,得到大小为280X 100的矩阵,覆盖了 原始矩阵中95.34%的变化性。经过上述转换后,任一地点类型可以表示为隐空间中一个 100维的向量。与用户-地点相似度类似,本发明采用余弦相似度计算任意一对地点v x与vy之 间的地点-用户相似度simvu(vx,v y)。
[0058] (3)用户社会相似度
[0059] 用户社会相似度旨在刻画用户之间社会交互特征的相似性,即如果两个用户拥有 大量共同好友,则二者的社会相似度较高。作为基础,首先引入包容性邻域(Inclusive Neighbors)的概念对用户社会关系进行描述。对于用户u x,其包容性领域N+(ux)的形式化定 义如下:
[0060]
[0061] 其中Au为用户模态的邻接矩阵。基于此,任意一对用户的社会相似度可依据 Jaccard相似度定义为:
[0062]
(8)
[0063] (4)用户空域相似度
[0064] 用户在物理空间的活动半径(Radius of Gyration)是另一个可以区分不同用户 生活模式差异的变量。在基于位置的社交网络中,一般将其定义为用户的签到位置与起始 位置之间距离的标准差。用户活动半径从活动频率与活动距离两方面对用户的空域特征进 行了刻画。一般而言,活动半径较小用户的签到位置一般在其起始位置附近,偶尔有较远距 离的签到;活动半径较大用户则拥有大量远离起始位置的签到。用户物理活动半径形式化 定义为:
[0065]
[0066] 其中η表示用户ux的签到数量,lh表示用户的起始位置,h(l Si <n)则表示用户签 到的位置。
[0067]基于用户活动半径,引入模态内特征用户空域相似度。对于任意一对用户ux与uy, 其空域相似度的形式化定义如下:
[0068]
19)
[0069]其中rg(ux)与rg(Uy)分别为用户u x与Uy在物理空间的活动半径。
[0070] (5)地点时域相似度
[0071] -般而言,用户倾向在不同的时间访问并签到不同类型的地点,因此可以通过签 到时间的分布规律对地点类型进行刻画。本实施例在小时的粒度上构建地点类型的时域签 到热度向量,即将一周划分为168(7X24)个时间段,使得任意一种类型的地点皆可表示为 一个168维的特征向量。由于涉及的地点类型数量为280,所以构造得到大小为280X168的 地点时域特征矩阵。同样采用主成分分析对该矩阵进行降维处理,保留前20维综合变量,得 到大小为280 X 20的矩阵,覆盖了原始矩阵中96.33%的变化性。任意两类地点vx与vy之间的 时域相似度sim vt(Vx,Vy)定义为二者签到热度向量的余弦相似度。
[0072] 综合上述特征的量化定义与公式(1~3),即可基于如下公式计算任意一对跨模态 节点链接ex与ey之间的相似度,即:
[0073]
(10)
[0074] 基于多模态多属性移动社交网络的定义及协同聚类思想,本发明将跨模态节点链 接聚类问题定义如下:
[0075] 输入:
[0076] 1 邻接矩阵A|u|x|v|,其中U={ui,U2, · · .u|u|}为用户集合,V={vi,v2, · · ·ν|ν|}为地 点集合;
[0077] ,用户属性矩阵%/?χ|Γ"|,其中:ΓΜ = [为用户属性集合;
[0078] {地点属性矩阵Μ|.ιηχ.|?ν?,其中_Γν. = {aK…ajf171}为地点属性集合;
[0079] ,社区数量k(可选项,依赖于所使用的聚类方法)。
[0080] 输出:
[0081 ] Ik个重叠式社区。
[0082]类似于其他基于相似度的社区发现问题,本发明中社区发现的目标是将相似度较 高的跨模态节点链接划分至相同社区,从而使得社区内成员之间的相似度达到最大。这一 目标函数可以形式化表示为:
[0083]
(11)
[0084] 其中k为社区数量,0={&,&,...&}表示所发现的社区集合,ex为隶属于社区(^的 节点链接,s im (ex,C j)表示ex与C j之间的相似度。由于社区是节点链接的集合,所以节点链 接与社区之间的相似度形式化为:
[0085]
(12)
[0086] 进一步地,本发明提出基于经典K-均值的多模态多属性移动社交网络社区发现方 法M2Clustering,如图-1所示。该方法对经典k-means算法进行三方面的改进:
[0087] 1经典k-means算法将簇的质心定义为簇中聚类对象的几何中心。然而,当跨模态 节点链接作为聚类对象时,如果将一组跨模态节点链接表示为一个单独的向量,则使得相 应的相似度结果显著不同。因此,我们将跨模态节点链接簇的质心定义为其全体成员的集 合,即一个矩阵。
[0088],经典k-means算法中聚类对象之间的相似度一般依据某种距离函数直接计算。 然而,由于跨模态节点链接关联于两个不同模态的节点且每一节点具有多个属性,导致其 相似度特征由长度不同的多个向量组成,所以无法采用统一的距离函数计算跨模态节点链 接之间的相似度,而需通过融合用户模态与地点模态的相似度间接获得。
[0089] ,虽然质心定义的变化保证了计算精度,却使得算法完成一次迭代的时间复杂度 由O(kXN)上升为0(N2)。为了提升算法的时间效率,将任意一个聚类对象形成的簇Cj表示为 包含如下四个组成部分的结构体的成员列表E(Q),上次迭代中新加入Q的成员列表Ea (Cj),上次迭代中从Q中移除的成员列表ER(CJ,以及上次迭代中Q的成员EP(CJ与全体聚 类对象的相似度数组sim(E P(Cj),E)。通过引入该结构体,算法一次迭代的计算复杂度变为0 (Σ ( |EA(Cj) | + |ER(Cj) |) XN),其中 Σ (|EA(Cj) | + |ER(Cj) |)可能的最大值为N,随着迭代的进 行其取值将急速降低。
[0090] 初始时,M2Clustering聚类算法随机地选取k个聚类对象,完成初始质心的构建; 之后,每一次循环迭代过程中,对所有聚类对象 ei£E依次计算其与质心(Ml < j <k)之间的 相似度,并将其赋予与其相似度最高的质心,相应的最高相似度记为simmax(i);-次迭代结 束时,计算目标函数的当前值并与上次迭代的目标函数取值进行比较,若其差值小于阈值 e则结束迭代。实验结果表明,多数情况下M2Clustering算法在100次迭代内收敛。
【主权项】
1. 一种基于跨模态节点链接聚类的社区发现方法,采用以跨模态节点链接为聚类对象 的重叠式社区发现体系,融合跨模态特征与模态内特征两类相似性度量特征的节点链接相 似度量化方法,刻画移动社交空间所蕴含的多模态实体属性及交互信息,将相似度高的跨 模态节点链接划分至同一社区。2. 根据权利要求1所述的一种基于跨模态节点链接聚类的社区发现方法,其特征在于: 所述的跨模态特征主要利用不同模态节点之间的交互信息,用一个模态实体的信息描述另 一个模态实体的特征。3. 根据权利要求1所述的一种基于跨模态节点链接聚类的社区发现方法,其特征在于: 所述的模态内特征兼顾同一模态节点之间的交互信息与属性信息,利用与目标实体隶属同 一模态的信息对其进行描述的特征。4. 根据权利要求2所述的一种基于跨模态节点链接聚类的社区发现方法,其特征在于: 所述的跨模态特征包括用户-地点相似度,利用地点类型向量刻画用户特征。5. 根据权利要求2所述的一种基于跨模态节点链接聚类的社区发现方法,其特征在于: 所述的跨模态特征包括地点-用户相似度,利用用户向量刻画地点类型特征。6. 根据权利要求3所述的一种基于跨模态节点链接聚类的社区发现方法,其特征在于: 所述的模态内特征包括用户社会相似度,利用朋友关系描述用户特征。7. 根据权利要求3所述的一种基于跨模态节点链接聚类的社区发现方法,其特征在于: 所述的模态内特征包括用户空域相似度,利用空间活动半径描述用户特征。8. 根据权利要求3所述的一种基于跨模态节点链接聚类的社区发现方法,其特征在于: 所述的模态内特征包括地点时域相似度,利用时域热度向量刻画地点类型特征。9. 根据权利要求1-8任一所述的一种基于跨模态节点链接聚类的社区发现方法,其特 征在于:所述的社区发现方法还包括基于元数据的社区诠释机制,通过计算社区中每一用 户成员与地点成员的隶属度,然后基于社区中重要成员的元数据对社区特征进行刻画与诠 释。
【专利摘要】一种基于跨模态节点链接聚类的社区发现方法,采用以跨模态节点链接为聚类对象的重叠式社区发现体系,融合跨模态特征与模态内特征两类相似性度量特征的节点链接相似度量化方法,刻画移动社交空间所蕴含的多模态实体属性及交互信息,将相似度高的跨模态节点链接划分至同一社区。
【IPC分类】G06Q50/00, G06F17/30
【公开号】CN105608174
【申请号】CN201510967689
【发明人】王柱, 周兴社, 於志文, 郭斌
【申请人】西北工业大学
【公开日】2016年5月25日
【申请日】2015年12月21日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1