一种地理社交网络下的用户相似性计算方法

文档序号:9631560阅读:489来源:国知局
一种地理社交网络下的用户相似性计算方法
【技术领域】
[0001] 本发明属于舆情监控领域,涉及社交网络用户推荐及商业服务推荐技术分析,尤 其涉及一种地理社交网络下的用户相似性计算方法。
【背景技术】
[0002] 随着具有移动定位功能的智能移动终端普及和在线社交网络的发展,位置服务和 在线社交网络正趋于融合,产生了LBSN(Location-basedonlineSocialNetwork)。由于用 户能通过LBSN实时记录着自己的地理行为,以及自己对地理事件和社会功能的感受,LBSN 不仅反映了居民群体间的虚拟关系和联系,也是城市实体活动在网络空间中的体现。当前 LBSN挖掘的一个重要研究方向是用户相似性计算。城市中居民由于其收入水平、工作性质、 受教育程度等因素的不同,其行为空间范围、感兴趣位置和到达位置的时间甚至是生活行 为习性上具有相似性,从而呈现出这一类用户所独有的社会移动模式,反映这一类用户的 社会角色和兴趣偏好,能支撑好友推荐、信息推荐、位置服务推荐和地理广告营销等一系列 的移动在线应用,同时也是挖掘社会时空行为模式,进而解读城市空间结构的重要视角。
[0003]当前这方面的研究趋势有两种,一种是将LBSN中的用户轨迹(签到数据)抽象为 停留点(StayPoint)序列,或直接将用户某段时间内的签到数据作为停留点序列,利用停 留点序列间各基本构成单元间的地理范围重叠性或功能语义重叠性判断他们之间的相似 程度,从而判断用户的相似度。如对停留点进行空间层次聚类,利用不同空间尺度的聚类簇 作为轨迹基本构成单元,通过找出时间约束下轨迹间的最长相似子序列表达轨迹间的相似 性,进而体现出用户的相似性;或者基于停留点覆盖区域的语义功能进行层次聚类,利用不 同粒度的聚类簇作为轨迹基本构成单元,通过构建Precedencegraph找到两个序列间的 若干条时间约束下的最优相似子序列,进行体现用户间的相似性。
[0004] 另外一种用户相似性计算方法是利用LDA(LatentDirichletAllocation)SVD等 潜在因子模型,利用潜在主题表达用户,再通过潜在主题的相似性获取用户间的相似性。如 将用户和位置看做LDA中所表达的"文章"和"词",用户在长时间内对各位置的访问频次最 为"词汇"出现频次,利用LDA模型获得用户潜在主题;或者用所有用户在多个时间内对各 位置的访问频次生成矩阵,基于SVD分解获得用户对未记录未知的喜好程度,基于SVD能获 取表达用户的低维特征向量,同样可用以实现用户相似性比较。
[0005] 然而,当前技术和研究存在如下问题:
[0006] (1)未见统一考虑位置功能语义和地理因素对用户相似性的影响。已有研究依据 轨迹的物理形态、驻留空间区域间的空间邻近度表达停留点序列间的相似性,然而,位置的 语义特征表达了更多的用户兴趣信息,在轨迹的物理形态无法重合的情况下也能表达相似 的用户兴趣。
[0007] (2)缺少较为周全的语义时间划分方法。没有考虑社会作息的总体规律,对于不是 同一物理时刻但是具有相同语义含义的时间,如工作时间、节假日等无法识别;一些文献通 过人为设定每个语义时段的间隔,带有较大的随意性,这些时间槽无法体现时间的社会人 文含义,也无法最大程度体现出用户间的活跃差异度。
[0008] (3)缺少妥当表达不同时段内位置访问强度的方法。没有考虑用户在不同时间内 的签到活跃程度和签到数量差异,忽略了尽管长时间上位置到达规律类似的、但位置到达 时间差别突出的用户区别。
[0009] (4)缺少表达用户长时间内具有统计意义的位置访问序列模式。一类研究是对原 始停留点序列进行时间约束下的比较,寻找他们的最长相似子序列这类方法由于要逐条轨 迹相互比较,而当某些用户间的位置驻留记录总数差异较大时,原始停留点序列条数较少 的用户与其他用户间的相似度会被削弱。另一类研究是将用户所有的位置访问数据作为一 个对象,利用如LDA模型进行对象相似性的比较,能在全局时间上获得具有统计意义上位 置访问强度,但没有考虑用户每个时段在各位置出现的统计意义上的强度。

【发明内容】

[0010] 本发明的发明目的在于针对现有技术中存在的上述问题,提供一种地理社交网络 下的用户相似性计算方法。
[0011] 一种地理社交网络下的用户相似性计算方法,包括以下步骤:
[0012] (1)时空语义抽取:包括基于各用户对位置的访问热度,对位置进行的空间层次 聚类;还包括依据用户连续签到位置间的距离、时间差异进行的时间层次聚类;
[0013] (2)建立用户时空访问模型:为基于不同时空语义条件下,构建的位置访问序列, 所述位置访问序列的表达式为:
[0014] ,Mil?? (lUj |t〇|,1j ^u, |Το|,2? ,lu, |To|, |Sk|) ^
[0015]其中,每个节点血衍(1_|,1,1_|,2,.",14。|,_)为用户1!在第|1'〇|个语义时 间内位于位置1一一|Sk|个语义位置的访问热度分布,lu,|Tc]|, |SK|表示用户U在第|τ〇|个 语义时间内对位置Sk的访问热度;
[0016](3)用户相似性计算:所述用户相似性的计算公式为:
[0017] DIS(u,v) =Σ〇εq[PoXDIS0(LVSu,LVSv)]
[0018] 其中,β。为第ο层时间尺度下的位置访问差异权重值;LVSu、LVSv分别为第ο层 时间尺度时用户u或ν在所有空间尺度上的位置分布访问序列;DISJLVS^LVSJ表示两用 户在第〇层时间尺度时所有空间尺度上的差异值累积量。
[0019]进一步地,所述用户u对位置s的访问热度为:
[0020]
[0021] 其中,I{u-s}表示访问过s的用户数量;
表示各用户u访问位置 s的概率;U为用户集合;Ens(s)为位置熵。
[0022] 进一步地,所述位置熵Ens(s)的表达式为:
[0023]
[0024] 其中,aUis为用户u访问位置s的次数。
[0025] 更进一步地,所述步骤(3)的位置访问差异权重值为:
[0026]
[0027] 其中,Q表示时间尺度的忍层数,1衣不弟1层町|B」K度。
[0028] 综上所述,本发明相对现有技术的有益效果是:
[0029] (1)自适应的进行用户活动时间的语义划分,语义时间划分更周全,较直接采用物 理时间来说,更能从社会人文角度体现用户间的区别,同时降低了数据稀疏性带来的问题。
[0030] (2)统一考虑了位置功能语义和地理因素对用户相似性的影响,可获取更多的用 户兴趣信息。
[0031] (3)妥当表达不同时段内位置访问强度的方法,缓减了因位置记录总数量级和用 户记录意愿差异导致的用户位置访问强度不符合现实的情况。考虑用户在不同时间内的签 到活跃程度和签到数量差异,呈现了长时间上位置到达规律类似的、但位置到达时间差别 突出的用户区别。表达用户长时间内具有统计意义的位置访问序列模式,更准确地描述用 户社会移动特征。
[0032] (4)依据位置热点计算公式,考虑了用户之间在所有位置签到总数的差异,可更加 准确描述用户对各类型位置和区域的喜好水平。
[0033] (5)结合轨迹的物理时空邻近性与语义时空相似性,进行社交网络用户相似性计 算,准确率更高;进而实现对社交网络用户群体的划分,用户分类效果更优。
【附图说明】
[0034]图1为社交网络下的用户相似性计算的原则流程图。
【具体实施方式】
[0035] 以下将结合附图和具体实施例,对本发明提供的技术方案进行说明。
[0036] 实施例1
[0037] 步骤1 :时空语义抽取
[0038] (1)多尺度空间语义
[0039] 利用Checkin数据中的VenueID作为参数,通过Foursquare的RESTAPI获取 Checkin位置的Ρ0Ι名称,从而得到该位置的最底层功能语义,如"WuhanUniversity",而 通
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1