一种地理社交网络下的用户相似性计算方法_2

文档序号：9631560阅读：来源：国知局

过RESTAPI可进一步获取"WuhanUniversity"隶属于"Education"类，从而获取了该 Checkin位置更高尺度下的功能语义，以此类推，从而要将各用户所有的Checkin位置映射到层次Ρ0Ι分类结构中，形成位置的多尺度语义树。
[0040] 为表达用户在不同空间尺度的停留的相似度，我们在基于地理区划进行位置语义划分中，引入用户对位置的访问强度，基于位置间的空间距离，进行位置的空间层次聚类，从而在聚类邻近度中同时考虑了社会因素和地理空间因素。
[0041] 设：位置IdljEs，S为位置集合，d(lDlj)为位置込和1j的空间距离，U为用户集合，(^为各用户在位置1 ;的访问强度构成的向量，c i= [c Cii2,…，ciiU,…，Ci,|LJ|]。基于IF-IDF表示用户u在位置h的访问强度cliU:
[0042]
[0043] 其中，aliU为用户u访问i的次数，au为用户u访问所有位置的总次数，I[u' -i] 为访问过i的用户数量。访问强度综合表达了该位置对用户的重要程度。相对于本方法，直接采用频次无法准确反映总签到数量少和总签到数量多的用户间对某位置的兴趣相似程度。
[0044] 基于Pearson相关系数，表示位置1JP1丨的社会环境差异：
[0045]
[0046] 其中，K为所有用户访问位置h的平均强度，〇(cJ为所有用户对位置li的访问强度的标准差。当两位置的社会环境完全相同时，Pu为〇,反之，Pu趋向于2。相对于余弦距离或杰卡德相似系数，Pearson相关系数能体现用户在两位置上的兴趣度是否具有线性正相关或负相关性，即用户对其中一个位置的访问强度的增加是否引起该用户对另外一个位置访问强度的增加或减少，表现出位置对不同用户的吸引相似度。由此，我们定义两位置的聚类距离：
[0047] ω(1?;lj) =eld；,lj)X(w+Pj)
[0048] 其中，w为固定系数，一般设为0· 1。
[0049] 基于ω(11;g，采用DBSCAN密度聚类方法，即可得到聚类结果。随着聚类邻近阈值的增加，将相似类型用户的日常社会行为集聚区域合并为同一区域，从而获取该更大尺度的语义地理区位，最终形成层次空间聚类。
[0050] ⑵多尺度时间语义
[0051] 通过分析发现，用户连续两个签到位置的距离，反映了该时段内用户社会行为发生的空间范围。因此，基于每个时段内用户签到位置与前一签到位置间的地理距离和间隔时间，得到t时间槽内用户u到达位置j虚拟移动速度υ
[0052]
[0053] 该值越大，表明用户在该时段前的活动范围越广。假设用户在t时间槽内进行了 k次签到，则其在该时段内的平均虚拟移动速度为：
[0054]
[0055] 反映了用户在单位时间内的移动范围。由于不同类型用户在不同时刻的活动范围具有明显差异，因此，包，对区分不同类型用户有着显著作用。
[0056] 基于社会规律，除了在一天的24小时中进行语义时段划分外，我们还需考虑工作日和周末时间用户行为的差异，如工作日和休息日，以捕获用户较长时间内的位置访问相近程度。
[0057] 步骤2 :建立用户时空访问模型
[0058] 构造多树结构--多尺度时空访问森林：F〇reStu，表达用户u的日常签到位置集合特征如图所示。其中，Forestu内的每课树TreeuAt表达用户u在第h层时间尺度内的t语义时段中的签到位置特征，TreeuAt中的每个层次layer，表达用户u在t语义时段对该1层空间尺度下各语义位置的访问特征，layer:中的每个结点suAtilii，表示用户u在t语义时段对第1层的第i个位置的访问热度。本文中，第一层时间尺度下有7个语义时段，第二层时间尺度下有3个语义时段，加上周末和工作日这2个语义时段，则每个用户的 MSVF共有7+3+2=12棵树。由于每个位置有5类空间语义属性，则每棵树具有5层，每一层的结点数量最多时为该层空间语义中的位置类型个数。
[0059] 本文在IF-IDF的基础上，进一步引入位置熵，表达位置s对各用户重要性的差异程度。设各用户访问位置s的概4
|位置熵定义为：
[0060]
[0061] 位置熵描述了位置受欢迎度在用户间分布的混沌状况。人们访问一个位置的概率越相近，表明该位置在人们心中的地位越一致，对于识别用户的差异就越不明显，位置熵越大；反之，位置熵小，人们对该位置的访问概率差异很大，表明该位置受欢迎程度差异很大，能有效表达用户间的差异。由此，用户u对位置s的访问热点为：
[0062]
[0063]其中，I{u-s}表示访问过s的用户数量。位置s被用户u访问的频率越高，访问过该位置的用户越少，被各用户访问率的差异越大，该位置对s来说的热度就越大，从而更加准确描述用户对位置的喜好水平。
[0064] 依据位置热点计算公式，我们就能对每棵树的结点进行填充，从而为每个用户构造出完整的MSVF。与式⑵不同的是，每棵树中的结点s是用户在某语义时间内在访问热点，所以，用户访问位置s的概率变为用户在语义时间t访问位置的概率为：
[0065]
[0066] 其中，au,t,s为用户u在语义时间t访问位置s的次数。相应，将式⑵变为：
[0067]
[0068] 其中，I{ut-s}表示在语义时间t到达位置s的用户数量。之后，对用户热点进行归一化：
[0069]
[0070] 至此，我们对所有时空语义尺度下用户的各时空语义结点赋予了访问热度，为每个用户填充了MSVF。
[0071] (1)时间尺度重要性计算
[0072] 用户u和v间的距离定义为：
[0073]
[0074] 其中，?\为第i个时间尺度，βi为时间尺度i下的位置访问差异度权重值，为用户在第i个时间尺度的第j个语义时间下的位置访问热度树。
[0075] 将中等时间尺度下用户位置访问差异权重设置最高，其他时间尺度随着其距中等时间尺度的增加而变小，设共有Q层时间尺度，中等时间尺度的位置访问差异权重& =^基于线性衰弱，则其他时间尺度的位置访问差异权重值为：
[0076]
[0077] (2)空间尺度重要性计算
[0078] 设第1层空间尺度（最大空间尺度）的权重为αι= 1，第i层空间尺度的权重为：
[0079] a^e1 (5)
[0080] 越小空间尺度下两用户的活动区域越相近，他们的相似度会呈指数增长。
[0081] 位置特征树中，空间语义层的下面是基于Ρ0Ι的位置类型划分，同时间尺度重要性相似，中等空间尺度的P0I语义层次应当较为妥当的反映出具有相似社会移动和兴趣偏好的用户群体，随着距离中等尺度的距离增加，越大和越小功能尺度的P0I对反映相似用户行为模式的作用越低。因此，设空间尺度（非Ρ0Ι功能尺度）总共有Y层，Ρ0Ι功能尺度有Z层，中等Ρ0Ι功能尺度的位置访问差异权重: '基于线性衰弱，则其他Ρ0Ι功能尺度的位置访问差异权重值为：
[0082]
[0083] 为了区分用户的位置序列，需从同一时间尺度下的不同语义时间位置特征树中抽取多条不同空间尺度的位置分布访问序列（LocationVisitingSequence,LVS)，序列中的每个节点为用户在该语义时间访问该空间尺度下各语义位置的多项式分布。以第2层时间尺度为例，该时间尺度下共有4课位置特征树，每颗树有5层，则共有5条LVS，每条LVS共有4个结点。
[0084] 定义位置分布访问序列（LVS)为特定时间尺度下，用户在各语义时间的位置访问热点分布序列构成。用户u在第〇个时间尺度和第k个空间尺度下的访问序列表示为：LVSu，。，k= {MutidumluAf'lujuwhMutidd.luAf'ldw)，" ，Muti(lu, |τ〇|, 〇lu, |T〇|,2，…，lu, |T〇|, |sk|) }，母个~p点Muti(lu, |τ〇

完整全部详细技术资料下载

当前第2页1 2 3