一种地理社交网络下的用户相似性计算方法_3

文档序号：9631560阅读：来源：国知局

|, 〇lu, |T〇|,2，…，lu, |T〇|, |sk|)为用户 U在第IToI个语义时间内位于位置1一一|sk|个语义位置的访问热度多项式分布。步骤 3 :用户相似性计算
[0085] 根据以上两个步骤，进行用户相似性的比较，就是进行每个用户相应LVS的相似性比较。LVS的每个结点可看成是随机变量P(s11)，即语义时间t内在各位置的分布，而随机变量间的相似性计算一般采用KL散度（Kullback-Leiblerdisvergence，简称KL距离）表达。KL散度，也叫做相对熵（RelativeEntropy)，能衡量相同事件空间里两个概率分布的差异情况。其物理意义是：在相同事件空间里，概率分布P(x)的事件空间，若用概率分布Q(x)编码时，平均每个基本事件（符号）编码长度增加了多少比特。设LVSu#k的在七语义时间的结点为10~血^(1^，10,2，一);，则处于第〇层时间尺度和第1^层空间尺度时，两个用户u和v在语义时间t距离表示为：
[0086]
[0087] 但是，KL散度不具有对称性，即从分布lu,t到1v,t的距离（或度量）通常并不等于从UjijlUit的度量。此外，用户不可能在某一语义时段内到达过的语义位置极为有限，大量位置的概率为0,从而造成KL距离无穷大，或变为0,产生错误的相似度结果。为此，我们对每个语义时间内的位置s的到达概率统一加入一个较小的背景值τ，并利用 Kkk(lu,t| |lv,t)和KL^dul|lu,t)两者的结果共同表用户u和ν在语义时间KL修正距离：
[0088]
[0089] 定义用户时态熵表达用户U在语义时间t的位置类型访问集中程度，BP:
[0090]
[0091] 如果用户在t时间访问各个位置的热度相当，则时态熵大，用户在该时间可能位于任何位置，反之，用户趋向于在时间t访问固定的若干位置。利用两用户在同一位置的时态熵均值表达他们在该位置的随机程度：
[0092]
[0093] 当两用户AKL距离较小而平均时态熵较大时，他们在t语义时间的位置访问随机性高，则两用户在该时间内某一位置共现的概率较低，用户相似度降低；而当两用户AKL距离较大时而平均时态熵较大时，这表明了两用户在该时间到达的位置多，他们在同一位置共现的概率反而会有所升高。
[0094] 通过对Checkin数据集的处理和观测，我们发现，两用户的AKL较小或较大时，他们的时态熵均值处于低值的概率高，即AH^a^，lViS)小于某一阈值的次数多。
[0095] 这一发现揭示了兴趣或社会阶层差异巨大的两种用户群体间，尽管他们驻留的位置类型和位置地理分布范围的差异十分明显，但他们日常驻留的位置个数有限，驻留时间具有较强规律可循；而对于在位置s的AKL差异不是非常大的用户来说，他们在这些的AH 值较大，通过对相应用户群体的分析发现，这部分群体中的59. 78%的用户（占用户总数的 3. 92% )不位于AKL较小和较大时候的任何一个用户集合，其自身的时态熵很大，从而拉大了与其他用户共有的平均时态熵。这些用户对位置访问的时间随机性强，经过计算，在任意尺度的语义位置层次中，这部分群体访问的位置类型数量的平均值要高于其余用户，每天访问的位置序列和序列的物理长度也高于其余用户，有理由怀疑这部分用户群体的签到数据是通过某种类似刷票软件生成的"伪数据"。
[0096] 同时，两用户在位置的时态熵差异越大，则他们的相似性程度越低。利用两用户时态熵差表达他们在该位置的随机差异程度：
[0097]AH(1u,s)1v,s) = |H(1U,S)-H(1V,S)I(11)
[0098] 基于平均时态熵和时态熵差，得到用户u和v在语义时间t距离公式：
[0099]
[0100]用户u和v之间在时空尺度分别为〇和k时的LVS的距离可表示为：
[0101]DIS0,k(LVSu,0,k)LVSv,0,k) =ΣteToδok(lut,lv,t) (13)
[0102] 然而，KL散度无法体现用户不同时间下的签到强度和签到兴致，而如果考虑了用户在该时刻的签到强度，即当前时刻签到次数与用户总签到次数之比，即可表达用户在语义时间的位置访问序列特征和兴趣强度差异：
[0103]
[0104] 其中，au为用户u的总签到次数，au，t为用户u在语义时间t的签到次数。Lst(u，v) 反映了用户u、v在各语义时间内签到强度的差别累计量。
[0105] 基于式（14)，结合不同空间尺度的权重，可获通过两用户在第〇层时间尺度上各 LVS相似性累计公式：
[0106]DIS〇(LVSu，LVSv) = (Y+z)[akXDIS'0，k(LVSu，。人LVSv，0，k)] (15)
[0107] 则各时间尺度下用户间的相似性累计公式为：
[0108]DIS(UiV)=Σ〇eq[0oXDISo(LVSu,LVSv)] (16)
[0109]DIS(u，v)可看做是为用户u和v之间的距离。基于式（16)和密度聚类OPTICS，便可将用户分为若干群体，每个用户群体表示一类社会移动模式。
【主权项】
1. 一种地理社交网络下的用户相似性计算方法，其特征在于，包括以下步骤： (1) 时空语义抽取：包括基于各用户对位置的访问热度，对位置进行的空间层次聚类；还包括依据用户连续签到位置间的距离、时间差异进行的时间层次聚类； (2) 建立用户时空访问模型：为基于不同时空语义条件下，构建的位置访问序列，所述位置访问序列的表达式为： LVSU_0_k -{Muti(1 u,llu,l2，…，lu,T1, |Ski)，Muti(lu,&lu,&2，…，lu,2, |Ski)，… ，Milt i(lu，|T〇|，i，1u，|t〇|，2，，lu，|To|，|Sk|)} 其中，每个节点血衍（1_|，1，1_|， 2，一，1_|，_)为用户11在第|1'〇|个语义时间内位于位置1 一一 |Sk|个语义位置的访问热度分布，lu, |Tc]|, _表示用户u在第|To|个语义时间内对位置Sk的访问热度； (3) 用户相似性计算：所述用户相似性的计算公式为：其中，βc为第〇层时间尺度下的位置访问差异权重值；LVSu、LVSv分别为第〇层时间尺度时用户u或v在所有空间尺度上的位置分布访问序列； DISjLVSu，LVSv)表示两用户在第〇层时间尺度时所有空间尺度上的差异值累积量。2. 根据权利要求1所述的一种地理社交网络下的用户相似性计算方法，其特征在于：所述步骤⑴中用户u对位置s的访问热度为：其中，I{u-s}表示访问过s的用户数量表示各用户u访问位置s 的概率；U为用户集合；Ens(s)为位置熵。3. 根据权利要求2所述的一种地理社交网络下的用户相似性计算方法，其特征在于：所述位置熵Ens(s)的表达式为：其中，au，s为用户u访问位置s的次数。4. 根据权利要求1所述的一种地理社交网络下的用户相似性计算方法，其特征在于：所述步骤（3)的位置访问差异权重值为：其中，Q表示时间尺度的总层数，i表示第i层时间尺度。
【专利摘要】本发明属于舆情监控领域，涉及社交网络用户推荐及信息服务推荐技术分析，尤其涉及一种地理社交网络下的用户相似性计算方法。主要包括以下步骤：包括时空语义抽取、建立用户时空访问模型及用户相似性计算。本发明的有益效果是（1）时空语义划分更周全，同时降低了数据稀疏性带来的问题；（2）统一考虑了位置功能语义和地理因素对用户相似性的影响，对用户画像的建模更加全面；（3）结合轨迹的物理时空邻近性与语义时空相似性，进行社交网络用户相似性计算，准确率更高，进而实现对社交网络用户群体的划分，用户分类及其兴趣类型判断效果更优。
【IPC分类】G06F17/30
【公开号】CN105389332
【申请号】CN201510669496
【发明人】段炼
【申请人】广西师范学院
【公开日】2016年3月9日
【申请日】2015年10月13日

完整全部详细技术资料下载

当前第3页1 2 3