一种地理社交网络下的用户相似性计算方法_3

文档序号:9631560阅读:来源:国知局
|, 〇lu, |T〇|,2,…,lu, |T〇|, |sk|)为用户 U在第IToI个语义时间内位于位置1一一|sk|个语义位置的访问热度多项式分布。步骤 3 :用户相似性计算
[0085] 根据以上两个步骤,进行用户相似性的比较,就是进行每个用户相应LVS的相似 性比较。LVS的每个结点可看成是随机变量P(s11),即语义时间t内在各位置的分布,而 随机变量间的相似性计算一般采用KL散度(Kullback-Leiblerdisvergence,简称KL距 离)表达。KL散度,也叫做相对熵(RelativeEntropy),能衡量相同事件空间里两个概率 分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)的事件空间,若用概率 分布Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。设LVSu#k的在 七语义时间的结点为10~血^(1^,10,2,一);,则处于第〇层时间尺度和第1^层空间 尺度时,两个用户u和v在语义时间t距离表示为:
[0086]
[0087] 但是,KL散度不具有对称性,即从分布lu,t到1v,t的距离(或度量)通常并不等 于从UjijlUit的度量。此外,用户不可能在某一语义时段内到达过的语义位置极为有 限,大量位置的概率为0,从而造成KL距离无穷大,或变为0,产生错误的相似度结果。为 此,我们对每个语义时间内的位置s的到达概率统一加入一个较小的背景值τ,并利用 Kkk(lu,t| |lv,t)和KL^dul|lu,t)两者的结果共同表用户u和ν在语义时间KL修正距离:
[0088]
[0089] 定义用户时态熵表达用户U在语义时间t的位置类型访问集中程度,BP:
[0090]
[0091] 如果用户在t时间访问各个位置的热度相当,则时态熵大,用户在该时间可能位 于任何位置,反之,用户趋向于在时间t访问固定的若干位置。利用两用户在同一位置的时 态熵均值表达他们在该位置的随机程度:
[0092]
[0093] 当两用户AKL距离较小而平均时态熵较大时,他们在t语义时间的位置访问随机 性高,则两用户在该时间内某一位置共现的概率较低,用户相似度降低;而当两用户AKL距 离较大时而平均时态熵较大时,这表明了两用户在该时间到达的位置多,他们在同一位置 共现的概率反而会有所升高。
[0094] 通过对Checkin数据集的处理和观测,我们发现,两用户的AKL较小或较大时,他 们的时态熵均值处于低值的概率高,即AH^a^,lViS)小于某一阈值的次数多。
[0095] 这一发现揭示了兴趣或社会阶层差异巨大的两种用户群体间,尽管他们驻留的位 置类型和位置地理分布范围的差异十分明显,但他们日常驻留的位置个数有限,驻留时间 具有较强规律可循;而对于在位置s的AKL差异不是非常大的用户来说,他们在这些的AH 值较大,通过对相应用户群体的分析发现,这部分群体中的59. 78%的用户(占用户总数的 3. 92% )不位于AKL较小和较大时候的任何一个用户集合,其自身的时态熵很大,从而拉大 了与其他用户共有的平均时态熵。这些用户对位置访问的时间随机性强,经过计算,在任意 尺度的语义位置层次中,这部分群体访问的位置类型数量的平均值要高于其余用户,每天 访问的位置序列和序列的物理长度也高于其余用户,有理由怀疑这部分用户群体的签到数 据是通过某种类似刷票软件生成的"伪数据"。
[0096] 同时,两用户在位置的时态熵差异越大,则他们的相似性程度越低。利用两用户时 态熵差表达他们在该位置的随机差异程度:
[0097]AH(1u,s)1v,s) = |H(1U,S)-H(1V,S)I(11)
[0098] 基于平均时态熵和时态熵差,得到用户u和v在语义时间t距离公式:
[0099]
[0100]用户u和v之间在时空尺度分别为〇和k时的LVS的距离可表示为:
[0101]DIS0,k(LVSu,0,k)LVSv,0,k) =ΣteToδok(lut,lv,t) (13)
[0102] 然而,KL散度无法体现用户不同时间下的签到强度和签到兴致,而如果考虑了用 户在该时刻的签到强度,即当前时刻签到次数与用户总签到次数之比,即可表达用户在语 义时间的位置访问序列特征和兴趣强度差异:
[0103]
[0104] 其中,au为用户u的总签到次数,au,t为用户u在语义时间t的签到次数。Lst(u,v) 反映了用户u、v在各语义时间内签到强度的差别累计量。
[0105] 基于式(14),结合不同空间尺度的权重,可获通过两用户在第〇层时间尺度上各 LVS相似性累计公式:
[0106]DIS〇(LVSu,LVSv) = (Y+z)[akXDIS'0,k(LVSu,。人LVSv,0,k)] (15)
[0107] 则各时间尺度下用户间的相似性累计公式为:
[0108]DIS(UiV)=Σ〇eq[0oXDISo(LVSu,LVSv)] (16)
[0109]DIS(u,v)可看做是为用户u和v之间的距离。基于式(16)和密度聚类OPTICS, 便可将用户分为若干群体,每个用户群体表示一类社会移动模式。
【主权项】
1. 一种地理社交网络下的用户相似性计算方法,其特征在于,包括以下步骤: (1) 时空语义抽取:包括基于各用户对位置的访问热度,对位置进行的空间层次聚类; 还包括依据用户连续签到位置间的距离、时间差异进行的时间层次聚类; (2) 建立用户时空访问模型:为基于不同时空语义条件下,构建的位置访问序列,所述 位置访问序列的表达式为: LVSU_0_k -{Muti(1 u,llu,l2,…,lu,T1, |Ski),Muti(lu,&lu,&2,…,lu,2, |Ski),… ,Milt i(lu,|T〇|,i,1u,|t〇|,2,,lu,|To|,|Sk|)} 其中,每个节点血衍(1_|,1,1_|, 2,一,1_|,_)为用户11在第|1'〇|个语义时间 内位于位置1 一一 |Sk|个语义位置的访问热度分布,lu, |Tc]|, _表示用户u在第|To|个语 义时间内对位置Sk的访问热度; (3) 用户相似性计算:所述用户相似性的计算公式为:其中,βc为第〇层时间尺度下的位置访问差异权重值;LVSu、LVSv分别为第〇层时间尺 度时用户u或v在所有空间尺度上的位置分布访问序列; DISjLVSu,LVSv)表示两用户在第〇层时间尺度时所有空间尺度上的差异值累积量。2. 根据权利要求1所述的一种地理社交网络下的用户相似性计算方法,其特征在于: 所述步骤⑴中用户u对位置s的访问热度为:其中,I{u-s}表示访问过s的用户数量表示各用户u访问位置s 的概率;U为用户集合;Ens(s)为位置熵。3. 根据权利要求2所述的一种地理社交网络下的用户相似性计算方法,其特征在于: 所述位置熵Ens(s)的表达式为:其中,au,s为用户u访问位置s的次数。4. 根据权利要求1所述的一种地理社交网络下的用户相似性计算方法,其特征在于: 所述步骤(3)的位置访问差异权重值为:其中,Q表示时间尺度的总层数,i表示第i层时间尺度。
【专利摘要】本发明属于舆情监控领域,涉及社交网络用户推荐及信息服务推荐技术分析,尤其涉及一种地理社交网络下的用户相似性计算方法。主要包括以下步骤:包括时空语义抽取、建立用户时空访问模型及用户相似性计算。本发明的有益效果是(1)时空语义划分更周全,同时降低了数据稀疏性带来的问题;(2)统一考虑了位置功能语义和地理因素对用户相似性的影响,对用户画像的建模更加全面;(3)结合轨迹的物理时空邻近性与语义时空相似性,进行社交网络用户相似性计算,准确率更高,进而实现对社交网络用户群体的划分,用户分类及其兴趣类型判断效果更优。
【IPC分类】G06F17/30
【公开号】CN105389332
【申请号】CN201510669496
【发明人】段炼
【申请人】广西师范学院
【公开日】2016年3月9日
【申请日】2015年10月13日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1