一种基于本地轨迹的兴趣点推荐方法与流程

文档序号:13704464阅读:933来源:国知局

本发明属于电子领域,尤其涉及一种基于本地轨迹的兴趣点推荐方法。



背景技术:

随着众多移动社交网络的位置签到、位置共享以及位置标识等功能的应用普及,基于位置的社交网络(lbsns)吸引了越来越多的用户,比如foursquare、gowalla、facebookplace。给用户推荐一些有吸引力的位置(pois)也变得十分流行。poi推荐不仅能帮助用户探索新位置以丰富他们的经历,还能帮助移动社交网站增加收入。

最近几年,许多大学和研究机构对poi推荐展开了深入研究。其中从用户角度探索签到数据的地理特性是一个不可忽视的方面。比较好的方法是利用签到位置的地理影响,这也是备受关注的研究热点之一。研究人员使用幂律分布建模用户的签到行为,如图1a和1b所示。如图1所示,已有工作直观上认为同一个用户访问的pois之间的签到概率与距离服从幂律分布。然后,他们提出用幂律分布建模用户的签到概率与签到位置之间的距离,这些位置被同一个用户访问。具体的公式如下:

y=a·xb

这里的a和b表示幂律分布的参数,可以通过最小二乘法求这两个参数。x表示同一个用户访问的任意两个位置之间的距离,y表示该用户的签到概率。

最后,他们利用朴素贝叶斯方法实现poi推荐。将用户已经访问的位置作为先验概率。对于一个候选新位置lj,用户ui和他所访问的位置集合li。通过以下的公式计算用户ui在位置lj签到的可能性概率:

p[d(lj,ly)]=a·d(lj,ly)

这里的d(lj,ly)表示两个位置之间的距离。为了进行poi推荐,将所有的该用户未访问过的位置根据签到可能性概率p[lj|li]排序,并返回概率最大的c个候选位置给用户。

现有的推荐技术主要是根据同一个用户访问的任意两个位置的距离来使用幂律分布建模地理影响。这种做法有如下可能的不足:

1.远距离位置的作用被夸大。在实际生活中,用户往往会到远处旅行。但是这些位置用户很少访问第二次。

2.忽略了用户的签到频率。用户对于某些位置的访问频率很大,而对另一些位置仅仅访问一次。而在朴素贝叶斯公式中,这些区别无法体现。

从真实数据集的分析中,我们发现定期的短距离移动主要发生在用户生活或者工作的城市。而且用户在这个城市的签到位置相对于其他地区多。基于这一发现,我们提出了本地轨迹移动模型ltmm,它利用幂率分布建模用户在本地活动区域内对不同轨迹距离的移动概率。



技术实现要素:

为解决上述问题,本发明提供了一种基于本地轨迹的兴趣点推荐方法,相比如传统的基于协同过滤的poi推荐方法和基于地理影响朴素贝叶斯的推荐方法,本专利可以提高poi推荐的精确度和召回率。它能帮助基于位置的社交网站提升用户体验,还能提高收益。

为达到上述技术效果,本发明的技术方案是:

一种基于本地轨迹的兴趣点推荐方法,包括如下步骤:

步骤一、找出用户的中心位置;

步骤二、根据中心位置确定用户的本地活动区域;

步骤三、统计用户在本地活动区域内的移动轨迹;

步骤四、计算用户在不同距离的移动概率;

步骤五、对用户的本地活动区域内未访问的位置计算签到概率;

将候选位置根据签到概率排序,并返回概率最大的c个候选位置给用户作为推荐结果,k为设定的阈值。

进一步的改进,所述中心位置的确定方法如下:选择用户的移动轨迹的某点为圆心,以r为半径确定圆形区域,用户访问圆形区域内所有位置的频率之和f最大的位置即为中心位置。

进一步的改进,所述中心位置的计算方法如下:

其中,f(lm)表示以位置lm为中心位置的用户访问频率之和,f(ln)表示用户在位置ln的访问频率,d(lm,ln)表示位置lm和ln的距离,r表示以lm为圆心的圆形区域的半径;f(lm)值最大的位置即为中心位置。

进一步的改进,所述本地活动区域即以中心位置为圆心的圆形区域,圆形区域的半径大于r,r为25km。

进一步的改进,所述本地活动区域的半径为100km。

进一步的改进,所述步骤四中,采用幂律分布建模用户的移动概率,即用户从当前位置li移动到下一个位置lj的概率pi,j与他们之间的轨迹距离xi,j成幂律分布:

pi,j=a·xi,jb

用极大似然值法估计计算幂律分布的参数a,b。

进一步的改进,对于位于用户u的本地活动区域内的每一个新位置设定为候选位置lk,计算用户u对候选位置lk的签到概率:分别计算用户u从本地位置集合s中的每一个位置li1≤i≤n到新位置lk的移动概率pi,k;最终用户u访问候选位置lk的概率就利用以下公式计算:

其中,n表示本地位置集合s中元素的个数;在进行poi推荐的时候,将该用户未访问过的所有位置根据签到概率排序,并返回概率最大的c个候选位置给用户。

附图说明

图1a为现有的poi推荐的foursquare数据集中用户的地理影响概率分布图,横坐标表示在用户所有的签到位置中,任意两个位置之间的地理距离,纵坐标表示不同距离的签到概率;

图1b为现有的poi推荐的whrrl数据集中用户的地理影响概率分布图,横坐标表示在用户所有的签到位置中,任意两个位置之间的地理距离,纵坐标表示不同距离的签到概率;

图2为本发明的位置轨迹图;

图3a为本发明poi推荐的foursquare数据集和gowalla数据集中基于用户本地轨迹的地理影响概率分布图。横坐标表示用户不同轨迹的距离,纵坐标表示不同距离的概率

图3b为本发明poi推荐的gowalla数据集中基于用户本地轨迹的地理影响概率分布图。横坐标表示用户不同轨迹的距离,纵坐标表示不同距离的概率。

具体实施方式

以下通过具体实施方式并且结合附图对本发明的技术方案作具体说明。

实施例1

为了更准确的预测用户的移动轨迹,我们提出了本地轨迹移动模型ltmm,它利用幂率分布建模用户在本地活动区域内对不同位置轨迹距离的移动概率。

为了描述ltmm算法的具体步骤,我们先介绍本专利模型相关的一些概念。

1.轨迹:一个用户的轨迹是按访问时间产生的两个签到位置的gps轨迹。如图2所示,在一个二维空间内,我们可以根据签到时间将用户的签到位置转换成gps轨迹。每一个位置点pi包含纬度,经度,时间戳。图2中用户的所有轨迹集合t={p1→p2,p2→p3,p3→p4,p4→p5,p5→p6,p6→p7,p7→p8,p8→p9,p9→p10,p10→p11,p11→p12,p13→p14,p14→p15,p15→p16,p16→p17},共计16条轨迹。

如果以某位置为中心,半径25km的圆形区域内用户访问所有位置的频率之和f最大,则该位置就是用户访问的中心位置。具体地,我们利用以下公式计算以位置lm为中心位置的访问频率:

其中,f(lm)表示以位置lm为中心位置的用户访问频率之和,f(ln)表示用户在位置ln的访问频率,d(lm,ln)表示位置lm和ln的距离。

2.本地活动区域:指用户的主要活动城市。考虑到城市的平均半径一般在50—100km,所以我们假设以用户中心位置为圆点,半径为100km的圆形区域就是用户的本地活动区域。

以图2为例,该用户的本地轨迹仅有10条,包括{p1→p2,p2→p3,p6→p7,p7→p8,p8→p9,p11→p12,p13→p14,p14→p15,p15→p16,p16→p17}。

用户的签到活动记录了他们与兴趣点之间的物理交互。为了更好的理解用户的本地轨迹对签到行为的影响,我们分析了真实数据集中用户签到行为的轨迹距离。我们先找出本地活动区域内的轨迹。然后计算每一条轨迹的距离,再统计不同轨迹距离的概率。图2列出了用户两个数据集中不同轨迹距离的概率。具体地,我们的目的是研究用户从当前位置移动到下一个位置的概率与轨迹距离的关系。

如图3a和3b所示,在对数坐标系中,当轨迹距离小于100km的时候,图中的点可以近似看作一条直线。所以我们认为用户在本地活动区域内的移动概率与轨迹距离成幂律分布。用户的短距离轨迹占绝大部分比例,这表明人们喜欢去当前位置附近的pois。一般来说,在实际中,用户倾向于访问的下一个位置是距离当前位置比较近的位置。因此,我们用幂律分布建模用户的移动概率,即用户从当前位置li移动到下一个位置lj的概率pi,j与他们之间的轨迹距离xi,j成幂律分布。我们采用如下的公式计算概率pi,j:

pi,j=a·xi,jb

对于位于用户u的本地活动区域内的每一个新位置lk,在计算用户u对候选位置lk的签到概率的时候,我们分别计算用户u从本地位置集合s中的每一个位置li(1≤i≤n)到新位置lk的移动概率pi,k。最终用户u访问新位置lk的概率就利用以下公式计算:

这里的n表示本地位置集合s中元素的个数。在进行poi推荐的时候,将该用户未访问过的所有位置根据签到概率排序,并返回概率最大的前c个候选位置给用户。

具体的,以图2为例,该用户的签到位置总共有17个:{p1,p2,p3,p4,p5,p6,p7,p8,p9,p10,p11,p12,p13,p14,p15,p16,p17}。任意两个位置之间形成的距离一共有条,当n=17时,不同位置之间形成的距离有136条——单位为km。统计数据集中所有用户不同位置距离的概率,再根据距离——概率数据,从而画出上面的图1a和1b。

以图2为例,该用户的本地轨迹只有10条,包括{p1→p2,p2→p3,p6→p7,p7→p8,p8→p9,p11→p12,p13→p14,p14→p15,p15→p16,p16→p17}。这10条轨迹会产生10个距离。然后统计数据集中所有用户本地轨迹距离的概率,根据本地轨迹距离——概率关系画出图3a和图3b。

基于本地轨迹移动模型的poi推荐算法从用户在本地活动区域内的移动轨迹入手,建模用户的移动概率与距离的关系。该方法重点考虑了用户本地活动区域内的访问位置,并且突出了用户经常访问的位置的重要性。具体的流程如下:

1.找出每一个用户的中心位置;

2.根据中心位置计算用户的本地活动区域;

3.统计用户在本地活动区域内的移动轨迹;

4.计算不同距离的移动概率,如图2;

5.用极大似然估计计算幂律分布的参数a,b;

6.对用户的本地活动区域内未访问的位置计算签到概率

将候选位置根据签到概率排序,并返回概率最大的c个候选位置给用户作为推荐结果。

上述仅为本发明的一个具体导向实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明的保护范围的行为。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1