基于时空偏好的兴趣点推荐方法

文档序号:10687849阅读:645来源:国知局
基于时空偏好的兴趣点推荐方法
【专利摘要】本发明提出了一个新的联合用户时间、空间偏好特性的兴趣点推荐方法。该方法实现了一个类似LDA主题模型的概率生成模型,引入了签到主题z和中心区域r两个隐变量。综合考虑了用户不同时段出行规律和内在兴趣特征,以及签到位置的距离影响力等多因素。最终通过Foursquare数据集实验论证,在区域数为50,签到主题数为150时,针对TOP?5推荐时本方法的推荐准确度可达25%;针对TOP?20推荐,推荐准确度可以达到34%。本模型能较好适用于带有地理位置的兴趣点推荐等领域。
【专利说明】基于时空偏好的兴趣点推荐方法 所属技术领域
[0001] 本发明涉及用户签到位置的兴趣点推荐研究,是基于用户时间、空间偏好特征的 兴趣点推荐方法。
【背景技术】
[0002] 随着移动互联网与智能手机的普及,餐厅、电影院、商铺、宾馆等传统服务也从线 下走到了线上。用户随时随地都可以轻松预订这些线上服务,也可以对这些服务体验评论, 打分。兴趣点P0I(P〇int of Interest)推荐成为了帮助用户选择出行签到目的地的有效方 法。根据用户以往在各个兴趣点位置的历史签到记录,针对用户在当前时刻当前位置的查 询请求,将当前时空背景下最有可能去的POI推荐给用户。准确的推荐不但能提升用户体 验,还能将更多的用户需求转化为商品购买行为。

【发明内容】

[0003] 本发明提出了一个新的联合用户时间、空间偏好特性的兴趣点推荐方法。该方法 实现了一个类似LDA主题模型的概率生成模型,引入了签到主题z和中心区域r两个隐变量。 首先将用户不同时段的出行签到记录当作一篇文档,用用户不同时段对中心区域的多项分 布表示用户出行偏好;用户不同时段对签到主题的多项分布表示用户兴趣。最终 通过多个数据集实验论证,本方法的推荐准确度最好可以达到34%。
[0004] 本发明的核心思想是用四个Dirichlet-Multinomial共辄结构描述了一个兴趣点 的概率生成过程,用于兴趣点推荐时的概率计算。并推导出了主题-区域隐变量对的后验概 率,以及4个共辄结构中每个多项分布的参数更新公式,用于Gibbs迭代采样求出模型四个 多项分布的参数估计。该思想能将用户个性化特征用概率分布量化表达,用于更准确的兴 趣点推荐。
[0005] 本发明的有益效果是,通过对用户出行规律和内在兴趣的捕捉,能更准确全面地 综合考虑用户出行签到的各种影响因素。进而实现对用户兴趣点签到行为的预测,向用户 推荐当前时刻最可能去的地方。提升用户体验的同时,促进了用户潜在需求向商品购买行 为转化。
【附图说明】
[0006] 下面结合附图对本发明进行进一步说明。
[0007] 图1兴趣点概率生成模型。
[0008] 图2模型参数更新方法。
[0009] 图3 Foursquare东京数据集推荐测试结果。
【具体实施方式】
[0010] 如图1所示,本方法认为用户选择一个兴趣点主要受当前时间出行偏好和内在兴 趣联合确定;并考虑了出行距离的影响力。比如某用户在上午9点左右,一般都是出去吃完 早饭,赶公交或地铁去工作区域上班;那么出行上自然对他的工作区域偏好较大,而兴趣上 则对早餐、咖啡、面包店和附近地铁兴趣较高。本方法用四个Dirichlet-Multinomial共辄 结构分别对用户出行、兴趣以及签到主题、出行区域进行建模。如公式2-1所示:
[00"]
(2.1}
[0012] 其中,~为用户u在时段t内,对多个签到主题的偏好,也用多项分布描述;0ut表示 用户u在时段t内,对多个隐区域的偏好,用多项分布描述。φζν是学习到签到主题在兴趣点上 的全局分布特征,对所有用户都一样的概率分布。Φ ζν根据全局所有用户签到记录的共现频 率(兴趣点一起在某篇文档中出现)学习到的潜在语义,也可以理解为兴趣点的自动聚类。 Φ rv描述的一个区域内的V被生成的概率大小,可以理解为越流行的,生成概率越大。Q1,α 2, α3,α4为Dirchlet先验概率,避免模型过拟合。
[0013] 由于dPz都是离散变量,所以联合概率就是dPz两两任意组合的概率求和。T表示 模型所有参数集合,?表示时间的二维变量,(〇,2)表示工作日第二个时间段,(1,2)表示周 末一天中第二个时间段。每一个兴趣点POI的访问概率如下所示:
[0014]
(3-2)·
[0015] 为方便建立模型,假设潜在主题z和隐区域r的生成是相互独立的,则上述概率可 以分解为两个独立概率乘积形式。
[0016]
(2-3)
[0017] 针对一个确定的区域-主题对(r,z),一个兴趣点V的生成概率由区域、主题共同生 成。如公式2-4所示:
[0018]
(2-4)
[0019]将公式2-3、2-4代入2-2得到兴趣点V被多个因素生成的联合概率公式:
[0020] (2-5)
[0021]该公式将用于后面为用户推荐时,计算每一个V可能被用户u访问的概率。由于该 模型是基于区域-主题对的概率生成模型,模型认为每一个可见变量V都可能由任何一个 (r,z)对生成,所以联合概率是对(r,z)累积求和。兴趣点选择过程中各个影响因素分析如 下:
[0022] 1.时间特性因素
[0023]本方法优先考虑时间特性对用户签到出行的影响,用两个多项分布%/,。、怂/,,分 别描述用户在不同时段,对签到主题和中心区域的喜好差异。
[0024] 2.用户兴趣因素
[0025] 公式2-5中的仍表示用户?时刻的兴趣偏好在生成V的过程中影响作用,之前 的多数研究都是用户直接对主题建模,本方法首次尝试对用户不同时间段上单独描述兴趣 特征。这无疑更能准确捕捉用户的个性化兴趣差异。比如某用户习惯早上上班前去健身房 锻炼,在之前的主题模型中,也能判断出用户对健身感兴趣,但由于主题在时间上的分布是 建立在全局的,而大多数用户都是下午或晚上健身,早上向该用户推荐的兴趣点将不会有 健身相关内容。
[0026] 3.出行规律因素
[0027] 0,,表示从以往的签到出行记录轨迹来看,用户当前时刻最有可能会去的中心区 域。之前的生成模型认为用户对区域的偏好在任何时刻都是一样。即使在晚上,也有可能工 作区域恰好距离用户当前位置更近,而只向用户推荐工作区域附近的兴趣点,而无疑用户 当前最可能选择回家。
[0028] 4.距离影响力
[0029] P(lv|pr,1)表示待推荐的兴趣点Iv与当前位置1间的距离对联合概率的惩罚强度。 距离也小,惩罚越小,生成概率越大。本文为方便计算,用户位置和兴趣点位置在区域下的 二维高斯分布概率乘积近似表示距离惩罚因子。
[0030] 实际使用该方法时,先按图2所示,通过历史数据集学习到每个用户的特征参数及 全局的主题和区域参数,即四个多项分布的概率矩阵。根据区域-主题隐变量对的后验概率 公式2-6,通过20个Gibbs采样迭代周期,估计吐
[0031]
[0032] 针对每个数据集,调节区域和主题数,选择推荐准确度最高的参数组合作为该城 市的推荐参数。再按公式2-5计算每个兴趣点生成概率,并向用户推荐概率最高的N个兴趣 点。该方法在Foursquare东京数据集上推荐测试结果如图3所示。
【主权项】
1. 用户签到行为同时受当前时间、出行规律、内在兴趣以及出行距离等多种因素影响。 基于用户时间、空间偏好特征的兴趣点推荐方法其特征在于,参考了LDA主题模型,引入隐 变量对:签到主题和出行区域,通过一个联合概率生成过程进行兴趣点推荐。2. 根据权利1所述的基于用户时间、空间偏好特征的兴趣点推荐方法,其特征在于用四 个多项分布分别描述用户当前时间段出行规律、内在兴趣特征,以及一个城市签到主题和 中心区域的聚类特征。3. 根据权利1所述的基于用户时间、空间偏好特征的兴趣点推荐方法,其特征在于用区 域-主题隐变量对的后验概率进行Gibbs采样,学习出权利2中所述的四个多项分布的概率 估计;并用于权利1所述的联合概率生成过程进行兴趣点被访问的概率计算。
【文档编号】G06Q30/02GK106056413SQ201610402819
【公开日】2016年10月26日
【申请日】2016年6月6日
【发明人】彭舰, 刘华山, 陈瑜, 宁黎苗, 黄飞虎, 李梦诗, 刘唐, 徐文政, 黎红友
【申请人】四川大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1