一种对长尾兴趣点进行扩展的模型构建方法与流程

文档序号：15347276发布日期：2018-09-04 22:54阅读：508来源：国知局

本发明涉及信息推送领域，更具体地，涉及一种对长尾兴趣点进行扩展的模型构建方法。

背景技术：

在基于位置服务的社交网络中，有大量的兴趣点(pointofinterest,poi，或位置点)存在，如餐馆、酒店、景点等，用户经常需要面对数以万计的兴趣点来做出选择。如何帮助用户过滤掉无用的信息，找出用户可能最关心或喜欢的兴趣点，并推荐给用户，这是兴趣点推荐系统所要完成的工作。

在兴趣点推荐方面，主要面对的是，如何解决数据稀疏所带来的推荐效果并不好的问题。以及面临多源的异构数据，如地理信息和文本信息，如何将他们融入到现有的兴趣点推荐系统中，达到提高推荐效果是非常有必要的。

目前相关领域主要采用的技术是协同过滤，包括基于内存的协同过滤，和基于模型的协同过滤。基于内存的协同过滤方法，是根据用户与用户之间的相似性，向用户推荐相似用户也可能喜欢的兴趣点。但是在学习的数据集-用户的签到数据中，数据是十分稀疏的，数据稀疏度在0.01％左右，这会造成很多用户之间没有共同的签到数据，以致于计算出的用户相似性并不准确，从而导致推荐效果并不好。基于模型的协同过滤方法，如矩阵分解方法，将原有的用户对兴趣点的签到矩阵转化为评分矩阵，然后分解出用户特征隐向量和兴趣点特征隐向量，接着根据学习到的特征向量相乘来预测用户对兴趣点的喜好值，并将喜好值最高的k个兴趣点推荐给用户。

在兴趣点推荐中，一个重要的现象是数据稀疏问题。它对推荐质量起到关键性影响。当前的这些相关工作已经提出多样的模型来缓解数据稀疏问题，并且大部分工作都是从用户角度来解决该问题。而就目前所了解的，几乎没有研究者从兴趣点的角度来着手。

技术实现要素：

本发明提供一种可缓解数据稀疏问题的对长尾兴趣点进行扩展的模型构建方法。

为了达到上述技术效果，本发明的技术方案如下：

一种对长尾兴趣点进行扩展的模型构建方法，包括以下步骤：

s1：计算兴趣点v的访问者集合uv＝{u1',u'2,···,ut'}的相关兴趣点集jv；

s2；计算每个用户u的模型下的似然概率p(u|rv)。

进一步地，所述步骤s1的具体过程是：

s11：计算兴趣点间的一般相似度；

s12：计算兴趣点间的空间相似度；

s13：将以上两种相似度进行融合。

进一步地，所述步骤s11的过程是：

相似兴趣点是真实相关兴趣点的近似，把兴趣点v的相似兴趣点称作相关模型rv的伪相关兴趣点，采用余弦相似度，兴趣点vi和vj之间的相似度如下：

其中，u表示所有用户的集合，v表示所有兴趣点的集合，v′表示长尾兴趣点的集合，其中c代表“用户-兴趣点”矩阵，它表示每个用户和兴趣点之间的关系，cu,v代表用户u在兴趣点v的签到活动，当cu,v＝1，表示用户u在过去访问过兴趣点v，否则表示用户u没有去过兴趣点v，每个兴趣点都有若干历史访问者，用uv＝{u′1,u′2,…u′t}表示兴趣点v的访问者集合，它看作为兴趣点的简况。

进一步地，所述步骤s12的过程是：

两个兴趣点之间距离可用来衡量兴趣点间的空间相似度，空间相似度与距离之间并不是线性关系，为了从距离信息中获取兴趣点间的空间相似度，并能够反映它们的非线性关系，采用核估计方法，兴趣点vi和vj的空间相似度计算公式如下：

其中，是兴趣点间的空间距离，h是核函数的带宽。

进一步地，所述步骤s13的过程是：

为了使模型具有完整性和鲁棒性，将以上两种相似度进行融合，同时为了使融合具有自适应性，采用如下的融合方式：

z＝exp(s(vi,vj))+exp(sp(vi,vj))

根据两部分因子在指数空间的比例，来确定各个相似度的系数。

进一步地，所述步骤s2的过程是：

1)由于p(u|rv)≈p(u|u1',···,ut')，通过应用条件概率的定义有：

由于对同一个兴趣点v，分母部分保持不变，公式简化为如下：

2)为了估计兴趣点v的相关模型rv，给予先验概率p(u)采样一个用户u，用户u′1,u′2,…u′t的采样概率依赖于用户u，为计算条件概率p(u′|u)，从相关兴趣点vj的分布中，以概率p(u′|vj)，采样一个用户u′∈uv，公式如下：

3)根据贝叶斯定理并结合步骤2)中的公式，得到：

再结合步骤1)中的公式，得到：

其中，p(u)，p(vj)服从均匀分布：

为了计算p(u|vj)，采用基于签到数据多项式分布的最大似然估计方法：

使用绝对折扣方法来平滑该似然估计，使用绝对折扣来从所有的观测到的签到数据计数中减去一个相同的常数δ，然后一个相应的比例项再被加到每一个用户上，于是，可得：

其中，p(u|c)的计算公式如下：

与现有技术相比，本发明技术方案的有益效果是：

本发明计算兴趣点v的访问者集合uv＝{u1',u'2,···,ut'}的相关兴趣点集jv；再计算每个用户u的模型下的似然概率p(u|rv)；本算法通过相关模型rv，计算基于兴趣点v简况的似然概率就能够通过相关兴趣点集jv来计算得到，该方法对长尾兴趣点进行扩展，从而缓解数据稀疏问题,解决了当前模型的局限性。

附图说明

图1为本模型的结构图，a)是模型的原理图b)是模型中参数推导图；

图2为在两个公开数据集(foursquare,gowalla)中，该模型在不同数据稀疏度的兴趣点上推荐的精准度与其他模型的对比；

图3为在两个公开数据集(foursquare,gowalla)中，该模型在不同长度(top-n)的推荐列表下,推荐的准确率(pre@n)和召回率(rec@n)与其他当前最优模型的对比。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

在所有兴趣点中，“长尾”兴趣点(那些具有少量签到数据，有很少机会被展示给用户的兴趣点)占据很大比例。因此，从兴趣点角度，研究长尾兴趣点的推荐是很有意义的。本发明提出了一个新的模型“地理相关模型”(geographicalrelevancemodel，grm)。通过相关兴趣点，并利用地理信息，该模型对长尾兴趣点进行扩展，从而缓解数据稀疏问题,解决了当前模型的局限性。通过在两个公开数据集上进行实验，证明了该模型的有效性，而且它优于当前最好的模型。

问题定义：u表示所有用户的集合，v表示所有兴趣点的集合，v′表示长尾兴趣点的集合，其中c代表“用户-兴趣点”矩阵。它表示每个用户和兴趣点之间的关系。cu,v代表用户u在兴趣点v的签到活动。当cu,v＝1,表示用户u在过去访问过兴趣点v。否则表示用户u没有去过兴趣点v。每个兴趣点都有若干历史访问者。用uv＝{u′1,u′2,…u′t}表示兴趣点v的访问者集合，它也可以被看作为兴趣点的简况。基于uv，为每个用户计算似然概率p(u|uv),然后将排序在最前的n个用户，组成推荐列表推荐给相应的长尾兴趣点v。由于长尾兴趣点具有少量的访问者，这里如何计算p(u|uv)就成为了一个关键的挑战。

基本思想：推荐用户给兴趣点可以被看作用候选用户扩展兴趣点简况的过程。如图1，图中uv＝{u′1,u′2,…u′t}表示兴趣点v的访问者集合，同时，它也代表兴趣点v的简况，然后基于它来估计用户u的似然概率p(u|uv)。

为了扩展兴趣点简况，通常可以直接使用与兴趣点简况中相似的用户来扩展。但是对于长尾兴趣点，它们只有少量的记录。直接获取相应的相似用户比较困难。但是通过相关模型rv,计算基于兴趣点v简况的似然概率就能够通过相关兴趣点集jv来计算得到。p(u|uv)的计算问题就可以转化为计算p(u|rv)。本模型中，我们假设兴趣点简况中的用户，它们之间是相互独立的，但是它们依赖于相关兴趣点简况中的用户。

计算概率p(u|rv):到这一步，我们能够很容易确认长尾兴趣点推荐能够被粗略看做是计算用户u在长尾兴趣点v的相关模型下的概率。接下来，我们介绍如何为每个用户u计算p(u|rv)。该步骤尤为重要，因为它是我们模型中的重要部分。从更高层面看，我们计算概率的技术是受基于相关性的语言模型中的伪相关反馈的启发。

如图2-3所示，一种对长尾兴趣点进行扩展的模型构建方法，包括以下步骤：

s1：计算兴趣点v的访问者集合uv＝{u1',u'2,···,ut'}的相关兴趣点集jv；

s2；计算每个用户u的模型下的似然概率p(u|rv)。

进一步地，所述步骤s1的具体过程是：

s11：计算兴趣点间的一般相似度；

s12：计算兴趣点间的空间相似度；

s13：将以上两种相似度进行融合。

步骤s11的过程是：

相似兴趣点是真实相关兴趣点的近似，把兴趣点v的相似兴趣点称作相关模型rv的伪相关兴趣点，采用余弦相似度，兴趣点vi和vj之间的相似度如下：

步骤s12的过程是：

其中，是兴趣点间的空间距离，h是核函数的带宽。

步骤s13的过程是：

为了使模型具有完整性和鲁棒性，将以上两种相似度进行融合，同时为了使融合具有自适应性，采用如下的融合方式：

z＝exp(s(vi,vj))+exp(sp(vi,vj))

根据两部分因子在指数空间的比例，来确定各个相似度的系数。

步骤s2的过程是：

1)由于p(u|rv)≈p(u|u1',···,ut')，通过应用条件概率的定义有：

由于对同一个兴趣点v，分母部分保持不变，公式简化为如下：

3)根据贝叶斯定理并结合步骤2)中的公式，得到：

再结合步骤1)中的公式，得到：

其中，p(u)，p(vj)服从均匀分布：

为了计算p(u|vj)，采用基于签到数据多项式分布的最大似然估计方法：

使用绝对折扣方法来平滑该似然估计，使用ad(绝对折扣absolutediscounting,ad)来从所有的观测到的签到数据计数中减去一个相同的常数δ，然后一个相应的比例项再被加到每一个用户上，于是，可得：

其中，p(u|c)的计算公式如下：

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘威;杨伟伟;王志杰;印鉴;高静
技术所有人：中山大学;广东恒电信息科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。