基于位置社交网络的用户轨迹相似性挖掘方法

文档序号:6378800阅读:1060来源:国知局
专利名称:基于位置社交网络的用户轨迹相似性挖掘方法
技术领域
本发明涉及一种位置社交网络用户轨迹相似性的挖掘方法,适用于位置社交网络。
背景技术
随着现代科学和技术的快速发展,人类对世界的认识也在不断加深,在对现实世界的探索过程之中,各种数据大量出现,在这些海量的数据中,蕴 藏着众多有用的信息。为了发现这些数据中的隐含信息,从而有效的利用这些信息为人类的生产和生活服务,数据挖掘应运而生。如今,在线社交网络服务已经成为互联网上发展最快的应用。基于位置的社交网络(LBSN)通过整合移动互联网和互联网的新型社交网络服务,支持用户随时随地自由记录并分享地理位置等信息,网站中保存用户访问真实世界地理位置的记录构成用户的行为轨迹。由于位置服务社交网络的流行,对位置服务社交网络用户行为的分析[成为一个重要的研究课题。通过空间数据挖掘相应技术手段,我们可以从海量的用户数据中提取出用户的内在关系和隐含的信息,从而分析用户轨迹相似性、兴趣相似性、用户相似性分组等,帮助用户去更好的发现自己身边的世界,或者帮助网络服务商提供越来越精准的个性化服务。

发明内容
该发明从用户历史签到的地理位置信息上研究用户的轨迹相似性,提出一种用户相似性度量模型,即基于自适应密度聚类的用户轨迹相似性双重加权模型(Adaptive-Density-Clustering-Based User Trajectory Similarity Double Weighted Model,ADCBUTSDWM)。该发明首先针对位置社交网络的签到点,提出了基于聚类区域半径的自适应密度聚类算法(Clustering-Area-Radius-Based Adaptive Density Clustering Algorithm,CARBADCA),该算法首先对用户签到点进行自适应聚类操作,得到用户访问的自适应分层位置区域;在此基础之上,提出用户轨迹相似性双重加权模型(User Trajectory SimilarityDouble Weighted Model, UTSDWM),首先利用向量空间模型分别计算用户在不同分层位置区域下的加权相似性,再通过加权各层次上的相似性以得到用户行为轨迹上的总体相似性。


图I是本发明的基于位置社交网络的用户轨迹相似性挖掘方法 的总体工作流程图
图2是本发明的基于聚类区域半径的自适应密度聚类算法阶段I的流程3是本发明的基于聚类区域半径的自适应密度聚类算法阶段2的流程图 图4是本发明的用户轨迹相似性双重加权模型工作流程图
具体实施例方式所述的基于聚类区域半径的自适应密度聚类算法(CARBADCA)描述如下
输入包含η个对象的数据库,初始聚类半径ε,邻域内最少数目MinPts,最终聚类区域半径限定值r; 输出所有生成的多个层次的分簇。阶段I :
(1)Repeat
(2)从输入数据库中抽出一个未处理的签到点;
(3)标记为已处理;
(4)IF抽出的点是核心点,THEN找出所有从该点密度可达的对象,形成一个聚类区域
i ;
(5)ELSE抽出的点是边缘点(非核心对象),跳出本次循环,寻找下一个点;
(6)UNTIL所有的点都被处理。
阶段2:
(I)Repeat
(2)对于任一聚类区域i;
(3)IF聚类区域半径R大于r,根据公式(I)和(2)自适应调整聚类半径ε= ε ’和MinPts=Minpts’,数据库对象η为本聚类区域i内签到点,Repeat阶段I ;
(4)ELSE子聚类区域等于父聚类区域,跳出本次循环;
(5)Recursive (2);
(6)UNTIL所有的聚类区域半径都<=r。其中自适应因子的计算公式如下
权利要求
1.一种基于位置社交网络的用户轨迹相似性挖掘方法,其特征在于该方法从用户历史签到的地理位置信息上研究用户的轨迹相似性,提出一种用户相似性度量模型,即基于自适应密度聚类的用户轨迹相似性双重加权模型(Adaptive-Density-Clustering-BasedUser Trajectory Similarity Double Weighted Model, ADCBUTSDWM); 该方法首先针对位置社交网络的签到点,提出了基于聚类区域半径的自适应密度聚类算法(Clustering-Area-Radius-Based Adaptive Density Clustering Algorithm,CARBADCA),该基于聚类区域半径的自适应密度聚类算法首先对用户签到点进行自适应聚类操作,得到用户访问的自适应分层位置区域;在此基础之上,提出用户轨迹相似性双重加权模型(User Trajectory Similarity Double Weighted Model, UTSDWM),首先利用向量空间模型分别计算用户在不同分层位置区域下的加权相似性,再通过加权各层次上的相似性以得到用户行为轨迹上的总体相似性。
2.根据权利要求I所述的基于位置社交网络的用户轨迹相似性挖掘方法,其特征在于所述的基于聚类区域半径的自适应密度聚类算法(CARBADCA)描述如下 输入包含η个对象的数据库,初始聚类半径ε,邻域内最少数目MinPts,最终聚类区域半径限定值r; 输出所有生成的多个层次的分簇。
阶段I: (1)Repeat(2)从输入数据库中抽出一个未处理的签到点; (3)标记为已处理; (4) IF抽出的点是核心点,THEN找出所有从该点密度可达的对象,形成一个聚类区域i ;(5)ELSE抽出的点是边缘点(非核心对象),跳出本次循环,寻找下一个点; (6)UNTIL所有的点都被处理; 阶段2: (I)Repeat (2)对于任一聚类区域i; (3)IF聚类区域半径R大于r,根据公式(I)和(2)自适应调整聚类半径ε = ε ’和MinPts=Minpts’,数据库对象η为本聚类区域i内签到点,Repeat阶段I ; (4)ELSE子聚类区域等于父聚类区域,跳出本次循环; (5)Recursive(2); (6)UNTIL所有的聚类区域半径都<=r。
其中自适应因子的计算公式如下
3.根据权利要求I所述的基于位置社交网络的用户轨迹相似性挖掘方法,其特征在于所述的用户轨迹相似性双重加权模型(UTSDWM)描述如下 (I)我们通过基于聚类区域半径的自适应密度聚类算法(CARBADCA),将签到点划分成了若干层次的聚类区域。下面我们就在每层聚类区域中,建立基于向量空间模型(VSM)的用户访问位置分层数据矩阵,如下面公式所示
全文摘要
本发明提出一种位置社交网络用户轨迹相似性的挖掘方法,通过数据挖掘方法分析海量的用户签到数据,从用户历史签到的地理位置信息上研究用户轨迹相似性,提出了一种基于自适应密度聚类的用户轨迹相似性双重加权模型。针对用户签到点的分布情况,提出基于聚类区域半径的自适应密度聚类算法,对签到点进行聚类划分,得到符合一定区域半径的自适应分层聚类区域。针对用户相似性的计算,提出用户轨迹相似性双重加权模型基于不同层次上权重不同及同一层次上不同签到区域权重不同两个原则。基于分层聚类区域,计算用户访问每个分层的轨迹相似性,由于不同签到区域对相似度的表征能力不同,通过不同权重加权来计算具体层次上的相似性。进而进行层次上的加权,获得用户总体的相似性。
文档编号G06F17/30GK102880719SQ201210390018
公开日2013年1月16日 申请日期2012年10月16日 优先权日2012年10月16日
发明者李智, 张莹, 秦旭 申请人:四川大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1