一种基于签到数据的时空轨迹相似性度量方法及系统的制作方法

文档序号:9489510阅读:532来源:国知局
一种基于签到数据的时空轨迹相似性度量方法及系统的制作方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,特别是涉及一种基于签到数据的时空轨迹相似性度量 方法及系统。
【背景技术】
[0002] 时空轨迹是移动对象的位置和时间的记录序列,作为一种重要的时空对象数据类 型和信息源,时空轨迹的应用范围涵盖了用户行为、智能交通和精准营销等诸多方面。随 着卫星定位技术、无线通信、智能终端以及移动互联网的快速发展,人们能够更方便地获取 时空轨迹数据。例如,通过智能终端记录交通工具的运动状况,通过条形码或者射频卡的 检入检出了解物流的状况,通过信用卡刷卡记录或者手机通话记录来跟踪用户的位置。近 年来,随着新浪微博、街旁、人人、Foursquare、Gowalla等基于地理位置的移动社交网络 (LBSN)的迅猛发展,大量用户可以通过智能手机以签到的方式记录时空行为轨迹。
[0003] 通过对各种时空轨迹数据的分析,我们可以提取时空轨迹数据中的相似性特征, 在没有先验知识的情况下,将具有相似行为的时空对象划分到一起,而将具有相异行为的 时空对象划分开来,其关键是根据时空轨迹数据的特点,设计与定义不同时空轨迹间的相 似性度量方法。根据所涉及的不同时间区间,可将现有的时空轨迹相似性度量方法划分为 以下几种:(1)时间全区间相似(主要采用轨迹间欧式距离、最小外包矩形距离等相似性度 量方法);(2)全区间变换对应相似(主要有DTW方法);(3)多子区间对应相似(主要有最长 公共子序列距离、编辑距离等方法);(4)单子区间对应相似(主要有子轨迹聚类、时间聚焦 聚类、移动微聚类、移动聚类等方法);(5)单点对应相似(主要有历史最近距离等方法);(6) 无时间区间对应相似(主要有单向距离、特征提取等方法)。这6类方法对于相似时间区间 的要求是逐渐放松的,从要求时间全区间相似,到局部时间区间相似,最后到无时间区间对 应相似。
[0004] 虽然有关时空轨迹度量方法的研究在国际上起步不久,却已经成为相关领域研究 的热点之一,并取得了一定的研究进展。以下主要介绍几种与本发明相关的、典型的时空 轨迹度量方法:(1) "子轨迹聚类方法"由Lee等在2007年提出,它采用先划分再聚合的思 路,首先将时空轨迹看作一组点序列,然后按照最小描述长度原则将轨迹划分为子轨迹,再 用基于密度的聚类方法对这些子轨迹聚类,子轨迹的相似性度量由3种距离(垂直距离、平 行距离和角度距离)的加权和表示,最终可以得到子轨迹的运动模式和整条轨迹的相似子 区间。虽然子轨迹聚类方法能发现具有相似性的单个最大时间区间,但是,由于该方法预先 将轨迹划分成子轨迹,并以子轨迹为基本单位进行聚类,因此,相似时间区间会受到子轨迹 时间区间的限制。(2) "时间聚焦聚类方法"是将某一时间区间内轨迹间的欧氏距离作为相 似性度量,并采用基于密度的聚类方法OPTICS对轨迹进行聚类,通过对每一个不同的时间 区间均进行一次上述聚类过程,最终发现使轨迹聚类结果最优(即类内相似度大、类间相似 度小)的时间区间,并记录这个区间和相应的聚类结果。以上两种方法的特点是关注局部 而非全部时空轨迹的相似性度量,只需获得一个最大的相似子区间,就能衡量轨迹间的相 似性。(3) "基于最长公共子序列的用户时空行为兴趣相似性计算方法"采用包围盒描述停 留区域,通过计算轨迹间满足一定时空交叠程度的公共包围盒的长度来衡量轨迹间的相似 程度,两用户轨迹间公共包围盒长度越长,则认为他们在时空上有着更多相似的行为兴趣, 其中停留区域是一系列连续轨迹点的集合,是包含该停留区域内所有轨迹点且各边平行于 坐标轴的最小的六面体。如何有效地确定停留区域或者将轨迹划分成平滑轨迹区间仍有待 研究。除此之外,方法(1)- (3)主要针对GPS等可以持续跟踪用户的行为轨迹,而在位置 服务的社交网络中,用户仅在到达某位置后才签到,没有对用户的行为轨迹进行持续的跟 踪,用户签到行为具有一定的随意性和重复性,造成在不同位置上签到次数差异较大,少数 用户完成了大多数签到,一些位置很少被签到,时间维的不等长使得用户签到数据呈现出 稀疏性。因此,连续序列模式的相似性度量方法并不适用于基于签到数据的时空轨迹。(4) "位置服务社交网络用户行为相似性分析"采用DBSCAN对用户签到的地理位置进行聚类操 作,得到用户访问的位置区域;通过改变聚类的邻域半径,在不同空间位置比例尺下观察用 户访问各个位置区域的情况,进而通过建立向量空间模型,采用余弦相似性方法计算用户 间的相似性;最终通过计算用户在不同空间比例下的相似性,得到用户行为轨迹上的相似 性。由于该方法在进行相似性度量时没有考虑签到数据的时间维度,也不能区分签到数据 在不同时间段上的重要性,会出现两个在时间上完全相反的用户行为轨迹,计算结果却是 完全相似的情况。

【发明内容】

[0005] 本发明所要解决的技术问题是:针对现有时空轨迹度量方法存在的问题,如何创 新地设计一种适合签到数据特点的时空轨迹相似性度量方法及系统。
[0006] 为了解决上述问题,本发明公开一种基于签到数据的时空轨迹相似性度量方法, 包括: 步骤1 :获取签到数据,包括用户ID、签到位置和签到时间等; 步骤2 :对签到数据进行预处理,包括无用数据过滤、类型转换和格式统一; 步骤3:用户兴趣区域的计算; 步骤4 :相似兴趣区域的计算; 步骤5 :单层相似度的计算; 步骤6:跨层相似度的计算。
[0007] 所述的基于签到数据的时空轨迹相似性度量方法,所述步骤3还包括: 步骤21 :把签到时间划分成T个时间段,采用OPTICS对签到兴趣点进行基于密度的分 层聚类,得到不同时间段、不同空间划分尺度下的用户兴趣区域。
[0008] 所述的基于签到数据的时空轨迹相似性度量方法,所述步骤4还包括: 步骤31 :在每一层,计算用户在每个时间段的每个兴趣区域的签到次数与其在该时间 段签到总次数的比值,如果两个用户在某个兴趣区域上的比值的差值的绝对值小于设定的 阈值,则这两个用户在该兴趣区域上相似。
[0009] 所述的基于签到数据的时空轨迹相似性度量方法,所述步骤5还包括: 步骤41 :两个用户的时空轨迹在h层、全都时间段上的相似度定义为
heH,teΤ,Η为OPTICS聚类的层数,CM为两个用户在h层、t时间 段的兴趣区域的个数,M为两个用户在h层、t时间段相似兴趣区域的个数,at为各
可以根据具体应用,设定各个时间段的权值。
[0010] 所述的基于签到数据的时空轨迹相似性度量方法,所述步骤6还包括: 步骤51 :两个用户的时空轨迹间的跨层相似度定义

,层数越高,空间划分尺度越小,权值越大,如果跨层相似度大于设定 的阈值,则两个用户的时空行为轨迹相似。
[0011] 本发明还公开一种基于签到数据的时空轨迹相似性度量系统,包括: 获取用户签到数据模块:用于获取用户签到数据,包括用户ID、签到位置和签到时间 等; 预处理模块:用于对用户签到数据进行预处理,包括无用数据过滤、类型转换和格式统 , 用户兴趣区域计算模块:用于用户兴趣区域的计算; 相似兴趣区域计算模块:用于用户相似兴趣区域的计算; 单层相似度计算模块:用于用户单层相似度的计算; 跨层相似度计算模块:用户跨层相似度的计算。
[0012] 所述的基于签到数据的时空轨迹相似性度量系统,所述用户兴趣区域计算模块还 包括: 把用户签到时间划分成T个时间段,采用OPTICS对用户签到兴趣点进行基于密度的分 层聚类,得到不同时间段、不同空间划分尺度下的用户兴趣区域。
[0013] 所述的基于签到数据的时空轨迹相似性度量系统,所述相似兴趣区域计算模块还 包括: 在每一层,计算用户在每个时间段的每个兴趣区域的签到次数与其在该时间段签到总 次数的比值,如果两个用户在某个兴趣区域上的比值的差值的绝对值小于设定的阈值,则 这两个用户在该兴趣区域上相似。
[0014] 所述的基于签到数据的时空轨迹相似性度量系统,所述单层相似度计算模块还包 括: 两个用户的时空轨迹在h层、全都时间段上的相似度定义
heH,teT,Η为OPTICS聚类的层数,CM为两个用户在h层、t时间段的兴趣区域的个 数,M为两个用户在h层、t时间段相似兴趣区域的个数,α,为各个时间段的权值,
,可以根据具体应用,设定各个时间段的权值。
[0015] 所述的基于签到数据的时空轨迹相似性度量系统,所述跨层相似度计算模块还包 括: 两个用户的时空轨迹间的跨层相似度定义
,其中为各层的权
层数越高,空间划分尺度越小,权值越大,如果跨层相似度大于设定的阈 值,则两个用户的时空行为轨迹相似。
[0016] 与现有技术相比,本发明具有以下优点: 由于在位置服务的社交网络中,用户仅在到达某位置后才签到,没有对用户的行为轨 迹进行持续的跟踪,用户签到行为具有一定的随意性和重复性,造成在不同位置上签到次 数差异较大,少数用户完成了大多数签到,一些位置很少被签到,时间维的不等长使得用户 签到数据呈现出稀疏性。本发明通过采用OPTICS对用户签到兴趣点进行基于密度的分层 聚类,得到不同空间划分尺度下的用户兴趣区域,比采用网格或者单一空间划分尺度建立 用户轨迹更合理,更能反映用户时空数据的分布情况。同时,本发明采用类似包围盒的思想 来比较各个兴趣区域的相似性,更加符合签到数据的特点,大大降低了计算的复杂度,计算 效率也得到提高。除此之外,本发明还从时间维度对时空轨迹进行了划分,可以根据具体应 用,调整各个时间段的权值,从而能够区分签到数据在不同时间段上的重要性。
【附图说明】
[0017] 图1为本发明的不同时间段、不同空间划分尺度下的用户兴趣区域示意图。
[0018] 图2为本发明的基于签到数据的时空轨迹相似性度量方法的流程图。
[0019]
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1