一种基于基站标号轨迹的运动模式挖掘方法

文档序号:9911611阅读:732来源:国知局
一种基于基站标号轨迹的运动模式挖掘方法
【技术领域】
[0001] 本发明涉及移动计算和数据挖掘技术,具体涉及一种基于基站标号轨迹的运动模 式挖掘方法。
【背景技术】
[0002] 运动模式挖掘即从运动物体(如车辆、行人)的历史运动轨迹数据中挖掘出运动规 律。目前的运动模式挖掘方法大多要求历史运动轨迹数据包含明确的位置信息。例如文献1 (H.CaonN.MamoulisnD.ff.Cheung,Discovery of periodic patterns in spatiotemporal sequences,IEEE Transactions on Knowledge and Data Engineering,19(2007):453-467;即H. Cao、N.Mamoulis、D. W. Cheung,挖掘时空序列数据中的周期模式,IEEE知识与数据 工程汇刊,19(2007):453-467)中将历史位置轨迹数据抽象为线段聚类序列,然后从线段聚 类序列中挖掘运动模式,文献2(L.Chen、M.Lv、Q.Ye等人,A personal route prediction system based on trajectory data mining,Information Sciences,181(2011):1264-1284;即1^.〇!611、1.1^、〇.¥6等人,一种基于轨迹数据挖掘的个人路径预测系统,信息科学, 181(2011) :1264-1284)中基于空间划分将历史位置轨迹数据抽象为网格序列,然后从网格 序列中挖掘运动模式。然而,智能手机的定位方式具有很大的局限性,阻碍了这些方法在智 能手机上的应用:
[0003] (1)智能手机可通过GPS设备进行定位,其局限性在于:GPS定位能耗过大,持续使 用GPS设备将会快速消耗智能手机的电池容量。
[0004] (2)智能手机可通过无线信号源(如基站、WiFi)进行定位,其局限性在于:需要频 繁的通过网络查询无线信号源的实际位置(由于只有特定的运营商才拥有这些信息),持续 使用无线信号源定位将会极大的增加网络流量。
[0005] 针对这些问题,目前出现了少量基于基站标号轨迹数据进行运动模式挖掘的工 作。例如,文献3(G.Yava>、D.Katsaros、0iUlusoy等人,A data mining approach for location prediction in mobile environments,Data&Knowledge Engineering54 (2005): 121-146;即G. Yava§.、D.Katsaros、〇..Ulusoy等人,移动环境下一种面向位置预测的 数据挖掘方法,数据与知识工程,54(2005) :121-146)中提出了一种基于基站切换图的运动 模式挖掘算法,文献4(M.Bayir、M.Demirbas、N.Eagle,Mobility profiler:A framework for discovering mobility profiles of cell phone users,Pervasive and Mobile Computing,6(2010) :435-454;即M.Bayir、M.Demirbas、N.Eagle,运动画像:一种面向移动 用户的运动规律挖掘框架,普适与移动计算,6(2010) :435-454)中提出了一种基于基站振 荡图的运动模式挖掘算法。然而,这些工作没有考虑基站间相似度,而是将一条基站标号轨 迹看成一个字符串,因此通过非常相似(即距离非常接近)但标号不同的基站的轨迹会被看 作完全不同的字符串,导致大量运动模式丢失。随着城市中基站密度的增大,该问题会越来 越严重。
[0006] 此外,文献5(M.Lv、L.Chen、Y.Shen等人,Measuring cell-id trajectory similarity for mobile phone route classification?Knowledge-Based Systems?89 (2015) :181-191 卩M.Lv、L.Chen、Y.Shen等人,面向移动用户路径分类的基站标号轨迹相 似度计算方法,知识系统,89(2015) :181-191)中尝试考虑基站间相似度对基站标号轨迹进 行分析。然而,该工作对基站相似度的计算方法基于经验公式,准确度很低。因此,该工作提 出的方法只能发现轨迹聚类,而无法发现运动模式。

【发明内容】

[0007] 为了克服已有运动模式挖掘方法的准确度较低、适用性较差的不足,本发明提供 了一种准确度较高、适用性良好的基于基站标号轨迹的运动模式挖掘方法。
[0008] 本发明解决其技术问题所采用的技术方案是:
[0009] -种基于基站标号轨迹的运动模式挖掘方法,包括如下步骤:
[0010] (1)历史基站标号轨迹数据集构建:首先对用户智能手机当前所连接基站的标号 进行连续采集,然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数据以形成历史 基站标号轨迹数据集;
[0011] (2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模式,在 此基础上估计基站间的相似度;
[0012] (3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法,从历 史基站标号轨迹数据集中挖掘运动模式,步骤如下:
[0013] (3-1)算法准备:算法准备包括如下步骤:
[0014] (3-1-1)建立基站切换有向图G:图的结点代表基站,结点cgljC2的边代表在历史基 站标号轨迹中出现过C1直接切换到c2的情况,即发生切换时(^和(32在轨迹中是相邻的,则G (c)代表基站c可以直接切换到的基站的集合;
[0015] (3-1-2)建立基站相似度邻接链表T:表头向量中每个头结点代表一个基站,头结 点c指向的单链表包含了所有与基站c相似度大于指定阈值的基站,该单链表的表结点按照 相似度从大到小排列,则T(c)[i]代表与基站c相似度第i大的基站,其中基站间相似度由步 骤(2)计算得到;
[0016] (3-1-3)初始化算法:算法初始化工作包括:设置前缀集allprefixes为空;设置 当前前缀Cur_prefiX为空字符串;设置当前投影序列集PS为历史基站标号轨迹数据集,并 设置每个投影序列P的置信度P. conf为1;
[0017] (3-2)生成频繁基站集:若cur_prefix为空字符串,贝lj从所有基站中寻找频繁基 站;反之,则从G(lc)中寻找频繁基站,其中lc为CUr_prefix最后一个字符所代表的标号对 应的基站;
[0018]从一个基站集CS中寻找频繁基站的方法为:对CS中每一个基站c,首先计算当前投 影序列集中每一条投影序列对其的支持度,然后求和;最后,支持度总和大于指定阈值的基 站即为频繁基站;
[0019]投影序列P对基站C的支持度sut)port(c,P)的计算公式如下:
[0020]
[0021] 其中,P.conf代表P的置信度;
[0022] (3-3)生成投影序列集:对频繁基站集中的每个基站c,过程如下:
[0023] (3-3-1)更新当前前缀cur_pref ix,并将更新的cur_pref ix加入前缀集all_ prefixes;
[0024] (3-3-2)设置新投影序列集NPS为空;
[0025] (3-3-3)对当前投影序列集中的每个投影序列P,基于c和P生成一个新的投影序列 NP,若NP不为空则加入NPS;
[0026] (3-4)迭代算法:若新投影序列集NPS不为空,则将NPS作为当前投影序列集,转向 步骤(3-2);
[0027] (3-5)生成运动模式:对all_prefiXeS中的每一个前缀,将其代表的字符串转化为 对应的基站序列,该基站序列即为一个运动模式。
[0028] 进一步,所述步骤(2)中,采用回归算法估计基站间的相似度,步骤如下:
[0029] (2-1)构造训练数据集:给定一个历史基站标号轨迹数据集,首先通过特定的网络 服务接口(如OpenCelllD)查询其中包含的所有基站
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1