一种基于密度与紧密度聚类的用户移动行为确定方法

文档序号:9646581阅读:480来源:国知局
一种基于密度与紧密度聚类的用户移动行为确定方法
【技术领域】
[0001] 本发明属于数据业务领域,具体涉及一种基于密度与紧密度聚类的用户移动行为 确定方法。
【背景技术】
[0002] 随着移动便携设备的广泛普及、无线通信技术和全球定位技术的快速发展,使得 人们已经能够获得大量的用户实时位置数据,移动网络中基于位置信息的服务也越来越受 到国内外研究学者的关注,尤其在用户移动行为分析方面上。通常,用户移动数据包括GPS 数据集与GSM(GlobalSystemforMobileCommunication,全球移动通信系统)数据集, 其中GPS数据集记录了用户的经度,而GSM数据通过基站定位用户位置。对于用户移动行 为分析,主要包括用户轨迹挖掘与轨迹聚类以及相关应用服务,其中轨迹挖掘从用户移动 数据出发,挖掘用户的移动轨迹;轨迹聚类从用户轨迹数据出发,对轨迹数据进行聚类,从 而发现用户的移动规律。
[0003] 对于用户轨迹挖掘,ZhengY等人对轨迹数据挖掘研究进行了综述,给出了轨迹 数据挖掘的整个过程,包括轨迹数据的预处理、轨迹数据挖掘、轨迹模式挖掘与轨迹分类; JeungΗ等人通过时间与空间来定义用户轨迹模式,通过对用户移动数据的分析,发现兴趣 区域ROI(RegionsofInterest),并基于多个R0I来定义用户的移动轨迹;TrasartiR等 人通过对用户移动数据进行扫描,通过引入时间与空间阈值从而发现用户移动记录中的静 止点,并定义用户的移动轨迹为两个静止点间的序列。
[0004] 对于轨迹数据聚类,EsterΜ等人最早提出一种可用于空间数据聚类的算法 DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,具有噪声 的基于密度的聚类方法),将聚簇定义密度连通区域,从而挖掘出空间数据中的聚簇;胡宝 清等人发明了一种基于移动对象时空信息轨迹分段聚类的方法,公开了一种基于移动对象 时空信息轨迹分段聚类的方法,该基于移动对象时空信息轨迹分段聚类的方法包括:引入 时间、速度和方向三个属性,并给出他们的相似度计算公式来分析移动对象轨迹内外部结 构,提高了聚类效果。
[0005] 然而现有的轨迹挖掘与轨迹聚类的技术研究通常各自独立,而实际上对于用户移 动行为分析,需要结合轨迹挖掘与轨迹聚类,从而获取用户移动特征轨迹。尚存在的未解决 的难点,主要有以下几点:
[0006] (1)关于轨迹挖掘,能够应用到真实移动通信用户数据的发明较少。因为现实通信 环境中的数据是基于基站的位置数据,并不包含用户的GPS信息;此外移动用户的数据非 常混乱,数据量巨大,包含用户随机移动的异常数据及因信号质量出现的基站乒乓切换现 象的数据,对用户轨迹的提取造成巨大困难;
[0007] (2)关于用户轨迹聚类,现有的发明由于轨迹间的相似性的较难确定造成聚类效 果一般,聚类结果的轨迹间相似度较低。由此得到的用户代表轨迹较少,进而会丢失用户移 动轨迹信息,出现不符合现实用户的移动行为的问题。

【发明内容】

[0008] 针对现有技术存在的不足,本发明结合轨迹挖掘与轨迹聚类,提供一种基于密度 与紧密度聚类的用户移动行为确定方法。
[0009] 本发明的技术方案:
[0010] -种基于密度与紧密度聚类的用户移动行为确定方法,包括如下步骤:
[0011] 步骤1 :获取某时间段内由用户经过的全部基站所构成的用户基站序列,即用户 位置变换序列;
[0012] 步骤2:基于时间和用户位置变换序列,进行移动用户行为轨迹挖掘;
[0013] 步骤2. 1:引入时间窗口并基于该时间窗口对用户位置变换序列进行划分,将连 续的用户位置变换序列划分为时间上离散的多个子位置变换序列,即多个窗口序列;
[0014] 所述时间窗口 :将连续的时间划分为多个长度为win_siZe的时间片段,每个时间 片段定义为一个时间窗口;
[0015] 步骤2. 2 :计算用户在每个窗口中的移动状态;
[0016] 给定空间范围阈值thstill,对于时间窗口w=<btk,btk+1, . . .,btp,贝lj定义用户 在窗口w内的移动状态state包括移动状态moving和静止状态still,如式(1)所示;
[0018] 其中bt代表用户的基站位置点;下标k,k+Ι,1,i,j分别代表基站位置点序号; Dist(btk,btj)表示基站位置点bti与基站位置点bt的空间距离;
[0019] 步骤2. 3 :根据窗口的移动状态,挖掘出用户的多条行为轨迹;
[0020] 若用户在某两个相邻窗口中的移动状态均为静止状态,则定义这两个相邻窗口之 间的用户位置变换序列构成一条行为轨迹;依次遍历某时间段内各个窗口的移动状态,根 据对移动轨迹的定义,挖掘出用户该时间段内的多条行为轨迹,并将所述多条行为轨迹的 集合命名为Trajectory_list;
[0021] 步骤3 :对步骤2挖掘出的用户多条行为轨迹进行聚类分析,从而构建用户移动行 为;
[0022] 步骤3. 1 :利用改进的DBSCAN算法对步骤2挖掘出的用户多条行为轨迹进行聚 类,找到用户的轨迹聚簇;
[0023] 步骤3. 1. 1 :设置初始轨迹聚簇个数为0,并且标记每条用户行为轨迹的状态为未 被聚类,即标记为unclassified ;
[0024] 步骤3. 1. 2 :根据信息熵设置Eps的值,并设置聚簇最小轨迹数MinTs;所述MinTs 为所有轨迹Eps邻域内轨迹个数的平均值;所述Eps的值设置为0. 45 ;
[0025] 步骤3. 1. 3 :找到任意一条用户行为轨迹,根据轨迹间的距离函数计算该轨迹的 Eps邻域内的轨迹条数;
[0026] 轨迹T#Trajectory_list的Eps邻域定义为ΝΕρ;3(Τ?),即ΝΕρ;3(Τ?)= {T#TrajeCt〇ry_list|δ(Tuη)彡Eps},其中1\和Τ」分别为第i条用户行为轨迹和第 j条用户行为轨迹,δ()为轨迹间距离函数;
[0028] 其中LCS()为公共子字符串计算函数;
[0029] 步骤3. 1. 4 :根据核心轨迹的定义,判断该轨迹是否为核心轨迹,否,则把该轨迹 归为噪声轨迹,即其不属于任何聚簇,并转至步骤3. 1. 3 ;是,则创建一个含有该核心轨迹 的聚簇,并更新聚簇个数;
[0030] 所述核心轨迹指的是对于任一用户行为轨迹1\当且仅当满足如下条件: Kt) |彡MinTs时,该轨迹称为核心轨迹;
[0031] 步骤3. 1. 5 :扩展该轨迹所在的聚簇;
[0032] a)把Eps邻域内不属于其他聚簇的轨迹加入到该轨迹所在的聚簇中,并且更新该 轨迹的状态为classified;
[0033] b)检查该新加入轨迹的Eps邻域,如果该新加入轨迹也是个核心轨迹,那么重复 步骤a),直到没有轨迹再能够加入到这个聚簇中为止,即直到本聚簇无法扩展为止;
[0034] 步骤3. 1. 6 :从剩下的unclassified轨迹中随机选择任一轨迹,按照步骤3. 1. 3 至3. 1. 5的方法,重复执行,直到所有的轨迹状态都为classified,即直至找到用户的所有 轨迹聚簇,得到聚簇集合C;
[0035] 步骤3. 2 :为了满足特征轨迹的集的约束,对步骤3. 1获得的聚簇进行再划分得到 特征轨迹集及特征轨迹,进而得到用户移动行为;
[0036] 步骤3. 2. 1 :对于聚簇集合C中的任意轨迹聚簇,给定一个紧密度阈值thspatlal,如 果该轨迹聚簇的紧密度大于thspatlal,则需要按照聚簇划分方法将其划分为两个更加紧密的 子聚簇并将子聚簇加入到聚簇集合C中得到聚簇集合C',直至C'中的所有聚簇紧密度均小 丁.thspatiai为止,
[0037] 所述紧密度阈值thspatlal设置为0. 45 ;
[0038] 所述聚簇划分方法为:A)从某个轨迹聚簇中随机选择两条轨迹作为该轨迹聚簇 的两个中心,基于这两个聚簇中心将该轨迹聚簇划分为两个子聚簇;B)根据轨迹间距离函 数,计算该聚簇内剩余的其他轨迹分别与这两个聚簇中心的距离,将这些轨迹分别划分到 距离其各自更近的聚簇中心所在的子聚簇中;C)在两个子聚簇中,分别选择到其他轨迹的 距离和最小的轨迹分别作为该两个子聚簇的新的聚簇中心;D)按照B)的方法,分别计算两 个子聚簇中聚簇中心以外的轨迹分别与两个新的聚簇中心的距离,将这些轨迹分别重新划 分到距离其各自更近的两个新的聚簇中心所在的两个子聚簇中;E)重复C)和D),直至两 个子聚簇的中心不再改变为止;
[0039] 所述聚簇的紧密度的计算方法为:假设给定轨迹聚簇c= {1\,T2, . . .,Tk,. . .,Tn}, 其中!;为聚簇中心,η为轨迹聚簇c中的轨迹总数,Τ代表轨迹聚簇c中的轨迹,下标j、k 为轨迹的顺序号,则聚簇紧密度为:
[0041] 步骤3
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1