一种基于密度与紧密度聚类的用户移动行为确定方法

文档序号：9646581阅读：480来源：国知局

一种基于密度与紧密度聚类的用户移动行为确定方法
【技术领域】
[0001] 本发明属于数据业务领域，具体涉及一种基于密度与紧密度聚类的用户移动行为确定方法。
【背景技术】
[0002] 随着移动便携设备的广泛普及、无线通信技术和全球定位技术的快速发展，使得人们已经能够获得大量的用户实时位置数据，移动网络中基于位置信息的服务也越来越受到国内外研究学者的关注，尤其在用户移动行为分析方面上。通常，用户移动数据包括GPS 数据集与GSM(GlobalSystemforMobileCommunication,全球移动通信系统）数据集，其中GPS数据集记录了用户的经度，而GSM数据通过基站定位用户位置。对于用户移动行为分析，主要包括用户轨迹挖掘与轨迹聚类以及相关应用服务，其中轨迹挖掘从用户移动数据出发，挖掘用户的移动轨迹；轨迹聚类从用户轨迹数据出发，对轨迹数据进行聚类，从而发现用户的移动规律。
[0003] 对于用户轨迹挖掘，ZhengY等人对轨迹数据挖掘研究进行了综述，给出了轨迹数据挖掘的整个过程，包括轨迹数据的预处理、轨迹数据挖掘、轨迹模式挖掘与轨迹分类； JeungΗ等人通过时间与空间来定义用户轨迹模式，通过对用户移动数据的分析，发现兴趣区域ROI(RegionsofInterest)，并基于多个R0I来定义用户的移动轨迹；TrasartiR等人通过对用户移动数据进行扫描，通过引入时间与空间阈值从而发现用户移动记录中的静止点，并定义用户的移动轨迹为两个静止点间的序列。
[0004] 对于轨迹数据聚类，EsterΜ等人最早提出一种可用于空间数据聚类的算法 DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,具有噪声的基于密度的聚类方法），将聚簇定义密度连通区域，从而挖掘出空间数据中的聚簇；胡宝清等人发明了一种基于移动对象时空信息轨迹分段聚类的方法，公开了一种基于移动对象时空信息轨迹分段聚类的方法，该基于移动对象时空信息轨迹分段聚类的方法包括：引入时间、速度和方向三个属性，并给出他们的相似度计算公式来分析移动对象轨迹内外部结构，提高了聚类效果。
[0005] 然而现有的轨迹挖掘与轨迹聚类的技术研究通常各自独立，而实际上对于用户移动行为分析，需要结合轨迹挖掘与轨迹聚类，从而获取用户移动特征轨迹。尚存在的未解决的难点，主要有以下几点：
[0006] (1)关于轨迹挖掘，能够应用到真实移动通信用户数据的发明较少。因为现实通信环境中的数据是基于基站的位置数据，并不包含用户的GPS信息；此外移动用户的数据非常混乱，数据量巨大，包含用户随机移动的异常数据及因信号质量出现的基站乒乓切换现象的数据，对用户轨迹的提取造成巨大困难；
[0007] (2)关于用户轨迹聚类，现有的发明由于轨迹间的相似性的较难确定造成聚类效果一般，聚类结果的轨迹间相似度较低。由此得到的用户代表轨迹较少，进而会丢失用户移动轨迹信息，出现不符合现实用户的移动行为的问题。

【发明内容】

[0008] 针对现有技术存在的不足，本发明结合轨迹挖掘与轨迹聚类，提供一种基于密度与紧密度聚类的用户移动行为确定方法。
[0009] 本发明的技术方案：
[0010] -种基于密度与紧密度聚类的用户移动行为确定方法，包括如下步骤：
[0011] 步骤1 :获取某时间段内由用户经过的全部基站所构成的用户基站序列，即用户位置变换序列；
[0012] 步骤2:基于时间和用户位置变换序列，进行移动用户行为轨迹挖掘；
[0013] 步骤2. 1:引入时间窗口并基于该时间窗口对用户位置变换序列进行划分，将连续的用户位置变换序列划分为时间上离散的多个子位置变换序列，即多个窗口序列；
[0014] 所述时间窗口：将连续的时间划分为多个长度为win_siZe的时间片段，每个时间片段定义为一个时间窗口；
[0015] 步骤2. 2 :计算用户在每个窗口中的移动状态；
[0016] 给定空间范围阈值thstill，对于时间窗口w=<btk,btk+1, . . .，btp，贝lj定义用户在窗口w内的移动状态state包括移动状态moving和静止状态still，如式（1)所示；
[0018] 其中bt代表用户的基站位置点；下标k，k+Ι，1，i，j分别代表基站位置点序号； Dist(btk,btj)表示基站位置点bti与基站位置点bt的空间距离；
[0019] 步骤2. 3 :根据窗口的移动状态，挖掘出用户的多条行为轨迹；
[0020] 若用户在某两个相邻窗口中的移动状态均为静止状态，则定义这两个相邻窗口之间的用户位置变换序列构成一条行为轨迹；依次遍历某时间段内各个窗口的移动状态，根据对移动轨迹的定义，挖掘出用户该时间段内的多条行为轨迹，并将所述多条行为轨迹的集合命名为Trajectory_list;
[0021] 步骤3 :对步骤2挖掘出的用户多条行为轨迹进行聚类分析，从而构建用户移动行为；
[0022] 步骤3. 1 :利用改进的DBSCAN算法对步骤2挖掘出的用户多条行为轨迹进行聚类，找到用户的轨迹聚簇；
[0023] 步骤3. 1. 1 :设置初始轨迹聚簇个数为0,并且标记每条用户行为轨迹的状态为未被聚类，即标记为unclassified ;
[0024] 步骤3. 1. 2 :根据信息熵设置Eps的值，并设置聚簇最小轨迹数MinTs;所述MinTs 为所有轨迹Eps邻域内轨迹个数的平均值；所述Eps的值设置为0. 45 ;
[0025] 步骤3. 1. 3 :找到任意一条用户行为轨迹，根据轨迹间的距离函数计算该轨迹的 Eps邻域内的轨迹条数；
[0026] 轨迹T#Trajectory_list的Eps邻域定义为ΝΕρ；3(Τ?)，即ΝΕρ；3(Τ?)= {T#TrajeCt〇ry_list|δ(Tuη)彡Eps}，其中1\和Τ」分别为第i条用户行为轨迹和第 j条用户行为轨迹，δ()为轨迹间距离函数；
[0028] 其中LCS()为公共子字符串计算函数；
[0029] 步骤3. 1. 4 :根据核心轨迹的定义，判断该轨迹是否为核心轨迹，否，则把该轨迹归为噪声轨迹，即其不属于任何聚簇，并转至步骤3. 1. 3 ;是，则创建一个含有该核心轨迹的聚簇，并更新聚簇个数；
[0030] 所述核心轨迹指的是对于任一用户行为轨迹1\当且仅当满足如下条件： Kt) |彡MinTs时，该轨迹称为核心轨迹；
[0031] 步骤3. 1. 5 :扩展该轨迹所在的聚簇；
[0032] a)把Eps邻域内不属于其他聚簇的轨迹加入到该轨迹所在的聚簇中，并且更新该轨迹的状态为classified;
[0033] b)检查该新加入轨迹的Eps邻域，如果该新加入轨迹也是个核心轨迹，那么重复步骤a)，直到没有轨迹再能够加入到这个聚簇中为止，即直到本聚簇无法扩展为止；
[0034] 步骤3. 1. 6 :从剩下的unclassified轨迹中随机选择任一轨迹，按照步骤3. 1. 3 至3. 1. 5的方法，重复执行，直到所有的轨迹状态都为classified，即直至找到用户的所有轨迹聚簇，得到聚簇集合C;
[0035] 步骤3. 2 :为了满足特征轨迹的集的约束，对步骤3. 1获得的聚簇进行再划分得到特征轨迹集及特征轨迹，进而得到用户移动行为；
[0036] 步骤3. 2. 1 :对于聚簇集合C中的任意轨迹聚簇，给定一个紧密度阈值thspatlal，如果该轨迹聚簇的紧密度大于thspatlal，则需要按照聚簇划分方法将其划分为两个更加紧密的子聚簇并将子聚簇加入到聚簇集合C中得到聚簇集合C'，直至C'中的所有聚簇紧密度均小丁.thspatiai为止，
[0037] 所述紧密度阈值thspatlal设置为0. 45 ;
[0038] 所述聚簇划分方法为：A)从某个轨迹聚簇中随机选择两条轨迹作为该轨迹聚簇的两个中心，基于这两个聚簇中心将该轨迹聚簇划分为两个子聚簇；B)根据轨迹间距离函数，计算该聚簇内剩余的其他轨迹分别与这两个聚簇中心的距离，将这些轨迹分别划分到距离其各自更近的聚簇中心所在的子聚簇中；C)在两个子聚簇中，分别选择到其他轨迹的距离和最小的轨迹分别作为该两个子聚簇的新的聚簇中心；D)按照B)的方法，分别计算两个子聚簇中聚簇中心以外的轨迹分别与两个新的聚簇中心的距离，将这些轨迹分别重新划分到距离其各自更近的两个新的聚簇中心所在的两个子聚簇中；E)重复C)和D)，直至两个子聚簇的中心不再改变为止；
[0039] 所述聚簇的紧密度的计算方法为：假设给定轨迹聚簇c= {1\，T2, . . .，Tk，. . .，Tn}，其中！；为聚簇中心，η为轨迹聚簇c中的轨迹总数，Τ代表轨迹聚簇c中的轨迹，下标j、k 为轨迹的顺序号，则聚簇紧密度为：
[0041] 步骤3

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于瑞云;王兴伟;李婕;王靖;薛晓迪;马彧;石佳;
技术所有人：东北大学;
我是此专利的发明人

上一篇：一种数据处理方法及装置的制造方法
上一篇：一种页面内容的定位方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。