一种基于密度与紧密度聚类的用户移动行为确定方法_4

文档序号:9646581阅读:来源:国知局
动行为构建方法)(参见文献:Trasarti,R.,Pinelli,F.,Nanni,Μ·,·etal.Mining mobilityuserprofilesforcarpooling[C].//InProceedingsofthe17th ACMSIGKDDinternationalconferenceonKnowledgediscoveryanddata mining,2011,pp. 1190-1198)进行实验比较,该基准算法应用密度算法DBSCAN聚类用户的 移动轨迹,发现并挖掘用户的移动行为模式。
[0115] 由于MITRealityMining数据集与真实移动数据中用户位置记录是基于基站的, 因此不能给出一个可视化的结果,为了对算法进行评价,本实施方式给出了两个算法挖掘 出的用户特征轨迹数与对应用户数分布情况,如图9与图10(图9与图10中记载的DCCMB 代表本发明方法)所示,其中横轴表示特征轨迹数,而纵轴表示该轨迹数对应的人数。
[0116] 从图9与图10中可以看出,基于DBSCAN-MPC的移动行为构建方法挖掘出的用户 轨迹数分布在1-5条之间,而没有6条轨迹以上的用户;本发明方法在RealityMining数 据集上挖掘出的轨迹数分布在1-22条之间,在真实移动数据集上挖掘出的用户轨迹数分 布在1-19条之间。从用户轨迹数分布情况来看,本发明方法挖掘出的用户轨迹数更符合现 实情况:大部分用户只需要1-6条特征轨迹,而存在少部分用户需要10条以上的特征轨迹。 在图中,横轴与纵轴都取的是对数坐标,从图中曲线变化趋势可以看出,本发明方法挖掘出 的用户轨迹数与对应户数的分布基本符合幂律分布(取完对数呈现直线趋势)。对于该分 布现象,可以解释为在现实生活中用户的特征轨迹数分布也符合2-8法则,其中80%的用 户只需要20%的轨迹数即可满足需求,但同时也存在20%的用户其需要移动轨迹数较多, 占了整个轨迹数的80%。
【主权项】
1. 一种基于密度与紧密度聚类的用户移动行为确定方法,其特征在于:包括如下步 骤: 步骤1 :获取某时间段内用户经过的全部基站所构成的用户基站序列,即用户位置变 换序列. 步骤2 :基于时间和用户位置变换序列,进行移动用户行为轨迹挖掘; 步骤2. 1 :引入时间窗口并基于时间窗口对用户位置变换序列进行划分,将连续的用 户位置变换序列划分为时间上离散的多个子位置变换序列,即多个窗口序列; 步骤2. 2 :计算用户在每个窗口中的移动状态; 给定空间范围阔值对于时间窗口W= <btk,btw,...,bti>,则定义用户在窗 口W内的移动状态state包括移动状态moving和静止状态still,如式(1)所示;(!) 其中bt代表用户的基站位置点;下标k,k+1,1,i,j分别代表基站位置点顺序号;Dist化tk,btj)表示基站位置点bti与基站位置点btJ的空间距离; 步骤2. 3 :依次遍历用户在各窗口的移动状态,挖掘出用户的多条行为轨迹; 若用户在某两个相邻窗口中的移动状态均为静止状态,则定义运两个相邻窗口之间的 用户位置变换序列构成一条行为轨迹;依次遍历某时间段内用户在各个窗口的移动状态, 根据对移动轨迹的定义,挖掘出用户该时间段内的多条行为轨迹,并将所述多条行为轨迹 的集合命名为hajectoryjist; 步骤3 :对步骤2挖掘出的用户多条行为轨迹进行聚类分析,从而构建用户移动行为; 步骤3. 1 :利用改进的DBSCAN算法对步骤2挖掘出的用户多条行为轨迹进行聚类,找 到用户的轨迹聚簇; 步骤3. 1. 1 :设置初始轨迹聚簇个数为0,并且标记每条用户行为轨迹的状态为未被聚 类,即标记为unclassified; 步骤3. 1.2 :根据信息赌设置邱S的值,并设置聚簇最小轨迹数MinTs;所述MinTs为所 有轨迹邱S邻域内轨迹个数的平均值; 步骤3. 1. 3 :找到任意一条用户行为轨迹,根据轨迹间的距离函数计算该轨迹的邱S邻 域内的轨迹条数; 轨迹Trajectory_list的邱S邻域定义为NEps化),即^。^化)= 化£Trajectory_listIδ灯1,Tj)《化s},其中Ti和Ti分别为第i条用户行为轨迹和第 j条用户行为轨迹,δ0为轨迹间距离函数,则Ti和Tj之间的距离为:(2) 其中LCSQ为公共子字符串计算函数; 步骤3. 1. 4 :根据核屯、轨迹的定义,判断该轨迹是否为核屯、轨迹,否,则把该轨迹归为 噪声轨迹,即其不属于任何聚簇,并转至步骤3. 1. 3 ;是,则创建一个含有该核屯、轨迹的聚 簇,并更新聚簇个数; 所述核屯、轨迹指的是对于任一用户行为轨迹Ti当且仅当满足如下条件: Neps化)I>MinTs时,该轨迹称为核屯、轨迹; 步骤3. 1. 5 :扩展该轨迹所在的聚簇; a) 把其邱S邻域内不属于其他聚簇的轨迹加入到该轨迹所在的聚簇中,并且更新该轨 迹的状态为classified; b) 检查该新加入轨迹的邱S邻域,如果该新加入轨迹也是个核屯、轨迹,那么按照步骤 a)的方法重复执行,直到没有轨迹再能够加入到运个聚簇中为止,即直到本聚簇无法扩展 为止; 步骤3. 1. 6 :从剩下的unclassified轨迹中随机选择一条轨迹,按照步骤3. 1. 3至 3. 1. 5的方法,重复执行,直到所有的轨迹状态都为classified,即直至找到用户的所有轨 迹聚簇,得到聚簇集合C; 步骤3. 2 :对步骤3. 1获得的聚簇进行再划分得到特征轨迹集及特征轨迹,进而确定用 户移动行为; 步骤3. 2. 1 :对于聚簇集合C中的任意轨迹聚簇,给定一个紧密度阔值th,p3tbi,如果该 轨迹聚簇的紧密度大于thgpgtW,则需要按照聚簇划分方法将其划分为两个更加紧密的子聚 簇并将子聚簇加入到聚簇集合C中得到聚簇集合C',直至C'中所有聚簇的紧密度均小于 thspatial^it; 所述聚簇划分方法为:A)从某个轨迹聚簇中随机选择两条轨迹作为该轨迹聚簇的两 个中屯、,基于运两个聚簇中屯、将该轨迹聚簇划分为两个子聚簇;B)根据轨迹间距离函数, 计算该聚簇内剩余的其他轨迹分别与运两个聚簇中屯、的距离,将运些轨迹分别划分到距离 其各自更近的聚簇中屯、所在的子聚簇中;C)在两个子聚簇中,分别选择到其他轨迹的距离 和最小的轨迹分别作为该两个子聚簇的新的聚簇中屯、;D)按照B)的方法,分别计算两个子 聚簇中聚簇中屯、W外的轨迹分别与两个新的聚簇中屯、的距离,将运些轨迹重新划分到距离 其各自更近的两个新的聚簇中屯、所在的两个子聚簇中出)按照C)至D)的方法重复执行, 直至两个子聚簇的中屯、不再改变为止; 步骤3. 2. 2 :针对C'中的任意聚簇,给定一个支持度阔值th,uppMt,如果该聚簇内轨迹数 小于阔值thguppMt,则删除该聚簇;如果该聚簇内轨迹数大于阔值则该轨迹聚簇为 用户的一个特征轨迹集. 步骤3. 2. 3 :从特征轨迹集中选取特征轨迹,所述特征轨迹即是作为特征轨迹集的轨 迹聚簇的聚簇中屯、; 步骤3. 2. 4 :全部特征轨迹构成用户的移动行为。2. 根据权利要求1所述的基于密度与紧密度聚类的用户移动行为确定方法,其特征在 于:所述步骤2. 1中所述的时间窗口为:将连续的时间划分为多个长度为win_size的时间 片段,每个时间片段定义为一个时间窗口。3. 根据权利要求1所述的基于密度与紧密度聚类的用户移动行为确定方法,其特征在 于:所述步骤3. 1. 2中所述化S的值设置为0. 45。4. 根据权利要求1所述的基于密度与紧密度聚类的用户移动行为确定方法,其特征在 于:所述步骤3. 2. 1中所述紧密度阔值设置为0. 45。5. 根据权利要求1所述的基于密度与紧密度聚类的用户移动行为确定方法,其特 征在于:所述步骤3. 2. 1中所述聚簇的紧密度的计算方法为:假设给定轨迹聚簇C= 化,了2,. . .,Tk,. . .,Τ。},其中Tk为聚簇中屯、,η为轨迹聚簇c中的轨迹总数,Τ代表轨迹聚簇C中的轨迹,下标j、k为轨迹的顺序号,则聚簇紧密度为:(3)
【专利摘要】一种基于密度与紧密度聚类的用户移动行为确定方法,属于数据业务领域。引入时间窗口,对用户的移动序列进行时间窗口的划分,将连续的移动序列划分为时间上离散的多个窗口序列;根据对移动轨迹的定义,从窗口序列中挖掘出用户的多条移动轨迹;根据对特征轨迹集的定义,对多条移动轨迹进行划分,将相似轨迹划分到同一特征轨迹集中,并去除噪声数据;根据对特征轨迹的定义,从特征轨迹集中分别选取对应的中心轨迹作为特征轨迹,进而最终确定用户的移动行为。该方法可以应用在实际的移动通信数据中,消除用户移动的随机性与异常点,所确定的用户的移动行为可作为基于位置服务的位置模块的输入,也可作为移动推荐系统的输入,从而带来个性化服务。
【IPC分类】G06F17/30, G06K9/62
【公开号】CN105404648
【申请号】CN201510717733
【发明人】于瑞云, 王兴伟, 李婕, 王靖, 薛晓迪, 马彧, 石佳
【申请人】东北大学
【公开日】2016年3月16日
【申请日】2015年10月29日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1