一种基于信令数据和聚类算法的移动用户出行链提取方法与流程

文档序号:20704919发布日期:2020-05-12 16:16阅读:162来源:国知局
一种基于信令数据和聚类算法的移动用户出行链提取方法与流程
本发明涉及移动通信和计算机应用
技术领域
,涉及一种基于信令数据和聚类算法的移动用户出行链提取方法。
背景技术
:随着智能手机、智能手表、智能行车记录仪等移动通讯设备的普及和移动互联网的快速发展,通信网络运营商积累了海量的信令数据。庞大的用户规模为通信网络运营商提供了海量的数据资源。信令数据与其他数据相比有着覆盖范围广、数据易获取、被动上传、真实可靠等优点。包含位置信息的信令数据已经成为城市计算领域的重要数据来源之一。信令数据中的位置信息由基站定位产生,相比gps定位数据存在定位精度低、采样频率低、噪声数据严重等问题,且用户的出行次数、出行目的、出行方式等行为复杂。如何从海量的轨迹数据中提取用户多个驻留点信息,并按照驻留点将复杂轨迹切分成出行模式单一的出行片段成为了一个亟需解决的技术问题。目前,关于驻留点识别以及出行链提取的算法研究,可以根据有无借助时空轨迹数据之外的额外数据分成两类。第一类方法主要借助来自openstreetmap中的兴趣点(pointofinterests,poi)信息,基于gps数据按照停留条件(如停留时间)对轨迹点进行筛选,得到与poi信息对应的候选停留点。当poi信息来源可靠且足够丰富时,算法结果是很有意义的,但是目前完善且能够持续更新的poi信息较难获取,从而限制了该类算法的使用范围。第二类方法主要利用常见的k-means,st-dbscan的聚类算法识别驻留点。其中有学者使用k-means算法对于历史gps数据进行学习,将用户轨迹分成k类,然后依次判断各聚类中心是否为驻留点,但算法对k值依赖性强,不适用于驻留点个数未知的场景;也有学者提出了时空聚类的st-dbscan算法,引入eps1(空间邻域)和eps2(非空间邻域)两类邻域空间,增加δε作为阈值以区分距离较近的簇类,但该算法只能过滤单一密度的噪声数据并且需要设置eps1、eps2、minpts、δε四个独立的参数,在先验知识未知的前提下,如何确定合适的参数也是较大挑战。因此亟需一种新的移动用户出行链提取方法,以解决上述问题。技术实现要素:有鉴于此,本发明的目的在于提供一种基于信令数据和聚类算法的移动用户出行链提取方法,通过该方法可以有效地识别移动用户一段时间内的起讫点信息,最终完成对一段时间内多次出行的轨迹链的提取。为达到上述目的,本发明提供如下技术方案:一种基于信令数据和聚类算法的移动用户出行链提取方法,具体包括以下步骤:s1:针对常见的轨迹震荡序列类型,完成基于时间窗的震荡轨迹检测,并制定震荡轨迹数据修正策略以修正原序列中的震荡轨迹数据;s2:引入局部时空密度ρi、高密度空间距离δi和高密度时间间隔τi等特征值,计算表示震荡轨迹数据中各轨迹点的时空特性;s3:根据局部时空密度ρi、高密度空间距离δi和高密度时间间隔τi计算各轨迹点的聚类中心权值γi,参考γi制定筛选策略以自动地选取聚类中心候选点;s4:根据基站覆盖场景信息制定合并策略,对冗余的聚类中心候选点进行合并,将合并后的聚类中心点记为停驻点;s5:利用各停驻点对原移动轨迹进行划分,得到完整的出行链信息。其中,信令数据包括但不限于用户轨迹数据和基站位置数据。进一步,所述步骤s1中,改进时间窗的震荡轨迹检测具体内容包含但不限于基于时间窗口的震荡轨迹检测方案,以及方案涉及时间窗内序列点个数nw和最大时间间隔tw_max等参数的设置。基于时间窗的震荡轨迹检测具体包括以下步骤:s11:按顺序截取原始数据中的前nw个位置组成序列lw,nw表示时间窗内序列点个数;s12:检测中lw是否出现循环模式,如果出现则执行步骤s13,否则序列点向前移1位,重新执行步骤s11,截取后续nw个位置的序列片段;s13:对检测到的震荡部分序列记为(lbeg,...,lend),判断该针震荡部分序列的总时间是否小于最大时间间隔tw_max,如果满足,那么将该震荡部分序列记为losc,同时序列点向前移1位,返回步骤s11;如果不满足,直接返回步骤s11,直至遍历完内所有轨迹点。进一步,所述步骤s11中时间窗内序列点个数nw和步骤s13中最大时间间隔tw_max的设置方法为:时间窗内序列点个数nw为常见震荡模式的序列长度和;依据平均震荡长度比和平均震荡时间比分别与间隔时间的关系图,以图像曲率突变处的时间间隔作为最大时间间隔tw_max;其中震荡长度比是指检测到的震荡序列的长度与nw的比值,震荡时间比是指震荡序列的总时间和时间窗总时间tw的比值。进一步,所述步骤s1中,震荡轨迹数据修正策略具体为:根据实际位置点在震荡序列中出现的频次较多或停留时间较长的特点,选取震荡序列中被访问次数最多或在震荡序列中总停留时间最长的点作为真实位置。进一步,所述步骤s2中,局部时空密度ρi具体表示:在空间维度相距目标点小于截断距离dc,同时在时间维度与目标点间隔时间小于截断时间tc的数据点的个数;数学表示如下:其中,sgn(x)为符号函数,当x>0时,sgn(x)=1;当x=0时,sgn(x)=0;当x<0时,sgn(x)=-1;χ(δd)为指示函数,当δd>0时,χ(δd)=1,其它情况χ(δd)=0;高密度空间距离δi具体表示:目标点到比该点局部时空密度ρi更大的点的空间距离的最小值;数学表示如下:对于局部时空密度最高的点,高密度空间距离δi定义为目标点到其它点的空间距离最大值,即高密度时间间隔τi具体表示:目标点到任何比其局部时空密度ρi更大的点的时间间隔的最小值;数学表示如下:对于局部时空密度最高的点,高密度时间间隔τi,定义为目标点到其它点的时间间隔最大值,即:进一步,所述步骤s3中,聚类中心权值γi的具体计算方式为:ρi、δi、τi按照max-min标准归一化后乘积的大小表示数据点作为聚类中心的可能性的大小;数学表示为:筛选策略具体为:将聚类中心权重大于平均值的数据点作为初始的聚类中心候选点。进一步,所述步骤s4中,合并策略具体为:合并候选点中覆盖场景相同且空间距离小于截断距离dc或时间间隔小于截断时间tc的“相似的”候选数据点;合并原则是保留聚类中心权重较高的点。进一步,合并“相似的”候选数据点的具体为:s41:根据覆盖场景对候选点集合中的数据点再次划分;s42:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相距小于截断距离dc;如果满足执行s44,否则执行s43;s43:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相隔小于截断时间tc;如果满足执行s44,否则执行s42,直至候选点集合内不再有相似点;s44:多个相似点根据聚类中心权重大小,保留权重最大的数据点,执行s42。进一步,所述步骤s5中,对原移动轨迹进行划分具体为:根据提取出的轨迹中的停驻点,按照时间顺序排列,将该时间段内的轨迹分割成由多组起讫点构成的出行片段,最终形成用户的出行链。本发明的有益效果在于:本发明针对覆盖范围广、被动上传、采样稀疏的移动信令数据,提出一种基于密度峰值的时空聚类算法,用以识别时空轨迹中的驻留点信息,并根据提取出的轨迹中的停驻点形成用户的出行链。相较电话采访、问卷调查或gps定位等数据来源,本发明依托的移动信令数据具有覆盖范围广、被动上传、可信度高、容易获取等优势。同时本发明解决了传统密度聚类算法仅能识别单一密度噪声的问题,降低了计算复杂度,为基于信令数据展开的出行方式和出行目的识别等相关研究奠定了重要基础。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。附图说明为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:图1是本发明所述方法的原理图;图2是震荡时间最大间隔tw_max与震荡比的关系图;图3是原始轨迹分布以及驻留点识别结果图,图3(a)为原始数据分布图,图3(b)为决策分析图,图3(c)为聚类后数据分布图(未剪枝),图3(d)为聚类后数据分布图(已剪枝)。具体实施方式以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。请参阅图1~图3,图1为本发明所述的一种基于信令数据和聚类算法的移动用户出行链提取方法,其中手机信令数据指信令数据中经过解析后的位置信息,包括但不限于用户轨迹数据和基站位置数据。主要包括用户编号、经度、维度、覆盖场景、时间等字段内容,具体数据如表1所示。表1用户的具体信令数据用户编号经度维度覆盖场景时间0001a106.5976729.40709城区道路2018-07-0315:25:140002a106.6139229.53832高校2018-07-0316:35:19其中,用户编号:对原本以手机号码标识的用户脱密处理后的用户标识符,标识符唯一代表一个用户;经度:当前时刻为该用户提供服务的基站位置的经度信息;维度:当前时刻为该用户提供服务的基站位置的维度信息;覆盖场景:当前时刻为该用户提供服务的基站所覆盖的场景标识,主要有“城区道路”、“商业住宅”、“高校”、“车站”等;时间:因通信行为或位置切换产生的手机与基站信令交互的时刻信息。如图1所示,本发明所述基于信令数据和聚类算法的移动用户出行链提取方法的一种优选实施例,具体包括以下步骤:步骤1),针对常见的轨迹震荡序列类型,完成基于时间窗的震荡轨迹检测,并制定数据修正策略以修正原序列中的震荡轨迹数据。其中,轨迹震荡序列如表2所示,l0-l1-l0为常见轨迹震荡序列模式之一,表示某用户轨迹由l0出发切换至较远距离的l1,经短时间后又切换回l0的震荡现象。表2轨迹震荡序列轨迹位置时间距离(km)切换速度(km/h)d0l0(106.607617,29.530807)08:19:35//d1l1(106.602659,29.545336)08:20:141.6147.6923d2l0(106.607617,29.530807)08:20:391.6230.4000d3l2(106.602659,29.453360)08:23:021.947.8348基于时间窗的震荡轨迹检测方法具体为:step1:按顺序截取原始数据中的前nw个位置组成序列lw。其中,nw表示时间窗内序列点个数,该参数的设置方法具体为:考虑到一个震荡序列中可能包含多种模式的组合,所以选取常见震荡模式(l0-l1-l0或l0-l1-l2-l0以及l0-l1-l0-l2-l3-l2-l1)的序列长度之和为时间窗内序列点个数,即nw=15。step2:检测中lw是否出现循环模式,如果出现则执行step3,否则序列点向前移1位,重新执行step1,截取后续nw个位置的序列片段;step3:对检测到的震荡部分记为(lbeg,...,lend),判断该部分序列的总时间是否小于tw_max,如果满足,那么将该震荡序列记为losc,同时序列点向前移1位,返回step1;如果不满足,直接返回step1,直至遍历完内所有轨迹点。其中,tw_max表示最大时间间隔,该参数的设置方法具体为:引入了平均震荡长度比和平均震荡时间比作为评价指标。震荡长度比是指检测到的震荡序列的长度与nw的比值,震荡时间比是指震荡序列的总时间和时间窗总时间tw的比值。如图2所示,根据tw_max与平均震荡长度比和平均震荡时间比的关系可得,当tw_max<5分钟时,随着tw_max的增大,平均震荡率都有较大的增加;当tw_max>5分钟时,曲线变得较为平缓,此时增加tw_max并不能更好的区分震荡轨迹和真实移动轨迹,并且过大的tw_max会增加对真实移动轨迹的误检。由此,本发明将最大时间间隔tw_max取值为5分钟。震荡轨迹修正策略具体为:根据实际位置点在震荡序列中出现的频次较多或停留时间较长的特点,选取震荡序列中被访问次数最多或在震荡序列中总停留时间最长的点作为真实位置。如表2所示,在轨迹序列l0-l1-l0-l2中,保留在序列中被访问次数最多的l0位置,修正后的轨迹数据为l0-l2。步骤2),计算移动用户轨迹数据中各个数据点的局部时空密度ρi,高密度空间距离δi,高密度时间间隔τi。计算得到的局部时空密度ρi,高密度空间距离δi,高密度时间间隔τi分别按照max-min准则进行标准化为数学表为:步骤3),计算各个数据点的聚类中心权值γi,权值越大该数据点就越有可能是原始时空数据中的聚类中心点。并将聚类中心权值的平均值作为阈值,大于该阈值的数据点加入到聚类中心候选点集合中。步骤4),借助原始数据中关于数据点覆盖场景的描述d,以及截断距离dc与截断时间tc,对聚类中心候选点集合中的“相似的”候选数据点进行合并,保留聚类中心权重较高的点,将合并后的聚类中心点记为停驻点。其中,判断“相似的”候选数据点以及合并的方法具体为:step1:根据覆盖场景对候选点集合中的数据点再次划分;step2:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相距小于截断距离dc,如果满足执行step4,否则执行step3;step3:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相隔小于截断时间tc,如果满足执行step4),否则执行step2),直至候选点集合内不再有相似点;step4:多个相似点根据聚类中心权重大小,保留权重最大的数据点。执行step2。其中,步骤4)的原始轨迹分布以及驻留点识别结果如图3。具体地,原始轨迹分布如图(3a),各坐标轴分别表示经度、纬度、从当日0时起的时间;计算得到各个轨迹点的局部时空密度ρi、高密度空间距离δi、高密度时间间隔τi,将各变量标准化后绘制决策分析图(3b);根据聚类中心权值的大小得到未剪枝情况下的中心点分布图(3c);结合基站覆盖场景等语义信息可得剪枝后的聚类中心分布图(3d)。步骤5),根据提取出的轨迹中的停驻点,按照时间顺序排列,将该时间段内的轨迹分割成由多组起讫点构成的出行片段,最终形成用户的出行链。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1