一种考虑时序DBSCAN的智能手机轨迹链簇识别方法与流程

文档序号:12062218阅读:321来源:国知局
一种考虑时序DBSCAN的智能手机轨迹链簇识别方法与流程
本发明属于交通规划中出行行为数据采集与分析领域,涉及一种考虑时序DBSCAN的智能手机轨迹链簇识别方法。

背景技术:
出行行为是指为完成某一目的,使用某种交通方式,耗费一定时间从出发地经某一路径到达目的地的位移过程。通过对出行行为调查,可以掌握居民的出行特征,了解区域内交通需求供给现状,为交通需求预测和制定交通规划方案提供基础数据。相比较传统方法(如入户访谈FaceToFace、计算机辅助电话调查CATI等方式),基于智能手机的出行行为调查方式不需要额外追加安装和维护的费用,并且具有投资少、海量化数据、全天候采集等特点,逐渐受到国内外相关研究学者的青睐。目前,基于智能手机的出行行为调查主要包括四个步骤:即数据预处理、轨迹链簇识别、出行模式判定与活动目的预测,其中针对行为轨迹的链簇识别是整个调查过程的关键步骤,其识别结果的正确与否直接影响到后续分析。在现有研究中,链簇识别首先是根据行为轨迹的空间分布特征提取停驻点,然后依照相关逻辑规则从整条行为轨迹链上辨识与合并停驻区间,最后以此分离轨迹出行链与轨迹停驻点簇,具体的链簇识别算法包括探索性方法(即经验法)、K均值聚类方法以及基于密度的聚类方法(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)。然而由于这些识别算法本质上并没有脱离对空间特征的依赖,不能兼顾到时间的连续或差异特征,无法完美地支持具有时序信息的行为轨迹数据,识别结果难免存在一定的误差。

技术实现要素:
技术问题:本发明提供了一种将“角度偏移量”与“距离偏移量”两个指标与DBSCAN算法相融合,弥补了传统DBSCAN算法无法识别时序特征的不足,提高行为轨迹链簇识别的精准度的考虑时序DBSCAN的智能手机轨迹链簇识别方法。技术方案:本发明的考虑时序DBSCAN的智能手机轨迹链簇识别方法,包括以下步骤:步骤1、数据采集与预处理:采集受访者出行轨迹数据,并在数据预处理时将各轨迹点的经纬度坐标转换为墨卡托平面坐标,剔除数据格式为LBS以及数据格式为GPS但数据精度大于50米的轨迹点,将保留下的行为轨迹点作为原始数据V;步骤2、确定行为轨迹的偏移情况,即计算所有行为轨迹点Pn的时序“角度偏移量”DAn和时序“距离偏移量”Sn;所述行为轨迹点Pn的时序“角度偏移量”DAn,即与轨迹点Pn相邻的两两行为轨迹点所组成向量与之间的夹角差,根据下式计算:DAn=An+1-An(3)式(1)中AYn为轨迹向量与坐标轴Y轴的夹角,xn为轨迹点n的X轴坐标,为轨迹点n与轨迹点n+1的直线距离;式(2)中An为轨迹向量中以轨迹点Pn为原点,向量与X轴坐标的夹角,yn为轨迹点n的Y轴坐标;式(3)中DAn为轨迹点Pn的时序“角度偏移量”;所述行为轨迹点Pn的时序“距离偏移量”Sn,即轨迹点Pn与线段Qn-1Qn的直线距离,根据下式计算:其中,Qn-1为轨迹点Pn-1与Pn的坐标中点;步骤3、识别并汇总“链与非链”,即根据行为轨迹的偏移情况,按照时间间隔对原始数据V进行遍历识别与汇总,具体为:首先,对原始数据V进行片段分割:从轨迹的第一点开始,按照时间间隔依次对原始数据V截取一段行为轨迹数据,得到轨迹片段Vi(i∈1,2,3...,m),其中i为轨迹片段分割序号,m为轨迹片段最大分割数;其次,量化轨迹片段的演化趋势:从某一轨迹片段Vi的第一点开始遍历检测,若该点及其后续4个轨迹点“角度偏移量”的和的绝对值大于最小转角阈值AGmin,则认为该点及其后续4个轨迹点为角度偏移异常点;若轨迹点的“距离偏移量”中大于样本最大位移阈值DMmax,则该点及其后续4个轨迹点为距离偏移异常点;然后,对轨迹片段Vi(i∈1,2,3...,n)识别“链与非链”:若该轨迹片段中角度偏移异常点的比例与距离偏移异常点的比例均小于可接受异常比Racc,则认为该段轨迹为“链”片段;否则,为“非链”片段;最后,根据相邻轨迹片段首尾点的时间差与距离差进行“链”或“非链”的汇总,得到“链”片段集合Vl和“非链”片段集合Vnl;步骤4、应用基于密度的聚类常规算法对集合Vnl中的“非链”片段进行逐一判断,确定“非链”集合Vnl中的各个片段是否为点簇;步骤5、针对“非链”片段集合Vnl剔除非点簇片段,得到的集合Vnlc为行为轨迹的点簇集合,集合Vl为行为轨迹的链集合。进一步的,本发明方法中,所述的步骤1中采集得到的原始数据中包括行为轨迹点及其记录时间、纬度、经度、数据获取形式、方向、精度、定位卫星数量、速度、定位基站数量、地址。进一步的,本发明方法中,所述步骤3中最小转角阈值AGmin取60度,最大位移阈值DMmax取样本偏移距离的85%分位数。进一步的,本发明方法中,所述步骤3中进行“链”或“非链”的汇总的具体方法为:若前后两个轨迹片段Vi与Vi+1同为“链”片段,则在轨迹片段Vi最后一点与片段Vi+1第一点的时间差小于最小停留时长Tsmi且距离差小于轨迹精度最大阈值ACthr,将这两个轨迹片段聚合为同一“链”片段,并放入“链”片段集合Vl中;按照同样方式,将行为轨迹的“非链”片段进行汇总,得到“非链”片段集合Vnl。进一步的,本发明方法中,所述步骤3中的最小停留时长Tsmi取2min,轨迹精度最大阈值ACthr为50米。进一步的,本发明方法中,所述步骤4的具体判定方法为:设置邻域半径Eps为该“非链”片段点簇聚合半径ER,邻域内样本点数阈值MinPts为4,输入各“非链”片段的轨迹点墨卡托坐标,逐一对“非链”集合Vnl中各片段进行DBSCAN点簇识别,若片段中的点簇比例达到最小点簇比Rp,则认为该“非链”片段为“簇”片段。进一步的,本发明方法中,所述步骤4中的点簇聚合半径ER取该片段两两轨迹点距离的85%分位数,最小点簇比Rp设定为85%。本发明通过提出“角度偏移量”与“距离偏移量”两个指标,对现有基于密度的聚类识别算法(DBSCAN)进行改进,能够弥补传统DBSCAN算法无法识别时序特征的不足,提高行为轨迹链簇识别的精准度。本发明的实施过程可以简述为:首先,根据“角度偏移量”与“距离偏移量”两个指标在样本数据中的表现情况,区分出轨迹的“链”与“非链”集合;其次针对“非链”集合进行基于密度的聚类识别,得到行为轨迹的“点簇”集合,最后完成针对整个原始数据V的链簇识别。有益效果:与现有技术相比,本发明具有以下优点:传统的行为轨迹链簇识别方法存在计算过程繁杂、识别精度有限以及无法考虑时间演化特征等问题。本发明针对现有基于密度的聚类识别方法的不足,通过模拟人眼识别行为轨迹形态的过程,创新性地提出行为轨迹“距离偏移量”与“角度偏移量”两个参数指标来度量行为轨迹的时序特征,并将其融入基于密度的聚类识别算法之中,令算法在执行空间聚类之前,能够识别出行为轨迹点随时间推移的变化趋势,并以此对轨迹“链”与“非链”划分作出甄别响应,从而使该算法可以满足识别时序信息特征的需求,为后续准确划分行为轨迹的链簇片段,分析出行行为特征奠定了坚实的基础。附图说明下面结合附图说明和具体实施方式对本发明作进一步说明:图1为本发明方法流程图;图2为行为轨迹点的空间形式图3为行为轨迹链的空间分布图4为行为轨迹点簇的空间分布图5为行为轨迹时序“角度偏移量”定义图图6为行为轨迹时序“距离偏移量”定义图图7为“角度偏移量”与“距离偏移量”对比图图8为考虑时序DBSCAN的链簇识别结果图。具体实施方式以下将结合某人工作日的出行轨迹数据实施例与说明书附图,对本发明方法做进一步详细说明。一、数据形式描述在步骤1中,通过自主研发的《智能手机的出行模式采集软件TransGPSCollectorV1.0》获取受访者的行为轨迹数据,数据属性包括:用户编号、日期时间、纬度、经度、模式、方向、精度、速度等8项数据,具体数据形式如表1所示。表1行为轨迹初始数据示例为确保行为轨迹数据能够与地图底图匹配,在数据预处理阶段,应对轨迹的经纬度坐标转换为墨卡托平面坐标,具体墨卡托投影计算公式如下:X=Lon·20037508.34/180式中,Lon为轨迹点经度坐标值;Lat为轨迹点纬度坐标值,X为墨卡托投影下的X轴坐标值(单位:米),Y为墨卡托投影下的Y轴坐标值(单位:米)。同时,为确保行为轨迹的数据精度,遍历整个样本集,剔除数据模式为“LBS”以及模式为“GPS”但精度大于50米的轨迹点。二、识别“链与非链”人眼在识别行为轨迹是链型还是簇型时,主要是通过分析轨迹点在时空间的演化情况来判定。如图2所示的行为轨迹空间形式,如果随着时间推移,轨迹点空间演化趋势不同,其判定结果可能存在巨大差异。若行为轨迹点在某区域范围内随时间推移呈现出链状形态,则人眼可以识别出该段轨迹为“链”,如图3所示;若行为轨迹点随时间推移在该区域范围内呈现出无规律的变化趋势,则人眼可以认定该段轨迹为“簇”,如图4所示。据此,本发明在步骤2中通过提出“角度偏移量”与“距离偏移量”两个指标来描述行为轨迹随时间推移的空间演化特征,具体定义如图5、6所示。通过步骤2的公式,可以具体得到试验样本中各个轨迹点的“角度偏移量”与“距离偏移量”,并求得样本“距离偏移量”85%分位数为4.4353(米)。根据步骤3中所述的遍历识别与汇总规则,首先完成对样本轨迹的片段分割,共得到44个片段,记为Vi(i∈1,2,3...,44);其次,量化各个轨迹片段的演化趋势,并判断各轨迹片段的角度偏移异常点的比例与距离偏移异常点比例是否均小于可接受异常比Racc,然后对样本片段进行“链”与“非链”的汇总,若前后两个轨迹片段Vi与Vi+1同为“链”片段,取轨迹片段Vi的最后一点与片段Vi+1的第一点进行判定,当时间差小于Tsmi且距离差小于ACthr,将这两个轨迹片段聚合为同一“链”片段,并放入“链”片段集合Vl中;同样地,若前后两个轨迹片段Vi与Vi+1同为“非链”片段,则取轨迹片段Vi的最后一点与片段Vi+1的第一点进行判定,当时间差小于Tsmi且距离差小于ACthr,将这两个轨迹片段聚合为同一“非链”片段,并放入“非链”片段集合Vnl中;如果前后两个轨迹片段不为同一类型,则不做轨迹片段的汇总;最终,可以得到行为轨迹“链与非链”的分类结果。具体步骤3的Matlab伪代码如下:图7为样本“角度偏移量”与“距离偏移量”对比图,通过Matlab算法分析可知,17:10:至17:22时段与18:50至19:04时段为行为轨迹的“链”片段,其余时段为行为轨迹的“簇”片段。三、识别“簇与非簇”在步骤4中,针对前序步骤得到的“非链”片段,以密度阈值MinPts=4和邻域半径Eps=14.2856(85%分位数)为条件建立常规DBSCAN算法,以此检验各个轨迹“非链”片段是否为点簇。具体实施过程包括:(1)计算“链”片段中两两轨迹点的直线距离,计算公式如下:式中,为轨迹点Pn+1在墨卡托坐标系X轴中的坐标,为轨迹点Pn+1在墨卡托坐标系Y轴中的坐标;(2)扫描整个“非链”片段,找到任意一个邻域半径内密度值大于4的轨迹点,记为轨迹核心点;(3)从该点出发遍历邻域半径Eps范围内所有核心点,寻找与该点密度相连的点,直到没有可以扩充的核心点为止,将这些点归为同一点簇;(4)重新扫描该“非链”片段(不包括之前寻找到的簇中的任何数据点),寻找没有被聚类的核心点,再重复以上(2)步骤直到样本中没有新的核心点为止。(5)在“非链“片段中,被归类的核心点在空间上形成点簇,若该片段中的点簇比例达到85%,则认为该“非链”片段为”簇”片段;最后,将步骤5所整合得到的“链”片段与“簇”片段展示在ArcGIS10.0中,其结果如图8所示。可以清晰地看出,蓝色轨迹点为该受访者行为轨迹“链”片段,而红色轨迹点为该受访者轨迹“簇”片段。这说明了本发明所提出的方法具有较好的可行性与准确性。本发明在基于智能手机的出行行为调查与分析等方面做了有益的探索,具有重要的理论价值和实践意义。尽管本发明的实施例已公开如上,但还应该解释的是,以上实施例仅用于说明并非局限于本发明所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明提及的相关规则或方法进行修改和填充;而一切不脱离本发明的精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1