一种基于职住对应关系和时空间核聚类的驻点判断方法与流程

文档序号:15650386发布日期:2018-10-12 23:05阅读:192来源:国知局

本发明涉及交通规划和交通需求管理的技术领域,具体是一种基于职住对应关系和时空间核聚类的驻点判断方法,可为交通规划和交通需求管理提供满足时空出行活动链特征的大数据支撑。



背景技术:

交通od出行矩阵是在交通网络中基于交通小区的起点——讫点出行的特征矩阵(origin—destinationmatrix),用于描述城市交通区域间的交通出行量分布情况,是构建交通规划模型的重要组成部分。传统的交通od矩阵是基于个体交通出行调查数据进行统计分析的处理过程,需要经过起讫点抽样调查、数据扩样和od矩阵整理三个步骤,分析处理结果可反映城市交通需求分布特征。

基于传统交通调查的od出行矩阵分析处理过程,需要耗费大量人力、物力、资金和时间,并且不可频繁进行。随着手机终端普及,通过手机定位技术获取用户交通出行信息具有成本低、覆盖范围广等优点,使得手机数据作为现有交通数据采集技术的重要补充,并为居民时空出行的od特征提取提供了很好的技术支持。由于手机定位数据是基于用户使用行为的高频率触发数据,而对于满足交通规划需求的od矩阵更关注交通出行的起讫点(od)活动,手机定位数据包含大量交通出行活动过程中的冗余数据,因此,基于手机定位技术的od出行矩阵,其关键技术在于对手机定位数据的驻点判断。

目前针对手机定位技术的驻点判断,主要是对手机用户出行时间序列的位移状态判断,通过对每一个位移点的出行时间、矩离、速度等要素分析,实现对位移点出行驻留状态的判断。该驻点判断技术缺点在于忽略了用户出行活动和出行目的特征,比如一般用户出行活动:通勤、生活、娱乐、出游等活动,通勤出行的链式出行活动可由交通三要素的时间序列判断,而对于生活、娱乐出行,如商场、公园、大型娱乐区等,有多个基站覆盖,并同时在多个基站有长时间驻留,则有可能被判定为多次驻留点,而对于交通出行od矩阵来说,一次出行目的活动的出行应该被判定为一次出行,因此,基于时间序列的位移状态判定,会忽略出行目的活动特征,造成不满足交通出行od活动特征的驻点误判。



技术实现要素:

针对现有od驻点判断方法中存在的缺陷,本发明提供了一种低成本、高准确度的基于职住对应关系和时空间核聚类的驻点判断方法,其具体步骤如下:

步骤1:采集手机信令数据、上网数据,所述手机信令数据包括用户画像标签属性数据;

步骤2:利用步骤1采集到的手机信令数据和上网数据,提取半年内手机触发数据进行职住判断:首先,对半年内常发性的地点进行空间聚类,再根据停留时间间隔在空间聚类点发生的频次进行高频分析,对满足时空间要求的高频点进行职住判断,其中,居住地判断要结合夜晚常发性开关机频次进行频度权重分析判断,就业地判断要结合用户年龄标签进行基于时长的频繁项集居民就业特征判断,获得用户的居住地以及就业地,即得到职住分布特征;

步骤3:基于步骤2得到的职住分布特征,进行时空间核聚类分析:首先,将获取到的手机信令数据按时间顺序进行排列,并将具有中心聚类特征和时空出行特征的点集,进行基于时空间关联的时空间核聚类分析,从而去除信号漂移点和连续短距离具有中心聚类特征的逗留点,并结合职住分布特征,对于满足职住分布特征的驻点进行标记,而对于不满足职住分布特征的驻点进一步进行时空间聚类分析,进一步判断是否属于驻点,形成具有时空间关联特征的时空间驻点集合序列;

步骤4:基于步骤3的时空间驻点集合序列,进行时空间序列的交通三要素判断,进一步判断时空间序列是否属于交通意义上的驻留点,形成交通意义上的时空间驻点集合序列,并通过时空间出行特征,完成对长距离出行短时停留的拐点判定;

步骤5:将步骤4得到的交通意义上的时空间驻点集合序列进一步进行步骤3的时空间核聚类分析,并结合土地利用的功能区识别,进一步判断满足时空间出行特征的交通意义上的时空间驻点集合序列是否在时空间具有关联特征,进一步进行时空间核聚类,形成具有时空间出行特征的时空间驻点集合;

步骤6:将不同出行特征人群的手机信令数据在地图上打点进行出行特征分类,完成对特征人群出行特征的校验,对步骤5获得的时空间驻点集合进行校验,判断算法是否满足不同出行特征人群数据,如果满足出行特征,则校验合格,否则,进一步优化步骤3和步骤4的时空间出行特征分析算法,并进行特殊人群出行特征分析;

步骤7:根据交通小区划分方案,将运营商基站与交通小区进行匹配,将每个出行者的起讫点映射到相应的交通小区上,最终形成基于交通小区的od矩阵出行表。

优选地,所述手机触发数据包括用户编号、基站编号、时间戳、事件类型、经度、纬度、号码区段、个体年龄、性别、是否学生、是否退休人员。

优选地,所述步骤2中,居住地判断具体为:首先,对提取的半年内手机触发数据进行同一手机号时间序列排序,居住地判断的时间范围界定为晚上21:00至凌晨07:00之间;再对同一用户编号的手机数据进行空间聚类,形成空间聚类点簇;基于空间聚类点簇,对不同停留时长的频繁项集进行分析,并结合夜晚用户开关机事件发生地进行权重分析,并根据停留时间越长、出现次数越多、开关机事件发生地越多权重越大的原则,进行权重设计;再根据频繁项集的权重值,统计空间聚类点簇的权重居住地概率,计算该空间聚类点簇中权重居住地概率最大值,该空间聚类点簇中权重概率最大值即为居住地。

优选地,所述步骤2中,就业地判断具体为:首先,对提取的半年内手机触发数据进行同一手机号时间序列排序,就业地判断的时间范围界定为白天9:00至下午16:00之间,并且,根据运营商用户画像标签属性数据,排除退休老人和未成年人,然后对剩余人群进行就业地判断;对同一用户编号的手机数据进行空间聚类,形成空间聚类点簇;基于空间聚类点簇,对不同停留时长的频繁项集进行分析,并根据停留时间越长、出现次数越多权重越大的原则,进行权重设计;再根据频繁项集的权重值,统计空间聚类点簇的权重就业地概率,计算该空间聚类点簇中权重就业地概率最大值,并且,判断:如果所述权重就业地概率最大值的空间聚类点簇与居住地不在同一聚类中,并且所述权重就业地概率最大值大于隶属度阈值,则判定为就业地;若所述权重就业地概率最大值小于隶属度阈值,再对较大的权重就业地概率值对应的空间聚类点簇的聚类中心点分析,若各个聚类中心点簇的中心点聚类小于聚类阈值,则将几个空间聚类点簇合成一个聚类,再根据频繁项集的权重值,统计合成的空间聚类点簇的权重就业地概率,若此时最大的权重就业地概率大于隶属度阈值,并且,其对应的空间聚类点簇与居住地不在同一聚类中,则判定为就业地;否则不判断为就业地位置。

优选地,所述去除信号漂移点具体为:对于某个用户按时间排序的轨迹点数据,如同时满足第i点与第i+1点的距离大于漂移距离阈值,漂移速度大于漂移速度阈值,且第i点与第i+1点的距离远大于第i点与第i+2点距离,则判断第i+1点为长距离漂移数据,予以剔除。

优选地,所述去除连续短距离具有中心聚类特征的逗留点具体为:将某个用户统计得到的所有驻点进行前后驻点间距离判断,对于聚类中心小于相邻聚类的距离阈值的停留点且时间间隔小于相邻聚类的时间阈值的停留点进行合并,重复这种合并,直到所有停留点前后之间距离大于相邻聚类的距离阈值。

优选地,所述长距离出行短时停留的拐点判定具体为:对于某个用户按时间排序的轨迹点数据,对于其中一个驻点s_i,计算其与第i+1点的距离d_i_i+1,如果第i+2点与驻点s_i的距离d_i_i+2>d_i_i+1,则最大距离maxdist=d_i_i+2,以此类推,计算最远距离点为d_i_i+n,若驻点s_i与第n+1点的距离大于驻点s_i与第n+2点的距离,并且,驻点s_i与第n+1点的距离大于距离阈值,驻点s_i与第n+2点的速度小于速度阈值,则说明长距离出行的出行距离和速度发生骤降现象,则判定为驻点状态。

本发明根据高频率信号触发、具有时空间关联特征的用户信令数据和用户上网数据,通过职住对应关系和时空间核聚类分析,提出了一种满足用户出行特征的驻点判断方法,并基于该驻点判断方法,最终生成用户出行od矩阵,为交通规划和交通需求管理提供了满足时空出行活动链特征的大数据支撑;本发明的驻点判断方法符合国家法律隐私规定,具备如下有益效果:

1)本发明能够满足用户职住对应关系和出行特征,相对传统交通调查,具有获取方式简单、成本较低,信息样本大、取样时间灵活、自动化获取等优点;

2)本发明基于手机信令数据和上网数据进行职住判断,其中居住地判断要结合夜晚常发性开关机频次进行频度权重分析判断,就业地判断需要结合用户年龄标签进行基于时长的频繁项集居民就业特征判断,上述判断提高了职住对应关系判断的精度,精确的职住对应关系判断有效地提高了通勤出行时间序列驻点判断的准确性;

3)本发明通过时空间核聚类分析消除了信号漂移点和连续短距离具有中心聚类特征的逗留点,有效地提高了手机用户出行活动驻点判断的准确性和合理性;

4)本发明对于长距离出行短时停留的拐点进行了有效地判定,长距离出行短时停留如接送行为、配送行为等均满足时间序列特征的位移状态判定,长距离出行的最远点可能为驻点,也可能不是,其进一步判定有效地保证了驻点判断的精度;

5)本发明结合职住对应关系和时空间核聚类分析各自的优势,最终形成具有时空活动特征的驻点序列,进一步提高了交通出行od矩阵的合理性和精确性,并有效地降低了成本。

附图说明

图1基于职住对应关系和时空间核聚类的驻点判断方法流程图;

图2出行规律通勤用户出行轨迹和驻点;

图3长距离出行轨迹和驻点;

图4短距离多次出行的用户轨迹和驻点;

图5具有长距离出行拐点的用户出行轨迹和驻点。

具体实施方式

下面结合附图对本发明的具体实施方式作详细说明,参见附图1,具体实施步骤如下:

步骤1:获取手机信令数据、上网数据。手机信令数据和上网数据样例如表1,所述手机信令数据包括用户画像标签属性数据,用户画像标签属性数据样例如表2;

表1手机信令数据和上网数据样例

表2用户画像标签属性数据样例

步骤2:利用步骤1采集到的手机信令数据和上网数据,提取半年内手机触发数据进行职住判断,确定职住地liveloc和就业地workloc,得到职住分布特征;该手机触发数据包含用户编号、基站编号、时间戳、事件类型、经度、纬度、号码区段、个体年龄、性别、是否学生、是否退休人员等标签属性信息。

步骤2.1:居住地判断:首先,先提取步骤1半年内手机触发数据,并进行同一手机号时间序列排序,居住地判断的时间范围界定为晚上21:00至凌晨07:00之间;再对同一用户编号的手机数据进行空间聚类,形成空间聚类点簇clus_n;基于空间聚类点簇clus_n,对不同停留时长tstay的频繁项集ptsay:进行分析,并结合夜晚用户开关机事件发生地进行权重分析,根据停留时间越长、出现次数越多、开关机事件发生地越多权重越大的原则,进行权重设计;再根据频繁项集的权重值wi,统计空间聚类点簇clus_n的权重居住地概率ptsay_i,再计算权重居住地概率最大值ptsay_i_max,该空间聚类点簇中权重概率最大值(ptsay_i_max)clus_n即为居住地。

步骤2.2:就业地判断:首先,基于步骤2.1排序的半年内手机触发数据,就业地判断的时间范围界定为白天9:00至16:00之间,并且,根据运营商用户画像标签属性数据,排除退休老人和未成年人,然后对剩余人群进行就业地判断;与居住地判断类似,对同一用户编号的手机数据进行空间聚类,形成空间聚类点簇clus_d;基于空间聚类点簇clus_d,对不同停留时长tstay的频繁项集ptsay:进行分析,并根据停留时间越长、出现次数越多权重越大的原则,进行权重设计;再根据频繁项集的权重值wi,统计空间聚类点簇clus_d的权重就业地概率ptsay_i,计算该空间聚类点簇中权重就业地概率最大值(ptsay_i_max)clus_d,并且,判断如果所述权重就业地概率最大值(ptsay_i_max)clus_d的空间聚类点簇与居住地不在同一聚类中,并且所述权重就业地概率最大值(ptsay_i_max)clus_d大于隶属度阈值,则判定为就业地;若小于隶属度阈值,再对较大的权重就业地概率值(ptsay_i)clus_d对应的空间聚类点簇的聚类中心点clus_d_center分析,若各个聚类中心点簇的中心点聚类dist_d_center小于聚类阈值,则将几个空间聚类点簇合成一个聚类,再根据频繁项集的权重值wi,统计合成的空间聚类点簇clus_d的权重就业地概率,若最大的权重就业地概率(ptsay_i_max)clus_d_center大于隶属度阈值,并且,最大的权重就业地概率(ptsay_i_max)clus_d_center的空间聚类点簇与居住地不在同一聚类中,则判定为就业地;否则不判断就业地位置。

步骤3:基于步骤2得到的职住分布特征,进行时空间核聚类分析,剔除信号漂移点和连续短距离具有中心聚类特征的逗留点。

步骤3.1:时空间核聚类分析,获取时空间关联的核聚类集。基于职住分布特征,按时间顺序排列手机信令数据d,首先,对于每个用户第一个点选取第1个点m1和第2个点m2,计算两个点的聚类中心,如果m1、m2到聚类中心的距离均小于距离阈值d1,则认为m1、m2有可能构成一次停留。递归至第3个点m3,计算m1、m2、m3的聚类中心,如果聚类中心与m1、m2、m3的距离小于距离阈值d1,则认为m1、m2、m3有可能处于同一停留区域,以此类推,当第n个点mn到前n个点的聚类中心的距离大于距离阈值d1,则停止循环。并计算m1与mn-1之间的时间差△t,如果△t大于停留时间阈值t,则认为构成一次停留,m1、m2、m3…mn-1处于同一核聚类停留区域,m1发生的时刻即为此次停留的开始时刻,mn-1发生的时刻即为此次停留的结束时间,将满足时空间阈值的聚类点生成核聚类集,而对于不满足核聚类的点生成点集{n1,n2,…nn},再进行基于时间序列特征分析。

步骤3.1.1:时间阈值判定,剔除无效的空间聚类点:如果△t小于停留时间阈值t,则认为m1、m2、m3…mn-1不能构成一次出行,仅为出行过程的轨迹点,则剔除掉m1点,按照步骤3.1的方法判断mn与m1、m2、m3…mn的聚类中心是否小于距离阈值d1以及时间差△t是否大于停留时间阈值t,循环进行,直到剔除掉mn-1点,此时认为mn与之前时刻的轨迹点无法形成有效聚类,即mn为出行过程后的轨迹点,则按照步骤3.1的方法继续判断mn及其之后的轨迹点,直至将该用户的定位数据遍历完毕,对于不满足核聚类的点生成点集{n1,n2,…nn}。

步骤3.1.2:对于长距离信号漂移点的判定:对于某个用户按时间排序的轨迹点数据,如同时满足第i点与第i+1点距离大于漂移距离阈值td_wave,漂移速度大于漂移速度阈值tv_wave,且第i点与第i+1点的距离远大于第i点与第i+2点距离,则判断i+1点为长距离漂移数据,予以剔除。

步骤3.1.3:空间阈值判定,空间距离较近的聚类进行合并,剔除连续短距离具有中心聚类特征的逗留点:将该用户统计得到的所有驻点进行前后驻点间距离判断,对于聚类中心小于d2(相邻聚类的距离阈值)的停留点且时间间隔小于t2(相邻聚类的时间阈值)进行合并。重复这种合并,直到所有停留点前后之间距离大于d2,算法结束。

步骤3.2:基于职住的驻点判定:对于用户的核聚类点集m2、m3…mn,若步骤2.1和2.2生成的职住点在核聚类点集内,则将职住地点定义为驻点,若职住地不在核聚类点集内,则核聚类点集m2、m3…mn的聚类中心则为驻点。

步骤4:由基于步骤3的不满足时空间核聚类的时间序列点集n和时空间核聚类点集m的聚类中心点集mc构成时空间驻点集合序列,生成排序的时间序列,再进行时空出行特征的驻留判断,计算每一个位置点与后一个位置点的时间差t、距离d和出行速度v,如果时间、距离和速度满足驻留点的阈值判断,则适用于交通意义上的驻留点,则判定为驻留点。

步骤4.1:对于长距离出行短时停留的拐点判定:但对于长距离出行短时停留如接送行为、配送行为等均满足时间序列特征的位移状态判定,长距离出行的最远点可能为驻点,需进一步进行判定,本次提出距离和速度的骤减原则进行判定。对于某个用户按时间排序的轨迹点数据,如一个驻点s_i,计算下一个点i+1的距离d_i_i+1如果i+2与s_i距离d_i_i+2>d_i_i+1,则最大距离为maxdist=d_i_i+2,以此类推,计算最远距离点为d_i_i+n,若驻点s_i与第n+1点距离大于s_i与第n+2点距离,并且,s_i与第n+1点距离大于距离阈值,s_i与第n+2点速度小于速度阈值,则说明长距离出行的出行距离和速度发生骤降现象,则判定为驻点状态。

步骤5:将步骤4形成的交通意义上的时空间驻点集合序列进一步进行步骤3的时空间聚类分析,并结合现状土地利用特征进行功能区识别,进一步判断满足时空间出行特征的驻点集合序列是否在时空间具有关联特征,进一步进行时空间聚类,形成具有时空间活动特征的时空间驻点集合。

步骤6:进行不同活动特征驻点校验:对步骤5获得的时空间驻点集合进行校验,判断算法是否满足不同活动特征人群数据,满足特征,则校验合格,否则,进一步优化步骤3和步骤4的时空出行特征分析算法。并进行特殊人群活动特征分析,例如,出行规律通勤用户出行轨迹和驻点,如图2所示;长距离出行轨迹和驻点,如图3所示;短距离多次出行的用户轨迹和驻点,如图4所示;具有长距离出行拐点的用户出行轨迹和驻点,如图5所示。

步骤7:根据交通小区划分方案,将运营商基站与交通小区进行匹配,将每个出行者的起讫点映射到相应的交通小区上,基于驻点生成od出行表。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1