一种手机轨迹数据聚类的群体行为特征提取方法及系统与流程

文档序号:15615771发布日期:2018-10-09 21:20阅读:226来源:国知局

本发明涉及轨迹数据分析处理技术领域,尤其涉及的是一种手机轨迹数据聚类的群体行为特征提取方法及系统。



背景技术:

手机轨迹数据记录了个体的时间及位置,蕴含了大体量的个体活动及其出行信息,在网约车调度、智能交通、城市规划、移动位置服务等领域中显示了相当的潜力。挖掘大规模手机轨迹数据中的模式可以发现个体活动的规律,刻画居民与建筑物、poi等的精细化交互过程,为数据驱动的城市规划和城市智能运行提供基础性的人类活动数据支撑。

然而,现有技术的手机轨迹数据受限于gps、wifi等空间定位方法,其空间定位精度一般从几十米到几公里不等,时间采样间隔从几秒钟到几个小时不等,缺乏诸如活动类型、活动时间等重要语义信息,难以进行高效率的轨迹聚类,发现群体行为模式非常困难。

因此,现有技术有待于进一步的改进。



技术实现要素:

鉴于上述现有技术中的不足之处,本发明的目的在于提供一种手机轨迹数据聚类的群体行为特征提取方法及系统,克服现有技术中难以从大数据中分析出群体行为特征的缺陷。

本发明提供的第一实施例为一种手机轨迹数据聚类的群体行为特征提取方法,其中,包括:

步骤a、获取手机轨迹数据,对所述手机轨迹数据进行预处理,得到个体时序轨迹,并统计各个个体时序轨迹的空间重复性与时间周期性,生成待处理轨迹数据;

步骤b、根据预先设定时间和空间的规则,从待处理轨迹数据中提取出个体活动点,得到与各个个体相对应的候选活动点轨迹数据,并对所述候选活动点轨迹数据进行简化和补齐处理后,得到各个个体的活动点轨迹数据;

步骤c、对所述活动点轨迹数据进行中心化处理后,计算各个个体的活动点轨迹数据之间的相似度;

步骤d、根据计算出的相似度,将各个个体的活动点轨迹数据进行层次聚类,得到多个属于不同轨迹类别的活动点轨迹类;

步骤e、根据所述活动点轨迹类进行群体行为特征识别,提取出群体行为特征,并输出提取的特征数据。

可选的,所述步骤a中对所述手机轨迹数据进行预处理的步骤包括:

步骤a1、对手机轨迹数据进行质量清洗,去除重复数据、去除属性缺失的数据、去除时空和空间不处于预设范围内的数据,以及去除用户点数量小于或大于一定阈值的用户数据,得到预处理轨迹数据;

步骤a2、将预处理轨迹数据先后按照个体序号和时间排序,得到个体时序轨迹;

步骤a3、统计预处理轨迹数据的空间位置,将第一预设个数频繁出现的空间位置作为重要地点集合;

步骤a4、通过预处理轨迹数据的时间标记,将第二预设个数频繁出现的时间标记作为重要时刻集合。

可选的,所述步骤b中根据预先设定时间和空间的规则,从待处理轨迹数据中提取出个体活动点,得到与各个个体相对应的候选活动点轨迹数据的步骤还包括:

步骤b11、根据个体时序轨迹,计算进入和离开各个格网的时间,并将个体进入的第一个位置点设置为活动点轨迹中的第一个活动点;

步骤b12、计算个体时序轨迹中每一个位置点与已有的活动点的空间距离与时间差值,若空间距离小于设定阈值,且时间差值小于第一阈值,则将所述位置点加入活动点,否则,将所述点设为新的活动点,直到时序轨迹中所有点全部计算完毕,得到候选活动点轨迹。

可选的,所述步骤b中对所述候选活动点轨迹数据进行简化和补齐处理的步骤包括:

步骤b21、根据候选活动点轨迹数据所对应的不同手机轨迹时间段,按照预设时间周期率,确定高度时间周期性手机轨迹;

步骤b22、判断高度时间周期性手机轨迹在其所对应的时段内是否存在轨迹活动点缺失,若存在,则根据时间周期性进行补齐。

可选的,所述步骤c中对所述活动点轨迹数据进行中心化处理后,计算各个个体的活动点轨迹数据之间的相似度的步骤包括:

步骤c1、提取高度时间周期性手机轨迹中最高频位置坐标,将个体时空轨迹减去最高频位置坐标,对高度时间周期性手机轨迹进行中心化处理;

步骤c2、以两个个体的活动点轨迹数据中任一个作为基准,进行两个个体之间活动点轨迹的匹配;

步骤c3、依次计算任意一个活动点轨迹数据对之间的相似度,并进行归一化处理。

可选的,步骤d中所述根据计算出的相似度,将各个个体的活动点轨迹数据进行层次聚类的步骤包括:

步骤d1、将计算得到的活动点轨迹数据对的相似度按照从小到大排序,将每条轨迹划分为一个轨迹种类;

步骤d2、按照相似度从小到大合并不同轨迹种类的活动点轨迹数据,直到轨迹种类的数量低于预设种类数值。

可选的,所述步骤e中根据所述活动点轨迹类进行群体行为特征识别,提取出群体行为特征的步骤包括:

步骤e1、对个体轨迹数据按照预设时间间隔进行位置插值,得到等时间间隔的个体轨迹序列;

步骤e2、计算预设时间间隔内各个轨迹种类的轨迹点重心,按照时间顺序连接重心,得到代表性轨迹,根据所述代表性轨迹中的轨迹连接线,分析个体行为特征;

步骤e3、根据分析出的个体行为特征得到群体行为特征。

本发明提供的第二实施例为一种手机轨迹数据聚类的群体行为特征提取系统,其中,包括:

轨迹数据预处理模块,用于获取手机轨迹数据,对所述手机轨迹数据进行预处理,得到个体时序轨迹,并统计各个个体时序轨迹的空间重复性与时间周期性,生成待处理轨迹数据;

个体活动点获取模块,用于根据预先设定时间和空间的规则,从待处理轨迹数据中提取出个体活动点,得到与各个个体相对应的候选活动点轨迹数据,并对所述候选活动点轨迹数据进行简化和补齐处理后,得到各个个体的活动点轨迹数据;

相似度计算模块,用于对所述活动点轨迹数据进行中心化处理后,计算各个个体的活动点轨迹数据之间的相似度;

轨迹聚类模块,用于根据计算出的相似度,将各个个体的活动点轨迹数据进行层次聚类,得到多个属于不同轨迹类别的活动点轨迹类;

行为特征提取模块,用于根据所述活动点轨迹类进行群体行为特征识别,提取出群体行为特征,并输出提取的特征数据。

可选的,所述个体活动点获取模块包括:

第一活动点设置单元,用于根据个体时序轨迹,计算进入和离开各个格网的时间,并将个体进入的第一个位置点设置为活动点轨迹中的第一个活动点;

候选活动点轨迹获取单元,用于计算个体时序轨迹中每一个位置点与已有的活动点的空间距离与时间差值,若空间距离小于设定阈值,且时间差值小于第一阈值,则将所述位置点加入活动点,否则,将所述点设为新的活动点,直到时序轨迹中所有点全部计算完毕,得到候选活动点轨迹;

周期性手机轨迹获取单元,用于根据候选活动点轨迹数据所对应的不同手机轨迹时间段,按照预设时间周期率,确定高度时间周期性手机轨迹;

轨迹点补齐单元,用于判断高度时间周期性手机轨迹在其所对应的时段内是否存在轨迹活动点缺失,若存在,则根据时间周期性进行补齐。

可选的,所述相似度计算模块包括:

轨迹中心化处理单元,用于提取高度时间周期性手机轨迹中最高频位置坐标,将个体时空轨迹减去最高频位置坐标,对高度时间周期性手机轨迹进行中心化处理;

活动点轨迹匹配单元,用于以两个个体的活动点轨迹数据中任一个作为基准,进行两个个体之间活动点轨迹的匹配;依次计算任意一个活动点轨迹数据对之间的相似度,并进行归一化处理。

有益效果,本发明设计了面向人类行为的稀疏数据轨迹数据高效时空聚类方法,构建空间重复性和时间周期性指标提取重要活动地点,发明了一种新的轨迹相似性度量方法,实现手机轨迹数据的高效处理与时空多分辨率行为模式的智能提取,支撑大规模人类活动分析。

附图说明

图1是本发明所提供的手机轨迹数据聚类的群体行为特征提取方法的步骤流程图;

图2是本发明所提供的一种基于时空轨迹数据的待改善交通设施识别系统的原理结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。

本发明所提供的方法中根据手机轨迹的时间周期性和位置周期性,设定手机轨迹数据模型为:(id,xi,yi,ti)、(id,xi+1,yi+1,ti+1)、(id,xi+2,yi+2,ti+2)、…、(id,xj,yj,tj);手机轨迹活动数据模型为:(id,a,xi,yi,ti,tj)。

本发明提供的第一实施例为一种手机轨迹数据聚类的群体行为特征提取方法,其中,包括:

步骤s1、获取手机轨迹数据,对所述手机轨迹数据进行预处理,得到个体时序轨迹,并统计各个个体时序轨迹的空间重复性与时间周期性,生成待处理轨迹数据。

后台需要对其获取到的大量原始手机轨迹数据进行分析处理,首先需要对原始手机轨迹数据进行预处理,初步删除其中非有效的轨迹数据,并对预处理后得到的手机轨迹数据进行预统计。

具体的,所述步骤s1中对所述手机轨迹数据进行预处理及预统计的步骤包括:

步骤s101、对手机轨迹数据进行质量清洗,去除重复数据、去除属性缺失的数据、去除时空和空间不处于预设范围内的数据,以及去除用户点数量小于或大于一定阈值的用户数据,得到预处理轨迹数据;

步骤s102、将预处理轨迹数据先后按照个体序号和时间排序,得到个体时序轨迹;

步骤s103、统计预处理轨迹数据的空间位置,将第一预设个数频繁出现的空间位置作为重要地点集合;

步骤s104、通过预处理轨迹数据的时间标记,将第二预设个数频繁出现的时间标记作为重要时刻集合。

具体实施时,根据上述步骤对手机数据进行预处理和根据统计各个个体时序轨迹的空间重复性与时间周期性,生成待处理轨迹数据的步骤,具体内容包括:

对手机数据进行质量清洗,包括去除重复数据,去除属性缺失的数据,去除时间和空间不在研究范围内的数据,去除用户点数量小于或大于一定阈值的用户数据;

对于清洗后的手机轨迹数据,首先按照个体序号排序,然后按照时间进行排序,得到个体时序轨迹;

统计清洗后的手机数据的空间位置,将前k个频繁出现的空间位置视作空间上的重要地点集合s。根据大量手机轨迹数据的统计经验,k取值为6。根据s中元素出现的次数和时间顺序,计算手机轨迹数据的多重空间重复性。

统计清洗后的手机数据的时间标记,将前k个频繁出现的时间标记视作时间维上的重要时刻集合t。根据大量手机轨迹数据的统计经验,k取值为6。根据t中元素出现的时间顺序,计算手机轨迹数据的多重时间周期性。

步骤s2、根据预先设定时间和空间的规则,从待处理轨迹数据中提取出个体活动点,得到与各个个体相对应的候选活动点轨迹数据,并对所述候选活动点轨迹数据进行简化和补齐处理后,得到各个个体的活动点轨迹数据。

本步骤中从上述步骤s1中获取到的预处理手机轨迹数据根据时间和空间的规则,提取出各个个体的活动点,得到与各个个体相对应的活动点轨迹数据,

具体的,所述步骤s2中根据预先设定时间和空间的规则,从待处理轨迹数据中提取出个体活动点,得到与各个个体相对应的候选活动点轨迹数据的步骤还包括:

步骤s211、根据个体时序轨迹,计算进入和离开各个格网的时间,并将个体进入的第一个位置点设置为活动点轨迹中的第一个活动点;

步骤s212、计算个体时序轨迹中每一个位置点与已有的活动点的空间距离与时间差值,若空间距离小于设定阈值,且时间差值小于第一阈值,则将所述位置点加入活动点,否则,将所述点设为新的活动点,直到个体时序轨迹中所有点全部计算完毕,得到候选活动点轨迹。

可选的,所述步骤s2中对所述候选活动点轨迹数据进行简化和补齐处理的步骤包括:

步骤s221、根据候选活动点轨迹数据所对应的不同手机轨迹时间段,按照预设时间周期率,确定高度时间周期性手机轨迹;

步骤s222、判断高度时间周期性手机轨迹在其所对应的时段内是否存在轨迹活动点缺失,若存在,则根据时间周期性进行补齐。

具体实施例时本步骤提取个体活动点击对缺失的活动点进行补齐方法包括:

2.1利用个体时序轨迹,计算其进入和离开每个位置(格网)的时间,第一个位置设为手机轨迹中的第一个活动点。

2.2随着时间沿着个体时序轨迹移动,计算时序轨迹中每一点与已有的活动点轨迹中的活动点的空间距离与时间差值;若空间距离小于设定阈值,并且时间差值小于设定阈值,则将该点加入到该活动点;否则,该点设为新的活动点;直到时序轨迹中所有位置点全部计算完毕,得到候选活动点轨迹。

2.3对于候选活动点轨迹,针对工作日的手机轨迹段,将工作日手机轨迹段的时间周期性率(=重复的工作日数量/手机轨迹数据覆盖的工作日数量)>a的确定为高度时间周期性手机轨迹。不失一般性,根据经验将a值设置为0.6。

2.4针对高度时间周期性的手机轨迹段,如果对应工作时段(9:00-17:00)存在轨迹活动点缺失情况,根据时间周期性补齐。

步骤s3、对所述活动点轨迹数据进行中心化处理后,计算各个个体的活动点轨迹数据之间的相似度。

对上述步骤s2中得到的活动点轨迹数据进行中心化处理,得到高频率出现的轨迹数据,并根据提取得到的高频率出现的轨迹数据计算各个个体时序轨迹所对应活动点轨迹数据之间的相似度。

具体的,所述步骤s3中对所述活动点轨迹数据进行中心化处理后,计算各个个体的活动点轨迹数据之间的相似度的步骤包括:

步骤s301、提取高度时间周期性手机轨迹中最高频位置坐标,将个体时空轨迹减去最高频位置坐标,对高度时间周期性手机轨迹进行中心化处理;

步骤s302、以两个个体的活动点轨迹数据中任一个作为基准,进行两个个体之间活动点轨迹的匹配;

步骤s303、依次计算任意一个活动点轨迹数据对之间的相似度,并进行归一化处理。

具体实施例时,根据得到的多个个体活动点轨迹数据,计算相互之间的相似度

3.1提取手机轨迹数据中最高频地点(xo,yo),将个体时空轨迹减去最高频地点的坐标,进行手机轨迹数据的中心化,去掉绝对坐标值的影响。

3.2定义时空轨迹点p,q之间的距离如下,其中x,y为位置,t为时间,v为城市中平均运动速度。

dpq=sqrt((xp-xq)(xp-xq)+(yp-yq)(yp-yq)+v(tp-tq)(tp-tq))

3.3对于两条手机轨迹活动数据a和b,以a上的时序活动轨迹为基础,进行轨迹活动点匹配。即针对活动轨迹a上的形状点,寻找b上离其最近的轨迹活动点,进行二者之间的匹配。根据匹配结果形成若干个共享边界的三角形和梯形。将所有三角形面积之和与梯形的面积之和的相加值定义为两条轨迹相似度spq:

spq=

本步骤中利用轨迹之间所构成的三角形和梯形面积和度量轨迹之间的相似性,简化计算。

3.4计算所有轨迹对之间相似度,并进行归一化:

=

得到归一化后的轨迹对相似度。

步骤s4、根据计算出的相似度,将各个个体的活动点轨迹数据进行层次聚类,得到多个属于不同轨迹类别的活动点轨迹类。

根据计算出的相似度进行数据层次聚类,得到预设个数以内的活动点轨迹类。

可选的,步骤s4中所述根据计算出的相似度,将各个个体的活动点轨迹数据进行层次聚类的步骤包括:

步骤s401、将计算得到的活动点轨迹数据对的相似度按照从小到大排序,将每条轨迹划分为一个轨迹种类;

步骤s402、按照相似度从小到大合并不同轨迹种类的活动点轨迹数据,直到轨迹种类的数量低于预设种类数值。

具体实施例中,将各个个体的活动点轨迹数据进行层次聚类,得到多个属于不同轨迹类别的活动点轨迹类包括:

4.1将前述步骤中的轨迹对按照相似度从小到大排序,将每条轨迹视作一类。

4.2按照相似度自小到大合并不同类别的轨迹,直至轨迹类别数量不高于预先指定的值n

步骤s5、根据所述活动点轨迹类进行群体行为特征识别,提取出群体行为特征,并输出提取的特征数据。

当上述步骤中获取到活动点轨迹类后,基于所述活动点轨迹类进行群体行为特征识别,得到群体行为特征。

具体的,所述步骤s5中根据所述活动点轨迹类进行群体行为特征识别,提取出群体行为特征的步骤包括:

步骤s501、对个体轨迹数据按照预设时间间隔进行位置插值,得到等时间间隔的个体轨迹序列;

步骤s502、计算预设时间间隔内各个轨迹种类的轨迹点重心,按照时间顺序连接重心,得到代表性轨迹,根据所述代表性轨迹中的轨迹连接线,分析个体行为特征;

步骤s503、根据分析出的个体行为特征得到群体行为特征。

本发明所提供的方法面向人类行为的稀疏数据轨迹数据高效时空聚类方法,构建空间重复性和时间周期性指标提取重要活动地点,发明了一种新的轨迹相似性度量方法,实现手机轨迹数据的高效处理与时空多分辨率行为模式的智能提取,支撑大规模人类活动分析。

本发明提供的第二实施例为一种手机轨迹数据聚类的群体行为特征提取系统,如图2所示,包括:

轨迹数据预处理模块210,用于获取手机轨迹数据,对所述手机轨迹数据进行预处理,得到个体时序轨迹,并统计各个个体时序轨迹的空间重复性与时间周期性,生成待处理轨迹数据;其功能如步骤s1所述。

个体活动点获取模块220,用于根据预先设定时间和空间的规则,从待处理轨迹数据中提取出个体活动点,得到与各个个体相对应的候选活动点轨迹数据,并对所述候选活动点轨迹数据进行简化和补齐处理后,得到各个个体的活动点轨迹数据;其功能如步骤s2所述。

相似度计算模块230,用于对所述活动点轨迹数据进行中心化处理后,计算各个个体的活动点轨迹数据之间的相似度;其功能如步骤s3所述。

轨迹聚类模块240,用于根据计算出的相似度,将各个个体的活动点轨迹数据进行层次聚类,得到多个属于不同轨迹类别的活动点轨迹类;其功能如步骤s4所述。

行为特征提取模块250,用于根据所述活动点轨迹类进行群体行为特征识别,提取出群体行为特征,其功能如步骤s5所述。

可选的,所述个体活动点获取模块220包括:

第一活动点设置单元,用于根据个体时序轨迹,计算进入和离开各个格网的时间,并将个体进入的第一个位置点设置为活动点轨迹中的第一个活动点;

候选活动点轨迹获取单元,用于计算个体时序轨迹中每一个位置点与已有的活动点的空间距离与时间差值,若空间距离小于设定阈值,且时间差值小于第一阈值,则将所述位置点加入活动点,否则,将所述点设为新的活动点,直到时序轨迹中所有点全部计算完毕,得到候选活动点轨迹;

周期性手机轨迹获取单元,用于根据候选活动点轨迹数据所对应的不同手机轨迹时间段,按照预设时间周期率,确定高度时间周期性手机轨迹;

轨迹点补齐单元,用于判断高度时间周期性手机轨迹在其所对应的时段内是否存在轨迹活动点缺失,若存在,则根据时间周期性进行补齐。

可选的,所述相似度计算模块230包括:

轨迹中心化处理单元,用于提取高度时间周期性手机轨迹中最高频位置坐标,将个体时空轨迹减去最高频位置坐标,对高度时间周期性手机轨迹进行中心化处理;

活动点轨迹匹配单元,用于以两个个体的活动点轨迹数据中任一个作为基准,进行两个个体之间活动点轨迹的匹配;依次计算任意一个活动点轨迹数据对之间的相似度,并进行归一化处理。

本发明提供了一种手机轨迹数据聚类的群体行为特征提取方法及系统,通过获取手机轨迹数据,得到个体时序轨迹,并统计各个个体时序轨迹的空间重复性与时间周期性,生成待处理轨迹数据;从待处理轨迹数据中提取出个体活动点,得到与各个个体相对应的候选活动点轨迹数据,并对所述候选活动点轨迹数据进行简化和补齐处理后,得到各个个体的活动点轨迹数据;计算各个个体的活动点轨迹数据之间的相似度;根据计算出的相似度,将各个个体的活动点轨迹数据进行层次聚类,得到多个属于不同轨迹类别的活动点轨迹类;根据所述活动点轨迹类进行群体行为特征识别,提取出群体行为特征。本发明所公开的方法及系统基于手机轨迹数据的高效处理与时空多分辨率行为模式的智能提取,实现大规模人类活动的分析,本发明通过高效率的轨迹聚类,发现群体行为模式,为数据驱动的城市规划和城市智能运行提供基础性的人类活动数据支撑。

可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1