一种轨迹数据停留识别方法及系统与流程

文档序号:11831015阅读:717来源:国知局
一种轨迹数据停留识别方法及系统与流程

本发明涉及轨迹数据处理技术领域,特别涉及一种轨迹数据停留识别方法及系统。



背景技术:

随着科学技术的进步,移动手机已经高度融合到人们的日常生活中。而手机的使用总是在和附近的信号基站进行通讯,使得在大规模人群级别中对每个个体的位置进行连续追踪成为了可能。近年来,大规模手机轨迹数据广泛应用于人口动态分布[1]、城市区域功能检测[2]、交通需求评估[3]、区域流行病传播[4]与控制以及城市人群活动模式[5,6]等领域的研究,以空前样本量为诸多社会经济现象提供了新的观察视角,也为感知空间位置的功能现状以及理解居民的生活诉求提供了一条全新的途径[7]。

从手机轨迹数据中提取停留是上述诸多应用的基础。人们的日常活动,尤其是在静止的局部空间开展的活动(也有在移动环境下进行的,例如地铁上读书)是人们日常生活的基本要素,这些活动在个体的时空轨迹上表现为停留的特征。理解人们活动情况是许多应用和研究的基础,因此从手机轨迹数据中提取停留成为这一过程的必要步骤。

停留-非停留轨迹模型(Stop and Not Stop of Trajectory,SNSoT)是现有的轨迹数据提取的主流方法。该方法是从基于传统的GPS(Global Position System,全球定位系统)轨迹数据的停留与移动模型(Stop and Move of Trajectory,SMoT)发展而来[8–10]。学者从人的日常生活出发,根据人们的空间行为特征将其分为两个大的类别:停留和移动,对应的概念模型称之为SMoT。表现在轨迹数据上,停留表现为持续的一段时间内,个体的位置没有发生移动,或者是在局部范围内进行移动;而移动表现为持续的一段时间中,个体的位置不断的发生变化。在具体操作上,学者用两个参数来识别停留分段:时间阈值T0和空间阈值D0[6,11]。即,根据轨迹数据中停留的特点,当个体在局部的空间范围D0内,活动时间超过了T0,可以将轨迹数据中的这部分判定为停留分段。而识别了停留之后,剩余的部分全部归结为移动的部分。这种方法的实现思路的本质是SNSoT,也就是识别了停留,然后剩下的部分都是“非停留”部分。手机轨迹数据出现之后,学者直接将在GPS轨迹数据中广泛使用的SNSoT直接用于手机轨迹数据中的停留识别,而现在已成为手机轨迹数据中停留识别的主要方法。

而与传统的GPS定位方式不同,手机定位信息一般是利用为其提供服务信号基站的位置来表示。实际上,为了实现用户手机信号的全覆盖,附近基站的覆盖范围是有重叠的,手机可以接收到多个基站的信号;同时,通信系统为了使得每个信号基站服务的手机数量均衡,对各个基站的功率会进行调整。在这种情况下,即使用户没有移动,手机接收的信号基站也可能会发生变化,在数据上表现为一种移动。我们称这种现象为一种“假移动”,典型的是一种“乒乓现象”[12,13],实际上应当归属为停留的类别。手机轨迹数据的“假移动”现象在利用SNSoT方法识别停留时会带来误判。

在现有的SNSoT方法中,“假移动”带来两个负面影响。首先,当“假移动”发生在一个停留中间时,一个停留活动就被分割成了多个,停留的次数变多。其次,“假移动”的存在会使得数据反映出用户处于停留状态的时间减少,因为“假移动”的本质是停留,但是在SNSoT中无法识别为停留。在SNSoT方法中,只识别符合停留条件的部分,剩下的“非停留”部分就不再考虑其中是否有漏识别的情况。

手机轨迹数据的稀疏时间采样特征为“假移动”的检测和去除带来了困难。当前用于研究的手机定位数据平均时间采样间隔最详细的是30分钟[14],而GPS轨迹数据的时间采样间隔一般在30-90秒。当时间采样间隔较小时,可以根据手机位置在邻近基站跳转的特点,通过异常速度值等识别并过滤“假移动”现象。而在稀疏时间采样的情况下,时间采样间隔较大,由于跳转往往在附近的基站进行,速度指标在正常范围之内,难以实现“假移动”的识别,导致基于手机轨迹数据的停留识别方法的准确率和召回率较低。而随着研究的深入,应用越来越朝着精细的定量化分析和多种数据源结合的方向演进,对具有高准确率和召回率的停留识别方法显得尤为迫切。

上述中,与本申请相关的参考文献包括:

[1]DEVILLE P,LINARD C,MARTIN S等.Dynamic population mapping using mobile phone data[J].Proceedings of the National Academy of Sciences,2014,111(45):15888–15893.

[2]PEI T,SOBOLEVSKY S,RATTI C等.A new insight into land use classification based on aggregated mobile phone data[J].International Journal of Geographical Information Science,2014,28(9):1988–2007.

[3]WANG P,HUNTER T,BAYEN A M等.Understanding Road Usage Patterns in Urban Areas[J].Scientific Reports,2012,2.

[4]WESOLOWSKI A,EAGLE N,TATEM A J等.Quantifying the Impact of Human Mobility on Malaria[J].Science,2012,338(6104):267–270.

[5]SCHNEIDER C M,BELIK V,T等.Unravelling daily human mobility motifs[J].Journal of The Royal Society Interface,2013,10(84):20130246.

[6]JIANG S,FIORE G A,YANG Y等.A Review of Urban Computing for Mobile Phone Traces:Current Methods,Challenges and Opportunities[C]//Proceedings of the 2Nd ACM SIGKDD International Workshop on Urban Computing.New York,NY,USA:ACM,2013:2:1–2:9.

[7]刘瑜.社会感知视角下的若干人文地理学基本问题再思考[J].地理学报,2016,71(4):566–577.

[8]ALVARES L O,BOGORNY V,KUIJPERS B等.A Model for Enriching Trajectories with Semantic Geographical Information[C]//Proceedings of the 15th Annual ACM International Symposium on Advances in Geographic Information Systems.New York,NY,USA:ACM,2007:22:1–22:8.

[9]SPACCAPIETRA S,PARENT C,DAMIANI M L等.A conceptual view on trajectories[J].Data&Knowledge Engineering,2008,65(1):126–146.

[10]ZHENG Y,ZHANG L,XIE X等.Mining Interesting Locations and Travel Sequences from GPS Trajectories[C]//Proceedings of the 18th International Conference on World Wide Web.New York,NY,USA:ACM,2009:791–800.

[11]CALABRESE F,PEREIRA F C,LORENZO G D等.The Geography of Taste:Analyzing Cell-Phone Mobility and Social Events[G]//P,A,SPASOJEVIC M.Pervasive Computing.Springer Berlin Heidelberg,2010:22–37.

[12]IOVAN C,OLTEANU-RAIMOND A-M,T等.Moving and Calling:Mobile Phone Data Quality Measurements and Spatiotemporal Uncertainty in Human Mobility Studies[G]//VANDENBROUCKE D,BUCHER B,CROMPVOETS J.Geographic Information Science at the Heart of Europe.Springer International Publishing,2013:247–265.

[13]VAJAKAS T,VAJAKAS J,LILLEMETS R.Trajectory reconstruction from mobile positioning data using cell-to-cell travel time information[J].International Journal of Geographical Information Science,2015,29(11):1941–1954.

[14]WIDHALM P,YANG Y,ULM M等.Discovering urban activity patterns in cell phone data[J].Transportation,2015,42(4):597–623.



技术实现要素:

本发明提供了一种轨迹数据停留识别方法及系统,旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题,本发明提供了如下技术方案:

一种轨迹数据停留识别方法,包括以下步骤:

步骤a:识别轨迹数据中显著的停留分段、移动分段和不确定分段;

步骤b:根据生活基本规律及轨迹分段邻接关系设定所述不确定分段的归属类型判定规则,根据所述归属类型判定规则判定不确定分段属于停留分段或移动分段;

步骤c:将所述显著的停留分段与所述不确定分段判定的停留分段进行合并,得到最终停留分段。

本发明实施例采取的技术方案还包括:在所述步骤a中,所述识别轨迹数据中显著的停留分段、移动分段和不确定分段具体为:将所述轨迹数据的原始轨迹进行原始轨迹分段处理,在所述原始轨迹分段的基础上,根据每个分段停留归属度,采用增长聚类的方法,分别识别出轨迹数据中显著的停留分段、移动分段和不确定分段。

本发明实施例采取的技术方案还包括:在所述步骤a中,所述识别停留分段的方式为:从原始轨迹分段的第一个分段开始,连续停留归属度均小于阈值ω的原始轨迹分段组成新的轨迹分段,所述新的轨迹分段的停留归属度大于阈值ω,同时,所述新的轨迹分段的持续时间大于阈值T0;所述识别移动分段的方式为:如果分段的停留归属度小于给定停留归属度阈值θ,则其属于移动分段,从原始分段轨迹的第一个分段开始,将连续的停留归属度小于阈值θ的轨迹分段合并,形成一个移动分段。

本发明实施例采取的技术方案还包括:在所述步骤b中,所述根据归属类型判定规则判定不确定分段属于停留分段或移动分段具体包括:如果一个不确定分段与临近的移动分段一起的持续时间较长,则判定该不确定分段为停留分段;针对“移动-不确定-移动”模式,如果两段移动方向夹角大于90度,判定该不确定分段为停留分段;针对“停留-不确定-停留”模式,如果“不确定”处于夜间休息时段之内,判定该不确定分段为停留分段。

本发明实施例采取的技术方案还包括:所述步骤b还包括:设定停留归属度判定阀值U0,将不适用于所述归属类型判定规则的不确定分段的停留归属度与归属度判定阀值U0进行比较,并将停留归属度大于归属度判定阀值U0的不确定分段判定为停留分段,将停留归属度小于归属度判定阀值U0的不确定分段判定为移动分段。

本发明实施例采取的另一技术方案为:一种轨迹数据停留识别系统,包括:

类型识别模块:用于识别轨迹数据中显著的停留分段、移动分段和不确定分段;

第一类型判定模块:用于根据生活基本规律及轨迹分段邻接关系设定所述不确定分段的归属类型判定规则,根据所述归属类型判定规则判定不确定分段属于停留分段或移动分段;

数据合并模块:用于将所述显著的停留分段与所述不确定分段判定的停留分段进行合并,得到最终停留分段。

本发明实施例采取的技术方案还包括轨迹分段模块,所述轨迹分段模块用于将轨迹数据的原始轨迹进行原始轨迹分段处理;所述类型识别模块识别轨迹数据中显著的停留分段、移动分段和不确定分段具体为:将所述轨迹数据的原始轨迹进行原始轨迹分段处理,在所述原始轨迹分段的基础上,根据每个分段停留归属度,采用增长聚类的方法,分别识别出轨迹数据中显著的停留分段、移动分段和不确定分段。

本发明实施例采取的技术方案还包括:所述类型识别模块包括停留识别单元和移动识别单元;

所述停留识别单元用于识别轨迹数据中显著的停留分段,具体识别方式为:从原始轨迹分段的第一个分段开始,连续停留归属度均小于阈值ω的原始轨迹分段组成新的轨迹分段,所述新的轨迹分段的停留归属度大于阈值ω,同时,所述新的轨迹分段的持续时间大于阈值T0;

所述移动识别单元用于识别轨迹数据中显著的移动分段,具体识别方式为:如果分段的停留归属度小于给定停留归属度阈值θ,则其属于移动分段,从原始分段轨迹的第一个分段开始,将连续的停留归属度小于阈值θ的轨迹分段合并,形成一个移动分段。

本发明实施例采取的技术方案:所述第一类型判定模块根据归属类型判定规则判定不确定分段属于停留分段或移动分段具体包括:如果一个不确定分段与临近的移动分段一起的持续时间较长,则判定该不确定分段为停留分段;针对“移动-不确定-移动”模式,如果两段移动方向夹角大于90度,判定该不确定分段为停留分段;针对“停留-不确定-停留”模式,如果“不确定”处于夜间休息时段之内,判定该不确定分段为停留分段。

本发明实施例采取的技术方案还包括第二类型判定模块,所述第二类型判定模块用于设定归属度判定阀值U0,将不适用于所述归属类型判定规则的不确定分段的停留归属度与归属度判定阀值U0进行比较,并将停留归属度大于归属度判定阀值U0的不确定分段判定为停留分段,将停留归属度小于归属度判定阀值U0的不确定分段判定为移动分段。

相对于现有技术,本发明实施例产生的有益效果在于:本发明实施例的轨迹数据停留识别方法及系统首先对显著的停留和移动分段识别;其次,结合人们生活基本规律和轨迹分段邻接关系,总结出不确定分段归属的判定规则,根据前后的邻接分段特征,进一步判定不确定分段的归属类型;并通过定义停留归属度的阈值来决定其他不适用判定规则的不确定分段的归属类型,最后,将类型相同的邻接分段进行合并,实现停留分段的提取。本发明通过引入不确定分段,分步骤识别轨迹数据中的停留,从而降低“假移动”对停留识别的影响,提高识别结果在数量和时间上的准确率和召回率。

附图说明

图1是本发明实施例的轨迹数据停留识别的框架图;

图2是本发明实施例的轨迹数据停留识别方法的流程图;

图3是本发明实施例9种不确定分段关系模式示意图;

图4是本发明实施例的轨迹数据停留识别系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

通过观察手机轨迹数据,部分类别的信息是确定的,例如显著的停留分段和显著的移动分段;剩余的难以确切的部分判定为不确定分段,“假移动”也就存在于不确定分段中。不确定分段的不同类别与临近的移动或停留之间的关系,可以帮助进一步判定该部分数据最可能的类型归属。本发明实施例的轨迹数据停留识别方法及系统利用手机轨迹数据的这一特征,构建了引入不确定分段,分步骤识别手机轨迹数据中的停留,从而降低“假移动”对停留识别的影响,提高识别结果在数量和时间上的准确率和召回率。

具体地,请一并参阅图1和图2,图1是本发明实施例的轨迹数据停留识别的框架图,图2是本发明实施例的轨迹数据停留识别方法的流程图。本发明实施例的轨迹数据停留识别方法包括以下步骤:

步骤100:将轨迹数据的原始轨迹进行原始轨迹分段处理;

在步骤100中,轨迹数据中的相关概念包括:记录数据、原始轨迹、轨迹分段、原始轨迹分段、分段停留归属度、移动、停留、不确定分段以及个体分段轨迹等;各个概念的定义如下:

(a)记录数据(r)

表示形成轨迹的原始记录数据,表示为三元组<对象编号,时间,空间位置>,表示为r,相应的数学表达如公式(1):

r=<ObjId,t,pt> (1)

在公式(1)中,ObjId为对象编号,t为时间,pt为空间位置。

(b)原始轨迹(RT)

将具有相同对象编号的记录数据按照时间顺序从先到后的方式组织形成的序列定义为原始轨迹,用RT表示,数学上的表达如公式(2):

RT=[r1,r2,…,rn] (2)

在公式(2)中,n为记录个数,对任意的1<=i<j<=n,记录rj的时间晚于记录ri。

(c)轨迹分段(TS)

轨迹分段是个体轨迹的一部分,由多个连续的记录组成,是原始轨迹的记录子集,表示为TS。为了便于处理,将轨迹分段表示为一个6元组,数学表达如公式(3)

TS=<UserId,start,end,type,probability,RECORDS> (3)

在公式(3)中,start和end分别是分段开始和结束的时间,type是轨迹分段的类型,在本发明中轨迹分段包括四种类型:空(N)、停留(S)、移动(M)、不确定(U)。在初始状态下均为N,随着处理的流程的进行,最终改写为停留(S)和移动(M)两种。RECORDS为组成轨迹分段的初始记录集,不少于两个元素,probability是当前轨迹分段归属为停留分段的可能性,初始通过停留归属度函数计算,依赖于RECORDS中点集的最远距离LD的值,研究室记录集中点和点之间距离的最大值。具体的计算方式如公式(4):

LD(RECORDS)=max(Dis(ri.pt,rj.pt)),ri,rj∈RECORDS (4)

在公式(4)中,Dis为距离函数。

(d)原始轨迹分段(RTS)

在原始轨迹中,将时间临近的两条记录组成的轨迹分段(TS)称为原始轨迹分段(RTS),表示的轨迹数据的原始形态,也是轨迹的最精细分段方式,该分段的记录集个数为2。

(e)分段停留归属度(SSP)

轨迹分段的记录位置之间的最远距离LD能够反映出个体在此分段的时间中在空间上移动的最大效果,我们通过这个指标来猜测用户在这个分段是停留的归属度。停留归属度函数的选择应当符合如下的常识性规律:

距离越远,停留的可能性越小;距离越小,停留的可能性越大;

距离较小时,停留的可能性在较高的水平,随着距离的进一步减小,SSP增加幅度不大;

距离较大时,停留的可能性在较低的水平,随着距离的进一步增大,SSP减小幅度不大;

S型(Sigmoid)函数符合上述条件,并广泛用于各领域的参数选择,我们用其计算SSP的值。

常用函数中选用sigmoid函数进行计算,阈值确定也是该函数的重要应用领域之一。我们对原始函数进行变换,如公式(5)所表示:

<mrow> <mi>S</mi> <mi>S</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mi>a</mi> <mi>x</mi> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

对于这个函数,实际应用中利用具体的要求来确定其具体形式。在实际研究中,选定两个临界距离值,赋予相应的归属度:距离为D1时,该分段停留归属度为α;距离为D2时,其停留归属度为β。相应的有公式(6):

SSP(D1)=α

SSP(D2)=β (6)

据此解算可获得a与b的数值,从而得到计算SSP的具体函数形式。在本发明实施例中,推荐使用的参数为如表1所示,其他应用可根据实际情况进行调整:

表1本发明中停留归属度推荐参数

(f)停留(S)

是轨迹分段的子类,表示个体没有发生移动或在局部范围内活动,并且持续时间大于设定值T0,表示为一个七元组<ObjId,start,end,type,probability,RECORDS,cenPt>,其中type类型为S,cenPt为中心点。

(g)移动(M)

是轨迹分段的子类,表示该段时间内,个体处于移动的状态,并且活动范围超过设定值,表示为一个八元组<UserId,start,end,type,probability,RECORDS,direction,curvature>,其中type类型为M,direction为首末点的坐标方位角,curvature为绕路度,用路径路程长度与首末点距离比值表示。

(h)不确定分段(U)

是轨迹分段的子类,表示该段时间内,个体的移动状态既不符合停留的特征,也不具有移动的条件,表示为一个七元组<UserId,start,end,type,probability,RECORDS,pattern>,其中type类型为U。

pattern是不确定分段前后邻接分段类型关系模式,受限于数据的时间跨度,如果用户第一个(或最后一个)的分段类型是不确定分段,那么它的前面(或后边)没有邻接分段,我们用空值(N)来表示,这样一来,关系模式共有九种:SUS,SUM,SUN,MUM,MUS,MUN,NUM,NUS,NUN(S表示停留,M表示移动,N表示空值,U表示不确定),具体如图3所示,是本发明实施例9种不确定分段关系模式示意图。

(i)个体分段轨迹(ITSs)

个体的日常生活是由连续的活动组成的,每一个活动对应个体移动轨迹的一个分段,因此可以用分段的方式表示个体的轨迹,这是轨迹分段挖掘的最终目的形式。我们用ITSs来表达这一形式,具体如公式(7):

ITSs=[TS1,TS2,…,TSm] (7)

在公式(7)中,m为分段个数,对任意的1<=i<j<=m,j=i+1,有如下两个特征:前后分段的时间上是连续的(TSi.end=TSj.start)并且相邻分段的类型是相异的(TSi.type≠TSj.type)。

当相邻的两个分段类型如果一致,需要进行合并的操作,新的轨迹分段TSNew有公式(8)的计算方式:

TSNew=Merge(TSn,TSn+1),with

.start=TSn.start

.end=TSn+1.end

.RECORDS=TSn.RECORDS∪TSn+1.RECORDS

.probability=SSP(diameter(RECORDS)) (8)

若有一个分段对象为空,则合并结果等于不为空的那个对象。

(j)个体原始分段轨迹(RITSs)

不同的分段方案,分段结果不同。在原始轨迹(RT)基础上,最细密的分段是分成原始轨迹分段(RTS),此时m=n-1,如果将此种分段来表示轨迹,我们将其定义为个体原始分段轨迹,记为RITSs(Raw ITSs),往往作为数据处理的输入端。

步骤200:在原始轨迹分段的基础上,根据每个分段停留归属度,采用增长聚类的方法,分别识别出轨迹数据中显著的停留分段、移动分段和不确定分段三种类型;

在步骤200中,在轨迹数据停留识别时,先识别出显著的停留分段和移动分段,最后提取剩余的部分作为不确定分段。

具体地,识别停留分段的方式为:

停留归属度函数是活动范围的单调递减函数,停留归属度表征了活动范围的大小。根据停留的定义,停留活动对应的轨迹分段停留归属度大于阈值ω,从原始轨迹分段(RTS)的第一个分段开始,符合如下条件的原始轨迹分段(RTS)聚类成一个停留:连续停留归属度均小于阈值ω的原始轨迹分段组成新的轨迹分段,而且新的轨迹分段的停留归属度也大于阈值ω,同时,轨迹分段的持续时间大于阈值T0。在本发明实施例中,ω取值为0.9,T0取值为10分钟,具体可根据实际应用进行设定。

识别移动分段的方式为:

与识别停留相似,利用停留归属度所反映活动的范围来判定。根据移动的定义,移动活动对应的个体原始分段轨迹(RITSs)中,如果分段的停留归属度小于给定停留归属度阈值θ,则其属于移动分段,从个体原始分段轨迹的第一个分段开始,将连续的停留归属度小于阈值θ的轨迹分段合并,形成一个移动。在本发明实施例中,阈值θ取值为0.1,具体可根据实际应用进行设定。

识别不确定分段的方式为:

将个体原始分段轨迹中,提取停留分段和移动分段剩余的部分,根据时间链接关系进行合并,即形成不确定分段。在这个过程中,根据记录点集的位置信息来计算不确定分段的停留归属度。

识别出停留分段、移动分段和不确定分段后,它们按照时间顺序前后相接,其中移动分段和停留分段具有较高的可信度,可以作为后续判定不确定分段归属类型的参考,而每一个不确定分段均有一个停留归属度的数值,该数值位于阀值ω和θ之间,根据该数据判定不确定分段的最终归属类型。

步骤300:根据移动持续时长、绕路、夜间休息等生活基本规律以及轨迹分段邻接关系设定不确定分段的归属类型判定规则,根据该判定规则判定一部分不确定分段的最终归属类型;

在步骤300中,每一个不确定分段都有自己本身的停留归属度、开始时间、结束时间和持续时间等信息,同时,根据不同前后分段类型有自己的关系模式,这些信息可以用于辅助判定不确定分段最可能的归属。从现实生活角度考虑,本发明实施例用如下规则来判定不确定分段的最终归属类型。

(a)移动持续时长限制

现实生活中,除特殊职业人群(如司机、配送员)之外,城市环境中,在局部范围内持续时间很长(例如2个小时)的移动活动极少,而这些特殊人群有自己典型的活动特征。因此当一个不确定分段与临近的移动分段一起的持续时间较长的时候,该不确定分段更可能是停留分段。在轨迹数据中,一个移动的持续时间长度受到时间采样间隔的影响,例如4小时的采样间隔下,移动行为的最小持续时间也是4小时。对此,选定取2小时与2倍时间采样间隔中的较大值作为持续时长阈值DUR。例如0.5小时时间采样间隔的数据,该持续时长阈值为2小时,而1.5小时时间采样间隔下的数据,该持续时长阈值为3小时。

(b)绕路限制

针对“移动-不确定-移动”(MUM)这种模式,如果两端的移动方向相反,表明个体先经过移动到特定的位置,而后又以相反的方向回去,这种情况下,相应的不确定分段更可能是停留分段而非移动分段;否则,这段轨迹表示现实世界中的活动过程是一个典型的绕路行为,与人们通常的出行习惯不相符。而如果是方向一致,则表明不确定分段更可能是移动的组成部分,判定为移动分段。在本发明实施例中,针对MUM模式中的不确定分段,如果两段移动方向夹角大于90度,判定该不确定分段为停留分段;否则,判定该不确定分段为移动分段。

(c)夜间休息限制

人们的休息时间相对较为统一,都是在夜间,同时也呈现出长持续时间的停留,根据这一特点,针对“停留-不确定-停留”(SUS)这种模式,如果U处在早上0:00-6:00的时段之内,判定其中的不确定分段为停留分段。

步骤400:设定停留归属度判定阀值U0,将其他不适用于归属类型判定规则的不确定分段的停留归属度与归属度判定阀值U0进行比较,并将停留归属度大于归属度判定阀值U0的不确定分段判定为停留分段,将停留归属度小于归属度判定阀值U0的不确定分段判定为移动分段;

在步骤400中,本发明实施例设归属度判定阀值U0的值为0.5,具体可根据实际应用进行设定。

步骤500:将步骤200中识别的显著的停留分段与不确定分段判定的停留分段按照时间特征进行合并,得到轨迹数据中最终的停留分段;

在步骤500中,停留分段的合并公式为:根据公式(8)进行合并。

请参阅图4,是本发明实施例的轨迹数据停留识别系统的流程图。本发明实施例的轨迹数据停留识别系统包括轨迹分段模块、类型识别模块、第一类型判定模块、第二类型判定模块和数据合并模块。

轨迹分段模块用于将轨迹数据的原始轨迹进行原始轨迹分段处理;其中,不同的分段方案,分段结果不同。在原始轨迹(RT)基础上,最细密的分段是分成原始轨迹分段(RTS),此时m=n-1,如果将此种分段来表示轨迹,我们将其定义为个体原始分段轨迹,记为RITSs(Raw ITSs),往往作为数据处理的输入端。

类型识别模块用于在原始轨迹分段的基础上,根据每个分段停留归属度,采用增长聚类的方法,分别识别出轨迹数据中显著的停留分段、移动分段和不确定分段三种类型;其中,在轨迹数据停留识别时,先识别出显著的停留分段和移动分段,最后提取剩余的部分作为不确定分段。

具体地,类型识别模块包括停留识别单元、移动识别单元和不确定识别单元;

停留识别单元用于识别轨迹数据中显著的停留分段,具体识别方式为:停留归属度函数是活动范围的单调递减函数,停留归属度表征了活动范围的大小。根据停留的定义,停留活动对应的轨迹分段停留归属度大于阈值ω,从原始轨迹分段(RTS)的第一个分段开始,符合如下条件的原始轨迹分段(RTS)聚类成一个停留:连续停留归属度均小于阈值ω的原始轨迹分段组成新的轨迹分段,而且新的轨迹分段的停留归属度也大于阈值ω,同时,轨迹分段的持续时间大于阈值T0。在本发明实施例中,ω取值为0.9,T0取值为10分钟,具体可根据实际应用进行设定。

移动识别单元用于识别轨迹数据中显著的移动分段,具体识别方式为:与识别停留相似,利用停留归属度所反映活动的范围来判定。根据移动的定义,移动活动对应的个体原始分段轨迹(RITSs)中,如果分段的停留归属度小于给定停留归属度阈值θ,则其属于移动分段,从个体原始分段轨迹的第一个分段开始,将连续的停留归属度小于阈值θ的轨迹分段合并,形成一个移动。在本发明实施例中,阈值θ取值为0.1,具体可根据实际应用进行设定。

不确定识别单元用于识别轨迹数据中的不确定分段,具体识别方式为:将个体原始分段轨迹中,提取停留分段和移动分段剩余的部分,根据时间链接关系进行合并,即形成不确定分段。在这个过程中,根据记录点集的位置信息来计算不确定分段的停留归属度。

识别出停留分段、移动分段和不确定分段后,它们按照时间顺序前后相接,其中移动分段和停留分段具有较高的可信度,可以作为后续判定不确定分段归属类型的参考,而每一个不确定分段均有一个停留归属度的数值,该数值位于阀值ω和θ之间,根据该数据判定不确定分段的最终归属类型。

第一类型判定模块用于根据移动持续时长、绕路、夜间休息等生活基本规律以及轨迹分段邻接关系设定不确定分段的归属类型判定规则,根据该判定规则判定一部分不确定分段的最终归属类型;其中,每一个不确定分段都有自己本身的停留归属度、开始时间、结束时间和持续时间等信息,同时,根据不同前后分段类型有自己的关系模式,这些信息可以用于辅助判定不确定分段最可能的归属。从现实生活角度考虑,本发明实施例用如下规则来判定不确定分段的最终归属类型。

(a)移动持续时长限制

现实生活中,除特殊职业人群(如司机、配送员)之外,城市环境中,在局部范围内持续时间很长(例如2个小时)的移动活动极少,而这些特殊人群有自己典型的活动特征。因此当一个不确定分段与临近的移动分段一起的持续时间较长的时候,该不确定分段更可能是停留分段。在轨迹数据中,一个移动的持续时间长度受到时间采样间隔的影响,例如4小时的采样间隔下,移动行为的最小持续时间也是4小时。对此,选定取2小时与2倍时间采样间隔中的较大值作为持续时长阈值DUR。例如0.5小时时间采样间隔的数据,该持续时长阈值为2小时,而1.5小时时间采样间隔下的数据,该持续时长阈值为3小时。

(b)绕路限制

针对“移动-不确定-移动”(MUM)这种模式,如果两端的移动方向相反,表明个体先经过移动到特定的位置,而后又以相反的方向回去,这种情况下,相应的不确定分段更可能是停留分段而非移动分段;否则,这段轨迹表示现实世界中的活动过程是一个典型的绕路行为,与人们通常的出行习惯不相符。而如果是方向一致,则表明不确定分段更可能是移动的组成部分,判定为移动分段。在本发明实施例中,针对MUM模式中的不确定分段,如果两段移动方向夹角大于90度,判定该不确定分段为停留分段;否则,判定该不确定分段为移动分段。

(c)夜间休息限制

人们的休息时间相对较为统一,都是在夜间,同时也呈现出长持续时间的停留,根据这一特点,针对“停留-不确定-停留”(SUS)这种模式,如果U处在早上0:00-6:00的时段之内,判定其中的不确定分段为停留分段。

第二类型判定模块用于设定停留归属度判定阀值U0,将其他不适用于归属类型判定规则的不确定分段的停留归属度与归属度判定阀值U0进行比较,并将停留归属度大于归属度判定阀值U0的不确定分段判定为停留分段,将停留归属度小于归属度判定阀值U0的不确定分段判定为移动分段;其中,本发明实施例设归属度判定阀值U0的值为0.5,具体可根据实际应用进行设定。

数据合并模块用于将类型识别模块识别的显著的停留分段与经第一类型判定模块和第二类型判定模块判定的停留分段按照时间特征进行合并,得到轨迹数据中最终的停留分段;其中,停留分段的合并公式为:

TSNew=Merge(TSn,TSn+1),with

.start=TSn.start

.end=TSn+1.end

.RECORDS=TSn.RECORDS∪TSn+1.RECORDS

.probability=SSP(diameter(RECORDS)) (8)

本发明实施例利用深圳市某通信公司的手机轨迹数据进行了实验。实验选择了329个具有高频采样手机轨迹数据的用户作为基准数据集。考虑到在高频采样下,通过轨迹数据仅仅用来判定停留或移动状态,还是具有很高的可信度的,因此人工对每个用户的停留和移动信息进行了判定,标记了相应的开始与结束时间。然后,对该基准数据按照不同的时间采样间隔进行重采样,模拟真实的手机定位数据规格。

分别从状态和对象两个角度对结果进行评估。从状态的角度,对识别结果中的每一个停留,在标记结果的停留中遍历搜寻其空间上临近的停留,计算重叠时间总和,根据时间总和与标记结果中停留总时间的比例记为召回率,与识别结果中停留总时间的比例记为准确率。从对象的角度,对识别结果中的每一个停留,如果在标识结果中的停留存在满足以下三个条件的停留,认为该停留判断正确:(1)空间上临近;(2)时间上重叠;(3)停留对象在时间上的重叠是“一对一”的关系。符合该三个条件的停留个数与标记结果的停留个数比例记为对象召回率,与识别结果的停留个数比例记为对象的准确率。

利用本发明的方法(SMUoT)和SNSoT的方法进行识别,结果如表2所示。其中,在0.5小时采样间隔下,本发明的方法在停留的数量角度的准确率提高了28个百分点,召回率提供了21个百分点;而在时间角度的准确率达到97%的准确率,相对于SNSoT降低了2个百分点,但召回率提高了13个百分点。而在2小时的采样间隔下,改善效果有限,主要原因在于此情况下,轨迹数据过于稀疏,方法的区别较小。但总体而言,结果表明,相较于既有的停留识别方法,本发明提供的技术方案显著改善了停留识别的效果。

表2 SNSoT与SMUoT结果比较

本发明实施例的轨迹数据停留识别方法及系统首先对显著的停留和移动分段识别;其次,结合人们生活基本规律和轨迹分段邻接关系,总结出不确定分段归属的判定规则,根据前后的邻接分段特征,进一步判定不确定分段的归属类型;并通过定义停留归属度的阈值来决定其他不适用判定规则的不确定分段的归属类型,最后,将类型相同的邻接分段进行合并,实现停留分段的提取。本发明通过引入不确定分段,分步骤识别轨迹数据中的停留,从而降低“假移动”对停留识别的影响,提高识别结果在数量和时间上的准确率和召回率。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1