一种基于重复跳转模式的手机位置数据中异常记录检测方法与流程

文档序号:16776787发布日期:2019-02-01 18:47阅读:206来源:国知局
一种基于重复跳转模式的手机位置数据中异常记录检测方法与流程

本发明涉及空间信息技术领域,特别是一种基于重复跳转模式的手机位置数据中异常记录检测方法。



背景技术:

大规模手机位置数据被广泛地用于发现人类移动基本规律,进而指导城市规划过程中的相关决策。在这些手机位置数据中,基于基站编号定位技术获得的数据,具有样本大、收集成本低以及能够支持长时间持续收集的特征,是最为常用的数据类型之一。而在这一类型的数据集中,乒乓现象,表现为在两个或者多个基站位置之间频繁快速的移动,是一种典型的噪音数据[1]。它会直接影响数据的质量,从而影响基于该数据所发现的人类移动性分析结果。

基站编号定位技术的基本原理是,通信运营系统一般将一部手机所能接收到附近信号强度最好的基站来为其提供通信服务,由于基站覆盖范围有限,尤其是在城市区域,一般在50米到1千米之间,因此可以用基站所在位置来近似表示用户的位置信息。然而,当手机位于多个信号基站覆盖范围的重叠区域时,局部环境(建筑物遮挡)以及手机使用习惯(手机姿态变化带来的天线朝向变化)可能导致当前手机所接收到的附近信号基站的相对强度频繁发生变化,即使用户的位置未发生变化,为当前手机提供服务的基站也会频繁切换。在此种情况下,从数据记录上看,用户在不断地快速移动,表现为典型的乒乓效应[1]

不难发现,乒乓效应主要是由手机所接收到的信号在邻近基站之间频繁切换引起的,学者基于这一效应的典型特征发展了不同的方法来降低其影响,主要包括三种方法:(1)考虑到乒乓现象主要是在邻近基站之间发生,学者在更大的空间尺度的空间单元上分析地理现象在一定程度上能够降低其影响,例如评估人口分布时用到的规则网格以及行政区划中的街道级区划[2]。(2)考虑到乒乓效应的信号跳转具有快速移动特征,学者利用速度阈值来进行检测[3,4],也就是根据连续位置记录之间的平均移动速度是否超过速度阈值(例如在城区超过120千米/小时)来判定乒乓效应;(3)考虑到乒乓效应所造成的移动特征与信号波具有相似性特征,利用滤波的方法(例如卡尔曼滤波)来对轨迹数据进行平滑,也就是将乒乓效应带来的位置偏移作为信号波中的白噪声,进而利用移动窗口对轨迹数据的位置进行平滑。

上述既有的应对方法存在一些缺陷。首先,空间聚合的方式在分析问题时,需要结合研究目的和乒乓现象的特征来选择空间尺度。然而,既有研究中对于乒乓现象的时空间特征的分析仍然是缺少的,而且此种方法是一种规避策略,并没有尝试去检测手机位置数据中的乒乓效应。其次,有关乒乓现象检测方法的指标有效性会随手机位置数据中记录之间的时间采样间隔的增加而降低。主要表现为:(1)基于移动速度的检测方法中,移动速度指标有效性随着记录之间的时间采样间隔增加而降低,造成乒乓效应的遗漏;(2)基于滤波的方法中,现实世界的短距离移动行为对应的轨迹信息,在时间采样间隔稀疏时与乒乓现象的轨迹具有类似的特征,此种情况下,乒乓效应的检测存在大量的谬误,造成检测结果准确率的下降。



技术实现要素:

有鉴于此,本发明的目的是提出一种基于重复跳转模式的手机位置数据中异常记录检测方法,能够更有效地对手机位置数据进行预处理,降低乒乓效应对研究结论的影响,从而获得更科学的分析结论和决策支持。

本发明采用以下方案实现:一种基于重复跳转模式的手机位置数据中异常记录检测方法,包括以下步骤:

步骤s1:设置基于重复跳转模式的异常移动判定规则;包括时间窗口宽度的选择以及相应时间窗口下重复跳转阈值的确定;

步骤s2:从手机位置数据中识别跳转模式异常的移动;

步骤s3:根据跳转模式异常的移动识别异常记录。

进一步地,步骤s1具体为,选择多个用于判定重复跳转的时间窗口宽度,用于适应不同时间尺度下的出行规律的限定规则定义;根据城市居民出行规律来定义相应时间窗口下,重复跳转次数的阈值。

进一步地,步骤s2具体包括以下步骤:

步骤s21:对手机位置数据进行预处理;

步骤s22:提取手机位置数据中的移动行为,即连续位置记录不相同的部分;

步骤s23:检测异常移动:从轨迹数据的第一条记录开始,统计位于时间窗口twk中位置i与位置j之间移动频次,将在两个位置之间的频次nijk超过设定的该时间窗口下重复跳转阈值nk的移动模式中的移动分段集合mijk标记为异常移动;

步骤s24:整合异常移动:将利用多个时间窗口规则rk检测出的异常移动集合mijk的并集mij作为该用户最终的异常移动集合;

其中rk的表达式如下:

rk:{m∈mijk是异常移动|nijk>nk}(1);

该用户最终的异常移动集合表达式如下:

{m∈mij是异常移动|mij=mij1∪mij2∪mijk∪...}(2)。

进一步地,步骤s3中,一条记录被判定为异常记录需要符合如下两个条件:(1)该记录连接两个移动;(2)此两个移动均为异常移动。

与现有技术相比,本发明有以下有益效果:

1、本发明顾及城市居民出行规律构建识别异常记录的方法,所检测出的异常记录具有高可靠性的特征,能够克服将个体轨迹数据中居民位置移动当作信号波进行处理时带来的误判。

2、本发明所设计的移动模式频次等关键性指标对手机位置数据的时间分辨率要求相对较低,能够更有效地检测异常记录,克服了基于移动速度的方法中,移动速度指标的有效性所依赖的高时间分辨率数据限制。

3、本发明中涉及的异常移动判定规则能够适应多种时间尺度下的居民出行特征,并且能够支持规则的扩展组合(见公式2),克服了基于移动速度指标的检测方法中单个阈值参数所定义规则的限制

附图说明

图1为本发明实施例的从手机位置数据中识别跳转模式异常的移动方法流程示意图。

图2为本发明实施例的根据异常移动判定异常记录的情况说明示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

乒乓效应在数据上表现为短时间内,用户在局部空间中特定位置之间快速而频繁地移动;而居民的日常出行规律表明:特定时间段内,用户在固定位置之间频繁重复往返的移动行为是一种异常行为。根据这一观察,本发明实施例发掘手机位置数据中记录的时空间特征,结合不同时间窗口下人们日常出行的基本规律,建立一套基于重复跳转模式的异常记录检测方法,具体内容如下:

本实施例提供了一种基于重复跳转模式的手机位置数据中异常记录检测方法,包括以下步骤:

步骤s1:设置基于重复跳转模式的异常移动判定规则;包括时间窗口宽度的选择以及相应时间窗口下重复跳转阈值的确定;

步骤s2:从手机位置数据中识别跳转模式异常的移动;

步骤s3:根据跳转模式异常的移动识别异常记录。

在本实施例中,步骤s1具体为,选择多个用于判定重复跳转的时间窗口宽度,用于适应不同时间尺度下的出行规律的限定规则定义;根据城市居民出行规律来定义相应时间窗口下,重复跳转次数的阈值。

较佳的,不同的时间窗口宽度能够对应市民在不同时间尺度下的行为规律,相应的,不同的时间窗口宽度下重复跳转频次阈值也有所不同。时间窗口宽度和频次阈值的选择可以根据城市居民的出行特征进行确定。在本实施例中,默认时间窗口宽度包括如下三个:1小时、8小时和24小时,相应的跳转频次阈值分别为6次,10次和12次。其中,本实施例在异常移动判定规则的定义上侧重点在于多种时间窗口宽度对应规则的组合,并不限定在默认的三个时间窗口宽度所限制的规则内容,可以根据实际需要进一步调整时间窗口以及相应的阈值或者增加其他时间窗口对应的约束规则。

在本实施例中,步骤s2具体包括以下步骤:

步骤s21:对手机位置数据进行预处理;将属于同一个用户的手机位置数据记录按照时间顺序排列,按照轨迹数据的方式进行组织。

步骤s22:提取手机位置数据中的移动行为,即连续位置记录不相同的部分;如果用户的连续两条记录的位置信息不同,则将该两条记录之间的行为定义为移动m;

步骤s23:检测异常移动:从轨迹数据的第一条记录开始,统计位于时间窗口twk中位置i与位置j之间移动频次,将在两个位置之间的频次nijk超过设定的该时间窗口下重复跳转阈值nk的移动模式中的移动分段集合mijk标记为异常移动;

步骤s24:整合异常移动:将利用多个时间窗口规则rk检测出的异常移动集合mijk的并集mij作为该用户最终的异常移动集合;

其中rk的表达式如下:

rk:{m∈mijk是异常移动|nijk>nk};

该用户最终的异常移动集合表达式如下:

{m∈mij是异常移动|mij=mij1∪mij2∪mijk∪...}。

如图1所示,步骤s2更详细的步骤为:

(a)对手机位置数据进行预处理。

(b)提取手机位置数据中的移动行为,即连续位置记录不相同的部分。

(c)从第一条记录对应的时间开始,将位于判定规则对应时间窗口宽度以内的移动放到一个临时的移动集合中,统计该集合中的移动模式频次。注意到,这里的移动模式是指移动的起始位置和结束位置编号所组成的标记信息,其中该标记不具有方向性,即从位置a到位置b的移动标记与从位置b到位置a的移动标记是相同的。

(d)将频次超过该时间窗口宽度对应频次阈值的移动模式定义为异常移动模式。

(e)将异常移动模式对应的移动标记为异常移动行为。

(f)对每一条记录重复上述三个步骤,即从步骤(c)到步骤(e),直到遍历完所有的记录。

(g)根据异常移动行为定义规则中的每一个时间窗口宽度对应的规则,重复执行上述四个步骤,即从步骤(c)到步骤(f),检测出每一个时间窗口宽度下的异常移动集合。

(h)对各时间窗口宽度下检测出的异常移动集合求并集进行整合,形成最终的异常移动集合。

在本实施例中,步骤s3中,一条记录被判定为异常记录需要符合如下两个条件:(1)该记录连接两个移动;(2)此两个移动均为异常移动。

特别的,在本实施例中,经过预处理的手机位置数据中,如果一条记录与临近的前后两条记录位置均不同时,那么该记录将连接两个移动,如果这两个移动均为异常移动,那么该记录将被判定为异常记录(如附图2中的(a)所示);如果该记录仅连接一个异常移动行为(附图2中的(b)和(c)所示),那么该记录将不被认定为异常记录;而剩余的其他情况,该记录也均不被认定为异常记录。

本实施例从国内某大城市的手机位置数据中筛选了340个具有高频采样的用户位置数据,共包括346671条记录,用于分析测试本实施例方法检测异常记录的有效性。结果显示本实施例的方法能够从原始记录中检测出9587条异常记录,而基于移动速度的方法仅能检测出342条异常记录。为了进一步比较异常记录检测方法受手机位置数据时间分辨率(即记录之间时间采样间隔)的影响,本实施例对原始数据按照不同的时间分辨率进行重采样,来模拟不同时间分辨率的手机位置数据,进而利用不同的方法来检测这些模拟数据中的乒乓效应。结果显示,当手机位置数据的时间分辨率为5分钟时,基于移动速度的方法无法检测出异常记录,而本实施例对应的方法在此情况下能够检测出2743条异常记录,而且当手机位置数据的时间分辨率为20分钟时,本实施例的方法依然能检测出255条的异常记录。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1