一种基于加权欧氏距离的移动轨迹相似度匹配方法与流程

文档序号:18993757发布日期:2019-10-29 21:03阅读:1352来源:国知局
一种基于加权欧氏距离的移动轨迹相似度匹配方法与流程

本发明涉及移动数据分析领域,尤其是针对移动大数据平台下基于移动轨迹数据的相似度匹配方法。



背景技术:

近年来,随着移动通信技术以及传感器技术的发展,移动设备的持有率不断攀升。由附近基站接收到的移动数据可大致标定移动设备的位置以及即时时间。进而,通过查询移动设备的唯一标示符,得到其某段时间内的轨迹数据。

由于人类移动轨迹显示出高度的时间以及空间规律性,在大多数情况下,个体会在生活原点附近徘徊,大幅度偏离仅为小概率事件。因其规律性,使得移动轨迹的研究成为可能,其中,移动轨迹的相似度研究已成为热点之一,主要应用于轨迹预测、兴趣点挖掘以及异常轨迹搜索等。

目前,每日产生的移动数据数以亿计,因而,对于轨迹相似度匹配算法的效率有比较高的要求,常用的算法为基于距离的相似度比较算法,主要有欧式距离法、最小边界矩形距离法、最长公共子序列法以及编辑距离法等。其中,欧式距离是度量对象间相似度最为通用的方法。该算法通过计算同一维度两个轨迹点的欧氏距离,即可得到两条轨迹间的欧氏距离,具备较高的效率。但是,由于欧氏距离法要求轨迹间以相同的维度表示,并且该方法没有考虑时间的变化,即两条形状相同的轨迹在不同时间内呈现会被认定为相同的。因而,在移动大数据的环境下,亟需提出一种改进的基于欧式距离的相似度匹配方法,以满足日常个体轨迹间相似度计算的需求。



技术实现要素:

本发明主要解决的技术问题是在移动大数据环境下,针对欧式距离法轨迹间需相同维度以及未考虑时间变化等缺陷,结合其运算效率较高的优势,提出一种基于移动轨迹数据的相似度匹配方法。

为解决如上问题,本发明采用的技术方案主要是:在移动大数据的环境下,一种改进的基于欧式距离的相似度匹配方法,将所提取的轨迹点进行时间维度上的划分,每个时间段内的特征点进行特征提取,在考虑时间维度以及保留数据特征的情况下,降低相似度比较过程中的数据量。所述的方法包括:

步骤1,获取移动数据;利用现有移动数据,每条数据均为主基站接收的信号数据,保留包括IMSI、StartTime、LocLng以及LocLat字段作为移动定位过程中的必要信息,其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置。

步骤2,获取原始轨迹;根据IMSI查询,即可获得特定时间段内该IMSI对应移动设备的若干条移动数据,每条移动数据即为该移动设备移动轨迹的一个轨迹点,其中,轨迹点信息包括该点的位置坐标(经纬度)以及采样时间t。按照轨迹点的即时时间排序,即可构成个体的运动轨迹。

步骤3,分时段特征点采样;以一定的时间区间为单位,将特定时间段划分为若干个时间区间,将采集得到的移动轨迹的轨迹点按照其即时时间,放入每个区间,这样每个时间区间内会有若干按时间排序的轨迹点。在单个时间区间内,通过这些轨迹点的位置坐标可得轨迹经过的位置点(Lngj,Latj),即时时间差可得到个体在某位置点停留的时间Δtj,将位置停留时间作为计算特征点位置的权重条件,按照如下公式计算。

注:wtj表示位置j在计算特征点时该轨迹点位置的权重,Δtj表示在位置j停留的时间,tTotal表示单个时间区间的总时间。

由每个位置点的权重wtj,得到可以代表该个体在该时间区间的综合位置,如以下公式所示。

注:rix以及riy表示在该时间区间i内特征点的总位置经纬度,该时间区间内的总轨迹点数为m,Lngj以及Latj在该时间区间内经过位置点j的经纬度。

经过以上计算,即可得到特定时间段内轨迹的运动位置情况。

步骤4,相似度计算;根据不同的筛选对象,给这些时间区间赋予不同的权值wpi,权值取值范围:1≤wpi≤2。例如,需要筛选家庭成员,则给予夜间时间区间以较高的权值;需要筛选一起工作学习的团体,则给予日间时间区间以较高的权值。选取某个IMSI,作为待匹配对象,得到轨迹R,与库中的各轨迹S进行加权的欧氏距离计算,如下公式所示。

注:R,S分别为两条轨迹,两条轨迹的轨迹点数分别为n,E(R,S)为轨迹R与S间的欧式距离,ri,si分别表示轨迹R与S上第i个轨迹点,rix与riy表示ri的位置坐标,six与siy表示si的位置坐标,wpi为相应时间区间的权值,distance(ri,si)表示ri,si间的欧式距离。

步骤5,给出相似度排序表;根据计算得到的欧氏距离,取出距离最小的5条轨迹,作为与之相似度最高的轨迹集。

本发明的有益效果是:相较于目前的技术情况,本发明通过将提取得到的移动数据进行时间维度上的划分,解决了欧氏距离计算中维度相等的需求。在计算单个时间区间的特征点时,通过给定停留时间较长的位置以较大的权值,可在一定程度上获取该时段更精确的位置点,保留了数据特征并且减少了数据量。并且,由于筛选的人群不同,根据筛选条件给定重要的时间区间以较高的权值,有利于筛选轨迹相似的人群。更多地,由于利用改进的欧式距离方法计算移动大数据轨迹相似问题,具备较高的计算效率。

附图说明

图1是本发明移动数据表结构图;

图2是本发明移动轨迹示意图;

图3是本发明基于加权欧氏距离的移动轨迹相似度匹配实施例结构框图;

图4是本发明实施例相似度计算结果图;

图5是本发明实施例相似度匹配可视化结果图;

图6是本发明的方法流程图。

具体实施方式

为了使该技术领域的人员可以更好地理解本发明方案,下面结合附图对本发明做进一步描述,显然,所描述的实施方式仅仅是本发明一部分的实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创新性劳动前提下所获得的所有其他实施方式,都应当属于本发明保护的范围。

图3为本发明利用所述方法实现的一个基于加权欧氏距离的移动轨迹相似度匹配的实施例。该实施例采集2015年2月5日的移动数据共计1.8亿条左右,涉及杭州市内基站2.5万个左右。利用MongoDB数据库实现大数据分析处理,包括移动数据导入模块、轨迹生成模块以及分时段特征点采样模块,结合SpringMVC框架完成数据业务逻辑应用,其中包含相似度匹配以及相似度排序,最终将匹配结果进行可视化。若有相同实质上的结果,则不以图3为限。

完成该实施例的流程参照图6,主要包括以下5个步骤:

步骤1,获取移动数据;利用现有移动数据,每条数据均为主基站接收的信号数据,保留包括IMSI、StartTime、LocLng以及LocLat字段作为移动定位过程中的必要信息,如图1所示。其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置。

步骤2,获取原始轨迹;根据IMSI查询,即可获得当天时间段内该IMSI对应移动设备的移动数据,每条移动数据即为该移动设备移动轨迹的一个轨迹点,其中,轨迹点信息包括该点的位置坐标(经纬度)以及采样时间t。按照轨迹点的即时时间排序,即可构成个体的运动轨迹,轨迹示意图如图2所示。

步骤3,分时段特征点采样;以半小时为单位,将一天划分为48个时间区间,将采集得到的移动轨迹的轨迹点按照其即时时间,放入每个区间,这样每个时间区间内会有若干按时间排序的轨迹点。在单个时间区间内,通过这些轨迹点的位置坐标可得轨迹经过的地理位置(Lngj,Latj),即时时间差可得到个体在某位置点停留的时间Δtj,将位置停留时间作为计算特征点位置的权重条件,做如下计算。

注:wtj表示位置j在计算特征点时该轨迹点位置的权重,Δtj表示在位置j停留的时间,tTotal表示单个时间区间的总时间。

由每个位置点的权重wtj,得到可以代表该个体在该时间区间的综合位置,如以下公式所示。

注:rix以及riy表示在该时间区间i内特征点的总位置经纬度,该时间区间内的总轨迹点数为m,Lngj以及Latj在该时间区间内经过位置点j的经纬度。

经过以上计算,即可得到一天内库内各轨迹的运动位置情况。

步骤4,相似度计算;根据不同的筛选对象,给这些时间区间赋予不同的权值wpi,权值取值范围:1≤wpi≤2。例如,需要筛选家庭成员,则给予夜间时间区间以较高的权值;需要筛选一起工作学习的团体,则给予日间时间区间以较高的权值。本例中,主要想筛选日间在一起行动的人群,因而,对于9点半到11点半以及2点到5点这两个时间段涉及的时间区间给予1.5的权值。选取IMSI:46000086250****F(由于IMSI有较强的指向性,为了保护移动用户的隐私,故以下涉及到的IMSI均抹去末尾若干位),作为待匹配对象,得到轨迹R,与库中的各轨迹S进行加权的欧氏距离计算,如下公式所示。

注:R,S分别为两条轨迹,两条轨迹的轨迹点数分别为n,E(R,S)为轨迹R与S间的欧式距离,ri,si分别表示轨迹R与S上第i个轨迹点,rix与riy表示ri的位置坐标,six与siy表示si的位置坐标,wpi为相应时间区间的权值,distance(ri,si)表示ri,si间的欧式距离。

步骤5,给出相似度排序表;根据计算得到的欧氏距离,取出距离最小的5条轨迹,作为与之相似度最高的轨迹集,匹配结果如图4所示。借助第三方地图引擎,利用高德地图完成相应的可视化显示,结果如图5所示。

通过上述实施例,本发明提出的一种基于加权欧氏距离的移动轨相似度匹配方法,解决了欧式距离计算过程中维度相同的需求,同时,通过不同位置点停留时间给予不同权重,在计算特征点时起到较好的修正作用,由筛选条件给予时间区间以不同权重,可帮助更好地选取相似度较高的特征人群,由于该方法以欧式距离方法为基础,计算效率较高。

以上实例仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1