一种基于自适应时间戳与多尺度特征提取的轨迹预测方法与流程

文档序号:24695431发布日期:2021-04-16 11:47阅读:196来源:国知局
一种基于自适应时间戳与多尺度特征提取的轨迹预测方法与流程

1.本发明涉及轨迹预测技术领域,尤其涉及一种基于自适应时间戳与多尺度特征提取的轨 迹预测方法。


背景技术:

2.随着基于位置社交网络(location based social network,lbsn)的快速发展,越来越多基 于时空背景的可用信息能够被收集起来用于研究人群移动性。一般,时空背景下的可用信息 指的是包含了用户签到时间和地点的数据,这些数据的产生催生了海量有价值的应用,如用 户下一个地点预测。通常,用户下一个地点预测旨在通过挖掘用户历史移动信息预测未来移 动模式,近年来,根据用户的历史签入数据预测用户下一个足迹可以运用于诸多应用领域, 例如为出租车司机预测下一个可能出现潜在客户的地点,为私家车预测下一个可能发生交通 拥堵的地点等。
3.目前已提出一些解决方案来预测用户下一个足迹(poi),包括递归运动函数(rmf), 矩阵分解(mf),差分自回归移动平均模型(arima),马尔可夫链(mc),个性化马尔可 夫链(fpmc),卡尔曼滤波器(kf),高斯混合模型和张量分解(tf)。除此之外,也可以使 用诸如st

rnn,poi2vec,deepmove,vanext等深度神经网络方法来预测用户的下一个足迹, 这些方法中利用递归神经网络(rnn)捕获来自人类活动的顺序运动模式。利用深度学习技 术特别是递归神经网络模型能够对时序信息进行良好的建模,因此广泛应用于预测用户的下 一个poi。虽然上述提到的方法已经取得不错的结果,但是已有方法依然存在一些不可避免 的挑战:
4.(1)手工轨迹分割,地点预测需要通过将用户历史长轨迹分割成若干子轨迹来进行模式 学习,然而已有工作对于轨迹分割的时间戳定义通常采用人为预定义方式,人为因素的介入 可能影响模型预测的准确度。
5.(2)无差别时间戳划分,传统方法通常对于不同用户的移动轨迹分割时间戳进行无差别 定义,从而忽略了不同用户运动模式之间的差异性;
6.(3)特征单一性,传统方法通常使用用户轨迹数据中的地理位置作为当前轨迹的特征, 单一性的特征提取忽略了很多轨迹潜在信息;
7.(4)特征无量纲化,当轨迹有多尺度特征时,无量纲化特征会忽略特征之间的优先级;
8.(5)轨迹签到稀疏性,用户签入行为与gps采样频率相比有明显差别,个性化签入行 为使得用户移动轨迹中可能只有少量的用户签入,因此存在影响预测准确率的可能。


技术实现要素:

9.本发明的目的在于克服现有技术的不足,提供一种基于自适应时间戳与多尺度特征提取 的轨迹预测方法。
10.本发明的目的是通过以下技术方案来实现的:
11.一种基于自适应时间戳与多尺度特征提取的轨迹预测方法,包括以下步骤:
12.s1:根据用户的签入点数据的特殊性,分析签入点时间特性,确定用户的自适应轨迹切 割时间戳;
13.s2:根据用户的自适应时间戳,对用户轨迹进行切割,来拟合用户的运动模式;
14.s3:使用基于多方法集成的轨迹时间序列特征提取方法对用户历史轨迹进行特征提取;
15.s4:对特征向量进行归一化处理,统一多尺度特征量纲;
16.s5:通过lstm网络模型和分类器预测下一个poi。
17.进一步的,所述轨迹时间序列特征提取方法是通过结合小波变换、多重分形和统计分析 集成的,用于提取三种不同的轨迹时间序列特征。
18.进一步的,所述小波变换包括以下步骤:
19.s311:利用小波变换对原始轨迹时间序列进行降噪;
20.s312:对经过去噪的时间序列进行两层分解;
21.s313:提取平均高频子波系数作为轨迹时间序列特征一。
22.进一步的,所述多重分形包括以下步骤:
23.s321:利用小波变换对原始轨迹时间序列进行降噪;
24.s322:采用多重分形方法提取轨迹时间序列特征二。
25.进一步的,所述统计分析包括以下步骤:
26.s331:根据统计特征计算方法计算轨迹时间序列统计特征;
27.s332:提取时间均值、位置众数作为轨迹时间序列特征三。
28.进一步的,所述s4具体包括以下步骤:
29.s401:使用因果poi嵌入模型将轨迹签入点数据映射到低维空间中,生成一个固定长度 的向量;
30.s402:对得到的向量进行归一化处理,统一特征向量量纲。
31.本发明的有益效果:
32.(1)利用数据的统计特性来确定每一个用户的自适应时间戳大小,避免了人为划分的主 观性;
33.(2)将轨迹数据看做一条用户位置随时间变化的轨迹时间序列,提出了一种集成小波变 换、多重分形和统计的轨迹时间序列特征提取方法,从而更好的关注轨迹潜在信息;
34.(3)对轨迹数据多尺度特征采用归一化因果嵌入,通过将特征向量归一化处理,从而实 现多尺度特征量纲统一化;
35.(4)经实验证明,本发明方法的预测精度更高。
附图说明
36.图1是本发明的方法流程图。
37.图2是本发明的基于自适应时间戳与多尺度特征提取的轨迹预测模型的框架图。
38.图3是本发明中在newyork中vanext和adaptivenext方法的准确率柱状对比图。
39.图4是本发明中在tokyo中vanext和adaptivenext方法的准确率柱状对比图。
40.图5是本发明中在newyork中传统方法与amsnext准确率柱状对比图。
41.图6是本发明中在tokyo中传统方法与amsnext准确率柱状对比图。
具体实施方式
42.为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具 体实施方式。
43.本实施例中,如图1所示,一种基于自适应时间戳与多尺度特征提取的轨迹预测方法, 包括以下步骤:
44.s1:根据用户的签入点数据的特殊性,分析签入点时间特性,确定用户的自适应轨迹切 割时间戳;
45.s2:根据用户的自适应时间戳,对用户轨迹进行切割,来拟合用户的运动模式;
46.s3:通过使用结合小波变换、多重分形和统计分析集成的轨迹时间序列特征提取方法对 用户历史轨迹进行特征提取,得到三种不同的轨迹时间序列特征;
47.s4:使用因果poi嵌入模型将轨迹签入点数据映射到低维空间中,生成一个固定长度的 向量,并对得到的向量进行归一化处理,统一特征向量量纲
48.s5:通过lstm网络模型和分类器预测下一个poi。
49.其中,所述小波变换包括以下步骤:
50.s311:利用小波变换对原始轨迹时间序列进行降噪;
51.s312:对经过去噪的时间序列进行两层分解;
52.s313:提取平均高频子波系数作为轨迹时间序列特征一。
53.其中,所述多重分形包括以下步骤:
54.s321:利用小波变换对原始轨迹时间序列进行降噪;
55.s322:采用多重分形方法提取轨迹时间序列特征二。
56.其中,所述统计分析包括以下步骤:
57.s331:根据统计特征计算方法计算轨迹时间序列统计特征;
58.s332:提取时间均值、位置众数作为轨迹时间序列特征三。
59.实施例1,如图2所示,将上述方法通过构建基于自适应时间戳与多尺度特征提取的轨迹 预测模型实现,并进行了实验验证。
60.其中,将基于自适应时间戳与多尺度特征提取的轨迹预测模型的框架分为五部分,包括:
61.(1)时间戳定义层:根据不同用户的签入点数据的特殊性,分析签入点时间特性,确定 不同用户的自适应轨迹切割时间戳;
62.(2)轨迹切割层:使用不同用户的自适应时间戳,对用户轨迹进行切割,来拟合用户的 运动模式;
63.(3)轨迹特征提取层:结合小波、分形和统计三种方法,利用多方法集成轨迹时间序列 特征提取方法针对用户历史轨迹进行特征提取;
64.(4)轨迹归一化因果嵌入层:使用因果poi嵌入模型将轨迹签入点数据映射到低维空间 中,生成一个固定长度的向量,便于后期数学处理;使用z

score归一化处理解决特征向量之 间量纲不一致的问题;
65.(5)轨迹建模和分类层:使用lstm模型和分类器来完成对于下一个poi的预测。
66.需要理解的是,所述时间戳通过结合用户签到时间间隔的众数和平均数两大统计特性对 轨迹数据中的不同用户的签入时间间隔进行分析与研究。
67.表1符号说明
[0068][0069][0070]
一个用户的一个签入点表示为l=(id,t,lo,la),使用一个用户两个相邻签入点之间的时间 差来表示该用户签到的一个时间间隔,那么每一个用户形成的一个时间间隔 序列代表的就是用户的轨迹数据时间间隔特征。通过对于这些时间间隔序列的统计特性进行 研究和分析,从而找到针对每一个用户的个性化自适应时间戳(ts
u
),利用这个自适应时间 戳对用户的轨迹进行切割,将会更好的贴合每一个用户所特有的轨迹运动模式。
[0071]
其中,平均数指的是在一组序列中序列的总和除以数列的个数。它关注于序列中数的平 均水平,从而可以减少过大或者过小的数对于整个序列的影响情况,并且能够一定程度的反 映序列的统计特性。在用户的时间间隔序列中,使用时间间隔序列的平均数能够减少较大间 隔和较小间隔对于用户运动轨迹模式规律性的影响。
[0072]
假设一个用户有n个签入点数据,那么就有n个时间间隔(n=n

1),该用户的时间间 隔序列表示为s=(δt1,δt2,δt3...δt
n
),将该用户的时间间隔平均数表示为:
[0073][0074]
其中a表示该用户签入点间时间间隔的平均数,δt
i
表示该用户第i个签入点与第(i+1) 个签入点之间的时间间隔。
[0075]
需要理解的是,众数指的就是在一组序列当中出现次数最多的数。它关注于序列当中所 有的数在整体之中出现的次数,一个数出现次数的多少反映了该数在序列中的重要性,因此 众数作为出现次数最多的数能够一定程度上反映这个序列的相关统计特性,所
以可以使用众 数作为这个序列的代表值。在用户的时间间隔序列中,使用时间间隔序列的众数在一定程度 上反映了该用户运动模式的规律性。
[0076]
假设一个用户有n个签入点数据,那么就有n个时间间隔(n=n

1),该用户的时间间 隔序列表示为s=(δt1,δt2,δt3...δt
n
),将该用户的时间间隔众数表示为:
[0077]
m=a

3(a

md)
ꢀꢀꢀ
(2)
[0078]
其中m表示该用户签入点间时间间隔的众数,a表示该用户签入点间时间间隔的均值, md表示该用户签入点时间间隔的中位数。
[0079]
需要理解的是,将用户的一个签入点表示为l=(id,t,lo,la),根据划分时间间隔将用户 轨迹数据划分成一条条轨迹,l
i
表示该轨迹中第i个签入点数据,n表示该轨迹中总共包含的 签入点个数。
[0080]
利用划分好的轨迹,使用基于多方法集成的轨迹时间序列特征提取方法,使用小波变换、 多重分形以及统计分析的方法对用户短轨迹进行特征提取,将提取出来的轨迹特征(d1,d2)、 (δα,δf)和(et,p
m
)分别放到数据词典中形成了三个轨迹特征词典(td1,td2,td3),
[0081]
td1,td2,td3=∑d1,d2+∑δα,δf+∑e
t
,p
m
ꢀꢀꢀ
(3)
[0082]
其中,(d1,d2)为使用小波变换得到的用户轨迹特征;(δα,δf)为使用多重分形 得到的用户轨迹特征;(et,p
m
)为使用统计分析得到的用户轨迹特征。
[0083]
将用户轨迹下一poi预测的问题看作一个多分类的问题,已知给定用户的轨迹签入数据 <l
u

m
,l
u

m+1
,...,l
u
‑1,l
u
>,其中l表示用户的一个签入点,利用自适应时间戳切割出用户当前轨迹 t=<l
u

m
l
u

n+1
,...,l
u
‑1,l
u
>,使用多方法集成特征提取方法对轨迹数据进行多尺度特征提取,然后 对轨迹特征进行归一化因果嵌入,使用嵌入向量训练模型来预测用户的下一个足迹(下一 poi)。
[0084]
为确定自适应时间戳,我们将获取用户历史轨迹中签入点的时间间隔序列,使用公式(1) 和公式(2)求得当前用户的时间戳。为得到用户轨迹特征词典,我们将使用公式(3)求得 当前用户的轨迹特征词典。
[0085]
一、时间戳定义层。
[0086]
为了确定每一个独立的用户的自适应时间戳,本方案设计了一个算法(自适应时间戳计 算算法adaptivenext)来确定不同用户的两种自适应时间戳满足不同用户的个性化。在算法 中采用了上述中提到的公式(1)和公式(2)。
[0087]
输入:用户id,用户轨迹签入点数据列表t,用户时间间隔列表ti;
[0088]
输出:用户的自适应时间戳;
[0089]
1)for t in t:
[0090]
2)tigettimeinterval(t,t,δt);/*根据用户签入点数据t计算相邻签入点之 间的时间间隔放到列表ti中*/
[0091]
3)for ti in ti:
[0092]
4)sumgettisum(ti,ti);/*根据用户时间间隔列表ti计算时间间隔总和sum*/
[0093]
5)md=t[len(t)/2];/*根据用户时间间隔列表ti计算时间间隔中位数md*/
[0094]
6)a=sum/len(ti);/*用户平均数时间戳*/
[0095]
7)m=a

3(a

md);/*用户众数时间戳*/
[0096]
8)ts
u
=a or m;
[0097]
9)end;
[0098]
根据上述算法,能够针对不同用户自适应确定时间戳,相比人为固定时间戳而言能够更 好的拟合不同用户的运动模式。
[0099]
二、轨迹切割层。
[0100]
用户当前的行为特征与最近的行为特征存在很大的联系,但是与时间比较早的行为之间 可能存在很大的不同,因此当对用户的下一地点进行预测的时候,我们需要确定参考的历史 签入点的数目n。因此在轨迹切割层将会利用上一层所得到的不同用户的自适应时间戳来对 历史轨迹进行切割从而得到需要进行分析的短轨迹t=<l
t

m
l
t
‑1>。
[0101]
三、轨迹特征提取层。
[0102]
本方案将轨迹时间序列看做一个用户位置随时间不断变化的时间序列,因此本方案采用 多方法集成的思想,结合小波、分形和统计三种方法提出一种轨迹时间序列的特征提取方法, 具体步骤如下所示:
[0103]
步骤一:根据小波在信号噪声分离和降噪方面的优势,以及小波变换技术对多种时间序 列信号的广泛适应性;
[0104]
1)利用小波变换对原始轨迹时间序列进行降噪;
[0105]
2)对经过去噪的时间序列进行两层分解;
[0106]
3)提取平均高频子波系数作为轨迹时间序列特征(d1,d2)。
[0107]
步骤二:根据轨迹时间序列数据的特征,采用多重分形方法以多尺度提取经过去噪和重 建的轨迹时间序列的多重分形特征,以达到充分表征明显的周期性的目的;
[0108]
1)利用小波变换对原始轨迹时间序列进行降噪;
[0109]
2)采用多重分形方法提取轨迹时间序列特征(δα,δf)。
[0110]
步骤三:根据轨迹时间序列特征,提取轨迹时间序列的相关统计特征;
[0111]
1)根据统计特征计算方法计算轨迹时间序列统计特征;
[0112]
2)提取时间均值、位置众数作为轨迹时间序列特征(e
t
,p
m
)。
[0113]
经过以上步骤,能够提取轨迹时间序列的三种不同特征,为后续操作打下基础。
[0114]
四、轨迹归一化因果嵌入层。
[0115]
当一条轨迹有多尺度特征时,由于特征自身在进行因果poi词向量嵌入的时候彼此之间 采用的量纲为不同的,为了解决这种量纲不一致带来的特征之间优先级的问题,本方案只用 归一化嵌入的方式对特征进行平等化。
[0116]
为了保存轨迹之间的关联性我们使用因果poi词向量嵌入模型。因果poi词向量嵌入模 型能够将当前轨迹出现的概率仅与之前历史足迹相关<t
i

w
,t
i
>,其中w表示在模型中设置的 窗口长度大小。该模型实际上是一个简化的神经网络模型,包括输入层、隐层以及输出层。 输入层输入的是one

hot向量,隐层没有激活函数,也就是隐层包含的是线性单元,然后使 用如公式(4)所示的softmax函数回归,最终得到输出层的轨迹初始嵌入向量。
[0117][0118]
其中v∈r
|l|
×
d
,l表示轨迹数据集中用户轨迹的数量,d表示每一个轨迹的维度,l
t
的度量标准的含义如下:
[0137]
top@1表示预测准确率;
[0138]
top@5表示预测的结果位于可能出现概率的前5名;
[0139]
top@10表示预测的结果位于可能出现概率的前10名。
[0140]
二、数据集。
[0141]
foursquare数据集都是用户轨迹签入点数据集,数据集中包含的内容为用户id、签入时 间、签入地点等信息。对于foursquare数据集,选取两个最受欢迎的城市(newyork、tokyo) 当中所有的用户的轨迹签入点数据进行实验。
[0142]
表2描述了两个城市数据集的相关特性:|u|表示用户的数目,|d
l
/d

|表示训练集和测试集 当中轨迹数目,|t|表示每一个数据集当中签入点的总个数。通过表2可以看出当使用不同的 切割时间戳对相同训练集的轨迹数据进行切割的时候,我们将会得到不同数目的轨迹用于训 练网络;而针对测试集我们选择相同的时间戳进行切割从而得到相同的测试集,我们选择的 测试集时间戳是6小时。
[0143]
表2数据集相关特性
[0144][0145]
三、实验结果。
[0146]
1)自适应时间戳算法实验结果。
[0147]
将在每一个数据集上分别使用固定时间戳方法(vanext)和本方案的自适应时间戳方法 (adaptivenext)进行5组对比实验,分别测试使用三种不同的人为设置固定时间戳和使用两 种不同的自适应时间戳切割轨迹对于用户下一足迹预测准确率的影响情况。
[0148]
在表3中,将最高准确率加粗便于观察,通过这个表以及图3和图4可以看出使用自适 应时间戳均值(a)来切割轨迹进行用户下一足迹预测所获得的准确率与人为设定的固定时 间戳12小时得到的准确率较为接近;使用自适应时间戳众数(m)作为轨迹切割的时间戳时, 预测用户下一足迹的准确率明显比使用任何一种人为设定固定时间戳的准确率高很多。
[0149]
由此可以认为本方案提出的自适应时间戳确定方法(adaptivenext)相比以前的方法能够 更好的提高poi预测精度。
[0150]
表3 vanext与adaptivenext实验结果对比
[0151]
[0152]
2)模型预测准确率实验结果。
[0153]
将在每一个数据集上使用相同的一种自适应时间戳(m)切割轨迹,然后分别使用传统 轨迹预测模型与基于自适应时间戳与多尺度特征提取的轨迹预测模型(amsnext)进行对比 实验,在传统轨迹预测模型中使用传统特征提取与嵌入方法(trafeature)对轨迹特征进行处 理,在基于自适应时间戳与多尺度特征提取的轨迹预测模型中使用多尺度特征提取与归一化 因果嵌入方法(mifne)对轨迹特征进行处理。
[0154]
过表4以及图5和图6可以看出当使用相同的时间戳进行轨迹切分之后,使用本方案提 出的基于自适应时间戳与多尺度特征提取的轨迹预测模型比以往传统的轨迹预测模型能够获 得更高的预测准确率。由此可以认为本方案提出的基于自适应时间戳与多尺度特征提取的轨 迹预测模型在一定程度上解决了人为固定时间戳定义、轨迹特征单一性以及特征向量嵌入量 纲不统一给用户轨迹预测带来的问题,能够更好的提高预测精度。
[0155]
表4传统方法与amsnext实验结果对比
[0156][0157]
本发明提出了一种基于自适应时间戳与多尺度特征提取的轨迹预测模型,该模型中首次 提出一种新颖的对于个性化用户的自适应时间戳的理论定义方式,而不是采用人为的固定定 义;为多方位更全面的关注轨迹特征,该模型使用时间序列特征提取方法多尺度提取轨迹特 征;同时为统一特征之间的量纲,该模型采用归一化因果嵌入方式对特征进行向量嵌入。我 们使用该模型完成了对于用户下一个poi的预测。我们未来工作的一部分将关注数据的空间 统计特性,从而完成对于空间区域的划分,针对不同区域用户进行预测与分析;另外一部分 将会关注对于稀疏轨迹数据信息不全的解决方案。
[0158]
本发明通过结合历史轨迹数据的时间统计特性,自适应地为每一个用户定义个性化时间 戳,关注不同用户运动模式之间的差异性;并结合时间序列特征提取方法多尺度对用户轨迹 特征进行提取,同时为实现多尺度特征量纲统一将会采取归一化因果嵌入对特征进行向量嵌 入,解决了人为固定时间戳定义、轨迹特征单一性以及特征向量嵌入量纲不统一给用户轨迹 预测带来的问题,避免人为因素对于预测准确率的影响,达到提高预测精度的效果。
[0159]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应 该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原 理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进 都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求
书及其等效物界 定。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1