一种时空语义约束的轨迹数据压缩方法

文档序号:31759378发布日期:2022-10-12 02:30阅读:150来源:国知局
一种时空语义约束的轨迹数据压缩方法

1.本发明属于数据管理技术领域,尤其涉及一种时空语义约束的轨迹数据压缩方法。


背景技术:

2.随着全球定位系统和移动终端设备的快速发展和普及,海量时空轨迹数据由此产生。如何对海量的时空轨迹数据进行有效管理和分析挖掘成为当下热门研究领域。中国发明专利cn112035873a公开了一种时空轨迹数据脱敏方法;cn111190891a公开了一种多语义轨迹数据分段存储方法。时空轨迹数据,例如时间戳、设备编号基站编号和时间类型等数据随着时间的推移将产生海量的数据,对存储带来了巨大的挑战。因此时空轨迹数据压缩成为了亟需解决的问题。时空轨迹数据的压缩属于数据管理领域。时空轨迹数据压缩技术可以在尽可能维持原始轨迹与压缩轨迹相似度的情况下减小数据规模,实现时空轨迹数据高效存储和表征,为时空轨迹数据查询、分析和挖掘提供有力支撑。中国发明专利cn112988759a提供了一种时空轨迹数据压缩的处理方法,解决了压缩后无法精确的特征提取导致的数据压缩效率低的问题;它包括:拆分接入的数据,推算完整的基站信息表;以设备编号对数据进行分组并对各组内的多份数据进行排序;生成第一轨迹压缩数据块并建立参数信息;标注轨迹压缩数据块的经纬度;依次对各组内的各份数据进行迭代处理;建立多个轨迹压缩数据块并依次判定各轨迹压缩数据块的种类;计算两相邻静态数据块之间的时差以对其赋值;重复步骤以依次完成对各组轨迹压缩数据块的压缩。
3.传统时空轨迹数据压缩技术在压缩过程中主要关注轨迹点的位置特征,旨在确保压缩轨迹与原始轨迹间的几何形态相似度,却忽略了时空轨迹数据的重要语义信息,使得压缩轨迹缺乏可解释性,不便于人们的理解和应用。而从数据挖掘的角度来看,时空轨迹数据中隐藏的语义信息具有重大价值,是移动对象属性和行为模式的本质反映。因此,研究时空语义约束的轨迹压缩方法、在压缩过程中考虑采样点的语义特征对于增强压缩轨迹的可解释性、提高压缩轨迹的利用价值十分重要。


技术实现要素:

4.本发明目的在于解决传统轨迹数据压缩方法只关注几何形状特征压缩而忽略时空轨迹语义特征,轨迹压缩结果缺乏可解释性的问题。本发明可实现融合语义信息的时空轨迹压缩,可用于时空轨迹数据语义表征及深层次数据挖掘。
5.为解决上述技术问题,本发明的一种时空语义约束的轨迹数据压缩方法的具体技术方案如下:包括以下步骤:
6.s1:设置时间同步的欧氏距离sed阈值和轨迹点语义相似性阈值;
7.s2:获取轨迹t={p1,p2,l,pn}及其近似轨迹simtr={p1,pn};
8.s3:基于轨迹压缩准则对所述轨迹进行压缩;
9.s4:输出压缩轨迹。
10.进一步,所述轨迹压缩准则的方法如下:
11.s31:计算当前轨迹中轨迹点pi的归一化时空语义距离;
12.s32:找到当前轨迹中归一化时空语义距离最大值对应的点,判断该点的sed值或语义相似性是否大于阈值,若是,转步骤s33;若否,转步骤s35;
13.s33:将该轨迹点pi标为特征点,并将当前轨迹从该点处分成两个子轨迹;
14.s34:分别对s33中的每一个子轨迹重复步骤s3;
15.s35:用当前轨迹的近似轨迹代替当前轨迹。
16.进一步,所述步骤s31的计算当前轨迹中轨迹点的归一化时空语义距离方法如下:
17.s311:计算轨迹点pi与其在近似轨迹simtr上按时空比例映射得到的位置点pi′
之间的sed;
18.s312:计算所述轨迹点pi的轨迹点语义相似性;
19.s313:计算所述轨迹点pi的归一化时空语义距离。
20.进一步,所述步骤s311的计算方法如下:
[0021][0022][0023][0024]
所述步骤s312中的轨迹点语义相似性计算方法如下:
[0025][0026]
其中,wk表示分类属性权重,mc表示分类属性个数,h(ak)表示原近似轨迹属性ak的信息熵,h(ak′
)表示原近似轨迹加入所述轨迹点pi后该属性的信息熵;
[0027]
所述步骤s313中的归一化时空语义距离计算方法如下:
[0028][0029]
其中,w1、w2分别对应时空权重和语义权重,sed_max为该子轨迹段上sed最大值,semantic_sim_max为该子轨迹段上轨迹点语义相似性最大值。
[0030]
本发明还提供一种上述方法的应用,所述时空语义约束的轨迹数据压缩方法应用于人类活动轨迹大数据中的语义信息挖掘、飓风活动特征挖掘和动物迁徙规律及习性分析。
[0031]
本发明的时空语义约束的轨迹数据压缩方法,具有以下优点:通过计算找到轨迹中归一化时空语义距离最大值对应的轨迹点,并结合轨迹压缩准则对轨迹进行压缩,以达到压缩轨迹的目的。本发明解决了传统时空轨迹数据压缩技术忽略了时空轨迹数据的重要语义信息的技术问题,使得压缩轨迹富有可解释性,便于人们的理解和应用。
附图说明
[0032]
图1为本发明的方法示意图;
[0033]
图2为本发明的原始轨迹、子轨迹、时空投影轨迹点和近似轨迹simtr定义示意图;
[0034]
图3为本发明的轨迹点pi与其在近似轨迹simtr按时空比例映射得到的位置点pi′
之间的sed示意图;
[0035]
图4为本发明的详细实现方法示意图;
[0036]
图5为本发明的单维语义轨迹压缩实验结果图;
[0037]
图6为本发明的二维语义轨迹压缩实验结果图;
[0038]
图7为本发明的二维语义联合语义保留结果图;
[0039]
图8为本发明的三维语义轨迹压缩实验结果图;
[0040]
图9为本发明的三维语义联合语义保留结果图;
[0041]
图10为采用本发明方法的轨迹数据压缩结果图和td-tr算法轨迹数据压缩结果图。
具体实施方式
[0042]
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种时空语义约束的轨迹数据压缩方法做进一步详细的描述。
[0043]
以下结合附图详细说明本发明的技术方案:
[0044]
本发明的总体流程如图1所示,各概念如图2所示,首先设置时间同步的欧氏距离(time synchronous euclidean distance,sed)阈值α和轨迹点语义相似性阈值β;读取轨迹数据,获取轨迹t及其近似轨迹simtr;通过计算找到轨迹t中归一化时空语义距离最大值对应的轨迹点,并结合轨迹压缩准则对轨迹进行压缩,以达到压缩轨迹的目的。
[0045]
本发明构建基于sed和信息熵的时空语义相似性度量模型,在此基础上通过标记并保留原始时空轨迹的时空语义特征点,舍弃时空语义信息不明显的轨迹点,从而达到时空轨迹数据压缩的目的。本发明的创新点在于综合考虑时空轨迹的时空和语义特性,提供了一种时空语义约束的轨迹压缩方法,将时空轨迹数据的时空信息与语义信息有机结合,提出归一化时空语义距离,以此顾及压缩轨迹与原始轨迹的时空相似性和语义相似性,去除冗余数据,实现时空轨迹数据的压缩。
[0046]
具体步骤如下:
[0047]
s1:设置sed阈值α和轨迹点语义相似性阈值β;
[0048]
s2:获取轨迹t={p1,p2,l,pn}及其近似轨迹simtr={p1,pn};
[0049]
s3:根据轨迹压缩准则压缩轨迹,具体方法步骤如下:
[0050]
s31:计算当前轨迹中所有轨迹点p的归一化时空语义距离,具体步骤如下:
[0051]
s311:如图3所示,计算轨迹点pi与其在近似轨迹simtr上按时空比例映射得到的位置点pi′
之间的sed,计算公式如下:
[0052][0053][0054]
[0055]
s312:计算所述轨迹点pi的轨迹点语义相似性:
[0056]
所述轨迹点pi的轨迹点语义相似性定义为pi加入近似轨迹simtr引起的近似轨迹simtr属性熵的变化,计算公式如下:
[0057][0058]
其中,wk表示分类属性权重,mc表示分类属性个数,h(ak)表示原近似轨迹属性ak的信息熵,h(ak′
)表示原近似轨迹加入所述轨迹点pi后该属性的信息熵;
[0059]
s313:计算所述轨迹点pi的归一化时空语义距离:
[0060]
为了将时空和语义数据进行统一,本发明定义轨迹点pi的归一化时空语义距离如下:
[0061][0062]
其中,w1、w2分别对应时空权重和语义权重,sed_max为该子轨迹段上sed最大值,semantic_sim_max为该子轨迹段上轨迹点语义相似性最大值;
[0063]
s32:找到当前轨迹上归一化时空语义距离最大点pk,并判断pk对应的sed
pk
是否大于阈值α或semantic_sim(pi)是否大于阈值β,如图4所示:若是,转步骤s33;若否,转步骤s35;
[0064]
s33:将所述pk标记为特征点,并将当前子轨迹t从所述pk处分成子轨迹tr1={p1,p2,l,pk}和子轨迹tr2={pk,p
k+1
,l,pn};
[0065]
s34:分别对子轨迹tr1和子轨迹tr2重复步骤s3;
[0066]
s35:用当前轨迹的近似轨迹代替当前轨迹。
[0067]
本发明涉及时空语义约束的轨迹数据压缩方法,通过保留时空轨迹的时空语义特征点,使得压缩后的时空轨迹具有可解释性,从而有助于大规模轨迹数据的分析与挖掘。本发明主要可应用于分析发掘时空环境中移动对象个体运动状态及活动规律场景,例如人类活动轨迹大数据中的语义信息挖掘、飓风活动特征挖掘、动物迁徙规律及习性分析等。
[0068]
本发明根据三组不同的时空轨迹数据(轨迹一、轨迹二、轨迹三),并分别赋予每组时空轨迹数据单维、二维及三维语义,从而观察经本发明方法压缩过后的时空轨迹数据对原始时空轨迹数据语义信息的保留能力,并将实验结果与同压缩率下的传统的基于时间比例的自顶向下的压缩算法(top-down time-ratio,td-tr)进行对比,结果分别如图5至图10所示,其中,“/”代表原始轨迹,
“★”
代表经本发明压缩过后的轨迹,“.”代表经传统压缩方法td-tr压缩后的轨迹,此外值得说明的是,语义值1代表普通语义点,而语义值2至语义值10代表重要语义点。毫无疑问,若压缩轨迹保留了原始轨迹更多的重要语义点,就会舍弃更多的普通语义点。
[0069]
图5所示为只具有单维语义的时空轨迹数据压缩情况,经本发明压缩过后的时空轨迹点数量在语义值2至10处比经传统td-tr算法压缩过后的轨迹点数量更多,说明本发明保留原始轨迹重要语义点能力更强。
[0070]
图6所示为具有二维语义的时空轨迹数据压缩情况,其中每一组轨迹对应两个语义保留图,可以看出,本发明在保留原始轨迹二维语义上仍具有较好的能力,对每一维重要语义的保留都大于传统td-tr算法。
[0071]
图7所示为二维语义联合语义保留结果图,此图基于一个事实,若某个轨迹点同时包含两个维度重要语义属性,则说明该点相较于只具备单维语义的时空轨迹点而言具有更重要的语义特征,从而更应该被保留。从图7可以看出,本发明极大地保留了原始时空轨迹的重要语义联合点,进一步说明经本发明压缩过后保留的重要时空轨迹语义信息与原始轨迹语义信息上更为相似。
[0072]
图8所示为具有三维语义的时空轨迹数据压缩情况,其中每一组轨迹对应三个语义保留图,从整体上可以看出,本发明仍能较好地保持时空轨迹数据每一维语义特征的重要语义信息。
[0073]
图9所示为三维语义联合语义保留结果图,由于该组实验中的时空轨迹数据具有三维语义,因此联合语义点可分为二维联合语义点和三维联合语义点,分别对应同时具有二维重要语义轨迹点和同时具有三维重要语义轨迹点,显然地,三维联合语义点比二维联合语义点在语义上更为重要。从图9可以看出,经本发明压缩过后的时空轨迹极大地保留了原始轨迹的二维联合语义点,且几乎识别出了原始轨迹所有的三维联合语义点,在同等压缩率的情况下对原始轨迹重要语义特征的保留能力远远大于传统td-tr算法,验证了本发明的有效性。
[0074]
此外,为了直观地看出本发明在时空轨迹点取舍上的方式与传统算法的不同,本发明取部分轨迹压缩结果图进行展示,图10为单维语义压缩结果图,其中,圆点代表原始轨迹点,矩形代表压缩轨迹点,三角形代表压缩后保留的重要语义点,由于该单维语义又包含9种不同的重要语义信息,难于分类展示,因此本发明统一用三角形表示,但理应知道相同的三角形蕴含的重要语义信息不一定相同。从图10可以看出,在相同压缩率下,本发明(图10(a))与传统td-tr算法(图10(b))均能较好地保持原始轨迹的基本形状特征,而从圈出的细节可以看出,由于采用了归一化时空语义距离作为度量标准,本发明更能识别出原始轨迹的重要语义特征点,在轨迹点位置相近的地方更倾向于保留重要语义特征点,因此相较于传统td-tr算法而言,经本发明压缩后的轨迹和原始轨迹之间具有更高的语义相似性。
[0075]
综上所述,在相同压缩率的前提下,本发明较传统td-tr算法而言,在保留原始轨迹时空特征的同时,压缩轨迹具有更好的语义特征相似性,有助于基于轨迹数据的分析与挖掘。
[0076]
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本技术的权利要求范围内的实施例都属于本发明所保护的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1