一种基于DTW距离的交通流量序列相似性度量方法与流程

文档序号:18451445发布日期:2019-08-17 01:17阅读:1430来源:国知局
一种基于DTW距离的交通流量序列相似性度量方法与流程
本发明涉及交通数据分析
技术领域
,特别是涉及一种基于dtw距离的交通流量序列相似性度量方法。
背景技术
:近年来,随着计算机技术的快速发展,在传感器、无线通信、存储技术等方向的研究不断深入,时间序列数据在交通、互联网、气象、天文、医疗等领域的规模呈爆炸式增长。时间序列的相似性度量是时间序列分类、聚类、异常发现等诸多数据挖掘问题的基础,也是时间序列数据挖掘的核心问题之一。时间序列相似性度量主要是基于距离的度量,即两组序列之间的距离越小,则两个序列越相似。在传统的时间序列相似性度量中,欧氏距离是最常用的衡量两个时间序列相似性的距离。但是欧氏距离对序列在时间轴上的轻微变化非常敏感,时间轴上的微小变形会引起欧氏距离较大变化,造成相似性度量失真。此外,计算欧式距离还要求两个时间序列之间的元素一一对应,这也就导致了欧式距离只适用于元素个数相同的时间序列之间的相似性度量。动态时间归整(dynamictimewarping,简称dtw)是一种时间序列分析算法,dtw算法是语音识别中出现较早、较为经典的一种算法,广泛应用于孤立词识别领域。dtw算法采用动态规划的思想,解决了因语速不同而导致的发音长短不一的模板匹配问题。事实上,不仅仅是语音识别,图片、视频等任何可以转化为一个线性时间序列的数据都可以采用dtw算法进行相似性分析。在交通领域,交通流量时间序列广泛存在,由于交通流运行过程中“时滞”的存在以及在交通流量统计过程中可能存在的数据缺失,导致交通流量时间序列不能采用传统的“一一对应”的方式求取欧式距离来衡量相似性,为此本发明提出了一种基于dtw距离的交通流量序列相似性度量方法,提高了时间序列相似性度量的准确度,同时满足不同长度的时间序列之间的相似性度量。技术实现要素:为了解决以上问题,本发明提供一种基于dtw距离的交通流量序列相似性度量方法,本发明的目的是以dtw距离为指标,对交通流量信息相似性特征予以量化,避免传统方法中采用欧式距离衡量时间序列相似性存在的问题。本发明提供的方法,在交通时间序列数据挖掘领域具有重要的应用价值,为达此目的,本发明提供一种基于dtw距离的交通流量序列相似性度量方法,包括以下步骤:(a)获取需要进行相似性度量分析的若干个交通流量时间序列;(b)任意两个交通流量时间序列划分为一组,组内进行数据标准化处理;(c)计算组内两序列中任意两个元素之间的欧式距离,构成匹配全集矩阵;(d)根据边界条件、连续性、单调性和局部最优等规则,确定最优匹配路径;(e)计算最优匹配路径上各匹配元素之间的平均dtw距离,用于衡量两个序列之间的相似性。本发明的进一步改进,所所述步骤(a)中,交通流量时间序列中的元素内容为固定时间间隔内交通流量的统计值,不同序列中元素的量纲必须相同,元素的个数可以相同也可以不同。本发明的进一步改进,所所述步骤(b)中,采用min-max数据标准化方法对原始序列数据进行线性变换,标准化处理之后的序列元素数值均位于区间[0,1]之间,线性变换公式为:新数据=(原数据-最小值)/(最大值-最小值)。本发明的进一步改进,所所述步骤(c)中,两个序列中元素所有可能的匹配情况构成匹配全集,匹配全集矩阵中第(i,j)个元素为第一个序列中第i个元素和第二个序列中第j个元素之间的欧式距离。本发明的进一步改进,所所述步骤(d)中,边界条件要求两个序列中的第一个元素必须相互匹配,最后一个元素必须相互匹配,连续性和单调性规则要求两个序列中元素的匹配必须是连续且单调的,不能出现跳跃,且必须朝着由前往后的顺序进行匹配。本发明的进一步改进,所所述步骤(d)中,连续性和单调性的匹配规则意味着在第一个序列中的pi元素和第二个序列中的qj元素匹配之后,下一组匹配只能是以下三种情况之一:pi和qj+1匹配、pi+1和qj匹配或者pi+1和qj+1匹配,局部最优规则要求选择上述三种匹配情况中欧式距离最小的一种进行匹配。本发明的进一步改进,所述步骤(e)中,dtw距离可以作为衡量两个序列之间的相似性强弱的度量指标,dtw距离越小,说明两序列之间相似性越强,反之,说明两序列之间相似性越弱。本发明一种基于dtw距离的交通流量序列相似性度量方法与现有技术相比,具有以下技术效果:(1)本发明将智能语音识别领域经典的dtw算法应用到交通流量时间序列相似性度量中,解决了时间序列长短不一的匹配问题,避免了交通流时滞对于时间序列相似性度量的影响,属于经典智能算法的跨学科应用。(2)本发明通过利用dtw距离作为交通流量时间序列的相似性度量指标,使得两序列之间的匹配关系既可以是“一对一”,也可以“一对多”或者“多对一”,从而有效消除序列在时间轴上偏移,使序列相似性的度量更加精确。附图说明图1为本发明方法的总体流程图;图2为本发明实施例1中的匹配全集矩阵;图3为本发明中三种可能的匹配路径方向;图4为本发明实施例1中的最优匹配路径。具体实施方式下面结合附图与具体实施方式对本发明作进一步详细描述:本发明提供一种基于dtw距离的交通流量序列相似性度量方法,本发明的目的是以dtw距离为指标,对交通流量信息相似性特征予以量化,避免传统方法中采用欧式距离衡量时间序列相似性存在的问题。本发明提供的方法,在交通时间序列数据挖掘领域具有重要的应用价值。实施例1:作为一个实施例,已知时间序列r中包含6个元素,时间序列t中包含4个元素,两序列中任意两个元素之间的欧式距离构成匹配全集矩阵,如图2所示。利用本发明提供的方法中的步骤(d),确定两序列之间的最优匹配路径。如图1所示,运用本发明提出的基于dtw距离的交通流量序列相似性度量方法,步骤(d)根据边界条件、连续性、单调性和局部最优等规则,确定最优匹配路径,包括如下步骤:(d1)边界条件规则边界条件要求两个序列中的第一个元素必须相互匹配,最后一个元素必须相互匹配。即r序列中“a”元素和t序列中“1”元素匹配,r序列中“f”元素和t序列中“4”元素匹配,至此,确定了匹配的起终点。(d2)连续性和单调性规则连续性和单调性规则要求两个序列中元素的匹配必须是连续且单调的,不能出现跳跃,且必须朝着由前往后的顺序进行匹配。如图3所示,在第一个序列中的ri元素和第二个序列中的tj元素匹配之后,下一组匹配只能是以下三种情况之一:ri和tj+1匹配、ri+1和tj匹配或者ri+1和tj+1匹配。(d3)局部最优规则局部最优规则要求选择步骤(d2)中给出的三种匹配情况中欧式距离最小的一种情况进行下一步匹配,直至匹配终点。(d31)ra和t1匹配(2),下一步可选范围为:rb和t1匹配(3)、ra和t2匹配(1)、rb和t2匹配(4),其中ra和t2匹配(1)欧式距离最小,选择该匹配路径;(d32)ra和t2匹配(1),下一步可选范围为:rb和t2匹配(4)、ra和t3匹配(5)、rb和t3匹配(8),其中rb和t2匹配(4)欧式距离最小,选择该匹配路径;(d33)rb和t2匹配(4),下一步可选范围为:rc和t2匹配(2)、rb和t3匹配(8)、rc和t3匹配(4),其中rc和t2匹配(2)欧式距离最小,选择该匹配路径;(d34)rc和t2匹配(2),下一步可选范围为:rd和t2匹配(7)、rc和t3匹配(4)、rd和t3匹配(2),其中rd和t3匹配(2)欧式距离最小,选择该匹配路径;(d35)rd和t3匹配(2),下一步可选范围为:re和t3匹配(1)、rd和t4匹配(4)、re和t4匹配(6),其中re和t3匹配(1)欧式距离最小,选择该匹配路径;(d36)re和t3匹配(1),下一步可选范围为:rf和t3匹配(7)、re和t4匹配(6)、rf和t4匹配(5),其中rf和t4匹配(5)欧式距离最小,选择该匹配路径;(d37)rf和t4匹配(5),到达匹配终点,匹配结束。(注:步骤d31至d37中,括号中的数值为匹配元素之间欧式距离。)如图4所示,最优匹配路径为:(ra,t1)、(ra,t2)、(rb,t2)、(rc,t2)、(rd,t3)、(re,t3)、(rf,t4)。实施例2:作为一个实施例,已知城市某三处交叉口的交通流量时间序列如表1所示,统计时间间隔均为5分钟,利用本发明提供的方法分析三个交叉口之间交通流量时间序列之间的相似性。表1交叉口交通流量时间序列数据表(辆/5min)如图1所示,运用本发明提出的基于dtw距离的交通流量序列相似性度量方法,包括如下步骤:(a)获取需要进行相似性度量分析的若干个交通流量时间序列;交通流量时间序列中的元素内容为三个交叉口处以5分钟为时间间隔统计出的交通流量,不同序列中元素的单位均为“辆/5min”,元素的个数均为48个。(b)任意两个交通流量时间序列划分为一组,组内进行数据标准化处理;采用min-max数据标准化方法对原始序列数据进行线性变换,标准化处理之后的序列元素数值均位于区间[0,1]之间,以第一个时间序列p=(p1,p2,...p48)和第二个时间序列q=(q1,q2,...q48)为例,记线性变换后的时间序列分别为p*和q*,线性变换公式为:max=max(p1,p2,...p48,q1,q2,...q48)min=min(p1,p2,...p48,q1,q2,...q48)数据标准化后的交叉口1、2的交通流量时间序列如表2所示。表2数据标准化后交叉口交通流量时间序列(c)计算组内两序列中任意两个元素之间的欧式距离,构成匹配全集矩阵;两个序列中元素所有可能的匹配情况构成匹配全集,匹配全集为一个48×48阶矩阵,矩阵中第(i,j)个元素d(pi,qj)为第一个序列中第i个元素和第二个序列中第j个元素之间的欧式距离,计算公式为:d(pi,qj)=(pi-qj)2(d)根据边界条件、连续性、单调性和局部最优等规则,确定最优匹配路径;(d1)边界条件规则边界条件要求两个序列中的第一个元素必须相互匹配,最后一个元素必须相互匹配。即p序列中p1元素和q序列中q1元素匹配,p序列中p48元素和q序列中q48元素匹配,至此,确定了匹配的起终点。(d2)连续性和单调性规则连续性和单调性规则要求两个序列中元素的匹配必须是连续且单调的,不能出现跳跃,且必须朝着由前往后的顺序进行匹配。如图3所示,在第一个序列中的pi元素和第二个序列中的qj元素匹配之后,下一组匹配只能是以下三种情况之一:pi和qj+1匹配、pi+1和qj匹配或者pi+1和qj+1匹配。(d3)局部最优规则局部最优规则要求选择步骤(d2)中给出的三种匹配情况中欧式距离最小的一种情况进行下一步匹配,直至匹配终点。具体匹配过程鉴于篇幅限制不再详述,计算方法见实施例1。(e)计算最优匹配路径上各匹配元素之间的平均dtw距离,用于衡量两个序列之间的相似性。三个交叉口交通流量时间序列之间的平均dtw距离如表3所示,将dtw距离作为衡量两序列之间的相似性强弱的度量指标,由表3可知,交叉口1和交叉口2之间的dtw距离最小,说明两个交通流量时间序列之间相似性最强;交叉口1和交叉口3之间的dtw距离最大,说明两个交通流量时间序列之间相似性最弱。表3三个交叉口之间dtw距离计算结果交叉口1和交叉口2交叉口1和交叉口3交叉口2和交叉口3dtw距离0.005890.009460.00908以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1