一种基于时空宽度学习的交通速度预测方法与流程

文档序号:16326767发布日期:2018-12-19 05:57阅读:282来源:国知局
一种基于时空宽度学习的交通速度预测方法与流程
本发明属于交通时序数据分析和预测研究领域,特别是涉及一种基于时空相关性和宽度学习的交通速度预测方法。
背景技术
21世纪以来,人口数量急剧增长,城市化进程飞速发展,路网总量和机动车数量不断增长,交通拥堵状况越来越严重。准确合理地预估交通车速,实时评价交通状况,可以有效地疏导交通,显著改善交通拥堵状况,并且可以辅助管理者合理地实施交通管制,对保护人民生命财产,维护公共安全以及提升城市形象有着及其重要的意义。交通速度是一种时间序列数据,具有临近性和周期性的特点。前人对此已经做了相应的研究和探讨,目前,对交通速度预测的方法主要有传统的时间序列模型,如arima。近几年,随着人工智能和数据挖掘等技术的发展,一些机器学习方法,如支持向量回归、神经网络模型等也被广泛地运用在交通预测中。其中,传统的时间序列模型,由于其是基于线性的,难以模拟道路的真实状况,且没有考虑数据的周期性。而神经网络等机器学习模型不但需要较长的训练时间,而且容易造成模型过拟合等问题,难以实现对实际交通速度实时预测。此外,现存的方法大多是对某一条道路单独建模,而忽略其他相关路段的影响。但实际上,由于城市交通网的存在,不同道路之间的车流量、车速等存在一定关系,即不同道路间会相互影响。基于单一道路的模型并不能很好地运用在实际的城市道路预测中,基于此,本发明考虑了相关路段的相互影响。此外,由于交通速度数据是一种时序性数据,本发明采用慢特征分析的方法有效提取交通速度数据中变化缓慢的特征。又由于天气和节假日等随机因素会对交通速度造成一定程度的影响,本发明引入了天气和节假日等随机因素。综上,本发明所提出的基于时空宽度学习的交通速度预测方法,既考虑了相关路段的影响,又有效提取了时序数据的慢特征,且融入了天气和节假日因素的影响。模型的训练上,采用了与宽度学习结构相似的模型,其训练时间短,拟合效果好。同时引入了l1和l2正则化来防止模型的过拟合。到目前为止,尚未见到与本发明相关的研究报道。技术实现要素:本发明的目的在于针对现有交通速度预测方法的不足,提供一种基于时空宽度学习的交通速度预测方法。本发明的目的是通过以下技术方案来实现的:一种基于时空宽度学习的交通速度预测方法,该方法包括以下步骤:步骤1:建模数据预处理:对各路段的速度数据和对应时刻的天气类型、节假日类型进行预处理。对于速度数据,将获取的车辆速度数据按照不同路段分类,按时间先后顺序排序。对需要分析的每一个路段,选取第k时刻之后的1小时作为时间间隔,k表示该时间间隔的起点,用该时间间隔内该路段上速度的平均值来代替第k时刻的速度。k=0,1,2,…,23,即每个时间间隔的起点为整点,从而每个路段每天被分割成24个时刻(0点到23点),每一个时刻对应一个固定的速度值。则路段i在m天内获得的速度向量可以表示为vit(1×24m),其中,i为路段代号,i=1,2,…,l,l为路段总数。对于天气,按照降水量大小将其分类,分别用不同标签表示;将日期类型分为三类:工作日、周末、节假日,分别用不同标签表示;获取上述速度变量对应时刻的天气和日期类型,路段i在m天内的天气数据表示为wit(1×24m),日期类别数据表示为dit(1×24m)。步骤2:搜寻对预测路段的速度有影响的路段,并定义为待预测路段的相关路段:(2.1)设c为待预测路段代号。删掉vct的第一个样本和vit(i=1,2,…,l,i≠c)的最后一个样本后重新对齐,构成l个新的速度向量vit(1×24m)。(2.2)对于l个新的速度向量vit(1×24m),(i=1,2,…,l),用一个长度为k个样本的一维滑动窗口滑过vit(1×24m),每次向后滑动12个样本,那么一共可以滑动z次,其中z=(24m-k)/12。将路段i在第j个滑动窗口中的数据所组成的列向量记为则所有路段在第j个滑动窗口中的列向量组成一个矩阵窗口移动z次共得到z个矩阵,对于第j个矩阵,按照下式计算与其他l-1个列向量的相关系数其中,vnckj为路段c在第j个滑动窗口中的数据所组成的列向量中的第k个元素;为vnckj的均值,为vnikj的均值,那么,路段c与任意路段i的速度滑动相关程度系数定义为rci,由下式得到:(2.3)然后依据rci确定相关路段:将rci按照降序排列,从中选取前f个最大值所对应的路段代号i,则相关路段确定完毕。表示在除路段c以外的路段中选取了f个与路段c相关的路段,其路段代号记为r1,r2,...,rf,这些相关路段的速度将作为变量用于预测模型的建立。步骤3:确定模型的输入变量对于路段代号为c的待预测路段,在第m~m天内,采用如下四部分的样本对第t时刻的交通速度vc(t)进行预测:第一部分为:路段c在t-24m,t-24(m-1),...,t-24时刻的速度;第二部分为:路段c在t-n,t-(n-1),...t-1时刻的速度;第三部分为:步骤二所述的f个与路段c相关的路段在(t-1)时刻的速度vr1,vr2,...,vrf;第四部分为:路段c在t时刻的天气和时间类型wc(t),dc(t)。路段c在t-24m,t-24(m-1),...,t-24时刻的速度、路段c在t-n,t-(n-1),...t-1时刻的速度、步骤二所述的f个与路段c相关的路段在(t-1)时刻的速度vr1,vr2,...,vrf、路段c在t时刻的天气和时间类型wc(t),dc(t)依次构成长度为m+n+f+2的预测变量。24(m-m)个预测变量和响应变量组成维度为24(m-m)×(m+n+f+2)的预测变量矩阵x'和维度为24(m-m)×1的响应变量矩阵y。步骤4:提取速度变量的慢特征(4.1)取步骤3中所述预测变量矩阵x'的前m+n+f列,作为速度变量矩阵x'1,对于x'1的第i列x1i',进行如下式所示的减均值的中心化处理:x1i=x1i'-var(x1i')(12)其中,i=1,2,…,m+n+f,var(x1i')表示x1的第i列的均值。中心化处理后的x1i组成新的变量矩阵x1。(4.2)构造x1的协方差矩阵,并进行svd分解,如下式所示:x1x1t=uλut(13)按下式进行白化处理:b=λ-1/2utx1=qx1(14)其中,b为白化后的矩阵,q=λ-1/2ut是白化矩阵。(4.3)对b的第二行开始的每一行减去前一行所得到的差分矩阵再进行svd分解,求解得到正交矩阵p,ω表示对角矩阵。则静态慢特征s1=pb=wx1,其中,w=pq。(4.4)对s1进行行向量差分,从第2行开始,每行减去上一行得到新的矩阵,即得到动态慢特征s2。(4.5)去掉s1的第一行,与s2按行方向进行拼接,得到特征维度为2(m+n+f)的速度慢特征矩阵s。步骤5:建立基于时空宽度学习的交通速度预测模型;步骤6:在线预测;(6.1)对测试样本,首先执行步骤1到步骤3,得到测试样本的待预测变量矩阵xt(p×(m+n+f+2))和响应变量矩阵yt(p×1),p为测试样本个数。(6.2)取xt的前m+n+f列为速度变量矩阵首先对的每一列进行与训练集相同的中心化处理。然后按下式提取静态慢特征:其中w为步骤(4.3)中获取的w。对求行向量差分,第1行减去训练集的最后一行,从第2行开始,每行减去前一行。这样得到一个新的矩阵,即是动态慢特征将与进行行方向的拼接,得到p×(2m+2n+2f)维的速度慢特征矩阵st。(6.3)将速度慢特征矩阵st与对应的天气因素wt和节假日因素dt代入步骤5所建立的预测模型,得到预测结果进一步地,所述步骤5包括以下子步骤:(5.1)构建网络的特征节点。将静态慢特征s1和动态慢特征s2作为由原始数据映射得到的特征节点,s1作为第一组映射特征,记为z1;s2作为第二组映射特征,记为z2;对应时刻的天气因素和节假日因素[wc,dc]记为z3。给定记号z=[z1,z2,z3]表示两组映射特征和其他特征。(5.2)构造增强节点:其中,ξj是第j组增强节点的激活函数,是第j组增强节点的随机权重系数矩阵,为第j组增强节点的偏置项。前g组增强节点被记为hg=[h1,h2...,hg]。(5.3)将网络的所有特征节点和增强节点连接到输出端,如下式所示:(5.4)采用elasticnet的思想,同时引入l1和l2正则化。求解权重wm:λ1λ2为正则化系数。进一步地,删掉vct的第一个样本和vit(i=1,2,…,l,i≠c)的最后一个样本后重新对齐,对齐的目的是为了分析其他路段i上一时刻的速度对待预测路段c当前时刻的速度的影响。与现有技术相比,本发明的有益效果是:本方法从实际交通数据的时间特性和空间特性着手,克服了传统回归分析方法没有考虑到的问题,充分挖掘了交通速度的时空相关性。首先,在时间相关性方面,该方法不仅在构造变量时考虑了交通数据的临近性和周期性,而且利用慢特征分析提取速度的时序慢特征作为特征节点;其次,在空间相关性方面,对于每一个待预测路段,都考虑与其相关的路段对其的影响。本发明在考虑时空相关性的同时,考虑了外界因素(天气和节假日)对交通速度的影响。此外,本发明利用了宽度学习的思想用于模型的建立,在保证精度的同时,加快了线下训练和在线预测的速度,且引入了l1、l2正则化,有效避免了模型的过拟合。为交通速度预测提供了一种有效易行的方法,为实际道路状况预测的研究指明了新的方向。本发明所提出的交通速度预测方法充分考虑了时空相关性。时间相关性方面,利用慢特征分析提取速度数据的时序慢特征,空间方面,对每一个预测路段,都考虑与其相关的路段对其的影响。且发明在保证了精度的同时,线下训练和在线预测的时间都非常快,保证了效率,是一种有效易行的方法。附图说明图1是本发明基于时空宽度学习的交通速度预测方法建模流程图。图2是使用本发明寻找相关路段的方法所找到的与路段306相关性最强的前5个路段与路段306的相关程度。图3是采用本发明基于时空宽度学习的交通速度方法对路段306的预测速度与真实速度的比较图。图4为支持向量回归方法对路段306的预测速度与真实速度的比较图。图5为神经网络方法对路段306的预测速度与真实速度的比较图。具体实施方式下面结合附图和具体实例,对本发明作进一步详细说明。本实例所采用数据为杭州市8000辆出租车2013年10月1日~2014年1月31日的为期四个月,共计123天的gps信号数据,gps数据中包括速度值和采样时间以及位置信息。如图1所示,本发明是基于时空宽度学习的交通速度预测方法,该方法包括以下步骤:步骤1:建模数据预处理。对各路段的速度数据和对应时刻的天气类型、节假日类型进行预处理。对于速度数据,将获取的车辆速度数据按照不同路段分类,按时间先后顺序排序。对需要分析的每一个路段,选取第k时刻之后的1小时作为时间间隔,k表示该时间间隔的起点,用该时间间隔内该路段上速度的平均值来代替第k时刻的速度。k=0,1,2,…,23,即每个时间间隔的起点为整点,从而每个路段每天被分割成24个时刻(0点到23点),每一个时刻对应一个固定的速度值。则路段i在m天内获得的速度向量可以表示为vit(1×24m),其中,i为路段代号,i=1,2,…,l,l为路段总数。本实例中,我们对杭州市出租车2013年10月1日~2014年1月31日的为期四个月,共计123天的gps信号进行了预处理,并从中随机选出了246个路段的数据进行接下来的分析,m=123,l=246。考虑到天气和节假日影响,还需要对天气和节假日类型数据进行预处理。由于外界因素的定性表述无法引入模型中,所以本发明对天气、节假日等外界因素进行定量划分。对于天气,按照降水量大小将其分类,分别用不同标签表示;将日期类型分为三类:工作日、周末、节假日,分别用不同标签表示;获取上述速度变量对应时刻的天气和日期类型,路段i在m天内的天气数据表示为wit(1×24m),日期类别数据表示为dit(1×24m)。本实例中,对于天气,按照降水量大小将其分为三类,第一类是干燥无降水的天气,比如晴天、多云等;第二类是中度湿润,比如小雨、中雨、小雪、大雾等;第三类是高度湿润,比如大雨、大雪等,分别用数值1、2、3表示。对于节假日的影响,将日期类型分为三类:工作日、周末、节假日,分别用数值1、2、3来表示。路段i在m天内的天气数据表示为wit(1×24m),日期类别数据表示为dit(1×24m)。本实例中,共获取为期四个月123天每天24小时的天气,以及123天每天的节假日类型,天气和节假日类型数据均对应于速度向量。如表1所示为某一路段预处理后的部分数据的格式示例。表1路段代号当前速度时间天气节假日186352013/10/18:0013186352013/10/19:001318632.14292013/10/110:0013186322013/10/111:001318633.35712013/10/112:0013186342013/10/113:001318630.42013/10/114:0013步骤2:搜寻对预测路段的速度有影响的路段,并定义为待预测路段的相关路段(2.1)设c为待预测路段代号。本实例以c=306为例,路段306代表莫干山路(从天目山路到金家渡中路)路段。删掉vct的第一个样本和vit(i=1,2,…,l,i≠c)的最后一个样本后重新对齐,构成l个新的速度向量vit(1×24m),这样对齐的目的是为了分析其他路段i上一时刻的速度对待预测路段c当前时刻的速度的影响。(2.2)对于l个新的速度向量vit(1×24m),(i=1,2,…,l),用一个长度为k个样本的一维滑动窗口滑过vit(1×24m),每次向后滑动12个样本,那么一共可以滑动z次,其中z=(24m-k)/12。将路段i在第j个滑动窗口中的数据所组成的列向量记为则所有路段在第j个滑动窗口中的列向量组成一个矩阵窗口移动z次共得到z个矩阵,对于第j个矩阵,按照下式计算与其他l-1个列向量的相关系数其中,vnckj为路段c在第j个滑动窗口中的数据所组成的列向量中的第k个元素;为vnckj的均值,为vnikj的均值,本实例中,按上式计算路段306与其他245个路段的相关系数那么,路段306与任意路段i的速度滑动相关程度系数定义为rci,由下式得到:(2.3)然后依据rci确定相关路段:将rci按照降序排列,从中选取前f个最大值所对应的路段代号i,则相关路段确定完毕。表示在除路段c以外的路段中选取了f个与路段c相关的路段,其路段代号记为r1,r2,...,rf,这些相关路段的速度将作为变量用于预测模型的建立。本实例中,将r306,i按照降序排列,图2为降序排列后的前5个路段的相关程度,本实例中f选为2,从中选取前2个最大值所对应的路段代号i。可以看出,路段305的相关程度最高,为3.1070,路段308的相关程度第二高,为2.5193。则相关路段确定完毕,即在除路段306以外的路段中选取了2个与路段306相关的路段,其路段代号分别为r1=305,r1=308,相关路段的速度将作为变量用于预测模型的建立。步骤3:确定模型的输入变量对于路段代号为c的待预测路段,在第m~m天内,采用如下四部分的样本对第t时刻的交通速度vc(t)进行预测:第一部分为:路段c在t-24m,t-24(m-1),...,t-24时刻的速度;第二部分为:路段c在t-n,t-(n-1),...t-1时刻的速度;第三部分为:步骤二所述的f个与路段c相关的路段在(t-1)时刻的速度vr1,vr2,...,vrf;第四部分为:路段c在t时刻的天气和时间类型wc(t),dc(t)。路段c在t-24m,t-24(m-1),...,t-24时刻的速度、路段c在t-n,t-(n-1),...t-1时刻的速度、步骤二所述的f个与路段c相关的路段在(t-1)时刻的速度vr1,vr2,...,vrf、路段c在t时刻的天气和时间类型wc(t),dc(t)依次构成长度为m+n+f+2的预测变量。24(m-m)个预测变量和响应变量组成维度为24(m-m)×(m+n+f+2)的预测变量矩阵x'和维度为24(m-m)×1的响应变量矩阵y。本实例中,考虑到交通速度会存在以星期(7天)为周期的周期性,将m选为7。关于n的选择,本实例选取n=6用来体现交通速度数据的时间临近性。预测路段为306,则由24(123-7)=2784个预测变量和响应变量可得到预测变量矩阵x(2784×17)和响应变量矩阵y(2784×1)。取前2401个样本作为训练集,第2402~2784个样本作为测试集。步骤4:提取速度变量的慢特征(4.1)取步骤3中所述预测变量矩阵x'的前m+n+f列,作为速度变量矩阵x'1,本实例中,m+n+f=7+6+2=15,共15列。对于x'1的第i列x1i',进行如下式所示的减均值的中心化处理:x1i=x1i'-var(x1i')(21)其中,i=1,2,…,m+n+f,var(x1i')表示x1的第i列的均值。中心化处理后的x1i组成新的变量矩阵x1。(4.2)构造x1的协方差矩阵,并进行svd分解,如下式所示:x1x1t=uλut(22)按下式进行白化处理:z=λ-1/2utx1=qx1(23)其中,z为白化后的矩阵,q=λ-1/2ut是白化矩阵。表示对z的第二行开始的每一行减去前一行所得到的差分矩阵。(4.3)对b的第二行开始的每一行减去前一行所得到的差分矩阵再进行svd分解,求解得到正交矩阵p,ω表示对角矩阵。则静态慢特征s1=pb=wx1,其中,w=pq。(4.4)对s1进行行向量差分,从第2行开始,每行减去上一行得到新的矩阵,即得到动态慢特征s2。(4.5)去掉s1的第一行,与s2按行方向进行拼接,得到特征维度为2(m+n+f)的速度慢特征矩阵s。本实例得到2400×30维的速度慢特征矩阵s。步骤5:建立基于时空宽度学习的交通速度预测模型(5.1)构建网络的特征节点。将静态慢特征s1和动态慢特征s2作为由原始数据映射得到的特征节点,s1作为第一组映射特征,记为z1;s2作为第二组映射特征,记为z2;对应时刻的天气因素和节假日因素[wc,dc]记为z3。给定记号z=[z1,z2,z3]表示两组映射特征和其他特征。(5.2)构造增强节点:其中,ξj是第j组增强节点的激活函数,是第j组增强节点的随机权重系数矩阵,为第j组增强节点的偏置项。前g组增强节点被记为hg=[h1,h2...,hg]。本实例中,的维度为2400×1,g取为100,即构造100个增强节点,增强节点的激活函数均为sigmoid函数。(5.3)将网络的所有特征节点和增强节点连接到输出端,如下式所示:(5.4)采用elasticnet的思想,同时引入l1和l2正则化。本实例中,l1正则化参数λ1设为0.5,l2正则化参数λ2设为0.25。求解权重wm:步骤6:在线预测(6.1)对测试样本,首先执行步骤1到步骤3,得到测试样本的待预测变量矩阵xt(p×(m+n+f+2))和响应变量矩阵yt(p×1),p为测试样本个数。本实例中,对步骤3所划分出的包含383个样本的测试集,首先执行步骤1到步骤3,得到测试样本的预测变量矩阵xt(383×17)和响应变量矩阵yt(383×1)。(6.2)取xt的前m+n+f=15列为速度变量矩阵首先对的每一列进行与训练集相同的中心化处理。然后按下式提取静态慢特征:其中w为步骤(4.3)中获取的w。对求行向量差分,第1行减去训练集的最后一行,从第2行开始,每行减去前一行。这样得到一个新的矩阵,即是动态慢特征将与进行行方向的拼接,得到p×(2m+2n+2f)维的速度慢特征矩阵st。本实例中得到383×30维的速度慢特征矩阵st。(6.3)将速度慢特征矩阵st与对应的天气因素wt和节假日因素dt代入步骤5所建立的预测模型,得到预测结果计算测试集真实标签与预测结果的均方误差rmse,为0.889911。并绘制真实值与预测结果的曲线图,如图3所示。从图中可以看出,本发明方法可以很好的跟随真实速度的变化趋势,实现交通速度的较为准确的预测。为与常用的机器学习算法作对比,本实例将该方法与支持向量回归、神经网络模型作了对比,图4为支持向量回归方法的预测结果与真实值的对比曲线图,图5为神经网络方法的预测结果与真实值的对比曲线图。表2为三种方法在测试集上的rmse以及模型训练时间对比。从表中可以看出,本方法不但缩短了模型训练的时间,而且减小了均方误差,提高了预测精度。表2模型测试集rmse训练耗时本发明所述模型0.88990.23s支持向量回归0.94270.76s神经网络1.17483.21s为了进一步证明模型的有效性,随机选取10个路段,分别用本发明所述方法和其他两个对比方法进行建模,建模过程同上。计算测试集的rmse,结果如表3所示。表3本发明所述模型支持向量回归神经网络路段3060.88990.94271.1784路段3022.77623.01053.0450路段1021.46941.74882.7623路段13761.23871.22091.2866路段1851.73011.77811.8634路段2673.66343.74403.9750路段5033.10163.22833.0245路段3691.78932.23102.5732路段4143.56684.10353.9801路段6172.64683.19863.231510个路段rmse均值2.28722.52062.6920从表中可以看出,与其他方法相比,本发明所述方法具有更低的预测误差,且结论具有普遍性。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1