1.一种大数据环境下立体城市路网全局状态预测方法,其特征在于,该方法包括数据预处理、预测模型和预测实施三个阶段,具体步骤如下:
数据预处理阶段:
S1、根据采集的原始数据和地图拓扑中道路类型属性进行网络分层和数据清洗,获得历史数据集;
S2、对历史数据集进行拓扑划分后,融合初始道路速度数据,获得区域网格速度,并定义带有耦合信息的全局交通特征,确定全局交通模式的有效数目,通过聚类将历史数据集转换为交通模式的编号序列,记作样本数据集;
预测模型阶段:
S3、给样本数据集加入日期属性标签,对各层路网不同日期属性的样本数据分开建立信息库;
S4、建立参数优化模型确定预测模型的最优参数。
预测实施阶段:
S5、采用优化的模型参数和预测算法计算未来可能的全局交通模式以及各模式对应的概率并计算结果匹配度。
2.根据权利要求1所述的大数据环境下立体城市路网全局状态预测方法,其特征在于,所述步骤S1具体包括:
S1.1、根据采集的原始数据中道路类型属性,划分成不同的子路网历史数据集,
S1.2、设定子路网历史数据集中各道路的平均速度值的有效范围,删除不在有效范围内的异常数据,以及重复的数据;
S1.3、按照子路网历史数据集中日期、时间和路段编号的连续性,采用数据缺失值的填补方法完善序列中缺失的速度值,得到完整的历史数据集。
3.根据权利要求1所述的大数据环境下立体城市路网全局状态预测方法,其特征在于,所述步骤S2具体包括:
S2.1、根据待预测路网拓扑的经纬度大小将各层的城市交通路网划分成若干个矩形子区域,获得每个子区编号,该区中所有道路编号和这些道路落在该区域中的有效长度,将以上信息存入不同路网的【区域-路段】表中;
S2.2、网格数据融合:以各道路在该区域中的有效长度L→{l1,l2,...li,...}为权值,根据不同道路平均速度的时序数据vi计算区域网格在不同时刻的平均速度,公式如下:
其中,表示第k个区域的瞬时平均速度,nk表示经过该区域的道路条数,i表示在该区域内的第i条道路;
统计得到含有有效速度的不同区域网格个数N,并将所有区域瞬时速度的张成向量定义为该路网在时刻t下的交通全局特征向量时间序列
路网全局交通特征包含本路网的全局状态和该路网与其它路网的耦合因子,把不同路网交接处的区域信息作为耦合因子,全局交通状态Vt。扩展为t时刻下的全局交通特征向量Ft=[v1,v2,,…vN,c1,c2,…],其中c1,c2,...为耦合因子。
定义全局交通模式:
S2.3、对不同时刻的全局特征向量使用无监督聚类方法进行聚类,确定该路网典型交通状态个数为P-Q,P为大聚类数,Q为稀少类聚类数;
S2.4、聚类数输入P-Q,将所有时刻的全局特征向量聚类,计算得到P-Q个聚类中心向量,定义为全局交通模式类属中心,并根据聚类划分的情况将原全局特征向量时间序列转换为聚类类属标签时间序列,即全局交通模式的序列编号。
4.根据权利要求3所述的大数据环境下立体城市路网全局状态预测方法,其特征在于,所述步骤S3具体包括:
S3.1、给样本数据集添加双休日或工作日的日期属性标签,遍历全局交通模式的时间序列,从中挑选出所有类属改变时刻,并记录跳变信息C=[O,L,I,Y],其中O为跳变发生前的状态,L为跳变发生前该状态持续的总长度,I为跳变发生所处周期序号,Y为跳变后的状态;
跳变信息及相同信息发生的次数[C,N]组成信息库,信息库中的信息包括{[C1,N1],[C2,N2]…[Ci,Ni]}
根据S2.4确定的全局交通模式类属中心,计算当前数据最接近的类属编号,获得当前全局交通模式时间序列;
S3.2、遍历现时数据,获得当前状态持续的情况cc=[o,l,i],其中o为当前状态,l为o持续不变的总长度,i为o所处的周期序列位置,按照S4-S5预测在当前序列cc基础下的未来全局交通状态类属y;
S3.3、对当前的信息cc和信息库中所有历史跳变信息C进行三次匹配,获得信息库中满足匹配的信息组C和相应的相似度参数。
5.根据权利要求4所述的大数据环境下立体城市路网全局状态预测方法,其特征在于,所述的三次匹配包括状态匹配、持续时长匹配和周期位置匹配;
状态匹配:从S3.1中建立的信息库中挑选出所有和当前状态相同的信息元组,即将所有满足O=o的信息C构成D0;
持续时长匹配:从D0中挑选出所有L-l≥0的信息构成D1,并计算相应的时长相似度
周期位置匹配:计算当前周期位置i和D1中信息的跳变周期位置I的绝对差值,并根据不同位置差判定历史数据所属的子模型:
Qi表示周期位置匹配后历史数据划分成的不同子数据组;
划分的参数[x1,x2,x3,x4]根据不同应用场景自定义预设,其中0≤x1<x2<x3<x4;
按照如下公式计算不同子模型的转移概率,并通过投票方式求得最终的转移概率:
Z=r1·P(1)+r2·P(2)+r3·P(3)+r4·P(4)+r5·P(5) (5)
R=[r1,r2,r3,r4,r5] (6)
其中p(Y=Y1)表示转移到第1个可能状态的概率,p(Y=O)表示状态不变的概率,[Ci=(Oi,Li,Ii,Yi),Ni]为信息库中的信息元组,当前信息为cc=[o,l,i],κi为根据S3.1中持续时长匹配计算的相似度,最后的转移概率由五项概率R投票获得。
6.根据权利要求5所述的大数据环境下立体城市路网全局状态预测方法,其特征在于,所述步骤S5具体包括:
S5.1、根据采集的输入数据所属的日期、路网获取已优化的权值参数,利用现时数据获取当前交通信息并按照S3.3进行信息匹配,由公式(2)-(6)计算下一步的预测状态及概率值,作为单步预测结果;
S5.2、迭代预测:根据预设的预测步数,进行多步迭代预测,得到多步预测结果和相应概率;
S5.3、多步剪枝:对多步迭代求得的预测状态及相应概率时在特定步数进行剪枝,保留概率和不超过为置信度的前几个状态结果;各预测类属中心以概率大小为相对权重求平均得到最终的多步全局状态向量预测结果;
S5.4、根据多步预测状态类的类中心速度向量与实际速度向量计算结果匹配度A,公式如下:
其中,Δ表示在预测向量与实际向量中相同位置的元素处于相同拥堵状态的区间个数,N为向量长度,S1代表预测速度向量,S2代表实际速度向量。
7.根据权利要求2所述的大数据环境下立体城市路网全局状态预测方法,其特征在于,所述的历史数据集包含的数据表有路段属性表和速度序列表,其中路段属性表的字段为【路段编号,采样点经纬度,路段总长度】;速度序列表的有效数据字段为【时间,路段编号,平均速度】。两个子路网为地面路网和高架路网,地面路网包括主干道、次干道、一般道路;高架路网包括高架快速路、匝道路。
8.根据权利要求2所述的大数据环境下立体城市路网全局状态预测方法,其特征在于,所述填补方法是指均值填补或回归替换。