一种考虑多因素影响的日维度区域交通指数预测方法与流程

文档序号:13482373阅读:508来源:国知局
本发明涉及一种考虑多因素影响的日维度区域交通指数预测方法,属于交通数据挖掘应用和交通信息预测领域。
背景技术
:伴随交通信息化和智能化水平的提升,各城市和区域已实现不同范围和内容的交通运行监测,为保障交通系统安全、高效和绿色运行提供了强大的支撑服务。在拥有海量监测数据的前提下,如何由对交通运行状态的被动监测转向更具主动性的预警、预测并提出相应的管控措施,成为了行业主管部门越来越关注的核心问题。城市路网作为一个城市交通道路系统的血脉,如若路网运行效率低下,城市的正常运转以及市民出行必然会受到严重的影响。因此面向城市路网的预警、预测模型的研究与实践,将为交通异常状态的主动防控提供有力的数据支撑,对行业主管部门管理及运营调度水平的提升起到有力的推动作用。国内外针对交通预测的研究主要集中在短时预测方面,即在时刻t对下一决策时刻t+1乃至以后若干时刻的交通流做出实时预测。一般认为t到t+1之间的预测时间跨度不超过15min的预测。短时交通流主要有基于统计方法的模型、卡尔曼滤波模型、非参数回归模型、神经网络模型、基于混沌理论的模型等,各类模型在短时交通流预测方面都取得较好的预测效果。但通过对各类文献研究发现,对于交通流的预测研究主要是短时预测,以对未来数小时或一天内的动态预测为主。中长期的预测应用较少,进而无法服务于行业管理者对未来较长时期内路网运行状况的前瞻性整体把握。同时,对于路网状态影响因素的划分也不够精细,并未充分考虑有可能影响交通流运行状态的各类因素。本方法首先遵循交通规划原则实现交通小区划分,并通过空间自相关分析实现区域评价对象数量的降维,进一步获取区域交通指数。结合不利天气数据、大型活动备案信息交通管制以及时间事件等各类属性数据,经过数据筛选,剔除判别等过程,建立了交通状态演变系列的历史样本数据库。通过数值试验,构建了一种考虑多因素影响的区域交通指数预测模型,实现了日维度下的区域交通指数预测。该方法有助于管理决策者提前掌握未来一周容易发生高危拥堵的区域和时段,结合相应交通运行预警处理机制和方法,为诱导和合理分布交通需求、保障交通畅通奠定基础,进而保证交通运行安全、绿色和高效。技术实现要素:本发明的目的在于提出一种考虑多因素影响的日维度区域交通指数预测方法,用于提前获取一段时期内区域交通指数变化趋势,进而实现对路网运行状况的提前防控和预警预报。为高峰出行期间提高路网运行效率、降低拥堵状况和事故发生概率、提升路网运行安全服务水平提供支撑。为了实现上述目的,本发明采用的技术方案为一种考虑多因素影响的日维度区域交通指数预测方法,该方法具体包括如下步骤:步骤1,划分并聚合交通区域;步骤1.1,基于路网结构划分交通小区;综合考虑用地性质、行政区划、自然地貌、道路网结构等因素,将分析区域划分为若干个交通小区。划分交通小区时要考虑到城市内外环区域交通需求差别大,交通需求大的区域划分面积小,而交通需求小的区域面积随之增加。步骤1.2,基于空间自相关分析的交通小区聚合;为增强区域路网运行状态评价的针对性和准确性,对琐碎的交通小区合并,将路网运行状态相似的区域采用空间自相关划分方法进行区域聚合。利用局部莫兰指数(简称lisa指数)作为局部空间自相关检验指标,识别区域内运行状态的集聚性质,即根据性质相似性准则实现交通小区的空间聚类。步骤2,确定区域交通指数相关预测参数;预测时间间隔和预测周期是交通预测中的重要参数。预测时间间隔代表交通状态变化的数据系列的最小时间单位。区域交通指数预测的目的在于提前预知下一周区域路网整体运行状态的整体趋势,尤其在交通高峰时期准确识别路网运行压力大的区域,以便提前制定相应疏堵措施。因此,应综合考虑预测模型在实际应用中的效率和精度需求,确定区域交通指数的预测时间间隔和预测周期。步骤3,区域交通指数原始数据预处理;步骤3.1,计算区域交通指数;具体计算步骤如下:s1.计算区域交通初始指数rm:以不长于15分钟为统计间隔,计算区域m通过各等级路段的自由流速度与实际平均行驶速度的比值。参考路段交通运行等级划分标准,分别统计全路网和区域m路网中各等级道路处于严重拥堵等级的路段里程,以区域m路网中严重拥堵里程占比作权重,按照公式(1)计算得到该区域交通初始指数rm。式中,α代表时间段;m代表区域数量;p代表区域m内的路段数量;lαm代表α时段内区域m内路网中处于严重拥堵等级的路段里程;代表α时段内通过区域m内p个路段的自由流速度;代表α时段内通过区域m内p个路段的实际平均速度。s2.计算区域交通指数rti:在对rm一段时期的数据积累后,按照公式(2)对区域交通指数预指数进行归一化处理,最终得到值域范围属于[0,10]的区域交通指数rti。式中,rti代表区域交通指数;r代表区域交通初始指数;rmin代表历史数据系列中区域交通初始指数的最小值,rmtx代表历史数据系列中区域交通初始指数的最大值。步骤3.2,原始数据弥补缺失值;原始数据弥补缺失值的规则如下:s1.从原始数据中提取出缺失比例小于等于15%的数据系列,对其中的间断部分进行弥补处理;s2.单个时间点数据缺失的情况下,采用前后相邻两个时间点数据的算数平均值作为恢复数据;s3.多个连续时间点数据缺失的情况下,提取前i周同期对应历史数据rtii,wi表示rtii对应的权重,丢失数据rti的计算公式为:式中,0<wi≤1,从时间远近相互关联程度看,各权重之间应满足如下关系:wi+1<wi且i不超过3。步骤3.3,原始数据剔除异常值;原始数据剔除异常值的规则如下:s1.计算数据系列中每个时刻指数数值的前差和后差;b1_t=rtit-rtit-1(4)b2_t=rtit+1-rtit(5)式中,b1_t代表某时刻指数数值的前差;b2_t代表某时刻指数数值的后差;rtit代表当前某一时刻指数数据;rtit-1代表前一时刻指数数据;rtit+1代表后一时刻指数数据。s2.计算每个时刻指数数值的波动指数;式中,z代表某时刻指数数值的波动指数;b1_t代表该时刻指数数值的前差;b2_t代表该时刻指数数值的后差;rtit代表当前时刻区域交通指数。s3.根据步骤3.3中的s2计算得到的z值判断该数值是否为奇异值,取15%作为判定界限,若z>15%,则该数值是奇异值,并做剔除。步骤3.4,区域交通指数分级处理;将区域交通指数用以下阈值划分原则将样本分为5类,分类结果用于决策树的拥堵状态等级预测,指数数据用于以上分类完成后利用欧氏距离进行交通指数预测。表1道路交通运行水平划分区域交通指数(rti)0≤rti<22≤rti<44≤rti<66≤rti<88≤rti≤10道路网运行水平畅通基本畅通轻度拥堵中度拥堵严重拥堵步骤3.5,构建历史数据因素属性集;由于区域交通指数的变化受多种因素影响,故首先需要为训练样本集确定因素属性集。将因素属性集分为区域属性、日期属性、天气属性和事件属性。其中日期属性和天气属性为影响路网运行状态的全局性因素,而区域属性和事件属性是特定区域有可能发生的局部性因素。表2因素属性选取步骤4,构建区域交通指数预测模型步骤4.1,区域路网运行拥堵状态等级预测;通过步骤3.5构建的训练样本集来生成区域交通指数决策树,过程主要包括划分选择过程、区域交通指数决策树的更新和区域路网运行状态等级预测过程。(1)将区域指数样本递归划分进行建树过程①设结点的训练数据集为d,计算各个因素的基尼指数,包括区域属性、日期属性、天气属性和事件属性。此时,对每一个特征属性a,对其可能取的每个值a,根据样本点对a=a的测试为“是”或“否”将d分割成d1和d2两部分,利用公式(7)和公式(8)计算a=a时的基尼指数。式中,gini(d)代表集合d的不确定性;k代表类别总数;k代表类别序号数;pk代表样本点属于第k类的概率。式中,gini(d,a)代表经a=a分割后集合d的不确定性。②在所有可能的特征a以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。并从现结点生成两个子结点,将训练数据集依特征分配到两个子结点中去。③对两个子结点递归地调用①,②,直至满足停止条件。④生成cart决策树。⑤设置一个叶子节点需要的最小样本数量,或者树的最大深度,避免过拟合。(2)区域交通指数决策树的更新模型的精度受天气预报的准确性影响较大,历史数据尤其是历史天气因素的及时更新有助于提升模型精度,因此本方法提出动态更新区域交通指数历史训练库的完善机制。训练库中,一方面为了提高算法运算速度仅选择与预测周期前n个月份的历史数据并始终保留具有特殊属性值的历史数据;另一方面在预测第i个周期前,将i-1周期的真实天气情况进行更新。(3)输入预测时间段内各个属性值,进行拥堵状态等级预测收集下周尾号限行、天气情况、大型活动及交通管制等各类属性信息,利用生成的区域交通指数决策树进行预测,得到预测时间段内交通运行状态等级的粗分类结果。在划分选择过程中,需要确定划分的标准,即确定属性变量的临界值步骤4.2,利用平方欧式距离进行区域交通指数预测;利用平方欧氏距离筛选与当前预测状态最为相似的历史状态下的区域交通指数。定义y{y1,y2,…,yq}为当前预测状态向量,将粗分类相同的历史状态向量组成集合cs{cs1,cs2,…csq}。因此,历史状态向量与预测状态向量之间的平方欧氏距离计算公式如下所示:式中,cs代表具有相同粗分类结果的第s个历史状态与预测状态的平方欧氏距离;xsq代表具有相同粗分类结果的数据集x中的第s个历史状态向量中第q个属性的值;yq代表预测状态向量y中的第q个属性的值;q=1,2,…,q,q为正整数。取平方欧式距离小于阈值c的区域交通指数,组成集合v{v1,v2,…vz}。阈值c为欧氏距离的第c位百分位数,此时区域交通指数预测值与实际值的平均绝对误差最小。最终预测的区域交通指数为:式中,pf代表预测指数值;z为集合v中的数据数量。构建区域交通指数计算方法模型时,以区域内路网处于严重拥堵等级的道路里程占比作为权重值。所述步骤3.5中构建的历史数据因素属性集,分为区域属性、日期属性、天气属性和事件属性。其中日期属性和天气属性为影响路网运行状态的全局性因素,而区域属性和事件属性是特定区域有可能发生的局部性因素。具体包括:区域、月份、时段、工作日、节假日、星期、学生假期、尾号限行、天气、特殊事件、大型活动及交通管制。全面考虑可能对路网运行状态产生影响的各类因素,并支持不断扩充和更新。步骤4.1中设立了一种动态更新区域交通指数历史训练库的完善机制。在保证高效的算法运算速度的同时,实时更新历史数据的属性信息,将历史数据中尤其是天气因素信息所带来的误差影响降到最低。在利用区域交通指数决策树确定拥堵等级后,进一步选取平方欧氏距离方法,寻找与预测时段最接近的历史状态的交通指数作为该时段的交通指数。与现有技术相比,本发明具有以下明显的优势和有益效果:(1)本发明充分考虑了区域、日期、天气、事件等多种影响路网运行状态的因素,提出了基于决策树理论的区域交通指数预测方法,综合考量了预测需求和应用可行性,可实现细化到各个小区日维度下的区域交通指数预测。弥补了以往相关研究只集中在交通信息短时预测,难以评估下周路网运行整体情况,提前开展主动防控措施的不足。(2)本发明将预测对象从全路网交通指数精确到区域交通指数,使预测结果更加实用,更为准确地刻画区域路网运行特征。预测流程容易操作,同时随着历史数据的不断完善,因素属性集可进一步更新完善,详尽地考虑各类影响因素,为城市路网预测预警提供数据支撑。(3)历史数据的更新迭代可有效提升模型精度。方法中设立了一种动态更新区域交通指数历史训练库的完善机制。在保证高效的算法运算速度的同时,实时更新历史数据的属性信息,将历史数据中尤其是天气因素信息所带来的误差影响降到最低。(4)模型精度的检验分析看,区域交通指数预测值与实际值的平均绝对误差基本控制在0.6以内,平均相对误差可保持在4%至10%。工作日和非工作日高峰期间均有较好的预测精度。将本发明应用于日维度的区域交通指数预测工作较为可行。附图说明图1为基于空间自相关分析的交通小区聚合示意图;图2为区域交通指数原始数据预处理流程图;图3为基于决策树理论的区域交通指数预测流程图;图4为2017年4月17-23日国贸区域早高峰交通指数预测结果;图5为2017年4月17-23日国贸区域晚高峰交通指数预测结果;图6为本发明方法实施流程图。具体实施方式本发明选取北京市国贸区域交通指数为预测对象,利用基于决策树理论的中长期区域交通指数预测方法对2017年4月17-23日该区域的交通指数进行预测,并对早、晚高峰指数进行模型精度验证。具体实施步骤如下:步骤1,划分重点关注区域;综合考虑用地性质、行政区划、自然地貌、道路网结构等因素,在不打破行政区划,以河流、铁道等天然分隔带作为交通小区的区界的前提下,将北京市划分为1911个交通小区。考虑到城市内外环区域交通需求差别较大,交通小区所划分的精细程度也因此有所不同,故五环以内区域划分面积较小,而外环区域面积随之增加。以便达到在满足精度需求的情况下,尽可能减小工作量,增强调查、分析的可操作性的目的。在以上区域划分基础上,利用局部莫兰指数对局部空间进行自相关性检验,有效度量区域m和它所相邻区域之间的自相关程度。对于存在空间自相关特性的区域,利用网格单元属性值xm和相应的空间滞后xm,-1依次与变量属性的均值大小关系进行空间聚类。将具备相同集聚性质的交通小区进一步聚合。步骤2,确定区域交通指数相关预测参数;通常情况下,连续5-15分钟的交通状态变化具有一定的稳定性和规律性。而中长期角度下的区域交通指数预测的目的在于提前预知下一周区域路网整体运行状态的整体趋势,因此在确定了路网运行特性和预测需求的基础上,本发明以30分钟作为预测时间间隔能够实现对未来时刻交通状态的实时准确预测。并且本方法仅针对预测需求较强且交通流变化较为明显的时间段进行预测,将预测时段设为早上5:00到晚上23:00的18个小时。步骤3,区域交通指数原始数据预处理;按照图2所示的数据预处理流程对原始数据进行筛选、弥补、剔除等预处理。预处理过的数据系列如下表所示:表3预处理过后的区域交通指数数据(部分)区域名称日期及时间交通指数拥堵等级国贸区域2017032518007.33国贸区域2017032518057.53国贸区域2017032518107.63国贸区域2017032518157.83国贸区域2017032518207.63然后,构建历史数据因素属性集,以国贸区域为例,该区域id编号为18。样例数据如下表所示:表4训练样本数据示例步骤4,构建区域交通指数预测模型;将因素属性集与预处理后的区域交通指数数据进行整合作为预测工作所需要的训练样本库。查询预测周的日期属性、天气情况、大型活动等相关信息,按照图3所示的预测流程进行区域交通指数的预测。表52017年4月17-23日基础信息表表6预测周工作日期间国贸区域高峰交通指数预测结果时段4月17日4月18日4月19日4月20日4月21日7:005.36.95.25.23.17:307.06.97.86.96.98:006.96.96.96.35.48:306.26.96.96.96.89:005.27.35.96.46.817:007.07.67.07.17.117:307.17.18.38.38.318:008.47.78.38.38.218:306.88.37.17.17.219:007.07.05.05.06.1为了评价预测模型的效果,以平均绝对误差、平均相对误差、均方根误差、误差分布概率(绝对误差小于0.5的数据比例)作为预测效果的评价指标,对本发明所提出的基于决策树理论的中长期区域交通指数预测模型精度在工作日及非工作日的高峰时段、平峰时段分别进行验证。结果如下表所示:表7预测周工作日期间国贸区域高峰交通指数预测结果从以上统计结果可以看出,区域交通指数预测值与实际值的平均绝对误差控制在0.6以内,平均相对误差可保持在4%至10%,各时段预测精度均为良好,尤其是高峰时段的预测结果更优于平峰时段。各试验时段的均方根误差在0.5左右,说明误差的离散程度不大,在一定程度上反映了本发明预测模型的误差稳定性。误差的分布概率显示基本有80%以上的数据绝对误差可控制在0.5以内,并且高峰期间有90%以上的数据系列绝对误差低于0.5,基本满足预测工作服务需求。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1