一种用户最优及系统最优的动态路径选择方法与流程

文档序号:16676536发布日期:2019-01-18 23:59阅读:474来源:国知局
一种用户最优及系统最优的动态路径选择方法与流程
本发明属于智能交通
技术领域
,具体涉及一种用户最优及系统最优的动态路径选择方法。
背景技术
:近年来,城市交通拥堵已经成为非常普遍的现象,随之而来的环境污染,出行成本增加和能源浪费造成了巨额的社会经济损失。交通拥堵问题不仅仅是交通系统需要面对的难题,对用户而言也是亟需解决的问题。然而,在交通诱导中往往用户和交通系统管理者的目标并不一致。交通系统管理者期望能提高整个交通系统的通行效率、充分利用路网资源,而用户则仅期望自身的行驶时间、花费最少等出行需求得到满足。在交通游道中,两者间的这种关系体现在交通系统发布的诱导信息和用户的路径选择之间。因此,设计能够合理协调用户最优及系统最优的路径选择方法成为研究的热门。以往的研究大多以博弈模型去分析用户及交通系统管理者的路径选择行为,进而去量化两者的收益进行合适的路径选择建模。在此类研究中,路径选择模型的总是以logit模型、随机期望效用理论、基于前景理论或累积前景理论的基础上进行研究和建模。而在实际生活中,人们对诱导的需求已趋于实时、动态化而且当前路网规模也非常庞大,这些建立在精准数学模型基础上的路径选择方法并不能满足在大规模路网下的诱导需求。sarsa学习作为具有强自学习、自适应能力的一种on-policy强化学习方法,被很多学者应用于动态路径诱导系统中。sarsa学习不断与交通环境进行交互,能充分利用路网实时交通信息去优化路径诱导方法,非常适用于在复杂多变,随机性强的大规模路网中进行动态路径诱导。技术实现要素:针对以上技术不足,本发明提出一种用户最优及系统最优的动态路径选择方法,具体包括:步骤1:交通信息中心统计当前路网中总的车辆数量,同时待选择路径车辆将自身实时信息发送给交通信息中心,所述实时信息包括通行成本、当前路段、期望终点,其中,所述通行成本设置为旅行时间、燃油费或距离,选择其中之一;步骤2:每隔时间间隔t,交通信息中心根据步骤1中获取的待选择路径车辆实时信息数据,统计路网中距更新时间最近时刻,各个路段上所经过车辆的实际通行成本以及每个交通节点所对应的相邻路段,通过sarsa学习更新q值表,更新公式如下所示:qd(i,j)←qd(i,j)+α(rij+γqd(j,k)-qd(i,j))其中,qd(i,j)表示从交通节点i出发经过相邻交通节点j且终点为d的q值,k表示交通节点j的相邻交通节点,α表示学习率,γ表示折扣率,rij表示车辆经过路段sij的实际通行成本;步骤3:计算交通路网拥堵系数:信息中心根据路网中当前总的车辆数量,计算交通路网拥堵系数,公式如下所示:其中,c表示路网拥堵系数,β、λ为参数,vnum表示当前路网中总的车辆数量;步骤4:计算每个相邻路段的概率:交通信息中心根据车辆所处当前路段和其期望终点,在q值表中读取对应此终点并与当前路段相邻的所有路段的q值,结合如下基于交通路网拥堵系数的boltzmann概率分布公式计算每个相邻路段的概率:其中,pd(i,j)表示仅考虑当前系统交通状况选择路段sij的概率,i,j为相邻交通节点,a(i)表示以交通节点i为起点的路段的终点集合,根据路网拓扑结构获取,c表示路网拥堵系数,eqd(i)表示节点i周围路段到目的地d的q值的平均值。步骤5:计算当前车辆绕行参数,公式如下所示:其中,ri表示车辆在当前交通节点i的绕行程度,qd(j,k)表示步骤4中根据相邻路段boltzmann概率分布使用轮盘赌方法所选择的路段sjk所对应的q值,qd(i,j)表示车辆所处当前路段sij的q值。当绕行参数ri大于等于1时,执行步骤6,否则根据步骤4计算的概率给出待选择路径;步骤6:为车辆重新计算诱导路径:通信息中心根据车辆绕行参数查找对应的诱导拒绝率,根据如下基于路网拥堵系数及诱导拒绝率的boltzmann概率分布公式为车辆重新计算诱导路径:其中,uij表示诱导拒绝率参数,uij值得设定是基于车辆绕行程度的,其中,路网拥堵系数c中参数α的设定以及拒绝率参数uij与绕行参数ri对应关系的设定反映了交通系统管理者与用户间的协调程度。步骤7:基于步骤6中的概率分布将使用轮盘赌方法选择的路径提供给用户,用户使用轮盘赌方法选择的路径后达到目的地,则结束动态路径选择方法,若用户使用轮盘赌方法选择的路径后还未到达目的地,则用户到达下一交通节点时,计算交通路网拥堵系数,重复步骤3~步骤7直到用户到达期望终点。有益技术效果:1.一种用户最优及系统最优的动态路径选择方法,能够充分利用当前交通系统的实际拥堵状况和用户当前的绕行状况进行最大化两者收益的动态路径诱导,在保证交通系统效率的基础上减少用户出行成本。2.一种用户最优及系统最优的动态路径选择方法,从实际角度出发,考虑用户绕行所带来的出行成本增加问题,为用户提供更符合其个人意愿的动态诱导路径从而提高诱导路径接受率,进一步提高交通系统的通行效率。3.一种用户最优及系统最优的动态路径选择方法中绕行参数的设计可以有效降低sarsa学习的搜索成本,促进交通系统整体交通状况的优化。附图说明图1为本发明实施例的一种用户最优及系统最优的动态路径选择方法的整体流程图;图2为本发明实施例的网交通状况良好时路径选择示意图;图3为本发明实施例的网交通状况拥堵时路径选择示意图;图4为本发明实施例与传统诱导算法相比车辆平均行驶时间对比图,具体实施方式下面结合附图和具体实施实例对发明做进一步说明,一种用户最优及系统最优的动态路径选择方法,如图1所示,具体包括:步骤1:交通信息中心统计当前路网中总的车辆数量,同时车辆将自身实时信息发送给交通信息中心,所述实时信息包括通行成本、位置、期望终点,其中,所述通行成本设置为旅行时间、燃油费或距离,选择其中之一;步骤2:每隔时间间隔t,交通信息中心根据步骤1中获取的待选择路径车辆实时信息数据,统计路网中距更新时间最近时刻,各个路段上所经过车辆的实际通行成本以及每个交通节点所对应的相邻路段,通过sarsa学习更新q值表,更新公式如下所示:qd(i,j)←qd(i,j)+α(rij+γqd(j,k)-qd(i,j))其中,qd(i,j)表示从交通节点i出发经过相邻交通节点j且终点为d的q值,k表示交通节点j的相邻交通节点,α表示学习率,γ表示折扣率,rij表示车辆经过路段sij的实际通行成本。在基于sarsa学习的动态路径诱导系统中,每个路段对应的q值表示车辆从此路段出发到达终点所需的累积通行成本。q值表在交通信息中心以如下格式储存:表1q值表如图2所示,路段sij对应q值更新如下所示:12gs←150s+0.7×(20s+100s-150s)其中,箭头右边的150s,100s分别表示终点为d,经过路段sij和路段sjk的期望旅行时间,路段sjk是路段sij相邻交通路段,学习率α为0.7,折扣率γ为1,车辆经过路段sij的实际通行时间为20s。路段sij更新后的q值为129s。步骤3:计算交通路网拥堵系数:信息中心根据路网中当前总车辆数量计算交通路网拥堵系数,以此衡量当前交通系统的交通状况。公式如下所示:其中,参数β为0.3,λ为0.005。假设当前路网中总车辆数量vnum为26,则由公式可得,路网拥堵系数c为0.2。步骤4:计算基于路网拥堵系数的boltzmann概率分布:交通信息中心根据车辆所处当前路段和其期望目的地,在q值表中读取对应此目的地并与当前路段相邻的所有路段的q值,结合如下基于路网拥堵系数的boltzmann概率分布公式计算每个相邻路段的概率:其中,pd(i,j)表示仅考虑当前系统交通状况选择路段sij的概率,i,j为相邻交通节点,a(i)表示以交通节点i为起点的路段的终点集合,根据路网拓扑结构获取,c表示路网拥堵系数,eqd(i)表示节点i周围路段到目的地d的q值的平均值。如图2所示,各个相邻路段的boltzmann概率分别为0.8169,0.1533和0.298。步骤5:计算当前车辆绕行参数,公式如下所示:其中,ri表示车辆在当前交通节点i的绕行程度,qd(j,k)表示步骤4中根据相邻路段boltzmann概率分布使用轮盘赌方法所选择的路段sjk所对应的q值,qd(i,j)表示车辆所处当前路段sij的q值,当绕行参数ri大于等于1时,执行步骤6,否则根据步骤4计算的概率给出待选择路径;由上式定义可知,绕行参数可以帮助sarsa学习更快得搜索到最优路径,减少搜索空间。步骤6:为车辆重新计算诱导路径:通信息中心根据车辆绕行参数查找对应的诱导拒绝率,根据如下基于路网拥堵系数及诱导拒绝率的boltzmann概率分布公式为车辆重新计算诱导路径:其中,uij表示诱导拒绝率参数,uij值得设定是基于车辆绕行程度的,当系统在步骤4中提供给车辆的诱导路径的通行成本比当前所在路径通行成本还高时,认为车辆发生绕行,此时用户会对诱导路径产生质疑。在此式中,路网拥堵系数c中参数α的设定以及拒绝率参数uij与绕行参数ri对应关系的设定反映了交通系统管理者与用户间的协调程度。其中,uij表示诱导拒绝率参数为2,计算可得相邻路段的分别为0.9409,0.0582和0.0009。相比于只考虑系统交通状况的路段选择方法,考虑用户意愿的路段选择方法使相邻路段间所对应的概率差异增大。用户的绕行越多则拒绝接受诱导路径的概率越大,此时用户更倾向于选择符合自身意愿的路径即通行成本更低的路径而不是仅根据系统当前交通状况而提供的诱导路径。拒绝率参数uij与绕行参数ri的对应关系,如表2所示:表2ri-uij对应表rangeofri(0,1)[1,1.3)[1.3,1.5)[1.5,1.8)[1.8,2)[2,2.5)[2.5,3)[3,∞)uij1241015202530如图2和图3所示,用户的绕行越多则拒绝接受诱导路径的概率越大,即当c固定ujk由1增大到2时,对应较小q值的边概率增大,较大q值的边概率减小。此时用户更倾向于选择符合自身意愿的路径即旅行时间更少的路径,而不是仅根据系统当前交通状况而提供的诱导路径;当路网车辆较少即路网拥堵系数c为0.2,值较低时,选择道路的方法类似于贪婪算法。搜索的路径接近于静态环境中的最短路径,q值最小的边对应的概率最大,此时能够有效利用此时的路网资源;当路网逐渐拥堵即c为0.5时,不同q值的各个路段间boltzmann概率差异减小,诱导路径的选择将会更依赖于交通系统管理者。步骤7:基于步骤6中的概率分布将使用轮盘赌方法选择的路径提供给用户,用户使用轮盘赌方法选择的路径后达到目的地,则结束动态路径选择方法,若用户使用轮盘赌方法选择的路径后还未到达目的地,则用户到达下一交通节点时,计算交通路网拥堵系数,重复步骤3~步骤7直到用户到达期望终点。如图4所示,本发明与传统诱导算法相比车辆平均行驶时间对比图,横坐标:仿真时间步纵坐标:车辆平均行驶时间,三角形代表本发明swusmo,圆点代表传统路径诱导算法dijk,本发明提出的一种用户最优及系统最优的动态路径选择方法与传统路径诱导算法相比能有效提高交通系统通行效率,减少交通系统中车辆的平均行驶时间,降低用户通行成本。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1