本发明涉及智能驾驶,具体地,涉及一种无信号灯交叉路口多矿车通行策略方法和系统。
背景技术:
1、随着矿区对无人化运输水平和效率的要求不断提高,无信号灯交叉路口作为制约交通效率的重要因素而成为研究重点。矿区交叉路口形状不规则,没有信号灯集中控制,同时还存在有人驾驶矿车和无人驾驶矿车混合通行的情况,这进一步加大了控制难度,容易发生碰撞事故,严重影响矿区的运输效率和安全性。
2、专利文献cn113276884a(申请号:cn202110468390.5)公开了一种可变博弈模式的智能车交互决策通行方法及系统,用于无信号灯交叉路口。该方法包括:感知与获取本车及周车的状态信息和驾驶风格;判断车辆是否参与路权博弈交互,实时切换t时刻的博弈模式;考虑驾驶风格的多样化,博弈决策各车在t时刻执行的加速度;控制节气门开度和制动轮缸压力以执行t时刻决策的加速度策略;在t+1时刻更新所有智能汽车的状态及道路信息,进行新一轮的博弈交互;重复执行上述所有步骤,直至各车安全通过交叉路口或车辆之间有效化解冲突而退出博弈。
3、现有技术在处理无信号灯交叉路口问题时通常将其假设为规则的十字路口,并且车辆都是智能网联车辆。然而,对于无信号灯不规则交叉路口场景下的多车混行问题,目前的研究还相对匮乏。以往的文献中常常使用基于旋转投影法构建虚拟队列模型,但是在交叉路口形状不规则的情况下,旋转投影法并不适用。此外,当存在大量有人驾驶矿车时,采用马尔可夫决策或自适应巡航控制等方法来调节无人驾驶矿车的速度,一方面无法避免有人驾驶矿车发生冲突,另一方面可能会导致“死锁”现象的发生,影响交通效率。
技术实现思路
1、针对现有技术中的缺陷,本发明的目的是提供一种无信号灯交叉路口多矿车通行策略方法和系统。
2、根据本发明提供的无信号灯交叉路口多矿车通行策略方法,包括:
3、步骤1:基于冲突点模型,建立冲突表,构建虚拟信号灯相位组合;
4、步骤2:基于深度强化学习方法,控制虚拟信号灯相位;
5、步骤3:基于自车的制动距离、前车的制动距离和两车完全制动后的间距,构建矿车安全制动距离模型,并基于安全制动距离模型调整矿车速度;
6、所述冲突点模型用于让每辆矿车沿着预期轨迹行驶,分析出所有碰撞可能性;
7、所述冲突表用于根据所有碰撞可能性,将不同车道之间的冲突情况绘制成表格。
8、优选的,所述步骤1包括:对于4车道e1、e2、e3、e4,若只有车道e1和e2之间没有冲突,则虚拟信号灯的相位组合为{green-e1e2,red-e3e4},{green-e3,red-e1e2e4},{green-e4,red-e1e2e3},其中,{green-e1e2,red-e3e4}该相位指车道e1e2为绿灯,车道e3e4为红灯,设置绿灯时间结束时有5s的黄灯时间,此时红灯保持不变。
9、优选的,所述步骤2包括:
10、使用dqn强化学习方法,构建dqn网络模型,包括两个结构相同但参数不同的q现实网络和q估计网络,其中q现实网络的参数滞后;
11、环境由sumo软件生成,包括交叉口道路和车流状况,状态空间用一组特征向量表示,包括每个车道的队列长度、车道上矿车平均速度、平均等待时间、当前虚拟信号灯相位和下一相位;
12、动作空间包括三种虚拟信号灯的相位组合,分别用a1、a2、a3表示{green-e1e2,red-e3e4},{green-e3,red-e1e2e4},{green-e4,red-e1e2e3};
13、奖励定义为:
14、r=w1r1+w2r2+w3r3+w4r4+w5r5
15、其中,r1为各车道的队列长度总和;r2为各车道的矿车平均速度总和;r3为信号灯改变次数,若改变为1,不改变则为0;r4=∑iwi,为所有矿车的等待时间总和,其中,r5为在每个优化周期δt内通过交叉口矿车的平均行程时间总和;w1、w2、w3、w4、w5为加权系数。
16、优选的,向dqn网络模型中输入状态,按照贪婪策略选取动作,以概率∈随机选取动作,以概率1-∈选取q值最大的动作,并获得相应的奖励和下一时刻的状态;
17、其中,n为当前的回合数,n为总回合数;
18、存储该时刻的状态、动作、奖励和下一时刻的状态,作为样本存入经验存储器,不断更新状态获取样本,待样本数达到设定容量后进入强化学习训练阶段,计算损失函数,根据梯度下降法,进行反向误差传播,更新q估计网络参数,并每隔几个回合,更新q现实网络参数;
19、其中,损失函数如下式所示,w和w′分别为q估计网络和q现实网络的参数:
20、l(w)=(r+γmaxa'q(s',a';w')-q(s,a;w))2
21、其中,s为制动距离;a为制动速度;
22、对上式求导,得到损失函数的梯度为:
23、
24、更新q估计网络参数的公式如下:
25、
26、网络模型训练完成后,根据当前交通状况进行虚拟信号灯相位选择,实现车道之间的冲突消解和通行效率的提高。
27、优选的,所述步骤3包括:
28、建立安全制动距离模型,安全制动距离如下式所示:
29、ssafe=s1+d-s2
30、其中,ssafe为制动安全距离,s1为自车的制动距离,s2为前车的制动距离,d为两车完全制动后的间距;
31、s1由下式得出:
32、
33、其中,v1为自车速度,a1max为自车最大制动减速度,t11为自车的制动反应时间,t12为自车的制动协调时间,t13为自车的制动力增长时间,t14为自车的制动力持续作用时间;式中的四项分别表示制动反应距离、制动协调距离、制动力增长距离和制动持续作用距离;
34、s2由下式得出:
35、
36、其中,v2为前车速度,a2max为前车最大制动减速度,t21为前车的制动力增长时间,t22为前车的制动力持续作用时间;式中两项分别表示前车的制动力增长距离和制动持续作用距离;
37、同一车道上前后两矿车的间距由下式计算出:
38、g1=d2-d1-l1-ssafe
39、其中,优化区为各进车道与交叉口的边界向外扩展150m的区域,d1为自车驶入优化区的距离,d2为前车驶入优化区的距离,l1为自车车长;
40、由两车间距计算自车在时刻t行驶的最大速度:
41、v1max(t)=min{v1e(t),vroad}
42、
43、其中,vroad为当前道路限速。
44、根据本发明提供的无信号灯交叉路口多矿车通行策略系统,包括:
45、模块m1:基于冲突点模型,建立冲突表,构建虚拟信号灯相位组合;
46、模块m2:基于深度强化学习方法,控制虚拟信号灯相位;
47、模块m3:基于自车的制动距离、前车的制动距离和两车完全制动后的间距,构建矿车安全制动距离模型,并基于安全制动距离模型调整矿车速度;
48、所述冲突点模型用于让每辆矿车沿着预期轨迹行驶,分析出所有碰撞可能性;
49、所述冲突表用于根据所有碰撞可能性,将不同车道之间的冲突情况绘制成表格。
50、优选的,所述模块m1包括:对于4车道e1、e2、e3、e4,若只有车道e1和e2之间没有冲突,则虚拟信号灯的相位组合为{green-e1e2,red-e3e4},{green-e3,red-e1e2e4},{green-e4,red-e1e2e3},其中,{green-e1e2,red-e3e4}该相位指车道e1e2为绿灯,车道e3e4为红灯,设置绿灯时间结束时有5s的黄灯时间,此时红灯保持不变。
51、优选的,所述模块m2包括:
52、使用dqn强化学习方法,构建dqn网络模型,包括两个结构相同但参数不同的q现实网络和q估计网络,其中q现实网络的参数滞后;
53、环境由sumo软件生成,包括交叉口道路和车流状况,状态空间用一组特征向量表示,包括每个车道的队列长度、车道上矿车平均速度、平均等待时间、当前虚拟信号灯相位和下一相位;
54、动作空间包括三种虚拟信号灯的相位组合,分别用a1、a2、a3表示{green-e1e2,red-e3e4},{green-e3,red-e1e2e4},{green-e4,red-e1e2e3};
55、奖励定义为:
56、r=w1r1+w2r2+w3r3+w4r4+w5r5
57、其中,r1为各车道的队列长度总和;r2为各车道的矿车平均速度总和;r3为信号灯改变次数,若改变为1,不改变则为0;r4=∑iwi,为所有矿车的等待时间总和,其中,r5为在每个优化周期δt内通过交叉口矿车的平均行程时间总和;w1、w2、w3、w4、w5为加权系数。
58、优选的,向dqn网络模型中输入状态,按照贪婪策略选取动作,以概率∈随机选取动作,以概率1-∈选取q值最大的动作,并获得相应的奖励和下一时刻的状态;
59、其中,n为当前的回合数,n为总回合数;
60、存储该时刻的状态、动作、奖励和下一时刻的状态,作为样本存入经验存储器,不断更新状态获取样本,待样本数达到设定容量后进入强化学习训练阶段,计算损失函数,根据梯度下降法,进行反向误差传播,更新q估计网络参数,并每隔几个回合,更新q现实网络参数;
61、其中,损失函数如下式所示,w和w′分别为q估计网络和q现实网络的参数:
62、l(w)=(r+γmaxa'q(s',a';w')-q(s,a;w))2
63、其中,s为制动距离;a为制动速度;
64、对上式求导,得到损失函数的梯度为:
65、
66、更新q估计网络参数的公式如下:
67、
68、网络模型训练完成后,根据当前交通状况进行虚拟信号灯相位选择,实现车道之间的冲突消解和通行效率的提高。
69、优选的,所述模块m3包括:
70、建立安全制动距离模型,安全制动距离如下式所示:
71、ssafe=s1+d-s2
72、其中,ssafe为制动安全距离,s1为自车的制动距离,s2为前车的制动距离,d为两车完全制动后的间距;
73、s1由下式得出:
74、
75、其中,v1为自车速度,a1max为自车最大制动减速度,t11为自车的制动反应时间,t12为自车的制动协调时间,t13为自车的制动力增长时间,t14为自车的制动力持续作用时间;式中的四项分别表示制动反应距离、制动协调距离、制动力增长距离和制动持续作用距离;
76、s2由下式得出:
77、
78、其中,v2为前车速度,a2max为前车最大制动减速度,t21为前车的制动力增长时间,t22为前车的制动力持续作用时间;式中两项分别表示前车的制动力增长距离和制动持续作用距离;
79、同一车道上前后两矿车的间距由下式计算出:
80、g1=d2-d1-l1-ssafe
81、其中,优化区为各进车道与交叉口的边界向外扩展150m的区域,d1为自车驶入优化区的距离,d2为前车驶入优化区的距离,l1为自车车长;
82、由两车间距计算自车在时刻t行驶的最大速度:
83、v1max(t)=min{v1e(t),vroad}
84、
85、其中,vroad为当前道路限速。
86、与现有技术相比,本发明具有如下的有益效果:
87、本发明基于冲突点模型,建立冲突表,构建虚拟信号灯相位组合;基于深度强化学习的方法,控制虚拟信号灯相位,实现不同车道之间的冲突消解,避免了交叉口不同方向行驶的矿车过多而出现“死锁”现象;基于矿车安全制动距离模型,调整矿车速度,避免与前方矿车发生碰撞;本发明实现了无人驾驶矿车与有人驾驶矿车在无信号灯不规则交叉路口场景下安全混合通行,并提高了通行效率。