一种无信号交叉口自动驾驶汽车通行协同决策控制方法

文档序号:33738129发布日期:2023-04-06 08:48阅读:62来源:国知局
一种无信号交叉口自动驾驶汽车通行协同决策控制方法

本发明涉及交通决策相关领域,具体是一种无信号交叉口自动驾驶汽车通行协同决策控制方法。


背景技术:

1、近年来随着我国经济的快速发展,汽车保有量逐年快速增加,造成的交通拥堵问题日益严重,尤其是在无信号交叉口区域,汽车从各个方向驶来,汇集,交错和分离,产生了大量的行驶冲突,导致了大量的行驶延误和交通事故,对城市交通系统的安全和效率产生了负面的影响。

2、目前用于无信号交叉口自动驾驶汽车通行决策控制的算法可分为集中式控制和分布式控制,集中式控制指汽车行驶到交叉口时,把当前车辆行驶状态和在交叉口的期望行驶方向等信息发送给路侧单元,路侧单元对所有车辆发来的信息进行接收,并计算通行策略,再把控制指令发送给每辆车,各车严格按照指令行驶通过交叉口;集中式算法大多是基于固定的通行策略,传统的数学模型或强化学习展开的,典型的固定通行策略如先到先服务(fcfs),路权制定等通常无法保证在所有交通流量工况下均实现良好的控制效果;传统的数学模型如mpc,milp等算法通常需要基于大量的实时数据,设定特定的目标函数,进行最大值/最小值求解,得到最优解或局部最优解,计算效率较低;深度强化学习方法利用神经网络模型来进行车辆的通行决策,通过建立合理的状态空间,动作空间和奖励函数将交叉口车辆通行问题转变为深度强化学习问题,利用车辆行驶状态信息作为神经网络的输入,以车辆的控制指令作为神经网络的输出;将神经网络在仿真环境中训练,通过在当前策略下控制汽车行驶得到的奖励值来优化神经网络参数,从而完成一次迭代,进行多次迭代得到最优控制策略;由于算法在环境中不断探索、尝试,因此通常较难保证汽车行驶绝对安全;分布式控制指没有路侧单元做集中调度,各车之间直接通信,决策出车辆在交叉口的通行方案;现有研究中的控制方法大多是集中式,因为分布式较难控制交叉口车辆群体的通行效率,且难以保证交通的公平性。

3、因此,为了解决道路交叉口车辆通行决策现有的计算效率低,优化性能不佳,安全性能欠缺的问题,本发明提出了一种集中式的无信号交叉口自动驾驶汽车协同决策规划方法,来协调多辆自动驾驶汽车在无信号交叉口的行驶,从全局的角度出发,考虑车辆群体的通行性能,在保证汽车行驶安全的同时,获得良好的通行效率和行驶舒适性。


技术实现思路

1、本发明的目的在于提供一种无信号交叉口自动驾驶汽车通行协同决策控制方法,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:

3、一种无信号交叉口自动驾驶汽车通行协同决策控制方法,包含以下步骤:

4、通过设定合理的状态空间、动作空间以及奖励函数进行马尔可夫建模,所述状态空间表征智能体所处环境的所有状态的集合,所述动作空间表征智能体在环境中可以采取的所有动作的集合,所述奖励函数表征智能体在某一状态下采取某一动作的对应结果;

5、基于actor-critic架构建立策略网络以及价值网络,所述策略网络用于基于当前环境状态选择智能体需要采取的动作,所述价值网络用于评估当前动作采取后的对应结果;

6、通过v2x技术对车辆数据进行实时采集与控制,获取车辆的位置、速度以及在交叉口的期望行驶方向信息,并判断获取车辆与交叉口的距离、车辆间是否存在路径冲突以及冲突点距离,通过预设的路侧单元计算获取控制指令并输出至各车辆;

7、利用近端策略优化ppo进行决策规划,以智能体所处环境状态为输入,智能体根据当前策略选择采取的动作,进而获得下一时间步的环境状态,并对经历的状态及动作轨迹进行搜集,用于神经网络训练迭代,结合搜集的轨迹及价值网络对策略进行评估,计算获取策略网络与价值网络的损失函数并用于策略更新。

8、作为本发明的进一步方案:所述通过设定合理的状态空间、动作空间以及奖励函数进行马尔可夫建模的步骤包括:

9、基于交叉口的环境状态以及汽车的运动状态进行场景建模,所述场景建模包括车道标记、车道行驶规则、车辆行驶状态以及车辆对应车道间的空间关系;

10、基于状态空间、动作空间、奖励函数以及相对应状态转移概率和折扣因子建立马尔可夫模型,所述状态转移概率用于表征智能体在某一状态下采取某一动作到另一状态的概率,当智能体在某一状态在采取动作后,赋予一定的奖励,所述奖励大小基于采取某一动作后的结果设置,所述折扣因子表征未来奖励与近期奖励的重要程度,用于奖励的长久的未来奖励对当前收获的影响。

11、作为本发明的再进一步方案:所述奖励函数包括步骤奖励和回合奖励;

12、所述步骤奖励,包括时间奖励、接近碰撞点的同步度奖励以及加加速度奖励,所述时间奖励用于在每个时间步给予一定数值的负奖励,所述接近碰撞点的同步度奖励用于引导算法向汽车不同时接近其碰撞点的方向快速优化,以达到快速碰撞的目的,所述加加速度奖励用于提高算法控制下汽车的行驶舒适性;

13、所述回合奖励,包括碰撞奖励以及通过奖励,所述碰撞奖励基于回合结束时有无碰撞发生设置,所述通过奖励基于回合结束时成功通过交叉口的汽车数量计算获得。

14、作为本发明的再进一步方案:所述策略网络和价值网络均包括输入层、两个隐藏层和输出层,所述输输入层用于输入环境信息,即车辆行驶状态信息,所述输出层用于输出车辆控制指令,每个所述隐藏层均包括128个神经元。

15、作为本发明的再进一步方案:所述路侧单元预存储有交叉口拓扑结构;

16、所述交叉口拓扑结构包括交叉口中心坐标、道路数量、车道数量和方向以及停止线位置信息,所述路侧单元基于接近交叉口车辆的笛卡尔坐标,实时计算车辆与交叉口的距离和位置关系,进而判断路侧单元是否对车辆运动进行接管;

17、所述汽车通过交叉口时的行驶区域可划分为缓冲区域、核心区域和驶离区域,所述缓冲区域表征汽车在进入交叉口之前的区域,所述核心区域表征各车道交汇形成的区域,所述驶离区域表征汽车驶出交叉口后,恢复到巡航行驶速度下的区域。

18、作为本发明的再进一步方案:所述利用近端策略优化ppo进行决策规划的步骤可划分为:

19、对智能体根据当前策略选择出采取的动作,进而得到下一时间步的环境状态的过程中,智能体所经历的状态、动作轨迹进行收集,并以智能体所处状态为输入,进行神经网络的训练与迭代;

20、在每一次的策略迭代时,将搜集到的状态、行为轨迹均分成若干份,利用每份小批量数据进行训练,并将所有的轨迹数据重复利用训练预设次数,提高采样的轨迹的训练效率,利用价值网络对当前策略的好坏进行评估,来得到策略网络的迭代优化的方向;

21、ppo将actor网络和critic网络的参数共享,结合策略网络的损失函数和价值网络的损失函数,建立新的损失函数loss,利用梯度下降方法来实现策略网络与价值网络的网络参数更新。

22、作为本发明的再进一步方案:还包括车辆行驶安全性的形式化验证与规约的步骤,具体的:

23、对车辆行驶的安全性进行形式化验证,通过路权判定规则对于任意一对存在路径冲突的车辆进行判定,当两辆车均未通过碰撞点且车间距小于安全阈值时,对无路权车辆施加一定的减速度来避免碰撞,当有路权车辆通过碰撞点后,无路权车辆再加速通行。

24、与现有技术相比,本发明的有益效果是:通过v2x技术获得全局的交叉口车辆行驶信息,通行策略考虑车辆群体的通行性能;计算开销成本低,控制实时性较好;算法可以根据道路实际环境的差异进行个性化的优化,获得更加适合当前交叉口拓扑结构的通行策略;加入了基于交规的形式化验证与规约,保证自动驾驶汽车在交叉口行驶的绝对安全。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1