基于强化学习的特车优先通行方法及系统

文档序号：34982320发布日期：2023-08-03 15:15阅读：31来源：国知局

本发明涉及特车通行的，具体地，涉及一种基于强化学习的特车优先通行方法及系统。

背景技术：

1、特车一般指有特殊用途的车辆，与平时所见的社会车辆有所区分。在城市发生交通事故或有其他紧急情况时，需要如救护车、消防车等应急车辆到达现场进行救援，或者如清扫车、警车、工程车辆等特种车辆完成特种任务，需要保证特车快速到达现场，即保证特车优先通行。

2、根据我国有关交通法律规定，特车在不影响交通的正常通行的情况下，可以获得道路的绝对通行权，可以不受行车路线、行驶车道、行驶方向、行驶速度、交通信号灯等的约束。但是有关数据显示，即使特车拥有绝对通行权，但是面对交通拥堵的情况也无能为力，由于前方有社会车辆，紧急车辆不得不停下等待绿灯。另外，社会车辆的避让不及时也会导致特车的行驶延误大大增加。

3、目前，对于特车优先通行实施的策略为信号优先策略，当应急车辆靠近信号灯并被路边的检测设备识别时，使得当前信号灯相位切换至应急车辆所在的车道，使得应急车辆以及前面的车辆快速通行，但是此方法无法解决多个应急车辆同时到达交叉口的情况，对本身就拥堵的交通不适合，同时也会造成交通的拥堵程度增加。

4、公开号cn113096419a的中国发明专利文献公开了一种服务于车辆优先通行的信号控制方法，以提高绿灯利用率为优化目标，根据车辆的实时定位数据感知车辆在路口的优先需求，根据路口各流向的实时流量与排队长度等运行动态分析配时方案与交通需求的匹配度，在不改变周期、相序的前提下提高非优先流向的绿时利用率，并使优先车辆通行相位能够最大程度延长以保障特殊车辆减少排队时长、优先通过路口，有效降低了特殊车辆优先通行对社会车辆正常通行的影响，同时，通过预测特殊车辆的路口到达时间，提前两个周期进行配时微调，使路口信号方案缓和过渡。

5、针对上述中的相关技术，发明人认为对于交叉口的车流来说，其流动方向主要是靠信号灯的控制。所以如何设计高效的交通灯信号控制器一直是交通工程中的一个重要问题。由于交通环境的复杂性和不确定性，传统的模型求解起来相当困难。在这样的背景下，提供一种适用于特车优先通行的交通灯控制算法具有重要意义。

技术实现思路

1、针对现有技术中的缺陷，本发明的目的是提供一种基于强化学习的特车优先通行方法及系统。

2、根据本发明提供的一种基于强化学习的特车优先通行方法，包括如下步骤：

3、布置步骤：在交叉口布置信号灯控制智能体；

4、信号灯控制步骤：使用信号灯控制智能体控制交叉口信号灯的运行，根据获取的交通状态决策当前需要切换的相位。

5、优选的，在所述布置步骤中，在交叉口布置通信判断智能体；

6、该方法还包括通信判断步骤：使用通信判断智能体在特车到达时判断选定周围智能体并进行通信，将特车信息通知给下游的交叉口；

7、配合步骤：通过结合信号灯控制智能体和通信判断智能体优化相位安排策略，进行特车的优先通行。

8、优选的，该方法还包括智能体训练步骤：使用强化学习训练交通信号灯控制智能体以及通信判断智能体。

9、优选的，在所述信号灯控制步骤中，信号灯控制智能体观察交叉口实时的交通状态，然后根据观察的交通状态周期性决策，动态安排交叉口信号灯信号，使特车优先通行；

10、所述信号灯控制智能体感知的交通状态包括特车状态、社会车辆状态以及交通信号灯的状态；

11、特车状态stateev包括特车所在车道的信息pi以及特车的瞬时速度si，状态编码为：

12、stateev＝[p1，p2，…，pn，s1，s2，…，sn]

13、其中，n为该交叉口的进口车道总数，该状态所有的值初始化为0，若检测到车道i上有特车，则pi＝1，对应的si设置为特车当前的速度；

14、社会车辆状态statesocial包括每个进口车道i的观察范围内的社会车辆的排队长度qi以及感知范围内车辆密度di；

15、statesocial＝[d1，d2，…，dn，q1，q2，…，qn]

16、交通信号灯状态statecross包括当前的交通信号相位；

17、信号灯控制智能体的感知状态s为

18、s＝stateev，statesocial，statecross。

19、优选的，在所述信号灯控制步骤中，信号灯控制智能体的奖励函数包括特车的奖励函数和社会车辆的奖励函数；

20、特车的奖励函数rewardev由以下公式计算：

21、

22、rp＝20

23、

24、其中，ec表示本轮决策过程中观察到的特车集合，ep表示本轮中不出现但是在上一轮决策过程中观察到的特车集合，rc(e)表示ec集合中特车的奖励函数，rp表示ep集合中特车的奖励函数，speede表示车辆e的速度，waite表示车辆e在交叉口的等待时间；

25、社会车辆的奖励函数rewardsocial由以下公式进行计算：

26、

27、其中，l为进口车道总数，ql表示车道l的排队长度，n为车道检测范围内的所有车辆总数，waiti表示车辆i的等待时间，α为系数；

28、信号灯控制智能体的奖励函数r为社会车辆奖励函数以及特车奖励函数的加权和，由以下公式计算：

29、r＝rewardev+β*rewardsocial

30、其中，β为系数，调节社会车辆占奖励的比重。

31、优选的，在所述通信判断步骤中，通信判断智能体观察实时的交通状态，若通信判断智能体检测到有特车到来，则判断特车的行进方向，进而通知下游的交叉口的智能体；

32、所述通信判断智能体感知的交通状态包括特车的状态以及周围交叉口车道的状态；

33、特车的状态stateev包括特车所在的车道信息和特车的类别，状态编码如下：

34、stateev＝[p1，p2，…，pn，c1，c2，…，cg]

35、其中，g为特车的种类数，该状态所有的值初始化为0，若检测到车道i上有特车，则pi＝1，若特车的种类为第i种，则ci＝1；

36、周围交叉口车道的状态stateto包括从本交叉口到邻居交叉口的车道整体的车辆密度，状态编码如下：

37、stateto＝[t1，t2，...，th]

38、其中，h为该交叉口的邻居总数，ti表示从本交叉口到邻居交叉口i道路的车辆密度；

39、通信判断智能体的感知状态sj为：

40、sj＝stateev，stateto。

41、优选的，在所述通信判断步骤中，所述通信判断智能体的奖励函数rj由以下公式计算：

42、

43、

44、其中，ntarget为特车最终到达的结点，nimpossible为不可能到达的结点集合，njudge为智能体所判断的要达到的结点集合。r(x)表示在njudge集合中结点的奖励，x为njudge集合中结点；rj为智能体的奖励函数。

45、优选的，在所述结合步骤中，在两层智能体结合的情况下，信号灯控制智能体的状态添加将要到来的特车的信息statecoming并编码，为每个车道赋予位置，采用如下定义：

46、statecoming＝[l1，l2，...，ln]

47、其中，li表示车道i，若判断某一条边上有特车到来，将该条边上所有的车道对应的l置为1；信号灯控制智能体的感知状态s更新为：

48、s＝stateev，statesocial，statecross，statecoming。

49、根据本发明提供的一种基于强化学习的特车优先通行系统，包括如下模块：

50、布置模块：在交叉口布置信号灯控制智能体；

51、信号灯控制模块：使用信号灯控制智能体控制交叉口信号灯的运行，根据获取的交通状态决策当前需要切换的相位。

52、优选的，在所述布置模块中，在交叉口布置通信判断智能体；

53、该方法还包括通信判断模块：使用通信判断智能体在特车到达时判断选定周围智能体并进行通信，将特车信息通知给下游的交叉口；

54、配合模块：通过结合信号灯控制智能体和通信判断智能体优化相位安排策略，进行特车的优先通行。

55、与现有技术相比，本发明具有如下的有益效果：

56、1、本发明通过结合交通信号灯控制智能体和通信判断智能体，使得相位安排的策略的更优，达到特车优先通行的目的；

57、2、本发明智能体通过与环境交互来学习最佳控制决策，对不同的交通情况做出灵活的反应，在不影响社会车流的情况下，让特车快速通过交叉口，同时能够应对多个特车同时出现的情况；

58、3、本发明在没有特车出现的交叉口，智能信号灯能够改善社会车辆的交通状况，减少交叉口拥堵，提高绿灯时间的利用率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹健戈萧钱诗友
技术所有人：上海交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.机器人 2.嵌入式控制系统开发
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、袁老师：1.计算机视觉 2.无线网络及物联网
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。