基于模糊Petri和DDPG网络的无人车循迹控制方法与流程

文档序号:36915405发布日期:2024-02-02 21:43阅读:11来源:国知局
基于模糊Petri和DDPG网络的无人车循迹控制方法与流程

本发明涉及基于模糊petri和ddpg网络的无人车循迹控制方法,属于无人车控制领域,尤其适用于无人车循迹控制的场景。


背景技术:

1、无人车(driverless car)又称自主车或自动驾驶车,是一种无须人工干预而能够感知其周边环境和导航的车辆。它利用了包括雷达、激光、超声波、gps、里程计、计算机视觉等多种技术来感知其周边环境,通过先进的计算和控制系统,来识别障碍物和各种标识牌,规划合适的路径来控制车辆行驶。

2、随着人工智能、大数据分析与处理技术、无线通信技术、车联网、无人驾驶技术等日趋成熟,无人车已广泛应用于物流、人民生活、兵力部署等民用和军事领域。在无人车行驶的过程中,导航系统可以根据后台地图信息规划好无人车的行进路线,无人车需要按照规划路线进行准确的循迹控制,安全到达目的地。但实际行驶过程中,路况千变万化,需要充分的考虑环境状态和无人车自身状态进而作出控制决策,对控制的实时性和安全性要求很高。

3、petri网具有严格数理逻辑基础,对无人车系统进行预测控制,有利于加强无人车的安全性,其能够实现无人车的异步、离散的动作控制。同时,强化学习技术在无人车无人驾驶领域也得到了广泛的使用,改进后的deep deterministic policy gradient(ddpg)网络能够实现对无人车连续动作的控制,即实时同步的控制。

4、单独的petri网对无人车的动作进行控制,模型颗粒度不够,缺乏实时性和光滑性。单独的ddpg网络对无人车的动作进行控制,适用于封闭系统,对于开放系统需要考虑大量的因素,如环境状态(车辆限速)等,动作固定僵化,无法应对外界状态突变造成的冲击,系统的鲁棒性欠缺。传统的基于动力学分析的车辆的循迹控制方法,但由于模型参数和模型精度的影响,导致循迹精度还不够高;且模型固定、对传感器的依赖很高,缺乏对环境因素的考虑以及抗干扰的能力。因此,亟需一种鲁棒性好,且能够实时高精度的无人车的循迹控制方法。


技术实现思路

1、本发明提供基于模糊petri和ddpg网络的无人车循迹控制方法,采用异步和同步相结合的思路,结合自身状态和环境状态对无人车控制决策的影响,将petri网和ddpg网进行联动实现控制的连续性和抗干扰性。

2、为达到上述目的,本发明提供如下技术方案:

3、基于模糊petri和ddpg网络的无人车循迹控制方法,通过无人车系统进行实现;所述的无人车系统由无人车电子控制单元(ecu)和智能控制系统构成;所述的无人车电子控制单元为无人车上安装的传感器、控制器和执行机构;智能控制系统为带有基于模糊petri和ddpg网络的无人车循迹控制方法的中央处理器(cpu);其特征在于,该方法包含以下步骤:

4、s1:智能控制系统通过通信实时获取无人车的自身状态和环境状态;

5、s2:智能控制系统利用模糊网络对自身状态和环境状态进行模糊化处理,得到模糊状态;

6、s3:基于无人车电子控制单元信息的特点以及无人车控制信息流传输相关约束规则的特点,以模糊状态为库所,以无入车电子控制单元上对应的所有存在的操作为变迁,根据车辆控制信息流传输相关约束规则中状态和变迁的前置条件和后置条件,建立无人车系统的petri网模型;

7、s4:智能控制系统根据路径规划计算出下一时刻的轨迹目标位置以及对应的无人车自身状态,并利用无人车系统的petri网模型计算出当前模糊状态对应变迁的可达性,筛选出最优的变迁;

8、s5:智能控制系统以无人车的自身状态为状态,无人车电子控制单元控制器的输出为动作,建立无人车的ddpg网络模型;

9、s6:将步骤s4所得到变迁用来对无人车的ddpg网络模型中的动作进行修正;

10、s7:结合状态可达性、动作相似性以及状态准确性构建损失函数,并利用历史数据对带有动作修正的无人车的ddpg网络模型进行训练;

11、s8:利用训练好的带有动作修正的无人车的ddpg网络模型用来对无人车进行实时循迹控制。

12、进一步,所述的步骤s1需要将所有的无人车电子控制单元中传感器反馈给智能控制系统的数据信号分为:与无人车自身状态相关的数据集合,即自身状态,如无人车的速度、加速度、转角;以及与外界环境相关的数据集合,即环境状态,如雷达监测的障碍物距离、摄像头拍摄的限速标识等。

13、进一步,步骤s2中将第i个无人车电子控制单元的数据信号进行模糊化处理得到其对应的模糊状态,并赋值给pi。

14、可优选的,所述的步骤s2可以为:智能控制系统利用支持向量机(svm)对自身状态和环境状态进行状态类别的划分,得到对应分类的状态,即模糊状态。

15、进一步,步骤s3中单个所述的无人车电子控制单元信息包含无人车电子控制单元唯一标识名称id-name、时间time和无人车电子控制单元属性at;所述的时间包括无人车电子控制单元的响应时间tp和系统全局时间tg;所述的无人车电子控制单元属性包含所有的无人车电子控制单元所有存在的模糊状态p={pi|i=1,2,…,m}和所有的无人车电子控制单元对应的所有存在的操作t={τj|j=1,2,…,n};其中,m、n为所有无人车电子控制单元对应的状态和操作的总数。

16、进一步,步骤s3所述的无人车控制信息流传输相关约束规则为车辆控制信息流传输和关系包含所有车辆的各个无人车电子控制单元的状态和操作之间的前置条件(p,t)和后置条件(t,p)。

17、进一步,步骤s3所述的无人车系统的petri网模型为(p,t,f,m0)四组元的petri网模型;其中,为各个无人车电子控制单元操作变迁的前置条件或者后置条件的集合,等价于有向弧集合,其中,k为有向弧的总数;mi=(vol(p1),vol(p2),…,vol(pm))为无人车系统操作变迁前的状态向量,其中,初始时刻i=0,vol(pj)为当前状态pj的无人车电子控制单元数量;当某个无人车电子控制单元在mi状态发生变迁τr时称为状态mi使能发生,标记为mi]>τr。

18、可优选的,考虑到系统的延迟响应,以及动作的持续性,步骤s3所述的无人车系统的petri网模型为(p,t,f,m0,si)五组元的时间petri网模型;其中,si为当前状态操作变迁时相对于初始时刻的最长时间区间,其中,初始时刻si=[0,0],对任意操作集合si(τ)=[max(eft(τ)),min(lft(τ))],(eft≤lft),eft表示操作最早的变迁时刻,lft表示操作最晚的变迁时刻。

19、进一步,所述的步骤s4具体为:

20、s401:智能控制系统结合地图信息,利用路径规划,计算出下一时刻的轨迹目标位置以及对应的无人车自身状态;

21、s402:根据无人车系统的petri网模型中的前置条件(p,t),搜索出当前无人车自身状态和环境状态对应的所有变迁;

22、s403:通过可达树分析,计算出无人车自身状态和环境状态以及其对应的变迁能够达到下一时刻的轨迹目标位置以及对应的无人车自身状态;

23、s404:选出其中可达树路径最短的变迁之一作为最优变迁输出。

24、可优选的,对于步骤s4中的可达性判断可以采用粗糙集进行判断,以提高计算效率。

25、特别地,针对不可达的情况,本发明方法的petri网模型会进行调整,其策略可根据无人车的ddpg网络模型自动进行前置条件或后置条件的调整。

26、进一步,将步骤s1所得的无人车自身状态作为状态s;将所有的无人车电子控制单元中控制器和执行机构反馈给智能控制系统的数据信号作为输出的动作a。

27、步骤s5所述的无人车的ddpg网络模型由actor网络μ(s|θμ)、critic网络q(s,a|θq)、actor目标网络μ′(s|θμ′)、cirtic目标网络q′(s,a|θq′)构成,其中:actor网络、critic网络、actor目标网络、cirtic目标网络分别为卷积神经网络;θμ、θq、θμ′、θq′分别为这四个网络的权重系数。

28、工作时,状态s经过actor网络μ(s|θμ)后得到动作a,采用动作a对状态s的无人车进行控制调整(即经过critic网络q(s,a|θq))后得到对该动作的评价q值;同时,状态s经过actor目标网络μ′(s|θμ′)后得到动作a′,采用动作a′对状态s的无人车进行控制调整(即经过cirtic目标网络q′(s,a|θq′))后得到对该动作的评价q′值。

29、可优选的,步骤s5所述的无人车的ddpg网络模型中的actor目标网络可以替换为无人车动力学模型,所述的动力学模型为(pure pursuit)纯跟踪模型,将模型在时间上进行离散化求解。

30、进一步,所述的步骤s6可以为:将步骤s4所得的变迁作为卷积神经网络的输入;输出为变迁对应的动作修正δa,叠加作用到actor网络的动作a上,a+δa作为critic网络的输入。

31、进一步,步骤s7所述的损失函数为l=η1l1+η2l2+η3l3,包含:(1)状态可达性损失函数:其中num(τ*)为可达路径的条数,e[·]为均值函数;(2)动作相似性损失函数l2=e[δa2],即最小化修正动作;(3)状态准确性损失函数l3=e[(q-r-γq′)2]。

32、可优选的,所述的步骤s6可以为:将步骤s4所得的变迁和actor网络的预测动作a都作为卷积神经网络的输入;卷积神经网络的输出为修正后的动作

33、基于此,更进一步,其对应的损失函数中的动作相似性损失函数部分需要更新为

34、本发明的有益效果在于:本发明提供了基于模糊petri和ddpg网络的无人车循迹控制方法,结合自身状态和环境状态对无人车控制决策的影响,采用并联的petri网和ddpg网结构,通过状态可达性、动作相似性以及状态准确性构建损失函数,将petri网和ddpg网进行联动实现控制的连续性和抗干扰性,可以实现无人车的智能、安全的循迹控制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1