基于多目标深度强化学习的混合动力汽车生态驾驶方法

文档序号:34464686发布日期:2023-06-15 09:59阅读:74来源:国知局
基于多目标深度强化学习的混合动力汽车生态驾驶方法

本发明属于深度强化学习,更具体地说,涉及一种基于多目标深度强化学习的混合动力汽车生态驾驶方法。


背景技术:

1、随着全球变暖与化石燃料的广泛使用,世界各国都将环境保护作为当前时代的首要任务之一。交通运输领域的能源消耗占全球能源消耗的20%,提供了全球四分之一的碳排放量。混合动力汽车(hev)的使用清洁、经济和环保的电能作为汽车驱动能源之一,hev的推广有望缓解污染气体的过度排放。hev配置改进的投资周期通常以年为单位,并且效益有限。生态驾驶技术落地时间短,前期投资少,但其对燃油效率的增幅却高达45%。因此,推广应用生态驾驶技术,改善汽车驾驶策略,可有效提升汽车能量管理性能。关于能量管理策略(ems)和自适应巡航控制系统(acc)的协同优化是当前生态驾驶领域的研究热点,ems通过动力传统系统中各组件的协调来提高燃油经济性,acc通过帮助驾驶员实时调整车辆速度或跟驰距离来提高驾驶安全性和舒适性。

2、现如今,自主学习的方法逐渐成为解决优化问题的首选方法。深度强化学习(drl)是一种将深度学习(dl)与强化学习(rl)相结合的方法,同时具备深度学习强大的表征能力和强化学习的强大推理能力,深度神经网络(dnn)显著降低了对领域知识的依赖性。随着drl在ems和acc领域的普及,基于drl的生态驾驶策略被相应提出。但通过单目标drl来解决问题,一方面需要额外的时间和精力来手动确定奖励权重;另一方面,从某一权重向量的最优策略中获得的经验缓冲区可能对其他权重向量产生不利。近些年来,多目标深度强化学习(modrl)的研究取得一定进展,以目标相对权重为输入条件的深度q-learning网络(dqn),即条件网络(cn),可以有效解决多目标权衡和高维输入问题,这对于实现生态驾驶非常有益。因此,利用基于modrl的生态驾驶策略实现混合动力汽车生态驾驶的多目标动态权衡,可在线实时控制车辆的功率分配,有效提高生态驾驶策略整体效益。


技术实现思路

1、为了解决上述本领域中存在的技术问题,本发明提供了一种基于多目标深度强化学习的混合动力汽车生态驾驶方法。构建基于ems和acc协同优化的生态驾驶策略,将电池退化成本纳入优化目标,通过基于cn的深度学习模型,结合奖励权重抽样机制,在线实时调整各目标权重,优化汽车的能量管理策略,适宜切换跟驰模型,实现生态驾驶效益最大化。

2、为了解决上述技术问题至少之一,根据本发明的一方面,提供了一种基于多目标深度强化学习的混合动力汽车生态驾驶方法,包括如下步骤:

3、s1、构建混合动力汽车自适应巡航系统模型与动力系统模型;

4、s2、利用多目标深度强化学习算法,建立基于多目标深度强化学习算法的混合动力汽车跟驰场景下的能耗优化方法;

5、s3、基于神经网络,构建基于目标相对权重输入的条件网络;

6、s4、将多目标深度强化学习算法应用于自适应巡航与能量管理协同优化,结合奖励权重抽样机制,建立基于多目标深度强化学习的混合动力汽车生态驾驶策略,提升车辆跟驰场景下能量管理的优化性能。

7、根据本发明实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤s1具体如下:

8、构建混合动力汽车自适应巡航系统模型与动力系统模型,其中,自适应巡航控制系统主要实现车辆跟驰模型重组,根据前车行驶工况动态变化,选择合适的跟车模型,包括krauss车辆跟驰模型和智能驾驶模型(idm);动力系统主要实现发动机-发电机组(egs)和电池组间的能量协调,并考虑电池组老化问题,建立动力电池电热老化系统模型。

9、根据本发明实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤s2具体如下:

10、建立基于多目标深度强化学习算法的混合动力汽车跟驰场景下的能耗优化方法可看作马尔可夫决策过程,包括以下步骤:

11、s21、定义深度强化学习中的状态、动作、多目标奖励函数、最优动作-值函数以及最优控制策略;

12、s22、深度强化学习agent接收环境观测值,并根据当前控制策略对执行一个动作;

13、s23、环境对此动作做出响应,又进入一个新的状态,并将新的状态和此动作所带来的奖励返回深度强化学习agent;

14、s24、在新的状态中,agent又将继续执行动作,以此类推,深度强化学习agent与环境不断地交互,直到得到最优动作-值函数(多目标q值向量)以及最优控制策略。

15、根据本发明实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤s21具体为:

16、确定深度强化学习中的状态和动作,多目标奖励函数、最优动作-值函数以及最优控制策略;具体包括:状态分别为当前时刻主车的车速、当前时刻主车加速度、当前时刻主车行驶距离、当前时刻前车的车速、当前时刻前车加速度、当前时刻前车行驶距离、当前时刻车辆跟驰距离、当前时刻发动机功率、动力电池荷电状态soc、动力电池健康状态soh、电池内部平均温度以及电池容量衰减速率c;动作为跟驰行为模式和发动机功率;定义奖励函数,包含低油耗、soc稳定性和soh稳定性三部分,所述奖励函数reward的具体计算公式为:

17、

18、上式中,r(s,a)为在状态s下选择行动a的奖励函数向量,每个目标给予相应权重;r1(s,a)为奖励函数reward 1;r2(s,a)为奖励函数reward 2;r3(s,a)为奖励函数reward 3;cf为发动机瞬时燃油消耗量;cb为电池充电成本;cag为电池老化成本;m、v为标准化系数;

19、最优动作-值函数的具体计算公式为:

20、q*(s,a)=qπ(s,a)=maxe[rt+1+λq*(st+1,at+1)|st,at]  (2)

21、上式中,qπ(s,a)是在策略π状态s下选择行动a的动作-值函数;st,at为时刻t下的状态,动作;st+1,at+1,rt+1为时刻t+1下的状态,动作以及奖励函数;λ∈[0,1]为折扣因子;

22、最优控制策略π*满足具体计算公式为

23、

24、根据本发明实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤s3具体为:

25、s31、建立基于目标相对权重输入的条件网络;

26、s32、基于条件网络输出结果,定义控制动作选择策略;

27、s33、采用多样经验回放(der),对近期未执行策略的权重向量进行经验取样。

28、根据本发明实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤s31中基于目标相对权重输入的条件网络,本质为基于价值的神经网络,具体包括估计神经网络和目标神经网络,目标网络则是用来更新估计网络,二者内部结构一样,以目标相对重要性为输入条件,结合奖励权重抽样机制,实现多目标的权衡;在建立条件网络时,其中输入有三个:一是状态观测值,二是控制量,三是目标权重,其中状态观测值包括当前时刻主车的车速、当前时刻主车加速度、当前时刻主车行驶距离、当前时刻前车的车速、当前时刻前车加速度、当前时刻前车行驶距离、当前时刻车辆跟驰距离、当前时刻发动机功率、动力电池荷电状态soc、动力电池健康状态soh、电池内部平均温度以及电池容量衰减速率c,输出为多目标q值向量。

29、根据本发明实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤s32中的定义控制动作选择策略,具体包括:根据当前策略和一定的动作选择概率ε,从这个随机过程获得执行动作,该过程可表示为:

30、p(a=random choice)=ε

31、p(a=agmaxa∈aqcn(aj,sj;w)·w)=1-ε      (4)

32、上式中,p(·)为动作选择概率。

33、根据本发明实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤s4中,基于多目标深度强化学习的混合动力汽车生态驾驶策略包括以下步骤:

34、s41、离线训练;通过多目标深度强化学习算法对模型进行训练,学习控制策略即输入状态与动作参数之间的映射关系;

35、s42、将各个训练完成后的条件网络的参数读取出来,并将控制策略下载到整车控制器vcu中;

36、s43、在线学习;获取当前时刻有关车辆状态及电池状态的有关信息,共同作用于已训练完成的条件网络,通过在线实时调节,完成对跟驰模型选择和功率分配决策的更新。

37、根据本发明实施例的基于多目标深度强化学习的混合动力汽车生态驾驶方法,可选地,步骤s41中通过多目标深度强化学习算法对模型进行训练,学习输入状态与动作参数之间的映射关系,具体包括以下步骤:

38、s411、初始化多样经验回放缓冲区d;去重权重向量经验池w;

39、s412、初始化条件网络价值函数;获得当前时刻的权重向量wt并将其添加入w;

40、s413、agent以概率ε随机选择一个动作at,下达给environment执行该at;否则执行动作at=agmaxa∈aqcn(aj,sj;w)·w;

41、s414、environment执行该at,返回rewardrt和新的状态st+1;

42、s415、agent将这个状态转换过程(transition):(st,at,rt,st+1)保存到多样经验回放缓冲区d;

43、s416、从多样经验回放缓冲区d中随机选取部分样本,用(sj,aj,rj,sj+1)表示;从权重向量经验池w中随机选取wj;然后训练更新target神经网络,学习过程为:

44、

45、

46、上式中,yj和y′j为标签;rj为学习过程中的奖励;λ为折扣因子;

47、s417、定义td error,用于网络更新,td error为:

48、

49、s418、每经过n-回合,将online网络参数复制给target网络;

50、s419、当训练步数完成后,条件网络训练完成。

51、根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明的基于多目标深度强化学习的混合动力汽车生态驾驶方法中的步骤。

52、根据本发明的又一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明的基于多目标深度强化学习的混合动力汽车生态驾驶方法中的步骤。

53、相比于现有技术,本发明至少具有如下有益效果:

54、本发明将多目标深度强化学习算法首次应用于混合动力汽车多系统协同优化,来提高混合动力汽车生态驾驶策略的整体效益。该方法在传统能量指标的基础上,将电池退化成本纳入优化目标,提高整体能源管理性能。采用基于多目标动态权重设置的条件网络,控制车辆学习以经济为导向的重组跟驰模型,实现车辆功率的优化分配。仿真结果表明,在100公里的真实城市道路和州际公路行驶工况下,基于cn的生态驾驶策略比基于ddqn的生态驾驶策略的计算收敛速度快3倍以上,前者能够实现燃油经济性、soc稳定性和soh稳定性之间的动态权衡,而后者燃油经济性明显较低,并且soc几乎耗尽,基于cn的生态驾驶策略在不同复杂行驶工况下具备较强的适应能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1