基于云控平台的深度强化学习混合动力汽车能量管理方法

文档序号:32867993发布日期:2023-01-07 02:32阅读:100来源:国知局
基于云控平台的深度强化学习混合动力汽车能量管理方法

1.本发明属于混合动力汽车的能量管理技术领域,具体涉及基于云控平台的深度强化学习混合动力汽车能量管理方法。


背景技术:

2.为节约资源,减轻环境污染,实现节能减排,混合动力汽车成为当今汽车工业发展的重要方向之一,作为混合动力汽车的关键控制技术,能量管理策略直接影响了汽车的燃油经济性,成为了混合动力系统的研究重点。
3.近年来,对混合动力汽车能量管理策略的研究,主要可分为两类。一类是基于规则的控制算法,如基于逻辑门限和模糊逻辑控制算法,基于规则的控制算法逻辑清晰、计算迅速,但优化效果有限。另一类是基于最优化理论的控制算法,有基于全局优化的动态规划算法和庞特里亚金极小值原理,也有基于实时优化的等效燃油消耗最小算法和模型预测控制算法等。全局优化算法优化虽然效果显著,但计算量较大,且需预知路况,难以写入混合动力控制器进行实车应用;实时优化算法能够在行车过程中进行实时计算,但优化效果仍有较大提升空间。
4.中国专利202011084591.7公开了一种基于强化学习的混合动力汽车能量管理方法,通过强化学习得到混合动力汽车在不同循环工况下的能量管理策略,并将能量管理策略写入混合动力汽车的微型控制器,在汽车行驶时需通过查表获得当前状态下的最优控制动作。但对于汽车行驶中若遇到未曾行驶过的复杂工况,查表遇到困难,策略将无法快速识别。


技术实现要素:

5.本发明的目的在于提供基于云控平台的深度强化学习混合动力汽车能量管理方法,用以解决现有技术基于强化学习的混合动力汽车能量管理方法对于汽车行驶中若遇到未曾行驶过的复杂工况,查表遇到困难,策略将无法快速识别的问题。
6.为解决上述技术问题,本发明提供了基于云控平台的深度强化学习混合动力汽车能量管理方法,包括如下步骤:
7.1)获取当前车辆的驾驶参数;所述驾驶参数包括车辆的动力需求状态、储能装置的荷电状态以及发动机的输出参数;
8.2)将驾驶参数传输至云控平台,云控平台根据驾驶参数对naf强化学习算法进行在线学习,预测得到下一时刻发动机的输出参数;
9.3)将预测得到的发动机的输出参数传输至车辆的控制系统,用于对车辆的控制。
10.其有益效果为:通过实时获取车辆的驾驶参数,并将驾驶参数上传至云控平台,云控平台基于在线学习的方式,预测最优的能量管理控制策略,基于在线学习的方式,是基于车辆当前状态进行预测,因此能够避免现有技术的查表方式在遇到未曾行驶过的复杂工况时,查表困难的问题。本发明的在线学习方法是基于naf强化学习算法的,仅需一个网络就
能够实现所需数据的输出,因此基于一个强化学习算法的训练时间更快,即保证了在线学习算法输出的效率,进而能够保证对车辆的准确控制。
11.进一步地,步骤2)中,所述在线学习的过程为:将naf强化学习算法中的q函数q(x
t
,u
t
|θq)为最大值时的动作参考量u作为下一时刻最优的发动机的输出参数,其中x
t
为t时刻的动力需求状态以及储能装置的荷电状态组合,u
t
为t时刻的发动机的输出参数,θq为q函数对应的网络参数。
12.进一步地,所述naf强化学习算法的即时奖励函数为:以soc值为约束条件设置车辆污染物排放和发动机瞬时油耗之和的倒数。
13.进一步地,所述即时奖励函数的公式为:
14.其中,r
uxx

指代的是状态x在动作u的作用下转换到下一状态x'获得的即时奖励;ce代表发动机的瞬时油耗;co、hc和no
x
则是对应气体的排放量;c是惩罚项,其值等于最大排放量和发动机的最大瞬时油耗之和;soc是动力电池的荷电状态。
15.根据所定义的奖励函数可知,随着车辆污染物排放和发动机的瞬时油耗的增加,获得奖励值减小,符合施加的控制动作对能量管理策略所产生的期待。在算法奖励函数中,在电池soc为约束条件情况下,考虑其车辆污染物排放和发动机瞬时油耗,在保证车辆动力性的同时,已达到车辆更好的经济性。
16.进一步地,naf强化学习算法通过最小化损失函数来进行迭代更新,所述最小化损失函数的公式为:
17.j(θq)=e[(r
t
+γv

(x
t+1
|θq′
)-q(x
t
,u
t
|θq))2],其中,q(x
t
,u
t
|θq)表示q函数,v

(x
t+1
|θq′
)下一时刻的状态值函数,r
t
为奖励值,γ为折扣因子。
[0018]
进一步地,步骤1)中,还获取道路工况,步骤2)中,还将获取的驾驶参数以及对应的道路工况构建生成代表性的行驶工况。
[0019]
进一步地,所述行驶工况的构建方法为:将获取的驾驶参数以及对应的道路工况存储到云端中,将获得工况数据进行拟合,构建模态工况曲线,应用模态工况的数据进行特征分析,构建代表性的行驶工况。
[0020]
将获取的驾驶参数以及道路工况存储到云端中,使其能够作为构建各道路在雨季和非雨季的行驶工况的基础,车辆行驶中,对采集的工况进行工况数据进行拟合,构建模态工况曲线,应用模态工况的数据进行特征分析,构建生成代表性的行驶工况。对以后离线状态下算法训练提供数据基础;从而达到能量高效分配和利用。
[0021]
进一步地,步骤1)中,所述动力需求状态为车辆的需求转矩;所述发动机的输出参数为发动机的输出转矩。
[0022]
进一步地,步骤1)中,通过具备与云控平台具有通讯能力的路侧基础设施以及车辆的车载单元获取当前车辆的驾驶参数。
[0023]
通过在路侧基础设施(rsu)安装具备较高算力或具备与位于云端的计算中心高速通信能力的设备,相应的车端安装车载单元,即:obu(车载单元)与rsu(路侧单元)之间可以实现车间与车路间信息的传输,且rsu能够通过v2n将车端和路段的信息传送至云控平台。
[0024]
进一步地,步骤3)中,通过5g网络将所述预测得到的发动机的输出参数传输至车辆的控制系统。
[0025]
通过5g网络的传输方式,保证了传输效率,进而能够保证对车辆的准确控制。
附图说明
[0026]
图1是本发明的混合动力汽车能量管理方法流程图;
[0027]
图2是本发明的基于naf的深度强化学习算法结构图;
[0028]
图3是本发明的基于naf强化学习算法在车联网下的在线学习架构图。
具体实施方式
[0029]
为了使本发明的目的、技术方案及优点更加清楚明了,以下结合附图及实施例,对本发明进行进一步详细说明。
[0030]
基于云控平台的深度强化学习混合动力汽车能量管理方法实施例:
[0031]
如图1所示,本实施例的方法具体为:
[0032]
1)路侧基础设施(rsu)通过传感器采集车路信息,传递至云平台。
[0033]
智能通讯设备通过采集车路等信息,从而确定当前的行驶工况,获取其驾驶参数;并将信息传输给云控平台。
[0034]
如图3所示,具体的通过在路侧基础设施(rsu)安装具备较高算力或具备与位于云端的计算中心高速通信能力的设备,相应的车端安装车载单元。即:obu(车载单元)与rsu(路侧单元)之间可以实现车间与车路间信息的传输,且rsu通过v2n(v是指车辆n是指互联网,v2n是指车辆与互联网进行信息交换)将车端和路段的信息传送至云端计算平台。
[0035]
行驶中获取的驾驶参数主要包括:车辆的需求功率preq、车辆的车速v、车辆的需求转矩tr(即车辆的动力需求状态)、动力电池的荷电状态soc和发动机的输出转矩te等。
[0036]
行驶中的车辆通过rsu向位于云端的智能交通系统发送当前的状态行为序列(x
t
、u
t
、r
t
、x
t+1
),x
t
由车辆的需求转矩tr(t)和约束量soc所组成,u
t
为发动机的输出转矩、r
t
为奖励值、x
t+1
为下一时刻的状态量。智能交通系统根据接收的序列内容再结合交通条件对naf算法进行训练,如图3所示,能够通过其他交通参与者获取交通条件。
[0037]
2)根据相应参数,进行工况数据拟合,构建模态工况曲线图,并构建生成代表性工况。并将工况库数据储存。根据整车参数,进行整车模型构建,并将整车代码及通讯代码书写。
[0038]
通过当前车辆的行驶工况以及驾驶参数,自动存储工况数据。具体如下:将工况划分为加速工况、减速工况、怠速工况和匀速工况;加速阈值为0.15m/s2,减速阈值为-0.15m/s2;当汽车加速度大于或等于加速阈值时,该连续过程判定为加速工况;相应的,当加速度小于或等于减速阈值时,该连续过程判定为减速工况;当加速度的绝对值小于加速阈值且速度不等于0时,该连续过程判定为匀速工况;怠速工况是指发动机工作的同时车速为0的过程。将直接采集到的速度与时间,以及通过间接计算得到的加速度和行驶距离数据存储
到云端中,使其能够作为构建各道路在雨季和非雨季的行驶工况的基础;将获得工况数据进行拟合,构建模态工况曲线,应用模态工况的数据进行特征分析,构建生成代表性的行驶工况。
[0039]
通过在车辆行驶中,对采集的工况进行工况数据进行拟合,构建模态工况曲线,应用模态工况的数据进行特征分析,构建生成代表性的行驶工况。对以后离线状态下算法训练提供数据基础;从而达到能量高效分配和利用。
[0040]
3)云平台根据输入的参数,基于naf学习算法得到混合动力汽车在当前工况下的能量管理策略。
[0041]
naf学习算法结构图如图2所示,基于标准化优势函数的naf强化学习算法下进行在线学习,得到最优的能量管理策略控制参数。
[0042]
确定算法的动作空间:为合理的分配混合动力汽车中不同动力源的转矩比例,因此控制动作设置为发动机的输出转矩,即te(t),而电机转矩可根据车辆的需求转矩和发动机转矩的差值求取,即:tm(t)=tr(t)-te(t)。动作空间u(t)=(te(t))。
[0043]
进行系统状态定义:系统状态通常是控制动作的相关量或约束量,确定控制动作为发动机的输出转矩后,其系统状态空间为车辆的需求转矩tr(t)和约束量soc,即状态空间为x(t)=(tr(t),soc(t))
t

[0044]
目标函数:标准化优势函数是在dqn算法的基础上引入的,由于在dqn算法中,没有提供更新策略网络的方法,输出的只是q值,却没有输出动作。在q学习中,学习的目的是寻找q函数q(x
t
,u
t
)为最大值的动作参考量u,具体表现形式是基于神经网络的,输出值函数项v(x)和优势项a(x,u)与q函数的关系如下:
[0045]
q(x,u|θq)=v(x|θv)+a(x,u|θa),式中x表示为状态,u表示为动作,θ是对应的网络参数。选择最优的动作即q函数的值最大。
[0046]
naf强化学习基本框架是基于dqn框架的,假设智能体的“状态——动作序列”为x1,u1,x2,u2,

,u
t-1
,x
t
,u
t
,所有序列都在有限的时间步长终止。
[0047]
此时,目标函数定义为带折扣的总回报:
[0048]
式中γ为折扣因子,t为终止的时间步长。
[0049]
最优动作价值函数q(x,u)的目的遵循某一策略使其可获得最大期望回报,深度强化学习是采用深度θ的深度q网络来进行期望估计,即:q(x,u|θq)=v(x|θv)+a(x,u|θa),并采用存储每个时间步长探索状态—动作对,即存储经验:即e
t
=(x
t
,u
t
,r
t
,x
t+1
),得到经验池d
t
={e1,e2,e3,e4,

,e
t
};
[0050]
选择最优的动作即是要求q函数的值最大,亦就是要选优势最大的动作。所以此处要求优势项为小于或者等于0的值(即a(x,u)∈(-∞,0]),且所选的动作对应的优势项为0,即a(x,u|θa)=-p(x|θ
p
)(u-μ(x|θu))2,当u=μ(x|θu)时,所选动作优势最大。但为了保证其逐点收敛,最终矩阵a的构造如下:a(x,u|θa)=-0.5(u-μ(x|θu))
t
p(x|θ
p
)(u-μ(x|θu)),式中μ是神经网络的输出动作,令上式中的z=u-μ(x|θu),则可简化为a(x,u|θa)=-0.5z
t
p(x|θ
p
)z)≤0,根据正定矩阵定义可知p(x|θ
p
)必须是一个依赖于状态的正定矩阵。针对正定矩阵p(x|θ
p
)进行楚列斯基分解,存在p(x|θ
p
)=l(x|θ
p
)l(x|θ
p
)
t
,而l(x|θ
p
)的列向量来自于神经网络的线性输出层,重新排列后为下三角矩阵,再将对角项取平方根,可得:
[0051]
q(x,u|θq)=v(x|θv)+a(x,u|θa)=v(x|θv)-0.5(u-μ(x|θu))
t
p(x|θ
p
)(u-μ(x|θu))。
[0052]
损失函数的定义:通过最小化损失函数来进行迭代更新,即:
[0053]
j(θq)=e[(r
t
+γv

(x
t+1
|θq′
)-q(x
t
,u
t
|θq))2],式中,q(x
t
,u
t
|θq)表示q值函数,v

(x
t+1
|θq′
)下一时刻的状态值函数。
[0054]
奖励函数:由于naf算法以最大化每个时刻的即时奖励为训练目标,所以奖励函数的设置决定强化学习算法的收敛速度和程度。针对混合动力汽车的能量管理问题,以soc值为约束条件设置车辆污染物排放和发动机瞬时油耗之和的倒数作为即时奖励函数,详见公式:式:式中,r
uxx

指代的是状态x在动作u的作用下转换到下一状态x'获得的即时奖励;ce代表发动机的瞬时油耗,co、hc和no
x
则是排放量,由于两者量纲不同,且soc值变化范围较大,在取和时需要对三者进行归一化;c是惩罚项,其值等于最大排放量和发动机的最大瞬时油耗之和;奖励函数的取值受限于约束条件的变化,即该值随soc的不同取值范围而变化。
[0055]
根据所定义的奖励函数可知,随着车辆污染物排放和发动机的瞬时油耗的增加,获得奖励值减小,符合施加的控制动作对能量管理策略所产生的期待,在算法奖励函数中,在电池soc为约束条件情况下,考虑其车辆污染物排放和发动机瞬时油耗,在保证车辆动力性的同时,已达到车辆更好的经济性。
[0056]
结合v2x的naf的能量管理策略;为了适应行驶工况的变化,基于v2x对naf进行在线强化学习,具体步骤如下:在道路旁的路侧基础设施装具备较高算力或具备与位于云端的计算中心高速通信的能力的设备,相应的车端均安装了车载单元;实现车间与车路间信息的双向传输,且路侧基础设施rsu通过v2n将车端和路段的信息传送至云端计算平台;依托云端计算平台实现对naf算法的训练。
[0057]
行驶过程中车辆通过rsu向云端的智能交通系统发送当前的状态行为序列(x
t
、u
t
、r
t
、x
t+1
),智能交通系统根据接收的序列内容再结合交通条件对naf算法进行训练,训练结束后再通过rsu周期性的将网络参数发送回车端,云端平台依照公式计算最大q值。
[0058]
4)云平台根据控制策略输出控制动作参数,将控制动作参数通过5g网络输送给整车控制器,以执行对车辆的控制动作。
[0059]
云端平台将计算的q值以及q值对应的动作u,通过5g网络发送到整车的can总线,can总线将与计算的q值对应的动作u传递至车辆的ecu以执行对车辆的控制动作,然后储存当前时刻的状态序列。其中v2i、v2v和v2n的无线通信均被要求具备低延迟率,允许车辆接收讯息后有足够反应时间。
[0060]
本实施例的方法通过实时获取车辆的驾驶参数,并将驾驶参数上传至云控平台,云控平台基于在线学习的方式,预测最优的能量管理控制策略,基于在线学习的方式,是基于车辆当前状态进行预测,因此能够避免现有技术的查表方式在遇到未曾行驶过的复杂工
况时,查表困难的问题。本发明的在线学习方法是基于naf强化学习算法的,仅需一个网络就能够实现所需数据的输出,因此基于一个强化学习算法的训练时间更快,即保证了在线学习算法输出的效率,进而能够保证对车辆的准确控制。
[0061]
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1