基于自我监督学习的并联式混合动力汽车能量管理方法与流程

文档序号:30583926发布日期:2022-06-29 14:33阅读:148来源:国知局
基于自我监督学习的并联式混合动力汽车能量管理方法与流程

1.本发明涉及一种基于自我监督学习的并联式混合动力汽车能量管理方法, 属于混合动力汽车控制技术领域。


背景技术:

2.目前,随着汽车产量的快速增加,汽车在给人们日常出行生活带来很大便 利的同时,也产生了日益严峻的环境问题和能源问题。混合动力汽车凭借其低 能耗和长续航里程的优势成为适合公共交通的解决方案。能量管理控制策略的 目的是协调发动机和电机之间的功率分配,从而实现经济性最大化和保持荷电 状态(soc)的稳定。
3.能量管理控制策略一般可以分为基于规则,基于优化和基于学习的方法。 基于规则的方法,简单、可靠性高和适应性强。但是对于不同的控制目标,基 于规则的能量管理控制策略往往也达不到最优。
4.基于优化的能量管理控制策略有全局整体优化和瞬时局部优化两种。瞬时 优化的能量管理策略主要是依据车辆的实时需求功率进行动力分配的。全局优 化策略,是在车辆行驶工况已知的前提条件下,依据该工况的行驶特性,建立 优化的目标函数(一般为油耗值),算法求解达到优化目标函数的目的。
5.随着人工智能技术的发展,将一些智能算法引入hev的能量管理领域成为 了新的研究热点,由此诞生了基于学习的能量管理策略。强化学习也被视为智 能系统的核心技术之一。应用强化学习进行能量管理控制也逐渐成为热门研究 方向。目前应用强化学习算法的能量管理控制策略有一些优势,但是缺乏在奖 励稀疏条件下的研究。
6.有鉴于上述的缺陷,本发明以期创设一种基于自我监督学习的并联式混合 动力汽车能量管理方法,使其更具有产业上的利用价值。


技术实现要素:

7.为解决上述技术问题,本发明用自监督学习的方法,提出一种分层强化学 习结构,用来解决稀疏奖励的问题,提高车辆的燃油经济性的同时,能适应不 同的工况,实现hev的优化能量控制。
8.本发明的一种基于自我监督学习方法的的并联式混合动力汽车能量管理方 法,包括:
9.s1:建立并联式汽车的仿真模型;
10.s2:以车辆模型本身为环境,以发动机转速、发动机转矩和电池soc值为 状态值,车辆发动机功率为执行动作构建能量管理控制模型;
11.s3:提出用分层强化学习的方式设置奖励函数,分层结构包括外部奖励层 和内部奖励层。外部奖励层由燃油消耗值和电池soc值组成。内部奖励层是本 文提出的一种自监督方式产生的内部奖励;
12.s4:强化学习校准;
13.s5:应用dql算法计算总奖励值。
14.优选地,所述步骤s1中并联式汽车的仿真模型包括整车动力纵向动力学模 型、发动机模型、电机模型、变速箱cvt模型和电池模型;
15.其中,车辆行驶时受到车辆的驱动力ff和行驶阻力,行驶阻力包括滚动阻力 ff,空气阻力fw,坡度阻力fi,和加速阻力fj;所述整车动力纵向动力学建模如 下:
16.f
t
=ff+fw+fi+fjꢀꢀꢀ
(1)
17.在不考虑坡度阻力的情况下(α=0),公式(1)可以变换为公式(2)。
[0018][0019]
公式(2)中,m为汽车整备质量,g为重力加速度,f为滚动阻力系数,α为 道路坡度。,cd为空气阻力系数,a为迎风面积(m2),ρ为空气密度(kg
·
m-3
),ua为车速(m/s),δ主要与飞轮的转动惯量、车轮的转动惯量和传动系的传动比有 关。
[0020]
最终可以计算出车辆需求功率和车轮转速分别为:
[0021][0022][0023]
发动机是混合动力汽车的核心动力源,但由于自身特性的显著非线性,真 实模型非常复杂,所以在整车仿真模型开发中发动机模型采用实验建模为主, 理论建模为辅的混合建模方法。所述发动机模型的燃油消耗量如下:
[0024][0025]
te=f(θ,n)
ꢀꢀꢀꢀ
(6)
[0026]
公式(5)中,te为发动机转矩(n
·
m),θ为节气门开度,n为发动机转速 (r/min),mf为燃油消耗量(g/s),为发动机单位时间的燃油消耗量,f(θ,n) 为根据te和n两变量的二维查表函数。
[0027]
电机是混合动力汽车能量转换中的关键动力部件,与发动机建模方法类似, 采用实验建模法。所述电机计算模型如下:
[0028]
tm=γt
m_max
ꢀꢀꢀ
(7)
[0029][0030][0031]
ηm=f(tm,ωm)
ꢀꢀꢀ
(10)
[0032]
其中,tm为电机输出转矩(n
·
m),t
m_max
为电机最大转矩(n
·
m),γ为电 机转矩控
制指令,im为电机控制器母线端子电流(a),pm为电机输入(电动) 或输出(发电),u为电源总线电压(v),ωm为电机转速,ηm为电机效率。 f(tm,ωm)根据查表得到。
[0033]
所述变速箱cvt计算模型如下:
[0034][0035]
公式(11)中,t
in
为cvt主动带轮端输入转矩(n
·
m),t
out
为cvt从动带 轮端输出转矩(n
·
m),ie为飞轮和主动带轮在cvt输入轴上的等价转动惯量(kg
·
m2);is从动带轮和主减速器在cvt从动轴上的等价转动惯量(kg
·
m2); i
cvt
带传动速比;i0主减速器速比;ωs从动带轮转速(rad/s),η为金属带传 动效率。
[0036]
所述电池计算模型如下所示:
[0037][0038][0039]
公式(12)中,soc
init
为初始soc,q
cap
为电池安时容量,q
use
为用掉的电 量,i为回路电流,η
ess
为充放电效率。
[0040]
优选地,所述步骤s2中能量管理控制模型如公式(14)所示:
[0041]
s=[n
t
,t
t
,soc]
ꢀꢀꢀ
(14)
[0042]
action=engine power
ꢀꢀꢀ
(15)
[0043]
公式(14)中,s表示在车辆在t时刻的状态,action表示车辆在t时刻的 发动机的需求功率,n
t
表示t时刻的发动机转速,t
t
表示t时刻的发动机转矩, soc表示t时刻电池状态值。
[0044]
优选地,所述步骤s3中分层强化学习的结构包括外部奖励和内部奖励。奖 励函数如公式(16)所示
[0045]rtotal
=r
internal
+r
external
ꢀꢀꢀ
(16)
[0046]
其中,所述外部奖励由两个部分组成:第一部分表示燃油消耗mf是瞬时燃 油消耗率,第二部分表示当前时刻和初始时刻soc的差值,表示电池soc维持 的性能。α和β为两个常数因子,通过调整这两个参数,能量管理策略可以在 燃油经济性和电池soc维持上取得一定的平衡。如公式(17)所示:
[0047][0048]
所述内部奖励由自我监督模型的损失函数构建,用于填充外部奖励函数。 自监督
内部奖励函数如公式(18)所示:
[0049][0050][0051]
优选地,所述步骤s4中强化学习校准公式如式(20)所示:
[0052][0053]
将强化学习校准和自我监督产生的内部奖励进行整合,得到新的内部奖励 函数(公式),解决了自监督模型过度自信(错误)预测的问题。如公式(21) 所示:
[0054][0055]
优选地,所述步骤s5中应用dql算法计算总奖励值,dql算法是q-learning 算法的一种改进算法,它以神经网络作为状态-动作值函数的载体,用参数为θ 的f网络来近似替代状态-动作值函数,公式如式(22)所示:
[0056]
f(s,a,θ)≈q*(s,a)
ꢀꢀ
(22)
[0057]
其中,f(s,a,θ)可以式任何类型的函数,通过函数来近似替代q值表,无论 输入空间有多大,都能够用神经网络的输出值计算q值。在深度q网络中,存 在两个网络,分别为估计网络和目标网络,两个网络的结构完全相同,不同之 处在于网络参数。总奖励值可以用公式(23)所示:
[0058][0059]
其中r表示即使奖励,γ为折旧因子。
[0060]
网络参数的更新规则为,估计网络中的参数实时进行更新,在经过c步之后, 估计网络的参数会复制到目标网络中。dqn网络更新是利用td误差进行参数更 新。公式如式(24)所示:
[0061][0062]
公式(24)中,和θ
t
分别表示t时刻目标网络的参数和估计网络的参数, 为在状态处所对应的最大q值的相应动作,r
t+1
为执行动作后 所获得的奖赏值。
[0063]
借由上述方案,本发明至少具有以下优点:
[0064]
(1)相较于传统强化学习算法提高了燃油经济性;
[0065]
(2)提出的算法接近最佳燃油消耗曲线,在转速增大时,能尽力保证发动 机在低油耗,高功率区工作;
[0066]
(3)能更好的维护电池soc值,减少充放电次数,保证了电池的使用寿命。
[0067]
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附 图详细说明如后。
附图说明
[0068]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使 用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某个实施例, 因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0069]
图1是本发明实施例1的并联式混合动力汽车原理图;
[0070]
图2是本发明实施例1的强化学习算法的基本原理图;
[0071]
图3是本发明实施例1的算法流程图,右侧部分为dql的通用算法;
[0072]
图4是本发明实施例1的分层强化学习的分层结构图;
[0073]
图5是对比实验1的燃油经济性比较柱状图;
[0074]
图6是在dqn算法下发动机的工作区域;
[0075]
图7是在ddpg算法下发动机的工作区域;
[0076]
图8是在本发明算法下发动机的工作区域;
[0077]
图9是三种算法在工况下soc的变化值;
[0078]
其中,实线对应本发明方法,点线对应dqn,长点线对应ddpg;
[0079]
图10本发明算法最终训练奖励值;
[0080]
其中,实线对应本发明方法,点线对应dqn,长点线对应ddpg。
具体实施方式
[0081]
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以 下实施例用于说明本发明,但不用来限制本发明的范围。
[0082]
实施例1选取普锐斯并联式hev作为研究对象,其结构和工作原理如图1 所示。在并联式混合动力电动汽车的驱动系统中,原动机与电动机可以共同或 分别独立的向汽车传动系提供扭矩,且没有发电机,并联混合动力汽车的整车 参数如表1所示:
[0083]
表1为普锐斯并联式hev的整车参数
[0084][0085]
s1:根据普锐斯并联式hev的整车参数以及汽车结构原理,建立并联式汽 车的整车纵向动力学模型、发动机模型、电机模型、变速箱cvt模型和电池模 型。
[0086]
当车辆行驶时,会受到阻碍其运动的阻力作用该阻力主要包括滚动阻力、 空气阻力、坡度阻力、加速阻力。按照汽车理论的知识,可以得出汽车的行驶 方程式如下:
[0087]ft
=ff+fw+fi+fjꢀꢀꢀ
(1)
[0088]
式中,f
t
表示车辆的驱动力,ff表示滚动阻力,fw表示空气阻力,fi表示坡 度阻力,fj表示加速阻力。
[0089]
在不考虑坡度阻力的情况下(α=0),公式(1)可以变换为公式(2)。
[0090][0091]
式(2)中,m为汽车整备质量,g为重力加速度,f为滚动阻力系数,α为 道路坡度。,cd为空气阻力系数,a为迎风面积(m2),ρ为空气密度(kg
·
m-3
),ua为车速(m/s),δ主要与飞轮的转动惯量、车轮的转动惯量和传动系的传动比有 关。
[0092]
最终可以计算出车辆需求功率和车轮转速分别为:
[0093][0094][0095]
发动机是混合动力汽车的核心动力源,但由于自身特性的显著非线性,真 实模型非常复杂,不同节气门开度对应的发动机输出转矩特性曲线各不相同。 在混合动力系统中,发动机模型的重点是输入输出,其内部可以尽量简化,所 以在整车仿真模型开发中发动机模型采用实验建模为主,理论建模为辅的混合 建模方法。
[0096]
发动机模型的燃油消耗量计算如下:
[0097][0098]
te=f(θ,n)
ꢀꢀꢀ
(6)
[0099]
式(5)中,te为发动机转矩(n
·
m),θ为节气门开度,n为发动机转速 (r/min),mf为燃油消耗量(g/s),为发动机单位时间的燃油消耗量,f(θ,n) 为根据te和n两变量的二维查表函数。
[0100]
电机是混合动力汽车能量转换中的关键动力部件,它既可以运行在电动机 状态,又可以运行在发电机状态。它的最大功率及其在不同转速和转矩下的效 率直接影响了混合动力汽车的工作模式。电机的输出性能是电机和电机控制器 的综合性能,所以在建模中要把电机及其控制器作为一个整体考虑。与发动机 建模一样,电机的模型也不能直接从理论建模,需要采用实验建模法,需要测 得电机的外特性数据,电机的输出转矩计算如下:
[0101]
tm=γt
m_max
ꢀꢀꢀ
(7)
[0102]
电机的电流计算如下:
[0103][0104][0105]
电机效率由电机性能试验得到,即
[0106]
ηm=f(tm,ωm)
ꢀꢀꢀ
(10)
[0107]
式(10)中,tm为电机输出转矩(n
·
m),t
m_max
为电机最大转矩(n
·
m),γ 为电机转矩控制指令,im为电机控制器母线端子电流(a),pm为电机输入(电 动)或输出(发电),u为电源总线电压(v),ωm为电机转速,ηm为电机效率。 f(tm,ωm)根据查表得到。
[0108]
变速箱cvt模型反应了变速器的输入端和输出端的动态特性,在保持驱动性 能和燃油经济性的前提条件下,我们对cvt模型进行简要简化,忽略了cvt传动 特性的影响,而且不考虑液压执行机构的动力学特性的影响,将速比与速比变 化率之间用一个简单的积分器表示,即:
[0109][0110]
式(11)中,t
in
为cvt主动带轮端输入转矩(n
·
m),t
out
为cvt从动带轮 端输出转矩(n
·
m),ie为飞轮和主动带轮在cvt输入轴上的等价转动惯量 (kg
·
m2);is从动带轮和主减速器在cvt从动轴上的等价转动惯量(kg
·
m2); i
cvt
带传动速比;i0主减速器速比;ωs从动带轮转速(rad/s),η为金属带传动 效率。
[0111]
电池是混合动力汽车的电力能源储存设备,在驱动行驶时可以提供必要的 辅助动力,在减速和制动过程中则可以进行能量回收。
[0112]
电池soc采用安时累计法计算:
[0113][0114]
用掉的电量计算如下:
[0115][0116]
式(13)中,soc
init
为初始soc,q
cap
为电池安时容量,q
use
为用掉的电量, i为回路电流,η
ess
为充放电效率。
[0117]
s2:以车辆模型本身为环境,以发动机转速、发动机转矩和电池soc值为 状态值,车辆发动机功率为执行动作构建能量管理控制模型。
[0118]
能量管理控制策略的本质是求解带约束的优化问题,即在满足循环工况下 驾驶需求功率、动力总成各部件物理约束情况下,求解出最优策略使得整车油 耗最优。基于之前的车辆模型,我们把车辆当做强化学习的环境,从车辆身上 获取在行驶中的状态(发动机转速,发动机转矩,soc值为状态值)。强化学习 算法的基本原理图如图3所示。其中,能量管理控制模型如公式(14)所示:
[0119][0120]
公式(14)中,s表示在车辆在t时刻的状态,action表示车辆在t时刻 的发动机的需求功率,n
t
表示t时刻的发动机转速,t
t
表示t时刻的发动机转矩,soc表示t时刻电池状态值;
[0121]
s3:提出用分层强化学习的方式设置奖励函数,分层结构包括外部奖励层 和内部奖励层。外部奖励层由燃油消耗值和电池soc值组成。内部奖励层是本 文提出的一种自监督方式产生的内部奖励。奖励函数如公式(15)所示:
[0122]rtotal
=r
internal
+r
external
ꢀꢀꢀ
(15)
[0123]
能量管理策略中,我们不仅仅要考虑车辆所处的环境,而且还要考虑车辆 本身,
仅靠外部奖励来运转强化学习框架是远远不够的。此外,由于强化学习 本身还是存在稀疏奖励的问题。所以,要使得智能体能很好的理解环境是非常 困难的。更何况是较为复杂的车辆环境,每一个时刻车辆的状态都是千变万化。 所以我们提出用一种分层强化学习的方式来产生内部奖励,使得车辆更有效的 探索环境。分层结构如图3所示。
[0124]
外部奖励层由两个部分组成:第一部分表示燃油消耗mf是瞬时燃油消耗率, 第二部分表示当前时刻和初始时刻soc的差值,表示电池soc维持的性能。α 和β为两个常数因子,通过调整这两个参数,能量管理策略可以在燃油经济性 和电池soc维持上取得一定的平衡。如公式(16)所示
[0125][0126]
内部奖励层是本文提出的一种自监督方式产生的内部奖励。自我监督学习 是无监督学习的一个子集,是利用数据的内在联系来实现自我监督的。自监督 学习是不需要大规模数据集合大量的标注的。在能量管理控制策略中,我们需 要通过伪标签的自动生成来构建内部奖励。简单来说就是,根据当前的状态和 动作来预测下一个状态。由于添加了自监督模块,所以模型存在一定的泛化能 力。自监督内部奖励函数如公式(17)所示
[0127][0128][0129]
s4:强化学习校准。由于自监督学习容易陷入“自我良好”的情况,这就 会导致过度自信(错误)预测,因此,我们提出了一种强化学习校准方法来解 决这个问题。强化学习的精髓就是通过当前的状态预测下一刻的动作。执行下 一个时刻的动作,得到下一个时刻的状态。本文中强化学习校准根据下一个时 刻的状态,通过神经网络生成下一个时刻的动作和真的a做损失,填补内 部奖励。如公式(19)所示:
[0130][0131]
我们将强化学习校准和自监督产生的内部奖励进行整合,得到新的内部奖 励函数(公式),解决了自监督模型过度自信(错误)预测的问题。
[0132][0133]
s5:dql应用。dql算法是q-learning算法的一种改进算法,它以神经网 络作为状态-动作值函数的载体,用参数为θ的f网络来近似替代状态-动作值函 数,公式如式(21)所示:
[0134]
f(s,a,θ)≈q*(s,a)
ꢀꢀꢀ
(21)
[0135]
其中,f(s,a,θ)可以式任何类型的函数,通过函数来近似替代q值表,无论 输入空间有多大,都能够用神经网络的输出值计算q值。在深度q网络中,存 在两个网络,分别为估计网络和目标网络,两个网络的结构完全相同,不同之 处在于网络参数。总奖励值可以用公式1表示。
[0136][0137]
其中r表示即使奖励,γ为折旧因子。
[0138]
网络参数的更新规则为,估计网络中的参数实时进行更新,在经过c步之后, 估计网络的参数会复制到目标网络中。dqn网络更新是利用td误差进行参数 更新。公式如式(23)所示。
[0139][0140]
其中,和θ
t
分别表示t时刻目标网络的参数和估计网络的参数, 为在状态处所对应的最大q值的相应动作,r
t+1
为执行动作后 所获得的奖赏值。
[0141]
本实施1中,强化学习算法(dqn)利用深度卷积神经网络逼近值函数, 同时利用经验回放训练强化学习的学习过程。
[0142]
对比实验1:
[0143]
在本节我们在现有的行驶工况基础上,构建了一个新的行驶工况。运动学 片段是指汽车从怠速状态开始至相邻的下一个怠速状态开始之间的车速变化状 况的连续过程,因此新的行驶工况是可以由很多运动学片段组建而成。
[0144]
将上述运动学片段中的几种运动学状态进行划分如下:
[0145]
(1)怠速工况:发动机工作,且车辆速度v为0的状态。
[0146]
(2)匀速工况:车辆加速度a小于0.10m/s2并大于-0.10m/s2,且v不为0的状态。
[0147]
(3)加速工况:车辆加速度a大于0.10m/s2,且v不为0的状态。
[0148]
(4)减速工况:车辆减速度a小于-0.10m/s2[0149]
我们将nedc,udds,im240,jn1015四种典型工况中抽取一些运动片段组建 成新的行驶工况。行驶工况如图5所示。构建新的工况之后,我们可以从燃油 经济性,发动机工作点,强化学习奖励值,新建工况的泛化能力方面对策略性 能进行评价。
[0150]
建立好能量管理策略之后,针对nedc,la92_2,ftp75,udds, wvuinter,jn1015,六种典型工况进行验证。燃油经济性比较如表3所示。为 了更加直观的展示,我们将数据用柱状图的方式进行表达,具体如图6所示。 从图中我们可以看出相较于dqn算法,我们的算法大约可以提高6%的燃油经 济性,相较于ddpg算法,可以提高大约10%的燃油经济性。
[0151]
表3为燃油经济性仿真结果表
[0152][0153][0154]
图7,图8,图9显示了在不同算法下发动机的工作区域,其中棕色的线代 表了最佳的燃油消耗。我们的算法相较于其他两种强化学习算法来说,更加接 近于最佳燃油消耗曲线,也说明了该算法使得发动机工作在低功耗区和高效率 区。在转速增大时,我们的算法相较于其他算法也能尽力地保证发动机在低油 耗,高功率区工作。其中图10显示了三种算法在工况下soc的变化值。为了更 准确的评价燃油经济性,我们将算法中相同的soc终止值
提取出来进行分析。 在图中可以看出我们的算法更好的维护了soc值,没有多次的充放电次数,保 证了电池的使用寿命。另外,在表3中,新建工况与相比具有较强的适应性。 在dqn和ddpg算法的多步循环下的综合油耗。用训练好的模型在新工况下的单 步循环的综合油耗。
[0155]
在强化学习的训练过程中,一般不以loss值作为评价指标,而是将奖励值 最大化作为训练的方向。最终的训练奖励值如图10所示。由于强化学习训练数 据太过繁多,而且再加上自监督学习网络,会引起计算资源满载,无法继续的 地步。因此,我们并不是每一步都产生内部奖励,而是通过采样的方式产生奖 励。在图1中。棕色显示了本文算法的奖励值,奖励值普遍大于dqn和ddpg算 法,可以更快的达到收敛性,同时也一步一步地修正收敛的方向。智能体在该 算法下能更明确探索的方向,在训练50步之后,算法的波动较小,基本达到稳 定。
[0156]
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出, 对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还 可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1