智能网联电动汽车在不同交通状态下的节能学习控制方法

文档序号:31053957发布日期:2022-08-06 10:17阅读:404来源:国知局
智能网联电动汽车在不同交通状态下的节能学习控制方法

1.本发明属于汽车节能技术领域,具体的说是一种智能网联电动汽车在不同交通状态下的节能学习控制方法。


背景技术:

2.近年来智能网联技术的快速发展使车与车之间的通信越来越方便可靠,而基于智能网联的节能控制技术也给汽车带来了更多的节能潜力。但是,传统的控制方法如预测节能、动态规划等具有预测时域长,单步求解计算量大,求解速度慢等劣势。因此,提高求解速度是必须解决的一个问题。
3.现有的电动汽车能耗模型具有能耗计算不准,模型复杂,集成到控制器的过程中计算量过大的缺点,进一步增加了控制器的求解速度。
4.城市交通在不同时段具有不同的交通状态。但现有的研究很少进行在不同交通状态下的节能研究,无法满足现实中不断变化的城市交通工况。
5.强化学习作为一种新兴的人工智能技术,具有探索能力强,求解速度快,性能结果好等优点,在智能交通、电竞游戏、临床医疗等多个领域得到了广泛的应用与发展。


技术实现要素:

6.本发明提供了一种智能网联电动汽车在不同交通状态下的节能学习控制方法,该方法采用了强化学习控制,该强化学习方法设计了一种多目标的奖励函数,在不牺牲汽车通行效率的前提下实现了较大的节能潜力,并且,该强化学习控制方法在不同的交通状态下进行训练和测试,结果表明该方法能在不同交通流下实现节能。本发明具有求解速度块,节能效果好的优势,解决了现有的电动汽车能耗模型能耗计算不准、模型复杂的问题,以及基于传统的控制算法求解过程中计算量过大的缺点和无法满足现实中不断变化的城市交通工况的不足。
7.本发明技术方案结合附图说明如下:
8.一种智能网联电动汽车在不同交通状态下的节能学习控制方法,包括以下步骤:
9.步骤一、获取本车速度、加速度以及本车前后方所有车道车辆与本车的相对速度和距离;
10.步骤二、将步骤一获取的本车速度和加速度输入到能耗计算模块,并且输出整个过程每一采样时刻的能量消耗;
11.步骤三、建立强化学习模型;
12.步骤四、输入强化学习模型的状态空间和奖励函数;
13.步骤五、将强化学习算法放在不同交通流下进行训练和测试。
14.所述步骤一中本车速度、加速度以及本车前后方所有车道车辆与本车的相对速度和距离通过v2v技术获取。
15.所述步骤二中能耗计算模块的获得方法如下:
16.21)将目标电动汽车放在测功机上运行不同的驾驶循环进行测试,运行后输出电动汽车的相关参数;所述相关参数包括速度、加速度、电池需求功率;
17.22)通过多元回归分析拟合出速度、加速度和电池需求功率即能量消耗的关系方程。
18.所述步骤三的具体方法如下:
19.车辆行驶过程包括加减速和换道;将换道作为一个瞬态过程,即一个离散动作,加速度作为连续动作;因此,采用一种基于混合状态空间的强化学习算法:p-dqn即基于混合状态空间的深度q网络算法来建立强化学习模型。
20.所述步骤四的具体方法如下:
21.步骤一所获得的车辆的信息,即本车速度、加速度以及本车前后方所有车道车辆与本车的相对速度和距离输入到强化学习的状态空间中,车辆的经济性函数和通行效率函数输入到强化学习的回报函数中,同时为了防止被控车辆短时间内换道,在回报函数中加入换道惩罚。
22.其中,经济性函数由步骤二的能耗计算模块获得,通行效率函数用汽车的速度v表示,换道惩罚由表示,其中,

t代表换道时间间隔,总的奖励函数为:
23.r=w1r1+w2r2+w3p
′ꢀ
(1)
24.其中,r1代表经济性;r2代表通行效率;p

代表换道惩罚;w1、w2、w3代表相应的权重系数。
25.所述步骤五的具体方法如下:
26.通过多次训练,在强化学习的回报函数收敛时,表明训练过程完成;同时,将强化学习算法放入到测试集中进行测试,当测试集中的被控电动汽车能在不同交通流下比基准模型产生更好的节能效果,并能够不牺牲其通行效率,表明强化学习算法学习效果良好,从而实现节能学习控制。
27.本发明的有益效果为:
28.1)本发明采用了强化学习控制,具有求解速度块,节能效果好的优势;
29.2)本发明设计了一种多目标的奖励函数,通过权值的调整在不牺牲汽车其他性能的前提下实现了较大的节能潜力;
30.3)本发明在不同的交通状态下进行训练和测试,结果表明该方法本发明能在不同交通流下实现节能。
附图说明
31.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
32.图1是本发明的流程图;
33.图2是单位距离能量消耗三维曲线图;
34.图3是本发明中强化学习算法的结构图;
35.图4是强化学习的训练过程的回报变化图;
36.图5是低峰交通流下被控车辆的速度、加速度、能耗和车道曲线图;
37.图6是平峰峰交通流下被控车辆的速度、加速度、能耗和车道曲线图;
38.图7是高峰交通流下被控车辆的速度、加速度、能耗和车道曲线图。
具体实施方式
39.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.参阅图1,一种智能网联电动汽车在不同交通状态下的节能学习控制方法,通过智能网联信息采集本车和周围车辆的信息,集成到强化学习控制器中;同时,本车的速度和加速度也输入到能耗计算模块,能耗代表的经济性和速度代表的通行效率输入到强化学习的奖励函数中。最后,强化学习算法在不同的交通流下进行训练和测试,从而实现电动汽车的节能控制,具体为:
41.步骤一、在智能网联环境下获取车辆的动态信息,并确定车辆的最大行驶速度和加减速度范围。车辆的动态信息包括本车的速度和加速度,前方和后方所有车道上车辆与本车的相对速度和相对距离。
42.步骤二、将本车的速度和加速度输入到能耗计算模块,求解整个行驶过程中每一采样时刻的能耗,该能耗计算模块的详细如下:
43.将本车的速度和加速度输入到能耗计算模块,求解整个行驶过程中每一采样时刻的能耗,该能耗计算模块的详细如下:
44.本发明以宝马一款电动汽车为例,首先电动汽车在测功机上运行不同的驾驶循环,包括nedc、wltp、udds等;
45.运行之后电动汽车输出相关的参数,包括速度、加速度、电池需求功率即能量消耗。
46.为了得到速度,加速度与电池需求功率(即能量消耗)的关系,通过多元回归分析拟合出速度,加速度和能量消耗的关系方程:
47.p=1439va+1110v-96.61v2+2.745v3ꢀꢀ
(1)
48.式中,p为能量消耗功率;v为汽车的速度;a为汽车的加速度。
49.通过回归分析的拟合系数检验式(1)是否符合统计学上的合理性。拟合系数的值越接近1,越合理,式(1)的拟合系数达到了0.9611,因此该方程准确且简练地表达了速度,加速度和能耗的关系。
50.为了得到单位距离的能量消耗,我们注意到:
[0051][0052]
其中,e代表能耗;s代表距离;t表示时间;p为能量消耗;v为汽车的速度;因此该电动汽车单位距离的能量消耗可以表示(能耗曲线图如图2所示)为:
[0053][0054]
其中,e代表能耗;s代表距离;a为汽车的加速度;v为汽车的速度。
[0055]
步骤三、建立强化学习模型;
[0056]
车辆行驶是一个加减速和换道的过程。由于换道过程在整个行驶过程的时间非常短,很难有可观的节能潜力,因此换道在此节能研究中被视为一个瞬态过程,即一个离散动作,而加速度是一个连续控制动作;故本发明采用基于混合状态空间的深度q网络算法,即p-dqn建立强化学习模型;该算法的结构如图2所示。
[0057]
p-dqn算法的流程如下:
[0058]
1、初始化:动作价值网络q(s,xk|θq),动作参数网络μ(s|θ
μ
),以及目标动作价值网络q

和目标动作参数网络μ

,其权重变化为θq′

θq,θ
μ


θ
μ
,回放缓存
[0059]
2、对每一回合进行循环1)即流程3-流程19:
[0060]
3、观察当前状态s
t

[0061]
4、初始化随机过程用于动作参数探索;
[0062]
5、在次环境的每一步进行循环2)即流程6-流程18:
[0063]
6、计算动作参数
[0064]
7、计算动作价值qk←
q(s
t
,xk|θq);
[0065]
8、根据贪婪策略ε选择动作
[0066]
9、执行动作a
t

[0067]
10、观察下一状态s
t+1
和回报r
t
=r(s
t
,a
t
);
[0068]
11、在回访缓冲中储存(s
t
,a
t
,s
t+1
,a
t+1
);
[0069]
12、更新现在的状态s
t
←st+1

[0070]
13、从回访缓冲中采样小批经验ei=(si,ai,s
i+1
,ri);
[0071]
14、将动作ai分解为ki和其中ki表示离散动作,表示连续动作的参数
[0072]
15、训练动作价值网络q:
[0073]
计算
[0074]
计算损失
[0075]
在损失l上执行随机梯度下降步骤;
[0076]
16、训练动作参数网络μ:
[0077]
计算损失
[0078]
在损失l上执行随机梯度下降步骤;
[0079]
17、更新目标动作价值网络和目标动作参数网络的参数:
[0080]
θq′

τθq+(1-τ)θq′

[0081]
θ
μ


τθ
μ
+(1-τ)θ
μ

;其中τ表示平均率
[0082]
18、结束循环2);
[0083]
19、结束循环1)。
[0084]
步骤四、输入强化学习模型的状态空间和奖励函数;
[0085]
将本车速度、加速度以及本车前后方所有车道车辆与本车的相对速度和距离输入到强化学习的状态空间中,车辆的经济性函数和通行效率函数输入到强化学习的回报函数中,如图1所示。
[0086]
其中,经济性函数即公式(3),通行效率用汽车的速度v表示;
[0087]
则强化学习回报函数如下:
[0088]
r=w1r1+w2r2ꢀꢀ
(4)
[0089]
其中,r1=1439a+2.745v
2-96.61v+1110,r2=v;
[0090]
r1为代表经济性的子奖励函数;r2为代表通行效率的子建立函数;
[0091]
同时为了防止被控车辆在短时间内连续换道,奖励函数需要设置对连续换到的惩罚:
[0092][0093]
其中,

t代表换道时间间隔;v代表通行效率用汽车的速度;
[0094]
因此,总的强化学习回报函数为:
[0095]
r=w1r1+w2r2+w3p
′ꢀ
(6)
[0096]
其中,w1、w2、w3为相应的权重系数
[0097]
通过算法的学习,强化学习每一步长输出加速度和换道指令控制汽车的行驶,其中加速的范围是-3-3m/s^2,换道指令-1代表向右换道,0代表保持现在的车道,1代表向左换道。
[0098]
步骤五、将强化学习模型放在不同交通流下进行训练和测试。
[0099]
在训练过程中,强化学习需要调整它的超参数,以保证强化学习能够发挥它最佳的性能,经过多次调试,所确定的超参数如下表所示:
[0100][0101]
通过多次训练,在强化学习的回报函数收敛时,表明训练过程完成。
[0102]
同时,将强化学习模型放入到测试集中进行测试,当测试集中的被控电动汽车能在不同的交通流下比基准模型产生更好的节能效果,并不牺牲其通行效率,就表明该强化学习算法能具有良好的目标性能。
[0103]
实施例
[0104]
参阅图4-图7,基于微观交通流软件sumo并嵌入强化学习p-dqn算法来对上述方法进行实验仿真分析。
[0105]
首先在sumo搭建一条长度2.5km的四车道城市主干道,并建立不同拥堵程度的交通流模型,而量化不同拥堵程度的交通流需根据经典的交通流基本图。
[0106]
其中,k表示交通密度(vehs/km),q表示交通流量(vehs/h);
[0107]
当交通密度k达到图中km时,交通流量达到最大值,表明此为交通流最高效的运行点。则设置k1=0.3km,k2=0.9km,k3=2km表示低峰流,平峰流和高峰流。
[0108]
之后将上述强化学习模型嵌入到上述交通流中,进行训练和测试。其中训练结果如图4所示。
[0109]
实验中加入由经典的智能驾驶员模型(idm)以及sumo控制的换道策略组成的控制方法作为对比的基准。测试实验结果如图5-7所示。
[0110]
由图5可观察出,相比于基准控制方法,在低峰交通流下,由强化学习控制的汽车经过训练学习后,明显能够在能合理的时机进行换道,从而避免速度和加速度的波动,有效提高经济性和通行效率。
[0111]
由图6可观察出,在平峰交通流下,被控车辆不会像基准方法控制的车辆进行激进且频繁的换道,以至于速度和加速度不会那么剧烈的抖动,从而更加的节能。
[0112]
由图7可观察出,在高峰交通流下,两种方法控制的车辆由于处于拥堵的交通环境下,无法产生换道行为,因此整个过程可视为单一的纵向控制。而强化学习控制的车辆依然能通过训练学习优化出更平缓的速度和加速度,实现节能。
[0113]
实验结果表明,该强化学习算法能够通过周围车辆的信息,通过学习提前进行合理的换道操作、避免频繁以及激烈的换道,以及实现更平滑的纵向速度控制,从而在不同的交通流下都能实现节能,且不会牺牲通行效率。其节能潜力在低峰、平峰、高峰交通流下分别为8.91%,6.12%,3.89%;通行效率略微增加。
[0114]
以上结合附图详细描述了本发明的优选实施方式,但是,本发明的保护范围并不局限于上述实施方式中的具体细节,在本发明的技术构思范围内,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,这些简单变型均属于本发明的保护范围。
[0115]
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
[0116]
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1