一种插电式混合动力车辆最优能耗的确定方法与流程

文档序号:18177280发布日期:2019-07-13 10:20阅读:190来源:国知局

本发明是关于一种插电式混合动力车辆最优能耗的确定方法。



背景技术:

由于石油资源的日益枯竭和全球环境的恶化,越来越多的电动汽车进入家庭。未来,这些电动车的电能将主要源于智能电网,因此电动汽车成为智能电网中需要考虑的一个重要因素。一方面,由于电动汽车在充电时需要很大的电量,会极大地增加智能电网的负担,需要对智能电网进行合适的管理。另一方面,电动车还会将多余的电量在必要时充回至智能电网,也就是v2g。有效的智能电网管理,能减少电能的消耗。

然而,在传统的方法中,某一时间段内电动车的充电量和放电量一般是固定值,且传统的方法一般采取动态规划来求得能耗的最优策略,因此,计算复杂度随着问题规模的增长而呈现指数增长。



技术实现要素:

针对上述问题,本发明的目的是提供一种电动车充放电量随机且计算复杂度低的插电式混合动力车辆最优能耗的确定方法。

为实现上述目的,本发明采取以下技术方案:一种插电式混合动力车辆最优能耗的确定方法,其特征在于,包括以下步骤:1)基于马尔科夫决策过程的五个要素,建立电动车能耗的状态-行动值函数;2)基于马尔科夫决策过程的五个要素,在实际场景对电动车进行采样,生成电动车的若干周期;3)根据生成的周期,求解电动车能耗的状态-行动值函数,得到电动车能耗的最优策略。

优选地,所述马尔科夫决策过程的五个要素包括:状态集s,即t阶段起始时电动车的电量水平st;动作集a,即t阶段充电或放电at,其中,充电时为at=-1,放电时at=+1;回报函数r,即t阶段电动车的电耗价格其中,ct表示t阶段电动车的电耗花费,c表示新电池组价格,n表示电池充放电的循环总次数,表示每次充电或放电时电池的损耗价值,pt表示电价格,ηt表示t阶段的充电量或放电量;转移概率p,即转移概率pr{st=s′,rt=r|st-1=s,at-1=a},其中,s′表示下一步的电量水平值,s表示当前的电量水平值,r表示电动车的电耗花费;折扣因子γ。

优选地,所述折扣因子γ=0.9。

优选地,所述电动车能耗的状态-行动值函数为:

其中,eπ表示关于策略π的数学期望,k表示整个周期的第k步,gt为一个标号,代指

优选地,所述步骤2)的具体过程为:在实际场景中采集运动的电动车的马尔科夫决策过程的五个要素值,得到一条周期,采集n次要素值即得到n条周期。

优选地,所述步骤3)的具体过程为:3.1)设置步长α以及在选取行动时采用随机方法的百分比ε;3.2)初始化电动车能耗的状态-行动值函数;3.3)对于某条周期,初始化状态集s;3.4)对于状态-行动值函数,采用ε-贪婪策略,在状态集s下选出某一动作集a,该动作集a对应一回报函数r和状态集s′;3.5)将状态集s′作为更新后的状态集s,进入步骤3.4),直至完成该周期所有步长下状态集s的更新,得到该周期对应的最优状态集s和动作集a,即得到:

q(s,a)=q(s,a)+α[r+γq(s′,a′)-q(s,a)]

其中,a′为在状态集s′下选出的某一动作集;状态集s′作为更新后的状态集s后,a′为更新后的动作集a;3.6)重复步骤3.3)~3.5),直至完成每一周期所有步长下状态集s更新,得到每一周期对应的最优状态集s和动作集a,进而得到电动车能耗的最优策略。

优选地,所述电动车能耗的最优策略包括每一周期对应的最优状态集s和动作集a,以及每一最优状态集s和动作集a对应的转移概率p、折扣因子γ和回报函数r。

优选地,所述步长α=0.5,所述在选取行动时采用随机方法的百分比ε=0.01。

本发明由于采取以上技术方案,其具有以下优点:1、本发明从电动车使用者的角度出发,基于马尔科夫决策过程的五个要素,在实际场景对电动车进行采样,并采用ε-贪婪策略,求解电动车能耗的状态-行动值函数,得到电动车能耗的最优策略和能耗的最优值,以实现电动车能耗的最优。2、本发明由于采用基于马尔科夫决策过程,能够描述电动车充放电量是随机的情形,可以减少计算的时间复杂度和空间复杂度,可以广泛应用于智能电网管理领域中。

具体实施方式

本发明提供的插电式混合动力车辆最优能耗的确定方法,包括以下步骤:

1)确定马尔科夫(markov)决策过程的五个要素,具体为:

马尔科夫决策过程包括五个要素,即状态集s、动作集a、转移概率p、折扣因子γ和回报函数r,其中:

状态集s即为t阶段起始时电动车的电量水平st;

动作集a即为t阶段充电或放电at,其中,充电时为at=-1,放电时at=+1;

转移概率p即为转移概率pr{st=s′,rt=r|st-1=s,at-1=a},其中,s′表示下一步的电量水平值,s表示当前的电量水平值,r表示电动车的电耗花费;

折扣因子γ即为γ=0.9;

回报函数r即为t阶段电动车的电耗价格其中,ct表示t阶段电动车的电耗花费,c表示新电池组价格,n表示电池充放电的循环总次数,表示每次充电或放电时电池的损耗价值,pt表示电价格,ηt表示t阶段的充电量或放电量。

2)基于马尔科夫决策过程的五个要素,建立电动车能耗的状态-行动值函数,以描述电动车的总能耗花费,具体为:

电动车能耗的状态-行动值函数q(s,a)为:

其中,π表示一个从状态集合到每一行动的概率分布集的映射,称为策略;eπ表示关于策略π的数学期望,k表示整个周期的第k步,gt为一个标号,代指

3)基于马尔科夫决策过程的五个要素,在实际场景对电动车进行采样,生成电动车的n条周期。即在实际场景例如道路上采集运动的电动车的马尔科夫决策过程的五个要素值,从而得到一条周期,采集n次要素值即得到n条周期。

4)根据生成的周期,求解电动车能耗的状态-行动值函数,得到电动车能耗的最优策略,具体为:

4.1)设置步长α=0.5,以及在选取行动时采用随机方法的百分比ε=0.01。

4.2)初始化电动车能耗的状态-行动值函数q(s,a)。

4.3)对于某条周期,初始化状态集s,即初始化t阶段起始时电动车的电量水平st。

4.4)对于状态-行动值函数q(s,a),采用ε-贪婪策略,在状态集s下选出某一动作集a,该动作集a对应一回报函数r和状态集s′。

4.5)将状态集s′作为更新后的状态集s,进入步骤4.4),直至完成该周期所有步长下状态集s的更新,得到该周期对应的最优状态集s和动作集a,即得到:

q(s,a)=q(s,a)+α[r+γq(s′,a′)-q(s,a)]

其中,a′为在状态集s′下选出的某一动作集,状态集s′作为更新后的状态集s后,a′为更新后的动作集a。

完成最后步长下状态集s的更新后得到的更新后的状态集s以及该更新后的状态集s选出的动作集a即为该周期对应的最优状态集s和动作集a。

4.6)重复步骤4.3)~4.5),直至完成每一周期所有步长下状态集s更新,得到每一周期对应的最优状态集s和动作集a,进而得到电动车能耗的最优策略,其中,最优策略包括每一周期对应的最优状态集s和动作集a,而每一周期的最优状态集s和动作集a均对应有相应的转移概率p、折扣因子γ和回报函数r,最优的状态集s、动作集a、转移概率p、折扣因子γ和回报函数r一起构成了一次电动车能耗的最优行动,若干电动车能耗的最优行动就构成了电动车能耗的最优策略。

上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1