汽车能量控制方法、装置及终端设备与流程

文档序号:18014736发布日期:2019-06-26 00:39阅读:194来源:国知局
汽车能量控制方法、装置及终端设备与流程

本发明属于汽车能量控制技术领域,尤其涉及汽车能量控制方法、装置及终端设备。



背景技术:

在混合动力车辆中,能量控制方法严重影响车辆的燃油经济性和排放,是重要的混合动力技术。目前的能量控制方法中,随机模型预测控制法通过预测汽车在未来一段时间内的功率需求,实现了对车辆的能量进行控制。其中,随机模型预测控制法是一种滚动优化、滚动实施的能量控制方法,在路况未知的情况下,根据汽车现有状态,结合对未来一段时间内的功率需求预测,以及车辆模型,求取车辆控制动作,能够适应道路状况的变化,实现在线调整。

但是,由于求取车辆控制动作的过程中,利用动态规划算法在每个决策步都求解控制向量的精确解,使得利用随机模型预测控制法进行汽车能量控制时,产生较大的计算量,导致车辆控制的实时性较差。



技术实现要素:

有鉴于此,本发明实施例提供了汽车能量控制方法、装置及终端设备,以解决现有技术中求解控制向量计算量大,导致车辆控制实时性较差的问题。

本发明实施例的第一方面提供了一种汽车能量控制方法,包括:

预测未来时间段[k,k+p-1]内汽车变速箱的需求功率preq(k+jj),其中,jj=0,1,…,p-1,k为当前时刻,p取正整数;

计算所述未来时间段[k,k+p-1]内汽车的状态向量x(k+jj);

通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k),并将所述控制向量u(k)输出给汽车。

本发明实施例的第二方面提供了一种汽车能量控制装置,包括:

预测单元,用于预测未来时间段[k,k+p-1]内汽车变速箱的需求功率preq(k+jj),其中,jj=0,1,…,p-1,k为当前时刻,p取正整数;

状态向量计算单元,用于计算所述未来时间段[k,k+p-1]内汽车的状态向量x(k+jj);

控制向量计算单元,用于通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k),并将所述控制向量u(k)输出给汽车。

本发明实施例的第三方面提供了一种汽车能量控制的终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述方法的步骤。

本发明实施例通过动态规划算法和即时差分学习算法的有机结合,求解控制向量,并将所述控制向量u(k)输出给汽车,进而分配汽车发动机和电机的转矩输出,从而实现能源消耗的优化。同时,在利用动态规划算法与即时差分学习算法相结合,求解所述控制向量中,降低了算法的运算量,提高了车辆控制的实时性,解决现有技术中由于求解控制向量计算量大,导致的车辆控制实时性较差的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的并联式混合动力汽车的动力系统结构示意图;

图2是本发明实施例提供的一种汽车能量控制方法的实现流程示意图;

图3是本发明实施例提供的一种汽车能量控制方法s203的实现流程示意图;

图4是本发明实施例提供的结合动态规划算法和即时差分学习算法,计算控制向量u(k)的实现流程示意图;

图5是本发明实施例提供的采用即时差分学习算法,预测控制向量u1(k)的实现流程示意图;

图6是本发明实施例提供的一种汽车能量控制装置的结构示意图;

图7是本发明实施例提供的汽车能量控制的终端设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

随着全世界汽车保有量的不断增长,能源短缺和空气问题日益突出,新能源汽车已成为汽车工业发展的必然趋势。其中,混合动力汽车兼具传统汽车和纯电动汽车低排放和续航里程长的优点,同时,还可以回收再生制动能量,并且易于从现有车辆改装,使得所述混合动力汽车已成为汽车工业过渡时期的必然选择。

如图1示出了本发明实施例提供的并联式混合动力汽车的动力系统结构示意图,在该并联式混合动力汽车的动力系统中,发动机10和电机11同轴,发动机10与电机11通过离合器13相连,汽车运行时,通过传动系统将动力传递至车轮。离合器13闭合时,发动机10与电机11同轴转动,并通过传动系统将动力传递至车轮。所述混合汽车有单独电机驱动、发动机单独驱动、混合驱动、以及制动能量回收四种工作模式。其中,混合驱动模式包括电机辅助发动机进行驱动和发动机单独驱动两种驱动模式。其中,电机11既可以作为电动机,又可以作为发电机使用,例如,在发动机单独驱动模式中,电机可以作为发电机给电池14充电。

在上述混合动力汽车中,其能量控制方法严重影响车辆的燃油经济性和排放,是最关键混合动力技术之一。目前的能量控制方法中,基于规则的控制方法取得了比较好的效果。但是这种方法严重依赖车型和车厂的经验,不能达到最优。近年来出现的随机模型预测控制法通过预测汽车在未来一段时间内的功率需求,实现了对车辆的能量进行控制,是一种滚动优化、滚动实施的能量控制方法。该随机模型预测控制法在路况未知的情况下,根据汽车现有状态,结合对未来一段时间内的功率需求预测,以及车辆模型,求取车辆控制动作,能够适应道路状况的变化,实现在线调整。

但是,由于其求取车辆控制动作的过程中,利用动态规划算法在每个决策步都求解控制向量的精确解,使其进行汽车能量控制时,产生较大的计算量,导致车辆控制的实时性较差。

在本发明中,通过动态规划算法和即时差分学习算法的有机结合,求解控制向量,解决了现有技术中求解控制向量计算量大,导致车辆控制实时性较差的问题。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

如图2示出了本发明实施例提供的一种汽车能量控制方法的实现流程示意图,该汽车能量控制方法包括步骤s201至步骤s203。

在s201中,预测未来时间段[k,k+p-1]内汽车变速箱的需求功率preq(k+jj),其中,jj=0,1,…,p-1,k为当前时刻,p取正整数。

其中,所述汽车变速箱的需求功率preq(k+jj)是指用户利用变速箱操控汽车行驶时,汽车的输出功率,例如,汽车加速时,则所述需求功率变大,汽车减速时,则所述需求功率减小。

结合车辆的历史驾驶数据或者一些标准循环工况,可以由最大似然估计法对汽车变速箱的需求转矩treq的转移概率进行确定,为

其中,mi,j表示需求转矩从转移到的次数;mi表示需求转矩从转移到其他所有的状态的次数之和,即:

通过测量统计得到的转移概率矩阵为:

本发明实施例中,得到转移概率矩阵后,根据马尔科夫链即可预测未来时间段[k,k+p-1]内汽车变速箱的需求转矩treq(k+jj);例如,假定k时刻的需求转矩为treq,i,从k时刻到未来k+jj时刻的需求转矩的转移概率为pi,j,即可得到未来k+jj时刻的需求转矩treq,j的计算公式为:

在s202中,计算所述未来时间段[k,k+p-1]内汽车的状态向量x(k+jj)。

所述汽车的状态向量x(k+jj)用于指示汽车的车辆状态。

可选地,所述计算所述未来时间段[k,k+p-1]内汽车的状态向量x(k+jj),包括:根据汽车变速箱的需求功率preq(k+jj)计算所述未来时间段[k,k+p-1]内汽车变速箱的需求转矩treq(k+jj)和车速v(k+jj),计算电池荷电状态soc(k+jj),得到状态向量x(k+jj)=(treq(k+jj),v(k+jj),soc(k+jj))t

其中,根据汽车变速箱的需求功率preq(k+jj)计算所述未来时间段[k,k+p-1]内汽车变速箱的需求转矩treq(k+jj)和车速v(k+jj)包括以下步骤:a至d,其中preq为汽车行驶历史时刻的汽车变速箱的需求功率。

a:将汽车变速箱的需求功率preq通过公式转换为需求转矩treq;其中,ne为发动机转速;

b:将需求转矩treq离散为有限个数的数列:令ti,j代表系统的一步转移概率,即系统在时刻k处于状态,在k+1时刻处于状态的概率,则有其中,也就是说,表示状态1,2,…,s中的某一个状态值,如,状态值为1或s。

c:在标准循环路况下,计算需求功率分布:

twheel=treqη+tb=(te+tm)η+tb;

其中,twheel为车轮的需求转矩,单位为n·m;m为汽车的装备质量,汽车总质量,单位kg;g为重力加速度,单位m/s2;cd为风阻系数;a为迎风面积,单位m2;ρ为空气密度,一般为1.2258n·s2·m-4;δ为旋转质量换算系数;θ为坡度,在本发明实施中,θ=0;μ为滚动阻力系数;r为车轮半径,单位m;v为车速,单位m/s;tm为电机转矩,单位n·m;te为发动机转矩,单位n·m;tb为摩擦制动器在车轮上的制动力矩,单位n·m;η为总传动比;ne为发动机转速,单位r/min;nm为电机转速,单位r/min;t为时间。

根据上述公式即可计算出每个时刻用户在变速箱上的需求转矩treq。结合离散后treq的空间采取近邻法即可将该需求转矩量化为

d:利用在步骤s201中预测得到的未来时间段[k,k+p-1]内汽车变速箱的需求转矩treq(k+jj),即可根据上述公式计算对应的汽车车速v、发动机/电机转速ne、nm和汽车变速箱的需求转矩treq。进而,只要确定了电机转矩tm,即可确定发动机转矩te,反之,只要确定了发动机转矩te,即可确定电机转矩tm。

在本发明实施例中,可以选取电机转矩tm为控制向量u(k)=tm(k),需要说明的是,在其他实施例中,还可以选取发动机转矩te为控制向量u(k)=te(k)。汽车变速箱的需求转矩treq、汽车车速v、电池荷电状态soc为汽车的车辆状态变量,将其表示为状态向量时,有:x(k)=(treq(k),v(k),soc(k))t。以下,通过步骤s203求解所述控制向量u(k)=tm(k)。

在s203中,通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k),并将所述控制向量u(k)输出给汽车。

在本发明实施例中,求解所述控制向量u(k)=tm(k)时,首先通过动态规划算法,在预测需求转矩treq(k+jj)下,求取控制域c内的最优控制向量序列

[u0(k),…,uc-1(k+c-1)]。

可选地,在用动态规划算法对预测域内未来p时间段内的需求转矩下对应的控制域c内的最优控制序列求解时,考虑到优化目标为降低油耗,同时,保证电池使用安全,因此,设定奖赏函数为:

r(k)=wfuelrfuel(k)+wemsrems(k)+wgsrgs(k)+wsocrsoc(k);

rsoc=(soc(k)-socref)2

其中,soc(k)为k时刻电池荷电状态;rfuel、rsoc(k)、rgs(k)和rems(k)分别为k时刻燃油消耗奖赏函数、电池荷电状态奖赏函数、档位迁移奖赏函数和排放奖赏函数;wfuel、wsoc、wems和wgs分别是相应的加权因子,socref是在末端时刻期望的soc值,通常取0.6。k+1时刻的电池荷电状态

其中,voc为电池开路电压;rint为电池内阻;qmax为最大充电容量;rt为终端阻抗;ηm为电机效率;pm(k)为k时刻电池为电机提供的功率。

另外,在用动态规划算法求解所述控制向量u(k)=tm(k)时,还需要定义预测域[k,k+p-1]区间整体的值函数j,该值函数为:

其中,r(k)是在k时刻的奖赏函数,γ是折扣因子,γ∈(0,1)。

每个状态的值函数给出了未来奖赏函数的累加值,由最优控制量产生的值函数称为最优值函数j*,根据贝尔曼最优公式,每个状态的最优值函数和它相邻状态的最优值函数有以下关系:也就是说,通过最小化所述值函数,求得所述最优值函数。并且,由于求得所述最优值函数后,即求出了所述状态向量x(k),进一步地,又由于所述状态向量x(k)=(treq(k),v(k),soc(k))t,以及twheel=treqη+tb=(te+tm)η+tb,因此,可求出所述控制向量u(k)=tm(k)的最优解,即通过所述动态规划算法求得所述控制向量u(k)=tm(k)的最优解。

如图3所示,在s203中,所述通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k),通过引入即时差分学习算法,减小所述控制向量u(k)=tm(k)求解的计算量,具体包括:步骤s301至s303。

在s301中,判断即时差分学习算法在上一时刻的误差指标是否大于预设阈值;

其中,在判断即时差分学习算法在上一时刻的误差指标是否大于预设阈值之前,首先需要进行算法的初始化,例如,令k=1,jj=0,同时,将所述即时差分学习算法的误差指标e(0)设为无穷大。

再预测[k,k+p-1]时间段汽车变速箱的需求功率preq(k+jj),jj=0,1,…,p-1,其中,所述k为当前采样时刻。

接着,根据上述公式

获取[k,k+p-1]时间段内需求转矩treq(k+jj)、车速v(k+jj);并根据公式计算电池荷电状态soc(k+jj),进而求得状态向量x(k)。

由于初始化时,将所述即时差分学习算法的误差指标e(0)设为无穷大,因此,在每一次迭代求解所述控制向量u(k)时,都需要判断即时差分学习算法在上一时刻的误差指标是否大于预设阈值;即,判断e(k-1)是否大于预设阈值;其中,所述预设阈值可以为根据实际应用或者根据实践经验设定的阈值数据。若e(k-1)大于预设阈值,则执行步骤s302;否则执行步骤s303。

在s302中,若即时差分学习算法在上一时刻的误差指标大于预设阈值,则结合动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k)。

可选地,如图4所示,所述结合动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k),包括:步骤s401至步骤s404。

在s401中,通过动态规划算法,计算控制域c内的最优控制向量序列[u0(k),…,uc-1(k+c-1)],并将计算出的第一个控制向量u0(k)假定为当前时刻k的假定控制向量u0(k);同时,采用即时差分学习算法根据汽车当前时刻k的状态向量x(k),在控制域c内预测当前时刻k的预测控制向量u1(k),其中,所述控制域c=p。

在本发明实施例中,所述步骤s401中,通过动态规划算法,计算控制域c内的最优控制向量序列[u0(k),…,uc-1(k+c-1)],包括:通过动态规划算法,在预测需求转矩treq(k+jj)下,求取控制域c内的最优控制向量序列[u0(k),…,uc-1(k+c-1)]。

可选地,在用动态规划算法对预测域内未来p时间段内的需求转矩下对应的控制域c内的最优控制序列求解时,考虑到优化目标为降低油耗,同时,保证电池使用安全,因此,设定奖赏函数为:

r(k)=wfuelrfuel(k)+wemsrems(k)+wgsrgs(k)+wsocrsoc(k);

rsoc=(soc(k)-socref)2

其中,soc(k)为k时刻电池荷电状态;rfuel、rsoc(k)、rgs(k)和rems(k)分别为k时刻燃油消耗奖赏函数、电池荷电状态奖赏函数、档位迁移奖赏函数和排放奖赏函数;wfuel、wsoc、wems和wgs分别是相应的加权因子,socref是在末端时刻期望的soc值,通常取0.6。k+1时刻的电池荷电状态

其中,voc为电池开路电压;rint为电池内阻;qmax为最大充电容量;rt为终端阻抗;ηm为电机效率;pm(k)为k时刻电池为电机提供的功率。

另外,在用动态规划算法求解所述控制向量u(k)=tm(k)时,还需要定义预测域[k,k+p-1]区间整体的值函数j,该值函数为:

其中,r(k)是在k时刻的奖赏函数,γ是折扣因子,γ∈(0,1)。

每个状态的值函数给出了未来奖赏函数的累加值,由最优控制量产生的值函数称为最优值函数j*,根据贝尔曼最优公式,每个状态的最优值函数和它相邻状态的最优值函数有以下关系:也就是说,通过最小化所述值函数,求得所述最优值函数。并且,由于求得所述最优值函数后,即求出了所述状态向量x(k),进一步地,又由于所述状态向量x(k)=(treq(k),v(k),soc(k))t,以及twheel=treqη+tb=(te+tm)η+tb,因此,可求出所述最优控制向量序列[u0(k),…,uc-1(k+c-1)],即通过所述动态规划算法求得所述最优控制向量序列[u0(k),…,uc-1(k+c-1)]。

在本发明实施例中,图5所示,所述步骤s401中,采用即时差分学习算法根据汽车当前时刻k的状态向量x(k),在控制域c内预测当前时刻k的预测控制向量u1(k),包括:步骤s501至步骤s508。

在s501中,初始化当前时刻k的所述即时差分学习算法,初始化训练次数ii=0;

在获取车辆当前时刻k的车辆状态向量x(k)后,需要对算法进行初始化,例如,将训练次数ii初始化为零,即ii=0,权值向量为w(k)=[w1(k),w2(k),w3(k)],算法学习速率α∈[0,1.0]以及算法衰减因子λ∈[0,1.0]。

在s502中,计算当前时刻k的即时差分序列;

其中,所述即时差分序列的公式为d(ii)(k)=u1(ii+1)(k)-u1(ii)(k);

在s503中,计算当前时刻k的预测控制向量u1(k)对权值向量的各分量的梯度;

例如,其中,kk=1,2,…,k。

在s504中,计算所述权值向量的各分量的增量;

例如,

在s505中,更新所述权值向量的各分量;

例如,

在s506中,判断当前时刻k的训练次数是否小于所述动态规划算法的控制域c;

在s507中,若是,更新训练次数为ii=ii+1,重新计算当前时刻k的即时差分序列;

在s508中,若否,输出当前时刻k的权值向量

根据获取到的汽车当前时刻k的状态向量x(k),和所述当前时刻k的权值向量计算当前时刻k的预测控制向量u1(k),得到u1(k)=x(k)·wt(k)。

在s402中,根据所述假定控制向量u0(k)和预测控制向量u1(k)计算所述即时差分学习算法当前时刻k的误差指标;

可选地,所述即时差分学习算法的误差指标计算公式为:

其中,u(k)表示当前时刻的控制向量,结合所述假定控制向量u0(k)和预测控制向量u1(k)计算所述即时差分学习算法当前时刻k的误差指标时,假定所述当前时刻的控制向量u(k)等于所述控制向量u0(k);即计算误差指标接着判断所述误差指标是否大于预设阈值,若是,则执行步骤s403;否则执行步骤s404。

在s403中,若当前时刻k的误差指标大于所述预设阈值,则将所述假定控制向量u0(k)作为所述汽车在当前时刻k的控制向量u(k);

在s404中,若当前时刻k的误差指标小于或等于所述预设阈值,则将所述预测控制向量u1(k)作为所述汽车在当前时刻k的控制向量u(k)。

在s303中,若即时差分学习算法在上一时刻的误差指标小于或等于预设阈值,则通过即时差分学习算法,计算汽车在当前时刻k的控制向量u(k)。

需要说明的是,当所述即时差分学习算法在上一时刻的误差指标小于或等于预设阈值时,表示经过步骤s302中,利用所述即时差分学习算法对状态向量x(k)及控制向量u(k)进行学习的样本已足够大,即,误差指标已足够小,能够满足实际需求,因此,此时,可以不需要再结合动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k),而是直接通过即时差分学习算法,计算汽车在当前时刻k的控制向量u(k)。

需要说明的是,所述通过即时差分学习算法,计算汽车在当前时刻k的控制向量u(k)的方法步骤与上述步骤s401中,采用即时差分学习算法根据汽车当前时刻k的状态向量x(k),预测控制域c内当前时刻k的预测控制向量u1(k)的方法步骤相同,即步骤s501至步骤s508的方法,在此不再进行赘述。其中,得到u1(k)=x(k)·wt(k)后,则可以将所述预测控制向量u1(k)作为汽车在当前时刻k的控制向量u(k)输出给汽车。

可选地,在步骤s508的所述输出当前时刻k的权值向量之后,还包括:将所述即时差分学习算法在当前时刻的误差指标设置为等于所述预设阈值。

也就是说,下一次控制过程中,在k+1时刻,步骤s202中,通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k)时,可以在判断即时差分学习算法在上一时刻的误差指标不大于预设阈值(等于所述预设阈值),而直接通过即时差分学习算法,计算汽车在当前时刻k的控制向量u(k),从而节省了利用所述动态规划算法求取所述控制向量u(k)的计算量,解决了现有技术中由于求解控制向量计算量大,导致的车辆控制实时性较差的问题,提高了算法的实时性。

本发明实施例中,将混合动力汽车变速箱的需求转矩转换为离散的马尔科夫链,并结合多个循环工况的需求功率,建立所述马尔科夫链,由当前时刻汽车变速箱的需求功率和转矩对未来的循环工况的需求功率和转矩进行预测,以值函数最小为优化目标。在预测时间内进行优化,并得到最优控制向量序列,应用最优控制向量序列的第一步,进行算法的反馈校正和滚动优化,从而通过分配发动机和电机的转矩输出实现能源消耗的优化。

另外,本发明通过在算法运算的前期,采用动态规划算法和即时差分学习算法相结合,求取所述控制向量,并在所述误差指标小于或等于预设阈值时,采用即时差分学习算法求取所述控制向量,使得求取所述控制向量的运算量变小,从而提高了算法的实时性。

需要说明的是,本发明实施例也可以用于其他单轴并联混合动力汽车和纯电动汽车中。在纯电动汽车的控制中,令发动机相关参数为0,如:te=0,rfuel=0,rems=0。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

如图6所示,为本发明实施例提供的一种汽车能量控制装置的结构示意图,包括:预测单元601、状态向量计算单元602和控制向量计算单元603。

预测单元601,用于预测未来时间段[k,k+p-1]内汽车变速箱的需求功率preq(k+jj),其中,jj=0,1,…,p-1,k为当前时刻,p取正整数;

状态向量计算单元602,用于计算所述未来时间段[k,k+p-1]内汽车的状态向量x(k+jj);

控制向量计算单元603,用于通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k),并将所述控制向量u(k)输出给汽车。

可选地,所述状态向量计算单元602,包括:根据汽车变速箱的需求功率preq(k+jj)计算所述未来时间段[k,k+p-1]内汽车变速箱的需求转矩treq(k+jj)和车速v(k+jj),计算电池荷电状态soc(k+jj),得到状态向量

x(k+jj)=(treq(k+jj),v(k+jj),soc(k+jj))t

可选地,所述控制向量计算单元603,包括:

判断模块,用于判断即时差分学习算法在上一时刻的误差指标是否大于预设阈值;

控制向量第一计算模块,用于若是,则结合动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k);

控制向量第二计算模块,用于若否,则通过即时差分学习算法,计算汽车在当前时刻k的控制向量u(k)。

可选地,所述控制向量第一计算模块,包括:

用于通过动态规划算法,计算控制域c内的最优控制向量序列[u0(k),…,uc-1(k+c-1)],并将计算出的第一个控制向量u0(k)假定为当前时刻k的假定控制向量u0(k);采用即时差分学习算法根据汽车当前时刻k的状态向量x(k),在控制域c内预测当前时刻k的预测控制向量u1(k),其中,所述控制域c=p;

根据所述假定控制向量u0(k)和预测控制向量u1(k)计算所述即时差分学习算法当前时刻k的误差指标;

若当前时刻k的误差指标大于所述预设阈值,则将所述假定控制向量u0(k)作为所述汽车在当前时刻k的控制向量u(k);

若当前时刻k的误差指标小于或等于所述预设阈值,则将所述预测控制向量u1(k)作为所述汽车在当前时刻k的控制向量u(k)。

可选地,所述控制向量第一计算模块,还包括:

用于初始化当前时刻k的所述即时差分学习算法,初始化训练次数ii=0;

计算当前时刻k的即时差分序列;

计算当前时刻k的预测控制向量u1(k)对权值向量的各分量的梯度;

计算所述权值向量的各分量的增量;

更新所述权值向量的各分量;

判断当前时刻k的训练次数是否小于所述动态规划算法的控制域c;

若是,更新训练次数为ii=ii+1,重新计算当前时刻k的即时差分序列;

若否,输出当前时刻k的权值向量;根据获取到的汽车当前时刻k的状态向量x(k),和所述当前时刻k的权值向量计算当前时刻k的预测控制向量u1(k)。

可选地,所述控制向量第一计算模块,还包括:用于在所述输出当前时刻k的权值向量之后,将所述即时差分学习算法在当前时刻的误差指标设置为等于所述预设阈值。

需要说明的是,为描述的方便和简洁,上述描述的一种汽车能量控制装置600的具体工作过程,可以参考图2至图5所述方法的对应过程,在此不再赘述。

图7是本发明一实施例提供的汽车能量控制的终端设备的示意图。如图7所示,该实施例的汽车能量控制的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如汽车能量控制程序。所述处理器70执行所述计算机程序72时实现上述各个汽车能量控制方法实施例中的步骤,例如图2所示的步骤201至203。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元601至603的功能。

示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述汽车能量控制的终端设备7中的执行过程。例如,所述计算机程序72可以被分割成预测单元、状态向量计算单元、控制向量计算单元(虚拟装置中的模块),各单元具体功能如下:

预测单元,用于预测未来时间段[k,k+p-1]内汽车变速箱的需求功率preq(k+jj),其中,jj=0,1,…,p-1,k为当前时刻,p取正整数;

状态向量计算单元,用于计算所述未来时间段[k,k+p-1]内汽车的状态向量x(k+jj);

控制向量计算单元,用于通过动态规划算法和即时差分学习算法,计算汽车在当前时刻k的控制向量u(k),并将所述控制向量u(k)输出给汽车。

所述汽车能量控制的终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述汽车能量控制的终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是汽车能量控制的终端设备7的示例,并不构成对汽车能量控制的终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述汽车能量控制的终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述汽车能量控制的终端设备7的内部存储单元,例如汽车能量控制的终端设备7的硬盘或内存。所述存储器71也可以是所述汽车能量控制的终端设备7的外部存储设备,例如所述汽车能量控制的终端设备7上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器71还可以既包括所述汽车能量控制的终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述汽车能量控制的终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1