基于反推设计方法的供应链系统用零和微分博弈处理方法与流程

文档序号:22118570发布日期:2020-09-04 15:53阅读:320来源:国知局
基于反推设计方法的供应链系统用零和微分博弈处理方法与流程

本发明涉及供应链系统技术领域,更具体地说,尤其涉及基于反推设计方法的供应链系统用零和微分博弈处理方法。



背景技术:

供应链管理中的一个重要问题是减弱牛鞭效应,牛鞭效应是指需求信息从下游向上游层传递过程中,需求变异性的放大,在过去的几十年里,人们付出了巨大的精力来应对这种不利影响,相较于鲁棒h∞控制,博弈理论方法研究每个控制行为在有两个或两个以上的控制存在连续冲突、竞争或协调时的最优解,引起了控制领域专家的注意,提供了一种替代方法抑制牛鞭效应,得到了生产控制和不确定顾客需求的均衡解。

对于一个复杂的动态供应链系统,在其物理过程中,非线性是普遍存在的,并且往往被人们所忽视或依赖于缓慢变化的环境,因此,将动态供应链系统建模为级联非线性系统可以很自然地获得系统的非线性特性,众所周知,结构化递归设计方法(如反推)是适应不确定非线性的一种强大的设计工具,通过这种方法可以避免不必要的取消,然而,目前有关动态供应链系统的研究成果往往忽略了某些非线性因素,只有将其线性化后才能建立理想的模型,显然,作为三角结构非线性供应链系统的重要级联特性,用线性模型来描述该系统是困难的,有必要采用诸如反推等结构化方法来研究非线性供应链系统,然而,对于顾客需求不确定的复杂动态供应链系统,尤其是采用博弈方法来抑制牛鞭效应,采用反推方法是困难和具有挑战性的,为此,我们提出基于反推设计方法的供应链系统用零和微分博弈处理方法。



技术实现要素:

本发明的目的是为了解决现有技术中存在的缺点,而提出的基于反推设计方法的供应链系统用零和微分博弈处理方法。

为实现上述目的,本发明提供如下技术方案:

基于反推设计方法的供应链系统用零和微分博弈处理方法,供应链系统是由设备和分销实体组成,受顾客需求不确定性驱动的一类级联非线性系统,该系统通过对物料流和信息流的控制,完成原材料的采购,将物料转化为中间体和成品,并将成品分发给客户,供应链管理中的一个重要问题是如何减弱牛鞭效应,也就是需求信息从下游层向上游层转化过程中需求变异性放大的影响,具体步骤如下:

s1:首先,将一类具有不确定顾客需求的非线性切换供应链系统建模为两方零和微分博弈问题,通过博弈论方法来抑制牛鞭效应;

s2:其次,利用前馈控制器将严格反馈系统的跟踪问题转化为仿射系统的等价微分对策问题;

s3:接下来,为克服hamilton-jacobi-isaacs(hji)方程难以获得解析解的困难,利用自适应动态规划(adp)技术来研究零和微分博弈策略,构建了评价网络,执行网络和干扰网络学习实时在线学习hji方程的值函数,控制策略和干扰策略,该博弈算法称为同步零和博弈策略迭代,用李亚普诺夫方法证明了基于反推的微分博弈的收敛性和闭环系统的稳定性;

s4:最后,通过仿真结果验证该方法的有效性。

优选的,所述步骤s1中供应链系统的牛鞭效应通常作为h∞控制来解决,从博弈论的角度看,h∞控制器的设计等效于两人零和博弈,即控制器在最大扰动下最小化性能指标,从而实现了最优控制。

优选的,所述步骤s2中利用反推方法设计了前馈控制器,使得严格反馈形式的供应链系统的追踪问题转变成仿射形式的最优调节问题。

优选的,所述步骤s2中基于adp的策略迭代,adp采用三种神经网络(评价网络、执行网络和干扰网络)分别对迭代过程中的值函数、控制策略和不确定顾客需求策略进行逼近,最终得到非线性供应链系统hji方程的近似解。

优选的,所述步骤s4中目标是通过基于反推的零和微分博弈方法来设计具有不确定顾客需求的供应链系统的控制输入,使系统输出以最优方式追踪的同时减弱牛鞭效应,系统输出和参考信号的误差被限制在一个小的紧凑集中,这说明了我们所提出方法的有效性,在切换条件下,系统跟踪参考信号的输出是可以实现的,这说明了本文方法的有效性,为了进行比较,在出现一般性干扰的情况下设计了控制器。

与现有技术相比,本发明的有益效果是:本发明将一类具有不确定顾客需求的非线性供应链系统建模为两人零和博弈问题,我们的目标是通过博弈论方法来减少牛鞭效应;采用反推和adp技术相结合,实时在线同步更新评价神经网络、执行神经网络和干扰神经网络的权值,得到相应hji方程的纳什均衡解;用李亚普诺夫方法证明了闭环系统的稳定性;在现实生活中,供应链系统的模型并不是完全已知的,因此,将本发明提出的方法应用到不需要预先了解状态函数的非线性供应链系统中,更具有现实意义。

附图说明

图1为本发明的系统的切换信号示意图;

图2为本发明的系统输出yd(t)追踪参照信号y(t)示意图;

图3为本发明的追踪误差y(t)-yd(t)示意图;

图4为本发明一般干扰下设计的控制器的系统输出yd(t)追踪参照信号y(t)示意图;

图5为本发明一般干扰下设计的控制器的追踪误差y(t)-yd(t)示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-5,本发明提供一种技术方案:

基于反推设计方法的供应链系统用零和微分博弈处理方法,供应链系统是由设备和分销实体组成,受顾客需求不确定性驱动的一类级联非线性系统,该系统通过对物料流和信息流的控制,完成原材料的采购,将物料转化为中间体和成品,并将成品分发给客户,供应链管理中的一个重要问题是如何减弱牛鞭效应,也就是需求信息从下游层向上游层转化过程中需求变异性放大的影响,具体步骤如下:

s1:首先,将一类具有不确定顾客需求的非线性切换供应链系统建模为两方零和微分博弈问题,通过博弈论方法来抑制牛鞭效应;

s2:其次,利用前馈控制器将严格反馈系统的跟踪问题转化为仿射系统的等价微分对策问题;

s3:接下来,为克服hamilton-jacobi-isaacs(hji)方程难以获得解析解的困难,利用自适应动态规划(adp)技术来研究零和微分博弈策略,构建了评价网络,执行网络和干扰网络学习实时在线学习hji方程的值函数,控制策略和干扰策略,该博弈算法称为同步零和博弈策略迭代,用李亚普诺夫方法证明了基于反推的微分博弈的收敛性和闭环系统的稳定性;

s4:最后,通过仿真结果验证该方法的有效性。

实施例:

预备知识:

将具有不确定顾客需求的供应链系统建模为具有不确定扰动的级联切换非线性系统,假设供应链系统有n个设备组成,每一个设备提供生材料给下一个设备,在t时刻第k个设备的库存水平和不确定顾客需求分别用表示,考虑供应链系统中第k个设备的动态模型是

其中表示库存矢量从1到k且1≤k≤n-1;σ(t):[0,+∞)→m={0,1,…,m}表示切换信号,当σ(t)=i表示第i个子系统被激活,第k个设备从第k+1中收到的货物数量被表示;

是已知的连续非线性光滑函数,dk∈l2[0,∞)是未知有界的,运用和相同的方法,我们得到第n个设备的模型如所示

其中u是控制输入;

评注1注意到由用户不确定需求驱动的供应链系统,系统系数是不同的,由于不同的物理特性,表示存储能力和运行能力的传递速率函数也是不同的,因此,由和表示的供应链系统本质上是一个切换系统;

下面,模拟不确定顾客需求的级联切换非线性系统如所示:

其中,y是系统的输出;

假设1在供应链中第k个设备的最大库存是ck,在供应链中的每一个设备都满足0<xk(t)<ck(1≤k≤n);

假设2函数有上下界即满足其中gkmin,gkmax,pkmin和pkmax是正常量。因为代表了从第k+1到第k个设备的传递率,不失一般性,在本文中进一步假设

假设3在系统中的所有状态都是可观测的;

控制目标是设计供应链系统的控制输入,使供应链系统的输出y以最优轨迹追踪yd的同时抑制牛鞭效应,并保证由供应链系统构成的级联切换非线性系统的所有信号都是有界的。

一个严格反馈系统的跟踪控制问题:

在这一部分,为了保证追踪误差ek=xk-xkd的收敛性,利用反推方法设计了前馈控制器,使得严格反馈形式的供应链系统的追踪问题转变成仿射形式的最优调节问题,反推设计过程描述如下:

步骤1:对e1=x1-x1d求导得到

虚拟控制输入x2d满足反馈最优控制输入将在下一章设计前馈虚拟控制输入通过解下式获得

李雅普诺夫候选函数定义为

关于t求导

步骤k(2≤k≤n-1):对ek=xk-xkd求导得到

其中虚拟控制输入x(k+1)d满足反馈最优控制输入将在下面设计,前馈虚拟控制输入满足式

李雅普诺夫候选函数定义为

对vk求导,得到

步骤n:同样地,en=xn-xnd的导数为

其中虚拟控制输入ud满足反馈最优控制输入将在下一章中设计,前馈虚拟控制输入满足式

此时,定义李雅普诺夫候选函数为

则,对vn求导,得到了式

进而,定义则式可以重写为

其中d=[d1,…,dn]t

如前所述,我们得到了其中前馈虚拟控制输入由,和表示,反馈最优控制输入和不确定顾客需求d=[d1,…,dn]t通过微分博弈理论估计;

评注2观察式,我们知道仅由前馈控制器ua并不能保证整个供应链系统的稳定性,因此,设计微分博弈对策去镇定仿射形式的系统是必要的。

微分博弈策略设计:

供应链系统的牛鞭效应通常作为h∞控制来解决,从博弈论的角度看,h∞控制器的设计等效于两人零和博弈,即控制器在最大扰动下最小化性能指标,从而实现了最优控制,因此,可以通过博弈方法解决非线性供应链系统的牛鞭效应问题,在博弈过程中,利用评价,执行和干扰三个神经网络的实时策略迭代方法,在线求解非线性零和微分博弈产生的hji方程;

零和微分博弈:

我们将系统描述如下:

其中

x=[x1,…,xn]t

这个问题的目标是对于给定的γ>0,设计控制输入u,使得

其中q(e)≥0,r=rt>0且d∈l2[0,∞);

假设4选择γ>0,存在控制输入u使得系统渐进稳定且有l2增益不大于γ;

评注3假设4保证了非线性h∞控制问题解的存在性,也就是,供应链系统的牛鞭效应问题是可解的;

性能指标由表示

由供应链系统的控制和不确定顾客需求构成的h∞控制问题可以看作是一个两方零和博弈问题。将策略的值函数定义为

它受到动态方程的约束,我们的目标是找到一个纳什均衡点(u*,d*)使得供应链系统的控制输入u*最小化性能指标,供应链系统的不确定顾客需求d*最大化性能指标;

定义与供应链系统的容许控制输入u和不确定顾客需求输入d有关的哈密顿函数为

h(e,u,d)=q(e)+utru-γ2‖d‖2+(▽v(e))t(fi(e)+gi(x)u+pi(x)d)+εh=0(21)

其中是v(e)关于e的梯度。最优值函数v*(e)定义为

如果存在博弈鞍点,供应链系统的两方最优控制问题有唯一解,即纳什均衡条件成立

通过静止条件和式,我们得到供应链系统的最优控制对,可以写为所示

将带入,我们得到供应链系统的hji方程为

v*(0)=0(25)

为了得到微分对策的鞍点解,我们必须求解供应链系统的hji方程,我们都知道非线性系统中的hji方程是偏微分方程,很难用解析解得到,因此,我们采用adp方法求解;

基于adp的策略迭代:

adp采用三种神经网络(评价网络、执行网络和干扰网络)分别对迭代过程中的值函数、控制策略和不确定顾客需求策略进行逼近,最终得到非线性供应链系统hji方程的近似解,在应用adp求解hji方程之前,给出以下引理,引理1考虑有值函数(19)和微分博弈策略(24)的误差动力学系统(17),让j(e)是连续可微,径向无界的李雅普诺夫候选函数,使得其中是je(e)关于e的梯度,此外,让∧(e)是正定矩阵满足当e=0,∧(e)=0;对于任意的e≠0,此外,∧(e)满足以及

那么下面的关系成立:

评注4对于带有控制策略和干扰策略(24)的误差动力学系统(17),假设是系统状态的函数,特别的,我们假设因此,不等式根据

(▽je(e))t(fi(e)+gi(x)u*+pi(x)d*)<0很容易发现引理1是合理的,实际上,适当选择二次多项式可以得到函数

由维尔思特拉斯高阶近似定理可以知道,存在一个完全独立的基础集使得值函数v(e)及其梯度一致近似,也就是存在系数ci使得

成立,其中当n→∞时,式(28)和(29)中的第二项一致收敛于零;

为了实现微分博弈策略(24),利用nn逼近最优值函数,使得

其中分别表示评价神经网络的理想权值和激活函数,εc(e)和l分别表示近似误差和神经元数,式(30)的梯度可以被写为

在固定控制策略u和不确定顾客需求策略d下,利用神经网络逼近值函数得到(32)

残留误差是

根据(24),反馈最优控制和最坏不确定顾客需求重写为

此时的hji方程是

由值函数产生的近似误差是

然而,理想权重wc是未知的,因此,不能直接得到微分博弈策略(24),为了解决值函数理想权重未知这个问题,我们用去近似值函数,使得

哈密尔顿函数变为

显然,我们的目标是调整估计权重近似哈密顿函数使得估计权重收敛于理想权重wc,也就是,设计的更新率去最小化均方残差

基于梯度下降法设计神经网络的调优律如(40)所示

其中ac>0是设计参数,

权值估计误差为

因此,根据(35),(38)和(40),我们得到了评价网络的估计误差动态

根据标准的策略迭代算法,当给出哈密尔顿方程(32)的解时,执行网络和干扰网络更新如(43)和(44)所示

其中的ci是未知的;

运用最小二乘法得到式(32)的解wc,定义控制策略和不确定需求策略如(45)和(46)所示;

证明了当n趋于无穷大时,u和d分别收敛于(43)和(44),理想的控制策略和不确定顾客需求策略分别通过(45)和(46)更新,当以神经网络形式计算控制和不确定顾客需求策略时,分别如(47)和(48)所示;

其中表示控制策略更新时理想权重wc的当前估计值,表示当不确定顾客需求策略实施时理想权重wc的当前估计值,定义执行神经网络估计误差和干扰神经网络误差如(49)和(50)所示;

假设5评价神经网络的理想权值wc存在上界wmax>0,使得wc满足‖wc‖≤wmax;激活函数梯度和近似函数梯度都是有界的,使得成立,其中σm>0,εm>0。此外,残差εhji也是有界的,存在εhm>0,使得‖εhji‖≤εhm成立;

定理1(供应链系统的在线零和博弈调优律)

考虑受动态方程(17)约束的供应链系统,用(37)(47)和(48)中的评价神经网络,执行神经网络和干扰神经网络去近似供应链系统的值函数,控制输入和不确定顾客需求,给定评价网络、执行网络和干扰网络的调优律保证三个神经网络权重函数的收敛和供应链系统的稳定性;

令评价网络的调优律是

其中假设满足持续激励条件;执行网络的调优律设计为

令干扰网络的调优律

其中

f1>0,f2>0,f3>0,f4>0是调优参数,在证明中有详细说明,是学习参数,存在n0,使得隐含层神经元数n>n0时,供应链系统的误差状态,评价神经网络的误差执行神经网络的误差和干扰神经网络的误差一致最终有界,进而,指数收敛到最优评价神经网络权值wc([25])。

数值仿真:

给出了一个两阶段非线性级联供应链系统,证明了该方法的有效性;

其中x=(x1,x2)t,σ(t):[0,+∞)→m={[1],[2],[3],[4]},

定义初始值x1(0)=0.1,x2(0)=0和参照信号yd=0.5sin(t);

在反馈微分博弈设计部分,选择激活函数是执行网络和干扰网络的初始权值在(0,1)之间随机选择,评价网络的初始权值是1.此外,我们选择r=i,ac=aa=ad=2,γ=4,调优参数设计成f1=f3=200*[1,1,1]t和f2=f4=20i,i是带有合适维数的单位阵;

在定理1中定义的李雅普布诺夫候选函数是此外,将一个小的探针信号n(t)=0.1sin(t)5cos(t)+0.1sin(2t)5cos(0.2t)在前4秒加到控制器上以保证持续激励条件。

目标是通过基于反推的零和微分博弈方法来设计具有不确定顾客需求的供应链系统的控制输入,使系统输出y以最优方式追踪yd的同时减弱牛鞭效应,如前面的评注1所述,供应链系统本质上是一个切换系统,其切换信号如图1所示;

系统输出轨迹及参考信号如图2所示,从图3中可以看出,系统输出和参考信号的误差被限制在一个小的紧凑集中,这说明了我们所提出方法的有效性,从图中可以看出,在切换条件下,系统跟踪参考信号的输出是可以实现的,这说明了本文方法的有效性,也就是说,利用本文提出的方法可以减少最坏情况下需求诱导的牛鞭效应;

为了进行比较,在出现一般性干扰的情况下设计了控制器,系统输出和参考信号的轨迹如图4所示,系统输出和参考信号的误差如图5所示,注意,在一般干扰下设计的控制器不能保证系统状态的收敛。

综上所述,本发明将一类具有不确定顾客需求的非线性供应链系统建模为两人零和博弈问题,我们的目标是通过博弈论方法来减少牛鞭效应;采用反推和adp技术相结合,实时在线同步更新评价神经网络、执行神经网络和干扰神经网络的权值,得到相应hji方程的纳什均衡解;用李亚普诺夫方法证明了闭环系统的稳定性;在现实生活中,供应链系统的模型并不是完全已知的,因此,将本文提出的方法应用到不需要预先了解状态函数的非线性供应链系统中,更具有现实意义。

尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1