针对技术系统的计算机辅助的开环和/或闭环控制的方法

文档序号:6319818阅读:104来源:国知局
专利名称:针对技术系统的计算机辅助的开环和/或闭环控制的方法
技术领域
本发明涉及一种针对技术系统的计算机辅助的开环和/或闭环控制 的方法及其相应的计算机程序产品。
背景技术
在控制复杂的技术系统时,通常期望这样选择在技术系统上所执行 的动作,使技术系统获得有利的期待的动态特性。然而对于复杂的技术 系统而言,动态行为通常不能筒单地预报,因此需要相应的计算机辅助 的预报方法,以评估技术系统将来的行为并选择对技术系统进行闭环或 开环控制的相应合适的动作。
如今技术系统的控制通常依靠专家知识,也就是说系统的自动控制 是在专家知识的基础上建立起来的。然而也已知这样的构思,即借助所
谓强化学习(ReinforcementLearning,见文献[2)的已知方法来控制技 术系统。然而已知的方法不是对任意技术系统都是通用的,并且通常不 能取得足够好的结果。
由德国专利申请DE 10 2007 001 025.9已知一种针对技术系统的计 算机辅助的开环或闭环控制的方法,其中借助神经网络计算机辅助地学 得了最优的动作选择规则。由此,借助递归神经网络对技术系统的动态
特性建模,此递归神经网络又与另一前馈网络相耦合,通过该前馈网络 来学习动作选择规则。


发明内容
本发明的任务是,提供一种计算机辅助地预报技术系统的动态行为 的方法,此方法能够普遍有效用于任意的技术系统,并且获得良好的结 果。
在根据本发明的方法中,针对多个时间点分别通过技术系统的状态 和在技术系统上所执行的动作来获取关于技术系统的动态行为的信息, 其中各动作在各时间点引起技术系统在下 一 时间点的新的状态。技术系
统在此可以是任意地构造的,从而所述状态可以是技术系统的任意的可测量的参数。在此所述动作可以是本来意义上的动作,也就是说,在技 术系统上所执行的变化。然而,动作也能够通过技术系统的可调整的参 数或控制变量来表示,其中动作代表了控制变量或参数的相应值。由此 动作可以包括没有变化的控制变量。
技术系统的状态优选通过大量环境变量或状态变量来表征,其中每 个状态变量都代表了技术系统的特定的测量值。所述状态因此通常是一 种状态矢量。类似地,所述动作包括可能的多个待改变的控制变量,这 些控制变量分别形成相应动作矢量中的 一项。
在根据本发明的方法中,在第一步骤中,技术系统的动态行为通过 递归神经网络借助包括了在多个时间点已知的状态和动作的训练数据 来建模。在此所述递归神经网络通过至少一个包括了技术系统的状态和
在多个时间点在技术系统上所执行的动作的输入层、至少 一 个包括隐含 状态的隐含递归层以及至少 一 个包括技术系统在多个时间点的状态的 输出层来形成。在这里,所迷在神经网络中的递归通过系统的时间进展 而发生,这通过隐含状态在不同时间点的耦合反映在隐含层中。
根据本发明的递归神经网络示出了在德国专利申请DE 10 2007 001 025.9中描述的网络的改进方案。改进方案在于,递归神经网络的隐含 层的隐含状态在各时间点包括第 一 隐含状态和第二隐含状态,其中技术 系统的状态在各时间点自输入层起与所述笫 一隐含状态关联,并且所述 动作在各时间点自输入层起与所述第二隐含状态关联。所述在各时间点 的第 一 隐含状态此外与所述在各时间点的第二隐含状态通过矩阵耦合, 此矩阵在对技术系统的动态行为建模时学习。在此矩阵的概念有宽泛的 定义,并且必要时也可以包括标量(即lxl矩阵)。以此方式,技术系 统的动态特性通过考虑了在相同时间点时隐含状态之间的相应矩阵而 得到了更好的学习,好于德国专利申请DE 10 2007 001 025.9的方法。 在DE 10 2007 001 025.9中,隐含状态在相同时间点通过恒等矩阵相互 耦合。
接着在根据本发明方法的第二步骤中学习动作选择规则。上述学习 在这里如此实现,即所述在第 一 步骤中通过训练数据被训练的递归神经 网络对于当前和将来的时间点与另 一神经网络耦合来学习动作选择规 则,其中所述另一神经网络包括至少一个输入层、至少一个包括隐含状 态的隐含层以及至少 一个输出层。其中所述另 一神经网络的输入层在各
9时间点包括在各时间点时所述递归神经网络的隐含状态的至少 一部分, 并且所述另 一神经网络的输出层在各时间点包括在各时间点在技术系 统上所执行的动作和/或在技术系统上执行的动作相对于时间上之前的 动作的变化。如果所述动作是指本来意义上的动作,即通过执行动作引 起技术系统的参数变化,则所述输出层包括在技术系统上所执行的动作 本身。然而,如果所述动作通过技术系统的控制变量或者参数本身来表 示,则所述输出层包括该动作(即控制变量)相对于时间上在前的动作 (即在时间上先前的控制变量)的变化。
根据本发明,所述另一神经网络针对将来的动作,在考虑了在第一 步骤中执行的技术系统的动态特性建模的情况下,承担了技术系统的最 优控制的任务。
接着在根据本发明的方法中,通过与所述另 一神经网络相耦合的并 由该另 一神经网络相学得了的动作选择规则的递归神经网络来确定技 术系统的状态和/或在技术系统上执行的、优选最优的动作。在求出的状 态或者动作的基础上,技术系统于是能够相应地闭环或开环控制。业已 表明,这种网络体系结构能够数据高效地实现对技术系统的动态特性的 学习。这种数据高效性具有有大意义,因为在大多技术系统中,可使用 的或者重要的数据资料是非常有限的。
在根据本发明的方法的优选实施方式中,所述递归神经网络的隐含 递归层的第 一 隐含状态分别包括第 一数量的变量,并且隐含递归层的第 二隐含状态包括第二数量的变量,其中所述第 一数量与第二数量不同。 尤其是第一数量小于第二数量,或者反过来。以此方式,产生一种瓶颈
结构(英语bottleneck),通过该瓶颈结构,所述递归神经网络的学习 能够集中在动态特性的本质的自主的结构上。这样就改善了技术系统的 建模,这又进一步改善了通过所述另一神经网络进行的动作选择规则的 学习。
类似于所述隐含状态,技术系统的状态和动作优选也包括多个变 量。同样所述另一神经网络的隐含状态优选由多个隐含变量组成。在此, 尤其是所述递归神经网络和/或所迷另 一神经网络的隐含状态的隐含变 量的数量小于技术系统的状态的环境变量的数量。隐含状态的数量在此 优选如此选择,即使得所述方法一方面是数据高效的,另一方面也取得 良好的结果。如上所述,动作也可以通过控制变量来表示,从而动作也可能包含 没有变化的控制变量。替代地或者附加地,也可以设有多个离散的在技 术系统上可执行的动作,其中所述另 一神经网络的输出层在各时间点至 少部分地包括所述在技术系统上执行的离散的动作,而不是所述动作的 变化。
以一种特别优选的实施方式中,其中动作至少部分地通过控制变量 来表示,在此所述在各时间点所执行的动作相对于时间上在前的动作的 变化在所述另一神经网络的输出层中通过耦合矩阵与在各时间点在所 述递归神经网络的输入层中的动作相耦合。这个矩阵也可能是标量(1 xl矩阵)。借助这种耦合矩阵,能够实现对所述动作的可能值进行标
定或限制,由此使动作选择规则的学习能根据技术系统尽可能高效地匹 配,从而通过耦合矩阵仅能实现那些在技术系统中可能的或者有意义的 动作。在此优选,动作在各时间点在所述递归神经网络的输入层中通过 单位矩阵与时间上在前的动作相耦合。
在根据本发明的方法的其他改进方案中,所迷另 一神经网络的输入 层在各时间点包括在各时间点时所述递归神经网络的第 一 隐含状态。在 这种实施方式中,所述第二隐含状态不与所述另 一神经网络相耦合。
在优选的实施方式中,所述动作选择规则根据评价函数来学习,其 考虑到 一 个或者多个针对技术系统的状态的标准和/或在技术系统上所 执行的动作,和/或其在对技术系统的动态特性建模的步骤中被学习。
在特别优选的实施方式中,使用前馈网络作为根据本发明的方法中 的所述另一神经网络,在前馈神经网络下,在此所述隐含层的神经元在 时间上不反馈。
在本发明的一种变型方案中,评价函数如此选择,即其使技术系统 的最优的动态行为参数化。以此方式,通过相应选择评价函数就实现了 技术系统的最优控制。在此评价函数例如可以通过待优化的价值函数来表示。
在一种优选的实施方式中,在根据本发明方法的第一步骤中通过所 述递归神经网络对技术系统的动态行为建^t时,将在通过所述递归神经 网络确定出的状态和训练数据的状态之间的误差最小化。
在特别优选的实施方式中,根据本发明的方法被用于通过本方法对 技术系统的非线性的动态行为进行建模,和/或用于学习非线性的动作
11选择规则。
在根据本发明方法的其他方案中,为了在本方法的第 一 步骤中通过 递归神经网络对技术系统的动态行为进行建模,和/或为了在本方法的
第二步骤中学习动作选择规则,使用了反向传播方法(backpropagation method)。这种反向传播方法由现有技术已经充分已知,并且尤其是使 用在文献[1]中描述的方法。
所述借助其对技术系统的动态行为进行建模的递归神经网络优选 是一种考虑了将来的状态和动作的具有动态的 一致的时域反巻积的网 络,其在英语中称为"Recurrent Neural Network with Dynamically Consistent Overshooting (具有动态一致的超调的递归神经网络)"。在 这种网络中,网络在输出层中的本身的预报被作为在输入层中的将来的 输入的替代物。
在根据本发明的尤其优选的实施方式中,技术系统通过递归神经网 络进行的建模通过下列公式来表示
其中,t的取值范围包括在时间点t前时间步长的预定的数量m和 在时间点后t后时间步长的预定的数量n;
其中,/e{w"",;r-"},其中T是时间点的数量,对这些时间点存在 训练数据;
其中,&表示通过所述递归神经网络确定出的技术系统在时间点t 的状态;
其中,《表示根据训练数据技术系统在时间点t的状态;
=巧其中, 表示通过所述递归神经网络确定出的在时间点t的动作; 其中,《表示根据训练数据在技术系统上在时间点t执行的动作; 其中,4表示所述递归神经网络的隐含层在时间点i:的第一隐含状
态,^表示所述递归神经网络的隐含层在时间点t的笫二隐含状态,
其中,i是单位矩阵,l a, b, c, d是待确定的矩阵,e是待确 定的偏置。
借助所述公式作为结果得出了相应的矩阵a, A, b, c, d和相 应的偏置e,它们这样来选择,使得在预报的和实际的状态之间的二次 误差最小化。
第二步骤中,矩阵a, A, b, c, d以及参数e被最终固定,然后 优选借助下列公式进行报酬规则的学习
其中,G是矩阵,h是任意的激活函数,它们将技术系统的状态、+1 反映在对于价值函数c(')很重要的状态夂+|上; 其中,f是任意的激活函数;
其中,E和F是待确定的矩阵,b是待确定的偏置; 其中,h是任意的矩阵用于匹配动作在各时间点相对于时间上在前 的动作的变化。
如前所述,函数f和h是任意的激活函数,尤其是它们也能表示恒
^ = aT—, + ^T(F tanh(五^ + 6))对于所有
—min等映射。
根据本发明的方法能够被用于任意的技术系统。 一 种应用情况例如 是涡轮机,尤其是燃气轮机。
技术系统的控制如此实现,即在控制的开始时首先执行除了本来的 动作选择步骤以外的根据本发明的方法的所有步骤。接着,将由此获得 的与所述另 一神经网络相耦合的具有学得的动作选择规则的递归神经 网络用于选择动作,这些动作被执行用于控制技术系统。由此控制规则 一次性地确定,并在控制技术系统期间不再变化。
替代地也可以在控制技术系统期间以规则的间隔执行根据本发明 的方法的所有步骤(除了本来的动作选择),其中在执行该步骤时,那
在执行了根据本发明的方法的这些步i后,、接着将^此获得的与戶斤述另 一神经网络相耦合的具有学得的动作选择规则的递归神经网络用于选 择另外的动作。以此方式,在控制技术系统期间确保在线地学习规则。
前面基于对技术系统的开环或者闭环控制描述了本发明。然而,.根 据本发明基于具有通过待学习的矩阵相耦合第一和第二隐含状态的递 归神经网络对技术系统的动态特性进行建模,也能够用于计算机辅助地 仿真模拟技术系统。其中在对技术系统的动态特性建模之后对其行为进
行仿真模拟,其方式是针对在各时间点执行的动作,基于所实施的建模 来确定技术系统在下 一 时间点的新的状态。
除了上述方法,本发明还包括计算机程序产品,其具有存储在机器 可读的载体上的程序代码,当程序在计算机上运行时,用于执行根据本 发明的方法。
接下来通过附图详细的对本发明的实施例进行描述。


图1以示意图示出了通过根据本发明的一种实施方式的递归神经网
络对技术系统的建模;
图2以示意图表现了通过图1中的递归神经网络结合根据本发明 的 一种实施方式的前馈网络进行的动作选择规则的学习;
具体实施例方式
14接下来对根据本发明的方法进行详细的描述。该方法在这里可应用 于任意类型的技术系统,其动态行为能够通过具有(随机)传递函数 P(Xt, at, Xt+;L)的状态空间X和动作空间A来描述。这里 xt, xt+i € X是技术系统在时间点t或t+1的状态。其中每个状态通过
多个状态变量或环境变量来表征。所述环境变量是技术系统的可测量的 状态参数,例如气体压力、气体温度、燃烧室加速度和诸如此类燃气轮
机的参数。这里,动作at G A是技术系统的控制变量在时间点t的变化, 其会影响技术系统以后的状态。类似于状态xt,动作at也包括多个动 作变量,并且动作因此能够通过多个控制变量的变化来表征。 一个在技 术系统上可变化的控制变量的例子是燃气轮机中的阀的调整。技术系统 通常也这样构造,使状态空间和动作空间彼此交叠,也就是说,技术系 统中的控制变量也表征了技术系统的状态。
上述借助状态空间X、动作空间A和随机传递函数P对技术系统的 描述相当于由现有技术已知的马尔可夫决策过程MDP (MDP=Markov Decision Process)。在此假定技术系统能够通过该过程来描述。为此过
程,存在报酬函数或者价值函数c: X x A — R,其中R表示了报酬 空间,其由系统获得用于在状态Xt中选择动作at。从现在起的目标为, 确定最优的规则n:X — A,此规则对于每个状态Xt最大化了预期的 累积的或者平均的报酬函数C 。报酬函数C的最大化在此相当于动作选 择规则的一种可能的方案,正如其在权利要求中定义的那样。报酬函数 尤其如此确定,使得其反映技术系统的期望的特性,其中当函数最大时, 达到最优。在最简单的状况中,价值函数可以是例如技术系统的有利的 期望的状态,当其具有最大值时,则是最佳的。接着假定技术系统是具 有离散时间步长的决定马尔可夫决策过程,其中,状态空间X和A是连 续的。
根据本发明,通过递归神经网络RNN对马尔可夫决策过程建模, 由此通过高维的非线性的系统方程描绘技术系统的动态行为的映射,也 就是传递函数P。)。在这里描述的本发明的变型方案中所使用的递归神 经网络RNN如图l所示。递归神经网络包括输入层I,其示出了在单个
时间点的状态和动作。在图1中作为实例表示了状态<-2、《-i和《以及
动作"么、"么、",和"'+i。状态《-i、《以及动作"二2、"么是来自递归神经网络的训练数据记录的已知状态或动作。在这里描述的实施方式中, 单个动作来表示成控制变量,也就是说动作表示了控制变量的设定。在 这个意义上,当控制变量的值从之前的到后续的时间步长没有变化时, 动作也可以包含控制变量没有发生变化。在这个意义上,动作也包括所 谓的"零动作",其包含控制变量没有发生变化。在本发明的意义上,控 制变量是任意的参数,其大小或值能够在技术系统上被直接影响。控制 变量的变化会影响技术系统的状态。其中状态与控制变量的区别在于, 不必直接对状态施加影响。在这个意义上,控制变量也能被看作技术系 统的状态的子集,其值能直接通过动作来影响。
图1中网络的输入层I通过相应的矩阵B和D与隐含层HI相耦合。 矩阵B和D在后面被详细地定义。隐含递归层HI对于每个时间点都具
有隐含状态。其中图1中示例性地了描述状态A-2,5-2,A-,,5-1,A,5,A+1
和5+i。那些在字母s上带有折杠的状态在此相当于权利要求1意义中的 第一隐含状态,那些在字母s上带有横杠的状态相当于权利要求1意义 中的第二隐含状态。笫 一和第二状态在各时间点通过矩阵A相互耦合。 其中,此矩阵在学习技术系统的动态特性时被同时学习。在图1网络的 实施方式中,第一隐含状态的维度与第二隐含状态的维度不同,优选各 第 一隐含状态的维度小于第二隐含状态的维度,但是也可以使反过来
的。通过使用附加的待学习的矩阵A产生了一种瓶颈结构,这种瓶颈结 构在根据德国专利申请DE 10 2007 001 025.9的递归神经网络中是不存
在的,在那里使用单位矩阵来替代矩阵A。瓶颈结构迫使网络集中在动 态特性的本质的自主的结构上。除了由此取得的对动态特性的较好的逼 近外,这尤其加强了对动作的考虑。瓶颈结构一方面提高了动作对系统 动态特性的实时影响。另一方面也改进了动作选择,因为这建立在对动 态特性更好地逼近的基础上。
在隐含层HI中,在一个时间点的第二隐含状态此外与在下一时间 点的第一隐含状态通过矩阵A耦合。此外,对于每个第二隐含状态还考 虑偏置e。图1的递归神经网络此外还具有由技术系统的状态所形成的 输出层O。其中,在图1中示出了状态A-i, A , A+l和A+2。这些状态
分别通过矩阵c与隐含状态;^2, 5", 5和^i耦合。
根据图1的神经网络是一种考虑了将来状态的具有动态的一致的时域反巻积的网络,这在英语中描述为"Neural Network with Dynamically Consistent Overshooting"。这意味着,在神经网络的建模时不仅仅考虑
了过去的时间点T,而且也考虑了将来的时间点T,并且网络在输出层中 本身的预报的状态被用作输入层中将来状态的输入。参数T通过之前的
反巻积m的长度和所谓超调量n的长度来限定,从而有
■c € {t-m, ...,t+n}用于所有被考察的时间点 t . . ,T-n},其中T表示可用的时间点的数量,为此存在训练
数据用于神经网络的学习。超调量从图1由此得出,即在技术系统建模 时也通过神经网络来考虑将来的时间点T > t。因为这些将来的时间 点不是已知的,于是那些通过网络在输出层中输出的状态也再次用作下 一时间步长的输入。这在图1中针对时间点t+l示出,此时,输出的状 态xt+i再次被输送给隐含层HI的第一隐含状态A+,。
这里描述的本发明的实施方式中,状态XT和动作aT的序列在递归神 经网络的输入端建立。其中,网络在时间上以考虑了过去和将来的预定 的间隔被反巻积。图1的递归神经网络通过下列公式在数学上描述,其 中,公式中包含了上述矩阵戾'A' B' C' D以及偏置e:
J"T =tanh(^7+D<+0)
在此第一隐含状态&是主状态,此主状态合计了之前笫二隐含状 态,和外部状态《的信息。隐含层中的非线性这里通过正切双曲函数
(Tangens Hyperbolicus )来表达。在此处描述的实施方式中,主状态& 具有比第二隐含状态&更低的维度,并且此主状态^与第二隐含状态 ^通过矩阵A关联。其中,矩阵A在神经网络训练期间^皮学习。以此方 式建立有利的瓶颈结构。
笫二隐含状态^具有动作《或 作为输入,并且被应用于计算技术
系统的预期的下一状态&+1 。矩阵D是具有合适的维度的附加的矩阵,此矩阵考虑了动作 <或 对状态、的影响。动作"r被提供给神经网络
RNN作为将来的输入(t > t),因为其不直接影响技术系统的动态 特性,因此不用被网络所学习。为了覆盖技术系统的状态空间X中多个 可能状态,用于给系统建模建模的所述递归神经网络应该通过训练数据 来建模,其中所述动作《随机地选择。否则学得的动态特性也可能是特 定规则的函数。
根据本发明的方法的目标从现在起是,将图1的学得了训练数据的 神经网络与用于学习上述最优的规则II的增强学习(Reinforcement Learning)相结合。根据本发明这由此实现,即图1的递归神经网络与 另外的所谓的控制网络相结合,由此上述报酬函数C在神经网络中实施。
在这里描述的实施方式中,所述附加的控制网络是具有输入层、隐 含层和输出层的三层的前馈神经网络。如果能够实现另外的复杂的拓 朴,则通过这里所述的建模就能够对任意类型的控制函数进行建模。因
为最优动作"r要被预报,控制网络只是对于将来的时间点(即T>t)与 递归神经网络相耦合。对于过去的时间上的反巻积(即T<t),在递归神 经网络中使用之前输入的动作。
图2示出了与所述另外的前馈网络相耦合的递归神经网络,该递归
神经网络接下来被称为RC丽(RCNN=Recurrent Control Neural Network
(递归控制神经网络))。基于所述前馈控制网络的网络部分这里以虛 线示出。控制网络使用所述笫一隐含状态Hp...等作为输入层,这些第 一隐含状态与具有相应状态rt, rt"等的隐含层R相耦合。所述隐含状
态r T在这里与状态Sr通过矩阵E以及偏置b相耦合,即有
rT = tanh(蘇+ Z )
隐含状态rT此外与待建模的将来的动作变化AaT通过矩阵F相耦 合。其中,在所述实施方式中,所述动作变化相当于控制变量变化。动 作变化A",或Aaf+1与要预报的动作at或at+i通过矩阵h相耦合,其中通过 矩阵h能够实现对动作变化进行相应的限制或标定。尤其是由此以简单 方式确保了,只有那些在考察的系统上实际可能发生的动作变化才是可 能的。那些在技术系统的常规运行中不会出现的或没有意义的动作变化 (因为它们例如会导致破坏和损害系统)由此被矩阵h所阻止。因为新的动作 (r^M由在前的动作^-,或"w和相应的动作变化Afl,组成,根据 图2在前的动作"t,或 -i通过恒等矩阵I也包括到动作at中。此外存在 矩阵G,该矩阵G使将来的状态Xt+h Xt+2等与状态Rt+i, Rt+2等相 耦合,其中,后者是对于计算规则十分重要的状态。
根据本发明所使用的神经网络RCNN必须实现两个不同的任务。一 方面必须识别作为基础的技术系统的动态特性,另 一 方面必须借助相应 的动作选择规则或者报酬规则实现技术系统的最优控制。网络因此在两 个相继的步骤中进行训练,即在 一个递归神经网络使用训练数据进行学 习的步骤以及一个通过使递归神经网络与前馈网络相耦合进行的报酬 规则的学习的步骤。根据本发明创新式的构思与常规方法不同,即在此 将两个任务的组合学习在一个步骤中进行。
在根据本发明的方法的第 一 步骤中,首先将作为基础的马尔可夫决 策过程的动态特性建模,此过程相当于技术系统的动态行为。该网络 RCNN接着被简化为具有动态的 一致的时域反巻积的考虑了将来状态的 递归神经网络。这个第一步骤通过下列公式数学的表示<formula>formula see original document page 19</formula>
最后的公式在这里示出了训练的任务,在训练中应该实现所述通过
递归神经网络RNN确定出的状态: ^尽可能好地与训练数据的状态&3
相符。这里二次误差相对于矩阵a, a, b, c和D以及偏置e被最小化, 这些矩阵和偏置表示了递归神经网络的待确定的参数。
在技术系统的动态特性建模的第一步骤之后,在这个步骤中确定出
的矩阵A、 B、 C和D以及偏置e被固定,也就是说在其他训练期间它们的权重不变化。从现在起矩阵E和F以及偏置b被激活,这些矩阵和 偏置在图2中被示出。它们是在报酬规则的学习的第二步骤期间仅有的 参数。在这个学习步骤中,递归神经网络不获得将来的动作作为外部输 入,而是这些动作同前馈网络在考虑了报酬规则的情况下被学习。此外, 对于过去的时间步长T々,输出聚类Xt被忽略,因为输出聚类仅仅对于 在第 一 步骤中的动态特性的建模是必要的。对于网络的将来的时间步长 T〉t,根据公式(4)的误差函数被报酬函数或价值函数c(')所替代,其会
在之后的公式(9)中说明。这在体系结构中通过附加的报酬聚类RT来实 现,此报酬聚类通过作为上述报酬函数c('〉的函数的、问题特定的固定 的矩阵G以及在输出聚类XT内的可能的激活函数h与输出聚类相关联。 由此通过网络RCNN,报酬函数c(')在神经体系结构中被编码。这意味 着,报酬聚类^不必只在输出聚类XT的基础上进行计算,而且其也能更 通用地进行描述,由此也能实现复杂的网络体系结构。例如报酬函数能 够被清楚地学习,当c(')不是已知的或者没有被完整地说明时,这是尤 其有帮助的。这能够通过另外的附加的三层的神经网络以RCNN的输出 作为输入来达到。
前馈网络的权重仅根据报酬聚类Rt ( t > t)的反向传播的报酬进 行适配。这相当于这样的构思,即进行了动作选择规则学习的第二步骤 不用于识别动态特性,而只是用于学习使报酬最大化的规则,其中系统 的动态特性已经在之前就建^t了。
进行了报酬规则学习的第二步骤能够通过下列公式(5)到(9)在数学 上描述。其中矩阵E和F以及偏置e被学习。公式(5)到(9)如下
/ r+1=GA(C T)对于所有 t s t (6)
一i
其中 、5: ,+5x, Vir> (7)
以及^-"w+W/(尸tanh(皮r +州对于所有 t £ t (8)
20£5>(凡)—min (9)
在根据公式(1)到(4)对技术系统的动态特性建模时以及在根据公式 (5)到(9)学习报酬规则时,递归神经网络通过相同的训练样本T以 及通过由现有技术充分地已知的根据文献[l]的反向传播方法进行训练。 每个训练样本T在此对应于一个时间点,该时间点配属有呈技术系统的 状态的形式的相应的训练数据和在该时间点所执行的动作。报酬规则学 习的步骤在这里能够被看作报酬函数C (.)的误差的反向传播。
在前面描述的递归神经控制网络RCNN的实施方式以理想的方式 将具有动态的 一致的时域反巻积的考虑了将来状态用于识别带有三层 神经控制网络的动态特性的递归神经网络RNN的优点与报酬规则的学 习相结合。以此方式达到高的逼近精度,并且也能以数据高效的方式控 制复杂的动态系统。此外系统也能以简单的方式构建成高维度,并且仅 部分观测的环境就能够由技术系统的状态进行再构建。此外通过上述网 络能够非常好地处理连续的状态空间和动作空间。
相对于在专利申请DE 10 2007 001 025.9中描述的实施方式,依据 图1和图2描述的本发明的实施方式具有下述优点,即通过包括待学习
的权重矩阵A,在隐含状态之间产生瓶颈,这种瓶颈强迫网络集中在动 态特性的本质的自主的结构上。此外通过考虑呈控制变量或操控变量形 式的动作,其必要时也包括"零动作"(即控制变量没有变化),还提供 了这样的可能性通过使用特定的矩阵H,使得控制变量的变化的值匹 配于或者相应地限制于技术系统的特征。尤其在燃气轮机的仿真模拟 中,控制变量的限制是十分重要的,因为控制变量在每个时间步长中仅 在受限的间隔内是可变的。
参考文献 D.E. Rumelhart, G.E. Hinton和R.J. Willliams, "Learninginternal representations by error propagation (通过误差4专递学习内部表示),,, 在并行分布过程中认知微观结构中的开发,D.E. Rumelhart和J丄.M. 等,Eds. Cambridge: MIT出版社,1986,第1巻,318-362页[2] Leslie Rack Kaelbing; Michael L. Littman; Andrew W. Moore, Reinforcement Learning (强化学习)概览,人工智能研究期刊4 ( 1996) 237-285页。
权利要求
1.针对技术系统的计算机辅助的开环和/或闭环控制的方法,其中a)技术系统的动态行为对于多个时间点(t)分别通过技术系统的状态(xt)和在技术系统上所执行的动作(at)来表征,其中各动作(at)在各时间点(t)引起技术系统在下一时间点(t+1)的新的状态(xt+1);b)技术系统的动态行为通过递归神经网络借助训练数据来建模,该训练数据包括在多个时间点(t)已知的状态(xtd)和动作(atd),其中所述递归神经网络通过至少一个包括技术系统的状态(xt)和在多个时间点(t)在技术系统上所执行的动作(at)的输入层(I)、至少一个包括隐含状态 id="icf0001" file="A2009101321620002C1.tif" wi="13" he="5" top= "97" left = "141" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>的隐含递归层(HI)以及至少一个包括技术系统在多个时间点(t)的状态(xt)的输出层(O)来形成,其中,-所述隐含状态 id="icf0002" file="A2009101321620002C2.tif" wi="13" he="5" top= "121" left = "91" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>在各时间点(t)包括第一隐含状态 id="icf0003" file="A2009101321620002C3.tif" wi="8" he="5" top= "130" left = "43" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>和第二隐含状态(st),其中技术系统的状态(xt)在各时间点(t)自输入层(I)起与所述第一隐含状态 id="icf0004" file="A2009101321620002C4.tif" wi="8" he="5" top= "138" left = "135" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>关联,并且所述动作(at)在各时间点(t)自输入层(I)起与所述第二隐含状态(st)关联,-所述在各时间点(t)的第一隐含状态 id="icf0005" file="A2009101321620002C5.tif" wi="8" he="5" top= "163" left = "144" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>与所述在各时间点的第二隐含状态(st)通过矩阵 id="icf0006" file="A2009101321620002C6.tif" wi="6" he="4" top= "173" left = "127" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>耦合,此矩阵在技术系统的动态行为建模时学习;c)通过所述递归神经网络对于当前和将来的时间点(t)与另一神经网络相耦合来学习动作选择规则,所述另一神经网络包括至少一个输入层(HI)、至少一个包括隐含状态(rt)的隐含层(R)以及至少一个输出层(O′),其中所述另一神经网络的输入层(HI)在各时间点(t)包括在各时间点(t)时所述递归神经网络的隐含状态 id="icf0007" file="A2009101321620002C7.tif" wi="8" he="5" top= "229" left = "98" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>的至少一部分,并且所述另一神经网络的输出层(O′)在各时间点包括在技术系统上所执行的动作(at)和/或在技术系统上执行的动作(at)相对于时间上之前的动作(at-1)的变化(Δat);d)技术系统的状态(xt)和/或在技术系统上所执行的动作(at)通过与所述另一神经网络相耦合的具有学得的动作选择规则的递归神经网络来确定。
2. 根据权利要求1所述的方法,其中所述递归神经网络的隐含递归层(HI)的第一隐含状态(A)分别包括第一数量的变量,并且所述递归神经网络的隐含递归层(HI)的第二隐含状态(^ )分别包括第二数量的变 量,其中所述笫一数量与第二数量不同。
3. 根据权利要求2所述的方法,其中所述笫一数量小于第二数量或 反过来。
4. 根据前述权利要求中任一项所述的方法,其中技术系统的状态 (xj包括一个或者多个环境变量,和/或在技术系统上所执行的动作^d包括一个或者多个动作变量,和/或所述另一神经网络的隐含状态(rt) 包括一个或者多个隐含变量。
5. 根据权利要求4所述的方法,其中所述递归神经网络和/或所述 另一神经网络的隐含状态(&,5 , rt)的隐含变量的数量小于技术系 统的状态(xt)的环境变量的数量。
6. 根据前述权利要求中任一项所述的方法,其中所述动作(at)的至 少一部分动作中的一个动作""通过技术系统的可变化的控制变量来表 示,其中所述另一神经网络的输出层(0')至少部分地在各时间点(^包括 在各时间点(t)所执行的动作laj相对于时间上在前的动作(at—O的变化(Aat),该变化(Aat》呈控制变量的变化的形式。
7. 根据权利要求6所述的方法,其中在各时间点(t)所执行的动作 (at)相对于时间上在前的动作^t-:O的变化(Aat)在所述另一神经网络的输出层(O')中通过耦合矩阵(H)与在各时间点在所述递归神经网络的输 入层(I)中的动作(ad相耦合。
8. 根据权利要求7所述的方法,其中所述动作(at)在各时间点在所 述递归神经网络的榆入层(I)中通过单位矩阵与时间上在前的动作^t-:0 相耦合。
9. 根据权利要求7或8所述的方法,其中通过所述耦合矩阵(H)来 限制和/或标定在各时间点("所执行的动作(at)相对于时间上在前的动作的变化(Aa。。
10. 根据前述权利要求中任一项所述的方法,其中设有多个离散的在技术系统上可执行的动作"",其中所述另一神经网络的输出层(O') 在各时间点(t)至少部分地包括所述在技术系统上执行的离散的动作(at)。
11. 根据前述权利要求中任一项所述的方法,其中所述另一神经网 络的输入层(HI)在各时间点包括所述递归神经网络在各时间点(t >的第一隐含状态(戈)。
12. 根据前述权利要求中任一项所迷的方法,其中所述选择规则根 据评价函数来学习,其考虑到一个或者多个针对技术系统的状态(xt)的 标准和/或在技术系统上所执行的动作(at、和/或其在步骤b)中被学习。
13. 根据权利要求12所述的方法,其中评价函数这样被选择,即使 技术系统的最优的动态行为参数化。
14. 根据权利要求13所述的方法,其中评价函数通过待优化的价值 函数来表示。
15. 根据前述权利要求中任一项所述的方法,其中为了借助递归神 经网络对技术系统的动态行为建模,将通过所述递归神经网络确定出的 状态(xt )与训练数据的状态(xt^之间的误差最小化。
16. 根据前述权利要求中任一项所述的方法,其中在权利要求1的 步骤b)中,对技术系统的非线性的动态行为建模,和/或在权利要求1 的步骤c)中,学习非线性的动作选择规则。
17. 根据前述权利要求中任一项所述的方法,其中为了在步骤b) 中借助递归神经网络对技术系统的动态行为建模,和/或为了在步骤c ) 中学习动作选择规则,使用反向传播方法。
18. 根据前述权利要求中任一项所述的方法,其中所述递归神经网 络是一种具有动态的一致的时域反巻积的考虑了将来的状态(xt)和动作 (at)的网络。
19. 根据前述权利要求中任一项所述的方法,其中借助递归神经网 络对技术系统的动态行为的建模通过下列公式表示<formula>formula see original document page 5</formula>其中,T的取值范围包括在时间点t前时间步长的预定的数量m和 在时间点后t后时间步长的预定的数量n;其中,/e{w,":T-"},其中T是时间点的数量,对这些时间点存在 训练数据;其中,、表示通过所述递归神经网络确定出的技术系统在时间点t 的状态;其中,《表示根据训练数据技术系统在时间点t的状态; 其中, 表示通过所述递归神经网络确定出的在时间点t的动作; 其中, < 表示根据训练数据在技术系统上在时间点t执行的动作;其中,4表示所述递归神经网络的隐含层(HI)在时间点t的第一隐含状态,^表示所述递归神经网络的隐含层(HI)在时间点t的第二隐含 状态,其中,I是单位矩阵,& a, b, c, D是待确定的矩阵,e是待确 定的偏置。
20.根据权利要求19所述的方法,其中所述动作选择规则的学习通 过下列公式来表示<formula>formula see original document page 5</formula>其中 <formula>formula see original document page 6</formula>和ar = 一,+ f(i7 tanh(£ir + 6))对于所有t s t其中,G是矩阵,h是任意的激活函数,它们将技术系统的状态、+i反映在对于价值函数c(')重要的状态 其中,f是任意的激活函数;其中,E和F是待确定的矩阵,b是待确定的偏置;其中,H是任意的矩阵用于匹配动作(",)在各时间点相对于时间上 在前的动作(at-1》的变化。
21. 根据前述权利要求中任一项所迷的方法,其中所迷技术系统是 涡轮机,尤其是燃气轮机。
22. 根据前述权利要求中任一项所述的方法,其中在控制方法开始 时,首先执行权利要求1的步骤a)到步骤d),接着将由此获得的与 所述另 一 神经网络相耦合的具有学得的动作选择规则的递归神经网络 用于确定动作(at〉。
23. 根据权利要求1至19中任一项所述的方法,其中在控制方法期 间以规则的间隔来执行权利要求1的步骤a)至d),其中在执行上述 步骤时,将在控制期间新得到的状态(Xt)和动作Ut)考虑作为新的和/或另外的训练数据,并且其中在执行了这些步骤之后,将从中得出的与 所迷另 一 神经网络相耦合的具有学得的动作选择规则的递归神经网络 用于选择另外的动作(at〉。
24. 计算机辅助地仿真模拟技术系统的方法,其中a) 技术系统的动态行为对于多个时间点(t )分别通过技 术系统的状态(xt )和在技术系统上所执行的动作(at )来表征, 其中各动作(at)在各时间点(t)引起技术系统在下一时间点(t + l)的新的状态(Xt+i);b) 技术系统的动态行为通过递归神经网络借助训练数据来建模,该训练数据包括在多个时间点(t)已知的状态&t ) 和动作(at、其中所迷递归神经网络通过至少一个包括技术 系统的状态(Xt >和在多个时间点(t)在技术系统上所执行的动作(at)的输入层(I)、至少一个包括隐含状态^,^)的隐含递归 层(HI)以及至少 一 个包括技术系统在多个时间点(t)的状态 (xt)的输出层(0)来形成,其中, -所述隐含状态(A,S》在各时间点(t)包括第 一 隐含状态 ",)和第二隐含状态"J,其中技术系统的状态(x t)在各时间,存、(t)自输入层(I)起与所述第一隐含状态(A )关联,并且所述动作 (at)在各时间点(t)自输入层(I)起与所述第二隐含状态W)关联, -所述在各时间点(t)的第 一 隐含状态(A )与所述在各时间点的第二隐含状态(^ )通过矩阵(A)耦合,此矩阵在对技术系统的动态行为建模时学习;c)通过针对在各时间点(t)执行的动作,基于在步骤b) 中所执行的建模来确定技术系统在下 一 时间点(t+l)的新的 状态(xt+i),由此对技术系统的动态行为进行仿真才莫拟。
25.计算机程序产品,其具有存储在机器可读的载体上的程序代码, 当程序在计算机上运行时,用于执行根据前述权利要求中任一项所述的 方法。
全文摘要
本发明涉及一种针对技术系统的计算机辅助的开环和/或闭环控制的方法,特征在于两个步骤基于递归神经网络借助历史数据进行技术系统的动态特性的学习以及通过使递归神经网络与另一神经网络耦合进行的最优控制的学习。根据本发明的方法使用具有特殊隐含层的递归神经网络,该隐含层在各时间点包括第一隐含状态和第二隐含状态。第一隐含状态通过待学习的矩阵与第二隐含状态耦合。通过使第一隐含状态的维度选择为小于第二隐含状态的维度或反过来形成瓶颈结构。由此在网络学习时更多考虑技术系统的本质的自主的动态特性并改善网络的逼近能力。本发明有广泛的技术应用领域并尤其应用于任意技术系统,以计算机辅助地最优控制系统。应用领域例如是控制燃气轮机。
文档编号G05B13/04GK101566829SQ20091013216
公开日2009年10月28日 申请日期2009年4月23日 优先权日2008年4月23日
发明者A·M·沙弗, S·尤德卢夫特, V·斯特津格 申请人:西门子公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1