最优控制装置、控制方法以及计算机程序与流程

文档序号:22557166发布日期:2020-10-17 02:41阅读:183来源:国知局
最优控制装置、控制方法以及计算机程序与流程

本发明的实施方式涉及最优控制装置、控制方法以及计算机程序。



背景技术:

近年来,作为设备控制的方法,被称为极值控制的技术受到关注。极值控制是不使用设备的复杂模型的无模型的实时最优控制技术。极值控制的概要是,通过强制性地使操作量变化,来搜索基于控制对象过程的控制量的评价量被最优化的操作量。在将这样的极值控制应用于设备控制的情况下,需要根据控制对象过程的特性适当地设定极值控制所涉及的各种参数(以下称为“控制参数”)。以往,虽然示出了几个与控制参数的设计有关的指针,但任一个都没有达到能够适应于控制对象过程的时间变化(以下称为“动态”)而使极值控制稳定地动作的程度。

现有技术文献

专利文献

专利文献1:日本特开2017-33104号公报

非特許文献

非特許文献1:d.nesicet.al.,‘aunifyingapproachtoextremumseeking:adaptiveschemesbasedonestimationofderivatives’,proc.49thieeeconferenceondecisionandcontrol,december15-17,2010

非特許文献2:w.h.moaseetal,‘newton-likeextremum-seekingparti:theory’,proc.joint48thieeeconferenceondecisionandcontroland28thchinesecontrolconference,december16-18,2009

非特許文献3:yanetal,onthechoiceofditherinextremumseekingsystems:acasestudy,automatica,44,pp.1446-1450(2008)



技术实现要素:

发明解决的技术问题

本发明解决的技术问题在于,提供一种能够适应于控制对象过程的动态而使极值控制更稳定地动作的最优控制装置、控制方法以及计算机程序。

用于解决技术问题的手段

实施方式的最优控制装置,是执行极值控制的控制装置,所述极值控制基于控制对象过程的操作量和表示与基于根据所述操作量而变化的控制量的所述控制对象过程的最优化有关的指标的评价量,以使所述评价量趋向最优值的方式使所述操作量变化。最优控制装置具有梯度推定部和校正部。梯度推定部基于关于所述控制对象过程而观测到的所述评价量,推定表示评价函数的变化率的梯度,所述评价函数是表示所述评价量的函数且是相对于所述操作量而未知的函数。校正部基于由所述梯度推定部所取得的所述梯度的推定值,与所述评价函数的变化相适应地校正所述极值控制的执行所需的控制参数、所述操作量或所述评价量。

附图说明

图1a是说明极值控制的基本概念的图。

图1b是说明极值控制的基本概念的图。

图1c是说明极值控制的基本概念的图。

图2是表示实现极值控制的极值控制系统9的基本构成例的框图。

图3是表示第一实施方式中的最优控制装置2的功能构成的具体例的框图。

图4是表示第一实施方式中的n阶微分值的推定方法的一个具体例的图。

图5是表示第一实施方式中的控制参数的决定方法的一例的图。

图6是表示由第一实施方式的最优控制装置2实现的极值控制系统1的构成例的框图。

图7是作为第一实施方式中的设备p的一例,而表示实现生物学的排水处理过程的水处理设备3的具体例的图。

图8是第一实施方式中的最优控制装置2通过极值控制来对控制对象过程进行控制的处理的流程的流程图。

图9是表示第二实施方式中的最优控制装置2a的功能构成的具体例的框图。

图10是表示由第二实施方式的最优控制装置2a实现的极值控制系统1a的构成例的框图。

图11是表示第三实施方式中的最优控制装置2b的功能构成的具体例的框图。

图12是表示第三实施方式中的n阶微分值的推定方法的一例的图。

图13是表示由第三实施方式的最优控制装置2b实现的极值控制系统1b的构成例的框图。

图14a是表示通过第一~第三实施方式的最优控制装置得到的效果的具体例的图。

图14b是表示通过第一~第三实施方式的最优控制装置得到的效果的具体例的图。

图15a是表示在变形例的最优控制装置2中通过显示信息显示的画面的具体例的图。

图15b是表示在变形例的最优控制装置2中通过显示信息显示的画面的具体例的图。

具体实施方式

以下,参照附图对实施方式的最优控制装置、控制方法以及计算机程序进行说明。

(概略)

图1a、图1b、图1c是说明极值控制的基本概念的图。极值控制是通过基于评价量的变化来更新操作量而使评价量接近最优值的控制方法。评价量是成为与作为控制对象的过程(以下称为“控制对象过程”)有关的最优化的指标的值。评价量是基于控制对象过程的控制量而决定的指标值,评价量与控制量的关系由规定的评价函数表示。该评价函数只要是基于控制量的评价函数即可,可以基于任意的评价基准来设定。另外,评价量也可以是控制量本身。通常,在极值控制中,控制对象过程的评价函数是相对于操作量而言未知的函数。

在极值控制中,根据被称为高频振动信号的周期性的信号使操作量变化。通常,该高频振动信号大多由正弦波提供。在极值控制中,首先通过高频振动信号使操作量持续地振动,并观测由此产生的评价量的变化(增减)。然后,基于观测到的评价量的变化,计算使评价量接近评价函数的最优值(最大值或最小值)这样的操作量,以所计算出的操作量更新当前的操作量。极值控制是通过反复进行这样的评价量的观测及操作量的更新来搜索评价函数的最优值的控制方法。

图1a的评价函数曲线ev表示相对于操作量而言未知的评价函数。在此,为了便于说明,将未知的评价函数假定为向下凸的二次函数。图1b表示在针对具有这样的评价函数的控制对象过程、用高频振动信号使操作量变化时,得到了与高频振动信号的相位相反相位的评价量的情况。在该情况下,由于相对于操作量的增加,评价量减少,因此可知动作点在比评价函数曲线ev的极小点pmin靠左侧发生了变化。另一方面,图1c表示针对与图1b同样的高频振动信号,得到了与高频振动信号的相位相同相位的评价量的情况。在该情况下,相对于操作量的增加,评价量也增加,因此可知动作点在极小点pmin的右侧发生了变化。

因此,使操作量周期性地增减的结果是,在评价量的增减进行与操作量的增减相同相位的动作的情况下使操作量减少,在进行相反相位的动作的情况下使操作量增加,由此能够使评价量接近最优值。以往,作为工业用设备的控制方式而通常被使用的pid控制(proportional-integral-derivativecontrol),是以控制量追随预先设定的目标值的方式控制操作量的目标值追随型的控制方式。与此相对,极值控制是搜索使评价量最优化那样的操作量的最优值搜索型的控制方式,因此并不如pid控制那样预先需要对操作量与控制量的关系进行表示的过程模型。因此,极值控制是对于无法预先设定目标值那样的控制对象过程也有效的控制方式,在今后广泛普及的可能性。通过这样的原理进行极值控制的极值控制控制器能够以比较简单的构成实现。

图2是表示实现极值控制的极值控制系统9的基本构成例的框图。图2的极值控制系统9(极值控制部)具备高通滤波器11(hpf:high-passfilter)、高频振动信号输出部12、低通滤波器13(lpf:low-passfilter)以及推定器14。这样,极值控制系统9的构成即使与现有的pid控制控制器相比较,也是相同程度的复杂度。因此,极值控制系统9与pid控制控制器同样地,能够使用plc(programmablelogiccontroller:可编程逻辑控制器)等硬件容易地安装。以下,对图2的极值控制系统9的动作的概要进行说明。另外,在此,以搜索评价函数的极小值作为最优值的情况为例进行说明。

极值控制系统9通过使具有周期性变化的高频振动信号m(m表示调制)发挥作用,由此强制地使控制对象过程tp的操作量变化。

以下,将该操作称为调制(modulation:调制)。通过该调制,控制对象过程tp的操作量周期性地变化,控制量根据操作量的变化而变化。控制对象过程tp基于控制量取得评价量,并将所取得的评价量反馈到极值控制系统9。

此外,基于控制量来取得评价量的功能(以下称为“评价量取得功能”)不一定需要包括在控制对象过程tp中。例如,评价值取得功能可以包括在极值控制系统9中,也可以在控制对象过程tp与极值控制系统9之间存在具有评价量取得功能的其他装置。

通常,相对于操作量的变化的评价量的变化,伴随某种程度的时间延迟而出现。如上所述,极值控制是针对操作量搜索未知的评价函数的极值的控制方法。因此,虽然前提是控制对象过程tp的评价函数具有极小值,但该值相对于操作量而言是未知的。

高通滤波器11从被反馈的评价量中去除与未知的极小值对应的一定值的偏压。该处理即是用于将未知的极小值始终调整为零的处理,是为了决定推定器14对操作量赋予的变化的方向(增加或减少)所需的前处理。

高频振动信号输出部12使高频振动信号d(d表示demodulation)作用于这样被调整后的评价量。由此,从根据操作量的调制而变化的评价量中提取与高频振动信号m相同的频率成分。以下,将该操作称为解调(demodulation:解调)。解调的作用如下。

如上所述,对于控制对象过程tp的操作量的评价函数是未知的。因此,存在评价函数中包括非线性要素的情况。在该情况下,假定评价函数为向下凸(在极大值搜索的情况下为向上凸)的非线性函数。由于这样的非线性要素,在评价量中出现与高频振动信号m的频率ω对应的高次谐波成分、分谐波成分的可能性高。解调是用于消除这样的高次谐波、分谐波的影响的处理。通过该解调,提取在评价量包括的成分中的、与使评价量变化的高频振动信号m相同的频率ω的成分。

被解调后的评价量被输入至低通滤波器13。通过低通滤波器13,从评价量提取稳定成分(低频成分)。稳定成分被认为是表示通过使高频振动信号m起作用而使评价量向增加方向变化还是向减少方向变化。

推定器14是对由低通滤波器13提取出的稳定成分进行积分的积分器。推定器14作为基于稳定成分的积分值而推定出为了使评价量接近极小值而应该移动的操作量的方向(以下称为“操作方向”)的推定器发挥功能。这样的操作方向的推定方法作为自适应控制系统中的操作方向的推定法,是基于最基本的梯度法的方法。若通过推定器14来决定操作方向(以下也称为“梯度”),则根据该梯度来调整操作量以使评价量接近极小值。这样调整后的操作量再次被施加高频振动信号后被输入至控制对象过程tp。

另外,在此,假定探索极小值的情况来说明极值控制系统9的构成例,但在探索极大值的情况下,只要使推定器14推定的梯度的符号反转即可。

另外,由于积分器一般具有低通特性,因此在推定器14具有充分的低通特性的情况下,极值控制系统9也可以不具备低通滤波器13。以下,为了简单,假定推定器14具有充分的低通特性,包括低通滤波器13的功能来进行说明。

以下说明的实施方式的最优控制装置,使用上述的极值控制系统9而构成,作为通过极值控制来对控制对象过程进行控制的装置发挥功能。实施方式的最优控制装置能够应用于针对操作量的输入而输出控制量的任意的过程的控制。例如,控制对象过程也可以是下水处理过程、燃烧过程、石油化学过程等。以下,以生物学的排水处理过程为适当例,对实施方式的最优控制装置的详细情况进行说明。

(第一实施方式)

图3是表示第一实施方式中的最优控制装置2的功能构成的具体例的框图。图3所示的设备p是实现控制对象过程的单元的一例,例如是实现生物学的排水处理过程的水处理设备。设备p包括用于实现控制对象过程的各种设备,基于由最优控制装置2赋予的操作量使各种设备动作。另外,设备p包括对针对操作量的控制对象过程的响应(即控制量)进行计测的各种计测设备,将由计测设备取得的计测数据为作为表示控制对象过程的控制量的信息(以下称为“计测信息”)输出至最优控制装置2。最优控制装置2基于从控制对象过程取得的计测信息,在控制对象过程的评价量接近最优值那样的操作方向上更新操作量。这样的动作通过最优控制装置2具备以下那样的构成来实现。

最优控制装置2具备通过总线连接的cpu(centralprocessingunit:中央处理单元)、存储器、辅助存储装置等,执行极值控制程序。最优控制装置2作为通过执行极值控制程序而具备高频振动信号输出部21、操作量输出部22、计测信息取得部23、评价量计算部24、梯度推定部25、参数决定部26以及极值控制部27的装置发挥功能。另外,最优控制装置2的各功能的全部或一部分也可以使用asic(applicationspecificintegratedcircuit:专用集成电路)或pld(programmablelogicdevice:可编程逻辑器件)或fpga(fieldprogrammablegatearray:现场可编程门阵列)等硬件来实现。控制程序也可以记录在计算机可读取的记录介质中。计算机可读取的记录介质例如是软盘、光磁盘、rom、cd-rom等可移动介质、内置于计算机系统的硬盘等存储装置。控制程序也可以经由电气通信线路发送。

高频振动信号输出部21生成高频振动信号,并将所生成的高频振动信号输出至极值控制部27。具体而言,高频振动信号输出部21为了操作量的调制而生成高频振动信号m,为了评价量的解调而生成高频振动信号d。

操作量输出部22以及计测信息取得部23构成为包括将最优控制装置2与设备p连接为能够通信的通信接口。操作量输出部22将从极值控制部27输出的操作量发送至设备p。另外,计测信息取得部23从设备p取得计测信息,并将所取得到的计测信息所表示的控制量输出至评价量计算部24。

评价量计算部24基于从计测信息取得部23输出的控制量,计算用于极值控制的评价量。评价量计算部24将所计算出的评价量输出至梯度推定部25及极值控制部27。

梯度推定部25基于从评价量计算单元24输出的评价量来推定评价函数的梯度。具体而言,梯度推定部25基于依次取得的评价量的变化,推定相对于操作量的1阶到n阶(n为1以上的整数)的梯度(即微分值)。在此,作为一例,对推定1阶微分值的情况进行说明。在此,将最优控制装置2的控制周期称为t,将进行每个控制周期t的控制的时刻称为控制时刻。在该情况下,梯度推定部25通过将某控制时刻t的评价量j(t)与该1个控制周期前的控制时刻t-t的评价量j(t-t)之差除以两时刻的操作量u(t)与u(t-t)之差,由此能够取得评价量相对于操作量的1阶微分值的近似值。即,评价量的1阶微分值dj/du如以下的式(1)那样近似。

[式1]

式(1)表示取得评价量的微分值的方法的最简单的例子,但实际上,通过这样的方法取得的1阶微分值容易受到评价函数、操作量的计测值或计算值造成的噪声的影响。另外,在取得2阶以上的高阶微分值的情况下,噪声的影响变大,实质上不能推定梯度的可能性高。关于这样的问题,在以下所示的各文献中,着眼于高频振动信号通常作为正弦波而提供的情况,提出了更高精度地推定梯度的方法。

在非专利文献1中记载了使用了滤波器的梯度推定法,在非专利文献2中记载了使用了观测器的想法的梯度推定法。在本实施方式中,梯度推定部25优选基于这样的现有技术来推定评价函数的梯度。在此,对非专利文献1所记载的梯度推定法的基本想法进行说明。

通常,在操作量中有时包括高次谐波成分、分谐波成分,但在用正弦波提供高频振动信号的情况下,操作量大致以与高频振动信号相同的频率呈正弦波状变化。因此,假定为操作量u变化为u(t)=u0+a×sinωt这样的正弦波状,由此得到的评价量由以下的式(2)所示的评价函数j来表示。

[式2]

j(t)=f(u(t))=f(u0+a×sinωt)(2)

在此,f是未知的函数。实际上,f中包括设备的动态,因此准确地说,f应该视为动态系统的算子(操作符)。但是,在高频振动信号的频率ω对设备的动态带来充分平缓的变化的情况下,能够将f近似地视为函数。在这样的前提下,在此将f视为函数。通过将该式(2)进行泰勒展开,得到以下的式(3)。

[式3]

在此,dkf(k是1以上的整数)是指与函数f的u有关的k阶微分。通过对该式(3)乘以sinnωt(n为1以上的整数),得到以下的式(4)。

[式4]

在此,如果对式(4)进行周期平均处理,则得到以下的式(5)。

[式5]

这里,a0由以下的式(6)定义。

[式6]

a0:=diag(1,a,a2,a3,...,an)(6)

着眼于高频振动信号的振幅a和幂数n为常数,假定n阶微分dnf的值在1个控制周期中不大幅变化,μn由以下的式(7)定义。

[式7]

接着,定义以下的式(8)和(9),当使用式(5)的关系时,从0到n阶的微分d0f~dnf表示如以下的式(10)。

[式8]

z(t):=[z0(t),z1(t),…,zn(t)](8)

[式9]

df(t):=[d0f(t),d1f(t),…,dnf(t)](9)

[式10]

在此,an由以下的式(11)定义。

[式11]

因此,通过使用式(10),能够推定任意次数的n阶微分值(或者第0阶~第n阶微分值)。进而,在非专利文献1中,记载了按照这样的基本的想法,施加了若干校正的n阶微分值的推定方法。

图4是表示第一实施方式中的n阶微分值的推定方法的一个具体例的图。在图4中,g(t)由以下的式(12)定义。

[式12]

在此,x(t)是排列了图4的x1(t)~xn(t)的矢量信号。即,式(12)可以认为是利用图4所示的x(t)近似(代用)由式(5)和(8)定义的信号的式子。

这样,能够利用使用了滤波器的梯度推定器g(t)来推定评价函数j的梯度。本实施方式的最优控制装置2基于使用这样的方法所推定出的梯度的推定值来决定极值控制的控制参数。梯度推定部25将这样取得的梯度推定值向参数决定部26输出。

返回图3的说明。参数决定部26基于由梯度推定部25所取得的评价函数的梯度推定值来决定极值控制的控制参数。具体而言,参数决定部26决定低通滤波器的频率、高通滤波器的频率、高频振动信号的频率、高频振动信号的振幅以及积分增益这五个控制参数。

图5是表示第一实施方式中的控制参数的决定方法的一例的图。具体而言,图5表示专利文献1所记载的控制参数的调整规则。该调整规则基本上是假定在对控制对象过程的控制应用极值控制之前的设计阶段决定控制参数时使用的。即,专利文献1并是不假定在极值控制的应用后变更基于该调整规则所决定的控制参数。

在本实施方式的最优控制装置2中,参数决定部26针对图5所示的五个参数中的积分增益以外的参数,基于图5所示的no.1~no.4的各调整规则来决定。另一方面,关于积分增益,参数决定部26基于由梯度推定部25所取得的梯度推定值,根据控制对象过程的状态而适应性地决定,并反映到极值控制中。关于积分增益的确定方法,在后面叙述。

返回图3的说明。极值控制部27以由参数决定部26决定的控制参数进行控制对象过程的极值控制。具体而言,首先,极值控制部27对施加给设备p的操作量施加高频振动信号,观测由此变化的评价量。然后,极值控制部27基于评价量的观测值,以使评价量接近最优值的方式更新操作量。极值控制部27反复执行高频振动信号的施加、评价量的观测以及操作量的更新,从而使控制对象过程的评价量接近最优值。

图6是表示由第一实施方式的最优控制装置2实现的极值控制系统1的构成例的框图。极值控制系统1与图2所示的基本构成的极值控制系统9的不同点在于,由梯度推定部25取得的评价函数的梯度推定值适应性地作用于推定器14的动作。具体而言,参数决定部26(未图示)基于梯度推定值而计算出的积分增益ki被适应性地反映到推定器14中。由此,最优控制装置2能够适应于控制对象过程的动态地使极值控制更稳定地动作。积分增益的决定方法的详细内容将在后面叙述。

另外,图6所示的极值控制系统1,作为图3所示的最优控制装置2的高频振动信号输出部21以及极值控制部27发挥功能。另外,极值控制系统1也可以构成为包括操作量输出部22、计测信息取得部23以及评价量计算部24。

图7是作为第一实施方式中的设备p的一例而示出实现生物学的排水处理过程的水处理设备3的具体例的图。例如,图7所示的水处理设备3具备厌气槽31、无氧槽32、好气槽33以及最终沉淀池34的各设备。

厌气槽31是用于使微生物活性化的设备。无氧槽32是用于去除氮的设备。好气槽33是用于进行有机物的分解、磷的去除、氨的硝化的设备。最终沉淀池34是用于使活性污泥沉淀的设备。

在水处理设备3中,设置有在上述设备间输送水和污泥的泵、向槽内供给空气的鼓风机、计测空气中或水中的物质的浓度的传感器等设备。药品投入泵311是将使微生物活性化的碳源等药品投入厌气槽31的泵。循环泵331是控制在好气槽33与无氧槽32之间循环的被处理水的循环量的泵。鼓风机332向好气槽33供给空气来控制曝气量。返送污泥泵341是从最终沉淀池34向无氧槽32返送污泥的泵。剩余污泥抽出泵342是从最终沉淀池34抽出过剩的污泥的泵。传感器312以及传感器343分别计测厌气槽31以及最终沉淀池34中的排放水的水质。

通常,在这样的生物学废水处理过程中,操作量是返送污泥的返送率,控制量是排放水中含有的氮和磷的浓度(以下分别称为“排放氮浓度”和“排放磷浓度”)。返送率通过将返送污泥泵341的放热量除以流入量而得到。排放氮浓度以及排放磷浓度由传感器312以及传感器343取得。另外,也可以将控制量设为排放水中含有的氮及磷的量(以下分别称为“排放氮量”及“排放磷量”)。在该情况下,排放氮量及排放磷量分别通过对排放氮浓度及排放磷浓度乘以排放量而得到。

在评价量计算部24中,预先设定用于基于从水处理设备3输出的控制量来取得评价量的评价函数。这里所说的评价函数是将相对于操作量而言的未知的评价函数定义为控制量的函数的函数。例如,评价函数是表示排放氮浓度以及排放磷浓度与评价量的关系的函数。该评价函数需要设定为在操作量(返送率)上限下的控制量与操作量下限下的控制量之间取极值。作为这样设定评价函数的方法的一例,考虑将评价量表示为基于排水税款的想法的水质成本和返送污泥泵341的电力成本的总和(以下称为“总成本”)的方法。返送污泥泵341的电力成本能够根据返送污泥流量和返送污泥泵341的额定功率等来算出。通常,在排水税款的想法中,水质成本由以下的式子表示。

[式13]

每单位时间的水质成本=每单位时间的ss负荷量×ss成本换算系数+每单位时间的cod负荷量×cod成本换算系数+每单位时间的bod负荷量×bod成本换算系数+每单位时间的tn负荷量×tn成本换算系数+每单位时间的tp负荷量×tp成本换算系数(13)

在式(13)中,cod是化学氧要求量,bod是生物化学氧要求量,tn是排放氮,tp是排放磷。各成本的换算系数可以基于实际的排水税款来决定,也可以通过其他方法来决定。通常,已知的是cod、bod、tn及tp中通过改变返送率而较大地变化的是tn及tp。因此,在此,用以下的式(14)表示水质成本。

[式14]

水质成本=每单位时间的tn负荷量×tn成本换算系数+每单位时间的tp负荷量×tp成本换算系数(14)

另外,已知的是,通常若提高返送率,则氮的去除率提高,与tn相关的水质成本减少,相反,若降低返送率,则磷的去除率提高,与tp有关的水质成本减少。在这样的情况下,也可以仅基于水质成本来设定评价函数。但是,在以不具有这样的折衷关系的水质彼此的成本为指标的情况下,通过将评价量表示为考虑了运转成本(电力成本)的总成本,由此评价函数设定为在操作量(返送率)上限下的控制量与操作量下限下的控制量之间取极值。

另外,对评价函数,也可以不设定这样的总成本,而是直接设定表示水质的评价的函数。例如,评价量可以如以下的式(15)那样计算。

[式15]

j=exp(tn-tnlim)+exp(tp-tplim)(15)

在式(15)中,tnlim以及tplim是表示与排放水质的限制值、管理值相当的阈值等级的参数。在使用这样的评价函数的情况下,若超过阈值等级,则评价量急剧上升。因此,能够期待极值控制以将评价量抑制在阈值等级以内的方式发挥功能。

以上,以图4所示的水处理设备3为例,对极值控制所需的评价函数的设定方法进行了说明,但根据作为控制对象的设备p有时也不需要评价函数的设定。作为这样的例子,可举出风力发电设备中的风车叶片的控制。在将极值控制应用于通过使风车的叶片的朝向与风向一并地运动而使发电量最大化的控制中的情况下,评价量是发电量,操作量成为风车的叶片的旋转角。在该情况下,由于控制量直接成为评价量,因此不需要评价函数的设定。在这样的情况下,也可以不设置评价量计算部24。另一方面,也存在通过取得评价量而能够应用极值控制的情况。

[积分增益的决定方法]

以下,对参数决定部26基于梯度推定值来决定积分增益的方法进行说明。在专利文献1中提出的上述的调整规则基于非专利文献3所记载的平均系统。所谓平均系统,是在某个系统被施加了周期性的输入时,表示出取得其周期平均(平均数)的系统的动态的行为的系统,用于极值控制系统的稳定解析。

特别是在非专利文献3中,具体记载了以不具有动态的静态的设备为控制对象的极值控制系统的平均系统。该平均系统由以下的式(16)表示。

[式16]

其中,dj表示与评价函数j的输入的周期平均u-u*有关的梯度。u*是u的平衡点。τ是以高频振动信号的频率ω进行了标度变换的时间函数,是由下面的式(17)表示的值。

[式17]

τ=ωt(17)

另外,ki0是时间轴τ上的积分增益,实际的时间轴t上的积分增益ki通过以下的式(18)进行变换。

[式18]

ki=ki0×ω(18)

另外,式(16)中的p表示高频振动信号的功率。如非专利文献3所记载的那样,在使用正弦波作为高频振动信号的情况下p=1/2,在三角波的情况下p=1/3,在矩形波的情况下p=1。式(16)所示的平均系统表现了如下极值控制的收敛的动态,即,在利用高频振动信号使操作量周期性地振动的同时使评价量收敛于最小值(极小值)时,评价量一边周期性地振动一边以怎样的速度收敛于最小值(极小值)。

在非专利文献3中,假定设备为静态的情况,高频振动信号的周期被设定为比设备的时间常数充分长。这即是,高频振动信号的频率ω被设定为充分小于设备的截止频率2π/ω的情况。在这样的情况下,即使在设备具有动态的情况下,也能够将其近似地视为静态。这通过极值控制的稳定解析所使用的特异摄动论而被证实。因此,在此,示出在适当地设定了高频振动信号的频率ω的假定下,使用式(16)的平均系统来决定积分增益的方法。

式(16)表示以高频振动信号的频率进行了标度变换的时间轴τ=ωt下的极值控制系统的动作,因此认为式(16)的时间常数与直到极值控制收敛到极值为止的时间轴τ中的时间常数对应。因此,如果将参数ω、a、ki0决定为由式(16)表示的平均系统的时间常数tave比高频振动信号的周期t=2π/ω充分长,则可期待评价量根据高频振动信号的操作量的增减而逐渐收敛到最小值(极小值)。

在此,由于高频振动信号的频率ω和振幅a是基于图5的调整规则来决定的,因此为了使平均系统的时间常数与高频振动信号的周期t=2π/ω相比充分长,而调整ki0。但是,式(16)一般成为非线性的微分方程式,因此无法直接定义时间常数这一概念。因此,在专利文献1中,提出了在评价函数j为二次函数的假定下定义时间常数来决定控制参数的调整规则。例如,假定评价函数j(t)由以下的式(19)表示的情况。

[式19]

在该情况下,dj(u+u*)=g×u(t),因此式(14)如以下的式(20)那样表示。

[式20]

式(20)的时间常数tave成为1/(ki0×a×p×g)。该tave是时间轴τ上的时间常数,τ=1是相当于1/ω的时间。由此,如果能够决定将相当于时间常数tave的时间设为高频振动信号的周期2π/ω的几倍,则能够决定ki0的值。在此,由于需要调整为平均系统的时间常数与高频振动信号的周期相比充分长,因此例如将与时间常数相当的时间设为高频振动信号的周期的k3(=5~10)倍左右。在该情况下,由于k3×2π=1/(ki0×a×p×g)成立,所以ki0如以下的式(21)那样决定。

[式21]

ki0=1/(k3×a×2π×p×g)(21)

在专利文献1中提出了以上那样的积分增益的调整规则,但该调整规则如上所述是基于评价函数j(t)是二次函数的假定而提出的。但是,几乎无法期待现实的问题处于这样的假定的范围内。与此相对,在专利文献1中还提出了将评价函数变换为能够用二次函数近似的方法,但为了进行这样的变换,需要预先使操作量与评价量的关系性在某种程度上明确。而且,在这样的关系性的取得中,需要对控制对象过程进行几个动作点的观测,需要很大的工程成本。

针对这样的技术问题,在本实施方式中,着眼于式(19)以及(21)中的g是评价函数的二阶微分值,参数决定部26通过将由梯度推定部25取得的二阶微分的推定值应用于式(21)来决定积分增益。另外,在评价函数j(t)为二次函数的情况下,g为常数,但在现实的问题的大部分中,评价函数j(t)不是二次函数。这样,在评价函数j(t)不是二次函数的情况下,g成为随时间而变化的函数。因此,在该情况下,积分增益如以下的式(22)那样表示。

[式22]

ki0(t)=1/(k3×a×2π×p×g(t))(22)

在式(19)中,g(t)是相对于由梯度推定部25推定出的评价函数的操作量的二阶微分值。另外,式(19)表示积分增益根据时刻t的二阶微分值g(t)而成为时间t的函数。即,参数决定部26通过将依次取得的梯度推定值应用于式(22),由此能够适应于随时间变化的控制对象过程的动态而更新积分增益。

图8是表示第一实施方式中的最优控制装置2通过极值控制来对控制对象过程进行控制的处理的流程的流程图。另外,设备p的控制对象过程在流程图的开始时刻通过pid控制等极值控制以外的控制方法进行控制。首先,计测信息取得部23从设备p取得计测信息(步骤s101)。计测信息取得部23将计测信息所表示的控制量输出至评价量计算部24。

评价量计算部24基于从计测信息取得部23输出的控制量,计算控制对象过程的该时刻的评价量(步骤s102)。评价量计算部24将计算出的评价量输出至梯度推定部25及极值控制部27。

梯度推定部25基于从评价量计算单元24输出的评价量来推定评价函数的梯度(步骤s103)。梯度推定部25将取得的梯度推定值输出至参数决定部26。

参数决定部26基于从梯度推定部25输出的梯度推定值和预先决定的控制参数的调整规则,来决定控制参数(步骤s104)。具体而言,参数决定部26基于图5的no.1~no.4所示的调整规则,来决定高通滤波器11的频率ω1、高频振动信号输出部12输出的高频振动信号的频率ω以及振幅a、以及低通滤波器13的频率ω2。另外,在图5所示的调整规则中决定这些控制参数时所需的信息(例如,控制对象过程的时间常数、空耗时间等)既可以基于计测信息而取得,也可以预先存储于最优控制装置2。

另一方面,参数决定部26将从梯度推定部25输出的梯度推定值应用于式(22)来决定积分增益ki0。参数决定部26将这样决定的控制参数的值输出至极值控制部27。

接着,极值控制部27使用由参数决定部26决定的各控制参数,开始控制对象过程的极值控制(步骤s105)。在此,在由参数决定部26决定了控制参数之后,在规定的定时,将控制对象过程的控制方法切换为极值控制。该定时可以是预先确定的定时,也可以是基于用户的操作的任意定时。

极值控制部27开始了极值控制后,最优控制装置2反复执行与步骤s101、s102以及s103同样的处理(步骤s106、s107以及s108),并且通过与步骤s104同样的方法取得积分增益的值(步骤s109)。然后,参数决定部26利用所取得的积分增益的值来更新当前的积分增益的值(步骤s110)。

这样构成的第一实施方式的最优控制装置2,具有基于所取得的计测信息来推定评价函数的梯度,并且基于所取得的梯度推定值来适应性地决定积分增益的功能。根据这样的最优控制装置2,能够根据控制对象过程的状态适应性地更新与极值控制的稳定性有较大关系的积分增益,因此能够适应于控制对象过程的动态而使极值控制更稳定地动作。

根据这样能够调整控制参数的最优控制装置2,能够实现例如将图7的水处理设备中的污泥的返送量作为操作量,一边适应于水处理工序的动态一边使总成本最小化的极值控制。

(第二实施方式)

图9是表示第二实施方式中的最优控制装置2a的功能构成的具体例的框图。最优控制装置2a与第一实施方式中的最优控制装置2的不同点在于:代替梯度推定部25而具备梯度推定部25a这一点、代替参数决定部26而具备参数决定部26a这一点、还具备操作量变换部28这一点上。最优控制装置2a的其他构成与第一实施方式中的最优控制装置2相同。因此,在此,对它们的同样的构成标注与图3相同的附图标记并省略说明。

梯度推定部25a在基于所取得的评价量来推定评价函数的梯度这一点上与第一实施方式中的梯度推定部25相同,但与梯度推定部25的不同点在于,作为评价函数的梯度推定一阶微分值而不是推定二阶微分值这一点上、将所取得的梯度推定值输出至操作量变换部28而不是参数决定部26a这一点上。

参数决定部26a在决定低通滤波器的频率、高通滤波器的频率、高频振动信号的频率、高频振动信号的振幅以及积分增益这五个控制参数这一点上,与第一实施方式中的参数决定部26相同,但在积分增益的决定中不使用评价函数的梯度推定值这一点上与参数决定部26不同。

操作量变换部28基于从梯度推定部25a输出的评价函数的梯度推定值来变换从极值控制部27输出的操作量。操作量变换部28将变换后的操作量输出至操作量输出部22。具体而言,操作量变换部28通过以下那样的方法来变换操作量。

首先,若将从极值控制部27输出的操作量设为u,则将u设为输入(操作量)的情况下的极值控制的平均系统由上述的式(16)表示。以下,作为式(23)再次揭示式(16)。

[式23]

在式(23)中,评价函数的梯度dj(u+u*)一般为与u相关的非线性函数,因此无法用时间常数的概念来表现式(23)的收敛速度。因此,在第一实施方式中,首先,在假定评价函数j(u)由二次函数表示的基础上定义时间常数的概念,以所定义的时间常数成为所希望的值的方式决定积分增益ki0。然而,实际上,由于评价函数j(u)不是二次函数,因此以使其二阶微分值成为恒定的方式适应性地调整积分增益ki0。

与此相对,在本实施方式中,通过以由式(23)表示的平均系统成为线性系统的方式对输入变量u进行变量变换来定义时间常数。即,进行以下的式(24)所示的变量变换,以使得与变换后的变量v有关的平均系统成为线性系统。通过该变量变换,与变量v有关的平均系统如以下的式(25)那样被变换。

[式24]

v=h(u)(24)

[式25]

在此,将式(23)变换为式(25)的函数v=h(u)需要满足以下的式(26)所示的偏微分方程式。

[式26]

满足该条件的变换函数h存在多个,但如果评价函数的一阶微分值dj(u)是已知的,则无论为怎样的微分方程式都能够至少近似地求解。例如,能够将式(26)近似为如以下的式(27)。

[式27]

若使用这样近似的式(27),则例如若能够对初始值的操作量u0赋予适当的变换v0=h(u0),则能够根据基于极值控制的操作量的变化来更新h(u)。操作量变换部28能够通过将由梯度推定部25a取得的梯度推定值(一阶微分值)应用于式(27)来变换操作量。

另外,关于变量v的初始值v0,在dj(u)能够用u的一次函数近似的情况下,通过利用以下的式(28)进行变换,能够近似地使式(22)成立。

[式28]

另外,式(25)相当于在式(20)所示的平均系统中将评价函数的二阶微分值g设为g=1。因此,积分增益只要将式(22)的g设为g=1来计算即可。

图10是表示由第二实施方式的最优控制装置2a实现的极值控制系统1a的构成例的框图。极值控制系统1a与图2所示的基本构成的极值控制系统9的不同点在于,由梯度推定部25a取得的评价函数的梯度推定值(一阶微分值)(图中的()n)适应性地作用于对控制对象过程tp赋予的操作量。具体而言,操作量变换部28(未图示)基于梯度推定值变换后的操作量被提供给控制对象过程tp。由此,最优控制装置2a与第一实施方式的最优控制装置2同样地,能够适应于控制对象过程的动态而使极值控制更稳定地动作。

并且,在第二实施方式中,只要取得评价函数的一阶微分值作为梯度推定值即可,因此与取得二阶微分值的第一实施方式相比,能够使极值控制的处理变得简单。具体而言,在图4所示那样的使用了滤波器的梯度的推定中,能够减少滤波器的级数,因此能够以比第一实施方式更简单的电路构成实现梯度推定部25。另外,这意味着能够以更小的维度实现滤波后段的g(t)。

另外,另一方面,在第二实施方式中,为了适当地设定对操作量进行变换时的初始值,有可能花费少量的功夫。因此,使用哪种实施方式根据应用的对象的过程的特性、制约事项等来选择即可。

(第三实施方式)

图11是表示第三实施方式中的最优控制装置2b的功能构成的具体例的框图。最优控制装置2b与第一实施方式中的最优控制装置2不同点在于:代替评价量计算部24而具备评价量计算部24b这一点、代替梯度推定部25而具备梯度推定部25b这一点、代替参数决定部26而具备参数决定部26b这一点、还具备评价量变换部29这一点上。最优控制装置2b的其他构成与第一实施方式中的最优控制装置2相同。因此,在此,对它们的同样的构成标注与图3相同的附图标记并省略说明。

评价量计算部24b在就从计测信息取得部23输出的控制量来计算用于极值控制的评价量这一点上与第一实施方式中的评价量计算部24b相同,但在将计算出的评价量输出至梯度推定部25b和评价量变换部29这一点上与评价量计算部24不同。

梯度推定部25b在基于取得的评价量来推定评价函数的梯度这一点上与第一实施方式中的梯度推定部25相同,但在将取得的梯度推定值不输出至参数决定部26b而是输出至评价量变换部29这一点上与梯度推定部25不同。

评价量变换部29基于从梯度推定部25b输出的评价函数的梯度推定值,对从评价量计算部24b输出的评价量进行变换。评价量变换部29将变换后的评价量输出至极值控制部27。具体而言,评价量变换部29通过以下那样的方法变换评价量。

图12是表示第三实施方式中的n阶微分值的推定方法的一例的图。首先,针对评价量变换部29,预先决定用于变换评价量的变换函数。在此,为了简化,通过对评价函数j进行乘方变换,由此将变换后的评价函数j局部地用二次函数来近似。在此,将变换后的评价函数设为jm,将变换中使用的幂数(以下称为“幂参数”)设为n时,jm能够表示为jm=t(j)=jn。该幂参数n可以如下推定。

在变换为jm=jn的情况下,与操作量u有关的j的梯度也以相同的变换函数进行变换,因此成为d2jm=(d2j)n。此时,如果以使d2jm成为恒定值的方式决定幂参数n,则变换后的评价函数的二阶微分值成为恒定值,所以变换后的评价量能够视为用二次函数近似。因此,评价量变换单元29通过计算出基于所输入的评价量所取得的评价函数的二阶微分值成为预先确定的常数c=1的幂数,由此推定幂次参数n。图12是表示这样的评价量变换部29的构成的概念图。

具体而言,评价量变换部29具备推定器291及变换部292。推定器291将常数c=1作为评价函数的二阶微分值的目标值,搜索满足变换函数d2jm=(d2j)n的幂数n,并将搜索结果作为最终的幂参数的值输出至变换部292。变换部292将由推定器291推定出的幂参数n应用于评价量的变换函数来变换评价量j。变换部292将变换后的评价量jm输出至极值控制部27。

例如,在通过最速下降法那样的方法来推定幂参数的推定的情况下,能够使用积分器来构成推定器291。另外,推定器291也可以使用如下pid控制器来构成,该pid控制器将幂参数n视为虚拟的操作量,并将作为目标值的常数c=1和二阶微分值d2jm=(d2j)n的误差设为零。

此外,在此,对由梯度推定部25b推定二阶微分值的情况进行了说明,但也可以构成为在梯度推定部25b推定一阶微分值的情况下,评价量变换部29以使该梯度推定值与操作量成比例的方式变换评价量。

但是,在将推定器291的目标值设为常数c=1的情况下,在图5所示的调整规则中将评价函数的梯度g(二阶微分值)假定为g=1来决定积分增益。如果将推定器291的目标值设为常数c=g,则使用常数c的值来决定积分增益。

返回到图11的说明。参数决定部26b在决定低通滤波器的频率、高通滤波器的频率、高频振动信号的频率、高频振动信号的振幅以及积分增益这五个控制参数这一点上,与第一实施方式中的参数决定部26相同,但在积分增益的决定中不使用评价函数的梯度推定值这一点上与参数决定部26不同。

图13是表示由第三实施方式的最优控制装置2b实现的极值控制系统1b的构成例的框图。极值控制系统1b与图2所示的基本构成的极值控制系统9的不同点在于,由梯度推定部25b取得的评价函数的梯度推定值(一阶微分值或二阶微分值)适应性地作用于基于控制对象过程tp的控制量取得的评价量。具体而言,评价量变换部29(未图示)基于梯度推定值变换后的评价量被输入极值控制系统1b。由此,最优控制装置2b与第一实施方式的最优控制装置2同样地,能够适应于控制对象过程的动态而使极值控制更稳定地动作。

图14a、图14b是表示由第一~第三实施方式的最优控制装置得到的效果的具体例的图。图14a表示假定为实际上未知的评价函数的形状为二次函数、三次函数以及0.5次函数,并对基于按照以往的调整规则调整后的控制参数的极值控制进行模拟后的结果。另外,图14b表示在该假定下,对基于通过本实施方式的调整方法调整后的控制参数的极值控制进行模拟后的结果。具体而言,在图14a的模拟中,基于专利文献1所记载的调整规则来调整控制参数。观察图14a可知,在以往的调整方法中,在评价函数的形状为二次函数、三次函数的情况下极值搜索成功,但在评价函数的形状为0.5次函数的情况下,搜索性能显著劣化。另一方面,在本实施方式的调整方法中,观察图14b可知,与评价函数的形状无关,极值的搜索成功。

在实际的极值控制中,无法预先知道想要最优化的评价函数的形状。因此,在以往的控制参数的调整方法中,极值(局部的最优值)的搜索性能依赖于评价函数的形状而变化,在最差的情况下控制有可能变得不稳定。

与此相对,根据本实施方式中的控制参数的调整方法,无论评价函数的形状是怎样的形状,都能够始终稳定地搜索极值。

(变形例)

第一实施方式的最优控制装置2,也可以具备显示控制部(未图示),该显示控制部(未图示)生成用于将表示由梯度推定部25推定出的评价函数的梯度的梯度信息、和表示由极值控制部27决定的操作量的操作量信息建立对应地显示于crt(cathoderaytube:阴极射线管)显示器、液晶显示器、有机el(electro-luminescence:电致发光)显示器28a等显示装置的信息(以下称为“显示信息”)。图15a、图15b是表示在变形例的最优控制装置2中由显示信息显示的画面的具体例的图。显示信息既可以如图15a所示,相对于时间轴以不同的序列表示各值,也可以以一个序列表示各值。另外,显示信息也可以如图15b所示,以将一方或双方的值置换为相关的其他值的形式显示各值。图15b是将梯度信息置换为表示评价量的信息的例子。另外,如图15a、图15b所示,显示信息也可以包括表示当前的动作点、当前时刻等的信息。

此外,在该情况下,最优控制装置2可以具备用于使显示信息显示的显示装置,也可以具备将这些显示装置与本装置连接的接口。另外,最优控制装置2也可以具备用于将显示信息向其他装置发送的通信接口。另外,显示控制部也可以与第一实施方式的最优控制装置2同样地,设置于第二或者第三实施方式中的最优控制装置2a或者2b。另外,在第二实施方式中,所显示的操作量既可以是由极值控制部27决定的操作量,也可以是由操作量变换部28变换后的操作量。

根据以上说明的至少一个实施方式,具有:梯度推定部,基于关于控制对象过程而观测到的评价量,推定表示评价函数的变化率的梯度,该评价函数是表示相对于操作量的评价量的未知的评价函数;以及校正部,基于由梯度推定部取得的梯度的推定值,与评价函数的变化相适应地对极值控制的执行所需的控制参数、操作量或者评价量进行校正,从而能够适应于控制对象过程的动态而使极值控制更稳定地动作。

此外,在第一实施方式中,基于梯度推定值来适应性地更新推定器14的积分增益的参数决定部26是上述校正部的一例。另外,在第二实施方式中,基于梯度推定值适应性地变换操作量的操作量变换部28是上述校正部的一例。另外,在第三实施方式中,基于梯度推定值适应性地变换评价量的评价量变换部29是上述校正部的一例。

以上,对本发明的几个实施方式进行了说明,但这些实施方式是作为例子进行的,并不意图限定发明的范围。这些新的实施方式能够以其他各种方式实施,在不脱离发明的主旨的范围内,能够进行各种省略、置换、变更。这些实施方式及其变形包括在发明的范围及主旨中,并且包括在权利要求书所记载的发明及其等同的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1