使用分级模型的推理系统及方法和控制系统及方法

文档序号:6277295阅读:207来源:国知局
专利名称:使用分级模型的推理系统及方法和控制系统及方法
技术领域
本发明涉及人类使用操作或控制对象时得到的经历数据形成模型特别是形成具有由相互连锁的目标、策略和动作构成的经历结构的模型的推理系统及方法和使用形成的模型自动地操作或控制对象的系统及方法。
本发明的系统和方法对于工厂的自动化特别是制造设备和传输设备的实时动态的控制操作是非常有用的。
工厂自动化的目的在于为了处理传感器的信号及控制传动机构,通过开发电-机装置及计算机算法语言而提高生产效率。很多装置和算法语言已将人们从无聊的、激烈的、重复性多的并且危险的工作中解放了出来。尽管如此,在制造业和其他产业领域,有些希望实现自动化的工作依然需要人来作。为了提高生产效率、降低成本、减少浪费、提高产品质量、改善劳动的安全性和减少培训所需要的费用,应该进一步推进自动化。
在竞争的社会,人们谋求更有效的生产质量更高的产品的更高明的工厂的自动化手段。这种手段之一,就是形成人的操作的自动化模型的装置。
在关系人的知识的人工智能(AI)领域,关于如何构筑该模型的模型化有很多逼近方法。
最一般的逼近方法,就是专家系统。它是将通过访问而收集的专家的知识用一群规则表现。一群规则由逻辑推理机构进行处理,并据此生成说明、预测或暗示。逻辑推理机制具有包括模糊逻辑的各种方法。通常,规则用概念或状况的程度表示知识。
数据指向性最强的逼近方法是称为事件库推理(case-basedreasoning)的逼近方法。它就是存储事件并进行比较的学习战略。即,通过与存储在存储器内的先前的同样的状况进行比较和对比来解决新的状况。这就是认识新的状况,进行新的推理,当不能进行推理时,就发出询问。通常,事件用操作程度表示知识。
本发明提供扩展到规则库逼近(rule-based approach)和事件库逼近两方面的新的逼近方法。
在本发明中,为了将人对对象的操作或控制模式化并根据该模式利用机械再现人的操作或控制,根据下面的行动原则进行。
“动作中存在某些策略,策略中存在某些目标。”在本发明中,以人的实际的操作或控制的记录为信息源。通过从该记录抽出策略,从策略导出目标,构筑由目标、策略和动作构成的等级结构的模式。
本发明的推理方法若最抽象地进行规定,则为如下所述。
本发明的推理方法是取入由通过操作或控制对象而得到的输入输出变量值的组构成的一连串的动作数据,着眼于取入的上述动作数据中的输入变量值,对每个输入变量作成以上述操作或控制为目标的目标,着眼于取入的上述动作数据中的输出变量值,作成为了达到上述目标的策略,将上述目标与尚未达到该目标的策略连锁,将上述策略与实现该策略的动作数据连锁,借此形成由相互连锁的目标、策略和动作构成的等级结构的模型。
先有的事件库推理,是限于经验的水平即动作情况的推理,没有超过该经验的发展性。当出现过去没有经验过的情况时,就不能获得适当的解。
按照本发明,根据实际的动作取样作成目标,然后作成为了达到该目标的策略。并且,将目标、策略和动作相互连结。因此,为了进行操作及控制,按照概念的程度确定方向性(目标),向着该目标按照与该目标连锁的策略进行与状况对应的意志决定。最后,根据与策略连锁的动作情况进行具体的意志决定(输出值的决定)。
在包括模糊规则的规则库推理中,为了作成规则,需要访问专家,进行将其知识规则化的作业。按照本发明,可以根据过去的操作记录自动地作成目标和策略。
若具体地规定本发明的推理方法,则如下所述。
本发明的推理方法是取入由通过操作或控制对象而得到的输入输出变量值的组构成的一连串的动作数据,着眼于取入的上述动作取样中的输入变量值,对每个输入变量作成使用输入变量值的最初的值、最后的值、最大值和最小值规定的目标路线,着眼于取入的上述动作取样中的输出变量值,抽出输出变量值保持同一性的输入变量的范围,对于各范围作成将输入变量的范围与输出变量值连结的策略路线,将具有不满足上述目标路线的条件的输入变量范围的策略路线与该编码路线连锁,将具有进入上述策略路线的输入变量范围的输入变量值的动作路线与该策略路线连锁,借此形成由相互连锁的目标路线、策略路线和动作路线构成的等级结构的模型在极佳的实施例中,取入的上述动作取样变换为指定位的二进制数据。
在其他极佳的实施例中,作成目标路线的上述步骤由作成临时的目标路线的步骤、输出作成的目标路线的步骤和将接收用户评价后的目标路线作为最终的目标路线的步骤构成。
上述用户的评价包括对目标路线的追加、删除和变更。
作成策略路线的上述步骤更具体地说是由当顺序比较按时间顺序排列的输出变量值的相邻的值,有变化时,由存储前后的输出变量值作成策略取样的步骤、参照上述动作取样将上述策略取样变换为具有do…when…until…min…max的形式的策略路线的步骤、和使变换后的上述策略路线最优化的步骤构成。
使上述策略路线最优化的步骤的一个例子,就是减少具有相同输出变量值的2个以上的策略路线的数。
策略路线与目标路线的连锁,具体地说,在存储器中是利用设在各策略路线中的指向目标路线的指针和设在各目标路线中的指向策略路线的指针实现的。
动作路线与策略路线的连锁,具体地说,在存储器中是利用设在各动作路线中的指向策略路线的指针和设在各策略路线中的指向动作路线的指针实现的。
动作路线是通过将由完全相同的输入、输出变量值的组构成的动作取样留下1个将其他删除而作成的。
这样作成的模型通过将上述一系列的动作取样作为输入输出数据进行验证。
即,通过按时间顺序逐一取入上述动作取样,搜寻具有取入的动作取样的输入变量值不满足的条件的目标路线,将与搜寻出的目标路线连锁的策略路线列表,从上述列表的策略路线中搜寻具有上述取入的输入变量值满足的条件的策略路线,将与搜寻出的策略路线连锁的动作路线列表,在上述列表的动作路线中输出具有和上述取入的输入变量值一致或最接近的输入变量值的动作路线的输出变量值,进行该验证。用户通过比较该输出值和动作取样的输出变量值,验证上述模型。
另外,本发明还提供使用按上述推理方法作成的模型操作或控制对象的方法。
该方法顺序取入从对象得到的输入数据,搜寻具有取入的输入数据不满足的条件的目标路线,将与搜寻出的目标路线连锁的策略路线列表,从上述列表的策略路线中搜寻具有上述取入的输入数据满足的条件的策略路线,将与搜寻出的策略路线连锁的动作路线列表,在上述列表的动作路线中输出具有与上述取入的输入数据一致的或最接近的输入变量值的动作路线的输出变量值,每次取入输入数据都反复进行上述处理。
本发明还提供执行上述推理方法和控制方法的系统。
本发明的推理系统具有取入并存储由通过操作或控制对象而得到的输入输出变量值的组构成的一系列的动作取样的存储装置、着眼于取入的上述动作取样中的输入变量值对每个输入变量作成使用输入变量值的最初的值、最后的值、最大值和最小值规定的目标路线的作成装置、着眼于取入,的上述动作取样中的输出变量值抽出输出变量值具有同一性的输入变量的范围并对各范围作成将输入变量的范围与输出变量值连结的策略路线的作成装置、将具有不满足上述目标路线的条件的输入变量范围的策略路线与该目标路线连锁的连锁装置和将具有进入上述策略路线的输入变量范围的输入变量值的动作路线于该策略路线连锁的连锁装置,借此形成由相互连锁的目标路线、策略路线和动作路线构成的等级结构的模型。
使用由上述推理系统作成的模型操作或控制对象的系统具有顺序取入从对象得到的输入数据的输入装置、搜寻具有取入的输入数据不满足的条件的目标路线并在存储器中将与搜寻出的目标路线连锁的策略路线列表的列表装置、从上述列表的策略路线中搜寻具有上述取入的输入数据满足的条件的策略路线并将与搜寻出的策略路线连锁的动作路线在存储器中列表的列表装置、在上述列表的动作路线中输出具有与上述取入的输入数据一致或最接近的输入变量值的动作路线的输出变量值的输出装置和每次取入输入数据时反复进行上述处理的控制装置。
本发明的其他特征和优点,通过参照


实施例便可清楚。
图1是在模型形成模式中包括控制对象的整个系统的结构的框图。
图2是在问题解决模式中包括控制对象的整个系统的结构的框图。
图3是表示使用等级结构模型的本发明的系统的结构例的框图。
图4是表示作为控制对象例的升降机控制系统的斜视图。
图5是振动角检测用的其他结构例。
图6是表示进行升降机控制的模拟的系统的框图。
图7是表示模拟的变量。
图8a和图8b是表示模型形成模式的处理顺序的流程图。
图9是表示在升降机控制的模拟中得到的输入、输出数据的一个例子。
图10是表示通过将图9所示的输入、输出数据进行二进制编码而得到的二进制字符串。
图11是表示在升降机控制的模拟数据中按每个输入变量作成的目标路线作成用的列表的例子。
图12是表示升降机控制的目标路线的例子。
图13是升降机控制的策略取样的例子。
图14~图16是用于说明向策略取样的策略路线变换的简单的例子,图14是动作取样的例子,图15是策略取样的例子,图16是动作取样的曲线图。
图17是升降机控制的动作取样的曲线图。
图18a和图18b是表示升降机控制的策略路线的例子。
图19是图18a和图18b的策略路线的二进制字符串。
图20是表示各目标路线向策略路线的连锁。
图21是表示各策略路线向目标路线和动作路线的连锁。
图22是表示各动作路线向策略路线的连锁。
图23是表示由目标、策略和动作构成的等级结构。
图24是表示问题解决模式的处理顺序的流程图。
图25是表示问题解决模式的输入、输出数据的例子。
实施本发明的最佳的实施例(1)系统的2个模式使用等级结构模型的本发明的系统具有2个模式。其一是模型形成模式,其二是问题解决模式。
在模型形成模式中,输入人(操作者)实际操作控制对象(被控制系统)时得到的数据(操作量和控制量),形成后面所述的具有等级结构的模型。
在问题解决模式中,按照已形成的模型对控制对象现实地进行控制。
图1是模型形成模式中包括控制对象的整个系统的结构。本发明的系统以模型形成模式(或学习系统)进行体现。
控制对象(被控制系统)10的控制量通常由传感器11,12,…,1k进行检测。检测的控制量(输入数据x1,x2,…,xk)输入操作装置20。操作者观察着控制对象的状况,根据需要观察着显示的控制量(例如确认仪表的指针的位置)进行操作使控制对象成为所希望的状态。从操作装置20输出的操作量y(输出数据)(不限于1种)输入调节器21,由调节器21实际驱动或运转控制对象10。有时控制量x1,x2,…,xk的全部或一部分也不输入操作装置20。控制量也可以是从控制对象10得到的逻辑值(或计算值或估算值)。
由传感器11~1k检测的控制量x1~xk和从操作装置20输出的操作量y输入模型形成系统1A。调节器21的输出或其测量值也可以作为操作量输入模型形成系统1A。模型形成系统1A使用这些输入数据x1~xk和输出数据y作成关于控制(或操作)的模型。
图2是问题解决模式中包括控制对象的整个系统的结构。本发明的系统以自动控制系统(自动操作系统)1B进行体现。
自动控制系统1B取入由传感器11~1k检测的控制对象10的控制量x1~xk,按照前面作成的模型计算应输入控制对象10的操作量y。操作量y输入驱动控制对象10的调节器21(另外,控制调节器21以使调节器21的输出成为计算的值)。这样,控制对象10便和操作者使用操作装置20控制(操作)控制对象20一样,由自动控制系统1B进行控制(操作)。(2)系统结构和应用例图3是根据模式使用作为模型形成系统或自动控制系统而体现的本发明的等级结构模型的系统的结构例子。
本系统基本上利用计算机30实现。计算机30不论是所谓的个人计算机还是大型、小型或其他通用计算机都可以使用。
在计算机30中设有存储用于执行模型形成模式和问题解决模式的处理的程序的存储器31和存储在这些处理中生成的或使用的数据(包括表示模型的数据)的存储器32。这些存储器31和32利用ROM、RAM、硬盘、软盘、光盘等实现。既可以存储器31和32都利用硬盘实现,也可以存储器31利用ROM和硬盘或软盘实现,而存储器32利用RAM和硬盘实现。这里,存储器31和32是根据存储的数据的种类而分类的概念。
另外,输入装置33和作为输出装置的显示装置34及打印机35与计算机30连接。输入装置33包括键盘和鼠标器。也可以将显示菜单画面的显示装置34视为输入装置33的一部分。作为输出装置,只要有显示装置34和打印机35中的至少任意一种(最好是显示装置34)就可以。
此外,将由传感器11~1k检测的控制对象10的控制量(通常为模拟量)变换为数字数据的A/D变换器36、在模型形成模式中将从操作装置20输出的操作量(为模拟量时)变换为数字数据的A/D变换器37和在问题解决模式中根据需要将计算的输入调节器21的操作量(通常为数字量)变换为模拟量的D/A变换器38与计算机30连接。这些A/D变换器和D/A变换器也可以内装在计算机内使用。另外,如果不需要这些A/D变换器和D/A变换器,就可以不必设置。例如,当调节器是可以接收数字量的调节器时,就不需要D/A变换器38。
在计算机30中,根据需要还可以设置用于控制量及操作量的输入和操作量的输出的接口(如后面所述的微分电路等)。
图4是作为控制对象的例子的升降机控制系统。为了简单起见,该升降机系统是只包含1条轨道的升降机。
1条轨道50水平地架设在适当高度的位置。架空平台(台车)40通过滑轮41支持在该轨道50上,可以自由移动。滑轮41由运行电机42直接或通过减速器进行转动驱动。
另外,在架空平台40上设置提升机。该提升机包括滑轮44、驱动滑轮44的提升电机46和绕在滑轮44上的钢丝绳47。滑轮44固定在转轴45上,转轴45架设到固定在架空平台40上的轴承架43上,可以自由转动,该转轴45由电机46直接或通过减速器进行转动驱动。挂钩48安装在钢丝绳47的下端,重物49挂在该挂钩48上。
假定进行如下升降控制。即,通过使架空平台40从轨道50上的一点A运行到另一点B搬运重物49。这时,为了尽可能减小钢丝绳47的振动角(在架空平台移动方向的振动角)(将其限制在指定的角度以内,称此角度为最大容许振动角度)进行架空平台40的运行控制。
作为控制量,可以采用架空平台40的位置、振动角度和振动角度的微分值。
架空平台40的位置,取以出发点A为原点指向终点B的方向为正方向。该位置由设在电机42的转轴或滑轮41的轴上的转动传感器(图中未示出)进行检测。从转动传感器输出的脉冲串(或表示位置的数字数据)输入计算机(不需要A/D变换器36)。根据需要,可以设置检测架空平台40位于出发点A的原点检测器。
钢丝绳47的振动角由安装在架空平台40上的并且用于对钢丝绳47进行摄像而配置的电视摄像机51和对该摄像机51的图像信号进行图像处理的处理装置进行检测。图像处理装置可以利用计算机30的一部分实现。这时,摄像机51的图像信号通过A/D变换器36输入计算机30。用于对线状物体的垂线的角度检测的图像处理,可以利用众所周知的方法进行。
振动角的微分值,可以利用计算机30进行运算。
如图5所示,使用旋转吊杆47A取代钢丝绳47起吊重物时,可以更简单地检测振动角。旋转吊杆47A的上端固定在转轴45上。转轴45支持在轴承架43上,可以自由转动。旋转吊杆47A的下端为挂钩48。转轴45的转动角由角度传感器52检测。当角度传感器52的输出信号为模拟量时,由A/D变换器36变换为数字量后输入计算机30。另外,角度传感器52的输出信号由微分电路进行微分,该微分信号通过A/D变换器36作为振动角的微分值输入计算机30。当然,微分处理也可以利用计算机30进行。当角度传感器52的输出为数字量时,就直接输入计算机30。
操作量是架空平台40的移动速度。移动速度也可以作为加到运行电机42上的电压或电流进行表现。
本发明的系统也可以应用于没有检测控制量的传感器及输入操作量的调节器的控制对象,例如股票的预测系统。这时,输入数据是当天的股票价格(对于各品种的)、当天的平均股票价格等,从键盘、通信装置、软盘驱动器等输入。输出数据是卖出决定、买入决定及其数量。这些数值从显示装置及打印机输出。
作为其他例子,就是店铺的销售预测系统。输入数据是星期、气候、库存量等,从键盘、通信装置、软盘驱动器等输入。输出数据是预测销售额、采购量等,从显示装置及打印机输出。
下面,以上述升降机控制系统为例详细说明模型形成模式和问题解决模式。在模型形成模式中使用的实际的运转数据是根据模拟得到的数据。模拟系统的例子示于图6。该系统由计算机30、程序存储器31、数据存储器32、输入装置33、显示装置34和打印机35构成。在该系统中,也可以进行问题解决模式的处理。可以说图6是利用本发明的系统的最小限度的结构(当然,作为输出装置,只要有显示装置和打印机中的任意一种就可以了)。
在模拟中,求架空平台的位置x和转动角度θ使用的计算公式为(参见图7)d2xdt2=(m2m1)·g·θ+Fm1+(m2m1)·e·(dθdt)2·θ]]>d2θdt2=-(m1+m2m1e)·e·θFm2m1em1·(dθdt)2·θ]]>其中,m1为架空平台的质量m2为重物的质量l为钢丝绳的长度g为重力加速度F为电机的推进力,可以由下式求出。
F=K1ω1+K2ω2+K3V其中,ω1=Vd-Vω2=∫t0ω1(τ)dτ]]>式中,K1、K2、K3是常数。
V1是电机速度,Vd是电机的目标速度,在模拟中是由操作者给定的操作量。即,Vd取如下数值。Vd=(-40(m/min),0,40(m/min))(3)模型形成模式的处理本项和下面的((4)问题解决模式的处理)主要利用计算机30执行。因此,只要未特别声明,下面所述的具体的处理都是指利用计算机30进行的处理。
模型具有由目标(目的或目标)、策略(战略)和动作(执行,行动)3个层次构成的等级结构。该结构基于如下原理。
“在所有的动作中,存在与其关联的至少1个策略,在所有的策略中,存在与其关联的至少1个目标。”下面,参照图8a和图8b说明模型形成模式的具体的处理顺序。
在S101,操作者使用操作装置20实际操作(运转)控制对象10。这时,按一定时间间隔对从传感器11~1k得到的控制量(输入数据)和供给调节器21的操作量(输出数据)进行采样,并输入计算机30。这些输入、输出数据作为教师数据存储到数据存储器32内。输入、输出数据是实际的操作记录。
图9是在上述升降机控制系统的模拟中得到的输入、输出数据的一个例子。
输入、输出数据每0.3秒采样一次。如上所述,升降机按前进、后退和停止3种操作进行运转。前进时,设定操作输出(架空平台的移动速度输出数据)u=+40(m/min),后退时,设定u=-40(m/min),停止时,设定u=0(m/min)。输入数据是架空平台的位置x(m)、钢丝绳的振动角θ(rad)和振动角的变化率(微分值)dθ(rad/sec)(以下,将dθ/dt表为dθ)。
在图9中,用T1表示的时间带是架空平台的起动时间,调整操作输出u使振动角θ限制在尽可能小的范围内。在T2表示的时间带,架空平台以恒定速度运转。在T3表示的时间带,调整操作输出u以使架空平台恰好在目的地点B停止。时间带T4是架空平台基本上到达地点B而重物的振动角θ逐渐减小的过程。
在S102,将输入输出数据2值化,变换为形成二进制字符串。将干二进制字符串称为动作取样。
图9所示的输入输出数据的二进制字符串示于图10。输入数据x、θ、dθ和输出数据u分别由8位构成。
在编码处理中,不论哪个输入、输出变量,其最小值都变换为00000000,最大值都变换为11111111。位置x的最小值为-1(m),最大值为22(m)。振动角θ的最小值为-0.1(rad),最大值为+0.1(rad)。其微分值dθ的最小值为-0.1(rad/sec),最大值为+0.1(rad/sec)。移动速度u的最小值为-40(m/min),最大值为+40(m/min)。为了容易理解图10,位置x=0(m)、振动角θ=0(rad)、振动角的微分值dθ=0(rad/sec)和移动速度u=0(m/min)分别预先用二进制值00001011,10000000,10000000,10000000表示。
用高级语言编写模型形成模式的处理程序时,二进制编码特别有意义。采用二进制编码的第1个理由在于,容易改变动作取样的分辨率。例如,通过舍弃16位的数据的低8位,可以获得8位数据。第2个理由在于,最优化算法语言之一即遗传算法语言的最佳的表现方法就是二进制字符串。
在S103-1,首先,对每个输入变量抽出最初的(初始)动作取样和最终的(终点)动作取样,通过求它们的差进行比较。另外,对每个输入变量计算最大值和最小值。
在图9所示的例子中,时间t=0.00的动作取样是最初的动作取样(值),时间t=29.10的动作取样是最终的动作取样(值)。对它们都加上虚线的长方形框。另外,输入变量θ、dθ的最大值和最小值都加上实线的长方形框。输入变量x的最大值和最小值是加虚线的长方形框的最终值和最初值。
在S103-2,作成在S103-1得到的结果的列表。当然,在数据存储器32中也作成该列表。
对图9所示的例子得到的列表示于图11。
在S103-3,如果(最大值)-(最小值)=0,则不计该输入变量,将该输入变量掩蔽。
最大值和最小值相等的输入变量,在控制对象的操作中是完全不变化的,对操作及控制也没有任何影响。
在S103-4,当最初值与最终值之差不为0时,对于该输入变量,目标条件表为如下形式目标jxi“最终状态”的值=(最终值)目标j+ixi“过渡状态”宽度=[最小值,最大值]在控制对象的实际操作中,对于输入变量,最初值和最终值不同就意味着该操作一定要使输入变量xi从(最初值)变化为(最终值)。并且,可以断定一定是使这时的输入变量xi的变化幅度限制在(最小值)与(最大值)之间。因此,对于输入变量xi的目标(控制目的)就是使输入变量xi的值从(最初值)出发最后成为(最终值),这时,将xi的变化幅度限制在(最小值)与(最大值)之间。
在图11所示的例子中,输入变量x的最初值和最终值不同。因此,对于输入变量x,临时设定如下目标条件。
目标1x“最终状态”的值=9.467目标2x“过渡状态”宽度=
在S103-5,当最初值与最终值之差为0时,对于该输入变量,目标条件表为如下形式目标jxi“过渡状态”宽度=[最小值,最大值]对于某一输入变量,当其最初值和最终值相同时,不论根据最初值还是最终值都不能导出目标。这时,在操作的过程中宁可将输入变量保持在一定的范围内。这就是上述目标条件的意义。
在图11所示的例子中,不论振动角θ还是其微分值dθ,它们的最初值和最终值都相同(都是0.000)。因此,对于输入变量θ、dθ,临时设定如下目标条件。
目标3θ“过渡状态”宽度=[-0.029,0.027]目标4dθ“过渡状态”宽度=[-0.039,0.042]在S103-6,上述S103-3、103-4和103-5的结果由打印机35进行打印。另外,在显示装置34上进行显示。
在S103-7,上述目标条件按照如下排列编码为二进制字符串。
“目标序号输入变量类型·标志值”对于该排列,在下面的S104的说明中详细说明。
在S104,用户看了利用打印机35打印的或由显示装置34显示的目标的假说(临时设定的上述目标1~4)之后,对它们进行评价,根据需要添加新的目标条件或删除某个目标条件或者修正目标条件。
在升降机的控制系统的例子中,在设定的上述假说(目标1~4)中,目标2作为不需要的目标而删除了。目标2是关于输入变量x(表示位置)的过渡状态宽度的目标,位置x只要从最初值向最终值单调地增加就可以了,所以,关于过渡状态宽度的目标假说是不需要的。这样,目标3和目标4的目标序号便逐一上移1,分别成为目标2和目标3。
经过用户的评价最后得到的目标称为目标路线。在上述例子中,最终得到的3个目标路线与其二进制字符串一起示于图12。
下面,先说明二进制字符串的各项的排列和该二进制数据(参见S103-7)。
开头的目标1、目标2、目标3的1、2、3是“目标路线序号(目标序号)”,用2位表示。
第2项的x、θ、dθ是“输入变量”的种类,它们都用2位表示。x为00,θ为01,dθ为10。
第3项的“类型·标志”是表示“最终状态”的值或“过渡状态”的宽度。该类型·标志为2位,“最终状态”的值用01表示,“过渡状态”的宽度用10表示。
最后一项的“值”随类型·标志而不同。类型·标志为01时,“值”为“最终值”(用8位表示)。由于“最终值”只有1个,所以,该8位数据反复2次。类型·标志为10时,“值”为按最小值,最大值(都用8位表示)的顺序排列的16位数据(参见图9、图10、图11)。
在S105,对于输出变量,通过比较动作取样抽出策略。
具体地说,就是先将输出变量的最初值和最终值存储到数据存储器32内。然后,将时刻t的输出数据(动作取样)与其后的时刻t+1的输出数据进行比较。如果这两个输出数据不同,就存储时刻t的输出数据和时刻t+1的输出数据。这一处理从t=0进行到t=最终时刻,将t的值逐次增加1反复进行。将这样存储到存储器中的数据称为“策略取样”。
下面,使用升降机控制系统的动作取样具体地说明。参照图10所示的二进制字符串。
图13是最后得到的策略取样。这里,为了便于参照,也示出了时刻和动作取样序号。
存储输出变量的最初值10000000(时刻t=0.00,取样序号=1)和最终值10000000(时刻t=29.10,取样序号=98)。
由于时刻t=0.00的输出变量值10000000与时刻t=0.30的输出变量值11111111不同,所以,存储时刻t=0.30的输出变量值(时刻t=0.00的输出变量值已存储过了)。
将时刻t=0.30的输出变量值11111111与时刻t=0.60的输出变量值10000000进行比较。由于它们相互不同,所以,存储这两个值。
同样,由于时刻t=0.60的值与时刻t=0.90的值不同,时刻t=0.90的值与时刻t=1.20的值不同,以及时刻t=1.20的值与时刻t=1.50的值不同,所以,存储这些值。
从时刻1.50到时刻14.40的值相同。因此,不存储这些时刻的输出变量值。
时刻14.40的值与时刻14.70的值不同,因此,存储这两个时刻的输出变量值。
时刻14.70的值与时刻15.00的值相同,因此,不存储这两个时刻的值。
由于时刻15.00的值与时刻15.30的值不同,时刻15.30的值与时刻15.60的值不同,时刻15.60的值与时刻15.90的值不同,所以,存储这些值。
由于时刻15.90的值与时刻16.20的值相同,所以,不存储这两个值。
由于时刻16.20的值与时刻16.50的值不同,所以,存储这两个值。
由于时刻16.50以后的输出变量值直至最终时刻29.10都相同,所以,不存储这些值。
这样,寻找输出变量变化的位置,将其前后时刻的输出变量值存储到存储器内。
在上述例子中,说明了输出变量只为一种的情况,但是,输出变量的种类为多种时也一样。这时,如果某一种输出变量的值发生变化,在输出变量变化后,就存储该变化前后所有的输出变量的值。
在S106,参照动作取样将这样抽出的策略取样变换为具有如下形式的策略路线。
“do…when…until…min…max…”在do之后,接输出变量(1种或多种)的值。在when之后,接输入变量的值(1个或多个)。在until之后,也接输入变量的值。在min之后,排列各输入变量的最小值,在max之后,排列各输入变量的最大值。
下面,参照图14~图16使用简单的例子进行说明。在这些图中,输入变量为2种,即x1、x2,输出变量为1种,即u。时刻用tp~tp+11表示。
图14是动作取样的简单例子。图15是根据图14的动作取样作成的策略取样。在图14中,着眼于输出变量,当输出变量变化时,通过抽出其前后时刻的输出变量的值,便可得到图15所示的策略取样,如在S105说明的那样。
图16是输入变量空间的动作取样的曲线图。正交的2个轴为输入变量x1和x2。用长方形表示输出变量u保持一定值的范围。
在输入变量种类为3个时形成的3维输入变量空间,用长方体表示输出变量保持一定值的范围。在4维以上的输入空间,用双曲盒(超长方体)表示该范围。在以下的说明中,不论输入变量空间是2维还是3维,对于包括长方形、长方体在内的所有情况,使用称为双曲盒的术语。
在图16中,双曲盒Q是输出变量u为90的范围,双曲盒Q+1是u为100的范围。
规定1个双曲盒的输入、输出变量的集合称为策略路线。以策略路线Q为例,则可表为dou=90 when x1=3.0,x2=20until x1=4.5,x2=45min x1=3.0,x2=10max x1=5.5,x2=45其意义如下“从输入为x1=3,x2=20上到x1=4.5,x2=45时,使输出u为90。但是,对于输入x1,容许范围为从最小值3.0到最大值5.5,对于输入x2,容许范围为从最小值10到最大值45。
双曲盒Q的1个顶点用(x1的最小值,x2的最小值)(该点在图16中表为MIN)表示,与其相对的另一个顶点用(x1的最大值,x2的最大值)(该点在图16中表为MAX)表示。
容易理解,策略路线Q+1可以表为dou=100 when x1=3.5,x2=47until x1=1.0,x2=34min x1=1.0,x2=34max x1=3.5,x2=48对于升降机控制的上述例子,输入空间的动作取样的曲线图示于图17。为了简单起见,示出了以位置x和振动角θ为正交的2个坐标轴的2维输入变量空间(当然,正确地说应是以x、θ、dθ为相互正交的坐标轴的3维输入变量空间)。
参照图13所示的策略取样得到的策略路线示于图18a、图18b和图19。图18a和图18b是用10进制数的数值表示,图19是变换为二进制字符串的情况(参见图10)。
在图18a和图18b中,接在do之后的是输出变量值。另外,在when之后,输入变量值(when项的输入变量值)按输入变量x、θ、dθ的顺序排列。同样,在until、min、max之后,输入变量值(until项、min项和max项的输入变量值)也按x、θ、dθ的顺序排列。
在图19中,2进制代码对各变量值用8位表示。其顺序为when项的x、θ、dθ的输入变量值,until项的x、θ、dθ的输入变量值,min项的x、θ、dθ的输入变量值,max项的x、θ、dθ的输入变量值,并且,最后是do项的输出变量值。
在图17中,策略路线1,2,3,4,7和8不是长方形(双曲盒),用1点表示(该点也可以包含在双曲盒的概念内)。
在S107,在经过上述处理得到的所有的策略路线中,通过不计(删除)不需要的策略路线,使策略路线实现最优化。
首先,看一下是否有具有相同的输出变量值的2个以上的策略路线。当发现了具有相同的输出变量值的2个以上的策略路线时,就根据输入变量值(双曲盒)计算这些路线的远近程度。当远近程度接近时,就留下1个策略路线,删除其他策略路线或者将这些策略路线合而为一。
例如,当2个以上的策略路线的双曲盒完全重合时,就留下其中的1个,将其他删除。
此外,例如计算2个以上的双曲盒的距离,当得到的距离小于指定的阈值时,就将这些策略路线合而为一或者删除掉一方。作为距离,例如着眼于由在when(或until)项记述的输入变量值表示的输入变量空间的点(或MIN点或MAX点),可以使用2个路线的这些点间的距离。
对于尽可能减少策略路线的数量的方法,有很多逼近方法。
在升降机控制系统的例子中,虽然输出变量u的值相等的路线有多个,但是,由那些输入变量值表示的点相当远,所以,所有的策略路线就都需要保留。
在S108,将按上述方式作成的目标路线和策略路线作如下联系(或连接、连锁)。
在S108-1,对于第1个策略路线(参见图18a或图19),将其状态量与各目标路线的目标条件进行比较。所谓状态量,在策略路线中,就是when项的输入变量值(或until项的输入变量值)。
在S108-2,当状态量不满足目标条件时,将第1个策略路线与该目标条件联系。当满足目标条件时,就不将它们联系。因为满足目标条件时不需要针对该目标的策略。
在S108-3,对所有的策略路线反复进行S108-1和108-2的处理。
作为状态量,取when项的输入变量值,对于上述升降机控制系统的例子,试具体地进行该联系。
参照图12所示的目标路线和图18a及图18b所示的策略路线。
对于策略路线序号1,在when项记述的输入变量x的值为0.000。该值不满足目标序号1的目标条件(“最终状态”的值=9.467)。因此,将策略路线1与目标路线1连锁。
在策略路线1的when项记述的输入变量θ的值为0.000。该值满足目标路线2的目标条件(“过渡状态”的宽度=[-0.029,0.027])。因此,不将策略路线1与目标路线2连锁。
同样,在策略路线1的when项记述的输入变量dθ的值为0.000。该值满足目标路线3的目标条件(“过渡状态”的宽度=[-0.039,0.042])。因此,也不将策略路线1与目标路线3连锁。
结果,策略路线1便只与目标路线1连锁(连接)。
同样,对于策略路线2~10应用上述S108-1,108-2的处理,可以得到如下结果。
策略路线2、3、4、5、6、8、9和10只与目标路线1连锁。
策略路线7与目标路线1和7连锁。
相反,如果从目标路线的角度说,则为如下表述。
目标路线1与策略路线1、2、3、4、5、6、7、8、9和10连锁。
目标路线2与任何策略路线都不连锁。
目标路线3只与策略路线7连锁。
为了将这些连锁存储到存储器内,各策略路线具有指向与其连锁的所有的目标路线的指针(与表示各策略路线的数据对应地存储这些指针)。另外,各目标路线具有指向与其连锁的所有的策略路线的指针。
图20是设在各目标路线中的指针。PL表示指向策略路线的指针,由PL之后的箭头指示的序号是与该目标路线连锁的策略路线的序号。指针PL按各目标路线序号设置。
图21是与各策略路线序号对应地设置的指针。指针PH是指向目标路线的指针,指针PL是指向动作路线的指针(下面说明)。由PH之后的箭头指示的序号是与该策略路线连锁的目标路线的序号,由PL之后的箭头指示的序号是与该策略路线连锁的动作路线的序号。
这样的策略路线与目标路线的连锁,根据需要进行显示或打印。用户可以根据需要添加新的策略路线,删除不需要的策略路线,修正现有的策略路线。
在S109,将策略路线与动作路线进行如下联系(或连接、连锁)。所谓动作路线,是指各时刻的输入表述值与输出表述值的组,与动作取样的意义大致相同。但是,从动作路线中将具有完全相同值的动作取样删除。
在S109-1,对于第1个动作路线(参见图9或图10),将其状态量与各策略路线的策略条件进行比较。所谓状态量,是指动作路线的输入表述值组。所谓策略条件,是指从在策略路线的when项记述的输入表述值组到在until项记述的输入表述值组的范围(以下,将其称为when~until范围)。
在S109-2,当状态量满足策略条件时,就将第1个动作路线与该策略路线联系。
在S109-3,对所有的动作路线反复进行S109-1和109-2的处理。
对上述升降机控制系统的例子,试进行这种联系。参照图9和图18a及图18b。图9所示的所有的动作取样是动作路线。但是,由于第1个动作路线表示架空平台的静止状态,所以,在模型形成和问题解决模式中没有意义,没有必要特别进行联系。因此,从第2个动作路线开始进行联系。
在第2个动作路线(序号2)中,状态量为x=0.000,θ=0.000,dθ=0.000,它们都在策略路线序号1的when~until范围(x=0.000~0.000,θ=0.000~0.000,dθ=0.000~0.000)内。另外,动作路线2的状态量不在其他策略路线的when~until范围内。因此,动作路线2只与策略路线1连锁。
同样,对其他动作路线进行时钟连锁处理(S109-1,109-2),可以得到图22所示的连锁。
在图22中,对每个动作路线序号,用指针PH表示与该动作路线连锁的策略路线。指针PH是指向连锁的策略路线的动作路线的指针。在指针PH的箭头之后,记述连锁的策略路线序号。
对每个策略路线,也设置指向与其连锁的动作路线的指针。这就是在图21中用PL所示的指针。由对各策略路线序号设置的指针PL的箭头指示的序号是与该策略路线连锁的动作路线。
由目标路线、策略路线和动作路线构成的模型具有图23所示的等级结构,并且,可知它们相互关联。目标(路线)位于最高位的等级(概念的意志决定的等级)。策略(路线)位于中间的等级(根据状况的意志决定的等级)。动作(路线)位于最低位的等级(经验的意志决定的等级)。
在S110,如果需要,就验证这样作成的模型。
为了进行验证,可以使用上述动作取样(教师数据;图9或图10)。使用动作取样的输入数据,按照和后面所述的问题解决模式的顺序相同的顺序(S121的输入变量值读入和编码不一定需要),根据前面作成的模型计算输出。将得到的输出数据和动作取样的输出数据进行比较。如果两个输出数据是相等的值或接近的值(例如,两数据之差小于指定的阈值),就可以认为作成的模型正确。
此外,如果需要,还可以随机地生成输入数据,并将该输入数据输入系统。系统根据模型计算输出数据并进行输出。输出数据是否妥当,由用户进行判断。
在S111,最后,从存储器的作业区域将表示作成的模型的数据传送到文件区域进行保存。(4)问题解决模式的处理在问题解决模式中,系统使用上述模型实际控制(运转或操作)控制对象(参见图2)。其处理顺序示于图24。
在S121,将传感器11、12、1k(图2)或表示位置x的振动传感器的输出和表示振动角的角度传感器等(图4、图5)的输入变量值读入系统1。将这些输入值以适当的分辨率变换为2值数据。
在S122,将得到的输入数据与包含在模型中的目标路线的目标条件进行比较。如果有具有输入数据不满足的目标条件的目标路线,就将与该目标路线连锁的策略路线进行列表。
在本阶段,系统通过决定适当的目标路线,进行概念等级的意志决定。这样,便可决定适当的策略路线。
在S123,将输入数据与在上述S122选择的策略路线进行比较。如果有具有与输入数据匹配的策略条件(when~until范围)的策略路线,就将与该策略路线连锁的动作路线进行列表。
在本阶段,系统通过决定适当的策略路线进行状况的意志决定。结果,便可决定适当的动作路线。
在S124,在S123选择的动作路线中,选择具有与输入数据完全一致的输入变量值的或与输入数据最接近的输入变量值的(输入变量空间的距离最短的)路线作为候补路线。
在S125,通常,由于在S124选择1个候补,所以,将该候补的动作路线的输出变量值作为输出数据而输出。当存在2个以上的候补时,就选择最佳的候补,将该动作路线的输出变量值作为输出数据而输出。例如,2个策略路线的双曲盒一部分重复,当输入数据包含在该重复的空间时,就从2个策略路线导出不同的输出变量值。这时,例如选择从输入数据与双曲盒的端点(MIN或MAX点)的距离近的双曲盒得到的输出值,或者无条件地选择在处理中最初得到的输出值。
图25示出了根据模型自动运转升降机控制系统时得到的输入数据、根据模型计算的输出数据(升降机控制用的)和在得到输出值的过程中选择的路线的序号。最右边的括号内的3个数字(用箭头联系)表示根据前面选择的目标路线序号、策略路线序号和动作路线序号。
例如,输入输出数据序号1的输入数据是x=0.000,θ=0.000,dθ=0.000。这些输入数据不满足目标路线1的目标条件,满足其他目标路线2,3的目标条件(参见图12)。因此,选择与目标路线1连锁的10个策略路线1、2、3、4、5、6、7、8、9和10(参见图20)(S122)。
在这些策略路线1~10中,具有满足上述输入数据的策略条件的只是策略路线1(参见图18a)。因此,选择与策略路线1连锁的动作路线2(参见图21)(S123)。
因此,将动作路线2的输出变量值u=40.00作为输出数据而输出(参见图9)(S124、125)。
在图25中,不仅输入输出数据序号8~10的输入数据x不满足目标路线1的目标条件,而且输入数据θ也不满足目标路线2的目标条件。因此,选择目标路线1和2。但是,与目标路线2连锁的策略路线不存在。因此,从与目标路线1连锁的策略路线1~10中选择输入数据匹配的策略路线。具有满足输入输出数据序号8~10的全部输入数据x、θ、dθ的策略条件的策略路线不存在。这时,选择与输入数据最接近的(例如一部分输入变量的输入数据满足策略条件或具有位于与输入数据最接近的距离的双曲盒)策略路线。这里,选择策略路线5。
在与策略路线6连锁的动作路线中(参见图21),分别选择具有与各输入输出数据序号8、9、10的输入数据最接近的输入变量值的动作路线9、10、11,将这些动作路线的输出变量值(u=40.000)作为输出数据而输出。
每次从控制对象读入输入数据(每隔一定时间),反复进行图24的S121~125的处理。
权利要求
1.一种推理方法,其特征在于取入由通过操作或控制对象而得到的输入输出变量值的组构成的一连串的动作数据,着眼于取入的上述动作取样中的输入变量值,对每个输入变量作成使用输入变量值的最初的值、最后的值、最大值和最小值规定的目标路线,着眼于取入的上述动作取样中的输出变量值,抽出输出变量值保持同一性的输入变量的范围,对于各范围作成将输入变量的范围与输出变量值连结的策略路线,将具有不满足上述目标路线的条件的输入变量范围的策略路线与该编码路线连锁,将具有进入上述策略路线的输入变量范围的输入变量值的动作路线与该策略路线连锁,借此形成由相互连锁的目标路线、策略路线和动作路线构成的等级结构的模型。
2.按权利要求1所述的推理方法,其特征在于包括将取入的上述动作取样变换为指定位的二进制数据的步骤。
3.按权利要求1所述的推理方法,其特征在于作成目标路线的上述步骤由作成临时的目标路线的步骤、输出作成的目标路线的步骤和将接收用户的评价后的目标路线作为最终的目标路线的步骤构成。
4.按权利要求3所述的推理方法,其特征在于上述用户的评价包括目标路线的添加、删除和改变。
5.按权利要求1所述的推理方法,其特征在于作成策略路线的上述步骤由顺序比较按时间顺序排列的输出变量值的相邻的数值并当有变化时就存储其前后的输出变量值作成策略取样的步骤、参照上述动作取样将上述翠绿取样变换为具有do…when…until…min…max的形式的策略路线的步骤和使变换后的上述策略路线实现最优化的步骤构成。
6.按权利要求5所述的推理方法,其特征在于使上述策略路线实现最优化的步骤是减少具有相同的输出变量值的2个以上的策略路线的数量。
7.按权利要求1所述的推理方法,其特征在于利用设在各策略路线中的指向目标路线的指针和设在各目标路线中的指向策略路线的指针实现策略路线与目标路线的连锁。
8.按权利要求1所述的推理方法,其特征在于利用设在各动作路线中的指向策略路线的指针和设在各策略路线中的指向动作路线的指针实现动作路线与策略路线的连锁。
9.按权利要求1所述的推理方法,其特征在于通过将由完全相同的输入输出变量值的组构成的动作取样只留下1个将其他删除,作成动作路线。
10.按权利要求1所述的推理方法,其特征在于将上述一系列的动作取样作为用于验证上述模型的数据使用,按其时间顺序逐一取入上述动作取样,搜寻具有取入的动作取样的输入变量值不满足的条件的目标路线,将与搜寻出的目标路线连锁的策略路线进行列表,从上述列表的策略路线中搜寻具有上述取入的输入变量值满足的条件的策略路线,将与搜寻出的策略路线连锁的动作路线进行列表,在上述列表的动作路线中,输出与上述取入的输入变量值一致的或具有最接近的输入变量值的动作路线的输出变量值,借此验证上述模型。
11.一种用于使用根据由权利要求1所述的推理方法作成的模型操作或控制对象的方法,该控制方法的特征在于顺序取入从对象得到的输入数据,搜寻具有取入的输入数据不满足的条件的目标路线,将与搜寻出的目标路线连锁的策略路线列表,从上述列表的策略路线中搜寻具有上述取入的输入数据满足的条件的策略路线,将与搜寻出的策略路线连锁的动作路线列表,在上述列表的动作路线中输出具有与上述取入的输入数据一致的或最接近的输入变量值的动作路线的输出变量值,每次取入输入数据都反复进行上述处理。
12.一种推理方法,其特征在于取入由通过操作或控制对象而得到的输入输出变量值的组构成的一连串的动作数据,着眼于取入的上述动作数据中的输入变量值,对每个输入变量作成以上述操作或控制为目标的目标,着眼于取入的上述动作数据中的输出变量值,作成为了达到上述目标的策略,将上述目标与尚未达到该目标的策略连锁,将上述策略与实现该策略的动作数据连锁,借此形成由相互连锁的目标、策略和动作构成的等级结构的模型。
13.一种推理系统,其特征在于具有取入并存储由通过操作或控制对象而得到的输入输出变量值的组构成的一系列的动作取样的存储装置、着眼于取入的上述动作取样中的输入变量值对每个输入变量作成使用输入变量值的最初的值、最后的值、最大值和最小值规定的目标路线的作成装置、着眼于取入,的上述动作取样中的输出变量值抽出输出变量值具有同一性的输入变量的范围并对各范围作成将输入变量的范围与输出变量值连结的策略路线的作成装置、将具有不满足上述目标路线的条件的输入变量范围的策略路线与该目标路线连锁的连锁装置和将具有进入上述策略路线的输入变量范围的输入变量值的动作路线于该策略路线连锁的连锁装置,借此形成由相互连锁的目标路线、策略路线和动作路线构成的等级结构的模型。
14.按权利要求13所述的推理系统,其特征在于取入上述动作取样的存储装置包括将取入的上述动作取样变换为指定位的二进制数据的装置。
15.按权利要求13所述的推理系统,其特征在于作成目标路线的上述作成装置由作成临时目标路线的装置、输出作成的目标路线的装置和将接收用户的评价后的目标路线作为最终的目标路线进行存储的装置构成。
16.按权利要求15所述的推理系统,其特征在于上述用户的评价包括目标路线的添加、删除和改变。
17.按权利要求13所述的推理系统,其特征在于作成策略路线的上述作成装置由顺序比较按时间顺序排列的输出变量值的相邻的数值并当有变化时就存储其前后的输出变量值作成策略取样的装置、参照上述动作取样将上述翠绿取样变换为具有do…when…until…min…max的形式的策略路线的装置和使变换后的上述策略路线实现最优化的装置构成。
18.按权利要求17所述的推理系统,其特征在于使上述策略路线实现最优化的装置是减少具有相同的输出变量值的2个以上的策略路线的数量的装置。
19.按权利要求13所述的推理系统,其特征在于使上述策略路线与目标路线连锁的装置利用设在各策略路线中的指向目标路线的指针和设在各目标路线中的指向策略路线的指针实现策略路线与目标路线的连锁。
20.按权利要求13所述的推理系统,其特征在于使上述动作路线与策略路线连锁的装置利用设在各动作路线中的指向策略路线的指针和设在各策略路线中的指向动作路线的指针实现动作路线与策略路线的连锁。
21.按权利要求13所述的推理系统,其特征在于通过将由完全相同的输入输出变量值的组构成的动作取样只留下1个将其他删除,作成动作路线。
22.按权利要求13所述的推理系统,其特征在于还具有为了作为验证用的数据使用而按时间顺序逐一取入上述动作取样的输入装置、搜寻具有取入的输入数据不满足的条件的目标路线并在存储器中将与搜寻出的目标路线连锁的策略路线列表的列表装置、从上述列表的策略路线中搜寻具有上述取入的输入数据满足的条件的策略路线并将与搜寻出的策略路线连锁的动作路线在存储器中列表的列表装置、在上述列表的动作路线中输出具有与上述取入的输入数据一致或最接近的输入变量值的动作路线的输出变量值的输出装置,借此验证上述模型。
23.一种用于使用根据由权利要求13所述的推理系统作成的模型操作或控制对象的系统,该控制系统的特征在于具有顺序取入从对象得到的输入数据的输入装置、搜寻具有取入的输入数据不满足的条件的目标路线并在存储器中将与搜寻出的目标路线连锁的策略路线列表的列表装置、从上述列表的策略路线中搜寻具有上述取入的输入数据满足的条件的策略路线并将与搜寻出的策略路线连锁的动作路线在存储器中列表的列表装置、在上述列表的动作路线中输出具有与上述取入的输入数据一致或最接近的输入变量值的动作路线的输出变量值的输出装置和每次取入输入数据时反复进行上述处理的控制装置。
全文摘要
本发明取入由通过操作或控制对象而得到的输入输出变量值的组构成的一系列的动作取样,对每个输入变量作成使用输入变量值的最初的值、最后的值、最大值和最小值规定的目标路线,抽出输出变量值保持同一性的输入变量的范围,对各范围作成将输入变量的范围与输出变量值联系的策略路线。将具有不满足目标路线的条件的输入变量范围的策略路线与该目标路线连锁。将具有进入策略路线的输入变量范围的输入变量值的动作路线与该策略路线连锁。
文档编号G05B13/02GK1142269SQ95191798
公开日1997年2月5日 申请日期1995年12月14日 优先权日1994年12月28日
发明者井坂晓 申请人:欧姆龙株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1