学习装置、学习方法及其程序与流程

文档序号：22258692发布日期：2020-09-18 14:08阅读：199来源：国知局

本发明涉及一种学习装置、学习方法及其程序。

背景技术：

在使用冲压机等控制装置进行了材料的加工及组装等的情况下，通常进行了一次加工等的材料无法恢复原状。因此，无法一面对同一个材料进行重复加工等，一面适当地调整控制量。因此，对材料的性质与控制输入的关系进行定量化，在新进行加工等时提供适当的控制输入，获得适当的控制量变得重要。

例如，在专利文献1中公开有一种当制造冲压加工品时，可减少板厚的偏差的影响的冲压系统。专利文献1的冲压系统包含冲压机、及朝所述冲压机供给工件的供给装置，且包括：板厚获得部件，在利用冲压机的冲压前获得工件的板厚信息；以及模高设定部件，根据来自所述板厚获得部件的板厚信息，设定冲压机的模高(h)。

现有技术文献

专利文献

专利文献1：日本专利特开2005-211928号公报

技术实现要素：

发明所要解决的问题

此外，在专利文献1中记载的冲压系统中，必须利用实际的冲压机对所设想的所有板厚分别进行多次试错，由此调整应设定的最佳的模高。在如此种冲压系统那样的控制系统中，可考虑使用以对应于处理对象物的参数，输出适当的模高等控制量的方式进行了学习的学习完毕模型，设定模高的调整量(校正量)。在此情况下，作为示教数据，可考虑使用包含处理对象物的参数与适当的校正量的数据，实际上在冲压机等对处理对象物进行加工及组装等处理的控制系统中，模高等控制量的适当值并不限定于受到板厚的影响，有时受到处理对象物的硬度或温度、材质等的各种参数的影响。因此，为了确认作为示教数据的校正量是否适当，必须对各种处理对象物进行试错，从而需要大量的时间。

因此，本发明的目的在于提供一种在对处理对象物进行加工及组装等处理的控制系统的预测控制中，有效率地学习用于生成提供给控制对象的指令值的适当的校正量的技术。

解决问题的技术手段

本发明的一方面的学习装置是在包括控制器与控制对象的控制系统中，对包含学习完毕模型的调整器提供所述学习完毕模型的学习装置，所述控制器输出根据校正量对目标值进行校正所得的指令值，所述控制对象是对处理对象物进行规定的处理而受到控制，且输入从控制器输出的指令值，并输出作为所述指令值的响应的控制量，所述学习完毕模型根据处理对象物的特定的参数，对所述控制器输出规定的所述校正量而得到学习，所述学习装置包括：评估部，获取包含目标值、指令值及控制量的动作数据，对控制量的品质进行评估；学习部，根据动作数据来生成校正量候补，将已生成的校正量候补与处理对象物的特定的参数作为示教数据进行学习，生成学习完毕模型；以及设定部，当在评估部中根据控制量进行了评估的品质为事先决定的容许范围内时，将所述学习完毕模型提供给所述调整器，所述控制量是将根据由已生成的学习完毕模型所输出的校正量对目标值进行校正所得的指令值提供给控制对象时的控制量。根据所述形态，学习装置在不使控制对象实际地运行而生成了校正量候补时，可在确认是否输出适当的校正量后判定是否采用使用所述校正量候补所生成的学习完毕模型。由此，可一面使控制对象实际地运行，一面更有效率地进行学习，并排除不适当的学习完毕模型。另外，“参数”包含处理对象物的特征量或物理量、其他任意的数值信息。特征量例如为处理对象物的材质等，物理量例如为处理对象物的硬度或温度等。

另外，设定部也可以是如下的构成：当已被提供给控制对象的处理对象物的特定的参数与未实施已生成的学习完毕模型的评估的参数相等时，对控制器输出由已生成的学习完毕模型所输出的校正量，在评估部中对品质进行评估。另外，学习部也能够以如下方式构成：当根据已生成的学习完毕模型所输出的校正量进行了评估的品质不满足容许范围时重新进行学习，并重新生成学习完毕模型。由此，可排除不适当的学习完毕模型。

另外，所述学习部也能够以通过数据驱动控制来生成所述校正量候补的方式构成。数据驱动控制可为虚拟参考反馈整定(virtualreferencefeedbacktuning，vrft)、虚拟参考迭代整定(fictitiousreferenceiterativetuning，frit)或估计响应迭代整定(estimatedresponseiterativetuning，erit)的任一者。根据所述形态，学习部通过使用vrft或frit、erit等数据驱动控制的方法，可不求出控制对象的动态特性模型而生成校正量候补，并生成示教数据。由此，学习装置可不重复进行控制对象的实际的动作而生成校正量候补。其结果，学习装置可不准备处理对象物或使处理对象物破损，而更有效率地进行学习。

本发明的一方面的学习方法是在学习装置中执行的方法，所述学习装置在包括控制器与控制对象的控制系统中，对包含学习完毕模型的调整器提供学习完毕模型，所述控制器输出根据校正量对目标值进行校正所得的指令值，所述控制对象是对处理对象物进行规定的处理而受到控制，且输入从控制器输出的指令值，并输出作为所述指令值的响应的控制量，所述学习完毕模型根据处理对象物的特定的参数，对控制器输出规定的校正量而得到学习，学习装置执行如下的步骤：获取包含目标值、指令值及控制量的动作数据，对控制量的品质进行评估的步骤；根据动作数据来生成校正量候补，将已生成的校正量候补与处理对象物的特定的参数作为示教数据进行学习，生成学习完毕模型的步骤；以及当在进行评估的步骤中根据控制量进行了评估的品质为事先决定的容许范围内时，将所述学习完毕模型提供给所述调整器的步骤，所述控制量是将根据由已生成的学习完毕模型所输出的校正量对目标值进行校正所得的指令值提供给控制对象时的控制量。

本发明的一方面的程序是使学习装置发挥功能的程序，所述学习装置在包括控制器与控制对象的控制系统中，对包含学习完毕模型的调整器提供学习完毕模型，所述控制器输出根据校正量对目标值进行校正所得的指令值，所述控制对象是对处理对象物进行规定的处理而受到控制，且输入从控制器输出的指令值，并输出作为所述指令值的响应的控制量，所述学习完毕模型根据处理对象物的特定的参数，对控制器输出规定的校正量而得到学习，所述程序使学习装置作为如下的部件发挥功能：获取包含目标值、指令值及控制量的动作数据，对控制量的品质进行评估的部件；根据动作数据来生成校正量候补，将已生成的校正量候补与处理对象物的特定的参数作为示教数据进行学习，生成学习完毕模型的部件；以及当在进行评估的部件中根据控制量进行了评估的品质为事先决定的容许范围内时，将学习完毕模型提供给所述调整器的部件，所述控制量是将根据由所述已生成的学习完毕模型所输出的校正量对目标值进行校正所得的指令值提供给控制对象时的控制量。

发明的效果

根据本发明，可提供一种在对处理对象物进行加工及组装等处理的控制系统的预测控制中，有效率地学习用于生成提供给控制对象的指令值的适当的校正量的技术。

附图说明

图1是表示本发明一实施方式的控制系统的系统构成例的示意图。

图2是表示本发明一实施方式的学习装置的功能构成例的框图。

图3是表示本发明一实施方式的管理表的一例的图。

图4是表示本发明一实施方式的管理图的一例的图。

图5是用于说明本发明一实施方式的学习装置的处理的一例的流程图。

图6是表示本发明一实施方式的学习装置的硬件构成的示意图。

图7是表示本发明另一实施方式的控制系统的系统构成例的示意图。

具体实施方式

[实施方式]

以下，根据附图对本发明的一形态的实施方式(以下也表述成“本实施方式”)进行说明。但是，以下所说明的实施方式在所有方面只不过是本发明的例示。当然可不脱离本发明的范围而进行各种改良或变形。即，在实施本发明时，也可以适宜采用对应于实施方式的具体构成。另外，通过自然语言来对本实施方式中出现的数据进行说明，更具体而言，由计算机可识别的拟语言(quasi-language)、命令、参数、机器语言(machinelanguage)等来指定。

§1应用例

首先，一面参照图1，一面对应用本发明的场景的一例进行说明。图1是表示本发明的控制系统1的构成的一例的图。控制系统1包括：控制器10、伺服机构20、调整器30、以及学习装置40。

控制器10生成根据从调整器30输出的校正量ρ对目标值r(t)进行校正所得的指令值u(t)，并朝伺服机构20输出。目标值r(t)可以由控制器10生成(包含使用经存储的目标值)，也可以从外部提供给控制器10。若设为控制器10的传递函数c(ρ)，则在控制器10中进行以下的式(1)中所示的运算，由此生成指令值u。

＜控制器的运算式＞

u(t)＝c(ρ)×r(t)…式(1)

伺服机构20由控制器10控制，以对处理对象物(以下也称为“工件”)进行规定的处理。从控制器10朝伺服机构20提供指令值u(t)，伺服机构20输出作为所述输入值的响应的控制量y(t)。若将伺服机构20的传递函数设为p，则控制量y(t)由以下的式(2)表示。

＜伺服机构的运算式＞

y(t)＝p×u(t)…式(2)

另外，在本实施方式中，伺服机构20表示以规定量的压力对工件进行冲压的冲压机的例子，但并不限定于此。另外，伺服机构20是本发明的“控制对象”的一例。

调整器30输出提供给控制器10的校正量ρ。在本实施方式中，调整器30具有学习完毕模型，所述学习完毕模型以根据工件所具有的参数中的特定的参数输出适当的校正量的方式得到学习。例如，也可以将工件的板厚的大小作为特定的参数。另外，所述学习完毕模型可由学习装置40提供。另外，调整器30也可以从传感器(未图示)获取工件的参数。另外，例如伺服机构20也可以具有传感器。

学习装置40在生成学习完毕模型时，首先针对具有某一参数α的处理对象物，使控制系统实际运行一次，获取此时的目标值r(t)、指令值u(t)、及控制量y(t)的关系。接着，学习装置40根据所述三个值来算出与参数α对应的校正量候补ρ﹡。学习装置40根据已算出的校正量候补ρ﹡与参数α，生成示教数据。通过对多个参数执行所述处理，学习装置40可生成多个具有各参数与对应于各参数的校正量候补的示教数据。而且，学习装置40使用已生成的一个或多个示教数据进行学习，由此生成学习完毕模型。另外，是否将已生成的示教数据实际用于学习也可以对照规定的采用基准来决定。

当生成校正量候补ρ﹡时，学习装置40可使用vrft(virtualreferencefeedbacktuning)或frit(fictitiousreferenceiterativetuning)、erit(estimatedresponseiterativeturning)等数据驱动控制的方法。数据驱动控制可不求出控制对象(在本实施方式的情况下为伺服机构20)的动态特性模型，而使用已获得的数据来设定控制参数。通过使用数据驱动控制的方法，不反复进行实验，即不重复进行伺服机构20的实际的动作，根据一组动作数据来生成校正量候补ρ﹡，并将其用作示教数据。由此，缩短至生成适当的示教数据为止的时间，可有效率地生成用于输出适当的校正量的学习完毕模型。

此处，在将使用数据驱动控制的方法所生成的校正量候补ρ﹡作为示教数据进行了学习的情况下，通过学习所获得的学习完毕模型未必输出适当的校正量。因此，学习装置40也可以在朝调整器30设定学习完毕模型前，对学习完毕模型进行评估，当可确认能够获得规定的品质的控制量时，朝调整器30设定学习装置40已生成的学习完毕模型。

例如，将工件x的参数α与校正量候补ρ﹡作为示教数据进行学习，新生成学习完毕模型lm﹡。此时，学习装置40在具有与工件x相同的参数α的另一工件已被提供给伺服机构20时，使用之前生成的学习完毕模型lm﹡来生成校正量ρα，并提供给控制器10。控制器10根据校正量ρα来生成指令值u(x)，伺服机构20输出作为对于指令值u(x)的响应的控制量y(x)。此处，若品质评估部42对控制量y(x)的品质进行评估的结果是控制量y(x)为规定的容许范围内，则学习装置40可将新生成的学习完毕模型lm﹡设定在调整器30中。另一方面，在不满足规定的容许范围的情况下，当已在调整器30中设定有学习完毕模型时，设定部44也可以不进行学习完毕模型的更新。由此，学习装置40在不使控制对象实际地运行而生成了校正量候补时，可在确认是否输出适当的校正量后判定是否采用使用所述校正量候补所生成的学习完毕模型，因此可更有效率地进行学习，并排除不适当的学习完毕模型。其结果，学习装置可不准备处理对象物或使处理对象物破损，而更有效率地进行学习。

§2构成例

参照图2至图4，对学习装置40的功能构成的一例进行说明。图2是表示学习装置40的功能构成的一例的功能框图。如图2所示，学习装置40具有：存储部41、品质评估部42、学习部43、以及设定部44。

在存储部41中存储有参照模型td与管理表。

参照模型td是表示针对目标值r(t)的控制量y(t)的理想的响应的传递函数的模型。若使用参照模型td，则针对目标值r(t)的理想的控制量(以下也称为“目标响应”)yd(t)由下式(3)表示。

＜参照模型td的式＞

yd(t)＝td×r(t)…(3)

另外，参照模型td并不限定于传递函数，也可以使用根据使伺服机构20在无工件的状态下运行时的目标值r(t)、控制量y(t)，通过机器学习所生成的模型。

在管理表中管理学习部43用于学习的示教数据。图3是表示管理表的一例的图。示教数据是针对各工件，将作为输入数据的所述工件的参数(图3的例子中为硬度)、与作为输出数据的对所述工件输出指令值时的最佳的校正量(以下也称为“最佳校正量”)建立了对应的数据。在管理表中，将伺服机构20响应指令值所输出的控制量的品质的评估的结果建立对应，所述指令值根据与各工件建立了对应的最佳校正量而生成。另外，最佳校正量只不过是校正量的一例，并非必须使用最佳的校正量。

另外，在管理表中追加新的示教数据的记录后，在伺服机构20尚未对与所述记录对应的工件进行处理的情况下，也可以在管理表的评估结果一栏中例如登记未实施。

如此，在管理表中管理学习部43已用于学习的示教数据、及使用所述示教数据所新生成(或经更新)的学习完毕模型的评估的结果。

进而，在存储部41中存储有学习部43已生成的学习完毕模型lm。优选存储部41存储多代的学习部43已生成的学习完毕模型。

品质评估部42从控制器10及伺服机构20获取动作数据，对控制量的品质进行评估。作为一例，对作为品质评估部42相对于目标值r(t)所提供的指令值u(t)的响应，从伺服机构20输出了控制量y(t)的情况进行说明。此时，品质评估部42将目标值r(t)输入至参照模型td，获取对于目标值r(t)的目标响应yd(t)。

接着，品质评估部42对目标响应yd(t)、控制量y(t)进行品质换算，算出品质的代替指标。例如，品质评估部42对目标响应yd(t)、控制量y(t)进行品质换算，算出下死点位置或稳定时间(settlingtime)。更详细而言，品质评估部42根据目标响应yd(t)、控制量y(t)的最大值来算出下死点位置。另外，品质评估部42从目标响应yd(t)已进入目标位置的时刻、及控制量y(t)已进入目标位置的时刻分别减去指令值已到达目标位置的时刻，由此算出各自的稳定时间。另外，下死点位置是伺服机构20的冲程长度变成最大的位置。另外，稳定时间是从伺服机构20的冲程长度已进入稳定宽度时至到达目标位置时为止的经过时间，稳定宽度是指从目标位置起规定的范围的宽度(例如为目标位置±10μm)。

品质评估部42根据进行品质换算所算出的作为代替指标的下死点位置与稳定时间，进行控制量y(t)的品质的评估。例如，品质评估部42可根据下死点位置是否与目标位置一致、或下死点位置是否包含在稳定宽度中，判定控制量y(t)是否为规定的容许范围内，由此进行品质的评估。

另外，例如品质评估部42也可以使用x^bar-r管理图进行控制量y(t)的品质的评估。x^bar-r管理图是用于管理品质评估对象的平均值的变化与偏差的变化的管理图。图4表示品质评估部42用于品质的评估的x^bar-r管理图中的x管理图的一例。在图4中，纵轴表示冲程长度。图表l1、图表l2是对下死点位置在各批次中的平均值进行了绘制的图表的一例，所述下死点位置是针对伺服机构20对多个批次的工件进行了处理时的各自的控制量y(t)进行品质换算所算出的下死点位置。在图4中，实线表示规格值l3的上限及下限，虚线l4表示管理值的上限及下限。规格值例如为对工件委托加工的顾客的要求值。管理值是用于以不超过规格值的方式进行管理的值。在图表的中心表示品质的目标值。图表l2是表示品质处于管理值的范围内的情况的一例的图表，图表l1是表示品质未处于规格值内的情况的一例的图表。另外，在图4的例子中，表示对各批次进行了图表的绘制的例子，但各绘制的值并不限定于以批次单位所算出的值，也可以使用根据对于一个或多个工件的处理进行品质换算所得的值。品质评估部42也可以根据在图4中所示的x^bar-r管理图中，控制量y(t)的下死点位置是否为管理值的范围内、或是否为规格值的范围内，判定控制量y(t)是否为规定的容许范围内，由此进行品质的评估。例如，也可以根据使用图4中所示的x^bar-r管理图等进行品质评估的结果，即控制量y(t)是否为规定的容许范围内，登记所述图3的管理表中的品质的评估的结果。更详细而言，例如当响应根据登记在图3的第一行的记录中的最佳校正量候补(图3的例子中为0.5mm)所生成的指令值时，从伺服机构20输出控制量y(β)。此时，使用图4中所示的x^bar-r管理图，根据控制量y(β)的下死点位置是否为管理值的范围内、或是否为规格值的范围内，进行控制量y(β)的品质评估的结果作为图3的管理表的第一行的记录中的品质的评估的结果来登记。

学习部43根据使用动作数据所算出的校正量候补ρ﹡来生成示教数据，并生成学习完毕模型。优选学习部43在算出校正量候补ρ﹡时，使用vrft或frit、erit等数据驱动控制。数据驱动控制是不求出控制对象(在本实施方式的情况下为伺服机构20)的动态特性模型，使用数据来设定控制参数的方法。vrft、frit及erit等数据驱动控制是不反复进行实验，可根据一组动作数据来确定校正量的方法。一组动作数据是目标值r、根据所述目标值所提供的指令值、以及作为指令值的响应所输出的控制量。

对学习部43的校正量候补生成处理进行更详细的说明。例如，对如下的例子进行说明，即：学习部43参考参照模型td，根据伺服机构20基于任意的指令值uini对任意的工件(以下称为“工件x”)进行了动作时的动作数据(以下，将基于任意的指令值uini对工件x进行了动作时的动作数据特别称为“动作数据y”)，来生成校正量候补ρ﹡。将所述指令值uini设为根据某一校正量ρini对目标值r进行校正所生成的指令值。此处，若将动作数据y中所包含的目标值设为目标值r，将指令值设为指令值uini，将控制量设为控制量yini，则动作数据y由{r、uini、yini}表示。

学习部43在使用vrft来算出校正量候补ρ﹡的情况下，使用参照模型td的逆模型td^-1，首先通过以下的式(4)来算出虚拟参照信号。

[数学式1]

虚拟参照信号

进而，学习部43算出使由以下的式(5)表示的评估函数jv(ρ)最小化的校正量候补ρ﹡。另外，在式(5)中，c(ρ)表示所述控制器10的传递函数。

[数学式2]

另一方面，学习部43在使用frit来算出校正量候补ρ﹡的情况下，首先通过以下的式(6)来算出疑似参照信号。另外，在式(6)中，c(ρ)^-1表示控制器10的逆传递函数。

[数学式3]

疑似参照信号

进而，学习部43算出使由以下的式(7)表示的评估函数jf(ρ)最小化的校正量候补ρ﹡。

[数学式4]

学习部43将已算出的校正量候补ρ﹡设为最佳校正量ρ'，与工件x的参数建立对应来作为示教数据追加至管理表中。另外，学习部43也可以是进行判定是否将校正量候补ρ﹡采用为最佳校正量ρ'的采用与否判定的构成。在此情况下，学习部43判定已算出的校正量候补ρ﹡是否满足规定的采用基准，在满足的情况下用作最佳校正量ρ'，并追加至管理表中。采用基准例如为已算出的校正量候补ρ﹡是否并非从登记在管理表中的示教数据中所含有的最佳校正量偏离规定的值以上的值(例如离群值(outlier))。另外，采用基准也可以是校正量候补ρ﹡是否并非从所述示教数据中所含有的最佳候补量的平均值偏离固定值以上的值、或是否并非从最佳候补量的最大值或最小值偏离固定值以上的值。另外，例如，采用基准也可以是已算出的校正量候补ρ﹡是否包含在管理表中登记的示教数据中所含有的最佳校正量的范围内。

学习部43根据已登记在管理表中的示教数据执行学习，生成学习完毕模型lm﹡。另外，生成学习完毕模型时进行的学习例如也可以使用现有的神经网络或回归分析的技术。学习部43将本次生成的学习完毕模型lm﹡追加存储在存储部41中。另外，学习部43也可以是利用本次生成的学习完毕模型lm﹡覆盖存储在存储部41中的学习完毕模型lm的构成。

另外，学习部43也可以是在生成校正量候补ρ﹡时，进行是否需要学习的判定的构成。在此情况下，学习部43判定是否满足规定的是否需要学习的判定基准，当满足时，为了进行学习而生成校正量候补ρ﹡。规定的是否需要学习的判定基准例如为品质评估部42对于动作数据y的结果是否为容许范围内。另外，规定的是否需要学习的判定基准也可以是工件x的参数是否为过去已学习，即当前在设定在调整器30中的学习完毕模型中已学习的参数的范围外。此外，规定的是否需要学习的判定基准也可以是当对工件x进行了动作时，伺服机构20的外部环境是否从其以前的外部环境发生了变化。在此情况下，学习部43可以根据用户的任意的输入，检测外部环境的变化，也可以从传感器获取包含伺服机构20的外部环境的图像数据，根据已获取的图像数据来检测外部环境的变化。

设定部44朝调整器30设定学习部43已生成的学习完毕模型lm﹡。此时，设定部44也可以在设定学习完毕模型lm﹡前，对学习完毕模型lm﹡进行评估，根据评估结果来判定是否设定在调整器30中。

例如，设定部44可使用学习完毕模型lm﹡进行控制，根据对于控制的结果的品质的评估，判定是否将学习完毕模型lm﹡设定在调整器30中。具体而言，例如将工件x的参数α与校正量候补ρ﹡作为示教数据，学习部43进行追加学习，新生成学习完毕模型lm﹡。此时，设定部44在具有与工件x相同的参数α的工件已被提供给伺服机构20时，使用学习完毕模型lm﹡来生成校正量ρα。在控制器10中，根据学习完毕模型lm﹡已生成的校正量ρα来生成指令值u(x)，并朝伺服机构20输出。品质评估部42对伺服机构20已输出的作为对于指令值u(x)的响应的控制量y(x)进行品质的评估。若品质的评估的结果是控制量y(x)为规定的容许范围内，则设定部44可将新生成的学习完毕模型lm﹡设定在调整器30中。另一方面，在不满足规定的容许范围的情况下，设定部44可不进行学习完毕模型的更新，而直接使用已设定在调整器30中的模型。

另外，当在存储部41中登记有多个未实施评估的学习完毕模型lm﹡时，设定部44例如也可以按新生成的顺序进行学习完毕模型lm﹡的评估，选择评估的结果最先处于容许范围内的学习完毕模型lm﹡来设定在调整器30中。另外，例如设定部44也可以实施所有学习完毕模型lm﹡的评估，选择评估结果最佳的学习完毕模型lm﹡来设定在调整器30中。

另外，设定部44也可以从存储部41中删除评估不满足规定的容许范围的学习完毕模型lm﹡。

如此，设定部44针对新生成(或更新)的学习完毕模型lm﹡，在实际设定在调整器30中之前实施评估，由此不将品质不充分的学习完毕模型设定在调整器30中，因此可防止控制系统1的处理精度下降。

§3动作流程

参照图5对本实施方式的控制系统1的处理流程的一例进行说明。首先，学习装置40生成参照模型td(s101)。此时，学习装置40获取作为基准的动作数据[r、yd]。作为基准的动作数据例如可设为进行了无工件的动作时的目标值r、及伺服机构20的控制量y。学习装置40根据已获取的动作数据[r、yd]，生成参照模型td。

若对伺服机构20提供工件，则设定针对目标值的校正量q(s102)。校正量q也可以由用户手动来设定，当已在调整器30中设定有学习完毕模型时，所述学习完毕模型也可以生成校正量q。

在控制器10中，根据已设定的校正量q来生成指令值u，并朝伺服机构20输出。在伺服机构20中，输出作为对于指令值u的响应的控制量y。学习装置40获取此时的动作数据[r、u、y](s103)。

接着，判定是否需要学习(s104)。例如，学习部43可根据品质评估部42对已获取的动作数据[r、u、y]进行的品质的评估的结果，判定是否需要学习。另外，是否需要学习的判定基准并不限定于此，也可以将本次的工件的参数是否为过去已学习的参数的范围内、或外部环境是否已变化用于判定基准。另外，例如也可以由人判定是否需要学习。

在判定不需要学习的情况(s104：否(no))下，回到s102，对下一个工件进行处理。另一方面，在判定需要学习的情况(s104：是)下，学习部43参考参照模型td，生成校正量候补ρ﹡(s105)。学习部43在生成校正量候补ρ﹡时，可使用vrft或frit、erit等数据驱动控制的方法。

接着，学习部43判定是否将已生成的校正量候补ρ﹡、与在s102中提供给伺服机构20的工件的参数建立对应来作为示教数据进行追加(s106)。判定是否进行追加的采用基准例如为已算出的校正量候补ρ﹡是否并非从登记在管理表中的示教数据中所含有的校正量偏离规定的值以上的值。另外，例如，采用基准也可以是已算出的校正量候补ρ﹡是否包含在管理表中登记的示教数据中所含有的校正量的范围内。

在判定进行追加的情况(s106：是)下，学习部43将已生成的校正量候补ρ﹡设为最佳校正量ρ'，与在s102中提供给伺服机构20的工件的参数α建立对应来生成记录，并作为示教数据来追加至管理表中(s201)。另一方面，在判定不进行追加的情况(s106：否)下，回到s101，对下一个工件进行处理。另外，学习部43也可以是不进行s106的判定，将已生成的校正量候补ρ﹡直接设为最佳校正量ρ'，生成示教数据并追加至管理表中的构成。

若根据参数α与最佳校正量候补p'来追加示教数据，则学习部43实施追加学习，新生成(或更新)学习完毕模型lm﹡(s202)。

接着，在再次提供的工件的参数与参数α相等的情况(s203：是)下，设定部44判定是否将已生成的学习完毕模型设定在调整器30中(s205)。另外，与参数α相等的情况并不限定于与参数α相同的情况，也包含近似参数α的情况。参数是否近似也可以通过特定的参数是否包含在事先决定的范围内来判断。作为一例，设定部44根据使用学习完毕模型lm﹡进行控制的结果，判定是否进行设定。具体而言，设定部44对学习完毕模型lm﹡提供参数α来生成校正量ρα。而且，也可以根据品质评估部42对于控制量的品质的评估结果，判定是否将学习完毕模型设定在调整器30中，所述控制量是将根据校正量ρα进行校正所得的指令值提供给伺服机构20时的控制量。

在品质的评估为规定的容许范围内的情况下，设定部44将新生成的学习完毕模型设定在调整器30中(s206)。另一方面，在品质的评估不满足容许范围的情况(s205：否)下，学习部43获取本次的动作数据，重新生成校正量候补ρ﹡(s204)。此时，学习部43进行与s106相同的重新生成的校正量候补ρ﹡是否满足采用基准的判定，在满足采用基准的情况下，将校正量候补ρ﹡设为最佳校正量ρ'，回到s201，再次重新生成学习完毕模型。

§4优点

在本实施方式的控制系统1中，设定部44朝调整器30设定学习部43已生成的学习完毕模型。此时，设定部44在设定学习完毕模型前，对学习完毕模型进行评估，根据评估结果来进行是否设定在调整器30中的判定。即，根据本实施方式的学习装置40，使用根据动作数据所生成的校正量候补进行学习，设定部44对已生成的学习完毕模型进行评估。例如，设定部44根据使用已生成的学习完毕模型的控制的结果，进行学习完毕模型的品质的评估。由此，学习装置40可不反复进行实验，即不重复进行控制对象的实际的动作，而将校正量候补用作示教数据，可缩短至生成适当的示教数据为止的时间。

§5硬件构成

接着，一面参照图6，一面对通过计算机800来实现所述学习装置40时的硬件构成的一例进行说明。另外，也可以分成多台装置来实现各个装置的功能。

如图6所示，计算机800包含：处理器801、存储器803、存储装置805、输入接口(interface，i/f)部807、数据i/f部809、通信i/f部811、以及显示装置813。

处理器801通过执行存储在存储器803中的程序，来控制计算机800中的各种处理。例如，学习装置40的品质评估部42、学习部43、及设定部44等可作为暂时存储在存储器803中后，主要在处理器801上运行的程序来实现。即，处理器801通过解释执行暂时存储在存储器803中的程序，来实现品质评估部42、学习部43、及设定部44的功能。

存储器803例如为随机存取存储器(randomaccessmemory，ram)等存储介质。存储器803暂时存储由处理器801所执行的程序的程序代码、或程序的执行时所需要的数据。

存储装置805例如为硬盘驱动器(harddiskdrive，hdd)或闪速存储器等非易失性的存储介质。存储装置805存储操作系统、或用于实现所述各构成的各种程序。此外，存储装置805也可以存储参照模型td或管理表。此种程序或数据视需要被加载至存储器803中，由此从处理器801进行参照。

输入i/f部807是用于受理来自用户的输入的元件。作为输入i/f部807的具体例，可列举：键盘或鼠标、触摸屏、各种传感器、可穿戴设备等。输入i/f部807例如也可以经由通用串行总线(universalserialbus，usb)等接口而连接于计算机800。

数据i/f部809是用于从计算机800的外部输入数据的元件。作为数据i/f部809的具体例，有用于读取存储在各种存储介质中的数据的驱动装置等。也可以考虑将数据i/f部809设置在计算机800的外部。在此情况下，数据i/f部809例如经由usb等接口而与计算机800连接。

通信i/f部811是用于通过有线或无线，经由国际互联网n与计算机800的外部的装置进行数据通信的元件。也可以考虑将通信i/f部811设置在计算机800的外部。在此情况下，通信i/f部811例如经由usb等接口而连接于计算机800。

显示装置813是用于显示各种信息的元件。作为显示装置813的具体例，例如可列举：液晶显示器或有机电致发光(electro-luminescence，el)显示器、可穿戴设备的显示器等。显示装置813也可以设置在计算机800的外部。在此情况下，显示装置813例如经由显示电缆等而连接于计算机800。

§6其他实施方式

参照图7对本发明的其他实施方式的控制系统2的构成进行说明。图7是表示控制系统2的构成的一例的图。另外，省略对于与已述的实施方式共同的事项的记述，仅对不同点进行说明。尤其，对已述的构成附加相同的符号，关于由相同的构成所产生的相同的作用效果，不在各实施方式中依次谈及。

控制系统2具有控制器11来代替控制系统1中的控制器10。另外，调整器30对控制器11输入校正量ρ。其他构成、功能与已述的实施方式相同。

控制器11将从调整器30输入的校正量ρ与已生成的目标值r(t)相加来生成指令值u(t)，并将指令值u(t)输入至伺服机构20。即，控制器11的运算式为以下的式(8)。

u(t)＝r(t)+ρ…式(8)

根据控制器11，可不使用传递函数，简单地将目标值与校正量相加来算出指令值。由此，不需要传递函数的设计，因此控制模型的设计变得容易。

以上，对本发明的实施方式进行了详细说明，但所述为止的说明在所有方面只不过是本发明的例示。当然可不脱离本发明的范围而进行各种改良或变形。

另外，在所述为止的说明中，将学习装置40设为新生成学习完毕模型的构成进行了说明，但也可以设为对现有的学习完毕模型进行更新的构成。在新生成学习完毕模型的构成的情况下，学习装置40可通过使用在生成现有的学习完毕模型时所使用的示教数据中加入了本次新生成的示教数据的数据集的学习，而生成新的学习完毕模型。另一方面，在对学习完毕模型进行更新的构成的情况下，学习装置40可通过使用本次新生成的示教数据对现有的学习完毕模型进行追加学习，而对学习完毕模型进行更新。

所述实施方式的一部分或全部也可以如以下的附记那样记载，但并不限定于以下的附记。

(附记1)

一种学习装置(40)，是在包括控制器(10)与控制对象(20)的控制系统(1)中，对包含学习完毕模型的调整器(30)提供所述学习完毕模型的学习装置(40)，

所述控制器(10)输出根据校正量(ρ)对目标值(r)进行校正所得的指令值(u)，

所述控制对象(20)是以对处理对象物进行规定的处理的方式受到控制的控制对象(20)，且输入从所述控制器(10)输出的指令值(u)，并输出作为所述指令值(u)的响应的控制量，

所述学习完毕模型以根据所述处理对象物的特定的参数，对所述控制器(10)输出规定的所述校正量(ρ)的方式得到学习，

所述学习装置(40)包括：

评估部(42)，获取包含所述目标值(r)、所述指令值(u)及所述控制量(y)的动作数据，对所述控制量(y)的品质进行评估；

学习部(43)，根据所述动作数据来生成校正量候补(ρ﹡)，将已生成的校正量候补(ρ﹡)与所述处理对象物的特定的参数作为示教数据进行学习，生成学习完毕模型；以及

设定部，当在所述评估部(42)中根据控制量(y)进行了评估的品质为事先决定的容许范围内时，将所述学习完毕模型提供给所述调整器(30)，所述控制量(y)是将根据由所述已生成的学习完毕模型所输出的所述校正量进行校正所得的指令值(u)提供给所述控制对象时的控制量。

(附记2)

根据附记1中记载的学习装置(40)，其中

所述设定部(44)在已被提供给所述控制对象的处理对象物的特定的参数与未实施所述已生成的学习完毕模型的评估的参数相等时，对所述控制器输出由所述已生成的学习完毕模型所输出的校正量，在所述评估部(42)中对品质进行评估。

(附记3)

根据附记2中记载的学习装置(40)，其中

所述学习部(43)在根据所述已生成的学习完毕模型已输出的校正量(ρ)进行了评估的品质不满足所述容许范围时重新进行学习，并重新生成学习完毕模型。

(附记4)

根据附记1至3的任一项中记载的学习装置(40)，其中

所述学习部(43)通过数据驱动控制来生成所述校正量候补(ρ﹡)。

(附记5)

根据附记4中记载的学习装置(40)，其中

所述数据驱动控制是vrft、frit或erit的任一者。

(附记6)

一种学习方法，是在学习装置(40)中执行的学习方法，所述学习装置(40)在包括控制器(10)与控制对象(20)的控制系统(1)中，对包含学习完毕模型的调整器(30)提供所述学习完毕模型，

所述控制器(10)输出根据校正量(ρ)对目标值(r)进行校正所得的指令值(u)，

所述学习完毕模型以根据所述处理对象物的特定的参数，对所述控制器(10)输出规定的所述校正量(ρ)的方式得到学习，

所述学习装置(40)执行如下的步骤：

获取包含所述目标值(r)、所述指令值(u)及所述控制量(y)的动作数据，对所述控制量(y)的品质进行评估的步骤；

根据所述动作数据来生成校正量候补(ρ﹡)，将已生成的校正量候补(ρ﹡)与所述处理对象物的特定的参数作为示教数据进行学习，生成学习完毕模型(lm﹡)的步骤；以及

当在所述进行评估的步骤中根据控制量进行了评估的品质为事先决定的容许范围内时，将所述学习完毕模型提供给所述调整器的步骤，所述控制量是将根据由所述已生成的学习完毕模型所输出的校正量对目标值进行校正所得的指令值提供给所述控制对象时的控制量。

(附记7)

一种程序，是使学习装置(40)发挥功能的程序，所述学习装置(40)在包括控制器(10)与控制对象(20)的控制系统(1)中，对包含学习完毕模型的调整器(30)提供所述学习完毕模型，

所述控制器(10)输出根据校正量(ρ)对目标值(r)进行校正所得的指令值(u)，

所述学习完毕模型以根据所述处理对象物的特定的参数，对所述控制器(10)输出规定的所述校正量(ρ)的方式得到学习，

所述程序使所述学习装置(40)作为如下的部件发挥功能：

获取包含所述目标值(r)、所述指令值(u)及所述控制量(y)的动作数据，对所述控制量(y)的品质进行评估的部件；

根据所述动作数据来生成校正量候补(ρ﹡)，将已生成的校正量候补(ρ﹡)与所述处理对象物的特定的参数作为示教数据进行学习，生成学习完毕模型的部件；以及

当在所述进行评估的部件中根据控制量进行了评估的品质为事先决定的容许范围内时，将所述学习完毕模型(lm﹡)提供给所述调整器的部件，所述控制量是将根据由所述已生成的学习完毕模型所输出的校正量候补对目标值进行校正所得的指令值提供给所述控制对象时的控制量。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：藤井高史;上山勇树;阿部泰明;阪谷信幸;今竹和彦
技术所有人：欧姆龙株式会社
我是此专利的发明人

上一篇：一种树脂板造型设计的装配式干挂结构及方法与流程
上一篇：模块化拼装房屋墙面结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。