控制装置以及控制方法与流程

文档序号:15115769发布日期:2018-08-07 20:05阅读:204来源:国知局

本公开涉及控制装置以及控制方法,特别涉及使用了神经网络的控制装置以及控制方法。



背景技术:

作为最优控制之一,已知路径积分控制(例如,参照非专利文献1)。最优控制能够推测控制对象的系统的将来的状态以及回报,作为用于求解最优的操作量序列的结构来掌握。最优控制能够作为带限制的最优化问题来公式化。

另一方面,卷积神经网络等深度神经网络已被很好地适用于自动驾驶以及机器人操作等的控制。

现有技术文献

非专利文献1:modelpredictivepathintegralcontrol:fromtheorytoparallelcomputationhttps://arc.aiaa.org/doi/full/10.2514/1.g001921.[平成29年9月29日检索],互联网<url:https://arc.aiaa.org/doi/full/10.2514/1.g001921>

非专利文献2:avivtamar,yiwu,garrettthomas,sergeylevine,andpieterabbeel,"valueiterationnetworks",nips2016.



技术实现要素:

发明要解决的技术问题

然而,在非专利文献1等的现有最优控制中,存在如下问题:为了预测该系统的将来状态以及将来回报,需要确定该系统的动态,且需要利用成本函数,但是记述动态以及成本函数却很困难。

另外,即使使用卷积神经网络等深度神经网络,也存在不能进行最优控制这一问题。这是因为:卷积神经网络等深度神经网络无论怎么学习,也只会反射性地成长。

本公开是鉴于上述情况而完成的,其目的在于,提供能够使用神经网络进行最优控制的控制装置以及控制方法。

用于解决问题的技术方案

为了解决上述问题,本公开的一个技术方案的控制装置是用于进行基于路径积分的最优控制的控制装置,所述控制装置具备:神经网络,其具有机器学习后的动态模型以及成本函数;输入部,其将控制对象的当前状态和初始操作量序列输入到所述神经网络,所述初始操作量序列是以对所述控制对象的多个操作参数为成分的操作量序列;以及输出部,其输出用于控制所述控制对象的操作量序列,所述用于控制所述控制对象的操作量序列是所述神经网络使用所述动态模型以及所述成本函数而根据所述当前状态和所述初始操作量序列通过路径积分算出的操作量序列,所述神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有所述动态模型。

此外,这些概括性或具体的技术方案既可以通过系统、方法、集成电路、计算机程序或计算机可读取的cd-rom等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序和记录介质的任意组合来实现。

发明的效果

根据本公开的控制装置等,能够使用神经网络进行最优控制。

附图说明

图1是表示实施方式的控制装置的构成的一例的框图。

图2是表示图1所示的神经网络部的构成的一例的框图。

图3a是表示图2所示的算出部的构成的一例的框图。

图3b是表示图2所示的算出部的详细构成的一例的图。

图4是表示图3b所示的蒙特卡罗模拟器部的详细构成的一例的图。

图5是表示图3b所示的第2处理部的详细构成的一例的图。

图6是表示实施方式的控制装置的处理的流程图。

图7是表示实施方式中的学习处理的概念图的一例的图。

图8是表示实施方式中的学习处理的概要的流程图。

图9是表示实验的控制模拟结果的图。

图10a是表示真(true)的成本函数的图。

图10b是表示学习后的路径积分控制神经网络的成本函数的图。

图10c是表示学习后的比较例的神经网络的成本函数的图。

图11是表示变形例1中的神经网络部的构成的一例的框图。

标号的说明

1控制装置;2输入部;3、3b、30神经网络部;4输出部;5教师数据;13算出部;13a、141a循环神经网络;14第1处理部;15第2处理部;16第3处理部;17、142、162保存部;31乘法运算器;32加法运算器;33延迟部;50控制对象;141蒙特卡罗模拟器部;151成本累计部;152操作系更新部;161噪声产生部;1411动态模型;1413成本函数模型。

具体实施方式

(得到本公开的一个技术方案的经过)

已知使表示控制的优良性的评价函数达到最小的控制即最优控制。并且,最优控制能够推测控制对象的系统的将来的状态以及回报,作为用于求解最优的操作量序列的结构来掌握。最优控制能够作为带限制的最优化问题来公式化。

另外,作为最优控制之一,已知路径积分控制(例如,参照非专利文献1)。在非专利文献1中记载了:使用基于轨迹的概率采样的蒙特卡罗近似,以数学方式求解路径积分来作为概率最优控制问题,由此进行路径积分控制。

然而,在非专利文献1等的现有最优控制中,为了预测该系统的将来状态以及将来回报,需要利用确定了该系统的动态后的模型和成本函数,但是记述动态以及成本函数却很困难。这是因为:虽然在该系统的模型完全已知的情况下能够记述包括复杂方程式和大量参数的动态,但是这样的情况却很少。特别是,难以记述大量的参数。同样地,对于为了评价回报而使用的成本函数,虽然在能够完全已知或者完全模拟该系统的从当前状态到将来状态之间的环境的全部状况的变化的情况下才能够记述,但是这样的情况却很少。成本函数是为了进行目标控制而使用权重等参数以函数方式记述希望是何种状态的函数。因此,特别是,难以最优地记述权重等参数。

另一方面,如上所述,近年来,在自动驾驶以及机器人操作等的控制中,很好地适用了卷积神经网络等深度神经网络。并且,对于这样的深度神经网络,通过基于教师数据的模仿学习或强化学习,可被训练成输出所希望的操作量。

因此,考虑使用卷积神经网络等深度神经网络来进行最优控制。这是因为,认为:如果能够使用这样的深度神经网络来进行最优控制,则能够学习最优控制所需的动态以及成本函数、或者特别是难以记述的它们的参数。

然而,即使使用卷积神经网络等深度神经网络,也不能进行最优控制。这是因为这样的深度神经网络无论怎么学习都只会反射性地成长。也就是说,是因为这样的深度神经网络无论怎样学习都无法获得推测等泛化能力。

鉴于以上的事情,发明人想到了能够使用神经网络进行最优控制的控制装置以及控制方法。

即,本公开的一个技术方案的控制装置是用于进行基于路径积分的最优控制的控制装置,所述控制装置具备:神经网络,其具有机器学习后的动态模型以及成本函数;输入部,其将控制对象的当前状态和初始操作量序列输入到所述神经网络,所述初始操作量序列是以对所述控制对象的多个操作参数为成分的操作量序列;以及输出部,其输出用于控制所述控制对象的操作量序列,所述用于控制所述控制对象的操作量序列是所述神经网络使用所述动态模型以及所述成本函数根据所述当前状态和所述初始操作量序列而通过路径积分算出的操作量序列,所述神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有所述动态模型。

通过该构成,能够使包括双重循环神经网络的神经网络进行基于路径积分的最优控制,因此能够使用神经网络来进行最优控制。

在此,例如也可以是,所述第2循环神经网络具备:第1处理部,其具有所述第1循环神经网络和所述成本函数,使所述第1循环神经网络根据所述当前状态和所述初始操作量序列而利用蒙特卡罗法来算出各时刻的状态,使用所述成本函数来算出所述多个状态的成本;以及第2处理部,其基于所述初始操作量序列和所述多个状态的成本,算出对所述控制对象的操作量序列,所述第2处理部将所算出的操作量序列输出到所述输出部,并且作为所述初始操作量序列反馈给所述第2循环神经网络,所述第2循环神经网络使所述第1处理部根据由所述第2处理部反馈的操作量序列和所述当前状态来算出所述各时刻的接下来的各时刻的多个状态的成本。

通过该构成,能够使包括双重循环神经网络的神经网络利用蒙特卡罗法进行基于路径积分的最优控制。

进而,例如也可以是,所述第2循环神经网络还具备第3处理部,所述第3处理部产生在所述蒙特卡罗法中使用的随机数,所述第3处理部将所产生的随机数输出到所述第1处理部以及所述第2处理部。

另外,例如也可以是,所述成本函数是由神经网络构成的成本函数模型。

另外,本公开的一个技术方案的控制方法是用于进行基于路径积分的最优控制的控制装置的控制方法,所述控制装置具备神经网络,所述神经网络具有机器学习后的动态模型以及成本函数,所述控制方法包括:输入步骤,将控制对象的当前状态和初始操作量序列输入到所述神经网络,所述初始操作量序列是以对所述控制对象的多个操作参数为成分的操作量序列;和输出步骤,输出用于控制所述控制对象的操作量序列,所述用于控制所述控制对象的操作量序列是在所述神经网络使用所述动态模型以及所述成本函数而根据所述当前状态和所述初始操作量序列通过路径积分算出的操作量序列,所述神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有所述动态模型。

在此,例如也可以是,在所述输入步骤之前,还包括使所述动态模型以及所述成本函数进行机器学习的学习步骤,所述学习步骤包括:准备学习用数据来作为教师数据的步骤,所述学习用数据包括与所述控制对象的当前状态对应的预先准备的状态、与对所述控制对象的初始操作量序列对应的预先准备的初始操作量序列、以及根据预先准备的状态以及预先准备的初始操作量序列而通过路径积分预先算出的用于控制所述控制对象的操作量序列;和使用所述教师数据,利用误差反向传播法来学习所述神经网络的权重,由此使所述动态模型以及所述成本函数进行学习的步骤。

由此,能够使包括双重循环神经网络的神经网络学习最优控制所需的动态以及成本函数、或者它们的参数。

在此,例如也可以是,所述成本函数是由神经网络构成的成本函数模型。

以下说明的实施方式都表示本公开的一个具体例子。以下的实施方式中示出的数值、形状、构成要素、步骤、步骤的顺序等是一例,并非限定本公开的意思。另外,关于以下的实施方式中的构成要素中的未记载在表示最上位概念的独立权利要求中的构成要素,作为任意的构成要素来说明。另外,也可以在全部实施方式中组合各个实施方式的内容。

(实施方式)

以下,参照附图来说明实施方式的控制装置以及控制方法等。

[控制装置1的构成]

图1是表示本实施方式的控制装置1的构成的一例的框图。图2是表示图1所示的神经网络部3的构成的一例的框图。

控制装置1由使用了神经网络的计算机等来实现,对控制对象50进行基于路径积分的最优控制。例如如图1所示,控制装置1由输入部2、神经网络部3和输出部4构成。在此,控制对象50例如是进行自动驾驶的车辆或进行自主移动的机器人等进行最优控制的控制对象的系统。

<输入部2>

输入部2将控制对象的当前状态和初始操作量序列输入到本公开的神经网络,所述初始操作量序列是以对控制对象的多个操作参数为成分的操作量序列。

在本实施方式中,输入部2从控制对象50取得控制对象50的当前状态和以对控制对象50的初始的操作参数为成分的初始操作量序列并输入到神经网络部3。是指从时刻t_0到t_{n-1}为止的操作量的时间序列。

<输出部4>

输出部4输出用于控制控制对象的操作量序列,所述操作量序列是神经网络部3使用机器学习后的动态模型以及成本函数而根据当前状态和初始操作量序列通过路径积分算出的操作量序列。动态模型例如既可以是由神经网络构成的动态模型,也可以是由算式表示的函数。同样地,成本函数例如既可以是由神经网络构成的成本函数模型,也可以是由算式表示的函数。也就是说,对于动态以及成本函数,只要是事先能够机器学习的,则既可以由神经网络来构成,也可以由包括算式和参数的函数来构成。

在本实施方式中,输出部4将对通过输入部2从控制对象50取得的初始操作量序列进行了更新后的操作量序列输出到控制对象50。也就是说,控制装置1基于初始操作量序列推测控制对象50的将来的状态以及回报,将所算出的最优操作量的序列即操作量序列输出到控制对象50。

<神经网络部3>

神经网络部3由具有机器学习后的动态模型以及成本函数的神经网络构成。神经网络部3包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有机器学习后的动态模型。此外,以下,本公开的神经网络部3有时也称为路径积分控制神经网络。

并且,神经网络部3使用机器学习后的动态模型以及成本函数,根据当前状态和初始操作量序列,利用路径积分,算出用于控制控制对象的操作量序列。

在本实施方式中,如图2所示,神经网络部3具备算出部13。算出部13被输入部2输入控制对象50的当前状态和对控制对象50的初始操作量序列算出部13使用机器学习后的动态模型以及成本函数,利用路径积分,算出对初始操作量序列进行了更新后的操作量序列。并且,算出部13再次被输入更新后的操作量序列来作为初始操作量序列算出对已更新的操作量序列进一步更新后的操作量序列。如此,算出部13通过递归地更新操作量序列、例如u次递归地更新操作量序列,算出用于对控制对象50进行控制的操作量序列

此外,算出部13的递归地更新操作量序列的部分,相当于循环神经网络13a。循环神经网络13a例如是第2循环神经网络。

另外,u次被设定为大的数,以使得更新后的操作量序列充分收敛。设为动态模型由通过机器学习进行了参数化的函数f来表示。设为成本函数模型由通过机器学习进行了参数化的函数来表示。

图3a是表示图2所示的算出部13的构成的一例的框图。图3b是表示图2所示的算出部13的详细构成的一例的图。图4是表示图3b所示的蒙特卡罗模拟器部141的详细构成的一例的图。图5是表示图3b所示的第2处理部15的详细构成的一例的图。

例如如图3a所示,算出部13具备第1处理部14、第2处理部15和第3处理部16。此外,例如如图3b所示,算出部13还可以具备对通过输入部输入的初始操作量序列进行保存的保存部17,向第1处理部14以及第2处理部15输出该初始操作量序列。

《第1处理部14》

第1处理部14具有第1循环神经网络和成本函数,使第1循环神经网络根据当前状态和初始操作量序列并利用蒙特卡罗法来算出各时刻的状态,使用成本函数模型来算出多个状态的成本。另外,第1处理部14根据当前状态和由第2处理部15反馈给第2循环神经网络的操作量序列,算出各时刻的接下来的各时刻的多个状态的成本。

在本实施方式中,如图3b所示,第1处理部14具备蒙特卡罗模拟器部141和保存部142。

蒙特卡罗模拟器部141利用使用蒙特卡罗模拟对多个不同状态的时间序列进行概率采样的路径积分的结构。将状态的时间序列称为轨迹。例如如图4所示,蒙特卡罗模拟器部141使用机器学习后的动态模型1411和从第3处理部16输入的随机数,根据当前状态和初始操作量序列,算出以当前之后的时刻的状态为成分的状态的时间序列。进而,蒙特卡罗模拟器部141再次被输入所算出的状态的时间序列,更新该状态的时间序列。如此,蒙特卡罗模拟器部141通过例如n次递归地更新状态的时间序列,算出当前之后的各时刻的状态。另外,蒙特卡罗模拟器部141算出在终端成本算出部1412中第n次即最后算出的状态的成本,作为终端成本输出到保存部142。

更具体而言,例如设为,动态模型1411由来表示,成本函数模型1413由来表示,终端成本模型1412由来表示。α、β、r、γ是动态模型、成本函数模型的参数。该情况下,首先,蒙特卡罗模拟器部141将当前状态代入时刻ti的状态k是指示共k个状态的一个状态的索引。该k个状态被并行地处理。并且,蒙特卡罗模拟器部141根据状态和初始操作量序列使用作为动态模型1411的和随机数算出时刻ti之后的时刻ti+1的状态进而,蒙特卡罗模拟器部141再次被输入所算出的状态来作为时刻ti的状态更新k个状态蒙特卡罗模拟器部141将在终端成本算出部1412中第n次算出的状态输入到终端成本模型1412,将所得到的终端成本输出到保存部142。

另外,蒙特卡罗模拟器部141使用成本函数模型1413和从第3处理部16输入的随机数,根据初始操作量序列,计算所算出的各时刻的多个状态的成本即评价成本。

更具体而言,蒙特卡罗模拟器部141使用作为成本函数模型1413的和从第3处理部16输入的随机数将根据初始操作量序列而在第1~n-1次算出的各时刻的多个状态的成本作为评价成本输出到保存部142。

此外,蒙特卡罗模拟器部141的递归地算出多个状态的部分,相当于循环神经网络141a。循环神经网络141a例如是第1循环神经网络。另外,n次表示进行推测的时间步骤数。

保存部142例如是存储器,暂时保存n次的各时刻的多个状态的成本即评价成本并向第2处理部15进行输出。

《第2处理部15》

第2处理部15基于初始操作量序列和多个状态的成本,算出各时刻的对控制对象的操作量序列。第2处理部15将所算出的各时刻的操作量序列输出到输出部4,并且作为初始操作量序列反馈给第2循环神经网络。

在本实施方式中,例如如图5所示,第2处理部15具备成本累计部151和操作系更新部152。

成本累计部151算出对保存部142所保存的n次的各时刻的多个状态的成本进行了累计而得到的累计成本。更具体而言,成本累计部151使用下述的(式1),算出对保存部142所保存的n次的各时刻的多个状态的成本进行了累计而得到的累计成本

操作系更新部152根据初始操作量序列、由成本累计部151累计得到的n次的各时刻的多个状态的成本、以及从第3处理部16输入的随机数,算出对初始操作量序列进行了更新后的对控制对象50的操作量序列。更具体而言,操作系更新部152使用下述的(式2),根据初始操作量序列由成本累计部151算出的累计后的累计成本以及从第3处理部16输入的随机数算出对控制对象50的操作量序列

《第3处理部16》

第3处理部16产生在蒙特卡罗法中使用的随机数。第3处理部16将所产生的随机数输出到第1处理部14以及第2处理部15。

在本实施方式中,如图3b所示,第3处理部16具备噪声产生部161和保存部162。

噪声产生部161例如产生高斯噪声来作为随机数并保存于保存部162。

保存部162例如是存储器,暂时保存随机数并向第1处理部14以及第2处理部15进行输出。

[控制装置1的工作]

以下对如上述那样构成的控制装置1的工作的一例进行说明。

图6是表示本实施方式的控制装置1的处理的流程图。控制装置1具备作为本公开的神经网络的路径积分控制神经网络。该路径积分控制神经网络具有机器学习后的动态模型以及成本函数。另外,该路径积分控制神经网络包括双重循环神经网络。即,如上所述,该路径积分控制神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有动态模型。

首先,控制装置1将控制对象50的当前状态和初始操作量序列输入到作为本公开的神经网络的路径积分控制神经网络,所述初始操作量序列是以对控制对象的多个操作参数为成分的操作量序列(s11)。

接着,控制装置1使该路径积分控制神经网络使用机器学习后的动态模型以及成本函数,根据在s11中输入的当前状态和初始操作量序列,利用路径积分,算出用于控制控制对象50的操作量序列(s12)。

然后,控制装置1输出在s12中通过该路径积分控制神经网络算出的用于控制控制对象50的操作量序列(s13)。

[学习处理]

在本公开中,为了使用神经网络学习最优控制所需的动态以及成本函数、或者它们的参数,着眼于作为最优控制器之一的路径积分控制器。这是因为为了实现路径积分控制器而公式化的函数是可微分的,所以能够适用作为合成函数的微分公式的链式法则。另外,深度神经网络能够解释为作为可微分函数的庞大集合体、且能够通过链式法则进行学习的合成函数。并且,只要遵守可微分这一原则,则可知能够构成任意形状的深度神经网络。

根据以上所述,想到了:对于路径积分控制器,可通过可微分函数进行公式化、并且能够适用链式法则,所以能够使用能利用误差反向传播(backpropagation)法学习全部参数的深度神经网络来实现。更具体而言,作为深度神经网络之一的循环神经网络能够解释为将同一函数串行地执行多次即串联排列函数而得到的神经网络。据此,想到了路径积分控制器能够通过循环神经网络来表现。

由此,能够使用神经网络来学习路径积分控制所需的动态以及成本函数、或者它们的参数。进而,如上所述,通过使用具有学习后的动态以及成本函数等的神经网络,能够实现路径积分控制即基于路径积分的最优控制。

以下,对路径积分控制所需的动态以及成本函数的参数的学习处理进行说明。

图7是表示本实施方式中的学习处理的概念图的一例的图。神经网络部3b具有学习前的动态模型以及成本函数模型。通过学习这些动态模型以及成本函数模型,能够适用于构成控制装置1的神经网络部3所具有的动态模型以及成本函数模型。

图7中示出了使神经网络部3b进行使用教师数据5并利用误差反向传播法来学习动态模型以及成本函数模型的学习处理的情况下的例子。此外,在没有教师数据的情况下,也可以使用强化学习来进行学习处理。

图8是表示本实施方式中的学习处理s10的概要的流程图。

在学习处理s10中,首先,准备学习用数据(s101)。更具体而言,准备如下的学习用数据,该学习用数据包括与控制对象50的当前状态对应的预先准备的状态、与对控制对象50的初始操作量序列对应的预先准备的初始操作量序列、以及根据预先准备的状态以及预先准备的初始操作量序列并利用路径积分预先算出的用于控制控制对象的操作量序列。在本实施方式中,准备包括状态和操作序列的组的熟练者的操作历史记录来作为学习用数据。

接着,计算机使用所准备的学习用数据来作为教师数据,利用误差反向传播法来学习神经网络部3b的权重,由此学习动态模型以及成本函数模型(s102)。更具体而言,计算机使用学习用数据,使神经网络部3b根据学习用数据所包含的预先准备的状态和预先准备的初始操作量序列,利用路径积分来算出操作量序列。然后,计算机通过预先准备的评价函数等来评价误差,该误差是使神经网络部3b利用路径积分而算出的操作量序列与学习用数据所包含的预先准备的操作量序列之差,以使得误差变小的方式更新动态模型以及成本函数模型的参数。进而,计算机调整或更新动态模型以及成本函数模型的参数,直到在学习处理中通过预先准备的评价函数等评价的误差达到最小或不再变动的状态。

如此,计算机利用通过预先准备的评价函数等进行评价、以使得误差变小的方式反复更新动态模型的参数的误差反向传播法,使神经网络部3b学习动态模型以及成本函数模型。

在本实施方式中,通过如此进行学习处理s10,能够使控制装置1所使用的神经网络部3学习动态模型以及成本函数模型。

此外,在教师数据中包含以(状态、操作、下一状态)为组的数据的情况下,动态模型能够使用该数据独立地进行有教师学习。也可以在将独立地学习后的动态模型组入神经网络部3中并对动态模型的参数进行了固定之后,使用学习处理s10来仅学习成本函数模型。动态模型的有教师学习方法是已知的,因此省略说明。

以下,将神经网络部3称为作为本公开的神经网络的路径积分控制神经网络来进行说明。

[基于实验的验证]

通过实验对具有学习后的动态以及成本函数模型的路径积分控制神经网络的有效性进行了验证,因此对该实验结果进行说明。

作为最优控制的问题,存在如下的单摆的摆起控制:摇晃朝下的单摆,持续下去,直到倒立的状态为止。在本实验中,使用基于熟练者的教师数据来模仿学习在摆的摆起控制中使用的动态和成本函数,通过模拟来进行摆的摆起控制,由此验证了其有效性。

<教师数据>

在本实验中,设为熟练者是具有真的动态和成本函数的最优控制器。并且,通过下述的(式3)来提供真的动态,通过下述的(式4)来提供成本函数。

在此,θ为摆的角度,k为模型参数,u为转矩即操作入力。

<实验结果>

图9是表示本实验的控制模拟结果的图。

在本实验中,动态以及成本函数通过具有一层隐藏层的神经网络来表现。并且,在利用上述的方法用教师数据独立地学习了动态之后,利用误差反向传播法学习了成本函数以使得进行所希望的输出。在图9的“controllers”中,将进行了这样的学习处理的处理路径积分控制神经网络表现为“trained”。另外,在图9的“controllers”中,将用上述的教师数据独立地学习了动态、且未进行成本函数的学习而提供了(式4)所示的真的成本函数的路径积分控制神经网络表现为的“freezed”。另一方面,在图9的“controllers”中,将非专利文献2中示出的vin(valueiterationnetwork:值迭代网络)表现为“比较例”。如非专利文献2所述,vin是利用误差反向传播法学习状态转换模型和回报模型的神经网络。在本实验中,以状态转换模型作为动态、以回报模型作为成本函数,使用上述的教师数据使vin进行了学习。

另外,图9所示的项目msefordtrain表示相对于教师数据的误差,图9所示的项目msefordtest表示相对于评价数据的误差即泛化误差。图9所示的项目successrate表示摆起的成功率,将实际进行控制而顺利地成功摆起的情况表示为成功率100%。图9所示的项目traj.costs(τ)表示累计成本,表示到变为作为朝下的单摆处于倒立状态的摆起状态为止的轨迹的成本。图9所示的项目trainableparams表示参数个数。

如图9所示,可知“trained”的泛化性能最高。另外,“freezed”的泛化性能比“trained”的泛化性能低,认为是由于通过第1学习处理进行了学习后的动态在第2学习处理中未被最优化之故。也就是说,对于“freezed”,认为是通过第1学习处理进行了学习后的动态的误差产生影响而导致泛化性能变低。

另一方面,在比较例中,摆起控制的成功率为0%,未成功摆起。也就是说,在比较例中,认为要学习的参数个数过多,发生了状态爆炸。据此,在比较例的神经网络中,可知难以进行动态和成本函数的学习。

接着,使用图10a~图10c来说明本实验中的学习结果。

图10a是表示真的成本函数的图,对上述的(式4)中示出的成本函数进行了可视化。图10b是表示学习后的路径积分控制神经网络的成本函数的图,对本实验中的“trained”中学习后的成本函数进行了可视化。图10c是表示学习后的比较例的神经网络的成本函数的图,对本实验中的比较例中学习后的成本函数进行了可视化。

比较图10a和图10b可知,“trained”的成本函数即路径积分控制神经网络的成本函数,学习到与真的成本函数接近的形状。

另一方面,从图10c可知,比较例的成本函数没有形状。这表示在比较例的神经网络中无法学习成本函数。

根据以上的实验结果可知,作为本公开的神经网络的路径积分控制神经网络能够以与真的成本函数接近的形状来学习成本函数。另外,可知使用了学习后的成本函数的该路径积分控制神经网络的泛化性能高。

根据以上所述,可知,作为本公开的神经网络的路径积分控制神经网络,不仅能够学习最优控制所需的动态以及成本函数,还能够获得泛化性能并进行推测。

[效果等]

通过如上述那样使用作为本公开的神经网络的包括双重循环神经网络的路径积分控制神经网络,能够学习基于路径积分的最优控制所需的动态以及成本函数、或者它们的参数。另外,该路径积分控制神经网络能够获得比模仿学习高的泛化性能,因此,通过使用路径积分控制神经网络,能够实现也能进行推测的控制装置等。也就是说,根据本实施方式的控制装置以及控制方法,能够使包括双重循环神经网络的神经网络进行基于路径积分的最优控制,因此能够使用神经网络来进行基于路径积分的最优控制。

进而,如上所述,在路径积分控制神经网络的动态以及成本函数的学习中,能够使用误差反向传播法等在神经网络的学习中已有的学习方法。也就是说,根据本实施方式的控制装置以及控制方法,能够使用已有的学习方法来简单地学习最优控制所需的动态以及成本函数等难以记述的参数。

另外,根据本实施方式的控制装置以及控制方法,因为利用能够用可微分的合成函数来表现的路径积分控制神经网络,所以能够实现用连续值进行控制对象的状态以及操作的连续控制。另外,根据本实施方式的控制装置以及控制方法,因为利用能够用可微分的合成函数来表现的路径积分控制神经网络,所以能够灵活地表现成本函数。也就是说,成本函数不仅能够用神经网络的模型来表现,即使用算式表现,也能够使用神经网络进行学习。

(变形例1)

在上述的实施方式中,设为神经网络部30仅具有算出部13、并输出算出部13算出的操作量序列来进行了说明,但并不限于此。也可以将算出部13算出的操作量序列进行平均化并进行输出。以下,将该情况作为变形例1,以与实施方式不同之处为中心来进行说明。

[神经网络部30]

图11是表示变形例1中的神经网络部30的构成的一例的框图。对与图2同样的要素标注同一标号,省略详细的说明。

图11所示的神经网络部30相对于图2所示的神经网络部3,结构不同之处在于,还具备乘法运算器31、加法运算器32和延迟部33。

<乘法运算器31>

乘法运算器31对算出部13算出的操作量序列乘以权重,并输出到加法运算器32。更具体而言,乘法运算器31在算出部13每次更新操作量序列时乘以权重wi,并输出到加法运算器32。此外,算出部13通过如上述那样u次递归地更新操作量序列,算出用于控制控制对象的操作量序列并且,因为越是算出部13在后更新的操作量序列,则该操作量序列的偏差越少,所以权重wi被决定为满足下述的(式5)、且算出部13的更新次数越大则该权重就越大。

<加法运算器32>

加法运算器32输出将乘法运算器31输出的乘上了权重的操作量序列和在此之前乘法运算器31已输出的乘上了权重的操作量序列进行加法运算而得到的操作量序列。更具体而言,加法运算器32通过对乘法运算器31输出的乘上了权重的全部操作量序列进行加法运算,将对算出部13已输出的全部操作量序列进行加权平均后的平均操作量序列作为神经网络部30的输出来输出。

<延迟部33>

延迟部33使加法运算器32的加法运算结果延迟一定时间,在要更新的时刻提供给加法运算器32。如此,延迟部33通过使加法运算器32对乘法运算器31输出的乘上了权重的全部操作量序列进行累计,能够使加法运算器32对算出部13已输出的全部操作量序列进行加权平均。

此外,本变形例的控制装置的其他构成以及工作,同上述的实施方式的控制装置1的其他构成以及工作中说明的一样。

[效果等]

根据本变形例的控制装置,不是将由算出部13更新后的操作量序列直接输出,而是将越往后更新的操作量序列则乘上越大的权重的操作量序列进行累计而进行输出。由此,更新次数越大,则会成为偏差越少的操作量序列,因此能够有效地对其加以利用。换言之,即使在因利用误差反向传播法对循环神经网络进行学习而导致梯度降低的情况下,也能够通过以越往后更新的操作量序列则加权越大的方式实施平均化来解决。

(其他实施方式的可能性)

以上,在实施方式中对本公开的控制装置以及控制方法进行了说明,但本公开并不限定于上述实施方式。例如,也可以将对本说明书中记载的构成要素进行任意组合、另外排除几个构成要素而实现的其他实施方式设为本公开的实施方式。另外,在不脱离本公开的主旨即权利要求书所记载的语言所表示的意思的范围内对上述实施方式实施本领域技术人员能想到的各种变形而得到的变形例也包含在本公开中。

另外,本公开进一步,也包括以下这样的情况。

(1)上述的装置具体是由微处理器、rom、ram、硬盘单元、显示器单元、键盘、鼠标等构成的计算机系统。在所述ram或硬盘单元中存储有计算机程序。所述微处理器按照所述计算机程序进行工作,由此各装置实现其功能。在此,计算机程序是为了实现预定功能而组合多个表示对计算机的指令的命令代码而构成的。

(2)构成上述装置的构成要素的一部分或全部,也可以由一个系统lsi(largescaleintegration:大规模集成电路)构成。系统lsi是将多个构成部接成语一个芯片上而制造出的超多功能lsi,具体而言,是包含微处理器、rom、ram等而构成的计算机系统。在所述ram中存储有计算机程序。所述微处理器按照所述计算机程序进行工作,由此系统lsi实现其功能。

(3)构成上述装置的构成要素的一部分或全部,也可以由能够装卸于各装置的ic卡或单体模块构成。所述ic卡或所述模块是由微处理器、rom、ram等构成的计算机系统。所述ic卡或所述模块也可以包括上述的超多功能lsi。微处理器按照计算机程序进行工作,由此所述ic卡或所述模块实现其功能。该ic卡或该模块可以具有防篡改性能。

(4)另外,本公开也可以是上述所示的方法。另外,也可以是通过计算机实现这些方法的计算机程序,还可以是由所述计算机程序形成的数字信号。

(5)另外,本公开也可以将所述计算机程序或所述数字信号记录于计算机可读取的记录介质,例如软盘、硬盘、cd-rom、mo、dvd、dvd-rom、dvd-ram、bd(blu-ray(注册商标)disc)、半导体存储器等。另外,也可以是记录在这些记录介质中的所述数字信号。

另外,本公开也可以将所述计算机程序或所述数字信号经由电通信线路、无线或有线通信线路、以互联网为代表的网络、数据广播等进行传输。

另外,本公开也可以是具备微处理器和存储器的计算机系统,所述存储器存储有上述计算机程序,所述微处理器按照所述计算机程序进行工作。

另外,也可以是,通过将所述程序或所述数字信号记录在所述记录介质中并进行移送、或者经由所述网络等将所述程序或所述数字信号进行移送,由此通过独立的其他的计算机系统来实施。

产业上的可利用性

本公开能够利用于进行最优控制的控制装置以及控制方法。本公开特别能够利用于使用深度神经网络学习动态以及成本函数等难以记述的参数,使用学习后的动态以及成本函数使深度神经网络进行最优控制的控制装置以及控制方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1