机器人装置、机器人装置的主体单元和连接单元的制作方法

文档序号：6269419阅读：216来源：国知局

专利名称：机器人装置、机器人装置的主体单元和连接单元的制作方法
技术领域：
本发明涉及机器人装置、机器人装置的主体单元和机器人装置的连接单元，并且特别适用于例如根据来自外部的信息自己确定动作的自动型机器人装置。
背景技术：
最近人们已经提出了一种自动型机器人装置，它根据外部控制装置输入的命令信号和安装在预定位置的传感器输入的外界图象信息由自己确定动作。当命令信号和图象信息从控制设备和传感器输入时，这种自动型机器人装置配置为首先进行随机动作，然后随着机器人装置逐步地重复这种动作才逐渐地开始执行适于输入命令信号和图象信息的动作。
具体地说，当命令信号和图象信息从控制装置和传感器输入和机器人装置进行随机动作时，这种自动机器人不仅把输入的命令信号和图象信息且还把机器人执行动作的信息作为学习数据存储到内部存储装置中。当随后输入的命令信号与过去输入并存储在存储装置中的命令信号相同时，自动型机器人装置根据预定的参数对存储装置中存储的过去的学习数据和新近的学习数据进行估算。
当自动型机器人装置判定新学习的数据具有高于过去的学习数据的值时，机器人装置检测来自存储装置的过去学习数据并重新存储新学习数据，或者，另一方面，当机器人装置判定过去学习数据具有高于新学习数据的值时，机器人装置保留存储装置中的过去学习数据并取消新学习数据。在上述的把学习数据逐渐写入存储装置中的时候通过累积学习数据，自动型机器人装置获得了根据外部给定的命令自动地确定动作的能力。作为在这种情形下存储学习数据的一种模式，自动型机器人装置采用在单个存储装置中存储和管理学习数据的集中管理模式。
尽管存在不需要分离每个单元的整体型机器人装置，比如自动型机器人装置，但目前已经在考虑包括多个单元的机器人装置。作为包括多个单元的机器人装置，人们已经提出例如通过连接相当于动物头部的头部部件、相当于身体的主体部件和相当于脚的动作部件进行配置的机器人装置。
由多个单元配置的机器人装置事实上通过组合一些期望的单元构成，这些期望的单元从包括多个头部部件单元的一个头部部件单元组、包括多个主体部件单元的一个主部件单元组和包括多个动作部件单元的动作部件单元组中选出。例如，当这种条件下的机器人装置需要调换头部部件单元时，机器人装置允许通过从头部部件单元组中选择一个期望的头部部件单元，并用从头部部件单元组中选择的头部部件单元换下当前连接的头部部件单元来修改单元的组合。
当包括多个单元的机器人装置采用集中管理模式作为存储学习数据的模式时，机器人装置通过在主体部件单元的存储装置中存储和管理学习数据来配置。例如，在机器人装置已经按足以启动自动动作的程度获取学习数据之后，动作部件单元被调换为在这种机器人装置中具有不同功能的另一个动作部件单元时，则不可能使主体部件单元的存储装置存储足以使这另一个动作部件单元在调换后充分展现其功能的学习数据。在这种情况下，机器人装置必须在调换之后从头开始重新获取用于动作部件单元的学习数据，从而造成了机器人装置需要花费劳动和时间去获取学习数据的问题。
本发明的公开本发明已经解决了上述的问题，并且提出了与传统的机器人装置相比能够显著提高使用便利性的机器人装置。
为了解决这一问题，本发明提供了一种机器人装置，它通过组合和连接从多种连接单元中选择的所期望的连接单元进行配置并根据从外部输入的输入信息自动地执行预定的动作，其中存储装置被安装在连接单元中，将出自所述输入信息和机器人装置作为整体响应于所述输入信息的动作历史的所述输入信息和连接单元本身响应于所述输入信息的动作历史存储为学习数据。
通过将出自所述输入信息和机器人装置作为整体响应于所述输入信息的动作历史的所述输入信息和连接单元本身响应于所述输入信息的动作历史存储为学习数据，即使连接单元被调换，机器人装置也能够不修改地直接使用新连接单元的学习数据来确定换上的新连接单元的动作，并且不必在调换后从头开始获取新连接单元的学习数据，从而节省了获取学习数据的劳动和时间。因此，即使连接单元被调换，机器人装置也能够不用修改地直接使用新连接单元的学习数据来确定换上的新连接单元的动作，从而展现了显著高于传统的机器人装置的使用便利性。
此外，本发明提供了一种机器人装置，它通过组合和连接从各类现存的连接单元中选出的期望连接单元进行配置和根据外部给定的输出信息执行预定动作，其中机器人装置包括动作控制装置，用于根据外部给定的输入信息执行与连接单元的组合相匹配的动作；存储装置，根据输入信息存储作为组合学习数据的连接单元的组合和动作控制装置的动作历史；输出装置，需要时从存储装置中读出组合学习数据并向外输出组合的学习数据。
由于存储装置根据输入信息把连接单元的组合和控制装置的动作历史存储为组合学习数据和当需要时从存储装置中读出组合学习数据并借助输出装置向外输出，因此用户能够容易地判定适于执行期望动作的组合。因此，机器人装置可以有显著高于传统的机器人装置的使用便利性。
附图的简要说明

图1是显示本发明的机器人装置的一个实施例的示意图；图2是显示组成机器人装置的单元组的示意图；图3是显示被优选为本发明第一实施例的机器人装置的电路配置的方框图；图4是显示第一实施例中的融合学习数据的步骤的流程图；图5是显示产生组合学习数据的步骤的流程图；图6是被优选为第二实施例的机器人装置的电路配置的方框图；图7是描述适合于各个单元存储部分的各类表的原理图；图8是描述状态换算表的原理图；图9是显示动作确定表和估算值表的原理图；图10是描述动作换算表的原理图；图11是描述由第二实施例的主体部件单元的CPU执行的处理的方框图；图12是描述第二实施例的融合学习数据的步骤的流程图。
执行本发明的最佳模式下面将参照附图详细说明本发明的实施例。
(1)第一实施例(1-1)机器人装置的配置在图1中，参考标号1指整个机器人装置，它通过连接相当于动物头部的头部部件单元2A、相当于身体的主体部件单元3A和相当于脚的动作部件单元4A来配置(成形)，并且管理分布在这些单元中的用于自动确定动作的学习数据。
机器人装置1机器人装置是通过以下选择进行配置的从包括多种类型的头部部件单元2A至2C的头部部件单元组2中选择头部部件单元2A，从包括多种类型的主体部件单元3A至3B的主体部件单元组3中选择主体部件单元3A，和从包括多种类型的动作部件单元4A至4D的动作部件单元组4中选择动作部件单元4A，并按预定的条件连接这些所选择的部件单元。
机器人装置1允许按下述方式进行配置，当需要调换动作部件单元4A时，通过(例如)从动作部件单元组4中选择动作部件单元4C并换下当前连接的动作部件单元4A来修改各单元的组合。
动作部件单元4A是具有以短步长快速奔跑功能的单元，而动作部件单元4C是具有捕获目标对象功能的单元，并且每个单元所获得的学习数据包括允许该单元展示其功能的数据。因此，在动作部件单元4A被调换为动作部件单元4C之后，机器人装置1不可能通过把动作部件单元4A所获得的学习数据施加给动作部件单元4C使动作部件4C充分展示其功能。因此，机器人装置1被配置来管理在各单元中分布学习数据，以便甚至在一个单元被调换时也能使被调换所用的新单元充分展示其功能。
(1-2)机器人装置的电路配置接下来，图3显示了机器人装置1的电路配置。当用户首先通过发出一个预期的声音给定目标动作时，主体部件单元3用麦克风10收集声音并把由此获得的声音信号S1输入给信号处理器11。信号处理器11执行对声音信号S1的预定处理，并向被设置为动作控制装置的CPU(中央处理单元)12发送与上述目标动作相对应的目标动作数据S2。
主体部件单元2采用由CCD(电荷耦合器件)摄像机组成的传感器15拾取周围环境的图象，并经由管理总线的串行总线主控制器16向CPU12发送包含由此获得的图象数据的观测数据S3。此时，头部部件单元2经由集线器21向主体部件单元3和CPU22发送观测数据S10，该观测数据S10包含由CCD摄像机组成的传感器20所获取的图象数据。主体部件单元3将观测数据S10连续地经由集线器25和串行总线主控制器16输入给CPU12。
同样地，动作部件单元14经由集线器29向主体部件单元3和CPU30发送经由传感器28获得的观测数据并经由集线器25和主体部件单元3的串行总线主控制器16向CPU12发送该观测数据。传感器28由CCD摄像机、电位计、检测器或类似物组成。
当目标动作数据被输入时，CPU12首先产生整体上动作机器人装置1的驱动信号S15，然后以驱动信号S15为基础产生用于驱动主体部件单元3的主体部件驱动信号S16，并经由串行总线主控制器16向致动装置32发送该信号，从而驱动致动装置32以允许主体部件单元3执行例如摇尾巴的动作。同时，CPU12经由串行总线主控制器16和集线器25向头部部件单元2和动作部件单元4连续地发送驱动信号S15。
头部部件单元2将主体部件单元3供给的驱动信号S15经由集线器21输入给CPU22。以该驱动信号S15为基础，CPU22产生用于驱动头部部件单元2的头部部件驱动信号S17并将该信号经由集线器21发送给致动装置36，从而驱动致动装置36以动作头部部件单元2。
同样地，动作部件单元4将主体部件单元3供给的驱动信号S15经由集线器29输入给CPU30。以该驱动信号S15为基础，CPU30产生用于驱动动作部件单元4的动作部件驱动信号S18并将该信号经由集线器29发送给致动装置41，从而驱动致动装置41以动作动作部件单元4。
此时，主体部件单元3的CPU12将经由麦克风10输入的目标动作数据S2、经由传感器15输入的观测数据S3和用于驱动主体部件单元3的主体部件驱动信号S16作为学习数据存储到存储部分45中。
CPU12通过经由串行总线主控制器16和集线器25连续地向头部部件单元2和动作部件单元4发送目标动作数据来进行配置。当目标动作数据S2从主体部件单元3供给时，头部部件单元2的CPU35将目标动作数据S2、经由传感器20输入的观测数据S10和用于驱动头部部件单元2的头部部件驱动信号S17作为学习数据S22存储到存储部分47中。
当目标动作数据S2从主体部件单元3供给时，动作部件单元4的CPU30将目标动作数据S2、经由传感器28输入的观测数据S13和用于驱动动作部件单元4的动作部件驱动信号S18作为学习数据S24存储到存储部分47中。
机器人装置1通过连续地重复上述动作将学习数据存储到各单元的存储部分45、47和49中。当输入与存储部分45中存储的目标动作数据S2相同的目标动作数据S2来随后操作机器人装置1时，主体部件单元3的CPU12根据预定标准估算存储部分45中存储的过去的学习数据S20和此时新输入的学习数据S20。
因而，当此时输入的学习数据S20被估算为高于过去学习数据S20时，主体部件单元3的CPU12从存储部分45中删除过去的学习数据S20并重新存储新输入的学习数据S20。而当过去的学习数据S20被估算为高于新输入的学习数据S20时，CPU12允许过去的学习数据S20保留在存储部分45中并删除此时获得的学习数据S20。
同样地，头部部件单元2的CPU22在更新存储部分47中存储的学习数据S22的时候累积学习数据S22，动作部件单元4的CPU30在更新存储部分49中存储的学习数据S24的时候累积学习数据S24。
机器人装置1通过逐步地获取上述的学习数据而获得了确定适合于外部给定命令的动作的能力，并且作为管理获得的学习数据的模式，采用面向对象的学习模式来管理各单元中分布的学习数据。
(1-3)学习数据的融合至于存储经重复上述动作而获得的学习数据的动作部件单元4A和4C(图2)，将按下述情形进行说明新学习的数据是根据动作部件单元4A中存储的学习数据和动作部件单元4C中存储的学习数据而产生(以下称为融合)的，并且该融合数据是要被存储在动作部件单元4C中的。
当用户第一次将动作部件单元4A与主体部件单元2A连接时，动作部件单元4A的CPU30从动作部件单元4A的存储部分49中读出学习数据S24，并经由集线器29、主体部件单元3A的集线器25和串行总线主控制器16连续地将该数据传递和存储到存储部分45中。
然后，用户将动作部件单元4A与主体部件单元2A分离并重新将动作部件单元4C与主体部件单元2A相连接。一旦连接，动作部件单元4C的CPU30就从动作部件单元4C的存储部分49中读出学习数据S24，并经由集线器29、主体部件单元3A的集线器25和串行总线主控制器16连续地将该数据传递和存储到存储部分45中。
CPU12是主体部件单元3A的学习数据融合装置，它包括一个诸如存储器的工作区域，CPU12从存储部分45中读出动作部件单元4A的学习数据和动作部件单元4C的学习数据，并把该数据传递到工作区域。CPU12产生新的学习数据，也就是，在工作区域中，将动作部件单元4A的学习数据与动作部件单元4C的学习数据相融合而形成融合学习数据，并经由串行总线主控制器16、集线器25和动作部件单元4C的集线器29连续地将产生的融合学习数据传递和存储到动作部件单元4C的存储部分49中。
因此，动作部件单元4C不仅具有以自己获取的学习数据为基础的动作能力，而且还具有以动作部件单元4A获取的学习数据为基础的动作能力，从而能够在不需要学习动作的条件下提高自身的动作能力。
(1-4)学习数据的数据结构下面将说明学习数据的数据结构。动作部件单元4获取的学习数据S24包括例如，命令数据T，指示由用户命令的目标动作数据S2；矢量g，指示从传感器28输入的观测数据S13的状态；矢量a，指示供给致动装置41的动作部件驱动信号S18，它们分别表示为数据T、矢量g和矢量a。
具体地说，指示目标动作数据S2的命令数据T是指示例如“前进”、“踢”、“跳跃”或类似动作的数据。指示从传感器28输入的观测数据S13的状态的矢量g被表示为具有Gm={g(1)，g(2)，g(3)，…，g(m)}的m维数的状态矢量，其中m表示状态的数目，即，观测数据S13的一种字符量。指示供给致动装置41的动作部件驱动信号S18的动作矢量a被表示为具有An={a(1)，a(2)，a(3)，…，a(n)}的n维数的动作矢量，其中n相当于动作部件单元4中的电机的数目。
分别取动作部件单元4A的学习数据和动作部件单元4B的学习数据作为(数据T1、矢量g1、矢量a1)和(数据T2、矢量g2、矢量a2)，下面将连续地说明数据被融合和存储到动作部件单元4B中的情况。在这种情况下，当学习数据(数据T1、矢量g1、矢量a1)等于学习数据(数据T2、矢量g2、矢量a2)相同时，主体部件单元3的CPU12不需要执行融合处理，并且存储任何一种数据以作为融合学习数据。
当命令数据T1与命令数据T2相同和状态矢量g1不同于状态矢量g2和／或动作矢量a1不同于动作矢量a2时，主体部件单元3的CPU12根据估算函数分别估算学习数据，选择和存储具有较高估算结果的那一个学习数据以作为融合学习数据，并删除具有较低估算结果的学习数据，上述的估算函数使用了基于给定命令的动作所需的时间和功率消耗作为参数。当命令数据T1不同于命令数据T2时，即，当各目标动作不同时，主体部件单元3的CPU12把学习数据(数据T1，矢量g1、矢量a1)和学习数据(数据T2、矢量g2，矢量a2)存储为融合学习数据。
例如，当主体部件单元3的CPU12将动作部件单元4A的学习数据“射击动作”与动作部件单元4B的学习数据“通过动作”相融合时，CPU12产生融合学习数据“射击和通过动作”。当主体部件单元3的CPU12将头部部件单元4A的学习数据“从点A到点B的导航能力”与头部部件单元4B的学习数据“从点B到点A的导航能力”融合在一起时，CPU12产生融合学习数据“从点A到点C的导航能力”。通过融合上述的学习数据，头部部件单元3的CPU12增强了每个单元的能力。
(1-5)适合于目标动作的各单元组合的学习处理下面将说明所谓的增强的学习处理，它确定适合于给定目标动作的各单元组合并产生组合的学习数据。用户给主体部件单元3A一个目标动作之后，用户通过例如连接头部部件单元2A、主体部件单元3A和动作部件单元4A来配置机器人装置1(图1)。
头部部件单元2A的CPU22从存储部分47读出用于指示头部部件单元2A的标识信息S30，并将该信息经由集线器21、主体部件单元3A的集线器25和串行总线控制器16发送给CPU12。此外，动作部件单元4A的CPU30从存储部分49读出用于指示动作部件单元4A的标识信息S31，并将该信息经由集线器29、主体部件单元3A集线器25和串行总线控制器16发送给CPU12。
主体部件单元3A的CPU12从存储部分45读出用于标识主体部件单元3A的标识信息S35，将主体部件单元3A的标识信息S35、头部部件单元2A的标识信息S30和动作部件单元4A的标识信息S31存储到存储部分45中，作为指示当前各单元组合的连接信息，并根据目标动作数据S2设置目标和执行动作。
此时，主体部件单元3A的CPU12以设置目标作为标准判断执行动作是否是成功的。结果，当CPU12判定执行的动作是成功时，则认为各单元的当前组合适合于目标动作，CPU12将外部给定的目标动作数据送给存储部分45，从而把目标动作数据S2和上述的连接信息存储到存储部分45中以作为组合学习数据。
与此相反，当CPU12判定执行的动作失败时，CPU12产生包含动作失败的执行结果信号S40，用信号处理器11执行这一信号的预定处理并把该信号发送给显示部分50使之显示“任务失败。调换单元”。显示部分50是作为由液晶显示器组成的输出装置而设置的。当用户根据该显示调换(例如)动作部件单元4A，则主体部件单元3A的CPU12在存储部分45中更新和存储连接信息S37，并再次执行目标动作。通过重复这种动作，机器人装置可以获得包括适合于用户给定的目标动作的各单元组合的学习数据。
(1-6)融合学习数据的步骤和主体部件单元3的CPU12产生组合学习数据的步骤下面采用图4所示的流程图说明融合学习数据的步骤，例如将动作部件单元4A(图2)的学习数据S24与动作部件单元4B(图2)的学习数据S24相融合的步骤。顺便说明，其它单元的学习数据同样也被融合，但不作具体说明。
在从步骤SP1进行到步骤SP2上，动作部件单元4A首先与主体部件单元3S相连接，此时主体部件单元3A的CPU12经由集线器25从动作部件单元4A的存储部分49中读出学习数据S24，并将该学习数据S24传递给存储部分45。
在步骤SP3，CPU12确认用户把动作部件单元4A与主体部件单元3A相分离的情况，并为调换目的而将动作部件单元4B重新连接到主体部件单元3A上，然后处理进行到下一个步骤SP4。在步骤SP4上，主体部件单元3A的CPU12从新近连接的动作部件单元4B的存储部分49中读出学习数据S24并把该数据传递到存储部分45，此后通过将动作部件单元4A的学习数据与动作部件单元4B的学习数据相融合产生融合的学习数据并把该融合的学习数据存储到存储部分45中。
在相继的步骤SP5上，主体部件单元3A的CPU12将产生的学习数据经由集线器25发送给动作部件单元4B的存储部分49，从而将该数据按标题存储在存储部分49中。在步骤SP6中，主体部件单元3A的CPU12删除存储在存储部分45中的融合的学习数据并返回到步骤SP1以重复动作。
下面将采用图5的流程图连续说明产生组合学习数据的步骤。在从步骤SP10进入的步骤SP11上，当目标动作数据S2从外部给定时，和在步骤SP12上，当连接所需单元例如头部部件单元2A和动作部件单元4A时，主体部件单元3A的CPU12把此时指示各单元组合的连接信息存储到存储部分45上，根据目标动作数据S2设置一个目标并执行与一个目标动作相匹配的任务。
在步骤SP13上，主体部件单元3A的CPU12以设置的目标作为标准判断所执行的任务是否成功的。当主体部件单元3A的CPU12判定该任务是成功时，CPU12进行到步骤SP14，或者当CPU12判定该任务是失败时，CPU12进行到步骤SP15。
假定当前组合适合于步骤SP14上的给定目标动作，则主体部件单元3A的CPU12把目标动作和所述的连接信息存储在存储部分45中作为组合数据。与此相反，在步骤SP15上，主体部件单元3A的CPU12允许显示部分50显示预定的消息，从而促使用户调换单元。当用户根据显示部分50的指示调换单元时，主体部件单元3A的CPU12返回到步骤SP12以重复上述的操作。
(1-7)实施例的操作和效果具有上述配置的机器人装置1能够初步地获得用于根据用户命令和外界条件自动地确定所要采取的动作的学习数据，管理分布在组成机器人装置1的各单元的存储部分中的已获得的学习数据，并且在一个单元被调换成另一个单元时把由调换前使用的单元所获得的学习数据与调换后所使用的单元的学习数据相融合，从而消除了在调换后再次从头开始获取与调换前的单元所获取的学习数据相对应的学习数据的需要，因而节省了获取学习数据所需的劳动和时间。
此外，机器人装置1能够初步地获取组合的学习数据，该数据代表适合于执行由用户给定的目标动作的各单元的组合，并且把与由用户给定的命令所指示的目标动作相对应的组合通知给用户，从而允许用户容易地判断那些对所期望采取的动作适合的单元的组合。
上述的配置能够初步地获得用于根据外部信息自动确定所要采取的动作的学习数据，管理分布在各单元中的已获取的学习数据，并且将其它单元的学习数据与要被调换的单元所获取的学习数据相融合，因而能够节省获取学习数据所需的劳动和时间，从而实现了使用便利性被增强的机器人装置1。
此外，上述的配置能够初步地获取组合的学习数据，它根据用户给定的命令确定各单元的组合，并且把对应于用户给定的命令的组合通知给用户，从而允许用户容易地判断适合于执行用户所期望的动作的组合和实现使用便利性增强的机器人装置1。
(2)第二实施例(2-1)在第二实施例中机器人装置的配置图6示出了被优选为第二实施例的机器人装置60，除了下面将要说明的在主体部件单元61、头部部件单元62和动作部件单元63的存储部分45、47和49中进行调节的各类数据表和不使用CPU的头部部件单元62及动作部件单元63外，它的配置与图1所示的机器人装置1近似相同。在图6中，用相同的参考标号表示与图2所示的那些部件相对应的部件。
就机器人装置60具体而言，状态换算表Ts的数据、作为学习数据的动作确定表Ta(w，s)的数据、估算值表Tp(w)的数据和动作换算表Ta的数据分别在主体部件单元61、头部部件单元62和动作部件单元63的存储部分64至66中进行调节，如图7所示。
在这种情况下，状态换算表Ts是用于根据各单元中的传感器15、20和28输出的观测数据S3、S10和S13对初步确定的诸如“球在右前方附近”的状态进行确认的表。在第二实施例中，每个状态Sj(j=1，2，2，…，m)由下列公式确定，在该公式中，分别取单元中的传感器数量和确定状态的次数作为P和m，如图8所示X1min(sj)≤X1＜X1max(sj)X2min(sj)≤X2＜X2max(sj):
Xpmin(sj)≤Xp＜Xpmax(sj) …(1)在存储部分的相应区域中的状态换算表Ts有下述公式(2)所表达的数量为2×P×m的数值，它包括用于判断的对应于公式(1)中的每个状态Sj的观测数据值X1至Xp的上限(X1max(sj)至Xpmax(sj))值和下限值(X1min(sj)至Xpmin(sj))2×P×m …(2)图8相当于P=2的情况并且表示Sj的条件相当于下式(3)给出的区域(图8中画斜线的区域)X1min(sj)≤X1＜X1max(sj)和Xpmin(sj)≤Xp＜Xpmax(sj)…(3)此外，动作确定表Ta(w，s)是用于根据状态sj确定要输出的动作的表并且调节图9A所示的数据，使动作ak(wi，sj)(k=1，2，…，n)相当于根据目标动作数据S2(图6)获得并由用户选定的目标动作wi，其中状态sj是使用状态换算表Ts和外部给定的目标动作wi(i=1，2，…，1)所识别的。动作ak(wi，sj)(k=1，2，…，n)是到目前为止通过学习获得的并且是依据状态sj从用于目标动作wi的多个动作ak中输出的最佳的动作，在状态s“球在右前方附近”被识别和目标动作w“用前脚踢球”被给出的情况下，例如，可以有两种输出动作a，即“用右前脚踢球”和“用左前脚踢球”，不过动作确定表Ta(w，s)容纳该数据，使得例如通过后面所述的学习从这些可选用动作中选择的动作ak(wi，sj)“用右前脚踢球”相应于状态sj“球在右前方附近”和目标动作wi“用前脚踢球”。
此外，估算值表Tp(w)是一种对根据动作ak(wi，sj)的成功率和执行时间计算的估算值P(w)进行说明的表，动作ak(wi，sj)相应于图9B所示的动作确定表Ta(w，s)中的目标动作wi。
此外，动作换算表Ta是一种把用动作确定表Ta(w，s)确定的动作转换成用于各单元的致动装置15、20和28的命令值的表。在数目为q的致动装置32、36和41被设置在图10所示的单元中的第二实施例的情况下，用于每个动作ak(wi，sj)的致动装置32、36和41的命令值y1(ak)至yq(ak)按下述公式(4)进行调节ak={Y1(ak)，Y2(ak)，…，Yq(ak)}…(4)
图10对应于q=2的情况，并且表示例如命令值yl(ak)对应于单元的第一致动装置32、36和41和命令值yq(ak)对应于用于每个动作ak(wi，sj)的第二致动装置32、36和41。
对于机器人装置60，状态换算表Ts和出自状态换算表Ts的动作换算表Ta、动作确定表Ta(w，s)和动作换算表Ta的配置依赖于各单元的配置，而动作确定表Ta(w，s)的配置不依赖于各单元的配置。
在机器人装置60中，主体部件单元61的CPU67在初始步骤分别读出存储在头部部件单元62的存储部分65中的和存储在动作部件单元63的存储部分66中的状态换算表Ts、动作确定表Ta(w，s)估算值表Tp(w)和动作换算表Ta。并把数据存储到主体部件单元61的存储部分64中。
在各单元(主体部件单元61、头部部件单元62和动作部件单元63)的传感器15、20和28给出的观测数据S3、S10和S13以及在存储部分64中容纳的各单元的状态换算表Ts的基础上，CPU67总是根据图11所示的各单元中的传感器15、20和28的输出监视各单元识别的状态Sj。
当随后目标动作wi被给定为目标动作数据S2时，CPU67根据上述识别的单元状态和在存储部分64中容纳的单元动作确定表Ta(w，s)，把对应于动作确定表Ta(w，s)中每个单元的动作确定为单元的输出动作。
此外，CPU67根据确定的结果和相应的动作换算表Ta确定用于每个单元的致动装置32、36和41的命令值y1(ak)至yq(ak)，并根据确定的结果经由串行总线主控制器16和相应的总线21和29向相应的致动装置32、36和41发送驱动信号S50至S52，驱动这些致动装置，从而驱动单元。
另一方面，当目标动作wi被给定为目标动作数据S2时，CPU67用源于与目标动作wi对应的某些动作ak的预定几率把未在动作确定表Ta(w，s)中描述的动作ak确定为输出动作，而不是进行上述的处理。
在确定的结果和相应的动作换算表Ta的基础上，CPU67确定用于各单元的致动装置32、36和41的命令值y1(ak)至yq(ak)，并根据确定结果经由串行总线主控制器16和相应的总线21和29向相应的致动装置32、36和41发送驱动信号S50至S52，驱动致动装置，从而驱动单元。
此外，CPU67此后根据该动作ak的成功率、执行时间或类似物计算此时输出的单元动作ak的估算值p(wi)′。
只有当为单元计算的估算值p(wi)′高于在相应估算值表Tp(w)中描述的目标动作wi的估算值p(wi)时，CPU67才把在相应单元中的存储部分64至66中容纳的动作确定表Ta(w，s)内的相应动作ak(wi，sj)改写成此时输出的ak，并且把在存储部分64至66中容纳的估算值表Tp(w)内的相应估算值p(wi)改写成与上述计算的动作ak相对应的估算值p(wi)′。
机器人装置60被配置来把动作确定表Ta(w，s)中的对应此时状态sj和外部给出的目标动作wi的动作ak(wi，sj)逐步修改成具有较高估算值p(wi)的动作ak，因而总是能够执行最佳的动作。
(2-2)第二实施例中的融合学习数据的步骤下面，说明当一个单元被调换为另一个相同类型的单元时，由主体部件单元61的CPU67执行的将调换之前使用的单元的学习数据(动作确定表Ta(w，s)中的数据)与调换之后使用的学习数据(动作确定表中的数据)相融合的处理。
在下述的说明中，调换之前使用的单元的动作确定表Ta(w，s)和估算表Tp(w)将分别由Ta(w，s)A和Tp(w)A代表，而调换之后使用的单元的动作确定表Ta(w，s)和估算表Tp(w)将分别由Ta(w，s)和Tp(w)B代表。
在第二实施例的情况中，主体部件单元61根据图12所示的学习数据融合处理将替换之前使用的学习数据与替换之后使用的学习数据相融合。
当设置在机器人装置60上的暂停按钮(未示出)被按下以设置暂停模式时，CPU67开始步骤SP30上的融合学习数据的处理，在后续的步骤SP31上从单元的存储部分64至66中读出每个单元的估算值表Tp(w)A和动作确定表Ta(w，s)A的数据，并把数据存储到主体部件单元61的存储部分64中。
接着，CPU67进行到步骤SP31并判断是否已经调换了任何单元。当在步骤SP32上得到否定结果时，CPU67进行到步骤SP33并判断暂停模式是否通过按压上述的暂定按钮已经取消了暂停模式。
当在步骤SP33上得到否定结果时，CPU67返回步骤SP32，然后重复步骤SP32-SP33-SP32的循环，直至在步骤SP32或步骤SP33上得到肯定结果。
当在步骤SP32上按预定时间获得肯定结果时，CPU67进行到步骤SP34，读出在调换后使用的新单元的存储部分65和66中容纳的估算值表Tp(w)B和动作确定表Ta(w，s)B的数据。
接着，CPU67进行到步骤SP34，执行将调换之前所使用的原始单元的学习数据(动作确定表Ta(w，s)A与调换之后使用的新单元的学习数据(动作确定表Ta(w，s)B)相融合的处理。
具体地说，CPU67比较调换之前所使用的原始单元的估算值表Tp(w)A与调换之后使用的新单元的估算值表Tp(w)B，将存在于原始单元的估算值表Tp(w)A和新单元的估算值表Tp(w)B中的用于目标动作wi的原始单元的估算值表Tp(w)A中的估算值P(wi)与新单元的估算值表Tp(w)B中的估算值p(wi)进行比较，并且当新单元估算值较大时，不进行处理。
与此相反，当原始单元的估算值是较大时，CPU67将新单元动作确定表Ta(w，s)B中的在目标动作wi的所有条件aj下的所有动作ak(wi，sj)(图9A的目标动作wi的相应行中所有动作ak(wi，sj))修改成与相应于原始单元动作确定表Ta(w，s)A中的目标动作wi的状态sj相对应的动作ak(wi，sj)，并且把新单元估算值表Tp(w)B中的用于目标动作wi的估算值p(wi)修改成原始单元估算值表Tp(w)A中的相应估算值p(wi)。
此外，CPU67比较调换之前所使用的原始单元的估算值表Tp(w)A与调换之后使用的新单元的估算值表Tp(w)B，并且在目标动作wi存在于原始单元估算值表Tp(w)A中和目标动作wi不存在于新单元估算值表Tp(w)B中的情况下，CPU67将该目标动作wi和原始单元估算值表Tp(w)A中用于目标动作wi的估算值p(wi)复制到新单元的估算值表中Tp(w)B。
在完成上述的融合处理之后，CPU67前进到步骤SP35，把通过融合处理获得的新估算值表Tp(w)B′和新动作确定表Ta(w，s)B′的数据传递给新单元，在存储部分65和66中存储这一数据以替代该单元的存储部分65和66中容纳的原始估算值表Tp(w)B和动作确定表Ta(w，s)B的数据，然后前进到步骤SP36终止融合处理。
当在步骤SP33获得肯定结果时，CPU67通过前进到步骤SP36终止融合处理。
如上所述，当一个单元被调换为另一个单元时，配置机器人装置60使之能够将调换前使用的原始单元的学习数据与调换后使用的新单元学习数据相融合，从而在新单元中也能利用由原始单元获得的学习数据。
(2-3)第二实施例的操作和效果当在上述配置中目标动作wi被给定为目标动作数据S2时，机器人装置60用源于与目标动作wi对应的某些动作ak的预定几率输出未在动作确定表Ta(w，s)中描述的动作ak，然后估算该动作ak，并且在估算值高于动作确定表Ta(w，s)中描述的动作ak(wi，sj)的情况下，将动作确定表Ta(w，s)中的相应动作ak(wi，sj)改写成动作ak。
当一个单元被调换为另一个单元时，机器人装置60通过把包括按上述方式获得的原始单元的动作确定表Ta(w，s)A的数据的学习数据与包括新单元动作确定表Ta(w，s)B的数据的学习数据相融合来修改新动作确定表Ta(w，s)B。
因此，机器人装置60在单元被调换之后像被优选为第一实施例的机器人装置1那样，消除了从头开始获取与调换前使用的单元所获取的学习数据相当的学习数据的需要，因而能够节省获取学习数据所需的劳动和时间。
上述配置适合于在单元被调换后通过把包括调换前使用的原始单元动作确定表Ta(w，s)A的数据的学习数据与包括调换后使用的新单元动作确定表Ta(w，s)B的数据的学习数据相融合来修改新单元的动作确定表Ta(w，s)B，因而能够像第一实施例那样节省获取学习数据所需的劳动和时间，从而实现了使用便利性提高的机器人装置。
(3)其它实施例尽管上述的第一实施例是按照在图4所示的数据融合处理的步骤SP6上删除存储部分45中存储的融合学习数据情况进行说明的，但是本发明不局限于该实施例，融合学习数据也可以不删除而是维持在存储状况。
尽管上述的第一实施例是按照组合学习数据被存储在主体部件单元3的存储部分45中情况进行说明的，但是本发明不局限于该实施例，组合学习数据被存储在主体部件单元3的存储部分45、头部部件单元2的存储部分47和动作部件单元4的存储部分49中，并进行分布式管理。
尽管上述的第一实施例是按照根据从外部供给的目标动作数据S2设置一个目标的情况进行说明的，但是本发明不局限于该实施例，可以根据从传感器15供给的观测数据S3或其它不同数据由机器人装置自己设置该目标。
尽管上述第一实施例是按照把用户给定的目标动作和适合于该目标动作的单元组合作为组合的学习数据存储在存储器单元45中的情况进行说明的，但是本发明不局限于该实施例，除了目标动作和适合于该目标动作的组合外，不适合于该目标动作的组合数据也可以存储在存储器单元45中。
尽管上述第一实施例是按照外部给定的目标动作数据S2、经由传感器输入的图象数据和用于驱动单元的驱动信号被用作学习数据的情况进行说明的，但是本发明不局限于该实施例，关键点在于外部输入的输入信息和与输入信息对应的连接单元的动作历史都被用作学习数据。
尽管上述第一实施例是按照本发明适合于通过连接头部单元2、主体部件单元3和动作部件单元4进行配置的机器人装置1的情况进行说明的，但是本发明不局限于该实施例，本发明还可以适用于通过连接主体部件单元和动作部件单元或其它各种连接单元而进行配置的机器人装置。
尽管上述第一实施例是按照CPU22和30被设置在与主体部件单元3连接的头部部件单元2A至2C(如图3所示)和动作部件单元4A至4D的每一个中的情况进行说明的，但是本发明不局限于该实施例，(如图6所示，例如)主体部件单元4的CPU12也可以被配置来对存储部分47和29中存储的学习数据进行修改处理，而不用在头部部件单元2A至2C或动作部件单元4A至4C中设置CPU。
尽管上述第一实施例是按照在各单元的存储部分45、47和49中存储各单元的学习数据的情况进行说明的，但本发明不局限于该实施例，其它单元的学习数据也可以同例如附在传感器15、20和28上的传感器ID或类似物一起被存储。
尽管上述第二实施例是按照本发明适合于按图1和图6进行配置的机器人装置1的情况进行说明的，但本发明不局限于该实施例，本发明普遍地适用于具有各种配置的其它机器人装置。
尽管上述第二实施例是按照用通过单元调换所获得的融合学习数据(动作确定表Ta(w，s)B′的数据)改写调换后使用的新单元的原始学习数据的情况进行说明的，但是本发明不局限于该实施例，融合学习数据(动作确定表Ta(w，s)B′的数据)可以由新单元保持，与调换后使用的新单元的原始学习数据相分离。
工业应用性本发明可用于通过组合和连接来自现有的各种类型连接单元中的期望连接单元而进行配置并且根据外部输入的输入信息自动采取预定动作的机器人装置。
权利要求
1.一种机器人装置，通过组合和连接选自各类现存的连接单元中的所期望的连接单元进行配置并且根据外部输入的输入信息自动地采取预定的动作，其特征在于，包括安装在所述各连接单元中的存储装置，将出自所述输入信息和机器人装置作为整体响应于所述输入信息的动作历史的所述输入信息和连接单元本身响应于所述输入信息的动作历史存储为学习数据。
2.根据权利要求1所示的机器人装置，其特征在于存储所述的学习数据，用于执行出自各类现有连接单元中的与所述输入信息相应的所述连接单元专有的动作。
3.一种机器人装置的主体部件单元，它通过选择和连接分别来自各类现存的主体部件单元和各类现存的所述连接单元中的期望的主体部件单元和连接单元进行配置，并根据从外部输入的输入信息自动地采取预定的动作，其特征在于，包括从当前连接的所述连接单元的存储装置中读出学习数据的学习数据融合装置，它通过把读出的所述学习数据与先前连接的连接单元的学习数据相融合产生新的学习数据，并且把产生的学习数据存储到当前连接的所述连接单元的所述存储装置中。
4.一种机器人装置的连接单元，它通过组合和连接来自各类现存的连接单元的期望连接单元进行配置，并且根据从外部输入的输入信息自动地采取预定的动作，其特征在于，包括存储装置，将出自所述输入信息和机器人装置作为整体响应于所述输入信息的动作历史的所述输入信息和连接单元本身响应于所述输入信息的动作历史存储为学习数据。
5.根据权利要求4所述的连接单元，其特征在于存储所述学习数据，用于执行出自各类现存的所述连接单元中的与所述输入信息相应的所述连接单元的专有动作。
6.一种机器人装置，它通过组合和连接选自各类现存的连接单元中的期望的连接单元进行配置，并根据外部给定的输入信息采取预定的动作，其特征在于，包括动作控制装置，根据外部给定的输入信息采取与所述连接单元的组合相对应的动作；存储装置，把所述连接单元的组合和相应于所述输入信息所采取的所述动作控制装置的动作历史存储为学习数据；和输出装置，从所述存储装置中读出所述组合学习数据，需要时向外输出数据。
7.根据权利要求6所述的机器人装置，其特征在于所述存储装置被设置在为配置所述机器人装置而组合的所述各连接单元的每个中。
全文摘要
把输入信息和出自机器人装置作为整体响应于所述输入信息的动作历史的各连接单元自己的动作历史作为学习数据存储在存储装置。当连接单元被调换时,使用存储的连接单元的学习数据来确定其操作,因而与传统的机器人装置相比显著地增强了使用便利性。
文档编号G05B13/02GK1293605SQ00800042
公开日2001年5月2日申请日期2000年1月18日优先权日1999年1月18日
发明者高村成一申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高村成一
技术所有人：索尼公司
我是此专利的发明人

上一篇：电流补偿偏置发生器及其发生方法
上一篇：具蓄电压或具反电势负载的分流式自动调控输出电路的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。