物品堆放装置以及机器学习装置的制作方法

文档序号:17054114发布日期:2019-03-05 20:52阅读:393来源:国知局
物品堆放装置以及机器学习装置的制作方法

本发明涉及物品堆放装置以及机器学习装置,特别是涉及使用机器人来堆放物品的装置以及机器学习装置。



背景技术:

使用机器人来把持输送物品,进行平放或层叠的系统正被广泛利用。在这样的系统中,预先使配置要输送的物品的场所模式化,机器人按照该模式来配置物品。作为堆放物品有关的现有技术,例如在日本特开平06-114770号公报中公开了如下技术:预先使配置要输送的工件的场所模式化,从输送中的工件的外形选择适合的模式,进行与工件堆积位置对应的工件堆积。

但是,有时需要根据物品的特性(大小、形状、重量等)而改变要堆放的场所,例如在想要将大工件或重工件堆放于下层时,或想要将稳定性差的形状的工件堆放于上层时等时候,无法简单地按照模式来堆放工件。

此外,在以没有预先装入到系统的模式进行堆放而存在堆积效果好等优点时,简单的模式化也是困难的。例如,在物品是固定大小的长方体时预先定义堆放模式是简单的,而在物品的大小不同或其形状不是长方体时,预先定义模式则是困难的。

并且,在无法预先掌握需要堆放的所有物品的信息时,需要预测未来的可能性来进行动作。这是因为有时即使可以立即配置某个物品也不希望将该物品配置于那里。例如,在轮到比较小尺寸的物品时,若先堆放该物品则无法在其上方装载大尺寸的物品。此时,不得不采取在堆放至最终堆放部位之前进行临时放置等方式来进行对应。



技术实现要素:

因此,本发明的目的在于提供一种物品堆放装置以及机器学习装置,能够根据物品特性和现场状况来堆放合适的物品。

为了解决上述课题,在本发明的物品堆放装置中准备了学习与包含堆放对象物品的特性等的物品信息相符的最佳堆放方式的机器学习装置,使该机器学习装置使用在已经堆放了该物品的现场取得的学习数据来进行学习,由此,使其学习因物品特性或现场状况而可能变化的物品堆放方式。然后,本发明的物品堆放装置能够按照机器学习装置输出的物品堆放方式来进行物品的输送和堆放。

本发明的一个方式的物品堆放装置,其控制机器人将设置于设置场所的多个物品堆放到配置场所。该物品堆放装置具有:机器学习装置,其学习针对所述配置场所的配置状态和堆放对象物品的信息来推定该物品在所述配置场所中的配置。并且,所述机器学习装置具有:状态观测部,其观测表示所述配置场所的配置状态的配置状态数据、以及表示堆放对象物品的信息的物品信息数据作为表示环境当前状态的状态变量;标签数据取得部,其取得表示所述物品在所述配置场所中的配置的物品配置数据作为标签数据;以及学习部,其使用所述状态变量和所述标签数据,将所述配置状态数据和所述物品信息数据与所述物品配置数据关联起来进行学习。

可以是,所述物品信息数据至少包含多个物品的信息。

可以是,所述物品配置数据还包含所述物品的临时放置有关的信息。

可以是,所述学习部具有:误差计算部,其使用所述状态变量和所述标签数据,计算从所述配置状态数据和所述物品信息数据导出所述物品配置数据的相关性模型的输出与从预先准备的训练数据识别的相关性特征之间的误差;以及模型更新部,其更新所述相关性模型使得缩小所述误差。

可以是,所述学习部通过多层结构来运算所述状态变量和所述标签数据。

可以是,所述机器学习装置还具有:推定结果输出部,其根据所述学习部的学习结果,输出所述物品在所述配置场所中的配置的推定结果。

可以是,所述机器学习装置存在于云服务器上。

可以是,所述机器学习装置使用多个物品堆放装置取得到的所述状态变量和所述标签数据来进行学习。

本发明的一个方式的机器学习装置,其学习在将设置于设置场所的多个物品堆放到配置场所的作业中针对所述配置场所的配置状态和堆放对象物品的信息来推定该物品在所述配置场所中的配置,其中,所述机器学习装置具有:状态观测部,其观测表示所述配置场所的配置状态的配置状态数据、以及表示堆放对象物品的信息的物品信息数据作为表示环境当前状态的状态变量;标签数据取得部,其取得表示所述物品在所述配置场所中的配置的物品配置数据作为标签数据;以及学习部,其使用所述状态变量和所述标签数据,将所述配置状态数据和所述物品信息数据与所述物品配置数据关联起来进行学习。

通过本发明,可以根据物品特性和现场状况来决定在堆放对象物品的配置场所内的合适配置。

附图说明

图1是一实施方式涉及的物品堆放装置的概略硬件结构图。

图2是一实施方式涉及的物品堆放装置的概略功能框图。

图3是表示物品有关的信息的示例图。

图4是对一实施方式涉及的物品堆放装置学习时的动作进行说明的图。

图5是对一实施方式涉及的物品堆放装置控制机器人时的动作进行说明的图。

图6是表示物品堆放装置的一方式的概略功能框图。

图7a是说明神经元的图。

图7b是说明神经网络的图。

图8是表示以整合了配置于配置场所的物品而得的形状进行学习的示例图。

图9是表示装入了物品堆放装置的系统的一个方式的概略功能框图。

具体实施方式

图1是表示第一实施方式涉及的物品堆放装置的主要部分的概略硬件结构图。

物品堆放装置1例如可以安装为控制机器人70的机器人控制器。本实施方式涉及的物品堆放装置1具有的cpu11是对物品堆放装置1进行整体控制的处理器。cpu11经由总线20读出存储于rom12的系统程序,按照该系统程序来对物品堆放装置1整体进行控制。将临时的计算数据、操作员经由未图示的输入部输入的各种数据等暂时存储于ram13中。

非易失性存储器14构成为如下存储器:例如通过未图示的电池而被备份等,即使断开物品堆放装置1的电源也可以保持存储状态。在该非易失性存储器14中存储有操作员经由未图示的输入部输入的各种数据(例如,作为堆放对象的物品有关的数据、用于控制机器人的物品堆放动作的设定值等)、经由未图示的接口输入的控制用程序等。存储于非易失性存储器14的程序或各种数据可以在执行时/利用时在ram13中展开。此外,在rom12中预先写入系统程序,所述系统程序包含:根据视觉传感器60检测出的检测值(拍摄数据)来解析堆放对象的物品、物品向配置场所的配置状态的公知的解析程序,用于控制与后述的机器学习装置100的交换的系统程序等。

视觉传感器60用于例如在机器学习的学习阶段检测配置于配置场所的物品的状态,还用于在物品堆放装置1进行物品堆放的阶段检测作为堆放对象的物品。该视觉传感器60例如可以是固定地安装于作业场所的拍摄装置,也可以是安装于机器人70的机器人手臂上的拍摄装置。视觉传感器60经由接口18将检测出的检测值(拍摄数据)转发给cpu11。

控制电路19接收来自cpu11的指令对机器人70的堆放动作进行控制。该控制电路19例如进行如下控制:控制机器人手的物品把持动作或控制用于驱动机器人70的各关节的电动机,使所把持的物品移动至配置场所内所指定的配置。由于机器人70的物品堆放动作有关的控制技术的详细情况已经是公知的,因此本说明书省略说明。

接口21是用于将物品堆放装置1与机器学习装置100连接的接口。机器学习装置100具有:统制机器学习装置100整体的处理器101、存储系统程序等的rom102、用于进行机器学习的各处理中的临时存储的ram103、用于存储学习模型等的非易失性存储器104。机器学习装置100可以经由接口21观测物品堆放装置1能够取得的各信息(由视觉传感器60检测出的物品信息、物品相对配置场所的配置状态等)。此外,物品堆放装置1接收从机器学习装置100输出的物品配置指示,来控制机器人70的物品堆放动作。

图2是第一实施方式涉及的物品堆放装置1和机器学习装置100的概略功能框图。

图2所示的各功能块通过图1所示的物品堆放装置1具有的cpu11和机器学习装置100的处理器101执行各自的系统程序而控制物品堆放装置1和机器学习装置100的各部动作来实现。

本实施方式的物品堆放装置1具有控制机器人70的控制部34。该控制部34根据从机器学习装置100输出的堆放对象物品的配置指示来控制机器人70,把持堆放对象货物将该物品设置于配置场所的所指示的配置。

本实施方式的机器学习装置100包含通过所谓的机器学习针对配置场所的配置状态和堆放对象物品的信息来对堆放对象物品的配置进行自我学习的软件(学习算法等)和硬件(处理器101等)。物品堆放装置1具有的机器学习装置100进行学习相当于构造表示配置场所的配置状态和堆放对象物品的信息与堆放对象物品的配置之间的相关性的模型。

如图2的功能块所示,物品堆放装置1具有的机器学习装置100具有:状态观测部106,其观测表示环境当前状态的状态变量s,所述状态变量s包含表示配置场所的配置状态的配置状态数据s1、表示堆放对象物品的信息的物品信息数据s2;标签数据取得部108,其取得标签数据l,所述标签数据l包含表示堆放对象物品的配置的物品配置数据l1;学习部110,其使用状态变量s和标签数据l,将堆放对象物品的配置与配置场所的配置状态和堆放对象物品的信息关联起来进行学习;推定结果输出部122,其根据配置场所的配置状态和堆放对象物品的信息使用当前的学习完成模型来输出判定结果。

状态观测部106例如可以构成为处理器101的一个功能,也可以构成为用于使处理器101发挥功能的存储于rom102的软件。例如可以将状态观测部106观测的状态变量s中的配置状态数据s1取得为配置场所的各物品的配置集合。

通过在学习部110的学习时,利用视觉传感器60来检测在堆放物品的现场由作业员已经配置于配置场所的各物品的某个时间点的配置,由此获得配置状态数据s1。例如,作为配置状态数据s1可以用表格来存储在某个时间点已经配置于配置场所的所有物品的形状、重量、位置、姿势等,还可以存储为整合了已经配置于配置场所的所有物品而得的形状(图8)。此外,还可以是在基于学习部110学习到的结果来推定堆放对象物品的配置时(即,在通过机器人70进行物品堆放时),从此前机器人70将物品配置于设置场所的历史记录中取得配置状态数据s1,这样的情况下,机器学习装置100将机器人70在配置场所配置了物品的历史记录暂时存储于ram103中,状态观测部106根据存储于ram103的配置场所的物品配置历史记录,构成表示配置场所的配置状态的信息,将其取得为配置状态数据s1。

例如可以在物品被输送到设置场所时,由视觉传感器60读取贴付于或印刷于该物品表面等的该物品的识别id,来取得状态变量s中的物品信息数据s2。此时,预先计量包含各物品特性的各种数据,以图3的形式将唯一识别各物品的id信息与物品的形状、物品的重量、利用物品的工序等信息关联起来预先存储于物品堆放装置1的非易失性存储器14等中。使用读取出的识别id取得预先存储于非易失性存储器14的该物品有关的数据,状态观测部106将取得的堆放对象物品有关的数据追加至物品信息数据s2。还可以不将物品的直接信息追加至物品信息数据s2,而是追加识别id。此时,使用识别id也可以从图3的表格中取得物品有关的数据。在物品信息数据s2中就会存储有在该时间点知晓的、此后要配置的预定物品的信息。此外,可以是在物品输送至设置场所时通过视觉传感器60取得物品的形状等。作为物品有关的数据,除了图3所例示的数据之外,例如还可以采用物品的材质、易破损度、针对物品的作业历史记录等信息。

标签数据取得部108例如可以构成为处理器101的一个功能,也可以构成为用于使处理器101发挥功能的存储于rom102中的软件。标签数据取得部108在学习部110的学习时取得表示堆放对象物品的配置的物品配置数据l1作为标签数据l。物品配置数据l1与配置状态数据s1所包含的相同即可。配置状态数据s1包含在某个时间点配置完成的所有物品的信息,而物品配置数据l1包含一次配置的一个以上物品的数量相应的信息。在配置了一个以上物品时,可以作为逐个配置来进行学习,也可以作为配置多个物品来进行学习。利用视觉传感器60检测在堆放物品现场由作业员配置于配置场所的作为堆放对象的物品的配置,由此获得物品配置数据l1。标签数据取得部108是在学习部110的学习时被使用,在学习部110的学习结束后不需要成为机器学习装置100的必要结构。

学习部110例如可以构成为处理器101的一个功能,也可以构成为用于使处理器101发挥功能的存储于rom102中的软件。学习部110按照统称为机器学习的任意学习算法,针对状态变量s(表示配置场所的配置状态的配置状态数据s1和表示堆放对象物品的信息的物品信息数据s2)来学习标签数据l(表示堆放对象物品的配置的物品配置数据l1)。学习部110例如可以学习状态变量s所包含的配置状态数据s1和表示堆放对象物品的信息的物品信息数据s2与标签数据l所包含的物品配置数据l1之间的相关性。学习部110可以反复执行基于数据集合的学习,该数据集合包含状态变量s和标签数据l。

在本发明的学习部110的学习中,例如使用以下的方法来取得用于学习堆放的学习数据,学习所希望的堆放方式。

图4是表示学习时的物品堆放作业现场的图。另外,在图4中省略了物品堆放装置1。

在学习时,作业员40通过手动作业将物品配置于配置场所。配置前的物品41设置于设置场所。货物相对设置场所的移动可以由作业员等人手动进行,也可以通过传送带等输送单元来进行。物品的堆放作业可以定义为作业员40把持设置于设置场所的物品而配置于配置场所的作业。

可以在配置场所的上方设置视觉传感器60,计测物品的位置信息。如果不确定物品高度,则希望视觉传感器可以取得三维信息。

此外,在某个时间点设置于设置场所的物品的信息可以通过任何单元来获得。例如,可以是如上所述在物品堆放装置1的非易失性存储器14中存储预先输送到设置场所的物品信息,取得该信息,还可以是将其他视觉传感器等传感器配置于设置场所,从该传感器取得信息。所谓物品信息可以是物品的物理量(大小、形状、重量、材质),也可以是针对物品的作业历史记录或对物品唯一分配的id。关于物品的大小或重量,可以不是绝对值而是使用按某些数学式变换而得的值。例如,有可能在某个现场对重量从10kg到100kg的物品进行处理,在某个现场对重量从100g到1kg的物品进行处理,此时,通过使用标准化后的重量来进行学习,可以进行广泛应用于各种现场的学习。

以下,对取得学习模型的方法的一例进行说明。在初始状态下在配置场所放置有用于配置物品的托盘或筐。这里设为放置有托盘(未图示)。在托盘上没有配置物品。在设置场所设置有作为堆放于配置场所的对象的物品。可以是在该时间点将要堆放的所有物品设置于设置场所,也可以仅设置一部分物品。在仅设置一部分物品时,每当作业员配置物品时新物品就被输送到设置场所。此外,也可以是每当输送物品时就更新物品信息。初始状态下的配置场所没有放置任何物品,将没有放置任何物品时的信息记录为配置状态。

作业员从设置场所取出一个对象物,输送至配置场所。作业员确认配置场所的状态,将物品配置于合适的场所。设置于配置场所上方的视觉传感器60取得在合适的时刻配置的物品41’的位置姿势等信息作为配置信息。取得配置信息的时刻可以是作业员按压与物品堆放装置1连接的机械操作盘(未图示)的按钮的时刻,也可以是通过视觉传感器60监视配置场所发现状态发生变化持续一定时间的时刻。配置于配置场所的物品是设置于设置场所的哪个物品通过使用从视觉传感器60获得的信息对存储于非易失性存储器14的物品有关的信息内的类似物品进行检索来进行判别,或从贴付或印刷于物品表面等的该物品的识别id来进行判别。在通过作业员将物品从设置场所移动到配置场所的一次步骤中,可以存储一个配置场所的配置状态、物品有关的信息以及该物品配置的组。当作业员一次配置多个物品时,可以将这些物品存储为一组,也可以存储为多组。关于从设置场所取出的物品,可以从存储于非易失性存储器14的物品有关的信息中进行删除,或赋予表示配置完成的标签。通过对前次的配置场所的配置状态追加本次的物品配置,可以制作要在下一阶段使用的配置场所的配置状态信息。

在物品从设置场所搬空或配置场所装满之前进行作业员的物品堆放作业。由此,能够得到作业重复次数相应的配置场所的配置状态、物品有关的信息以及该物品配置的组。

将这样获得的配置场所的配置状态、物品有关的信息以及该物品配置的组用作学习用的数据。按步骤,将配置场所的配置状态和物品有关的信息作为状态变量,将物品配置作为标签数据来进行学习。可以使用作业员的作业过程中获得的数据来逐次进行学习,也可以在获得某种程度数量的配置场所的配置状态、物品有关的信息以及该物品配置的组之前一直累积数据,然后使用累积的数据来进行离线学习。

通过重复这样的学习周期,学习部110可以自动识别暗示配置场所的配置状态(配置状态数据s1)和堆放对象物品的信息(物品信息数据s2)与堆放对象物品的配置(物品配置数据l1)之间的相关性的特征。在开始学习算法时,配置状态数据s1和物品信息数据s2与物品配置数据l1的相关性实际上是不知道的,但是学习部110随着学习进展而缓缓识别特征从而解析相关性。若配置状态数据s1和物品信息数据s2与物品配置数据l1的相关性解析为达到某种可以相信的水平,则学习部110反复输出的学习结果可以用于针对当前状态进行应该将作为堆放对象的物品配置于哪里这样的判定。也就是说,学习部110随着学习算法的进行,可以使配置场所的配置状态和堆放对象物品的信息与作为堆放对象的物品的配置之间的相关性缓缓地接近最佳解。

推定结果输出部122根据学习部110学习到的结果,针对配置场所的配置状态和堆放对象物品的信息来推定作为堆放对象物品的配置,并将该推定结果输出给控制部34。在学习部110的学习结束的状态下,若向机器学习装置100输入配置场所的配置状态和堆放对象物品的信息,则推定结果输出部122输出作为堆放对象物品的合适配置。

图5是表示在学习部110进行的学习结束之后,根据从推定结果输出部122输出的作为堆放对象的物品的配置推定来控制机器70而进行物品的堆放作业的状况的图。

在机器人70的末端安装机器人手,控制该机器人手,由此可以把持物品。配置前的物品41设置于设置场所。将货物输送到设置场所,可以由作业员等人手动来进行,也可以通过传送带等输送单元来进行。机器人70用机器人手42来把持设置于设置场所的物品41,将其输送至配置场所,进行配置。

在设置场所的上方设置有视觉传感器60,可以计测物品的位置信息。如果不确定物品高度,则希望视觉传感器60可以取得三维信息。如果放置于设置场所的物品41的位置信息和物品id可以通过其他单元(可以系统性地取得位置等)来取得则可以不需要视觉传感器60,但是需要用于确定物品的位置信息和物品id的某种其他单元。

以下对机器人70使用学习完成的学习部110来进行堆放的方法进行说明。

首先,状态观测部106从放置于设置场所的物品中确定要进行堆放的一个以上的物品41,取得确定出的物品41有关的信息。接下来,状态观测部106取得配置场所的配置状态。例如可以是在配置场所的上方设置视觉传感器60,使用该视觉传感器60来取得配置场所的配置状态,也可以不在配置场所的上方设置视觉传感器60,而是根据此前机器人70将物品配置于配置场所的历史记录来制作配置信息。此时,配置信息可以制作为从初始状态起(没有任何配置)依次逐个配置物品时的配置信息的时间序列数据。

在状态观测部106观测配置场所的配置信息和物品有关的信息时,推定结果输出部122使用学习部110的学习结果来推定堆放对象物品的配置并进行输出。在物品配置中,包含应该将哪个物品放置于哪个位置这样的信息。然后,控制部34接收从推定结果输出部122输出的作为堆放对象的物品的配置,控制机器人70从应该配置的物品的设置场所中的位置取出物品,将该物品配置于配置场所的所指示的位置。进行该作业直到物品从设置场所搬空或配置场所装满为止。

作为物品堆放装置1具有的机器学习装置100的一个变形例,可以是进行向临时放置场所的临时放置作为堆放对象物品的配置。此时,作为物品配置数据l1除了表示通常的物品配置信息之外还准备表示临时放置的信息,在作业员对临时放置场所放置了货物时,使用表示临时放置的信息作为物品配置数据l1。此外,临时放置的物品被处理为留在设置场所的物品,将其设置位置变更为临时放置在临时放置场所的位置。

根据上述变形例,机器学习装置100针对配置场所的配置状态(配置状态数据s1)和堆放对象物品的信息(物品信息数据s2)的输入,除了推定物品配置到通常的配置场所以外,还可以根据需要推定临时放置到临时放置场所,可以使机器人70进行灵活性更高的堆放作业。

在具有上述结构的机器学习装置100中,学习部110执行的学习算法没有特别限定,作为机器学习可以采用公知的学习算法。图6是图2所示的物品堆放装置1的其他方式,表示作为学习算法的其他示例而具有执行监督学习的学习部110的结构。监督学习是如下方案:给予输入和与之对应的输出的已知数据集(称为训练数据),从这些训练数据中识别暗示输入与输出之间的相关性的特征,由此学习相关性模型,该相关性模型用于推定针对新输入所要的输出。

在图6所示的物品堆放装置1具有的机器学习装置100中,学习部110具有:误差计算部112,其计算从状态变量s所包含的配置场所的配置信息和物品有关的信息推定堆放对象物品的配置的相关性模型m与根据作业员的物品堆放作业获得的训练数据t而识别的相关性特征之间的误差e;模型更新部114,其更新相关性模型m使得缩小误差e。学习部110通过模型更新部114反复更新相关性模型m,来学习针对配置场所的配置信息和物品有关的信息推定堆放对象物品的配置。

相关性模型m的初始值例如简单化地(例如通过一次函数)表现了状态变量s与堆放对象物品的配置之间的相关性,在开始监督学习之前提供给学习部110。训练数据t可以由本发明中作业员的堆放作业中获得的经验值来构成,在物品堆放装置1的初期应用时,随时提供给学习部110。误差计算部112从随时提供给学习部110的训练数据t中识别暗示配置场所的配置信息和物品有关的信息与堆放对象物品的配置之间的相关性的相关性特征,求出该相关性特征与当前状态下的状态变量s和标签数据l对应的相关性模型m之间的误差e。模型更新部114例如按照预先设定的更新规则,向误差e变小的方向更新相关性模型m。

在下一学习周期中,误差计算部112按照更新后的相关性模型m使用状态变量s进行区分对象物的区分判定,求出该判定的结果与实际取得的标签数据l之间的误差e,模型更新部114再次更新相关性模型m。这样,逐渐明了未知环境的当前状态和与之相对的推定之间的相关性。

在进行上述监督学习时可以使用神经网络。图7a示意性地表示神经元。图7b示意性地表示将图7a所示的神经元组合而构成的三层神经网络的模型。神经网络例如可以由模拟了神经元的模型的运算装置或存储装置等构成。

图7a所示的神经元输出针对多个输入x(这里作为一例,输入x1~输入x3)的结果y。对各输入x1~x3乘以与该输入x对应的权值w(w1~w3)。由此,神经元输出由如下数学式(1)表现的结果y。另外,在数学式(1)中,输入x、结果y和权值w都是向量。此外,θ是偏置(bias),fk是激活函数(activationfunction)。

图7b所示的三层神经网络,从左侧输入多个输入x(这里作为一例是输入x1~x3),从右侧输出结果y(这里作为一例,结果y1~y3)。在图示的示例中,输入x1、x2、x3乘以各自对应的权值(统称而由w1表示),各输入x1、x2、x3都被输入到三个神经元n11、n12、n13。

在图7b中,将神经元n11~n13各自的输出统称用z1来表示。z1可以看作是提取出输入向量的特征量而得的特征向量。在图示的示例中,特征向量z1乘以各自对应的权值(统称由w2来表示),各特征向量z1都被输入到两个神经元n21、n22。特征向量z1表示权值w1与权值w2之间的特征。

并且,将神经元n21~n22各自的输出统称用z2来表示。z2可以看作是提取出特征向量z1的特征量而得的特征向量。在图示的示例中,特征向量z2乘以各自对应的权值(统称由w3来表示),各特征向量z2都被输入到三个神经元n31、n32、n33。特征向量z2表示权值w2与权值w3之间的特征。最后神经元n31~n33分别输出结果y1~y3。

另外,还可以使用所谓的深层学习的方案,该深层学习使用了构成三层以上的层的神经网络。

在物品堆放装置1具有的机器学习装置100中,以状态变量s为输入x,学习部110进行按照上述神经网络的多层结构的运算,由此可以针对配置场所的配置信息和物品有关的信息输出堆放对象物品的配置(结果y)。另外,在神经网络的动作模式中存在学习模式和价值预测模式,例如在学习模式中使用学习数据集来学习权值w,在价值预测模式中使用学习到的权值w来进行行为的价值判断。另外,在价值预测模式中可以进行检测、分类、推论等。

上述的机器学习装置100的结构可以描述为处理器101分别执行的机器学习方法(或软件)。该机器学习方法是针对配置场所的配置信息和物品有关的信息来学习推定堆放对象物品的配置的机器学习方法,具有如下步骤:

观测配置场所的配置状态(配置状态数据s1)和作为堆放对象的物品的信息(物品信息数据s2)作为表示当前状态的状态变量s的步骤;

取得堆放对象物品的配置(物品配置数据l1)作为标签数据l的步骤;

使用状态变量s和标签数据l将配置状态数据s1和物品信息数据s2与堆放对象物品的配置关联起来进行学习的步骤。

由机器学习装置100的学习部110学习而获得的学习完成模型能够用作机器学习的软件的一部分即程序模型。本发明的学习完成模型可以通过具有cpu或gpgpu等处理器和存储器的计算机使用。更具体来说,计算机的处理器按照存储于存储器的来自学习完成模型的指令进行动作,将配置场所的配置信息和物品有关的信息作为输入来进行运算,根据该运算结果进行动作以输出针对配置场所的配置信息和物品有关的信息的堆放对象物品的配置。本发明的学习完成模型可以经由外部存储介质或网络等复制到其他计算机来进行使用。

此外,在将本发明的学习完成模型复制到其他计算机而在新环境下使用时,可以根据该环境下获得的新的状态变量和判定数据针对该学习完成模型进行进一步的学习。此时,可以获得从该环境有关的学习模型派生出的学习完成模型(以下,设为派生模型)。本发明的派生模型在输出针对规定配置场所的配置信息和规定物品有关的信息来推定堆放对象物品的配置的结果这方面与原来的学习完成模型相同,但是在输出适合于比原来的学习完成模型新的环境(新的配置场所和物品)的结果这方面不同。该派生模型也可以经由外部存储介质或网络等复制到其他计算机来进行使用。

并且,使用针对装入了本发明的学习完成模型的机器学习装置的输入而获得的输出,在其他机器学习装置中制作从1起进行学习而获得的学习完成模型(以下,设为蒸馏模型),还能够对其进行利用(将这样的学习步骤称为蒸馏)。在蒸馏中,将原来的学习完成模型称为训练模型,将重新制作的蒸馏模型称为学生模型。一般情况下,蒸馏模型的大小比原来的学习完成模型小,尽管如此还能输出与原来的学习完成模型相同的正确度,因此更适合于针对经由外部存储介质或网络等的其他计算机的分配。

图9表示具有物品堆放装置1’的一实施方式涉及的系统170。

该系统170具有:机器学习装置100、至少进行同一作业的多个(不包括机器学习装置100)物品堆放装置1’、将这些物品堆放装置1’相互连接的有线/无线网络172。

在具有上述结构的系统170中,机器学习装置100可以从多个物品堆放装置1’的每一个进行的作业员的堆放动作中,学习暗示配置场所的配置状态(配置状态数据s1)和堆放对象物品的信息(物品信息数据s2)与堆放对象物品的配置(物品配置数据l1)之间的相关性的特征。因此,根据系统170,可以将更多样的数据集合(包含状态变量s和判定数据d)作为输入,提升物品堆放动作的学习速度和可靠性。此外,可以构成为在系统170中在多个物品堆放装置1’之间共享机器学习装置100的学习结果。

以上,对本发明的实施方式进行了说明,但是本发明不仅限定于上述实施方式的示例,还可以通过增加适当的变更以各种方式来实施。

例如,机器学习装置100执行的学习算法、机器学习装置100执行的运算算法、物品堆放装置1执行的控制算法等并不局限于上述,可以采用各种算法。

此外,在上述实施方式中,物品堆放装置1与机器学习装置100作为具有不同cpu(处理器)的装置进行了说明,但是机器学习装置100也可以通过物品堆放装置1具有的cpu11和存储于rom12的系统程序来实现。

并且,在上述实施方式中示出了机器学习装置100位于物品堆放装置1上的示例,但是机器学习装置100也可以构成为存在于在网络上准备的云服务器等。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1