清洗工序最优化装置以及机器学习装置的制作方法

文档序号:15616405发布日期:2018-10-09 21:29阅读:147来源:国知局

本发明涉及清洗工序最优化装置以及机器学习装置。



背景技术:

在机床中,用罩体覆盖加工空间,防止切屑/冷却液向周围飞散。在通过工具加工工件时产生大量的切粉,在用罩体覆盖的空间(以后为“机内”)中累积切屑。切屑进入机床的机构部,由此会导致机构部发生故障。因此,需要清洗滞留在机内的切屑,但是会有通过人工进行这种机内的清洗作业的情况和使用机内清洗装置进行清洗的情况,该机内清洗装置使用泵将冷却液送入机内,使切屑与该冷却液一起排出到机外(日本特开2016-168649号公报)。

另一方面,目前在机床中加工对象的工件范围较广,其种类从高效率加工到高质量加工等涉及多个方面。此时,在加工后的工件表面会附着切屑和冷却液等,如果对这样的污染置之不理,则会产生例如在之后的作业工序中切屑损伤工件的表面等问题。为了防止这种问题,需要在加工结束后尽可能迅速地清洗工件的表面。工件的清洗作业有通过人工进行的情况和使用工件清洗装置进行的情况(日本特开2008-156715号公报等)。

机床或工件的清洗工序在使用了机床的加工作业的一系列流程中成为重要的要素。然而,由于工件的加工而产生的切屑在机内的宽广范围内飞散,飞散位置或量、大小等不同,污染也不均匀,因此存在需要根据污染的状态调整清洗条件(清洗喷嘴的角度或喷射/吸引的压力、清洗时间等)等的问题。另外,对于附着在工件表面的切屑和冷却液等,其附着位置和附着量等也不同,进一步地,在清洗工件的情况下,有时由于清洗而损伤工件表面,因此为了消除这种情况,需要一边对清洗条件(清洗喷嘴的角度和清洗/吸引的压力、清洗时间等)进行微调整一边进行非常精细的清洗,从而存在消耗大量时间的问题。



技术实现要素:

因此本发明的目的在于,提供根据机床或工件的状态能够决定适当的清洗条件的清洗工序最优化装置以及机器学习装置。

本发明的一个方式为一种清洗工序最优化装置,其使在进行清洗对象的清洗时的清洗条件最优化,该清洗工序最优化装置具备学习清洗上述清洗对象时的清洗条件的机器学习装置,上述机器学习装置具备:状态观测部,其将表示清洗上述清洗对象时的清洗条件的清洗条件数据、以及在清洗该清洗对象之前测量的表示该清洗状态的污染状态的污染状态数据作为表示环境的当前状态的状态变量进行观测;判定数据取得部,其取得表示清洗上述清洗对象后的污染状态的精度的适当与否判定结果的判定数据;以及学习部,其使用上述状态变量和上述判定数据将清洗上述清洗对象时的清洗条件与上述污染状态数据关联起来进行学习。

本发明的其他方式为一种机器学习装置,其学习清洗对象时的清洗条件,该机器学习装置具备:状态观测部,其将表示清洗上述清洗对象时的清洗条件的清洗条件数据以及在清洗该清洗对象之前测量的表示该清洗状态的污染状态的污染状态数据作为表示环境的当前状态的状态变量进行观测;判定数据取得部,其取得表示清洗上述清洗对象后的污染状态的精度的适当与否判定结果的判定数据;以及学习部,其使用上述状态变量和上述判定数据将清洗上述清洗对象时的清洗条件与上述污染状态数据关联起来进行学习。

根据本发明,由于能够使清洗机床或工件的已知技术与机器学习组合,并配合机床的机内状态或工件的表面状态使清洗工序最优化,因此可以对各种机床或工件有效地进行清洗。

附图说明

根据参照附图的以下的实施例的说明,将明确本发明的上述以及其他目的、特征。这些附图中:

图1是第一实施方式的清洗工序最优化装置的概略功能框图。

图2是表示清洗工序最优化装置的一个方式的概略功能框图。

图3是表示机器学习方法的一个方式的概略流程图。

图4是表示清洗工序最优化装置的其他方式的概略功能框图。

图5a说明神经元的图。

图5b说明神经网络的图。

图6是第二实施方式的清洗工序最优化装置的概略功能框图。

图7是表示清洗系统的一个方式的概略功能框图。

图8是表示清洗系统的其他方式的概略功能框图。

具体实施方式

以下对附图以及本发明的实施方式一起进行说明。

图1是第一实施方式的清洗工序最优化装置10的概略功能框图。清洗工序最优化装置10例如可以作为控制用于清洗机床或工件的工业机械(未图示)的控制装置来进行安装。用于清洗机床或工件的工业机械列举有具备例如通过泵喷射清洗液的清洗喷嘴的清洗装置、把持了该清洗喷嘴的机器人等。清洗工序最优化装置10具备机器学习装置20,该机器学习装置20包括用于通过所谓的机器学习来自主学习机床或工件的清洗工序的清洗条件(清洗喷嘴的角度、清洗/吸引的压力、清洗时间等)的软件(学习算法等)以及硬件(计算机的cpu等)。清洗工序最优化装置10所具备的机器学习装置20进行学习的清洗条件相当于表示成为清洗对象的机床或工件的污染状态(切屑或冷却液的量等)与清洗该清洗对象的清洗条件的相关性的模型结构。

如图1的功能块所示,清洗工序最优化装置10所具备的机器学习装置20具备:状态观测部22,其将表示针对机床或工件等清洗对象(未图示)的清洗条件的情况条件数据s1以及表示机床或工件等清洗对象的污染状态的污染状态数据s2作为表示环境的当前状态的状态变量s进行观测;判定数据取得部24,其取得表示进行了清洗的清洗对象的污染状态的适当与否判定结果的判定数据d;以及学习部26,其使用状态变量s和判定数据d,将污染状态数据s2与清洗条件数据s1关联起来进行学习。

状态观测部22例如构成为计算机的cpu的一个功能。或者状态观测部22例如构成为用于使计算机的cpu发挥功能的软件。状态观测部22所观测的状态变量s中的清洗条件数据s1可以使用例如由熟练的作业者进行申报并赋予清洗工序最优化装置10的清洗条件的申报数据,或者在使用用于清洗的工业机械的情况下,从该工业机械取得清洗时的动作参数进行使用。清洗条件数据s1例如可以使用距清洗时的污染中心位置的清洗喷嘴的距离、清洗喷嘴的角度、清洗/吸引的压力、清洗时间、清洗液的温度、清洗次数等。

另外例如可以通过附设在用于清洗工序最优化装置所控制的清洗的工业机械上的第一测量装置(未图示)来实际测量,由此取得状态变量s中的污染状态数据s2。

例如当清洗对象是机床时,第一测量装置可以从预定的位置测量机床机内的整体或至少一个关注点。例如当清洗对象是工件时,第一测量装置可以由预定的位置测量工具的整体或至少一个关注点。第一测量装置基于针对没有附着污染的清洗对象与预先测量并取得的清洗对象的整体或者至少一个关注点的测量值之间的差,能够运算清洗对象的各个部分的污染状态数据s2。第一测量装置可以根据对没有附着污染的清洗对象预先测量并取得的清洗对象的整体或者与至少一个关注点的测量值之间的差分,将该差分的量(面积、体积等)和该差分的色彩等包含在污染状态数据s2中。该运算例如也可以由清洗工序最优化装置10进行,或者由状态观测部22自身进行。作为第一测量装置能够采用光学摄像装置、红外线激光、超声波测量器等。

判定数据取得部24例如能够构成为计算机的cpu的一个功能。或者判定数据取得部24例如能够构成为使计算机的cpu发挥功能的软件。通过例如附设在清洗机械上的第一测量装置来实际测量进行了清洗后的清洗对象,由此能够取得判定数据取得部24所取得的判定数据d。判定数据d是表示在状态变量s下执行了清洗作业时的结果的指标,间接地表示进行了清洗作业的环境的当前状态。

这样,在清洗工序最优化装置10所具备机器学习装置20推进学习的期间、环境中,实施由第一测量装置所进行的清洗对象的污染状态的测量、针对该清洗对象的清洗作业的实施、以及由第一测量装置所进行的清洗后的清洗对象的污染状态的再测量。

学习部26能够构成为例如计算机的cpu的一个功能。或者学习部26能够构成为例如用于使计算机的cpu发挥功能的软件。学习部26按照被统称为机器学习的任意的学习算法来学习针对清洗对象进行的清洗的清洗条件。学习部26针对多个清洗对象可以反复执行基于包括上述状态变量s和判定数据d的数据集合的学习。在针对多个清洗对象的学习循环的反复中,将状态变量s中的清洗条件数据s1作为通过上次为止的学习循环得到的清洗条件,另外将判定数据d作为针对基于该决定好的清洗条件的清洗对象的清洗的适当与否判定结果。

重复这种学习循环,由此学习部26可以自动地识别暗示清洗对象的污染状态(污染状态数据s2)与针对该清洗对象的清洗的清洗条件之间的相关性的特征。虽然在开始学习算法时污染状态数据s2与清洗条件之间的相关性实质上是未知的,但是学习部26随着推进学习将逐渐识别特征并解释相关性。如果污染状态数据s2与清洗条件之间的相关性被解释为能够在一定程度上可靠的水准,则由学习部26反复输出的学习结果能够用于进行行动的选择(即意思决定),该行动的选择就是说对当前状态(即污染状态)的清洗对象应该在怎样的清洗条件下进行清洗。也就是说学习部26随着学习算法的进行,可以使清洗对象的当前状态与应该对该当前状态的清洗对象在怎样的清洗条件下进行清洗的行动之间的相关性逐渐接近最佳解决方案。

如上所述,清洗工序最优化装置10所具备机器学习装置20使用状态观测部22观测到的状态变量s和判定数据取得部24所取得的判定数据d,由学习部26按照机器学习算法来学习对清洗对象进行清洗时的清洗条件。状态变量s由清洗条件数据s1以及污染状态数据s2这样的难以受到干扰影响的数据构成,另外判定数据d通过测量清洗后的清洗对象而被唯一地求出。关于污染状态数据s2,例如依赖于作为第一测量装置的能力的机械各部的测量精度,但是期待能够观测其自身为高精度的污染状态数据s2。另外关于判定数据d也同样地,依赖于第一测量装置的测量精度,并期待能够取得高精度的判定数据d。因此根据清洗工序最优化装置10所具备机器学习装置20,使用学习部26的学习结果,由此无论以运算或估算的方式都能够自动且正确地求出与清洗对象的污染状态对应的对该清洗对象进行清洗时的清洗条件。

如果无论以运算或估算的方式都可以自动地求出清洗清洗对象时的清洗条件,则只通过在清洗对象的清洗开始之前实际测量该清洗对象并取得污染状态(污染状态数据s2),就能够迅速地决定清洗清洗对象时的清洗条件。因此可以缩短清洗对象的清洗作业所花费的时间。

作为清洗工序最优化装置10所具备的机器学习装置20的一个变形例,状态观测部22可以进一步对识别清洗对象的类别的类别信息s3进行观测作为状态变量s。类别信息s3例如在清洗对象为机床的情况下,可以包括机床的种类或型号等,在清洗对象为工件的情况下,可以包括该工件的产品类别或材质等。例如能够通过条形码等识别符将类别信息s3显示为清洗对象。状态观测部22例如能够从条形码阅读器的输出中取得类别信息s3。学习部26可以将对清洗对象进行清洗的清洗条件与污染状态数据s2以及类别信息s3双方关联起来进行学习。

根据上述变形例,可以学习与制造对象的污染状态和正常对象的类别双方相对应的最适合的正常对象的清洗条件。例如关于成为2个清洗对象的工件,即使该工件的污染状态(污染状态数据s2)大致相同,在该工件的材质等(类别信息s3)不同的情况下,清洗该工件时的清洗条件会仍能够微妙地产生不同的状况。根据上述结构,即使在这种情况下,也可以根据材质等(类别信息s3)将对清洗对象进行清洗时的清洗条件最优化。或者,有时也能够趁着推进学习发现清洗对象的污染状态(污染状态数据s2)与清洗对象的类别(类别信息s3)之间的相关性。此时,由于能够根据类别信息s3在一定程度上预测污染状态数据s2,因此即使在基于第一测量装置的机械各部分的测量精度较低的情况下,也可以使学习适当收敛,并使清洗清洗对象时的清洗条件最优化。

作为清洗工序最优化装置10所具备的机器学习装置20的其它变形例,学习部26可以使用针对具有相同结构的多个用于清洗的工业机械中的每一个而得到的状态变量s以及判定数据d,来学习对用于这些清洗的工业机械中的每一个中的清洗对象进行清洗时的清洗条件。根据该结构,由于可以增加包括在一定时间得到的状态变量s和判定数据d的数据集合的量,因此可以将更多样的数据集合作为输入,从而提高清洗清洗对象时的清洗条件的学习速度和可靠性。

在具有上述结构的机器学习装置20中,不特别限定学习部26所执行的学习算法,而作为机器学习能够采用公知的学习算法。图2是图1所示的清洗工序最优化装置10的一个方式,作为学习算法的一例示出具备执行强化学习的学习部26的结构。强化学习为以下方法:观测学习对象所存在的环境的当前状态(即输入),并且在当前状态下执行预定的行动(即输入),以试错的方式反复对该行动赋予何种回报的循环,将回报的统计最大化的方法(在本申请的机器学习装置中对清洗对象进行清洗时的清洗条件)作为最佳解决方案进行学习。

在图2所示的清洗工序最优化装置10所具备的机器学习装置20中,学习部26具备:回报计算部28,其基于状态变量s求出与通过对清洗对象进行清洗而得到的清洗后的清洗对象的污染状态的适当与否判定结果(相当于在下一个学习循环中使用的判定数据d)相关联的回报r;以及价值函数更新部30,其使用回报r来更新表示在对清洗对象进行清洗时所采用的清洗条件的价值的函数q。学习部26通过重复由价值函数更新部30更新函数q来学习对清洗对象清洗时的清洗条件。

说明学习部26执行的强化学习的算法的一例。该例子的算法已知为一种q学习(q-learning),是一种将行动主体的状态s和在该状态s下行动主体能够选择的行动a作为独立变量,对表示在状态s下选择了行动a时的行动价值的函数q(s,a)进行学习的方法。在状态s下选择价值函数q变为最高的行动a将成为最佳解决方案。在状态s与行动a的相关性未知的状态下开始q学习,重复在任意状态s下选择各种行动a的试错,由此反复更新价值函数q,从而接近最佳解决方案。这里,构成为作为在状态s下选择了行动a的结果,在环境(即状态s)发生了变化时,得到与该变化相对应的回报(即行动a的权重)r,为了选择得到更高回报r的行动a而诱导学习,由此可以使价值函数q在比较短的时间内接近最佳解决方案。

价值函数q的更新式一般可以表示为下述数学式1。在数学式1中,st以及at分别是时刻t的状态以及行动,状态根据行动at变化为st+1。rt+1是通过状态从st变化为st+1而得到的回报。maxq的项表示在时刻t+1进行成为最大的价值q(在时刻t考虑)的行动a时的q。α以及γ分别是学习系数以及折扣率,在0<α≤1、0<γ≤1的条件下任意设定。

[数学式1]

在学习部26执行q学习时,状态观测部22观测到的状态变量s以及判定数据取得部24取得的判定数据d相当于更新式的状态s,针对当前状态(即污染状态)的清洗对象应该怎样变更对该清洗对象进行清洗时的清洗条件的行动相当于更新式的行动a,回报计算部28所求出的回报r相当于更新式的回报r。因此价值函数更新部30通过使用了回报r的q学习来重复更新表示清洗当前状态的清洗对象时的清洗条件的价值的函数q。

回报计算部28所求出的回报r例如在决定对清洗对象清洗时的清洗条件后根据该清洗条件实施了清洗对象的清洗时,在判定为清洗后的清洗对象的污染状态为“适宜”时(也就是清洗后的清洗对象的污染程度在能够容许的范围内时)设为正(plus)的回报r,在决定对清洗对象进行清洗时的清洗条件后根据该清洗条件实施了清洗对象的清洗时,在判定为清洗后的清洗对象的污染状态为“否”时(也就是清洗后的清洗对象的污染程度在能够容许的范围外时)设为负(minus)的回报r。正负的回报r的绝对值可以彼此相同也可以彼此不同。这里,例如也可以根据由第一测量装置测量到的清洗对象的污染量(面积或体积等)是否在预定的阈值以下来判定是否能够容许污染程度。

此时,分别针对清洗后的清洗对象的各个部分,判定污染状态是否在能够容许的范围内,当针对所有部分的污染状态在容许范围内时可以判定为“适宜”,当清洗后的清洗对象的各部分的污染状态的总和在容许范围内时可以判定为“适宜”。另外,也可以将它们组合来进行判定。

另外,清洗后的清洗对象的污染状态的适当与否判定结果不仅是“适宜”以及“不适宜”两种,也可以根据污染的程度设定为多个阶段。作为例子,可以在容许范围的最大值为tmax时,对清洗后的清洗对象赋予剩余的污染量k,在0≤k<tmax/5时,将回报r=5赋予清洗后的清洗对象,当tmax/5≤k<tmax/2时,将回报r=2赋予清洗后的清洗对象,在tmax/2≤k≤tmax时,将回报r=1赋予清洗后的清洗对象。进而,也可以设为如下结构:学习的初始阶段将tmax设定的比较大,并且随着学习的进行而缩小tmax。

进一步地,作为回报r,也可以设为清洗时间变得比预先设定的预定阈值越短越是赋予正的回报。这样,在清洗对象的污染状态为“适宜”的清洗条件中,清洗时间短的优先进行洗涤,因此可以缩短清洗工序的循环时间。

价值函数更新部30可以具有对状态变量s、判定数据、回报r与由函数q表示的行动价值(例如数值)关联起来并进行整理后的行动价值表。此时,由价值函数更新部30更新函数q的行为与价值函数更新部30更新行动价值表的行为意义相同。由于在q学习开始时,环境的当前状态与对清洗对象进行清洗时的清洗条件之间的相关性未知,所以在行动价值表中,以与随机决定的行动价值的值(函数q)关联起来的方式来准备各种状态变量s和判定数据d和回报r。此外回报计算部28如果已知判定数据d,则能够立刻计算与该判定数据d对应的回报r,将计算出的值r被写入行动价值表中。

如果使用清洗后的清洗对象的污染程度的适当与否判定结果所对应的回报r来推进q学习,则向选择得到更高回报r的行动的方向诱导学习,根据作为在当前状态下执行了所选择的行动的结果而发生变化的环境的状态(也就是状态变量以及判定数据d),改写针对当前状态下进行的行动的行动价值的值(函数q),并更新行动价值表。通过重复该更新,越是适当行动,则显示在行动价值表中的行动价值的值(函数q)越是被改写为大的值。这样,未知的环境的当前状态(清洗对象的污染状态)与对此的行动(清洗清洗对象时的清洗条件)之间的相关性逐渐变得明确。也就是说通过行动价值表的更新,清洗对象的清洗前的污染状态与清洗该清洗对象时的清洗条件之间的关系逐渐接近最佳解决方案。

参照图3,进一步说明学习部26执行的上述q学习的流程(即机器学习方法的一个方式)。首先在步骤sa01,价值函数更新部30一边参照该时刻的行动价值表,一边随机地选择对清洗对象进行清洗时的清洗条件作为状态观测部22观测到的状态变量s所表示的在当前状态下进行的行动。在执行清洗后,接着价值函数更新部30在步骤sa02中导入状态观测部22所观测到的当前状态的状态变量s,在步骤sa03中,导入判定数据取得部24所取得的当前状态的判定数据d。接着价值函数更新部30在步骤sa04中根据判定数据d判断对清洗对象进行清洗时的清洗条件是否适宜,如果适宜,则在步骤sa05中将回报计算部28求出的正的回报r应用于函数q的更新式,接着在步骤sa06,使用当前状态的状态变量s以及判定数据d和回报r和行动价值的值(更新后的函数q)来更新行动价值表。在步骤sa04中,当判断对清洗对象进行清洗时的清洗条件不适宜时,在步骤sa07中将回报计算部28求出的负的回报r应用于函数q的更新式,接着在步骤sa06中,使用当前状态的状态变量s以及判定数据d和回报r和行动价值的值(更新后的函数q)来更新行动价值表。学习部26通过重复步骤sa01~sa07来反复更新行动价值表,并推进对清洗对象进行清洗时的清洗条件的学习。

图4是图1所示的清洗工序最优化装置10的其他方式,表示作为学习算法的其他例子的具备执行监督学习的学习部26的结构。监督学习与在输入与输出之间的关系为未知的状态下开始学习的上述强化学习不同,其是预先大量地赋予输入和与其对应的输出的、已知的数据组(称为监督数据),根据这些监督数据对暗示输入与输出的相关性的特征进行识别,由此学习用于推定针对新的输入所需要的输出的相关性模型(在本申请的机器学习装置20中对清洗对象进行清洗时的清洗条件)的方法。

在图4所示的清洗工序最优化装置10所具备的机器学习装置20中,学习部26具备:误差计算部32,其根据状态变量s以及判定数据d,对引导对清洗对象进行清洗时的清洗条件的相关性模型m与从预先准备好的监督数据t中识别出的相关性特征之间的误差e进行计算;以及模型更新部34,其以缩小误差e的方式来更新相关性模型m。学习部26通过由模型更新部34重复相关性模型m的更新来学习对清洗对象进行清洗时的清洗条件。

相关性模型m的初始值是例如将状态变量s以及判定数据与对清洗对象进行清洗时的清洗条件之间的相关性单纯化(例如通过一次函数)地表现的值,在监督学习开始前赋予学习部26。监督数据t由例如通过对在过去的清洗对象的清洗中由熟练的作业人员所决定的清洗条件进行记录从而累积的经验值(清洗对象的污染状态与对清洗对象进行清洗时的清洗条件的、已知数据组)构成,在开始监督学习之前赋予学习部26。误差计算部32从被赋予给学习部26的大量监督数据t中对暗示清洗对象的污染程度与清洗该清洗对象时的清洗条件之间的相关性的相关性特征进行识别,并求出该相关性特征与当前状态的状态变量s以及判定数据d所对应的相关性模型m之间的误差e。模型更新部34例如按照预先决定的更新规则向误差e变小的方向更新相关性模型m。

在接下来的学习循环中,误差计算部32使用按照更新后的相关性模型m而试行安装工序并由此发生变化的状态变量s以及判定数据d,求出与这些变化后的状态变量s以及判定数据d相对应的相关性模型m相关的误差e,模型更新部34再次更新相关性模型m。这样,未知环境的当前状态(倾向对象的污染状态)与针对该状态的行动(清洗该清洗对象时的清洗条件的决定)的相关性逐渐变得明确。也就是说,通过相关性模型m的更新,清洗前的清洗对象的污染状态与清洗该清洗对象时的清洗条件的关系逐渐接近最佳解决方案。

此外,在清洗工序最优化装置10所具备的机器学习装置20也可以构成为,学习的初始阶段由学习部26执行监督学习,在学习进行了一定程度的阶段,将清洗通过监督学习得到的清洗对象时的清洗条件作为初始值,并由学习部26执行强化学习。强化学习的初始值具有一定程度的可靠性,所以能够比较迅速地到达最佳解决方案。

在推进上述的强化学习和有监督学习时,例如能够使用神经网络来代替q学习。图5a示意性地表示神经元的模型。图5b示意性地表示组合图5a所示的神经元而构成的三层神经网络的模型。神经网络例如能够由模仿了神经元的模型的运算装置和存储装置等构成。

图5a所示的神经元输出针对多个输入x(这里作为一例为输入x1~输入x3)的结果y。对各个输入x1~x3乘以与该输入x对应的权重w(w1~w3)。由此,神经元输出通过下面的数学式2表现的输出y。此外,在数学式2中,输入x、输出y以及权重w全部是向量。另外,θ是偏置,fk是活性化函数。

[数学式2]

图5b所示的三层神经网络从左侧输入多个输入x(这里作为一例为输入x1~输入x3),从右侧输出结果y(这里作为一例为结果y1~结果y3)。在图示的例子中,输入x1、x2、x3分别与所对应的权重(总称表示为w1)相乘,每个输入x1、x2、x3都被输入给3个神经元n11、n12、n13。

图5b中,将神经元n11~n13的每个输出统称表示为z1。z1可以视为提取输入向量的特征量后的特征向量。在图示的例子中,特征向量z1分别与所对应的权重(统称表示为w2)相乘,每个特征向量z1都被输入给2个神经元n21、n22。特征向量z1表示权重w1与权重w2之间的特征。

图5b中,将神经元n21~n22的每个输出统称表示为z2。z2可以视为提取特征向量z1的特征量后的特征向量。在图示的例子中,特征向量z2分别与所对应的权重(统称表示为w3)相乘,每个特征向量z2都被输入给3个神经元n31、n32、n33。特征向量z2表示权重w2与权重w3之间的特征。最后神经元n31~n33分别输出结果y1~y3。

在清洗工序最优化装置10所具备的机器学习装置20中,将状态变量s和判定数据d作为输入x,学习部26进行按照上述神经网络的多层结构的运算,由此可以输出对清洗对象进行清洗时的清洗条件(结果y)。此外在神经网络的动作模式中有学习模式和价值预测模式等,例如可以在学习模式中使用学习数据组学习权重w,使用学习到的权重w在价值预测模式中进行行动的价值判定。此外,在价值预测模式中也可以进行检测、分类、推论等。

上述的清洗工序最优化装置10的结构可以记述为计算机的cpu执行的机器学习方法(或者软件)。该机器学习方法为学习对清洗对象进行清洗时的清洗条件的机器学习方法,计算机的cpu具有:将表示对清洗对象进行清洗时的清洗条件的清洗条件数据s1以及表示该清洗对象的污染状态的污染状态数据s2作为表示进行清洗对象的清洗的环境的当前状态的状态变量s并进行观测的观测步骤;取得表示清洗后的清洗对象的污染状态的适当与否判定结果的判定数据d的步骤;以及使用状态变量s和判定数据d将对清洗对象进行清洗时的清洗条件与污染状态数据s2关联起来进行学习的步骤。

图6表示第二实施方式的清洗工序最优化装置40。清洗工序最优化装置40具备:机器学习装置50、以及取得状态观测部22观测到的状态变量s的清洗条件数据s1和污染状态数据s2作为状态数据s0的状态数据取得部42。状态数据取得部42所取得的状态数据s0也可以包括类别信息s3。状态数据取得部42可以根据附设在机械上的上述第一测量装置和基于作业人员的适当的数据输入来取得状态数据s0。

清洗工序最优化装置40所具有的机器学习装置50除了通过机器学习自主学习对清洗对象进行清洗时的清洗条件的软件(学习算法等)以及硬件(计算机的cpu等),还包括用于显示学习到的对清洗对象进行清洗时的清洗条件、或者向用于作为对清洗该清洗对象的工业机械(未图示)输出指令的软件(运算算法等)以及硬件(计算机的cpu等)。清洗工序最优化装置40所包括的机器学习装置50也可以具有由一个共通的cpu执行学习算法、运算算法等所有软件的结构。

意思决定部52可以构成为例如计算机的cpu的一个功能。或者意思决定部52可以构成为例如使计算机的cpu发挥功能的软件。意思决定部52对作业人员显示学习部26所学习到的对清洗对象进行清洗时的清洗条件,或者对根据学习部26所学习到的对清洗对象进行清洗时的清洗条件来进行清洗的工业机械生成指令值c,并作为所生成的指令值c进行输出。意思决定部52在显示对清洗对象进行清洗时的清洗条件,并进行由基于此的作业人员所进行的清洗对象的清洗时,或者,在意思决定部52对工业机械输出了指令值c时,环境的状态(清洗条件数据s1)由此发生变化。

状态观测部22在接下来的学习循环中观测状态变量s,该状态变量s包括在显示或输出意思决定部52的针对环境的、对清洗对象进行清洗时的清洗条件后发生变化的清洗条件数据s1。学习部26使用发生变化的状态变量s更新例如价值函数q(即行动价值表),由此学习对清洗对象进行清洗时的清洗条件。意思决定部52显示在学习到的对清洗对象进行清洗时的清洗条件下,根据状态变量s来清洗清洗对象时的条件,或者输出对工业机械的指令值c。通过重复该循环,机器学习装置50推进对清洗条件进行清洗时的清洗条件的学习,逐渐提高自身所决定的对清洗条件进行清洗时的清洗条件的可靠性。

具有上述结构的清洗工序最优化装置40所具备的机器学习装置50实现与上述机器学习装置20相同的效果。特别是机器学习装置50可以通过意思决定部52的输出使环境的状态发生变化。另一方面,在机器学习装置20中,可以在外部装置(例如工业机械的控制装置)中求出相当于用于使学习部26的学习结果反映给环境的意思决定部的功能。

图7表示具备工业机械60的一个实施方式的清洗系统70。清洗系统70具备具有相同机械结构的多个工业机械60、60’、以及将这些工业机械60、60’相互连接的网络72,多个工业机械60、60’中的至少一个构成为具备上述清洗工序最优化装置40的工业机械60。另外清洗系统70可以包括不具备清洗工序最优化装置40的工业机械60’。工业机械60、60’具有为了对清洗对象进行清洗所需要的一般结构。

就具有上述结构的清洗系统70而言,多个工业机械60、60’中具备清洗工序最优化装置40的工业机械60使用学习部26的学习结果,无论以运算或估算的方式都能够自动且正确地求出与清洗对象的污染状态相对应的清洗该清洗对象时的清洗条件。另外,也可以构成为至少一个工业机械60的清洗工序最优化装置40根据对其他多个工业机械60、60’中的每一个而得到的状态变量s以及判定数据d,学习与所有的工业机械60、60’共通的对清洗对象进行清洗时的清洗条件,并由所有的工业机械60、60’共享该学习结果。因此,根据清洗系统70,可以将更多样的数据集合(包括状态变量s以及判定数据d)作为输入,提高对清洗对象进行清洗时的清洗条件的学习速度和可靠性。

图8表示具备工业机械60’的其他实施方式的清洗系统70’。清洗系统70’具备机器学习装置50(或20)、具有相同机械结构的多个工业机械60’、将这些工业机械60’与机器学习装置50(或20)相互连接的网络72。

就具有上述结构的清洗系统70’而言,由机器学习装置50(或20)根据对多个工业机械60’中的每一个而得到的状态变量s以及判定数据d来学习与所有的工业机械60、60’共通的对清洗对象进行清洗时的清洗条件,并使用该学习结果,无论以运算或估算的方式都能够自动且正确地求出与清洗对象的污染状态相对应的对清洗对象进行清洗时的清洗条件。

清洗系统70’可以具有以下结构,即机器学习装置50(或20)存在于网络72所准备的云服务器中。根据该结构,无论多个工业机械60’分别存在的场所和时期如何,在必要的时候都可以将多个工业机械60’与机器学习装置50(或20)连接。

从事清洗系统70、70’的作业人员在机器学习装置50(或20)开始学习后的适当时期,可以判断基于机器学习装置50(或20)的对清洗清洗对象时的清洗条件的学习的到达程度(即对清洗对象进行清洗时的清洗条件的可靠性)是否达到了要求水平。

以上,说明了本发明的实施方式,但是本发明并不仅限于上述实施方式的例子,可以通过增加适当的变更以各种方式来实施。

例如,机器学习装置20、50所执行的学习算法、机器学习装置50所执行的运算算法、清洗工序最优化装置10、40所执行的控制算法等不限于上述而能够采用各种算法。

以上,说明了本发明的实施方式,但是本发明不仅限于上述实施方式的例子,而能够通过增加适当的变更以其他方式来实施。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1