机械学习装置、螺丝紧固系统以及其控制装置的制作方法

文档序号:11119333阅读:356来源:国知局
机械学习装置、螺丝紧固系统以及其控制装置的制造方法

本发明涉及机械学习装置、包含这样的机械学习装置的螺丝紧固系统以及其控制装置。



背景技术:

进行使用螺丝刀来自动紧固螺丝的自动螺丝紧固作业。然而,由于在自动螺丝紧固作业中以一定的高速度来紧固螺丝,因此会引起齿轮咬伤。

在日本特开2011-073105号公报中,求出拧入工件的螺丝的高度,在螺丝的高度脱离预定范围时判断为不适合。

在这样的情况下,使自动组装线停止而输出警报通知给作业员。然后,作业员通过手动作业来修正螺丝紧固部位,之后,再次开始自动组装线。

但是,如果每当螺丝咬伤时都使自动组装线停止,则生产效率显著降低。



技术实现要素:

本发明是鉴于上述的情形而提出的发明,其目的在于提供一种能够防止生产效率降低的机械学习装置、包含这样的机械学习装置的螺丝紧固系统以及其控制装置。

为了达成上述目的,根据第一发明提供一种机械学习装置,其对通过螺丝刀来紧固螺丝的动作进行学习,其中,该机械学习装置具有:状态观测部,其对状态变量进行观测,其中,该状态变量由所述螺丝刀的转速、所述螺丝刀的旋转方向、所述螺丝刀的位置和所述螺丝刀的倾斜中的至少一个,以及通过所述螺丝刀紧固的所述螺丝的紧固品质和通过所述螺丝刀紧固所述螺丝的紧固时间中的至少一个构成;以及学习部,其将由所述状态观测部观测到的所述转速、所述旋转方向、所述位置和所述倾斜中的至少一个,以及由所述状态观测部观测到的所述紧固品质的变化和所述紧固时间的变化中的至少一个关联起来进行学习。

根据第二发明,在第一发明中,所述学习部包括:回报计算部,其根据由 所述状态观测部观测到的所述紧固品质和所述紧固时间中的至少一个来计算回报;以及函数更新部,其根据由该回报计算部计算出的回报,对用于从当前的所述状态变量决定所述螺丝刀的最佳转速、所述螺丝刀的最佳旋转方向、所述螺丝刀的最佳位置、所述螺丝刀的最佳倾斜中的至少一个的函数进行更新。

根据第三发明,在第二发明中,所述回报计算部设定为在所述紧固时间比规定时间大时减少回报。

根据第四发明,在第二或者第三发明中,所述回报计算部设定为在所述紧固时间不比规定时间大时增加回报。

根据第五发明,在第二至第四发明中的任一发明中,所述紧固品质包含螺丝紧固转矩以及紧固后的螺丝位置中的至少一个,所述回报计算部设为在所述螺丝紧固转矩不在预定范围内时以及所述螺丝位置比规定值大时中的至少一种情况下减少回报。

根据第六发明,在第二至第五发明中的任一发明中,所述紧固品质包含螺丝紧固转矩以及紧固后的螺丝位置中的至少一个,所述回报计算部设为在所述螺丝紧固转矩在预定范围内时以及所述螺丝位置不比规定值大时中的至少一种情况下增加回报。

根据第七发明,提供一种螺丝紧固系统的控制装置,该螺丝紧固系统通过螺丝刀来紧固螺丝,其中,该控制装置具有:转速调整部,其对所述螺丝刀的转速进行调整;旋转方向调整部,其对所述螺丝刀的旋转方向进行调整;位置调整部,其对所述螺丝刀的位置以及倾斜进行调整;紧固品质检测部,其对通过所述螺丝刀紧固的所述螺丝的紧固品质进行检测;紧固时间检测部,其对通过所述螺丝刀紧固所述螺丝所需的紧固时间进行检测;第一发明~第六发明中任一项所述的机械学习装置;以及意图决定部,其根据所述学习部的学习结果从当前的所述状态变量决定并输出所述转速调整部、所述旋转方向调整部以及所述位置调整部中的至少一个的调整量,以便确定所述螺丝刀的最佳转速、所述螺丝刀的最佳旋转方向以及所述螺丝刀的最佳位置和最佳倾斜中的至少一个。

根据第八发明,提供一种螺丝紧固系统,其中,该螺丝紧固系统包含:第七发明所述的控制装置;以及具有所述螺丝刀的螺丝紧固装置。

附图说明

从附图所示的本发明的典型的实施方式的详细的说明中进一步明确本发明的这些目的、特征以及优点和其他的目的、特征以及优点。

图1是基于本发明的螺丝紧固系统的功能框图。

图2是放大表示机械学习器的图。

图3是表示机械学习器的动作的流程图。

具体实施方式

以下,参照附图对本发明的实施方式进行说明。在以下的附图中对相同的部件标注相同的参照符号。为了易于理解,这些附图适当变更比例尺。

图1是基于本发明的螺丝紧固系统的功能框图。如图1所示,螺丝紧固系统1主要包括:螺丝紧固装置10,其包括螺丝刀11(screwdriver);控制装置20,其控制螺丝紧固装置10。

在图1的下方示出了彼此重合的两个平板41、42。在这些平板41、42中形成多个螺纹贯通孔(未图示),螺丝45插入到平板41的贯通孔。这些平板41、42在图1的箭头A1方向被搬送预定距离。然后,在某个螺丝45达到对应于螺丝紧固装置10的螺丝刀11的位置时,螺丝刀11在箭头A2方向下降而在某个方向旋转,由此,螺丝45与平板41、42螺合。

控制装置20是数字计算机,包括:转速调整部21,其对螺丝刀11的转速进行调整;旋转方向调整部22,其对螺丝刀11的旋转方向进行调整;以及位置调整部23,其对螺丝刀11的位置以及倾斜进行调整。这些转速调整部21、旋转方向调整部22、以及位置调整部23各自的调整量通过后述的机械学习器30来被决定。另外,以下有时将螺丝刀11的位置以及倾斜简单地称为“螺丝刀11的位置”。

并且,控制装置20包括:紧固品质检测部24,其对通过螺丝刀11而被紧固的螺丝45的紧固品质进行检测。由紧固品质检测部24检测出的紧固品质包括由转矩传感器24a检测出的螺丝紧固转矩以及由距离传感器24b检测出的紧固后的螺丝位置。这里,从图1可以明确,由距离传感器24b检测出的螺丝位置表示螺丝45的头部下端与平板41之间的距离。

并且,控制装置20包括:紧固时间检测部25,其对由螺丝刀11紧固螺 丝45所需要的紧固时间进行检测。紧固时间检测部25将螺丝刀11开始旋转螺丝45的时刻到紧固结束为止的时刻检测为紧固时间。

如图1所示,控制装置20还包括机械学习器30。该机械学习器30也可以作为机械学习装置而外设于控制装置20。参照放大表示机械学习器的图2,机械学习器30包括:状态观测部31,其对状态变量进行观测,其中该状态变量由紧固螺丝的螺丝刀11的转速、螺丝刀11的旋转方向、螺丝刀11的位置和螺丝刀11倾斜中的至少一个,以及通过螺丝刀11紧固的螺丝的紧固品质和通过螺丝刀11紧固螺丝的紧固时间中的至少一个构成。状态观测部31能够将所述的状态变量与观测的时间一起依次存储。

并且,机械学习器30具有:学习部35,其将由状态观测部31观测到的转速、旋转方向、位置和倾斜中的至少一个,以及由状态观测部31观测到的紧固品质的变化和紧固时间的变化中的至少一个关联起来进行学习。

这里,学习部35能够进行有教师学习、无教师学习、半有教师学习、强化学习、转换、多任务处理学习等各种机械学习。在以下,设为学习部35通过Q学习(Q-learning)进行强化学习来继续说明。

这里,参照图2可以明确,机械学习器30相当于强化学习中的智能体(agent)。此外,转速调整部21、旋转方向调整部22、位置调整部23,紧固品质检测部24以及紧固时间检测部24对环境状态进行检测。

进行强化学习的学习部35包括:回报计算部32,其根据由状态观测部31观测到的紧固品质和紧固时间中的至少一个来计算回报;以及函数更新部33(人工智能),其根据由回报计算部32计算出的回报,对用于从当前的状态变量决定螺丝刀11的最佳转速、螺丝刀11的最佳旋转方向、驱动11的最佳位置、螺丝刀11的最佳倾斜中的至少一个的函数例如行为价值函数(行为价值表)进行更新。当然,函数更新部33也可以更新其他函数。

并且,机械学习器30包括:意图决定部34,其根据学习部35的学习结果从当前的状态变量决定并输出转速调整部21、旋转方向调整部22、以及位置调整部23中的至少一个的调整量,以便规定螺丝刀11的最佳转速、螺丝刀11的最佳旋转方向和螺丝刀11的最佳位置以及最佳倾斜中的至少一个。意图决定部34对更好的行为选择(意图决定)进行学习。另外,意图决定部34 也可以不包含于机械学习器30而是包含于控制装置20中。

图3是表示机械学习器的动作的流程图。以下,参照图1~图3对机械学习器30的动作进行说明。设为每当螺丝紧固装置10将螺丝45紧固于平板41、42时实施图3所示的动作。

首先,在图3的步骤S11中,选择出螺丝刀11的转速V、旋转方向D、位置P。螺丝刀11的转速V以及位置P从各自的预定范围被随机选择。螺丝刀11的转速V以及位置P从各自的预定范围被随机选择。对于螺丝刀11的旋转方向D来说,随机选择顺时针、逆时针中的一个。

或者也可以是,设定为首先选择出螺丝刀11的转速V在预定范围内的最小值,接下来在下一循环时选择增加了微量后的值。对于螺丝刀11的位置P也是一样的。可以重复图3的处理,以便选择出转速V、旋转方向D、位置P的全部组合。

接下来,在步骤S12中,通过紧固时间检测部25检测出紧固一个螺丝45所需的紧固时间,将紧固时间与规定时间进行比较。在紧固时间比规定时间小时,在步骤S13中增加回报。相反,在紧固时间比不比规定时间小时,在步骤S18中减少回报或者保持不变。

接下来,在步骤S14中,判断由转矩传感器24a检测出的螺丝紧固转矩是否存在于规定范围内。然后,当螺丝紧固转矩存在于规定范围内时,在步骤S15中增加回报,当螺丝紧固转矩不存在于规定范围内时,在步骤S18中减少回报或者保持不变。

接下来,在步骤S16中,判定由距离传感器24b检测出的螺丝位置是否比规定值小。然后,当螺丝位置比规定值小时,在步骤S17中增加回报,当螺丝位置不比规定值小时,在步骤S18中回报减少或者保持不变。

通过回报计算部32来计算这样的回报增减。此外,关于回报增减额度,也可以设定为对应于步骤而使其值不同。此外,还可以将步骤S12、S14、S16中的至少一个判定步骤以及关联的回报步骤省略。

然后,在步骤S19中,函数更新部33更新行为价值函数。这里,学习部35实施的Q学习是在某种环境状态s下对选择出行为a的价值(行为的价值)Q(s、a)进行学习的方法。然后,在某种状态s时,选择出Q(s、a)最高 的行为a。在Q学习中,通过试错而在某种状态s下取得各种各样的行为a,使用当时的回报来学习正确的Q(s、a)。行为价值函数Q(s、a)的更新式通过以下的数学式(1)来表示。

这里,st、at表示时刻t的环境与行为。通过行为at环境变化为st+1,通过该环境的变化,计算出回报rt+1。此外,带max的项是在环境st+1之下,将γ乘以选择出最高(当时知道的)Q值的行为a时的Q值。这里γ是0<γ≤1(通常是0.9~0.99)的折扣率,α是0<α≤1(通常是0.1左右)的学习系数。

该更新式示出了如下内容:若在a导致的下一环境状态的最佳行为的评价值Q(st+1,maxat+1)比在状态s下的行为a的评价值Q(st、at)大,则增大Q(st,at),反之如果小,则也减小Q(st,at)。也就是说,使在某种状态下的某个行为的价值为接近在其导致的下一状态下的最佳行为的价值。换言之,学习部35对最适合于螺丝45的紧固动作的状态,也就是螺丝刀11的最佳转速、螺丝刀11的最佳旋转方向、螺丝刀11的最佳位置、螺丝刀11的最佳倾斜进行更新。

这样,在步骤S19中,函数更新部33使用所述的数学式(1)来更新行为价值函数。然后,返回到步骤S11,选择螺丝刀11的其他转速V、位置P、旋转方向D,同样地更新行为价值函数。另外,也可以设为代替行为价值函数而是更新行为价值表。

在强化学习中作为智能体的学习部35根据环境状况来决定行为。所谓的此时的行为是指意图决定部34选择转速调整部21、旋转方向调整部22以及位置调整部23各自的调整量,并按照各调整量来进行动作。然后,根据用这些调整量而调整后的螺丝刀11的转速、旋转方向以及位置,图2所示的环境例如紧固品质以及紧固时间发生变化。伴随着这样的环境变化,如上所述将回报提供给机械学习器30,机械学习器30的意图决定部34学习更好的行为选择(意志决定),以便例如获得更高的回报。

因此,重复多次进行图3所示的处理,由此,提高行为价值函数的可靠度。 然后,在步骤S11中,根据可靠性高的行为价值函数,例如以Q值升高的方式来选择螺丝刀11的转速V、旋转方向D以及位置P,由此,能够更优地决定螺丝刀11的转速V等。

这样,能够将由本发明的机械学习部30的函数更新部33更新后的内容自动地决定为紧固螺丝45时的更优的螺丝刀11的转速、旋转方向以及位置。然后,通过将这样的机械学习部30导入到螺丝紧固系统的控制装置20,在螺丝似乎要咬伤时,能够自动地调整螺丝刀11的最佳转速等。因此,能够使包含螺丝紧固装置10的组装工序不停止地进行自动组装。结果,生产效率提升。此外,通过以最佳转速等进行螺丝紧固,还能够缩短螺丝紧固时间。

发明效果

在第一以及第二发明中,能够提供一种机械学习装置,能够自动地决定更更优的螺丝刀的转速等。

在第三至第六发明中,能够更适当地确定回报。

在第七以及第八发明中,由于将机械学习导入到螺丝紧固系统或者其控制装置,因此能够自动地决定螺丝刀的最佳转速等,结果,能够使组装工序不停止地进行自动组装。结果,使生产效率提升。此外,通过以最佳转速等进行螺丝紧固,还能够缩短螺丝紧固时间。

使用典型的实施方式说明了本发明,但本领域的技术人员应该能想到在不脱离本发明范围的情况下还可进行上述的变更以及各种其他变更、省略、追加。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1