1.一种机械学习装置,能够与卷线机通信,学习通过该卷线机形成线圈的动作,其特征在于,
该机械学习装置具备:
状态观测部,其观测由通过所述卷线机形成的线圈的尺寸实际值、电阻实际值、线材使用量以及程序执行时间实际值中的至少一项与通过所述卷线机的程序所指示的所述线圈的尺寸指令值、电阻指令值、匝数指令值、卷绕速度指令值、张力指令值以及所述程序的执行时间指令值中的至少一项构成的状态变量;以及
学习部,其将通过所述状态观测部观测到的所述线圈的尺寸实际值、电阻实际值、线材使用量以及程序执行时间实际值中的至少一项,与通过所述状态观测部观测到的所述线圈的尺寸指令值、电阻指令值、匝数指令值、卷绕速度指令值、张力指令值以及所述程序的执行时间指令值中的至少一项关联起来进行学习,
所述学习部包括:
回报计算部,其根据通过所述状态观测部观测到的所述线圈的尺寸实际值、电阻实际值、线材使用量以及程序执行时间实际值中的至少一项来计算回报;以及
函数更新部,其根据该回报计算部计算出的回报,更新从当前的所述状态变量中决定所述线圈的尺寸指令值、电阻指令值、匝数指令值、卷绕速度指令值、张力指令值以及所述程序的执行时间指令值中的至少一项的函数,
所述学习部利用多层构造来运算通过所述状态观测部观测到的状态变量,并实时地更新所述函数。
2.根据权利要求1所述的机械学习装置,其特征在于,
该机械学习装置具备:意图决定部,其根据所述学习部的学习结果,从当前的所述状态变量中决定所述线圈的尺寸指令值、电阻指令值、匝数指令值、卷绕速度指令值、张力指令值以及所述程序的执行时间指令值中的至少一项的最佳值。
3.根据权利要求1或2所述的机械学习装置,其特征在于,
在线圈的尺寸实际值、电阻实际值、线材使用量以及程序执行时间实际值在各自的允许范围以内时,所述回报计算部增大回报;在所述允许范围以外时,所述回报计算部减小回报。
4.根据权利要求1或2所述的机械学习装置,其特征在于,
使用通过另一个机械学习装置的函数更新部更新后的函数来更新所述函数更新部的所述函数。
5.一种线圈制造装置,其特征在于,
具备权利要求1至4中任一项所述的机械学习装置。