机器学习装置以及光源单元制造装置的制作方法

文档序号:14779386发布日期:2018-06-26 10:45阅读:268来源:国知局

本发明涉及对光源单元的光学部件的调芯步骤进行学习的机器学习装置以及光源单元制造装置。



背景技术:

激光二极管模块等光源单元用于很多装置。在光源单元中,发光元件、透镜以及光纤等光学部件被固定在壳体。光源单元的制造工序中,在将发光元件固定在壳体的预定的位置后,将其他的光学部件固定在壳体。光学部件需要固定为相对于发光元件成为相对最佳的位置以及姿势。例如,光学部件需要配置为在预定的方向以预定的强度射出光。光学部件以受光元件接受的光的强度等满足预先决定的基准的方式来固定在壳体(例如,参照日本特开2008-176342号公报)。

进行光学部件的位置以及姿势的调整的作业被称为调芯。或者,该作业被称为光轴调整。在进行光学部件的调芯的工序中,一边使光学部件的位置以及姿势变化一边来测定光的强度等。直到光的测定值满足预先决定的基准为止重复位置以及姿势的变更。

在以往的技术下的调芯工序中,作业者预先根据经验来决定调芯步骤。作业者在设定光学部件的位置以及姿势后分析光的测定值。然后,作业者基于分析的结果来反复进行修正光学部件的位置以及姿势的作业。这样,调芯步骤的重新修改取决于作业者的技能,难以自动化。

在日本特开平7-084171号公报中公开了一种透镜驱动的控制装置,其在自动对焦用透镜驱动装置中的搜索驱动时,能够进行控制使得透镜保持框不与机械端碰撞。

一般来说,光学部件的位置以及姿势能够用三维的坐标系的各轴的位置(x,y,z)以及围绕各轴的旋转角度(θx,θy,θz)来表示。即,一个光学部件的位置以及姿势能够使用6个轴来调整。在作业者根据经验决定调芯步骤的方法中,作业者从多个步骤中选定被认为最佳的步骤。

此时,取决于光学部件的移动方法,达到最佳位置以及最佳姿势之前的作业时间产生较大的差异。取决于作业者,存在光学部件的调芯作业花费较长的时间的情况,成为生产效率降低的原因。当光学部件的位置以及姿势的调整未在预先决定的时间内结束的情况下,一般来说发出警报而结束作业。若发出警报,则作业者判定为部件不良。然而,存在部件并非不良的情况,成为使光源单元的成品率恶化的原因。即使在最终完成调芯的情况下,也有可能在调芯作业的过程中产生无用的作业。或者,有可能与在最短时间内进行调芯的情况相比需要长时间。

另外,在制造1种光源单元时,作业者能够不考虑部件的品质的波动,以相同的调芯步骤执行作业。该方法在进行品质相同的部件的调芯时有效。然而,在使用的部件的品质变化的情况下,该调芯步骤不是最佳的。作业者需要重新修改调芯步骤。结果,作业时间的波动变大。或者,存在作业者反复进行无用的步骤,或者重新移动光学部件而花费大量时间的情况。

已知光源单元的部件的品质影响光学部件的调芯作业,但是这些品质的信息有多种。各轴中的移动方法与部件的品质的信息之间的组合非常多。因此,作业者难以将部件的品质的信息与调芯步骤在理论上关联起来而决定调芯步骤。



技术实现要素:

本公开的一方式的机器学习装置对执行光源单元的光学部件的调芯的步骤进行学习。机器学习装置具备状态观测部,其取得包含光学部件的位置以及姿势和光源单元的构成部件的品质信息的状态数据。机器学习装置具备判定数据取得部,其取得包含光学部件的位置以及姿势的调整时间和通过光测定器测定出的光的状态的判定数据。机器学习装置具备学习部,其基于由状态观测部取得的状态数据以及由判定数据取得部取得的判定数据,对调整光学部件的位置以及姿势的步骤进行学习。学习部包含基于由判定数据取得部取得的调整时间以及光的状态来计算回报的回报计算部。学习部包含基于由回报计算部设定的回报来更新价值函数的价值函数更新部。学习部包含基于价值函数,设定光学部件的移动方法的决策部。

本公开的一方式的光源单元制造装置具备测定从发光元件出射的光的状态的光测定器、保持光学部件使其移动的移动装置、控制移动装置的控制器。控制器包含状态观测部,其取得包含光学部件的位置以及姿势和构成部件的品质信息的状态数据。控制器具备判定数据取得部,其取得包含光学部件的位置以及姿势的调整时间和通过光测定器测定出的光的状态的判定数据。控制器具备学习部,其基于由状态观测部取得的状态数据以及由判定数据取得部取得的判定数据,对调整光学部件的位置以及姿势的步骤进行学习。学习部包含基于由判定数据取得部取得的调整时间以及光的状态来计算回报的回报计算部。学习部包含基于由回报计算部设定的回报来更新价值函数的价值函数更新部。学习部包含基于价值函数,设定光学部件的移动方法的决策部。

附图说明

图1是实施方式中的光源单元的概略侧视图。

图2是实施方式中的第1制造系统的框图。

图3是用实施方式中的光源单元制造装置进行第1透镜调芯时的侧视图。

图4是执行透镜的调芯时的透镜以及工作台的侧视图。

图5是相对于x轴方向的透镜的位置的光的强度的图表,其中,实线表示第1光源单元,点划线表示第2光源单元。

图6是示意性表示神经元的模型的图。

图7是将多个神经元组合构成的3层的神经网络的示意图。

图8是说明透镜的移动的概略图。

图9是实施方式中的机器学习装置进行的学习的控制的流程图。

图10是实施第2透镜的调芯时的光源单元的侧视图。

图11是实施方式中的第2制造系统的框图。

图12是实施方式中的第3制造系统的框图。

具体实施方式

参照图1到图12,对实施方式的机器学习装置以及光源单元制造装置进行说明。本实施方式的机器学习装置以及光源单元制造装置对执行光源单元的光学部件的调芯的步骤进行学习。

图1表示本实施方式中的光源单元的概略侧视图。本实施方式中的光源单元4使从发光元件42出射的光入射到光纤44。光源单元4具备出射激光等光的发光元件42。发光元件42例如是激光二极管。光源单元4包含改变光的行进方向的第1透镜45以及第2透镜46。第1透镜45以及第2透镜46以曲面状的表面相互相向的方式配置。光源单元4具备接收从第2透镜46出射的激光的受光元件43。在受光元件43的内部配置有光纤44。

发光元件42以及受光元件43被固定在壳体41。第1透镜45用粘接剂82固定在壳体41的固定部41a。第2透镜46用粘接剂82固定在壳体41的固定部41b。从发光元件42出射的光通过第1透镜45变换为平行光。从第1透镜45射出的光通过第2透镜46聚光。然后,从第2透镜46射出的光入射到受光素子43的内部的光纤44。这样,光源单元4至少包含一个光学部件。在本实施方式中,作为执行调芯的光学部件,举例说明透镜45、46。

图2是表示本实施方式的第1制造系统的框图。图3表示执行第1透镜的调芯作业时的光源单元的侧视图。参照图2以及图3,制造系统8具备光源单元制造装置1和机器学习装置2。光源单元制造装置1执行在光源单元4配置的光学部件的调芯。即,光源单元制造装置1调整光学部件的位置以及姿势。机器学习装置2与光源单元制造装置1相连接,使得能够与光源单元制造装置1通信。机器学习装置2基于从光源单元制造装置1接收到的信息以及透镜的品质信息31,对调整光学部件的位置以及姿势的步骤进行学习。

光源单元制造装置1包含作为使光学部件移动的光学部件移动装置的透镜移动装置12。本实施方式的透镜移动装置12包含保持透镜45、46的工作台18。透镜移动装置12包含用于驱动工作台18的驱动电动机16和安装在驱动电动机16的旋转位置检测器17。

光源单元制造装置1具备控制透镜移动装置12的控制器11。控制器11由运算处理装置(计算机)构成,该运算处理装置具备经由总线相互连接的CPU(Central Processing Unit中央处理单元)、RAM25(Random Access Memory随机存取存储器)以及ROM(Read Only Memory只读存储器)等。控制器11包含向光测定器13以及透镜移动装置12送出动作指令的动作控制部14。透镜移动装置12的驱动电动机16基于动作指令进行驱动。

通过驱动电动机16进行驱动,工作台18的位置以及姿势变化。另外,旋转位置检测器17检测驱动电动机16的输出轴的旋转位置。基于旋转位置检测器17的输出,检测透镜45、46的位置以及姿势。

图4表示正在调整透镜的位置以及姿势时的工作台以及透镜的侧视图。工作台18例如通过吸附能够保持透镜45。通过驱动电动机16驱动,工作台18的位置以及姿势变化,并且透镜45的位置以及姿势变化。本实施方式中,透镜45的位置由三维的坐标系的各轴的位置(x,y,z)表示。另外,透镜45的姿势由沿着旋转移动的驱动轴的旋转位置(θx,θy,θz)表示。

本实施方式中,在透镜45中预先设定了中心点45a。作为表示透镜45的位置的坐标系,例如能够设定将壳体41中的任意的位置作为原点,包含x轴,y轴以及z轴的坐标系。作为表示透镜45的姿势(旋转位置)的坐标系,例如能够将透镜的中心点45a作为原点,设定x轴,y轴以及z轴。而且,能够利用包含围绕x轴的驱动轴,围绕y轴的驱动轴以及围绕z轴的驱动轴的坐标系。能够将沿着各个驱动轴的旋转角度决定为透镜45的旋转位置。例如,围绕x轴的驱动轴的坐标值能够由旋转角度θx来表示。

本实施方式的透镜移动装置12沿着6个驱动轴,调整透镜45的位置以及姿势。透镜移动装置不限于该方式,形成为能够调整透镜的位置以及姿势即可。例如,根据光学部件的形状,具有能够通过5个驱动轴调整透镜的位置以及姿势的情况。此时,透镜移动装置形成为工作台基于5个驱动轴进行移动即可。另外,透镜移动装置为了修正在配置透镜时产生的透镜的位置以及姿势的相对的偏离,可以具备图像处理装置以及检测器。

参照图2以及图3,光源单元制造装置1包含光测定器13。光测定器13形成为能够检测光的特性。本实施方式的光测定器13形成为能够检测光的强度的分布。光测定器13能够检测光的强度、光的模式图案、光的中心位置。根据光的强度的分布决定模式图案。例如,在模式图案为单模的情况下,激光成为高斯光束。

作为光测定器13,例如,能够使用固定式的光传感器。光传感器包含CCD(Charge Coupled Device电荷耦合器件),能够通过CCD检测光的强度的分布。在本实施方式中,使用二维的光传感器。光测定器13可利用能够检测至少一个光的状态的测定器。例如,也可以使用扫描式的光传感器。

在图3所示的例子中,光测定器13由支承部件19支承。支承部件19放置在固定部41b上。光测定器13也可以固定在配置受光元件43的位置。另外,光源单元制造装置还可以包含向光源单元的外侧引导光的反射镜等。在这种情况下,光测定器能够配置在光源单元的外侧。在本实施方式中,以与从发光元件42出射的光的光轴81交叉的方式配置光测定器13。另外,以受光面与光轴81垂直的方式配置光测定器13。光测定器13由控制器11控制。将光测定器13测定出的光的状态的信息发送到控制器11。

在本实施方式的光源单元制造装置1中,能够通过在6个轴的方向上移动的工作台18,执行2个透镜45、46的调芯。在本实施方式中,在进行第1透镜45的调芯后,进行第2透镜46的调芯。

在各个透镜45、46的调芯中,进行透镜45、46的位置以及姿势的调整,使得受光元件43接收的光的强度大于预定的判定值。另外,进行透镜45、46的位置以及姿势的调整,使得光的强度的分布接近理想的模式图案。另外,调整透镜45、46的位置以及姿势,使得光的中心位置接近光纤的中心轴。

在本实施方式的调芯作业中,将透镜45、46在预先决定的6个轴中的一个轴的方向上以微小距离或微小角度移动。接下来,判定用光测定器13接收到的光的状态是否有改善。重复进行该作业,直到光测定器13接收的光的状态成为预先决定的判定范围内为止。光的状态的判定范围由作业者预先决定,存储在存储部26中。

图5表示一图表,该图表用于说明x轴方向的透镜的中心位置与光测定器检测的光的强度的关系。图5表示在相同种类的2个光源单元中,实施了相同种类的透镜的调芯时的图表。在该图表中,表示了激光的强度与透镜的中心位置的关系。位置xs是开始透镜调芯时的透镜的中心位置。在第1光源单元中,在透镜的中心位置为位置x1时,光的强度成为最大。与此相对,在第2光源单元中,透镜的中心位置在位置x2时,光的强度成为最大。

第1光源单元中安装的透镜与第2光源单元中安装的透镜是用相同的制造方法制造出的相同的设计样式的透镜。然而,取决于透镜的品质等,透镜的最佳的位置以及姿势不同。在第1光源单元中,如箭头91所示,需要将透镜从调芯开始的位置xs向x轴的负侧移动。与此相对的,在第2光源单元中,如箭头92所示,需要将透镜从调芯开始的位置xs向x轴的正侧移动。

如此,即使是相同式样的透镜,透镜的最佳位置取决于透镜的品质而变化。在作业者进行了第1光源单元的调芯后进行第2光源单元的调芯的情况下,将第1光源单元的最佳的透镜的位置x1作为参考。作业者能够在位置x1的附近设定开始调芯的位置。或者,作业者能够将透镜从位置xs向x轴的负侧移动。然而,第2光源单元的最佳的位置x2从位置x1离开。第2光源单元的最佳的位置x2相对于初始的位置xs,存在于位置x1的相反侧。因此,用于第2光源单元的调芯的的调整时间变长。

在本实施方式中,能够基于6个驱动轴来移动透镜45、46。能够沿着各个驱动轴向正侧或者负侧移动透镜45、46。即,在透镜45、46的移动中,能够使各个透镜向12个移动方向中的任意一个方向移动。透镜45、46的移动方向存在许多。优选用于调芯的调整时间短,然而作业者难以从很多的移动方向中选择调整时间短的最佳的移动方向。

另外,透镜的品质包含透镜的形状、透镜的材料的组成、透镜的折射率、焦点距离、以及在表面蒸镀的光学薄膜的特性等。作业者难以在多个移动方向之外还考虑透镜的品质来选择最佳的移动方向。本实施方式的机器学习装置学习如下的调芯的步骤,即考虑透镜的移动方向以及透镜的品质来执行调芯,使得调整时间变短。这里,对本实施方式的机器学习进行说明。

机器学习装置具有如下功能:通过解析从输入到装置的数据的集合中提取其中有用的规则以及判断基准等,并输出其判断结果,并且进行知识的学习(机器学习)。机器学习的方法多种多样,大致分为,例如“监督学习”,“无监督学习”以及“强化学习”。在本实施方式中,实施机器学习中的强化学习(Q学习)。并且,具有在实施强化学习的基础上,学习特征量的提取的被称为“深度学习(Deep Learning)”的方法。

首先,作为强化学习的问题设定,如下考虑。

·制造系统(例如,包含光源单元制造装置的控制器以及机器学习装置)观测环境的状态,并决定行为。

·还有环境按照某种规则变化,并且,自己的行为给环境带来变化的情况。

·每次进行行为时,返回回报信号。

·想要最大化的是将来的回报(折扣)的总和。

·从完全不知道或者不完全知道行为引起的结果的状态开始学习。即,机器学习装置只有实际进行行为才能够取得该行为的结果来作为数据。换句话说,需要一边尝试一边探索最佳的行为。

·如同模仿人的动作那样,还能够将进行了预先学习(监督学习或逆强化学习这样的学习方法)的状态作为初始状态,从好的开始地点开始学习。

这里,在强化学习(Q学习)中,除了学习判定、分类之外,还学习行为,由此考虑行为向环境造成的相互作用来学习恰当的行为。即,强化学习中,是针对用于使将来得到的回报最大的方法进行学习的学习方法。

强化学习是学习在某环境状态s下,选择行为a的行为价值Q(s,a)的方法。换句话说,在为某个状态s时,选择行为价值Q(s,a)最高的行为a来作为最佳的行为即可。然而,最初对于状态s与行为a的组合,完全不知道行为价值Q(s,a)的正确的值。因此,智能体(行为主体)在某个状态s下选择各种行为a,对此时的行为a赋予回报。由此,智能体学习更好的行为的选择,即,学习正确的行为价值Q(s,a)。

并且,作为行为的结果,希望使将来得到的回报的总和最大化,所以以最终成为Q(s,a)=E[Σ(γt)rt]为目标。在此,期待值在按照最佳的行为状态变化时取得,因为不知道期待值,所以一边探索一边学习。这样的行为价值Q(s,a)的更新式例如能够由以下的式(1)表示。

上述的式(1)中,st表示时刻t的环境的状态,at表示时刻t的行为。通过行为at,状态变化为st+1。rt+1表示通过该状态的变化得到的回报。另外,附加“max”的项是在状态st+1下,选择此时知道的Q值最高的行为a时的Q值乘以γ。这里,γ是0<γ≤1的参数,称为折扣率。另外,α是学习系数,为0<α≦1的范围。

上述式(1)表示作为行为at的结果,基于返回的回报rt+1,对状态st下的行为at的行为价值Q(st,at)进行更新的方法。即,表示如果回报rt+1与行为a引起的下一个状态下的最佳的行为max a的行为价值Q(st+1,maxat+1)之和大于状态s下的行为a的行为价值Q(st,at),则增大Q(st,at),相反如果小于,则减小Q(st,at)。即,使某个状态下的某个行为的价值接近于作为结果立即返回的回报和该行为引起的下一个状态下的最佳的行为的价值。

这里,作为行为价值Q(s,a)在计算机上的表现方法,具有对于全部的状态以及行为的对(s,a),将其值作为行为价值表来保持的方法、以及准备对行为价值Q(s,a)进行近似的函数的方法。在后者的方法中,上述的式(1)能够通过使用随机梯度下降法等方法调整近似函数的参数来实现。此外,作为近似函数,能够使用后述的神经网络。

然而,作为强化学习中的价值函数的近似算法,能够使用神经网络。图6是示意性表示神经元的模型的图。图7是示意性表示将图6所示的神经元组合而构成的三层的神经网络的图。即,神经网络例如由模仿图6所示的神经元的模型的运算装置以及存储器等构成。

如图6所示,神经元输出针对多个输入x(图6中,作为一个例子输入x1~x3)的输出(结果)y。对各输入x(x1,x2,x3)乘以与该输入x对应的权重w(w1,w2,w3)。由此,神经元输出通过以下述式(2)表现的结果y。此外,输入x、结果y以及权重w都是矢量。另外,在下述的式(2)中,θ是偏置,fk是激活函数。

参照图7,对组合图6所示的神经元而构成的三层的神经网络进行说明。如图7所示,从神经网络的左侧输入多个输入x(这里,作为一个例子,为输入x1~输入x3)。从神经网络的右侧输出结果y(这里,作为一个例子,为结果y1~结果y3)。具体而言,输入x1、x2、x3是乘以对应的权重后输入3个神经元N11~N13中的各个神经元。与这些输入相乘的权重统一记载为W1。

神经元N11~N13分别输出z11~z13。在图7中,这些z11~z13统一记为特征矢量Z1,可视为提取了输入矢量的特征量的矢量。该特征矢量Z1是权重W1与权重W2之间的特征矢量。z11~z13乘以对应的权重后分别输入2个神经元N21以及N22。与这些特征矢量相乘的权重统一记为W2。

神经元N21、N22分别输出z21、z22。在图7中,这些z21、z22统一记为特征矢量Z2。该特征矢量Z2是权重W2和权重W3之间的特征矢量。z21、z22乘以对应的权重后分别输入3个神经元N31~N33。与这些特征矢量相乘的权重统一记为W3。

最后,神经元N31~N33分别输出结果y1~结果y3。神经网络的动作中有学习模式和价值预测模式。例如,在学习模式中,使用学习数据集来学习权重W,利用其参数在预测模式中,进行控制器的行为判断。此外,为了方便,记载为预测,但是能够进行检测、分类、推论等多种任务。

在此,能够即时学习在预测模式下实际使光源单元制造装置的控制器进行动作而得到的数据,能够反映到下一个行为(在线学习)。或者,还能够在使用预先收集的数据群进行集中的学习后,以后使用其参数进行检测模式(批量学习)。或者,还能够在其中间,每当贮存了某种程度的数据时插入学习模式。

另外,权重W1~W3是可以通过误差反向传播(Backpropagation)来学习。此外,误差的信息从右侧进入向左侧流动。误差反向传播是对于各神经元,调整(学习)各个权重,使得输入输入x时的输出y与真实的输出y(监督)之间的差值变小的方法。这样的神经网络还能够将层进一步增加为三层以上,该学习方法被称为深度学习。

本实施方式的机器学习装置2执行上述的强化学习。参照图2,机器学习装置2由包含CPU以及RAM等的运算处理装置(计算机)构成。在本实施方式中,在一个驱动轴中以每个微小距离或者微小角度移动透镜的行动相当于行为。而且,关于从各个位置移动的行为,基于价值函数来计算行为价值。基于行为价值,选择移动方向。

机器学习装置2包含状态观测部21,该状态观测部21取得包含光学部件的位置以及姿势和光源单元4的构成部件的品质信息的状态数据。本实施方式的光学部件为透镜。状态观测部21从光源单元制造装置1的控制器11取得透镜的位置以及姿势。

作业者将透镜的品质信息31预先输入到机器学习装置2的输入部25。机器学习装置2包含存储部26,该存储部26存储与学习有关的任意的信息。将输入到输入部25的透镜的品质信息31存储到存储部26。透镜的品质信息31例如包含材料的组成、透镜的形状、折射率、焦距以及在表面蒸镀的光学薄膜的特性、材料批次、制造装置、作业者、制造工序以及制造年月日等的制造信息。作为透镜的品质信息31,能够采用这些项目中的至少一个。状态观测部21从存储部26取得作为构成部件的品质信息的透镜的品质信息31。

关于构成部件的品质信息,优选输入每一构成部件的信息。然而,关于构成部件的品质信息,也可以使用构成部件的每个制造批次的信息作为代表值。另外,关于构成部件的品质信息,可以废弃在通过学习进行了调芯步骤的最佳化后判断为不需要的信息。

机器学习装置2包含用于取得判定数据的判定数据取得部22。判定数据用于在强化学习中设定价值函数中的回报。判定数据包含通过光测定器13测定出的光的状态。在本实施方式中,判定数据取得部22取得光的强度、光的模式图案以及光的中心位置来作为光的状态。

另外,判定数据取得部22取得光学部件的位置以及姿势的调整时间。即,判定数据取得部22取得从调芯的开始到调芯的结束为止所需的时间。光源单元制造装置1的控制器11包含调整时间测定部15。调整时间测定部15对以每个微小距离或者微小角度移动透镜而测定光时的作业时间进行检测。而且,能够通过累计与1次的移动有关的作业时间,计算从调芯的开始到调芯的结束为止所需的调整时间。判定数据取得部22从控制器11取得调整时间。

机器学习装置2包含对调整光学部件的位置以及姿势的步骤进行学习的学习部23。学习部23基于用状态观测部21取得的状态数据以及用判定数据取得部22取得的判定数据来实施学习。学习部23包含基于用判定数据取得部22取得的调整时间以及光的状态来计算回报的回报计算部28。学习部23包含基于用回报计算部28设定的回报来更新价值函数的价值函数更新部29。

机器学习装置2包含基于用学习部23设定的价值函数来设定透镜的移动方法的决策部24。在本实施方式中,作为透镜的移动方法,决策部24设定透镜的移动方向。即,决策部24从6个驱动轴中的正侧的方向以及负侧的方向中选择从当前的透镜的位置移动的方向。此外,在决策部24设定的透镜的移动方法中还可以包含移动的距离或角度。

将决策部24设定的移动方向的指令发送到光源单元制造装置1的控制器11。动作控制部14基于接收到的移动方向的指令来驱动透镜移动装置12。透镜移动装置12变更透镜的位置以及姿势。

图8表示说明本实施方式中的透镜的移动的概略图。图8中,为了简化说明,表示了6个驱动轴中的x轴以及y轴。另外,在图8中,表示了透镜45在二维的平面上进行移动的例子。该例中,透镜45沿着x轴或者y轴移动。

在透镜45有可能移动的区域中,格状地设定了移动点MPmn。各个移动点彼此的微小距离恒定。在这里的例子中,将透镜45配置在移动点MP00。将透镜45的中心点45a配置在移动点MP00。透镜45能够向包含x轴的正侧以及负侧、y轴的正侧以及负侧的四个方向移动。对四个方向的移动计算行为价值。决策部24能够基于针对各个移动方向的行为价值,选择移动点的移动方向。在图8所示的例子中,如箭头93所示,使透镜45正在向x轴的正侧移动。透镜45的中心点45a向移动点MP10移动。透镜移动装置能够基于多个驱动轴来执行这样的透镜的移动。

图9表示本实施方式的机器学习的控制的流程图。参照图2以及图9,在步骤60中,作业者向机器学习装置2的入力部25输入透镜的品质信息31。存储部26存储透镜的品质信息31。

在步骤61中,决策部24设定开始调芯的透镜的位置以及姿势。在图9所示的例子中,预先决定了开始调芯的位置。决策部24将该位置设定为调芯的开始位置。

在步骤62中,光测定器13进行光的测定。本实施方式中,光测定器13测定光的强度、模式图案以及光的中心位置。控制器11接收在初始的位置的测定结果。判定数据取得部22从控制器11取得在初始的位置的测定结果。

步骤63中,决策部24设定从当前的位置进行移动的方向。决策部24能够选择行为价值大的方向。预先决定了与从各个移动点的移动方向相关的行为价值的初始值。或者,也可以基于ε-贪婪(ε-greedy)法,设定移动方向。即,也可以通过概率ε随机选择方向。将决策部24设定的移动方向发送到控制器11。

在步骤64中,控制器11基于由决策部24设定的移动方向来驱动透镜移动装置12。通过透镜45以微小距离或者微小角度移动,变更透镜45的位置以及姿势。旋转位置检测器17检测驱动电动机16的输出轴的旋转位置。动作控制部14取得移动后的各轴的位置。

在步骤65中,光测定器13进行光的测定。光测定器13测定光的强度、模式图案以及光的中心位置。控制器11接收测定结果。

在步骤66中,机器学习装置2的状态观测部21取得状态数据。状态观测部21取得各轴的透镜的位置。另外,状态观测部21从存储部26取得在存储部26中存储的透镜的品质信息31。判定数据取得部22取得判定数据。判定数据取得部22从控制器11接收光的强度、模式图案以及光的中心位置的测定结果。将状态数据以及判定数据存储在存储部26。

在步骤67中,学习部23的回报计算部28判别与前次的透镜的位置以及姿势下的光的强度相比,这次的透镜的位置以及姿势下光的强度是否增加。在步骤67中,在光的强度增加的情况下,控制移到步骤68。在步骤68中,回报计算部28进行控制,使得与这次的移动有关的价值函数中包含的回报增加。

在步骤67中,在光的强度未增加的情况下,控制移到步骤69。在步骤69中,回报计算部28执行控制,使得与这次的移动有关的价值函数中包含的回报减小。

接下来,在步骤70中,回报计算部28判别这次的透镜的位置以及姿势下的光的模式图案是否优于前次的透镜的位置以及姿势下的光的模式图案。即,回报计算部28判别模式图案是否得到了改善。例如,在光为单模的情况下,回报计算部28判别光的强度分布的形状相对于强度的最大点是否接近对称。回报计算部28能够判别为强度分布的形状越接近对称的形状,模式图案越好。或者,回报计算部28能够判别强度的分布的圆度是否接近于1。回报计算部28能够判别为圆度越接近1模式图案越好。

在步骤70中,在这次的透镜的位置以及姿势下的光的模式图案优于前次的透镜的位置以及姿势下光的模式图案的情况下,控制移到步骤71。在步骤71中,回报计算部28进行控制,使得与这次的移动有关的价值函数中包含的回报增加。在步骤70中,在模式图案未改善的情况下,控制移到步骤72。在步骤72中,回报计算部28进行控制,使得与这次的行为有关的价值函数中包含的回报减小。

接下来,在步骤73中,回报计算部28判别光的中心位置是否得到改善。优选光入射到受光元件43的光纤44的中心轴的位置。预先设定了这样的光的中心位置的最佳点。回报计算部28判定这次的透镜的位置以及姿势下的光的强度的最大点与前次的透镜的位置以及姿势下的光的强度的最大点相比,是否接近最佳点。在这次的光的强度的最大点比前次的光的强度的最大点接近最佳点的情况下,回报计算部28能够判别为改善了光的中心位置。

在步骤73中,在光的中心位置被改善的情况下,控制移到步骤74。在步骤74中,回报计算部28执行控制,使得与这次的移动有关的价值函数中包含的回报增加。在步骤73中,在光的中心位置未改善的情况下,控制移到步骤75。在步骤75中,回报计算部28执行控制,使得与这次的移动有关的价值函数中包含的回报减小。

在步骤68、71、74中回报增加的情况下,能够采用任意的方法。例如,在判定基准为光强度的情况下,回报计算部28能够执行光强度的增加量越大使回报增加越大的控制。或者,回报计算部28也可以执行以预先决定的增加量来增加回报的控制。

在步骤69、72、75中回报减少的情况下,能够采用任意的方法。例如,在判定基准为光强度的情况下,回报计算部28能够执行光强度的减少量越大,使回报的减少量越大的控制。或者,回报计算部28也可以执行以预先决定的减少量减少回报的控制。

如此,回报计算部28在通过移动透镜而使光的状态得到改善的情况下,执行增加回报的控制。另外,回报计算部28在通过移动透镜而使光的状态恶化的情况下,执行减少回报的控制。此外,在步骤67、70、73中,在前次的光的状态与这次的光的状态相同的情况下,回报计算部进行减少回报的控制,然而控制不限于该方式。在光的状态不变化的情况下,回报计算部也可以进行将回报维持为当前值的控制。

接下来,在步骤76中,价值函数更新部29基于由回报计算部28设定的回报更新价值函数。

接下来,在步骤77中,机器学习装置2的决策部24判别光的强度、模式图案以及光的中心位置是否在预先决定的判定范围内。即,决策部24判别光的状态是否满足了希望的条件。在步骤77中,在光的强度、模式图案以及光的中心位置在判定范围内的情况下,结束该控制。在步骤77中,在光的强度、模式图案以及光的中心位置中的至少一个从判定范围脱离的情况下,控制返回步骤63。在步骤63中,决策部24设定从当前的位置以及姿势开始进行移动的方向。而且,机器学习装置2直到光的状态在判定范围内为止,反复进行步骤63到步骤77的控制。

然而,控制器11的调整时间测定部15能够检测从调芯开始到调芯结束为止的时间。判定数据取得部22在图9所示的控制结束后,从控制器11取得该调整时间。而且,回报计算部28能够基于调整时间,更新与各个移动相关的价值函数的回报。例如,回报计算部28能够进行调整时间越长越使回报减少的控制。或者,回报计算部28能够进行调整时间越短越使回报增加的控制。

接下来,价值函数更新部29对进行了这次透镜调芯的全部的移动路径的价值函数进行更新。另外,价值函数更新部29能够基于修正后的价值函数,计算各个移动的行为价值。能够基于更新后的行为价值,进行下次的光源单元的透镜的调芯。

这样,机器学习装置2对调整透镜的位置以及姿势的步骤进行学习。而且,基于学习的结果来进行透镜的移动,由此能够在短时间进行透镜的调芯。在第1透镜45的位置以及姿势的调整结束后,用粘接剂82将第1透镜45固定在固定部41a。

在上述的实施方式中,预先决定了开始透镜调芯的位置,然而不限于该方式。开始透镜调芯的位置也能够通过机器学习来学习。例如,还能够通过强化学习来学习开始透镜调芯的位置。状态观测部21能够取得透镜的品质信息和开始位置。判定数据取得部22能够从调整时间测定部15取得调芯所需的调整时间。而且,回报计算部28能够基于调整时间来设定回报。例如,调整时间越短,回报计算部28能够使回报增加得越大。价值函数更新部29能够基于设定的回报来更新价值函数。决策部24能够根据基于价值函数计算出的行为价值,设定开始透镜调芯的位置。

或者,也可以通过监督学习来学习开始透镜调芯的位置。在监督学习中,向机器学习装置赋予大量的监督数据,即,某个输入和结果(标签)的数据的组合。机器学习装置学习这些数据集中的特征,能够归纳性地获得从输入推定结果的模型(误差模型),即其关系性。作为输入数据,能够输入部件的品质信息以及透镜的调芯的开始位置。机器学习装置能够输出调芯时间来作为输出数据。机器学习装置能够选择调芯时间短的开始位置。

图10表示本实施方式的调整第2透镜的位置以及姿势时的侧视图。在本实施方式中,在第1透镜45的位置以及姿势的调整结束后调整第2的透镜的位置以及姿势。光源单元制造装置1的工作台18保持第2透镜46。将光测定器13配置在与壳体41的配置受光元件43的位置对应的位置。例如,将光测定器13配置为发光元件42的光轴81与其受光面垂直。另外,将光测定器13配置为光轴81通过受光面的大致中央部。

接下来,能够通过与上述的第1透镜45的调芯相同的方法,调整第2透镜46的位置以及姿势。能够在第2透镜46的位置以及姿势的调整结束后,通过粘接剂82,在固定部41b固定第2透镜46。

能够如此执行第1透镜45的调芯以及第2透镜46的调芯。在本实施方式中,在执行了第1透镜45的调芯后,执行第2透镜的调芯,但不限于该方式。也可以同时执行第1透镜45的调芯和第2透镜的调芯。在这种情况下,光源单元制造装置能够通过第1工作台保持第1透镜,通过第2工作台保持第2透镜。光源单元制造装置能够反复执行使第1透镜和第2透镜中的一方移动来取得光的状态的控制。这样,光源单元制造装置可以同时进行多个光学部件的调芯。

图11表示本实施方式的第2制造系统的框图。在第2制造系统中,多个机器学习装置2经由通信装置相互连接。在图11所示的例子中,2个机器学习装置2经由通信装置相互连接。机器学习装置2具备用于与其他的机器学习装置进行通信的通信装置30。一个机器学习装置从其他的机器学习装置接收状态数据以及判定数据。

多个机器学习装置相互连接,从而机器学习装置能够共享许多学习数据。另外,在多个机器学习装置中,能够共享价值函数。结果,价值函数的更新变快,能够缩短用于求出最佳的价值函数以及行为价值的时间。即,机器学习装置的学习时间缩短。

另外,能够将配置在远方的机器学习装置彼此连接。例如,当在离得远的地方建设新工厂的情况下,能够短时间地进行光源单元的调芯的条件的设定。或者,在进行相同的光源单元的生产线的增设的情况下,能够短时间地进行调芯条件的设定。结果,工厂的光源单元的制造效率提高。

在上述的实施方式中,机器学习装置2与光源单元制造装置1连接,但不限于该方式,光源单元制造装置也可以具有机器学习装置的功能。

图12表示本实施方式中的第3制造系统的框图。第3制造系统包含光源单元制造装置5。光源单元制造装置5的控制器11包含具有第1制造系统的机器学习装置2的功能的机器学习部51。机器学习部51包含状态观测部21、判定数据取得部22、学习部23以及决策部24。

判定数据取得部22能够从光测定器13取得光的状态。而且,判定数据取得部22能够从调整时间测定部15取得透镜的调芯所需的时间。状态观测部21能够基于透镜移动装置12的旋转位置检测器17的输出,取得透镜的位置以及姿势。决策部24能够对动作控制部14发送透镜的动作指令。

另外,机器学习部51包含输入部25以及存储部26。向输入部25输入透镜的品质信息31,并将其存储在存储部26。状态观测部21从存储部26取得透镜的品质信息31。机器学习部51的其他的结构以及功能与第1制造系统8的机器学习装置2(图2参照)相同。

如此,光源单元制造装置的控制器能够具有机器学习的功能。在这种情况下,可以将多台的光源单元制造装置的控制器彼此相互连接。通过该结构,多台的光源单元制造装置能够共享价值函数以及行为价值,能够缩短学习时间。

在上述的实施方式中,在输入部输入透镜的品质信息,然而不限于该方式。在输入部还能够输入光源单元的构成部件的品质信息。而且,状态观测部能够取得包含构成部件的品质信息的状态数据。学习部能够基于该状态数据执行机器学习。

光源单元的构成部件中包含光学部件。作为光学部件,包含发光元件、受光元件、反射镜、滤光片、光纤以及分光器等。另外,在构成部件中包含壳体。例如,发光元件的品质信息中包含:光的波长、光的强度、温度特性以及扩展角等特性、材料批次、制造装置、作业者、制造工序以及制造年月日等制造信息。发光元件的品质信息能够采用这些项目中的至少一个项目。在壳体的品质信息中包含壳体的形状(壳体的形状的误差)、材料批次、制造装置、作业者、制造工序、以及制造年月日等制造信息。壳体的品质信息能够采用这些项目中的至少一个项目。构成部件的品质对光学部件的调芯造成影响。状态观测部能够取得任意的构成部件的品质的信息。学习部能够基于取得的构成部件的品质来执行学习。

在本实施方式中,作为进行调芯的光学部件举例说明了透镜,然而不限于该方式。通过机器学习进行的位置以及姿势的调整能够适用于在光源单元中配置的任意的光学部件。

本实施方式的光源单元包含2个透镜、一个发光元件以及一个受光素子,但不限于该方式。光源单元能够包含任意数量的光学部件。例如,光源单元可以包含在多个透镜彼此之间配置的滤光片或反射镜,或者也可以通过一个受光元件接收从多个发光元件出射的光。

根据本公开的一方式,能够提供一种机器学习装置以及光源单元制造装置,其学习在短时间内执行光源单元的光学部件的调芯作业的步骤。

在上述各个控制中,能够在不变更功能以及作用的范围中适当地变更步骤的顺序。

上述的实施方式能够适当地组合。在上述各个图中,对相同或者相等的部分赋予了相同的附图标记。此外,上述的实施方式只是举例说明,不限定发明。另外,在实施方式中包含权利要求书中所示的实施方式的变更。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1