神经元装置、神经网络装置、反馈控制装置及信息存储介质的制作方法

文档序号:2334828阅读:168来源:国知局
专利名称:神经元装置、神经网络装置、反馈控制装置及信息存储介质的制作方法
技术领域
本发明涉及通过在神经网络中可改变神经元的阈值,扩展赫布规则(Hebbian rule),筹划整数表达,从而适于进行适当控制的神经元装置、神经网络装置、非负整数编码 装置、整数簇(cluster)装置、反馈控制装置,以及存储了由计算机实现这些装置的程序的 计算机可读取的信息存储介质。
背景技术
以往,提出了以下技术通过将神经细胞的活动转化成简单的数学模型,以假想的 “神经元”为控制单位,用附加权值方式组合神经元之间的输出和输入,并改变其权值,从而 进行学习,利用神经网络进行控制。例如,有关此类技术,被公开在后面提到的非专利文献 1中。这里,在非专利文献1中,提出利用突发模型(bursting model),以神经细胞模型 的自主性活动的学习方式,学习搬运物体的动作的技术。非专利文献1 下田真吾,旭岳史,藤本英雄,木村英紀《複合制御論^ b K 3 a # ,卜制御》第11回口 #于4夕7〉>水。夕7,2006年

发明内容
发明要解决的课题但是,不限于非专利文献1中公开的技术,关于应该设定什么样的神经元模型,目 前尚处于比较、讨论的阶段,迫切需要有关利用了新模型的神经网络结构的技术。本发明为了解决以上课题而完成,其目的在于通过在神经网络中可改变神经元 的阈值,扩展赫布规则,筹划整数表达,从而提供适合进行适当控制的神经元装置、神经网 络装置、非负整数编码装置、整数簇装置、反馈控制装置,以及存储了由计算机实现这些装 置的程序的计算机可读取的信息存储介质。用于解决课题的方案本发明的第1观点的神经元装置,模拟神经细胞,具有阈值存储单元、输入接受单 元、输出单元、阈值更新单元,如下那样构成。S卩,阈值存储单元,存储阈值变量e和两个阈值系数a e 1、A e 2。另一方面,输入接受单元按规定的时间间隔,接受一个或多个输入信号值的输入。还有,输出单元,如果接受了输入的输入信号值的总和s在存储的阈值变量e的 值以上,则当成该神经元装置在点火(firing)而输出“1”作为输出信号值,如果不是这样, 则当成该神经元装置在休息而输出“0”作为输出信号值。而且,阈值更新单元根据输出的输出信号值X和存储的阈值系数A 0 1、A 02,计
算A<formula>formula see original document page 7</formula>,更新阈值存储单元所存储的阈值变量e的值,以使其增加相当于该计算结果的量。本发明的另一观点的神经网络装置具有权值存储单元、两个上述神经元装置(以 下,将其中一个称为“输入侧神经元装置”,将另一个称为“输出侧神经元装置”)、仲裁 (mediation)输入接受单元、权值更新单元,如下那样构成。即,权值存储单元存储权值w和两个权值系数Awl、Aw2。另外,仲裁输入接受单元,在输入侧神经元装置和输出侧神经元装置接受输入信 号值的输入和输出输出信号值的时间间隔中,接受仲裁信号值的输入。进而,输入侧神经元装置的输出信号值u乘以了存储的权值w所得的值wu被提供 给输出侧神经元装置作为输入信号值。然后,权值更新单元根据输入侧神经元装置输出的输出信号值u、输出侧神经元装 置输出的输出信号值X、接受的仲裁信号值Z、以及存储的权值系数Awl、Aw2,计算<formula>formula see original document page 8</formula>
,更新权值存储单元存储的权值w的值,以使其增加相当于该计算结果的量。本发明的另一观点的非负整数编码装置具有上述N个神经元装置、非负实数接受 单元、以及非负整数输出单元,如下构成。即,非负实数接受单元,在N个神经元装置接受输入信号值的输入,将输出信号值 输出的时间间隔中,接受一个或多个非负实数信号值的输入,将该非负实数信号值的总和u 提供给N个神经元装置,作为输入信号值。另外,非负整数输出单元,输出由N个神经元装置输出的输出信号值的总和作为 非负整数信号值。而且,N个神经元装置,将1,2,. . .,N作为该阈值变量0的初始值,分别存储在该 阈值存储单元中,在N个神经元装置的各自中,将0作为该阈值系数A 0 1、A 0 2的值存储 在该阈值存储单元中。本发明的整数簇装置,具有上述两个非负整数编码装置(以下,将其中一个称为 “正侧编码装置”,将另一个称为“负侧编码装置”)、实数接受单元、正侧神经网络、负侧神经 网络、整数运算输出单元,如下那样构成。即,在实数接受单元,在两个非负整数编码装置接受非负实数信号值的输入,输出 非负整数信号值的时间间隔中,接受一个或多个实数信号值的输入,该实数信号值的总和v(a)如果不为负,则将实数值v提供给正侧编码装置作为非负实数信号值,将“0” 提供给负侧编码装置作为非负实数信号值,(b)如果为负,则将“0”提供给正侧编码装置作为非负实数信号值,将实数值-v提 供给负侧编码装置作为非负实数信号值。而且,正侧神经网络,被提供从正侧编码装置输出的非负整数信号值作为输入,进 行对该非负整数的运算。进而,负侧神经网络,被提供从负侧编码装置输出的非负整数信号值作为输入,具 有与正侧神经网络相同的网路(circuitry)结构。另一方面,整数运算输出单元,输出从正侧神经网络输出的信号值中减去从负侧 神经网络输出的信号值所得的值,作为整数运算结果信号。此外,本发明的反馈控制装置,具有控制输入接受单元、正侧反馈装置、负侧反馈装置、操作输出单元,如下那样构成。即,控制输入接受单元接受控制对象位移的目标值、该位移的观测值及该位移的 微分观测值的输入。另外,该正侧反馈装置和负侧反馈装置均具有(a)所述非负整数编码装置A1 ;(b)所述非负整数编码装置A2 ;(c)所述非负整数编码装置A3 ;(d)存储权值p、kl、k2、vUv2和权值系数A ql、A q2的控制存储单元;(e)所述非负整数编码装置B1,被提供将存储的权值p乘以了从非负整数编码装 置A1输出的非负整数信号值u所得的信号值pu,作为实数信号值的输入;(f)所述非负整数编码装置B2,被提供将存储的权值kl乘以了从非负整数编码装 置A1输出的非负整数信号值所得的信号值,以及将存储的权值k2乘以了从非负整数编码 装置A2输出的非负整数信号值所得的信号值,作为实数信号值的输入;(g)所述非负整数编码装置C,被提供将存储的权值vl乘以了从非负整数编码装 置B1输出的非负整数信号值所得的信号值,以及将存储的权值v2乘以了从非负整数编码 装置B2输出的非负整数信号值所得的信号值,作为实数信号值的输入;(h)单侧操作输出单元,输出从非负整数编码装置C输出的非负整数信号值x作为 操作值;以及(j)控制更新单元,根据从非负整数编码装置A1输出的非负整数信号值u,以及从 非负整数编码装置C输出的非负整数信号值X,计算Aqlx2u+Aq2 (xVl),并更新控制存储单元所存储的权值p,以使其增加相当于该计算结果的量。而且,控制输入接受单元(1)如果控制对象的位移目标值不为负,则将该值提供给该正侧反馈装置的非负 整数编码装置A1作为实数信号值的输入,将“0”提供给该负侧反馈装置的非负整数编码装 置A1作为实数信号值的输入,(2)如果控制对象的位移目标值为负,则将“0”提供给该正侧反馈装置的非负整 数编码装置A1作为实数信号值的输入,将该值提供给该负侧反馈装置的非负整数编码装 置A1作为实数信号值的输入,(3)如果控制对象的位移观测值不为负,则将该值提供给该正侧反馈装置的非负 整数编码装置A2作为实数信号值的输入,将“0”提供给该负侧反馈装置的非负整数编码装 置A2作为实数信号值的输入,(4)如果控制对象的位移观测值为负,则将“0”提供给该正侧反馈装置的非负整 数编码装置A2作为实数信号值的输入,将该值提供给该负侧反馈装置的非负整数编码装 置A2作为实数信号值的输入,(5)如果控制对象的位移微分观测值不为负,则将该值提供给该正侧反馈装置的 非负整数编码装置A3作为实数信号值的输入,将“0”提供给该负侧反馈装置的非负整数编 码装置A3作为实数信号值的输入,(6)如果控制对象的位移微分观测值为负,则将“0”提供给该正侧反馈装置的非负整数编码装置A3作为实数信号值的输入,将该值提供给该负侧反馈装置的非负整数编 码装置A3作为实数信号值的输入。而且,操作输出单元,将从该正侧反馈装置输出的操作值中减去从该负侧反馈装 置(704)输出的操作值所得的值提供给控制对象作为操作输出。此外,本发明的反馈控制装置可以如下构成在各自的非负整数编码装置Bl、B2、 c中,作为该两个阈值系数a e 1、a e 2,取代存储“0”,而存储满足A 6 1 > o > A e 2,且I A e 1 I > I A e 2关系的常数值。此外,在本发明的反馈装置中,该观测对象有K种目标状态,在该K种目标状态的 各个状态中,对应关联目标值,还具有K个所述神经元装置,可以如下那样构成。S卩,在K个神经元装置和正侧反馈装置及负侧反馈装置的组合中,观测对象的目 标状态为第i目标状态时,第i神经元装置被提供正的输入信号值,除此之外的神经元装置 被提供“0”的输入信号值。而且,对于K个神经元装置的各自来说,具有(1)切换权值存储单元,存储对该神经元装置(101)的切换权值rl、r2、r3、r4和 切换权值系数Asl、As2 ;(2)所述非负整数编码装置D1,被提供将存储的权值rl乘以了从该神经元装置输 出的输出信号值y所得的信号值,作为实数信号值的输入;以及(3)所述非负整数编码装置D2,被提供将存储的权值r2乘以了从该神经元装置输 出的输出信号值y所得的信号值,作为实数信号值的输入,(4)对非负整数编码装置C还提供将存储的权值r3乘以了从该非负整数编码装 置D1输出的非负整数信号值所得的信号值,以及将存储的权值r4乘以了从该非负整数编 码装置D2输出的非负整数信号值所得到的信号值,作为实数信号值的输入,(5)还具有切换控制更新单元,根据从该神经元装置输出的输出信号值y和从非 负整数编码装置C输出的非负整数信号值X,计算A slx2y+A s2(x2y-l),并更新控制存储单元所存储的权值rl,以使其增加相当于该计算结果的量。S卩,如果状态有K个,则权值rl、r2、r3、r4、Asl、As2的组(set)也准备K个,单 独地被更新。此外,本发明的反馈控制装置可以如下构成在各自的所述非负整数编码装置 B1、B2、C中,作为该两个阈值系数A 0 1、A 92,取代存储“0”,而存储满足A61>0>A62关系的常数值。此外,本发明的反馈控制装置可以如下构成在各自的非负整数编码装置Dl,D2 中,作为该两个阈值系数A e 1、a e 2,取代存储“0”,而存储满足A 6 1 > o > A e 2,且I A e 1 I > I A e 2关系的常数值。
本发明其他观点的程序构成为使计算机具有上述神经元装置、神经网络装置、非 负整数编码装置、整数簇装置、反馈控制装置的功能。此外,本发明的程序,可以存储在光盘、软盘、硬盘、磁光盘、DVD、磁带、半导体存储 器等计算机可读取的信息存储介质中。上述程序可以独立于执行程序的计算机和数字信号处理器,通过计算机通信网络 发布、销售。另外,上述信息存储介质可以独立于计算机和数字信号处理器来发布、销售。发明效果依据本发明,通过在神经网络中可改变神经元的阈值,扩展赫布规则,筹划整数表 达,可以提供适于进行适当控制的神经元装置、神经网络装置、非负整数编码装置、整数簇 装置、反馈控制装置,以及存储了由计算机实现这些装置的程序的计算机可读取的信息存 储介质。


图1是表示神经元装置的概要结构的示意图。图2是表示神经网络装置的概要结构的示意图。图3A是表示利用扩展赫布规则的神经元组合情况的说明图。图3B是表示利用扩展赫布规则的神经元组合情况的说明图。图4是表示非负整数编码装置的概要结构的示意图。图5A是表示包含非负整数编码装置的一般神经元的簇组合情况的示意图。图5B是表示包含非负整数编码装置的一般神经元的簇组合情况的示意图。图6是表示整数簇装置的概要结构的示意图。图7是表示反馈控制装置的概要结构的示意图。图8是表示本实施方式的反馈控制装置应用于伺服电机的控制时的学习仿真结 果的曲线图。图9是表示控制对象的操纵器的概要结构的示意图。图10A是表示承载了不同的载荷的操纵器姿态的说明图。图10B是表示承载了不同的载荷的操纵器姿态的说明图。图11是表示采用表示目标状态是第几个的信号的反馈控制装置的概要结构的示 意图。图12是表示仿真中目标值的提供方法的曲线图。图13是表示通过图12所示目标值进行了学习的实验结果的曲线图。图14是表示提供了不同重量的载荷时的姿态的收敛值的曲线图。标号说明101神经元装置102阈值存储单元103输入接受单元104输出单元105阈值更新单元201神经网络装置
202权值存储单元
203仲裁输入接受单元
204权值更新单元
401非负整数编码装置
402非负实数接受单元
403非负整数输出单元
501簇
601整数簇装置
602实数接受单元
603正侧神经网络
604负侧神经网络
701反馈控制装置
702控制输入接受单元
703正侧反馈装置
704负侧反馈装置
705操作输出单元
801操纵器
811关节
812关节
821载荷
822载荷
具体实施例方式以下说明本发明的实施方式。再有,以下说明的实施方式是用于说明的,而不是限 制本发明范围的。因此,如果是本领域技术人员,则可以采用将这些各个要素或全部要素置 换成与其均等要素的实施方式,但这些实施方式也包含在本发明的范围内。特别地,以下实施方式所说明的神经元装置、神经网络装置、非负整数编码装 置、整数簇装置、反馈控制装置,典型地为都使计算机执行规定的程序,CPU (Central Processing Unit)进行处理的控制和各种计算,利用RAM (Random Access Memory)作为进 行各种存储的区域。但是,基本结构要素所执行的计算主要是限于四则运算和简单的比较,所以 可以用很简单的电路构成,可将该电路作为电子元件来实现,也可以应用FPGA(Field Programmable Gate Array ;现场可编禾呈门阵列)、DSP(DigitalSignal Processor ;数字信 号处理器)、ASIC (Application Specific IntegratedCircuit ;专用集成电路)等技术来 实现。实施例1以下,按神经元装置、神经网络装置、非负整数编码装置、整数簇装置、反馈控制装 置的顺序,说明其细节。(神经元装置)
12
图1是表示本实施方式的神经元装置概要结构的示意图,以下参照本图进行说 明。神经元装置101是模拟神经细胞的装置,包含有阈值存储单元102、输入接受单元 103、输出单元104、阈值更新单元105。阈值存储单元102存储阈值变量e和两个阈值系数a e 1、A e 2。以下,为了便 于理解,在表示某时间点t的变量e的值时,用e (t)来标记。阈值存储单元102所存储 的是变量9的最新值。另外,两个阈值系数A 0 1、A e 2是用户可以适当调整的常数,但典型的方式是 满足以下两组关系中的任意一个。但是,不局限于此。(1) A e 1 > o > A e 2(2) A e 1 = A e 2 = 0输入接受单元103在规定的时间间隔接受一个或多个输入信号值的输入。由于 按规定的时间间隔接受,所以时刻可用整数来表示。因此,时刻t的N个输入信号值用 S!⑴,...,SN (t)来表不。输出单元104,如果接受了输入的输入信号值的总和s在存储的阈值变量e的值 以上,则当成该神经元装置101在点火而输出“1”作为输出信号值,如果不是这样,则当成 该神经元装置101在休息而输出“0”作为输出信号值。输入信号值的总和s在时刻t的值s(t)可以按s(t) =E i = 1NSi(t)来表现。输入信号值一般取非负实数值,但不限于此。时刻t的输出信号值X(t),根据sgm(z) = 1 (z > 0);sgm(z) = 1 (z = 0);sgm(z) = 0(z < 0)所定义的Sigmoid函数sgm(z),可以按X(t) = sgm(s(t)- 0 (t))来表示。于是,阈值更新单元105,根据输出的输出信号值x和存储的阈值系数a 9 1、 a 0 2,计算A e 1X+A e 2(x-l),更新阈值存储单元102所存储的阈值变量e的值,以使其增加相当于该计算结 果的量。SP,时刻t+i的e的值e (t+i),可以用时刻t的e的值的e (t)的值,按0 (t+1) = e (t) + A e lX(t) + A 0 2(x(t)-l)来表示。该神经元装置101也称为可变阈值神经元(Variable Threshold Neuron ;VTN)。 VTN可取两个状态。X(t)为“1”时,VTN为点火状态,X(t)为“0”时,VTN为休息状态。阈值e (t)因阈值系数a e 1,A e 2而变化。在vtn 101点火时,阈值e仅增加 a e 1,在VTN 101休息时,阈值9仅增加A e 2。
如上所述,在△θ1 > o > △θ2的关系式成立时,点火状态持续时,阈值e上升而难以点火,休息状态持续时,阈 值9下降而容易点火。而且I △θ1 | > I△θ2较多。此外,在△θ1 =△e 2 = 0的情况下,阈值是固定的。(神经网络装置)图2是表示本实施方式的神经网络装置概要结构的示意图,以下参照本图进行说 明。本图所示神经网络装置201,是作为神经网络中加权更新技术而扩展了公知的赫 布规则的装置。神经网络装置201具有权值存储单元202、两个神经元装置101 (以下,将其中一个 称为“输入侧神经元装置101a”,将另一个称为“输出侧神经元装置101b”)、仲裁输入接受 单元203、权值更新单元204。这里,权值存储单元202存储权值和两个权值系数Awl,Aw2。另外,仲裁输入接受单元203在输入侧神经元装置101a和输出侧神经元装置101b 接受输入信号值的输入和将输出信号值输出的时间间隔中,接受仲裁信号值z的输入。仲 裁输入接受单元203连接到其他神经元装置101是常见的。而且,存储的权值w乘以输入侧神经元装置101a的输出信号值u所得值mi作为输 入信号提供给输出侧神经元装置101b。在本图中,在箭头的旁边标注w表示乘以权值以 下相同)。然后,权值更新单元204根据从输入侧神经元装置101a输出的输出信号值u、从 输出侧神经元装置101b输出的输出信号值X、接受的仲裁信号值z、存储的权值系数AW1、 Aw2,计算△wlxuz+Aw2 (xuz~l),将权值存储单元202所存储的权值w的值用该计算结果更新。若标记时刻t,则 如w (t+1) = w(t) +A wlx (t) u (t) z(t) + A w2 (x (t) u (t) z (t)-1)所示,权值被更新。关于该权值系数,△wl > 0 > △w2特别地| △wl | > | △w2较多。图3A、图3B是表示本实施方式的利用扩展赫布规则的神经元组合状况的说明图。 以下参照本图进行说明。
两图中,表示三个神经元装置101 (M)、神经元装置101(1)、神经元装置101(0),但 分别对应于仲裁、输入、输出,各自的输出值(状态)分别为Z、U、X,组合的权值为W。神经元装置101(1)和神经元装置101(0)的组合,相当于上述的神经网络装置 201。权值系数Awl、Aw2被设定以使符号相互不同是典型的。另外,如果以Awl > 0设定了时,神经元装置101(1)和神经元装置101(0)的组合通过神经元装置 101 (M)而被增强(potentiation)(图 3A)。另外,如果以Awl < 0设定了时,神经元装置101(1)和神经元装置101(0)的组合通过神经元装置 101 (M)而被抑制(inhibitation)(图3B)。在抑制的情况下,为了使该意旨清楚,依据习惯, 在从神经元装置101 (M)出来的箭头前面标注竖线。再有,在使神经元装置101 (M)和神经元装置101(1) —致,或者使神经元装置 101 (M)和神经元装置101(0) —致的情况下,就回归到了传统的赫布规则。(非负整数编码装置)图4是表示本实施方式的非负整数编码装置概要结构的示意图,以下参照本图进 行说明。本发明的另一观点的非负整数编码装置401具有上述N个神经元装置101、非负实 数接受单元402、非负整数输出单元403。S卩,非负实数接受单元402,在N个神经元装置101接受输入信号值的输入和将输 出信号值输出的时间间隔中,接受一个或多个非负实数信号值的输入,将该非负实数信号 值的总和u作为输入信号提供给N个神经元装置101。另外,非负整数输出单元403,将N个神经元装置101输出的输出信号值的总和作 为非负整数信号值输出。还有,N个神经元装置101,将1,2,...,N作为该阈值变量0的初始值,分别存储 在该阈值存储单元102中,在N个神经元装置101的各自中,将“0”作为该阈值系数A 0 1、 A 0 2的值存储在该阈值存储单元102中。即,N个神经元装置101之中,第i神经元装置 101的阈值e等于常数i。如果将来自N个神经元装置101的输出全部单纯地组合,则相当于将实数值u的 小数部分去掉而取整数所得的值。和通常的神经元簇之间的组合一样,也可以将神经元之间完全组合(complete connection)0图5A、图5B是表示包含非负整数编码装置401的一般神经元簇的组合状况的示意 图。以下参照本图进行说明。如图5A所示,两个簇501a(A)、501b(B)分别和非负整数编码装置401同样具有N 个神经元装置101,两个簇501a (A)、501b (B)的各神经元装置101互相组合。簇501a (A)的 第i神经元装置101⑷和簇501b⑶的第j神经元装置101 (Bj),以权值w[i,j]相组合。 w[i, j]相当于是二维矩阵或二维数组,所有的元素可以具有相同的常数值,也可以像上述那样,基于扩展赫布规则,单独或统一被更新。图5B是省略表示了图5A的图。为了易于理解,簇501a(A)和簇501b (B),以是否 用权值w组合来表示。以下采用适当的标记法。对于本图的组合的状况,使用“簇501a(A) 的输出乘以权值w,作为输入提供给簇501b⑶”这样的表述。因此,一般地在称作“乘以W” 时,作为w是指上述矩阵/数组,所有权值相同时,则是指标量。(整数簇装置)—般来说,神经元装置101输出的值为“0”或“1”,无法直接输出负的值。如果使 用所述非负整数编码装置401,则需要应对负的值。下面就实现此类处理的整数簇装置说明 如下。图6是表示本实施方式的整数簇装置概要结构的示意图,以下参照本图进行说 明。整数簇装置601,具有上述两个非负整数编码装置401 (以下,将其中一个称为“正 侧非负整数编码装置401a”,将另一个称为“负侧非负整数编码装置401b”)、实数接受单元 602、正侧神经网络603、负侧神经网络604、整数运算输出单元605。即,实数接受单元602,在2个非负整数编码装置401接受非负实数信号值的输入、 输出非负整数信号值的时间间隔中,接受一个或多个实数信号值的输入。然后,该实数信号值的总和ν(a)如果不为负,则将实数值ν提供给正侧非负整数编码装置401a作为非负实数 信号值,将“0”提供给负侧非负整数编码装置401b作为非负实数信号值,(b)如果为负,则将“0”提供给正侧非负整数编码装置401a作为非负实数信号值, 将实数值-ν提供给负侧非负整数编码装置401b作为非负实数信号值。由此,正侧非负整数编码装置401a和负侧非负整数编码装置401b都被提供正的 信号值,进行向非负整数的编码。而且,正侧神经网络603和负侧神经网络604具有相同的网路结构,但有时权值等 的设定因如何学习而变化。而且,正侧神经网络603被提供从正侧非负整数编码装置401a输出的非负整数信 号值作为输入,进行对该非负整数的运算。还有,负侧神经网络604被提供从负侧非负整数编码装置401b输出的非负整数信 号值作为输入,进行对该非负整数的运算。正侧神经网络603和负侧神经网络604都输出正值(绝对值)的信号值,所以整 数运算输出单元605将从正侧神经网络603输出的信号值中减去负侧神经网络604输出的 信号值所得的值作为整数运算结果信号输出。这样,对“0”或正值的处理直接进行,对负值的处理在将负值变换成正值后再进行 处理,最后求两者结果之差来组合,可进行对一般的实数的处理。(反馈控制装置)以下,应用上述神经元装置101、非负整数编码装置401,应用神经网络装置201和 整数簇装置601中的原理,说明进行反馈控制的反馈控制装置的实施方式。图7是表示本实施方式的反馈控制装置概要结构的示意图。以下参照本图进行说 明。
反馈控制装置701具有控制输入接受单元702、正侧反馈装置703、负侧反馈装置 704、操作输出单元705。然后,控制输入接受单元702接受控制对象位移的目标值、该位移的观测值及该 位移的微分观测值的输入。作为位移及其微分,可以采用任意的组合。比如“位置与速度” 、“角度与角速度”、 “速度与加速度”、“角速度与角加速度”等的组合。该正侧反馈装置703和该负侧反馈装置704为相同的网路结构。因此,在本图中, 为了易于理解,省略了图示负侧反馈装置704的细节。该正侧反馈装置703和该负侧反馈装置704,都有六个非负整数编码装置401 (Al, A2,A3,Bi, B2, C)、控制存储单元(未图示)、控制更新单元(未图示)。而且,控制存储单元存储权值p,kl,k2,vl,v2和权值系数Aql,Aq2。这与上述 各个装置相同。对非负整数编码装置401 (Bi)提供将存储的权值ρ乘以了从非负整数编码装置 401 (Al)输出的非负整数信号值u所得的信号值pu,作为实数信号值的输入。对非负整数编码装置401 (Β2)提供将存储的权值kl乘以了从非负整数编码装置 401 (Al)输出的非负整数信号值所得的信号值,以及将存储的权值k2乘以了从非负整数编 码装置401 (A2)输出的非负整数信号值所得的信号值,作为实数信号值的输入。对非负整数编码装置401 (C)提供将存储的权值vl乘以了从非负整数编码装置 401 (Bi)输出的非负整数信号值所得的信号值,以及将存储的权值v2乘以了从非负整数编 码装置401 (B2)输出的非负整数信号值所得的信号值,作为实数信号值的输入。而且,单侧操作输出单元711将从非负整数编码装置401 (C)输出的非负整数信号 值X作为操作值输出。进而,控制更新单元,根据从非负整数编码装置401 (Al)输出的非负整数信号值 u,和从非负整数编码装置401 (C)输出的非负整数信号值X,计算AqlX2u+Δ q2 (X2U-I),并将控制存储单元所存储的权值ρ更新,以使其增加相当于该计算结果的量。这 与上述各个装置相同,相当于对非负整数编码装置401(A1,Bi)的组合应用上述扩展赫布 规则。对具有这样的结构的该正侧反馈装置703和该负侧反馈装置704,控制输入接受 单元702和上述整数簇装置601 —样,适当地分配正值和负值。即(1)控制对象的位移目标值不为负时,将该值提供给该正侧反馈装置703的非负 整数编码装置401 (Al)作为实数信号值的输入,将“0”提供给该负侧反馈装置704的非负 整数编码装置401 (Al)作为实数信号值的输入,(2)控制对象的位移目标值为负时,将“0”提供给该正侧反馈装置703的非负整数 编码装置401 (Al)作为实数信号值的输入,将该值提供给该负侧反馈装置704的非负整数 编码装置401 (Al)作为实数信号值的输入,(3)控制对象的位移观测值不为负时,将该值提供给该正侧反馈装置703的非负 整数编码装置401 (A2)作为实数信号值的输入,将“0”提供给该负侧反馈装置704的非负 整数编码装置401 (A2)作为实数信号值的输入,
(4)控制对象的位移观测值为负时,将“0”供给该正侧反馈装置703的非负整数编码装置401 (A2)作为实数信号值的输入提,将该值提供给该负侧反馈装置704的非负整数 编码装置401 (A2)作为实数信号值的输入,(5)控制对象的位移微分观测值不为负时,将该值提供给该正侧反馈装置703的 非负整数编码装置401 (A3)作为实数信号值的输入,将“0”提供给该负侧反馈装置704的 非负整数编码装置401 (A3)作为实数信号值的输入,(6)控制对象的位移微分观测值为负时,将“0”提供给该正侧反馈装置703的非负 整数编码装置401 (A3)作为实数信号值的输入,将该值提供给该负侧反馈装置704的非负 整数编码装置401 (A3)作为实数信号值的输入。另外,操作输出单元705与所述整数簇装置601同样,由于使用在正侧和负侧获得 的值之差,所以将从正侧反馈装置703输出的操作值中减去负侧反馈装置704输出的操作 值所得的值,作为操作输出提供给控制对象。再有,在本实施方式的正侧反馈装置703和负侧反馈装置704中,在非负整数编码 装置401 (Bi,B2,C)的各自中,作为两个阈值系数Δ Θ1、Δ θ 2,取代存储“0”,以存储满足Δ θ 1 > 0 > Δ θ 2,且I Δ θ 1 I > I Δ θ 2关系的常数值来构成是典型的。另一方面,在非负整数编码装置401 (Al,Α2,A3)中,由于考虑为进行简单的整数 化,所以按ΛΘ1=ΔΘ2 = 0进行设定是典型的。另外,考虑扩展赫布规则的学习,大多利用满足Aql>0>Aq2,且I Δ ql | > | Δ q2关系的常数值。图8是表示在伺服电机控制上适用了本实施方式的反馈控制装置的情况下的学 习仿真结果的曲线图。以下参照本图进行说明。本仿真将伺服电机的角度提供给目标,观测当前的角度和角速度,将对伺服电机 施加的电压作为操作输出。伺服电机可以看成是一个单纯的2元系统,本反馈控制装置用 为可变PD控制器。非负整数编码装置401作为由50个神经元装置101组成的装置,将所要求的角度 设为 0. 5racL本图左侧表示学习试验次数(Number of Learning Trials)分别为第1次(1st)、 第 5 次(5th)、第 10 次(IOth)、第 15 次(15th)、第 20 次(20th)、第 25 次(25th)时,0 秒 5秒之间的角度(纵轴‘rad’)。如该图所示,可知反复学习试验时,达到目标值为止的振荡 变小,控制性能逐渐改善。在非负整数编码装置401 (B2)中,控制误差作为目标值和当前的 角度之差来计算,学习在该观点下被监管(Supervise)。但这里需要注意的是,误差不包含网络本身的变化。权值和阈值的更新按照预先 制定的规则进行,与误差无关。
另外,如本图右侧所示,点火的VTN的数(纵轴Number of Firing)在每当增加学 习试验次数(Number of Learning Trials)时急剧下降,在达到了常数时,系统到达所要求 的控制级别(level)。到达了所要求的控制级别时处于点火状态的神经元装置101的数,可由Δ θ 1, Δ θ 2, Aql, Aq2的值来变化调整。此时,将增加方向的系数Δ θ 1,Aql设成比减少方向 的系数Δ θ 2,Aq2的绝对值大得多的数值时,通过实验可知在进行期望的学习。实施例2在本实施方式中,除了所述实施方式的结构以外,还考虑所谓的目标状态。例如,考虑图9所示操纵器(manipulator)的控制。以下,参照本图进行说明。操纵器801有两个连结手臂的关节811、812,手臂的前端承载了载荷821。对操纵 器801而言稳定的姿态是从重心垂直延伸的线通过关节811的姿态。因此,关节811的角度任意地设定,如图10A、图IOB所示,操纵器801的关节812 的角度设定为两种。图IOA为支撑第1重量的载荷821的第1姿态,设定了关节812的角度。图IOB为支撑第2个重量的载荷822的第2姿态,设定了关节812的角度。两个载荷821、822的重量不同,所以一般来说,在第1姿态和第2姿态中关节812 的角度不同。关节811的角度从上述那种稳定的条件中会自然地确定,所以没必要明确指定。这样,在一连串的动作中,在具有某个程度的自由度的情况下指定要通过的多个 姿态,在该一连串的动作中,将表示当前将面向第几姿态的控制信号提供给反馈控制装置 701。图11是表示反馈控制装置的概要结构的示意图,该装置使用表示目标状态是第 几个的信号。以下参照本图进行说明。本实施方式的反馈控制装置701与上述的反馈控制装置701具有共同的结构,所 以适当省略了图示。另外,在正侧与负侧,结构是对称的,所以对于负侧也适当省略图示。反馈控制装置701中,该观测对象有K种目标状态,该K种目标状态分别对应各自 的目标值。所述操纵器801的姿态有两种,因而K = 2。另外,还准备K个神经元装置101。在这K个神经元装置101中,观测对象的目标 状态是第i目标状态时,第i神经元装置101被提供正的输入信号值,其他的神经元装置 101被提供“0”的输入信号值。而且,对于这K个神经元装置的各自来说,如下构成在正侧反馈装置703和负侧 反馈控制装置704双方中,连接(1)切换权值存储单元(未图示),存储对该神经元装置101的切换权值rl,r2, r3,r4和切换权值系数Asl,Δ82,(2)所述非负整数编码装置401 (Dl),被提供将存储的权值rl乘以从该神经元装 置101输出的输出信号值y所得的信号值,作为实数信号值的输入,以及(3)所述非负整数编码装置401 (D2),被提供将存储的权值r2乘以从该神经元装 置101输出的输出信号值y所得的信号值,作为实数信号值的输入,(4)对非负整数编码装置401C还提供将存储的权值r3乘以从该非负整数编码装置401(D1)输出的非负整数信号值所得的信号值,以及将存储的权值r4乘以从该非负整数 编码装置401 (D2)输出的非负整数信号值所得的信号值,作为实数信号值的输入,(5)与切换控制更新单元(未图示)形成网路,该切换控制更新单元根据从该神经 元装置101输出的输出信号值y和从非负整数编码装置401 (C)输出的非负整数信号值X, 计算Δ slx2y+A s2(x2y_l),更新控制存储单元所存储的权值rl,以使其增加相当于该计算结果的量。这里,在本实施方式中,设八si < 0,利用抑制(inhibitation)。此外,在本发明的反馈控制装置701中,与上述同样,在非负整数编码装置 401 (Dl, D2)的各自中,作为两个阈值系数Δ θ 1、Δ θ 2,取代存储“0”,以存储满足Δ θ 1 > 0 > Δ θ 2,且I Δ θ 1 > I Δ θ 2关系的常数值的结构是典型的。然后,按照目标姿态的顺序,只在面向该姿态的时间间隔中,向该姿态顺序对应的 神经元装置101提供非零的输入,向其他神经元装置101提供“0”的输入即可。对应作为当前目标状态的各个姿态,由于通过扩展赫布规则进行学习,比如在实 现机器人的步行动作时,通过将步行动作分为几个相位(phase),将各个相位的边界作为上 述“目标姿态”,而被期待可以使步行动作的设计变得容易,并且使各个相位的学习得以进 行,减少调整各种参数的时间。此外,通过分为预先提供目标轨道的关节(相当于上述关节812)和通过学习来确 定轨道的关节(相当于所述关节811),可以在短时间获得掌握平衡并步行的神经网络。再有,如上述图10AU0B的例子,在状态只有两个的情况下,因为不是第1目标状 态就是第2目标状态,所以接受目标状态的神经元装置101 —个即可。图12是表示在本例中进行了仿真时的表示目标值的提供方式的曲线图。本图左 侧表示对于时间(横轴)的关节811的目标角度(纵轴Desired Angle ofjoint 1),本图 右侧表示对于时间(横轴)的关节812的目标角度(纵轴DesiredAngle of Joint 2)。如本图所示,被指定按一定的间隔,调换将第1姿态作为目标的期间和将第2姿态 作为目标的期间。图13是表示通过图12所示目标值进行了学习的实验结果的曲线图。本图左侧表示对于时间(横轴)的关节811的角度(纵轴Angle of Joint 1), 本图右侧表示对于时间(横轴)的关节812的角度(纵轴Angle of Joint 2)。如本图所 示,可知姿态随着时间而逐渐收敛到稳定状态。图14是表示承载不同重量的载荷时,姿态的收敛值的曲线图。本图左侧表示对于载荷的重量(横轴Weight)的关节811的角度收敛值(纵轴 Angle of Joint 1),本图右侧表示从不同的初始姿态开始动作时,对不同的重量所描绘的 重心移动轨迹(Trajectory of COG)。可以看出,关节811的角度各不相同,都收敛到了同 一个收敛点,这对机器人来说是最佳的动作。本申请要求2007年10月1日申请的日本专利申请特願2007-257123的优先权, 只要指定国的法律允许,将该基础申请的内容纳入本申请之内。
工业实用性这样,根据本发明,通过在神经网络中可改变神经元的阈值,扩展赫布规则,筹划 整数表达,从而提供适合进行适当控制的神经元装置、神经网络装置、非负整数编码装置、 整数簇装置、反馈控制装置,以及存储了由计 算机实现这些装置的程序的计算机可读取的 信息存储介质。
权利要求
一种模拟神经细胞的神经元装置(101),其特征在于,所述神经元装置(101)具有阈值存储单元(102),存储阈值变量θ和两个阈值系数Δθ1、Δθ2;输入接受单元(103),按规定的时间间隔,接受一个或多个输入信号值的输入;输出单元(104),如果接受了所述输入的输入信号值的总和s在所述存储的阈值变量θ的值以上,则当成该神经元装置(101)在点火而输出“1”作为输出信号值,如果不是这样,则当成该神经元装置(101)在休息而输出“0”作为输出信号值,;以及阈值更新单元(105),根据所述输出的输出信号值X和所述存储的阈值系数Δθ1、Δθ2,计算Δθ1X+Δθ2(X-1),更新所述阈值存储单元(102)所存储的阈值变量θ的值,以使其增加相当于该计算结果的量。
2.—种神经网络装置(201),其具有权值存储单元(202),存储权值和两个权值系数Awl、Aw2 ;两个权利要求1所述的神经元装置(101),以下将其中一个称为“输入侧神经元装置 (101) ”,将另一个称为“输出侧神经元装置(101) ” ;以及仲裁输入接受单元(103),在所述输入侧神经元装置(101)和所述输出侧神经元装置 (101)接受输入信号值的输入、将输出信号值输出的时间间隔中,接受仲裁信号值的输入; 其特征在于所述输入侧神经元装置(101)的输出信号值u乘以所述存储的权值w所得的值mi作 为输入信号值被提供给所述输出侧神经元装置(101),还具有权值更新单元(204),该权值更新单元(204)根据所述输入侧神经元装置(101) 输出的输出信号值U、所述输出侧神经元装置(101)输出的输出信号值χ、所述接受的仲裁 信号值ζ、以及所述存储的权值系数Awl、AW2,计算 Δwlxuz+Δw2(xuz-1),更新所述权值存储单元(202)所存储的权值w的值,以使其增加相当于该计算结果的量。
3.一种非负整数编码装置(401),其特征在于,具有 N个权利要求1所述的神经元装置(101);非负实数接受单元(401),在所述N个神经元装置(101)接受输入信号值的输入,将输 出信号值输出的时间间隔中,接受一个或多个非负实数信号值的输入,将该非负实数信号 值的总和u,作为输入信号值提供给所述N个神经元装置(101);以及非负整数输出单元(403),将由所述N个神经元装置(101)输出的输出信号值的总和作 为非负整数信号值输出,所述N个神经元装置(101)将1,2,. . .,N作为该阈值变量θ的初始值,分别存储在该 阈值存储单元(102)中,在所述N个神经元装置(101)的各个神经元装置中,将“0”存储在 该阈值存储单元(102)中作为该阈值系数Δ θ 1、Δ θ 2的值。
4.一种整数簇装置(601),其特征在于,具有两个权利要求3记载的非负整数编码装置(401),以下将其中一个称为“正侧编码装 置”,将另一个称为“负侧编码装置”;实数接受单元(602),在所述两个非负整数编码装置(401)在接受非负实数信号值的 输入,输出非负整数信号值的时间间隔中,接受一个或多个实数信号值的输入,该实数信号 值的总和ν(a)如果不为负,则将实数值ν提供给所述正侧编码装置作为非负实数信号值,将“0” 提供给所述负侧编码装置作为非负实数信号值,(b)如果为负,则将“0”提供给所述正侧编码装置作为非负实数信号值,将实数值-ν提 供给所述负侧编码装置作为非负实数信号值;正侧神经网络(603),被提供从所述正侧编码装置输出的非负整数信号值作为输入,进 行对该非负整数的运算;负侧神经网络(604),被提供从所述负侧编码装置输出的非负整数信号值作为输入,具 有与所述正侧神经网络(603)相同的网路结构;以及整数运算输出单元(104),输出从所述正侧神经网络(603)输出的信号值中减去从所 述负侧神经网络(604)输出的信号值所得的值,作为整数运算结果信号。
5. 一种反馈控制装置(701),具有控制输入接受单元(103),接受控制对象位移的目标值、该位移的观测值及该位移的微 分观测值的输入;正侧反馈装置(703);以及负侧反馈装置(704),其特征在于该正侧反馈装置(703)和该负侧反馈装置(704)都具有(a)权利要求3所述的非负整数编码装置(401)A1;(b)权利要求3所述的非负整数编码装置(401)A2;(c)权利要求3所述的非负整数编码装置(401)A3;(d)控制存储单元,存储权值p、k1、k2、¥1、¥2和权值系数Aql、Aq2;(e)权利要求3所述的非负整数编码装置(401)B1,被提供将所述存储的权值ρ乘以了 从所述非负整数编码装置(401)A1输出的非负整数信号值u所得的信号值pu,作为实数信 号值的输入;(f)权利要求3所述的非负整数编码装置(401)B2,被提供将所述存储的权值kl乘以 了从所述非负整数编码装置(401) Al输出的非负整数信号值所得的信号值,以及将所述存 储的权值k2乘以了从所述非负整数编码装置(401)A2输出的非负整数信号值所得的信号 值,作为实数信号值的输入;(g)权利要求3所述的非负整数编码装置(401)C,被提供将所述存储的权值Vl乘以了 从所述非负整数编码装置(401)B1输出的非负整数信号值所得的信号值,以及将所述存储 的权值v2乘以了从所述非负整数编码装置(401)B2输出的非负整数信号值所得的信号值, 作为实数信号值的输入;(h)单侧操作输出单元(104),输出从所述非负整数编码装置(401)C输出的非负整数 信号值χ作为操作值;以及(j)控制更新单元,根据从所述非负整数编码装置(401)A1输出的非负整数信号值u, 以及从所述非负整数编码装置(401) C输出的非负整数信号值X,计算<formula>formula see original document page 4</formula>,并更新所述控制存储单元所存储的权值P,以使其增加相当于该计算结果的量,所述控制输入接受单元(103)(1)如果控制对象的位移目标值不为负,则将该值提供给该正侧反馈装置(703)的非 负整数编码装置(401)A1作为实数信号值的输入,将“0”提供给该负侧反馈装置(704)的 非负整数编码装置(401)A1作为实数信号值的输入,(2)如果控制对象的位移目标值为负,则将“0”提供给该正侧反馈装置(703)的非负整 数编码装置(401)Al作为实数信号值的输入,将该值提供给该负侧反馈装置(704)的非负 整数编码装置(401)A1作为实数信号值的输入,(3)如果控制对象的位移观测值不为负,则将该值提供给该正侧反馈装置(703)的非 负整数编码装置(401)A2作为实数信号值的输入,将“0”提供给该负侧反馈装置(704)的 非负整数编码装置(401)A2作为实数信号值的输入,(4)如果控制对象的位移观测值为负,则将“0”提供给该正侧反馈装置(703)的非负整 数编码装置(401)A2作为实数信号值的输入,将该值提供给该负侧反馈装置(704)的非负 整数编码装置(401)A2作为实数信号值的输入,(5)如果控制对象的位移微分观测值不为负,则将该值提供给该正侧反馈装置(703) 的非负整数编码装置(401)A3作为实数信号值的输入,将“0”提供给该负侧反馈装置(704) 的非负整数编码装置(401)A3作为实数信号值的输入,(6)如果控制对象的位移微分观测值为负,则将“0”提供给该正侧反馈装置(703)的非 负整数编码装置(401)A3作为实数信号值的输入,将该值提供给该负侧反馈装置(704)的 非负整数编码装置(401)A3作为实数信号值的输入,所述反馈控制装置(701)还具有操作输出单元(705),将从该正侧反馈装置(703)输出的操作值中减去从该负侧反馈 装置(704)输出的操作值所得的值提供给控制对象作为操作输出。
6.如权利要求5所述的反馈控制装置(701),其特征在于该观测对象有K种目标状态,在该K种目标状态的各个目标状态中,对应关联目标值,所述反馈控制装置(701)还具有K个神经元装置(101),在所述K个神经元装置(101)、所述正侧反馈装置(703)及所述负侧反馈装置(704)之 间的组合中,在观测对象的目标状态为第i目标状态时,第i神经元装置(101)被提供正的 输入信号值,除此之外的神经元装置(101)被提供“0”的输入信号值,所述反馈控制装置(701)对于所述K个神经元装置(101)的各个神经元装置(101),具有(1)切换权值存储单元,存储对该神经元装置(101)的切换权值rl、r2、r3、r4和切换 权值系数Asl、AS2 ;(2)权利要求3所述的非负整数编码装置(401)D1,被提供将所述存储的权值rl乘以 了从该神经元装置(101)输出的输出信号值y所得的信号值,作为实数信号值的输入;以及(3)权利要求3所述的非负整数编码装置(401)D2,被提供将所述存储的权值r2乘以 了从该神经元装置(101)输出的输出信号值y所得的信号值,作为实数信号值的输入,(4)对所述非负整数编码装置(401)C还提供将所述存储的权值r3乘以了从该非负整数编码装置(401)D1输出的非负整数信号值所得的信号值,以及将所述存储的权值r4乘以 了从该非负整数编码装置(401)D2输出的非负整数信号值所得到的信号值,作为实数信号 值的输入,(5)还具有切换控制更新单元,根据从该神经元装置(101)输出的输出信号值y和从所 述非负整数编码装置(401) C输出的非负整数信号值X,计算 Aslx2y+As2(x2y-1),并更新所述控制存储单元所存储的权值rl,以使其增加相当于该计算结果的量, 所述K个神经元装置(101)各自具有阈值存储单元(102),存储阈值变量θ和两个阈值系数Δ θ 1、Δ θ 2 ; 输入接受单元(103),按规定的时间间隔,接受一个或多个输入信号值的输入; 输出单元(104),如果接受了所述输入的输入信号值的总和s在所述存储的阈值变量 θ的值以上,则当成该神经元装置(101)在点火而输出“1”作为输出信号值,如果不是这 样,则当成该神经元装置(101)在休息而输出“0”作为输出信号值;以及阈值更新单元(105),根据所述输出的输出信号值X和所述存储的阈值系数△ Θ1、 Δ θ 2,计算<formula>formula see original document page 5</formula>,从而更新所述阈值存储单元(102)所存储的阈值变量θ的值,以使其增加相当于该 计算结果的量,从而模拟神经网络。
7.如权利要求6记载的反馈控制装置(701),其特征在于在所述非负整数编码装置(401)B1、B2、C的各自中,作为该两个阈值系数Δ θ 1、 Δ θ 2,取代存储“0”,而存储满足 ΔΘ1>0>ΔΘ2关系的常数值。
8.如权利要求7所述的反馈控制装置(701),其特征在于在所述非负整数编码装置(401)D1,D2的各自中,作为该两个阈值系数Δ θ 1、Δ θ 2, 取代存储“0”,而存储满足 Δ θ 1 > 0 > Δ θ 2,且 Δ θ 1| > I Δ θ 2关系的常数值。
9.存储了以使计算机具有权利要求1所述的神经元装置(101)具备的各个部分的功能 为特征的程序的计算机可读取的信息存储介质。
10.存储了以使计算机具有权利要求2所述的神经网络装置(201)具备的各个部分的 功能为特征的程序的计算机可读取的信息存储介质。
11.存储了以使计算机具有权利要求3所述的非负整数编码装置(401)具备的各个部 分的功能为特征的程序的计算机可读取的信息存储介质。
12.存储了以使计算机具有权利要求4所述的整数簇装置(601)具备的各个部分的功 能为特征的程序的计算机可读取的信息存储介质。
13.存储了以使计算机具有权利要求5至8的任何一项所述的反馈控制装置(701)具备的各个部分的功能为特征的程序的计算机可读取的信息存储介质 。
全文摘要
为了在神经网络中可改变神经元的阈值,扩展赫布规则,进行适当的控制,在模拟神经细胞的神经元装置(101)中,阈值存储单元(102)存储阈值变量θ和两个阈值系数Δθ1、Δθ2;输入接受单元(103)按规定的时间间隔,接受一个或多个输入信号值的输入;输出单元(104),如果输入信号值的总和s为阈值变量θ的值以上,则当成神经元装置(101)在点火而输出“1”作为输出信号值X,如果不是这样,则当成神经元装置(101)在休息而输出“0”作为输出信号值X;阈值更新单元(105)根据输出信号值X和阈值系数Δθ1、Δθ2,计算Δθ1X+Δθ2(X-1),从而更新阈值存储单元(102)所存储的阈值变量θ的值,以使其增加相当于该计算结果的量。
文档编号B25J13/00GK101809598SQ20088010898
公开日2010年8月18日 申请日期2008年9月30日 优先权日2007年10月1日
发明者下田真吾, 山冈正明, 木村英纪, 梶间日出辉 申请人:独立行政法人理化学研究所;丰田自动车株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1