基于效用差分网络的机器人行为学习模型的制作方法

文档序号：6336999阅读：270来源：国知局

专利名称：基于效用差分网络的机器人行为学习模型的制作方法
技术领域：
本发明涉及一种基于效用差分网络的机器人行为学习模型，属于人工智能领域的新应用之一。
背景技术：
机器人智能行为一般是指机器人在感知周边环境的基础上进行推理与决策，达到行为智能决策的过程。智能行为决策模型的建立需要对知识进行获取、表示和推理，并且能够自动评价机器人行为的优劣。目前，基于强化学习技术的认知行为模型在知识的获取、对决策环境的适应性、可重用性等方面所具有的优点，使其成为智能行为建模的首选。强化学习过程需要对环境进行探索。可表述为在某个状态下，决策者选择并执行一个动作，然后感知下一步的环境状态以及相应的回报。决策者并没有被直接告知在什么情况下要采取什么行动，而是根据回报修正自身的行为，来赢得更多的回报。简单地说，强化学习过程就是允许决策者通过不断尝试以得到最佳行动序列的过程。目前机器人强化学习的行为决策中使用较多的是基于特定知识或规则的反应式方式，这种方式的缺点一是知识获取有限，二是问题获取的知识往往带有经验性，不能及时学习新的知识，三是推理过程实时性不高等。

发明内容
本发明针对目前机器人强化学习的行为决策存在的缺点，建立了一种基于效用差分网络的机器人行为学习模型。该模型是一个基于评价的学习系统，通过对环境的交互，自动生成系统的控制率，进而控制给出选择动作。本发明基于效用差分网络的机器人行为学习模型，解决一般行为决策模型知识获取有限、经验性过强的问题，实现的离线学习过程和在线决策过程，解决推理过程实时性不高的问题。一种基于效用差分网络的机器人行为学习模型，包括效用拟合网络单元、差分信号计算网络单元、置信度评价网络单元、动作决策网络单元、动作校正网络单元和动作执行单元；所述的效用拟合网络单元用来计算t时刻动作\经动作执行单元执行后产生的状态
空间向量St所得到的效用拟合值t/ig，并输出给差分信号计算网络单元；差分信号计算网
络单元根据输入的效用拟合值 / Ο以及根据状态空间向量St计算的立即回报函数，进一步计算得到差分信号ATDt,并将该差分信号ATDt输出给效用拟合网络单元、置信度评价网络单元以及动作决策网络单元；效用拟合网络单元利用差分信号ATDt更新效用拟合网络单元中神经网络的权值；置信度评价网络单元利用效用拟合网络单元中神经网络的输入层的输入向量和隐层的输出向量以及差分信号，计算动作决策结果的置信度，并将该置信度输出给动作校正网络单元；动作决策网络单元根据输入的差分信号ATDt与状态空间向量 st，进行动作的选择学习，输出动作选择函数Aco，…為权)，…Aoi)给动作校正网络单元，其中j、k为大于0的整数；动作校正网络单元利用输入的置信度，对输入的动作选择函数為化)，…為杯)，…Α<λ)进行校正，然后计算校正后的动作的选取概率值，将概率最大的动作输出给动作执行单元执行，该动作执行后的状态空间向量再反馈输入给效用拟合网络单元、差分信号计算网络单元和动作决策网络单元。所述的学习模型具有两个过程离线学习过程和在线决策过程；所述的离线学习过程中上述各单元都要参与，所述的在线决策过程中仅由离线学习最后得到的动作决策网络单元与动作执行单元参与，在线决策过程中的动作决策网络单元根据t时刻动作执行后的状态空间向量st进行计算并得出输出动作选择函数Aco，…為杯)，…Α<Λ)，通过动作选择器输出最终选择的动作给动作执行单元执行，执行动作后得到的状态空间向量再输入给动作决策网络单元。本发明的优点与有益效果为(1)本发明的机器人学习模型不需要计算产生正确的行动，而是通过在行动-环境交互-评价的学习环境中解决机器人知识获取困难的问题。由于此学习模型不需要明确指定环境模型，环境的因果关系已经隐含在具体差分反馈网络中，从而能较好保证机器人获取环境知识的完备性；(2)本模型设计的离线学习过程能在机器人决策前完成环境知识学习过程，在线决策过程能进一步完成机器人环境知识获取，运行时的决策不再进行探索和学习活动，只需要利用重构的网络进行计算和相加，这种离线与在线的模型设计保证了机器人的行为决策具有较好的实时性，较好地保证了机器人行为决策的及时性和有效性。

图1为本发明学习模型第一实施例的离线学习过程结构示意图；图2为本发明学习模型第一实施例的动作决策网络流程示意图；图3为本发明学习模型第一实施例中动作决策网络中的遗传算子编码结构示意图；图4为本发明学习模型第一实施例中动作决策网络中的遗传算子交叉操作示意图；图5为本发明学习模型第二实施例中在线决策过程的示意图。
具体实施例方式下面将结合附图和实施例对本发明作进一步的详细说明。其中，第一实施例对本发明学习模型的离线学习过程进行了具体说明；第二实施例对在线决策过程进行说明。如图1所示，本发明学习模型包括五个部分效用拟合网络单元11、差分信号计算网络单元12、置信度评价网络单元13、动作决策网络单元14和动作校正网络单元15。本发明学习模型的离线学习过程中，五个部分都参与其中。效用拟合网络单元11用来计算t时刻选择的动作经动作执行单元16执行后产生的不同的状态空间向量St所得到的效用拟合值，并输出效用拟合值给差分信号计算网络单元12，差分信号计算网络单元12输出差分信号ATDt给置信度评价网络单元13和效用拟合网络单元11。效用拟合网络单元11再利用差分信号计算网络单元12输入的差分信号Δ TDt来不断更新，从而达到真实的效用拟合。差分信号计算网络单元12根据输入的效用拟合值f/ig以及根据状态空间向量St
计算的立即回报函数，进一步计算得到差分信号ATDt,并将该差分信号ATDt输出给效用拟合网络单元11、置信度评价网络单元13以及动作决策网络单元14。置信度评价网络单元13利用效用拟合网络单元11中神经网络的输入层的输入向量和隐层的输出向量以及差分信号Δ TDt计算动作决策结果的置信度，并将该置信度输出给动作校正网络单元15，用于对动作选择的调整。动作决策网络单元14根据输入的差分信号ATDt与状态空间向量St，利用递阶遗传算法对神经网络进行优化，实现动作的选择学习，输出动作选择函数 4CO，…為杯)，…Λ<λ)给动作校正网络单元15，其中j、k为大于ο的整数。动作校正网络单元15利用输入的置信度，对输入的动作选择函数 4( ) …Λ(·0，.·.▲(；。进行校正，将概率最大的动作输出。动作执行后的状态空间向量再反馈输入给效用拟合网络单元11、差分信号计算网络单元12和动作决策网络单元14。其中，效用拟合网络单元11用来对特定的行为引起的状态变化进行效用评价，得到效用拟合值，由两层反馈的神经网络构成，如图1所示。神经网络的输入为状态空间向量 st，隐层激活函数为Sigmoid函数，神经网络输出为对动作执行之后状态的效用拟合值，神经网络的权系数为A、B和C(。该神经网络包含η个输入向量单元，以及h个隐层单元，每个隐层单元接受η个输入并具有η个连接权值，输出单元接受n+h个输入并有1! 个权值。对于h的值，用户可以自行设定，一般设定为3，本发明实施例中设置为2。该神经网络的输入向量为Xi(t)，i = 1，2，3... n，函数Xi (t)是st经过归一化得到的，则隐层单元的输出向量为
权利要求
1.一种基于效用差分网络的机器人行为学习模型，包括动作执行单元(16)，其特征在于，该学习模型还包括效用拟合网络单元(11)、差分信号计算网络单元(12)、置信度评价网络单元(13)、动作决策网络单元(14)和动作校正网络单元(15)；所述的效用拟合网络单元(11)用来计算t时刻动作\经动作执行单元(16)执行后产生的状态空间向量St所得到的效用拟合值t/ig，并输出给差分信号计算网络单元(12)；差分信号计算网络单元(1 根据输入的效用拟合值以及根据状态空间向量st计算的立即回报函数，进一步计算得到差分信号ATDt,并将该差分信号Δ TDt输出给效用拟合网络单元(11)、置信度评价网络单元(1 以及动作决策网络单元(14)；效用拟合网络单元(11)利用差分信号ATDt更新效用拟合网络单元(11)中神经网络的权值；置信度评价网络单元(1 利用效用拟合网络单元(11)中神经网络的输入层的输入向量和隐层的输出向量以及差分信号，计算动作决策结果的置信度，并将该置信度输出给动作校正网络单元(15)；动作决策网络单元(14)根据输入的差分信号ATDt与状态空间向量st，进行动作的选择学习，输出动作选择函数ΛC^，-Aj(St),…Λ<Λ)给动作校正网络单元(15)，其中 j、k为大于O的整数；动作校正网络单元(15)利用输入的置信度，对输入的动作选择函数 4( ) …Λ(&)，…Α(Λ)进行校正，然后计算校正后的动作的选取概率值，将概率最大的动作输出给动作执行单元(16)执行，该动作执行后的状态空间向量再反馈输入给效用拟合网络单元(11)、差分信号计算网络单元(1 和动作决策网络单元(14)；所述的学习模型具有两个过程离线学习过程和在线决策过程；所述的离线学习过程中上述各个单元都要参与，所述的在线决策过程中仅由离线学习最后得到的动作决策网络单元(14)与动作执行单元(16)参与，在线决策过程中的动作决策网络单元(14)根据t时刻动作执行单元(16)执行动作后产生的状态空间向量St进行计算并得出输出动作选择函数ACO，-Aj(St),…Α(Λ)，通过动作选择器输出最终选择的动作给动作执行单元(16) 执行，执行动作后得到的状态空间向量再输入给动作决策网络单元(14)。
2.根据权利要求1所述的一种基于效用差分网络的机器人行为学习模型，其特征在于，所述的效用拟合网络单元(11)由神经网络构成，包括输入层、隐层和输出层，神经网络的权值为Α、Β和C，神经网络输入层的输入向量Xi (t)为t时刻动作执行后产生的状态空间向量St归一化得到的，隐层激活函数为Sigmoid函数，神经网络输出为对动作执行之后状态的效用拟合值
3.根据权利要求2所述的一种基于效用差分网络的机器人行为学习模型，其特征在于，所述的效用拟合网络单元(11)中神经网络的权值的向量，具体是利用下式进行更新 b“t+l) = bi(t) + A · Δ TDt+1 ‘ Xi (t), i = 1,2,3. . . η Cj(t+1) = Cj (t) + λ · Δ TDt+1 · Yj (t), j = 1,2,3. . .h Bij (t+1) = Bij (t) + λ h . Δ TDt+1 ‘ Yj (t) ‘ sgn (Cj (t)) · Xi (t)其中，λ为大于零的常数，Xh*大于零的数，ATDw表示对应t+Ι时刻动作执行后产生的状态空间向量的差分信号，sgn (Cj (t))根据函数sgn来确定，函数sgn为1 z>0sgn(z) = <0 z = 0o-1 z<0
4.根据权利要求1所述的一种基于效用差分网络的机器人行为学习模型，其特征在于，差分信号计算网络单元(12)根据瞬时差分算法计算得到差分信号ATDt ATDt=R(st) + r-0(sM)-0(st)其中，R(St)是对状态空间向量St的立即评价，Y为折扣系数力C^1)表示t+Ι时刻动作执行后产生的状态空间向量st+1所得到的效用拟合值，表示t时刻动作执行后产生的状态空间向量st所得到的效用拟合值。
5.根据权利要求1所述的一种基于效用差分网络的机器人行为学习模型，其特征在于，所述置信度评价网络单元(1 最终输出的置信度P (t)为
6.根据权利要求1所述的一种基于效用差分网络的机器人行为学习模型，其特征在于，所述的动作决策网络单元(14)采用神经网络实现，该神经网络包括输入层、模糊子集层、可变节点层和函数输出层，输入层的第i个节点的输入/乂1为
7.根据权利要求1所述的一种基于效用差分网络的机器人行为学习模型，其特征在于，所述的动作校正网络单元(15)以为均值，以p(t)为概率生成一个随机函数，作为新的动作选择函数Ki (st)，然后计算选取概率值P (Bj I st)，输出概率值最大的动作；选取概率值的公式为
全文摘要
本发明的基于效用差分网络的机器人行为学习模型，包括效用拟合网络单元，差分信号计算网络单元，置信度评价网络单元、动作决策网络单元、动作校正网络单元和动作执行单元，利用该模型实现离线学习过程和在线决策过程。效用拟合网络单元计算得到动作执行后的状态的效用拟合值，差分信号计算网络单元用于计算差分信号，置信度评价网络单元将计算得到的置信度输出给动作校正网络单元，动作决策网络单元输出动作选择函数，动作校正网络单元利用置信度对动作选择函数进行校正，计算每个动作选取的概率值，输出概率最大的动作给动作执行单元执行。本发明能较好保证机器人获取环境知识的完备性，较好地保证了机器人行为决策的及时性和有效性。
文档编号G06N3/00GK102063640SQ20101056414
公开日2011年5月18日申请日期2010年11月29日优先权日2010年11月29日
发明者宋晓, 麻士东, 龚光红申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋晓;麻士东;龚光红
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：具有薄膜太阳能板的笔记本电脑的制作方法
上一篇：虚拟计算系统的自动化测试平台的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。