一种具有内发动机机制的感知运动系统认知及其学习方法

文档序号:8298427阅读:206来源:国知局
一种具有内发动机机制的感知运动系统认知及其学习方法
【技术领域】
[0001] 本发明涉及一种具有内发动机机制的感知运动系统认知及其学习方法,属于智能 机器人技术领域。
【背景技术】
[0002] 对智能机器人的研宄已由早期的示教再现型机器人以及具有简单感知能力的机 器人发展到今天的认知发育机器人。认知发育机器人具有认知和学习的能力,能够从与环 境的接触过程中学习到环境知识,对于代替人类完成地震、火灾、深海等危险环境的任务具 有重要意义。
[0003] 1952年,日内瓦大学心理学教授皮亚杰指出认知发育的第一阶段主要通过其感知 运动技能获得,而感知运动技能的习得需要感知器官和运动器官协调完成,这就涉及到感 知运动系统。感知运动系统对于人或动物运动技能的习得有着重要的指导意义,将这种感 知运动能力复制到机器人上,使机器人能够主动探索外部世界,学习世界知识,对认知发育 机器人的研宄有着重要意义。
[0004] 基于以上背景,本发明以学习自动机为数学模型,提出了一种具有内发动机机 制的感知运动系统认知模型并设计了其学习算法,将其应用于机器人上,使机器人可以 模拟人或动物的感知运动认知过程,提高了机器人的认知能力。相关的专利如申请号 CN200910086990. 4基于斯金纳操作条件反射理论提出了一种操作条件反射自动机模型,并 且基于该模型设计了一种仿生自主学习控制方法;申请号CN200910089263.3同样基于斯 金纳操作条件反射理论提出一种自治操作条件反射自动机,并讨论了其在实现智能行为中 的应用,以上两项工作均在操作条件反射的指导下,使用自动机为数学模型,设计了新的具 有自学习和自组织能力的仿生自动机,但均未涉及感知运动系统学习过程,同时,二者在学 习过程中均采用依概率机制实施操作,使得模型在达到一定稳定状态后无法杜绝小概率事 件的发生。相关专利申请号CN201410101272. 0从仿生学角度模拟生物的感觉运动神经系 统,使用神经网络为数学模型,将操作条件反射机理融入感觉运动系统的设计中,采用"胜 者全拿"的动作选择机制,提出了一种仿生智能控制方法,较好地模拟了生物自学习行为, 证明了感知运动系统在智能体学习过程中的重要性。本发明以学习自动机为基础,为感知 运动系统认知过程设计了一种认知模型及其学习方法,动作选择上设计了能够主动学习环 境的内发动机机制,在提高系统学习效率的同时,有效避免小概率事件的发生,提高了系统 的稳定性。目前,尚未见到与本发明相似的专利记录。

【发明内容】

[0005] 本发明涉及一种具有内发动机机制的感知运动系统认知及其学习方法,属于智能 机器人技术领域,系统认知模型以学习自动机为基础,引入好奇心和取向性概念,从生物学 角度出发,设计了能够主动学习环境的内发动机机制,提高了系统自学习和自组织的能力 及其稳定性。模型包括十部分:感知状态集合、动作集合、取向性映射集合、状态学习次数、 好奇心、状态取向值、取向函数、取向性学习矩阵、状态转移函数以及知识熵,各部分含义具 体如下:
[0006] (1)S:系统离散感知状态集合,S={Si|i= 1,2,…ns},SiGS为第i个感知状态, ^为可感知到的离散状态的个数,针对连续系统,将需要考虑的连续状态空间离 散化为离散状态空间,其中Xmin为所需考虑状态的下限值,X_为所需考虑状态的上限值,一 般地,对连续状态空间进行均匀划分,令w= (X^-X^J/n,,则离散化后的状态空间为:S= {[Xmin+(i-l)w,Xmin+iw] |i= 1,2,---nj;
[0007](2)M:系统动作集合,M={Mi|i=1, 2,…,nj,Mi={m。|j=1, 2,…,nj,mu表 示系统第i个感知状态下第j个可选动作,叫为第i个状态下可选动作的个数;
[0008] (3)0:"感知-运动"取向性映射集合,0= {A|i= 1,2,…ns},〇i为状态\对 应的取向性映射矩阵,其中4 ,…,"V…,%I,diag表示括号里的元素以对角 阵的方式储存,此处元素%的下表i(i= 1,2,…,ns)并不表示元素所在矩阵的行信息,(iG(1,2,…,ns),jG(1,2,…,叫))表不一条"感知-运动"映射,表征的是系统在感知 状态SiGS下对动作mu的取向性,或称感知状态si与动作mu的感知运动取向性为〇。,规 定智能体在任何感知状态下对该状态下所有动作的取向性总和保持不变,即当智能体在某 状态下对其中一动作的取向性增加时,同时意味着在该状态下对其他动作的取向性减小, 本认知模型中,取向性满足0 < 〇ij< 1且
【主权项】
1. 一种具有内发动机机制的感知运动系统认知及其学习方法,其特征在于,系统认知 模型以学习自动机为基础,设计为一个十元组<s,M,0,N,C,V,Vs,P,F,E>,各部分内容具体 如下: (1)S:系统离散感知状态集合,S={Si|i= 1,2,…ns},SiGS为第i个感知状态,1为 可感知到的离散状态的个数,针对连续系统,将需要考虑的连续状态空间[Xmin,X_]离散化 为离散状态空间,其中Xmin为所需考虑状态的下限值,X_为所需考虑状态的上限值,对连续 状态空间进行均匀划分,令w= (X^-X^J/n,,则离散化后的状态空间为:S= {[X^+a-l) w,Xmin+iw] |i= 1,2,...nj; (2)M:系统动作集合,M= % |i= 1,2, ???,ns},Mi={m" |j= 1,2, ???,nj,mi」表示系 统第i个感知状态下第j个可选动作,叫为第i个状态下可选动作的个数; (3) 0:"感知-运动"取向性映射集合,0={0」1 = 1,2,?1〇,(^为状态\对应的取向 性映射矩阵,其中〇,=力叹0,",lxn,diag表示括号里的元素以对角阵的方式储 存,此处元素%的下表i(i= 1,2,…,ns)并不表示元素所在矩阵的行信息,%(1£(1,2,? ,ns),jG(1,2,…,r〇)表示一条"感知-运动"映射,表征的是系统在感知状态SiGS下对 动作&的取向性,或称感知状态si与动作mu的感知运动取向性为〇 u,规定智能体在任何 感知状态下对该状态下所有动作的取向性总和保持不变,即当智能体在某状态下对其中一 动作的取向性增加时,同时意味着在该状态下对其他动作的取向性减小,本认知模型中,取 向性满足0彡〇ij彡1且|>,7 = 1 ; y-i (4) N:状态学习次数,N=仉|i= 1,2,…,nj,队为至t时刻状态s顏学习的次数; (5)C:好奇心,C= |i= 1,2,…nj,q为状态si的好奇心; (6)V:系统状态取向值,用来决定取向函数的值,V={Vili= 1,2,…ns},为满足系统 普适性,定义ViG[-1,1],-1为最差状态的状态取向值,1为最理想状态的状态取向值, 对于离散系统,根据实际情况定义各状态的取向值,对于连续系统,对离散化后的状态定义 离散状态取向值,也在线计算所处状态的连续状态取向值,针对连续系统,状态取向值的计 算方法为:h )/(1 +J,e#),1表征期望状态和实际状态之间的误差程度,定义 为Kt) = (Xb-X"t))2,其中Xb为期望状态值,X"t)为t时亥IJ实际状态值,Vi被归一化到 [-1,1]之间,且为1的减函数,意味着t时刻所处状态与期望状态之间误差越大,状态取向 值越小,所处状态与期望状态之间误差越小,状态取向值越大,符合生物取向性,A为归一 化系数; (7) Vs:取向函数,Vs=aVn+b(Vn-V。),入和Vn分别表示执行某一动作的前后状态,取向 函数影响系统取向性的变化方向,既与状态取向值变化过程相关,也与变化后所处状态的 状态取向值相关,其中a多0,b多0为取向函数参数,其取值应保证取向函数的正负号不改 变(Vn_V。)的正负号,且满足a+b= 1,通过学习得到; (8)P:取向性学习矩阵,P= {P」i=l,2,?ns},作用是依据取向函数所提供的信息, 对取向性映射进行更新调整,其中乃= ?,凡,,J)nxn为状态Si对应的学习矩 阵,各参数意义与(3)中相同,不再赘述; (9)F:系统内部状态转移函数,F(s(t),m(t)) =s(t+l),表示t时刻在感知状态为s(t)下执行动作m(t)后状态转移为s(t+l); (l〇)E:感知运动系统的知识熵,E= {E」i= 1,2,…ns},用来描述系统对知识的学习程 度,表征系统的自学习和自组织特性,系统在学习初始阶段,没有任何知识,对各动作的取 向性相等,经过不断学习,习得世界知识,取向性发生变化,因此采用信息熵的变化过程来 描述系统自学习、自组织的过程,通过信息熵值的变化,来反应系统知识积累的程度,系统t 时刻在状态Si下的知识熵及总的知识熵定义如下:
系统按以下步骤进行学习: (1) 初始化:设定初始状态S。,初始取向性分布h及初始好奇心的值 (2) 感知当前状态; (3) 计算当前状态下的取向性映射矩阵; (4) 计算当前状态下的好奇心值,生成随机指针,将好奇心投向指针指向的动作;好奇 心计算方法设计为:
mm卜」次^」机机_远择动作; (6) 实施选定的动作,状态发生转移; (7) 计算转移后状态的状态取向值; (8) 计算取向函数值; (9) 根据取向函数提供的信息更新"感知-运动"映射; (10) 重复执行步骤(2) -(9)直至知识熵不再发生变化或学习时间大于终止时间,学习 结束。
2.根据权利要求1所述的方法,其特征在于,取向性映射更新机制的设计,具体为:设t时刻系统在感知状态Si下的取向性映射为0i(t),执行所选动作mu后,在该感知状态下的 取向性映射变为〇i(t+1),则取向性映射更新方法如下:
其中Pu(t)为t时刻取向性学习矩阵Pi中的第j个元素,与取向性元素ou(t)相对应,Pik(t)为其余元素,与〇ik(t)对应,n>〇为取向性学习参数。
3.根据权利要求1所述的方法,其特征在于,系统认知模型从生物学角度出发,设计了 感知运动系统选择动作的内发动机机制,具体为每个时刻选择所处状态下取向性和好奇心 和值最大的动作。
【专利摘要】一种具有内发动机机制的感知运动系统认知及其学习方法属于智能机器人技术领域。系统认知模型以学习自动机为基础,包括感知状态集合、动作集合、取向性映射集合、好奇心、取向函数、取向性学习矩阵、状态转移函数以及知识熵等十部分。模型首先感知系统当前状态;依据内发动机机制选择动作;执行动作,状态发生转移;计算取向函数的值;更新“感知-运动”映射;重复以上过程,直至知识熵达到极小或学习时间大于终止时间。本发明引入具有主动学习环境的内发动机机制,不仅使系统具有较强的自学习和自组织能力,同时能够有效避免具有破坏性的小概率事件的发生,提高了系统的稳定性,为建立具有认知发育能力的机器人提供了有力基础。
【IPC分类】G05B13-04
【公开号】CN104614988
【申请号】CN201410808900
【发明人】阮晓钢, 张晓平, 武璇, 黄静, 陈志刚, 肖尧, 朱晓庆, 奥塔瓦.谢
【申请人】北京工业大学
【公开日】2015年5月13日
【申请日】2014年12月22日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1