一种基于虚拟现实和强化学习的熊蜂机器人摆腹控制方法与流程

文档序号:11915592阅读:来源:国知局

技术特征:

1.一种基于虚拟现实和强化学习的熊蜂机器人摆腹控制方法,包括:

(1)根据设定的熊蜂腹部摆动的目标模式,采用强化学习算法建立Q表,所述Q表记录了每类摆腹模式下每个动作获得的累积折扣奖励值;

(2)监测熊蜂当前时刻的摆腹模式,对照Q表,依据奖励值最大原则,实时做出动作控制熊蜂摆腹;

所述动作为由环绕熊蜂流动的光束形成的不同参数的视觉刺激。

2.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述摆腹模式由单个滑动窗口内熊蜂腹部偏转角度的最大值、最小值、平均绝对值、波峰波谷数、大于均值点个数以及方差构成的6维向量表征。

3.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述滑动窗口的宽度为200~400ms。

4.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述动作由若干个LED显示屏组成的虚拟现实系统产生,所述LED显示屏由基于CAN总线的LED控制系统控制。

5.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述Q表包含5~20个动作。

6.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述Q表的建立方法为:

(1)初始化Q表,学习速率α,折扣因子γ,摆腹模式聚类中心;

(2)获得时刻t熊蜂的摆腹模式xt

(3)利用序列K-means对状态进行聚类离散化,并调整摆腹模式类中心;

(4)依据epsilon-greedy选取动作at

(5)执行动作at,获得奖励值rt+1和下一时刻熊蜂的摆腹模式xt+1

(6)重复步骤(3)和(4),选取动作at+1

(7)根据如下公式更新Q表;

Q(xt,at)←Q(xt,at)+α[rt+1+γQ(xt+1,at+1)-Q(xt,at)];

(8)再从步骤(2)开始循环执行,直到Q表收敛。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1