1.一种基于虚拟现实和强化学习的熊蜂机器人摆腹控制方法,包括:
(1)根据设定的熊蜂腹部摆动的目标模式,采用强化学习算法建立Q表,所述Q表记录了每类摆腹模式下每个动作获得的累积折扣奖励值;
(2)监测熊蜂当前时刻的摆腹模式,对照Q表,依据奖励值最大原则,实时做出动作控制熊蜂摆腹;
所述动作为由环绕熊蜂流动的光束形成的不同参数的视觉刺激。
2.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述摆腹模式由单个滑动窗口内熊蜂腹部偏转角度的最大值、最小值、平均绝对值、波峰波谷数、大于均值点个数以及方差构成的6维向量表征。
3.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述滑动窗口的宽度为200~400ms。
4.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述动作由若干个LED显示屏组成的虚拟现实系统产生,所述LED显示屏由基于CAN总线的LED控制系统控制。
5.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述Q表包含5~20个动作。
6.如权利要求1所述的熊蜂机器人摆腹控制方法,其特征在于,所述Q表的建立方法为:
(1)初始化Q表,学习速率α,折扣因子γ,摆腹模式聚类中心;
(2)获得时刻t熊蜂的摆腹模式xt;
(3)利用序列K-means对状态进行聚类离散化,并调整摆腹模式类中心;
(4)依据epsilon-greedy选取动作at;
(5)执行动作at,获得奖励值rt+1和下一时刻熊蜂的摆腹模式xt+1;
(6)重复步骤(3)和(4),选取动作at+1;
(7)根据如下公式更新Q表;
Q(xt,at)←Q(xt,at)+α[rt+1+γQ(xt+1,at+1)-Q(xt,at)];
(8)再从步骤(2)开始循环执行,直到Q表收敛。