一种基于虚拟现实和强化学习的熊蜂机器人摆腹控制方法与流程

文档序号：11915592阅读：来源：国知局

技术特征：

1.一种基于虚拟现实和强化学习的熊蜂机器人摆腹控制方法，包括：

(1)根据设定的熊蜂腹部摆动的目标模式，采用强化学习算法建立Q表，所述Q表记录了每类摆腹模式下每个动作获得的累积折扣奖励值；

(2)监测熊蜂当前时刻的摆腹模式，对照Q表，依据奖励值最大原则，实时做出动作控制熊蜂摆腹；

所述动作为由环绕熊蜂流动的光束形成的不同参数的视觉刺激。

2.如权利要求1所述的熊蜂机器人摆腹控制方法，其特征在于，所述摆腹模式由单个滑动窗口内熊蜂腹部偏转角度的最大值、最小值、平均绝对值、波峰波谷数、大于均值点个数以及方差构成的6维向量表征。

3.如权利要求1所述的熊蜂机器人摆腹控制方法，其特征在于，所述滑动窗口的宽度为200～400ms。

4.如权利要求1所述的熊蜂机器人摆腹控制方法，其特征在于，所述动作由若干个LED显示屏组成的虚拟现实系统产生，所述LED显示屏由基于CAN总线的LED控制系统控制。

5.如权利要求1所述的熊蜂机器人摆腹控制方法，其特征在于，所述Q表包含5～20个动作。

6.如权利要求1所述的熊蜂机器人摆腹控制方法，其特征在于，所述Q表的建立方法为：

(1)初始化Q表，学习速率α，折扣因子γ，摆腹模式聚类中心；

(2)获得时刻t熊蜂的摆腹模式x_t；

(3)利用序列K-means对状态进行聚类离散化，并调整摆腹模式类中心；

(4)依据epsilon-greedy选取动作a_t；

(5)执行动作a_t，获得奖励值r_t+1和下一时刻熊蜂的摆腹模式x_t+1；

(6)重复步骤(3)和(4)，选取动作a_t+1；

(7)根据如下公式更新Q表；

Q(x_t,a_t)←Q(x_t,a_t)+α[r_t+1+γQ(x_t+1,a_t+1)-Q(x_t,a_t)]；

(8)再从步骤(2)开始循环执行，直到Q表收敛。

完整全部详细技术资料下载

当前第2页1 2 3