基于强化学习的仿真足球机器人决策优化方法

文档序号：37919823发布日期：2024-05-10 23:58阅读：来源：国知局

技术特征：

1.一种基于强化学习的仿真足球机器人决策优化方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法，其特征在于，所述动作决策网络包括多分类模型和回归网络模型；

3.如权利要求2所述的基于强化学习的仿真足球机器人决策优化方法，其特征在于，基于所述第二训练数据和监督学习方法，实现所述状态空间到所述动作空间和所述动作参数空间的映射。

4.如权利要求2所述的基于强化学习的仿真足球机器人决策优化方法，其特征在于，基于核密度负例学习方法对每一所述第二训练数据中的每一动作空间和动作参数空间中的参数进行多分类操作，并基于分类结果，对所述机器人智能体的动作特征进行归纳，筛选出符合当前所述动作决策网络的特征的所述第二训练数据，将符合当前所述动作决策网络特征的所述第二训练数据设为正样本数据，扩大所述正样本数据在所述训练数据集中的占比，基于深度确定性策略梯度方法更新所述强化学习模型。

5.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法，其特征在于，在所述动作决策网络作出决策并输出决策参数时，所述动作决策网络做出的决策与随机探索策略作出的决策相结合，输出第一决策参数，基于所述第一决策参数、价值函数值以及所述奖励函数值更新所述强化学习模型。

6.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法，其特征在于，基于经验回放机制，在所述动作决策网络每一次作出决策后存储本次输入所述强化学习模型的所述第二训练数据，并将本次输入的所述第二训练数据设为经验数据，将所述经验数据存入经验池中，在所述第二训练数据训练所述强化学习模型的过程中，随机从所述经验池中抽取所述经验数据以训练所述强化学习模型。

7.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法，其特征在于，所述状态空间至少包括所述机器人智能体的位置参数、球的位置参数、球的速度参数以及所述机器人智能体的速度和方向参数。

8.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法，其特征在于，基于所述第一q值评价网络或所述第二q值评价网络与所述目标q值网络更新所述动作决策网络，其中，所述第一q值评价网络和所述第二q值评价网络的输入为当前的所述第二训练数据中的环境参数和当前所述动作决策网络的输出；

9.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法，其特征在于，所述第一q值评价网络和所述第二q值评价网络均通过最小化自身的损失进行网络参数的更新；

10.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法，其特征在于，基于所述第一q值评价网络或所述第二q值评价网络和所述动作决策网络，更新所述目标q值网络，其中，所述第一q值评价网络和所述第二q值评价网络的输入为当前的所述第二训练数据中的环境参数和当前所述动作决策网络的输出；

技术总结
本发明提供一种基于强化学习的仿真足球机器人决策优化方法，包括以下步骤：基于仿真足球平台，建立包括多个机器人智能体的足球机器人球队程序，基于仿真足球平台、足球机器人球队程序和足球机器人决策逻辑，构件基础决策模块，仿真足球平台和足球机器人球队程序交互获取第一训练数据，搭建强化学习模型，基于强化学习模型，仿真足球平台与足球机器人球队程序进行交互获取第二训练数据训练强化学习模型，直至强化学习模型达到预设性能标准，提高了足球机器人智能体的决策精度、适应能力，并简化了足球机器人智能体的决策方法的升级、优化难度，解决了现有技术中的仿真足球机器人决策方法存在决策精度低、适应性差、难以升级和优化的技术问题。

技术研发人员：程泽凯,任亚辉
受保护的技术使用者：安徽工业大学
技术研发日：
技术公布日：2024/5/9

完整全部详细技术资料下载

当前第2页1 2