1.一种基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述动作决策网络包括多分类模型和回归网络模型;
3.如权利要求2所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于所述第二训练数据和监督学习方法,实现所述状态空间到所述动作空间和所述动作参数空间的映射。
4.如权利要求2所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于核密度负例学习方法对每一所述第二训练数据中的每一动作空间和动作参数空间中的参数进行多分类操作,并基于分类结果,对所述机器人智能体的动作特征进行归纳,筛选出符合当前所述动作决策网络的特征的所述第二训练数据,将符合当前所述动作决策网络特征的所述第二训练数据设为正样本数据,扩大所述正样本数据在所述训练数据集中的占比,基于深度确定性策略梯度方法更新所述强化学习模型。
5.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,在所述动作决策网络作出决策并输出决策参数时,所述动作决策网络做出的决策与随机探索策略作出的决策相结合,输出第一决策参数,基于所述第一决策参数、价值函数值以及所述奖励函数值更新所述强化学习模型。
6.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于经验回放机制,在所述动作决策网络每一次作出决策后存储本次输入所述强化学习模型的所述第二训练数据,并将本次输入的所述第二训练数据设为经验数据,将所述经验数据存入经验池中,在所述第二训练数据训练所述强化学习模型的过程中,随机从所述经验池中抽取所述经验数据以训练所述强化学习模型。
7.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述状态空间至少包括所述机器人智能体的位置参数、球的位置参数、球的速度参数以及所述机器人智能体的速度和方向参数。
8.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于所述第一q值评价网络或所述第二q值评价网络与所述目标q值网络更新所述动作决策网络,其中,所述第一q值评价网络和所述第二q值评价网络的输入为当前的所述第二训练数据中的环境参数和当前所述动作决策网络的输出;
9.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述第一q值评价网络和所述第二q值评价网络均通过最小化自身的损失进行网络参数的更新;
10.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于所述第一q值评价网络或所述第二q值评价网络和所述动作决策网络,更新所述目标q值网络,其中,所述第一q值评价网络和所述第二q值评价网络的输入为当前的所述第二训练数据中的环境参数和当前所述动作决策网络的输出;