1.一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,首先根据同策略强化学习的需求,采样状态-动作-奖励-状态-动作形式,即sarsa-style的经验转换数据作为训练样本;
2.根据权利要求1所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,具体包括以下步骤:
3.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在步骤1中,所述离线训练数据集由任意未知策略πβ收集,包含n条完整的经验转换数据,强化学习智能体与环境交互时,首先从环境观测到当前状态s,执行策略πβ(s)获得动作a以及即时奖励r,同时根据标准状态转换概率分布tm(·|s,a)转换到下一时刻状态s′,此时智能体根据观测到的状态s′,再次执行策略πβ(s)获得动作a′,这里的a′就是同策略动作。
4.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤2中,利用神经网络参数化建立2个独立的学习q函数网络和学习策略网络其中,θ1、θ2和分别表示2个学习q函数网络和学习策略网络的参数;学习q函数网络和学习策略网络均由含4个隐藏层且神经元数为256、激活函数为relu的多层感知机构成;其中学习q函数网络的输入维度取决于状态维度和动作维度之和,输出维度取决于动作维度;学习策略网络的输入维度取决于状态维度,输出维度为1;所有网络参数的初始化方式为:随机初始化;
5.根据权利要求3所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤3中,从离线数据集中随机采样sarsa-style小批量经验样本
6.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤4中,在同策略正则化策略评估阶段,利用同策略动作构建保守的近似同策略q函数和同-异策略动作惩罚项来辅助设计如下的2个学习q函数网络损失函数:
7.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤5中,在策略提升阶段,借助行为克隆项的辅助设计如下的学习策略网络损失函数:
8.根据权利要求4所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤6中,2个学习q函数网络和学习策略网络相对应的目标网络参数均采用polyak平均方式更新,将计算的分别赋值给其中,v表示目标网络更新率。
9.根据权利要求8所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,v等于0.005。