一种基于同策略正则化策略评估的离线强化学习方法

文档序号:37665226发布日期:2024-04-18 20:38阅读:来源:国知局

技术特征:

1.一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,首先根据同策略强化学习的需求,采样状态-动作-奖励-状态-动作形式,即sarsa-style的经验转换数据作为训练样本;

2.根据权利要求1所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,具体包括以下步骤:

3.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在步骤1中,所述离线训练数据集由任意未知策略πβ收集,包含n条完整的经验转换数据,强化学习智能体与环境交互时,首先从环境观测到当前状态s,执行策略πβ(s)获得动作a以及即时奖励r,同时根据标准状态转换概率分布tm(·|s,a)转换到下一时刻状态s′,此时智能体根据观测到的状态s′,再次执行策略πβ(s)获得动作a′,这里的a′就是同策略动作。

4.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤2中,利用神经网络参数化建立2个独立的学习q函数网络和学习策略网络其中,θ1、θ2和分别表示2个学习q函数网络和学习策略网络的参数;学习q函数网络和学习策略网络均由含4个隐藏层且神经元数为256、激活函数为relu的多层感知机构成;其中学习q函数网络的输入维度取决于状态维度和动作维度之和,输出维度取决于动作维度;学习策略网络的输入维度取决于状态维度,输出维度为1;所有网络参数的初始化方式为:随机初始化;

5.根据权利要求3所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤3中,从离线数据集中随机采样sarsa-style小批量经验样本

6.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤4中,在同策略正则化策略评估阶段,利用同策略动作构建保守的近似同策略q函数和同-异策略动作惩罚项来辅助设计如下的2个学习q函数网络损失函数:

7.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤5中,在策略提升阶段,借助行为克隆项的辅助设计如下的学习策略网络损失函数:

8.根据权利要求4所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,在所述步骤6中,2个学习q函数网络和学习策略网络相对应的目标网络参数均采用polyak平均方式更新,将计算的分别赋值给其中,v表示目标网络更新率。

9.根据权利要求8所述一种基于同策略正则化策略评估的离线强化学习方法,其特征在于,v等于0.005。


技术总结
本发明公开了一种基于同策略正则化策略评估的离线强化学习方法,首先根据同策略强化学习的需求,采样状态‑动作‑奖励‑状态‑动作形式,即SARSA‑style的经验转换数据作为训练样本;然后在同策略正则化策略评估过程中,利用SARSA‑style自举的同策略动作构建保守的近似同策略Q函数和同‑异策略动作惩罚项,来共同正则化异策略Q学习形式,即QL‑style的最优Q函数;最后在策略提升的配合下,不断地从上述稳定估计的学习最优Q函数提取高性能任务解决策略。本发明在不访问各类估计行为策略和行为Q函数的情况下,能够稳定且自然地将同策略的保守性引入到学习Q函数,并将学习Q函数可控地限制在其真实值附近。

技术研发人员:程玉虎,曹硕,王雪松,李会军,赵忠祥
受保护的技术使用者:中国矿业大学
技术研发日:
技术公布日:2024/4/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1