一种基于同策略正则化策略评估的离线强化学习方法

文档序号：37665226发布日期：2024-04-18 20:38阅读：来源：国知局

技术特征：

1.一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，首先根据同策略强化学习的需求，采样状态-动作-奖励-状态-动作形式，即sarsa-style的经验转换数据作为训练样本；

2.根据权利要求1所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，具体包括以下步骤：

3.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在步骤1中，所述离线训练数据集由任意未知策略πβ收集，包含n条完整的经验转换数据，强化学习智能体与环境交互时，首先从环境观测到当前状态s，执行策略πβ(s)获得动作a以及即时奖励r，同时根据标准状态转换概率分布tm(·|s,a)转换到下一时刻状态s′，此时智能体根据观测到的状态s′，再次执行策略πβ(s)获得动作a′，这里的a′就是同策略动作。

4.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤2中，利用神经网络参数化建立2个独立的学习q函数网络和学习策略网络其中，θ1、θ2和分别表示2个学习q函数网络和学习策略网络的参数；学习q函数网络和学习策略网络均由含4个隐藏层且神经元数为256、激活函数为relu的多层感知机构成；其中学习q函数网络的输入维度取决于状态维度和动作维度之和，输出维度取决于动作维度；学习策略网络的输入维度取决于状态维度，输出维度为1；所有网络参数的初始化方式为：随机初始化；

5.根据权利要求3所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤3中，从离线数据集中随机采样sarsa-style小批量经验样本

6.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤4中，在同策略正则化策略评估阶段，利用同策略动作构建保守的近似同策略q函数和同-异策略动作惩罚项来辅助设计如下的2个学习q函数网络损失函数：

7.根据权利要求2所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤5中，在策略提升阶段，借助行为克隆项的辅助设计如下的学习策略网络损失函数：

8.根据权利要求4所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，在所述步骤6中，2个学习q函数网络和学习策略网络相对应的目标网络参数均采用polyak平均方式更新，将计算的分别赋值给其中，v表示目标网络更新率。

9.根据权利要求8所述一种基于同策略正则化策略评估的离线强化学习方法，其特征在于，v等于0.005。

技术总结
本发明公开了一种基于同策略正则化策略评估的离线强化学习方法，首先根据同策略强化学习的需求，采样状态‑动作‑奖励‑状态‑动作形式，即SARSA‑style的经验转换数据作为训练样本；然后在同策略正则化策略评估过程中，利用SARSA‑style自举的同策略动作构建保守的近似同策略Q函数和同‑异策略动作惩罚项，来共同正则化异策略Q学习形式，即QL‑style的最优Q函数；最后在策略提升的配合下，不断地从上述稳定估计的学习最优Q函数提取高性能任务解决策略。本发明在不访问各类估计行为策略和行为Q函数的情况下，能够稳定且自然地将同策略的保守性引入到学习Q函数，并将学习Q函数可控地限制在其真实值附近。

技术研发人员：程玉虎,曹硕,王雪松,李会军,赵忠祥
受保护的技术使用者：中国矿业大学
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

当前第2页1 2