基于随机Transformer模型的有模型深度强化学习方法

文档序号：36878921发布日期：2024-02-02 20:57阅读：来源：国知局

技术特征：

1.基于随机transformer模型的有模型深度强化学习方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于随机transformer模型的有模型深度强化学习方法，其特征在于，所述步骤一中，利用变分自编码器将高维环境数据编码为低维隐空间上的随机变量，具体采用如下步骤：

3.如权利要求1或2所述的基于随机transformer模型的有模型深度强化学习方法，其特征在于，所述序列模型为transformer模型，以所述状态向量作为所述序列模型的输入，所述序列模型输出对应的含历史信息的语义状态，具体包括如下步骤：

4.如权利要求1或2所述的基于随机transformer模型的有模型深度强化学习方法，其特征在于，所述步骤2中，针对所述世界模型以端到端的方式进行自监督训练，具体为：使用adam优化器以梯度下降的方式进行训练。

5.如权利要求1所述的基于随机transformer模型的有模型深度强化学习方法，其特征在于，所述步骤3中，对所述智能体进行训练，具体为：在训练时同样采用adam优化器，以梯度下降的方式进行优化。

技术总结
本发明公开了基于随机Transformer模型的有模型深度强化学习方法，涉及强化学习技术领域。首先，首先使用分类分布的变分自动编码器将高维的环境数据编码为低维隐空间上的随机变量。其次，利用Transformer作为世界模型在低维的隐变量空间上实现对环境变化规律的建模，该世界模型具有仿真原始环境的能力，可以通过自回归的方式生成观察以及奖励。最后利用策略梯度算法在世界模型上进行智能体的训练。最终得到智能体性能、计算效率等方面均表现出色的有模型强化学习算法，对强化学习在现实环境中的高效部署具有非常重要的意义。

技术研发人员：王钢,张维璞,孙健,肖伟,曾宪琳,窦丽华,陈杰
受保护的技术使用者：北京理工大学
技术研发日：
技术公布日：2024/2/1

完整全部详细技术资料下载

当前第2页1 2