1.基于随机transformer模型的有模型深度强化学习方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于随机transformer模型的有模型深度强化学习方法,其特征在于,所述步骤一中,利用变分自编码器将高维环境数据编码为低维隐空间上的随机变量,具体采用如下步骤:
3.如权利要求1或2所述的基于随机transformer模型的有模型深度强化学习方法,其特征在于,所述序列模型为transformer模型,以所述状态向量作为所述序列模型的输入,所述序列模型输出对应的含历史信息的语义状态,具体包括如下步骤:
4.如权利要求1或2所述的基于随机transformer模型的有模型深度强化学习方法,其特征在于,所述步骤2中,针对所述世界模型以端到端的方式进行自监督训练,具体为:使用adam优化器以梯度下降的方式进行训练。
5.如权利要求1所述的基于随机transformer模型的有模型深度强化学习方法,其特征在于,所述步骤3中,对所述智能体进行训练,具体为:在训练时同样采用adam优化器,以梯度下降的方式进行优化。