强化学习模型训练方法、装置、电子设备及存储介质与流程

文档序号:37797008发布日期:2024-04-30 17:07阅读:8来源:国知局
强化学习模型训练方法、装置、电子设备及存储介质与流程

本发明涉及强化学习,尤其涉及一种强化学习模型训练方法、装置、电子设备及存储介质。


背景技术:

1、随着强化学习技术的不断发展,强化学习技术被广泛应用于各种场景下。

2、在实现本发明的过程中,发现现有技术中至少存在以下技术问题:现有强化学习技术方案,在强化学习模型迁移至新场景的情况下,存在预测准确度低的问题。


技术实现思路

1、本发明提供了一种强化学习模型训练方法、装置、电子设备及存储介质,以提升强化学习模型的预测准确度。

2、根据本发明的一方面,提供了一种强化学习模型训练方法,包括:

3、获取根据第一场景样本数据进行强化学习训练得到的预训练模型,其中,所述预训练模型包括状态感知网络和动作决策网络;

4、复用所述预训练模型中动作决策网络;

5、获取第二场景样本数据,基于所述第二场景样本数据对所述预训练模型中的状态感知网络进行训练,得到目标强化学习模型。

6、根据本发明的另一方面,提供了一种强化学习模型训练装置,包括:

7、预训练模型获取模块,用于获取根据第一场景样本数据进行强化学习训练得到的预训练模型,其中,所述预训练模型包括状态感知网络和动作决策网络;

8、动作决策网络复用模块,用于复用所述预训练模型中动作决策网络;

9、目标强化学习模型确定模块,用于获取第二场景样本数据,基于所述第二场景样本数据对所述预训练模型中的状态感知网络进行训练,得到目标强化学习模型。

10、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

11、至少一个处理器;

12、以及与所述至少一个处理器通信连接的存储器;

13、其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的强化学习模型训练方法。

14、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的强化学习模型训练方法。

15、本发明实施例的技术方案,通过获取根据第一场景样本数据进行强化学习训练得到的预训练模型,其中,预训练模型包括状态感知网络和动作决策网络;复用预训练模型中动作决策网络;获取第二场景样本数据,基于第二场景样本数据对预训练模型中的状态感知网络进行训练,得到目标强化学习模型,实现了强化学习模型的迁移学习,有效提升了强化学习模型在新场景下的预测准确度。

16、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种强化学习模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述第一场景样本数据包括第一地图场景中第一智能体对应的第一状态信息以及第一地图场景中第一智能体对应的第一动作信息;

3.根据权利要求2所述的方法,其特征在于,所述第一状态价值函数值包括多个任务对应的状态价值函数值;

4.根据权利要求3所述的方法,其特征在于,所述预设损失函数包括:

5.根据权利要求1所述的方法,其特征在于,所述第二场景样本数据包括第二地图场景中第二智能体对应的第二状态信息以及第二地图场景中第二智能体对应的第二动作信息;

6.根据权利要求1所述的方法,其特征在于,所述状态感知网络包括全连接层和门控循环单元,所述全连接层与所述门控循环单元连接;动作决策网络包括全连接层。

7.一种强化学习模型训练装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述第二场景样本数据包括第二地图场景中第二智能体对应的第二状态信息以及第二地图场景中第二智能体对应的第二动作信息;

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的强化学习模型训练方法。


技术总结
本发明公开了一种强化学习模型训练方法、装置、电子设备及存储介质。该方法包括:获取根据第一场景样本数据进行强化学习训练得到的预训练模型,其中,所述预训练模型包括状态感知网络和动作决策网络;复用所述预训练模型中动作决策网络;获取第二场景样本数据,基于所述第二场景样本数据对所述预训练模型中的状态感知网络进行训练,得到目标强化学习模型。上述技术方案,实现了强化学习模型的迁移学习,有效提升了强化学习模型在新场景下的预测准确度。

技术研发人员:徐亮,单彬,赵鉴,秦熔均,俞扬
受保护的技术使用者:南栖仙策(南京)科技有限公司
技术研发日:
技术公布日:2024/4/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1