强化学习模型的训练方法、装置、电子设备及存储介质与流程

文档序号：37920360发布日期：2024-05-10 23:59阅读：5来源：国知局

本申请涉及强化学习，尤其涉及一种强化学习模型的训练方法、装置、电子设备及存储介质。

背景技术：

1、目前，随着人工智能技术的不断发展，智能体在游戏、智能家电、自动驾驶等领域得到了广泛应用，具有自动化程度高、智能化高等优点。相关技术中，大多为智能体训练强化学习模型，通过强化学习模型实现智能体与环境之间的交互，然而，相关技术中智能体的强化学习模型，存在收敛速度慢、鲁棒性差的问题。

技术实现思路

1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此，本申请的第一个目的在于提出一种强化学习模型的训练方法。

3、本申请的第二个目的在于提出一种强化学习模型的训练装置。

4、本申请的第三个目的在于提出一种电子设备。

5、本申请的第四个目的在于提出一种计算机可读存储介质。

6、本申请的第五个目的在于提出一种计算机程序产品。

7、为达上述目的，本申请第一方面实施例提出了一种强化学习模型的训练方法，包括：

8、为达上述目的，本申请第二方面实施例提出了一种强化学习模型的训练装置，包括：

9、为达上述目的，本申请第三方面实施例提出了一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如上述第一方面实施例所述的方法。

10、为达上述目的，本申请第四方面实施例提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述第一方面实施例所述的方法。

11、为达上述目的，本申请第五方面实施例提出了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述第一方面实施例所述的方法。

12、本申请提供的强化学习模型的训练方法、装置、电子设备及存储介质，可基于pid控制器生成第一训练样本，并将第一训练样本添加到经验池，并从经验池中筛选出目标训练样本，以对强化学习模型进行训练，相较于相关技术中强化学习模型的训练大多分为预训练和正式训练两个阶段，本方案中强化学习模型的训练仅包括一个阶段，加快了强化学习模型的收敛速度，可自动生成大量的第一训练样本，提高了强化学习模型的鲁棒性，适用于基于强化学习的自动驾驶模型的训练场景。

13、本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

技术特征：

1.一种强化学习模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一时刻下的样本状态数据、所述样本第一动作和所述样本第一动作的样本奖励数据进行关联，得到第一训练样本，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述经验池中筛选出目标训练样本，包括：

5.根据权利要求3所述的方法，其特征在于，所述对所述第三时刻下的样本状态数据、所述样本第二动作和所述样本第二动作的样本奖励数据进行关联，得到第二训练样本，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标训练样本，对所述强化学习模型进行训练，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述强化学习模型包括车辆的自动驾驶模型。

8.根据权利要求7所述的方法，其特征在于，所述对所述强化学习模型进行训练之后，还包括：

9.一种强化学习模型的训练装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述关联模块，还用于：

11.根据权利要求9所述的装置，其特征在于，所述添加模块，还用于：

12.根据权利要求11所述的装置，其特征在于，所述训练模块，还用于：

13.根据权利要求11所述的装置，其特征在于，所述添加模块，还用于：

14.根据权利要求9所述的装置，其特征在于，所述训练模块，还用于：

15.根据权利要求9-14中任一项所述的装置，其特征在于，所述强化学习模型包括车辆的自动驾驶模型。

16.根据权利要求15所述的装置，其特征在于，所述对所述强化学习模型进行训练之后，所述装置还包括：处理模块，所述处理模块，用于：

17.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。

技术总结
本申请提出一种强化学习模型的训练方法、装置、电子设备及存储介质，其中，方法包括：将第一时刻下的样本状态数据输入至PID控制器，由PID控制器输出样本第一动作；获取样本第一动作的样本奖励数据；对第一时刻下的样本状态数据、样本第一动作和样本第一动作的样本奖励数据进行关联，得到第一训练样本；将第一训练样本添加到智能体的强化学习模型的经验池；从经验池中筛选出目标训练样本，并基于目标训练样本，对强化学习模型进行训练。由此，可基于PID控制器生成第一训练样本，并将第一训练样本添加到经验池，以对强化学习模型进行训练，加快了强化学习模型的收敛速度，可自动生成大量的第一训练样本，提高了强化学习模型的鲁棒性。

技术研发人员：孙长春,李伟东,史浩,马草原,陈前,徐金陵,曹衡,刘启龙,刘大源,赵文嘉,杜新胜,赵明月
受保护的技术使用者：华电煤业集团数智技术有限公司
技术研发日：
技术公布日：2024/5/9

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙长春,李伟东,史浩,马草原,陈前,徐金陵,曹衡,刘启龙,刘大源,赵文嘉,杜新胜,赵明月
技术所有人：华电煤业集团数智技术有限公司
我是此专利的发明人

上一篇：一种安装有滚动轴承的滚丝机用滚动支承装置的制作方法
上一篇：一种玻璃盖板夹紧装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。