一种基于事件触发机制的模型训练与策略优化方法及系统

文档序号:37473731发布日期:2024-03-28 18:56阅读:13来源:国知局
一种基于事件触发机制的模型训练与策略优化方法及系统

本发明涉及人工智能,特别是涉及一种基于事件触发机制的模型训练与策略优化方法及系统。


背景技术:

1、强化学习是人工智能领域的一个重要分支,广泛应用于实现智能决策任务。与传统的监督学习不同,强化学习的焦点在于智能体如何在与环境互动的过程中,通过不断的试错和学习,最大化累积奖励,尤其是在未知环境中。强化学习在多个领域中具有广泛应用,包括自动驾驶、游戏玩法优化和机器人控制等。

2、无模型强化学习是强化学习的一种主流方法,其中智能体直接从交互样本中学习,而不需要构建环境的模型。无模型强化学习方法通过不断试验和纠错来改进策略,根据累积奖励来评估策略的质量。尽管在一些任务(如棋类和游戏)中取得了显著效果,但该模式下的算法为了获得出色的性能,通常需要大量的训练样本,这在某些实际应用(如机器人运动和操作任务)可能是不切实际的。

3、相比之下,基于模型的强化学习方法(model-based reinforcement learning,mbrl)提供了改进样本效率的途径。这些方法通过与环境互动中学习环境模型,然后利用该模型进行策略优化。因此,基于模型的强化学习方法在低数据场景下成为一种吸引人的选择,有望在数据缺乏的真实应用场景上部署。

4、mbrl方法的工作原理可以总结为模型学习阶段和策略优化阶段。在模型学习阶段,mbrl方法的主要任务是使用与环境的实际互动数据来学习环境模型。这个模型可以是确定性或概率性的,用于模拟环境的状态转移和奖励信号。模型的训练需要选择适当的动力学模型逼近器,以有效地捕捉环境的状态转移和奖励信号。一旦模型学习完成,mbrl方法将利用学到的模型进行策略优化。这一阶段的目标是找到最优策略,以最大化累积奖励。通常,mbrl方法可以灵活地选择用于策略优化的算法,而不限定于特定策略优化方法,如softactor-critic(sac)、trustregion policy optimization(trpo)、twin delayed deepdeterministic policy gradient(td3)等。通过这两个阶段的交替迭代,mbrl方法能够不断提高策略性能,同时更加高效地利用有限的训练样本。

5、一个更准确的模型将带来更好的策略,因此提高模型准确性一直是研究的重点。有许多尝试通过研究高容量模型(例如模型集成技术和更好的函数逼近器)或者根据模型偏差改进策略优化阶段的方法来改进模型的准确性。这些模型逼近器可以包括神经网络、高斯过程、时间变化的线性动力学模型等。模型的训练目标可以包括均方误差(meansquare error,mse)或负对数似然(negative log likelihood,nll)等。

6、尽管这些方法在一定程度上获得了准确的模型,但这种准确性仍然是相对的,局限在局部范围内。这是因为这些方法的学习过程主要基于当前策略在某一步骤中所探索的有限数量的状态-动作元组,而没有充分考虑环境的完整转换动态。这种相对准确性的局限性导致了在基于模型的强化学习中出现一系列挑战。

7、首先,确定应该进行多少探索是一个复杂而具有挑战性的任务。探索的不足可能会使模型陷入受限状态,这将在一定程度上阻碍后续策略的优化,因为模型无法提供足够准确的信息来引导策略改进。另一方面,如果引入过多的新状态-动作对进行探索,模型可能会因大量的不一致数据而感到困惑,最终导致策略不稳定和波动。

8、为了获得一个“真正”准确的模型,需要一种更智能的方案,它能够在不同时间选择不同数量的探索,以更好地平衡模型学习和策略优化之间的关系。当前的方法通常采用静态设置,缺乏适应性和灵活性,无法应对复杂和多变的环境。因此,传统的基于模型的强化学习方法在模型准确性方面存在局限性,无法提供“真正”准确的模型,限制了它们在基于模型的强化学习领域的性能。

9、因此,解决这一问题的关键在于设计一种智能方法,它能够根据当前环境和学习进展的需要,动态地调整探索的数量。这种方法能够更好地平衡模型学习和策略优化之间的关系,以获得更为准确的模型。通过克服这一问题,可以提高mbrl方法的性能,使其更适用于复杂和多变的环境,从而推动基于模型的强化学习领域的发展。


技术实现思路

1、本发明的目的是提供一种基于事件触发机制的模型训练与策略优化方法及系统,以改进模型驱动的强化学习系统的工作过程,提高其性能,使其更适合应对复杂任务和环境。

2、为实现上述目的,本发明提供了如下方案:

3、一种基于事件触发机制的模型训练与策略优化方法,包括:

4、初始化策略网络和动态模型,初始化重放缓冲区,并重复以下步骤:

5、采集样本数据,并存储至重放缓冲区中;所述样本数据包括智能体与真实环境的若干步交互样本;每步交互样本均包括:当前状态、动作、下一个状态和奖励;所述当前状态由智能体基于真实环境采集得到;所述动作由当前策略网络基于当前状态生成得到;所述下一个状态由智能体基于当前状态,执行动作与真实环境交互得到;所述奖励基于当前状态、动作和下一个状态确定;

6、基于新增样本数据计算模型转移,并判断模型转移是否达到设定阈值;

7、若模型转移未达到设定阈值,则不更新当前动态模型和当前策略网络,直接返回采集样本数据的步骤;

8、若模型转移达到设定阈值,则基于新增样本数据更新当前动态模型和当前策略网络,并返回采集样本数据的步骤;

9、直到当前策略网络达到预定性能要求,得到最佳动态模型和最佳策略网络。

10、可选地,基于新增样本数据计算模型转移,并判断模型转移是否达到设定阈值,具体包括:

11、将训练当前动态模型的原始交互样本确定为原始状态集合;将相对于原始状态集合新增的所有交互样本确定为新增状态集合;将新增状态集合中当前设定交互步数的交互样本确定为当前新增状态子集;将新增状态集合中除去当前新增状态子集剩余的所有交互样本确定为历史新增状态子集;

12、每采集设定交互步数的交互样本,则将原始状态集合与新增状态集合的并集确定为第一状态集合,将原始状态集合与历史新增状态子集的并集确定为第二状态集合;

13、基于第一状态集合和第二状态集合分别构建凸包并计算凸包体积;

14、基于当前新增状态子集计算模型预测误差的均值;

15、根据凸包体积和模型预测误差的均值计算模型转移,并判断模型转移是否达到设定阈值。

16、可选地,基于第一状态集合和第二状态集合分别构建凸包并计算凸包体积,具体包括:

17、对第一状态集合和第二状态集合中的状态数据分别进行随机采样,利用主成分分析对随机采样得到的状态数据进行降维,并确定降维后的状态集合所遵循的分布,得到第一状态分布和第二状态分布;

18、根据第一状态分布和第二状态分布分别确定支撑集,得到第一支撑集和第二支撑集;

19、根据第一支撑集和第二支撑集分别构建凸包,并计算凸包体积,得到第一凸包体积和第二凸包体积。

20、可选地,根据凸包体积和模型预测误差的均值计算模型转移,并判断模型转移是否达到设定阈值,具体公式为:

21、

22、其中,dt表示在t次交互步数下的重放缓冲区中的原始状态集合,δd(τ)表示新增交互步数τ下的重放缓冲区中的新增状态集合,δd(f(i-1))表示新增状态集合中由f(i-1)个交互样本组成的历史新增状态子集,表示新增状态集合中由f个交互样本组成的当前新增状态子集,dd表示重放缓冲区中状态集合所遵循的分布,supp(d)表示分布d的支撑集,conv(·)表示支撑集的凸包体积,表示模型预测误差的均值,β表示惩罚常数,σ表示设定阈值,τ表示新增交互步数,f表示设定交互步数,i表示设定交互步数在新增交互步数中的序号,log(·)表示对数运算。

23、可选地,基于新增样本数据更新当前动态模型和当前策略网络,具体包括:

24、以最小化损失函数为优化目标,基于新增样本数据训练当前动态模型,得到下一个动态模型,并以下一个动态模型替换当前动态模型;

25、基于当前动态模型,采用无模型强化学习方法优化当前策略网络,得到下一个策略网络,并以下一个策略网络替换当前策略网络。

26、可选地,所述损失函数为负对数似然函数。

27、可选地,所述无模型强化学习方法为soft actor-critic策略优化算法。

28、一种基于事件触发机制的模型训练与策略优化系统,包括:

29、初始模块,用于初始化策略网络和动态模型,初始化重放缓冲区;

30、迭代模块,用于重复以下步骤:

31、采集样本数据,并存储至重放缓冲区中;所述样本数据包括智能体与真实环境的若干步交互样本;每步交互样本均包括:当前状态、动作、下一个状态和奖励;所述当前状态由智能体基于真实环境采集得到;所述动作由当前策略网络基于当前状态生成得到;所述下一个状态由智能体基于当前状态,执行动作与真实环境交互得到;所述奖励基于当前状态、动作和下一个状态确定;

32、基于新增样本数据计算模型转移,并判断模型转移是否达到设定阈值;

33、若模型转移未达到设定阈值,则不更新当前动态模型和当前策略网络,直接返回采集样本数据的步骤;

34、若模型转移达到设定阈值,则基于新增样本数据更新当前动态模型和当前策略网络,并返回采集样本数据的步骤;

35、直到当前策略网络达到预定性能要求,得到最佳动态模型和最佳策略网络。

36、根据本发明提供的具体实施例,本发明公开了以下技术效果:

37、本发明提供的基于事件触发机制的模型训练与策略优化方法引入智能事件触发机制,通过基于新增样本数据计算模型转移,并判断模型转移是否达到设定阈值,以此来决定是否对当前动态模型和当前策略网络进行更新,可以根据模型偏差动态地决定何时更新动态模型,而不是依赖于固定的时间表,从而既可以更准确地捕捉环境的动态特性,提高模型的准确性,又可以避免频繁的模型更新,减少计算资源的浪费。因此,本发明能够改进模型驱动的强化学习系统的工作过程,提高其性能,使其更适合应对复杂任务和环境。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1