一种基于差分演化算法的QMIX超网络参数优化方法及装置

文档序号:33809811发布日期:2023-04-19 13:22阅读:128来源:国知局
一种基于差分演化算法的QMIX超网络参数优化方法及装置

本发明属于人工智能,具体涉及一种基于差分演化算法的qmix超网络参数优化方法及装置。


背景技术:

1、多智能体强化学习(multi-agent reinforcement learning,简称marl)是近年来人工智能领域的研究热点与难点,并且其环境所具有的部分可观察、联合动作空间维度庞大、不稳定性等特点,使得协同多智能体系统进行学习的控制策略仍具有挑战性。

2、目前主流的多智能体算法主要分为communication和cooperation两类,第一种类型通过建立智能体之间的媒介进行通信,进而促进智能体之间的协同作用,peng等人在双向循环神经网络的基础上提出了双向协调网络(bilateral complementary network,简称bicnet)通信协作框架,它在个体行为上使用了深度确定性策略梯度(deep deterministicpolicy gradient,简称ddpg)算法代替基于深度学习的q-learning算法(deep q-network,简称dqn),群体链接中采用了双向循环网络取代单向网络,以此提高多个智能体之间的协作能力;foerster等人为通信的多个智能体设置环境参数和学习算法,并以智能体系统的全局目标制定通信协议,增强了智能体之间共同的学习能力。第二种类型分为去中心化架构(fully decentralized)、完全中心化架构(fully centralized)与集中训练分散执行(centralized training decentralized execution,简称ctde)架构,其中,去中心化架构训练所有的智能体使用自身观察到的环境状态以及奖励来学习自身的策略,智能体之间不进行交流,一般情况下该架构下的训练效果较差,且难以收敛。而完全中心化训练所有的智能体只负责将观察到的环境状态以及奖励发送到中央控制器,并完全由中央控制器进行控制自身的决策,这样的架构执行速度较慢且无法满足实时同步决策的需求。而在集中训练分散执行架构中的中央控制器只负责对策略的训练,训练完成之后中央控制器就不再干涉,决策由各智能体分散执行,该类算法主要研究多智能体如何通过集中式的协同训练学习到可独立执行的策略,执行速度与效率均比较高,故该类框架成为目前最常引用的一种多智能体强化学习算法结构。

3、lowe等人提出的多智能体深度确定性策略梯度(multi-agent deepdeterministic policy gradient,简称maddpg)算法首次采用了集中式训练和分散式学习框架(centralized training and decentralized execution,简称ctde)学习架构,对系统中所有智能体策略进行估计,训练时充分利用全局信息,而在执行动作时仅利用局部信息选择策略,以此来降低多智能体系统训练的时间成本,缓解多智能体协同造成环境不稳定的问题。之后deepmind团队在2017和2018年相继提出了ctde学习结构下的值函数分解网络算法(value-decomposition networks,简称vdn)和qmix来解决离散动作空间下行为策略学习,vdn算法将智能体系统全局q值分解为单个智能体q值,通过离散的单智能体q值能够让分散的智能体根据自己的局部观测选择相应的行为,从而执行分布式策略,vdn能够在一定程度上保证整体q函数的最优性,但由于vdn缺少值函数分解有效性的理论支持,所以在面对一些大规模的多智能体优化问题时,它的学习能力将会大打折扣;而qmix算法并不直接采用某种方式对全局q值进行分解,而是使用神经网络去近似全局q值,并对全局状态s加以利用,确保局部动作构成全局最佳动作组。

4、作为一种流行的多智能体q学习算法,qmix在星际争霸挑战中拥有最好的性能。qmix使用单个智能体的效用函数去拟合最优联合动作值函数,这种设定使得qmix在训练期间能够实现多智能体系统整体协同能力最大化,研究表明qmix非常适合解决分散单元微观管理类的任务。但qmix仍然存在一些不足,kyunghwan等人为了解决其联合动作值函数受限的问题提出了一种新的marl因子分解方法qtran,该方法不受qmix值函数结构的约束,将原始联合动作值函数转变为具有相同最优动作且易于分解的函数,具有更强的通用型;不久,qmix的提出者rashid等人发现qmix联合动作所施加的单调性限制影响了值函数的表示,通过设计加权函数的方式将联合动作空间中的每个动作根据其重要性进行加权,提出了中心加权与优化加权两种加权方式来得到对应的最优策略,避免原始qmix算法陷入局部最优;wang等人通过采用双工竞争的网络架构来分解联合值函数,从网络层面入手,将个人全局最大化(individual-global-max,简称igm)原则编码至神经网络结构中,使智能体系统拥有高效的价值函数学习能力。

5、虽然这些方法都能够提高qmix算法的性能,但均未考虑到qmix算法早期探索效率低下、全局回报较少的问题。


技术实现思路

1、为了解决现有技术中存在的上述问题,本发明提供了一种基于差分演化算法的qmix超网络参数优化方法及装置。本发明要解决的技术问题通过以下技术方案实现:

2、第一方面,本发明实施例提供了一种基于差分演化算法的qmix超网络参数优化方法,包括:

3、构建qmix超网络模型;其中,所述qmix超网络模型包含超网络、联合q值网络、单智能体网络drqn,所述单智能体drqn网络用于根据每个智能体的当前动作和观测序列信息生成每个智能体对应的q值,所述超网络用于根据当前环境的状态信息输出联合q值网络的网络参数,所述联合q值网络用于根据所述联合q值网络的网络参数和每个智能体对应的q值输出最终的联合q值;

4、根据所述超网络输出的联合q值网络的网络参数构建个体,采用差分演化算法根据构建的个体优化所述超网络输出的联合q值网络的网络参数,根据优化后的所述超网络输出的联合q值网络的网络参数优化整体qmix超网络模型的网络参数。

5、在本发明的一个实施例中,所述超网络包括两个单层线性网络;对应的,所述超网络输出的联合q值网络的网络参数包括第一网络权重、第二网络权重、第一网络偏置和第二网络偏置;其中,

6、所述第一网络权重和所述第二网络权重由两个单层线性网络经过绝对值激活函数计算得到;

7、所述第一网络偏置由一个单层线性网络计算得到,所述第二网络偏置由两个单层线性网络计算得到的。

8、在本发明的一个实施例中,所述单智能体drqn网络包括依次连接的第一mlp模块、gru模块、第二mlp模块和策略模块;其中,

9、依次连接的第一mlp模块、gru模块、第二mlp模块,用于根据每个智能体的当前动作和观测序列信息生成每个智能体自身分解拟合后的q值;

10、所述策略模块,用于根据所述单智能体自身分解拟合后的q值,并利用ε-greedy策略对应输出每个单智能体网络的输出;每个单智能体网络的输出包括其q值和动作选择。

11、在本发明的一个实施例中,所述联合q值网络包括输入层、隐藏层、输出层;所述隐藏层的网络参数为所述超网络输出的联合q值网络的网络参数。

12、在本发明的一个实施例中,根据所述超网络输出的联合q值网络的网络参数构建的个体表示为:

13、

14、其中,xi表示第i个所述超网络输出的联合q值网络的网络参数对应构建的个体,分别表示第i个所述超网络输出的联合q值网络的网络参数中第一网络权重的权重和偏置,分别表示第i个所述超网络输出的联合q值网络的网络参数中第二网络权重的权重和偏置,分别表示第i个所述超网络输出的联合q值网络的网络参数中第一网络偏置的权重和偏置,分别表示第i个所述超网络输出的联合q值网络的网络参数中第二网络偏置的权重和偏置。

15、在本发明的一个实施例中,采用差分演化算法根据构建的个体优化所述超网络输出的联合q值网络的网络参数,包括:

16、对构建的个体采用变异策略进行变异;

17、对变异后的个体进行交叉;

18、对交叉后的个体利用适应度函数进行选择,选择优秀的个体作为所述超网络输出的联合q值网络的网络参数。

19、在本发明的一个实施例中,采用的变异策略为de/rand/1。

20、在本发明的一个实施例中,还包括:

21、利用梯度反向传播调参策略将优化后的qmix超网络模型的网络参数反向传输给所述超网络优化超网络的网络参数,以及传输给所述单智能体drqn网络优化生成每个智能体对应的q值;

22、根据优化后的超网络的网络参数再次优化输出联合q值网络的网络参数;

23、根据优化后的所述联合q值网络的网络参数和每个智能体对应的q值优化输出最终的联合q值;

24、根据优化后的所述超网络输出的联合q值网络的网络参数重新构建个体,采用差分演化算法根据构建的个体重新优化所述超网络输出的联合q值网络的网络参数,根据重新优化后的所述超网络输出的联合q值网络的网络参数再次优化整体qmix超网络模型的网络参数。

25、第二方面,本发明实施例提供了一种基于差分演化算法的qmix超网络参数优化装置,包括:

26、模型构建模块,用于构建qmix超网络模型;其中,所述qmix超网络模型包含超网络、联合q值网络、单智能体网络drqn,所述单智能体drqn网络用于根据每个智能体的当前动作和观测序列信息生成每个智能体对应的q值,所述超网络用于根据当前环境的状态信息输出联合q值网络的网络参数,所述联合q值网络用于根据所述联合q值网络的网络参数和每个智能体对应的q值输出最终的联合q值;

27、模型优化模块,用于根据所述超网络输出的联合q值网络的网络参数构建个体,采用差分演化算法根据构建的个体优化所述超网络输出的联合q值网络的网络参数,根据优化后的所述超网络输出的联合q值网络的网络参数优化整体qmix超网络模型的网络参数。

28、在本发明的一个实施例中,还包括:

29、模型重新优化模块,用于利用梯度反向传播调参策略将优化后的qmix超网络模型的网络参数反向传输给所述超网络优化超网络的网络参数,以及传输给所述单智能体drqn网络优化生成每个智能体对应的q值;根据优化后的超网络的网络参数再次优化输出联合q值网络的网络参数;根据优化后的所述联合q值网络的网络参数和每个智能体对应的q值优化输出最终的联合q值;根据优化后的所述超网络输出的联合q值网络的网络参数重新构建个体,采用差分演化算法根据构建的个体重新优化所述超网络输出的联合q值网络的网络参数,根据重新优化后的所述超网络输出的联合q值网络的网络参数再次优化整体qmix超网络模型的网络参数。

30、本发明的有益效果:

31、本发明提出的基于差分演化算法的qmix超网络参数优化方法,利用差分演化算法对qmix超网络模型中超网络输出的联合q值网络的网络参数进行演化得到前期最优网络参数,然后根据前期最优网络参数由联合q值网络正确地对各单智能体的q值进行拟合,进而指导整个多智能体协同的进程。可见,本发明实施例融入了超网络输出参数种群差分演化的过程,在环境初始化后,每一代将参数模型个体加载至超网络中并根据当前环境状态生成联合q值网络的网络参数,单智能体drqn网络与环境互动产生的q值会传入联合q值网络拟合出全局联合q值,全局联合q值稳定,从而有效对多智能体系统行为决策提供指导,生成有效的探索策略,效率高且全局回报高。

32、以下将结合附图及实施例对本发明做进一步详细说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1