本申请涉及人工智能的,尤其涉及一种智能体的训练方法、种群系统及计算机可读存储介质。
背景技术:
1、多智能体在例如3d射击对战游戏、机器人协作、无人驾驶等场景下都可以用来解决一些复杂而实际的问题。在多智能体的训练过程中,通过将多个智能体分别加载种群中不同策略信息,智能体之间进行竞争或合作,能有效提升智能体的训练效果。
2、然而,基于种群对多智能体进行训练也存在一些缺点,例如需要依赖于一个中心控制器来管理众多种群,需要进行大量的通信和计算,在种群中存在多个网络节点时中心节点通信压力大。在网络中各个节点异构、网络不互通、网络延迟或节点可能发生故障的情况下,中心化的控制器会失效。进而导致多智能体的训练速度、效率都会受到影响。
技术实现思路
1、本申请提供了一种智能体的训练方法、种群系统及计算机可读存储介质,旨在解决现有的基于种群对多智能体进行训练需要依赖于中心控制器管理众多种群,导致通信压力大,并且在网络中各个节点异构、网络不互通、网络延迟或节点可能发生故障的情况下,中心化的控制器会失效。进而导致多智能体的训练速度、效率都会受到影响的问题。
2、第一方面,本申请提供了一种智能体的训练方法,应用于种群系统的网络设备,所述种群系统包括多个所述网络设备,所述网络设备存储有预设策略信息;所述方法包括:
3、将多个待训练的智能体添加至预设游戏环境中;
4、获取所述种群系统中其余的网络设备所存储的所述预设策略信息,将所存储的预设策略信息确认为主策略信息、其余的所述网络设备存储的所述策略信息确认为副策略信息;
5、在多个所述智能体中确定目标智能体,将所述主策略信息部署在所述目标智能体中,将所述主策略信息和副策略信息按照预设规则部署在其余的所述智能体中;
6、获取多个所述智能体在所述预设游戏环境中对局产生的训练数据;
7、根据所述训练数据对多个所述智能体所部署的策略信息进行更新,完成对多个所述智能体的训练。
8、第二方面,本申请提出了一种种群系统,所述种群系统包括:
9、多个网络设备,所述网络设备存储有预设策略信息;
10、其中,所述网络设备包括:存储器和处理器;所述存储器与所述处理器连接,用于存储程序;所述处理器用于通过运行所述存储器中存储的程序,实现如本申请任一实施例所提供的智能体的训练方法的步骤。
11、第三方面,本申请实施例提供了计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如本申请任一实施例所提供的智能体的训练方法的步骤。
12、本申请提供了一种智能体的训练方法、种群系统及计算机可读存储介质。所提供的方法应用于种群系统的网络设备,种群系统包括多个网络设备,网络设备存储有预设策略信息。所提供的方法通过将多个待训练的智能体添加至预设游戏环境中;获取种群系统中其余的网络设备所存储的预设策略信息,将所存储的预设策略信息确认为主策略信息、其余的网络设备存储的策略信息确认为副策略信息;在多个智能体中确定目标智能体,将主策略信息部署在目标智能体中,将主策略信息和副策略信息按照预设规则部署在其余的智能体中;获取多个智能体在预设游戏环境中对局产生的训练数据;根据训练数据对多个智能体所部署的策略信息进行更新,完成对多个智能体的训练。进而通过所提供的方法种群系统中的每个网络设备都能够将所部属的预设规则作为主策略信息,并将种群系统中其他网络设备所部署的预设规则作为副策略信息,保证了每个主策略信息都能与不同的副策略信息进行对抗或合作,增加了系统的探索度和多样性,并提升了多智能体的训练速度和效率。
13、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
1.一种智能体的训练方法,其特征在于,应用于种群系统的网络设备,所述种群系统包括多个所述网络设备,所述网络设备存储有预设策略信息;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将多个待训练的智能体添加至预设游戏环境中,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述主策略信息和副策略信息按照预设规则部署在其余的所述智能体中,包括:
4.根据权利要求1所述的方法,其特征在于,所述训练数据包括多个所述智能体之间的第一对局结果信息;在所述根据所述训练数据对多个所述智能体所部署的策略信息进行更新之前,还包括:
5.根据权利要求4所述的方法,其特征在于,所述获取所述种群系统中其余的网络设备发送的第二对局结果信息,包括:
6.根据权利要求1所述的方法,其特征在于,所述获取多个所述智能体在所述预设游戏环境中对局产生的训练数据,包括:
7.根据权利要求6所述的方法,其特征在于,所述训练数据包括所述智能体的第二状态信息;所述根据所述训练数据对多个所述智能体所部署的策略信息进行更新,包括:
8.根据权利要求6所述的方法,其特征在于,所述策略信息包括预设神经网络模型;所述根据每个所述智能体的第一状态信息和所述智能体部署的策略信息获取所述智能体的动作信息,包括:
9.一种种群系统,其特征在于,所述种群系统包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-8中任一项所述的智能体的训练方法的步骤。