基于深度强化学习的自动协商智能体设计方法

文档序号:29128161发布日期:2022-03-05 00:44阅读:145来源:国知局
1.本发明涉及多智能体强化学习领域,特别是涉及一种多智能体强化学习方法。
背景技术
::2.同一环境中的多个人工智能体相互影响,并通过协调它们的行动获得利益。许多任务对于单个智能体来说是非常棘手的,这时就需要一个协作团队。如,搜索和救援、多机器人巡逻、供应链管理等。在许多情况下,利益相关者可以选择与之合作的合作伙伴。3.在有限的议价和环境中,夏普利值与核心和竞争均衡或纳什均衡之间存在多种联系。当特定类别的竞争性市场被建模为多人博弈以及交易者的集合均匀扩展时,夏普利值收敛到竞争均衡状态。虽然这些适用于各种市场领域,但它们并不能涵盖任意的谈判设置。同时,谈判等社会任务的成功需要多方面的智慧。之前的研究主要研究了合作博弈中交际的出现,如参照博弈、lewis信号博弈的变体,其中信息被用来消除不同的可能指称之间的歧义。古典博弈论中有关谈判的工作通常使用简单形式的报价/还价讨价还价博弈,而这些博弈并没有明确解决沟通的问题。4.深度多智能体强化学习(marl)通过在学习的同时与其他代理(agent)反复互动,利用主体逐渐实现包括运动技能和语言交流在内复杂行为的引导。但是,在marl的现有技术中所考虑的环境仅涉及两个代理,没有考虑团队的形成问题。从而避免了联盟选择的问题。“如何在博弈中通过交流信息组成对自己有利的联盟,从而在博弈中比其他方法构建的智能体代理获得更高的收益”是本发明亟待解决的技术问题。技术实现要素:5.本发明旨在提出一种基于深度强化学习的自动协商智能体设计方法,实现了使用深度强化学习算法构建用于协商的智能体代理。6.本发明采用以下的技术方案来实现:7.一种基于深度强化学习的自动协商智能体设计方法,该方法包括以下步骤:8.步骤1、每个智能体代理使用深度强化学习算法sarsa(λ)独立地学习一个策略;9.步骤2、采用神经网络lstm得到智能体代理在时间步长t的动作状态值:10.步骤3、使用强化学习算法sarsa(λ)和神经网络lstm结合,来构建用于自动协商的智能体代理;每个智能体代理以获得更高的奖励值为唯一目标进行训练,各自学习将对环境状态的观察结果映射到要采取的行动的策略;每个智能体代理使用强化学习算法,通过在环境中与其他代理交互更新自己的策略,最终学习到一个适当的行为策略。11.与现有技术相比,本发明与现有的智能体代理算法相比,具有以下优势:12.1)相比于以往用于自动协商的需要手工设定规则的智能体代理,使用本深度强化学习算法构建的智能体代理具有良好的泛化型,能够应对不同的协商规则而无需手工调整应用此方法构建的智能体代理的设置;13.2)使用本深度强化学习算法构建的智能体代理能够在自动协商中进行更优的获胜联盟选择,从而提高自身在协商中获得的收益。附图说明14.图1为本发明的一种基于深度强化学习的自动协商多智能体设计方法整体流程图15.图2为基于深度强化学习算法结构示意图。具体实施方式16.以下结合附图和具体实施例对本发明的技术方案进行详细说明。17.本发明公开了一种基于深度强化学习的自动协商多智能体设计方法。首先,每个智能体使用强化学习算法独立地学习一个策略;其次,使用长短期记忆网络(lstm,longshort-termmemory)来学习sarsa(λ)中的q函数,将难以处理的状态空间减少到可管理的特征数;最后,结合强化学习算法sarsa(λ)和神经网络lstm来构建智能体代理,每个智能体代理各自学习,将学习到的对环境状态的观察结果映射到要采取的行动的策略上,通过在环境中与其他代理交互更新自己的策略,最终学习到一个适当的行为策略来进行自动协商。18.本发明的一种基于深度强化学习的自动协商智能体设计方法,将深度学习算法和强化学习算法相结合,组成了一种深度强化学习算法用来训练智能体代理进行自动协商,具体流程如下:19.步骤1、智能体代理使用强化学习算法独立学习策略,即每个智能体代理使用深度强化学习算法——sarsa(λ)独立地学习一个策略;具体包括以下处理:20.步骤1-1、sarsa(λ)在决策环节挑选最大动作值maxq以施加在环境中来换取回报,当sarsa(λ)处在状态s时,选择可带来最大回报的动作a,作为估算动作;21.步骤1-2、sarsa(λ)将估算动作作为接下来要执行的动作,求出所挑选的最大动作值maxq在现实和估计的差距,并更新q表里的q(s,a);22.步骤1-3、sarsa(λ)对获取奖励所走的步都进行更新,离获得奖励越近的步越重要,越远的则越不重要(由参数λ控制衰减幅度);23.本步骤利用sarsa(λ)能够更加快速有效的学到最优的策略;24.步骤2、采用神经网络lstm来解决协商的状态动作过多的问题:25.步骤2-1、进行智能体特征提取,输出信息为该智能体的隐式特征信息xi,公式如下:26.xi=embedding(ai,oi)ꢀꢀꢀꢀꢀꢀꢀꢀ(1)27.其中,oi表示智能体的局部观察及其属性信息,ai表示智能体基于局部观察和策略所选择的动作,embedding表示多层神经元感知器;28.步骤2-2、将隐式特征信息xi传入lstm网络,对每个输入序列进行编码,依然是每个输入序列对应一个lstm网络,得到两个固定大小的向量;将两个固定大小的向量连接起来输入给前馈层,然后输入relu非线性函数,得到智能体代理在时间步长t的动作状态值,用于选择需要采取的行动策略;29.在每个时间步长t的输入由两部分组成,一部分是智能体代理的收益分配,另一部分是在谈判中用于交流的信息。首先,使用两个embeddingtable分别对应两种输入将其转换为密集向量;然后,使用lstm对每个输入序列进行编码,依然是每个输入序列对应一个lstm,结果是得到两个固定大小的向量。将得到的两个向量连接起来输入给前馈层,然后输入relu非线性函数,得到智能体代理在时间步长t的动作状态值,用于选择需要采取的行动策略;30.步骤3、智能体得到对应价值函数,每个智能体代理各自学习将对环境状态的观察结果映射到要采取的行动的策略。31.使用强化学习算法sarsa(λ)和神经网络lstm结合,来构建用于自动协商的智能体代理;网络的权值使用默认参数设置的adam优化器进行训练优化;每个智能体代理都是独立的,代理以获得更高的奖励值为唯一目标进行训练,各自学习将对环境状态的观察结果映射到要采取的行动的策略;代理使用强化学习算法,通过在环境中与其他代理交互更新自己的策略,最终学习到一个适当的行为策略。32.如图2所示,为基于深度强化学习算法结构示意图。33.本发明将深度学习中的神经网络和强化学习算法相结合,应用于多智能体系统领域,使得使用本方法的智能体代理能够在自动协商中理解智能体代理间的交流信息并与其他智能体代理进行交流,选择更优的获胜联盟从而获得更高的协商收益。本发明以自动协商的环境和每轮协商的信息为基础,智能体代理需要使用已训练的本发明的模型,在自动协商开始时获取自动协商规则,在自动协商过程中需要获得没轮协商的信息,从而使得智能体代理能够在自动协商进行交流和提议,从而获得更优的协商收益。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1