一种基于JADE和强化学习的多Agent应急行动方法与流程

文档序号：18001427发布日期：2019-06-25 22:53阅读：375来源：国知局

本发明属于人工智能技术领域，尤其是一种基于jade和强化学习的多agent应急行动方法。

背景技术：

随着我国经济社会的迅速发展，各类突发公共事件也是层出不穷。据官方资料显示，2018年仅自然灾害一类就已经造成1.3亿人次受灾，直接经济损失超过2600亿元。有效的应急行动不仅仅可以预防和减少突发公共事件的发生，还能保证在突发公共事件发生时保障人民的人身和财产安全，尽快控制住事态形势并将损失降到最低。因此，如何利用多agent、强化学习等人工智能技术对整个应急行动过程进行系统有效地监控、管理和辅助决策是应进一步展开的工作，具有重要意义。

agent是一类在特定环境下能感知环境，并能自治地运行以代表其设计者或使用者实现一系列目标计算实体或程序。多agent系统，即mas(multi—agentsystem)，其本质是“分而治之”的思维。多agent系统的特点决定了它在很多分布式应用领域的独特优势。电子商务领域、交通运输领域、应急救援领域、辩论系统、电信系统这些都具有分布式交互的特性，采用多agent系统可以显著改善不同实体的交互方式，优化执行计划，提供更好、更快、更为可靠的服务。另外在某些信息决策支持系统的构建中，多agent系统也是极为有效的解决方案。jade作为基于fipa规范的多agent系统仿真实现平台，功能完善、体系健全、移植性强，极大地简化了多agent系统的开发。强化学习作为典型的无监督学习方法，目前已被广泛应用于无人驾驶、智能控制、辅助决策等诸多领域，利用多agent系统中agent的自主性来实施强化学习算法，有利于提高多agent系统整体的智能性。

技术实现要素：

本发明的目的在于：提供一种基于jade和强化学习的多agent应急行动决策方法，通过综合考虑运输的成本、距离、时间、有效性等来决定如何利用各个应急资源仓库协同提供应急资源，以较低的经济成本及时有效地提供应急资源保障。

为了实现上述发明目的，本发明提供了一种基于jade和强化学习的多agent应急行动决策方法，包括如下步骤：

步骤1，启动jade平台并建立监控agent，利用监控agent实时判断是否有突发公共事件发生，若有突发公共事件发生，则直接进入步骤2，若没有突发公共事件发生，则循环本步骤继续判断；

步骤2，在监控agent上注册各个应急资源仓库agent的应急资源保障服务行为，并执行各个应急资源仓库agent的强化学习，从监控agent上获得各个应急资源仓库agent对应的强化学习回馈值；

步骤3，从各个强化学习回馈值中选择一个或多个应急资源仓库agent加入应急资源调配序列中。

进一步地，步骤2中，监控agent通过jade的黄页服务实时搜索所有可能的应急资源仓库agent。

进一步地，步骤2中，应急资源仓库agent的强化学习的具体步骤为：

步骤a，初始化学习率λt、折扣因子γ以及q值；

步骤b，各个应急资源仓库agent通过jade交互协议的发起类与环境的响应类的交互，获得当前状态st，并根据状态转移函数p选择当前状态st下最优动作at，执行动作at转移到新的状态st+1；

步骤c，应急资源仓库agent利用jade交互协议的发起类从外界环境得到回报值rt+1，并对q值进行更新；

步骤d，在q值收敛后退出强化学习。

进一步地，步骤b中，利用jade的内容语言以本体形式存储jade交互协议的发起类与环境的响应类的交互信息。

进一步地，步骤b中，状态转移函数p是基于softmax函数来挑选动作策略，使平均回馈值较大的动作策略被采纳的几率更高。

进一步地，步骤b中，状态转移函数p的概率归一化公式为：

式中，τ表示退火温度，用于控制搜索率，当τ越小时，平均奖赏的差异越大，选取最优的策略可能越大，表示归一化前相应动作选择造成状态转移的概率，表示归一化前动作集合中全部动作造成状态转移的概率。

进一步地，步骤c中，q值的计算公式为：

式中，γ∈[0,1)为折扣因子，λt为学习率，a为动作集合，s为状态集合，qt(st,at)表示t时刻由st和at确定的q值，qt+1(st,at)表示t+1时刻的更新值，maxa∈aq(s′,a′)表示这些q值表里面的最大值。

进一步地，动作集合a＝{a1，a2}，状态集合s＝{c1，c2，d，f1，f2}，c1表示应急资源仓库agent能够有效提供的库存容量，c2表示应急资源仓库agent能够有效提供的应急物资种类，d表示应急资源仓库agent与突发公共事件发生地的距离，f1表示单位距离应急资源的运输费用，f2表示单位质量应急资源的运输费用，a1表示该应急资源仓库agent选择加入应急资源调配行列，a2表示该应急资源仓库agent选择不加入。

本发明的有益效果在于：(1)将多agent技术与强化学习算法相结合，从整个应急行动系统的全局出发来调配应急资源仓库的供应，强化学习算法充分利用了agent的自主性，来促进多agent系统的智能化水平和自适应能力；(2)具有较强的扩展性和应用性，可以与数字化的应急预案系统相结合，利用已有的监控数据信息和案例库进行计算机辅助决策，更加科学有效地指挥应急行动；(3)利用jade平台构建agent、实现多agent系统开发，基于jade平台的多agent系统，利用jade提供的通信交互协议、黄页服务、本体支持、agent迁移等可以将应急救援处置过程和行动细节的模拟与实际突发公共事件应急处置的辅助决策应用结合起来，构建一套平时反正演练优化、战时提供辅助决策的系统应用框架体系。

附图说明

图1为本发明的有限状态机模型的应急行动决策总体流程图；

图2为本发明的jade平台的强化学习的结构图。

具体实施方式

如图1所示，本发明提供了一种基于jade和强化学习的多agent应急行动决策方法，包括如下步骤；

步骤1，启动jade平台并建立监控agent，利用有限状态机模型(fsm)调度子行为来管理突发公共事件的应急行动，有限状态机由初始状态1开始，执行行为1：利用监控agent实时判断是否有突发公共事件发生，若有突发公共事件发生，则直接进入步骤2，进入中间状态3，若没有突发公共事件发生，则进入中间状态2(预警行为)再迁移至初始状态1以循环本步骤继续判断；

步骤2，执行行为3，在监控agent上注册各个应急资源仓库agent的应急资源保障服务行为，再进入中间状态4，执行行为4：各个应急资源仓库agent的强化学习，从监控agent上获得各个应急资源仓库agent对应的强化学习回馈值；将强化学习的任务对应一个四元组：e＝<s,a,p,r>，其中，s为当前状态，a为动作集合，p为状态转移函数，r为回馈函数，状态转移p基于softmax函数去挑选动作策略，保证平均回馈值比较大的动作策略被采纳的可能性更高，同时还保证了平均回馈值低的动作策略仍有被采纳的机会；应急资源仓库agent从环境(监控agent)获得以有效性、经济效益、时间距离等为主的回馈值，根据强化学习的基本原理，如果应急资源仓库agent的某个行为策略改变环境后获得正的回馈值，那么agent产生这个行为策略的趋势将会加强；反之将会减弱，多agent系统中强化学习目标仍然是奖励回馈值最大，以γ折扣累积回馈值法计算长期累积回馈值，也就是每一次的折扣因子是以γ速率递减的；

步骤3，执行行为5，从各个强化学习回馈值中选择一个或多个应急资源仓库agent加入应急资源调配序列中，此时监控agent的有限状态机行为终止，应急行动结束。

进一步地，步骤2中，监控agent通过jade的黄页服务实时搜索所有可能的应急资源仓库agent。

进一步地，步骤2中，应急资源仓库agent的强化学习的具体步骤为：

步骤a，初始化学习率λt、折扣因子γ以及q值，折扣因子γ∈[0,1)，γ为0表示只看眼前的r；

步骤c，应急资源仓库agent利用jade交互协议的发起类从外界环境得到回报值rt+1，并对q值进行更新；

步骤d，在q值收敛后退出强化学习，进入终止状态5，再执行行为5。

进一步地，步骤b中，利用jade的内容语言以本体形式存储jade交互协议的发起类与环境的响应类的交互信息。

进一步地，步骤b中，状态转移函数p是基于softmax函数来挑选动作策略，使平均回馈值较大的动作策略被采纳的几率更高。

进一步地，步骤b中，状态转移函数p的概率归一化公式为：

进一步地，步骤c中，q值的计算公式为：

γ∈[0,1)为折扣因子，λt为学习率，rt+1表示t+1时刻的回馈值，a为动作集合，s为状态集合，q(s,a)表示s和a确定的q值，qt(st,at)表示t时刻由st和at确定的q值，qt+1(st,at)表示t+1时刻的更新值，maxa∈aq(s′,a′)表示这些q值表里面的最大值。学习率λt控制学习的速度，其值与收敛速度成正比，但不能过大，否则收敛将不成熟。γ∈[0,1)作为折扣因子，越大则表示倾向于长期回馈值，越小则表示越倾向短期当前的回馈值。q值的计算公式是经过贝尔曼方程处理后利用更新迭代计算不断逼近最优解，因此将强化学习行为设置为cyclicbehaviour(循环类),可以不断重复学习过程。

如图2所示，为本发明的基于jade和强化学习的多agent应急行动决策方法所结合的有模型强化学习算法结构图。通过监控agent来管理突发公共事件的应急行动。应急资源仓库agent与环境(监控agent)双方具体的交互方法如下：应急资源仓库agent建立jade交互协议的发起类，监控agent建立jade交互协议的发响应类，利用jade本体类定义concept结构的回馈值rt+1，predicate结构的状态st，action结构的动作at，并予以通信交互这些信息。

本发明基于多agent技术、jade平台和强化学习方法，从应急处置行动的全局出发，将多agent技术与强化学习算法相结合，建立一个较智能的决策支持方法，通过综合考虑时间、成本、有效性等要素对各个应急资源仓库进行全局调配，充分有效地利用各个应急资源仓库进行应急保障工作，同时将多agent思想应用到决策支持系统中，极大地增强了系统自适应能力；再利用强化学习提高各个agent间的协调性，促进系统的智能化，可以与数字化的应急预案系统相结合，利用已有的监控数据信息和案例库进行计算机辅助决策，更加科学有效地指挥应急行动，系统能够有效协调经济成本与时间效率的关系，智能性和适应性更强，具有较高的可扩展性和更重要的实际应用价值。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵佳宝;潘东旭;潘昱宸
技术所有人：南京大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。