一种基于最优解的智能体残障设备投放方法与流程

文档序号：28802112发布日期：2022-02-09 00:05阅读：54来源：国知局

1.本发明涉及设备投放技术领域，尤其涉及一种基于最优解的智能体残障设备投放方法。

背景技术：

2.在机场投放残障设备，可以为残障人士提供服务，方便出行，如何快速，高效的在机场中投放设备至关重要。实际上设备的投放需要根据动态场景进行部署，要满足设备投放的最优覆盖。投放的设备数量越少，所需要花费的资源就少，但是随着设备数量的减少其覆盖范围就会降低；覆盖范围的越大，需要耗费的设备就越多。机场的投放策略要满足设备投放的最优覆盖率，同时要减少设备投放的数量，以及投放过程中能耗的降低。
3.强化学习作为一种重要手段应用于多agent系统,以获得学习环境中agent交互和协作的最佳策略，现有技术中利用自主开发的警员训练虚拟环境来探索多个agent之间如何学习最优联合行为，在这个环境中不同兵种在不同地形条件下完成合作目标或者在对抗中摧毁对方作战队伍。传统的强化学习方法，如基于值的方法q-learning、基于概率的方法policy gradient等在面对这种大规模多agent系统的学习面临着维数灾难,即当环境较为复杂或者任务较为困难时,agent的状态空间过大,会导致需要学习的参数以及所需的存储空间急速增长,强化学习难以取得理想的效果。
4.阿里巴巴团队提出的在谷歌的pysc2多agent环境下的新算法bicnet,在以上两种方法的基础上通过用双向循环神经网络(bidirectional recurrent neural networks,brnn)来连接每个同质agent(homogeneous agent)，通信发生在潜在空间中,以便高层信息可以在agent之间传递，同时异构agent可以使用不同的参数和输出动作集创建.在pysc2这样的复杂环境下,bicnet显示了先进的性能。但是bicnet将学习任务制定为零和博弈，考虑的重点在于多agent竞争环境中的微观管理任务，在纯合作无竞争环境中的表现尚不明确。
5.一个基于参数共享的maddpg算法(ps-maddpg)，包括三种actor-critic共享组合架构用于解决maddpg算法可扩展性差的问题。通过确定agent之间交互的程度，即考虑agent是否应该同某一agent进行交互或者仅将其当做环境的一部分而不进行交互，这样将降低算法的复杂度。考虑多个agent在环境中感知和行动的问题，让agent在这些环境中学习通信协议，共享解决任务所需的信息，最大限度地提高它们的共享效用。在多智能体的设置下，ac算法往往会由于独立训练，导致信息共享不足，agent之间的协作能力较差。
6.因此，如何在满足机场最优覆盖率同时尽可能的减少设备的投放是现阶段需要解决的问题。

技术实现要素：

7.本发明的目的在于克服现有技术的缺点，提供了一种基于最优解的智能体残障设备投放方法，解决了现有技术中存在的不足。
8.本发明的目的通过以下技术方案来实现：一种基于最优解的智能体残障设备投放
方法，所述投放方法包括：
9.输入智能体的初始状态，计算得到智能体选择的到下一个状态的移动轨迹的动作和q值并进行初始化操作；
10.进行总回合中的一个片段操作，即在当前状态下经过动作选择后，执行动作后到达下一个状态的过程，这个过程在总回合中反复执行，直到到达奖励值最大的最终状态，将当前状态初始化为s0，在概率为ε时选择最大q值对应的动作，否则选择一个随机动作，并执行该动作获得奖励后进入下一个状态；
11.将当前状态、执行的动作、奖励和下一个状态作为一个四元组集合存入经验池，并更新sum-tree的父节点；
12.判断当前q值与最优值之间的误差是否在阈值范围内，并计算q值完成对动作的估计得到最终状态，并将最终状态作为损失来训练估计网络，得到最终智能体选择的动作和q值，选择出最佳多智能体残障设备的投放方式。
13.所述q值表示智能体在一个状态下执行一个随机动作之后获得一个总奖励，智能体仅仅在每一次动作选择的时候选择当前状态动作对最大的q值就可以满足得到此状态下的最优动作。
14.所述初始化操作包括：初始化估计网络的权重、目标网络的权重，经验池d、总回合m和学习率。
15.sum-tree用来存储最大抽样概率，它的叶子节点是经验池中的样本数量，所有叶子节点保存的是样本的抽样概率。
16.所述sum-tree存储最大抽样概率的步骤包括：
17.a1、判断当前节点是否是叶子节点，如果是，则设置为抽样节点；
18.a2、比较随机值和当前节点的左儿子节点，如果左儿子节点的值大于随机值，就向下搜索，将当前节点设置为左儿子节点，重复步骤a1，否则向右搜索，将当前节点设置为右儿子节点，并将随机值和左儿子节点的差作为输入，重复步骤a1。
19.如果当前q值与最优值之间的误差在阈值范围内，则将距离最优值最远的状态所对应的q值调整到最小，将取代最优值的次优质调整到最大。
20.本发明具有以下优点：一种基于最优解的智能体残障设备投放方法，我们多智能体的强化学习将多个单一智能体有机的结合到一个整体，使得单一智能体运行无碍又可获得集体最大收益，为每一个智能体配置一个神经网络，在马尔可夫实际环境中训练，在神经网络中运行，获取信息。考虑到是所有的智能体之间信息通过一个控制器可以共享(或者说是通过控制器进行把信息给每个智能体)，这样每个智能体就可以信息共享，可以共享位置信息，奖励信息等，然后根据训练出来的神经网络根据选择的机制选出自己的动作联合函数，通过相应的学习策略选择动作，然后与环境交互，不断的更新信息，所以在进行设备投放的过程中，每一个智能体都是自我学习，与环境交互不断试错的过程中完成的；
21.奖励进行分解，每一个智能体的奖励不仅包含自己的奖励，还包括所有智能体共同的奖励，这样可以提升智能体之间的协作性，对智能体学习起到促进作用同时能满足优化目标；
22.不需要大量的先验知识，就能进行自动优化，并且我们基于传统dqn算法进行改进，在引进ddqn的基础上利用差值约束，我们定义为一个函数，将dqn的过估计问题进行优
化，并且引进优先级采样加快有效数据的学习效率。
附图说明
23.图1为本发明dqn方法的流程示意图；
24.图2为机场残障设备投放规划的整体流程示意图；
25.图3为算法模型仿真训练输入机场布局示意图；
26.图4(a)为覆盖率对比图；
27.图4(b)为奖励趋势对比图；
28.图5(a)为覆盖率变化图；
29.图5(b)为奖励随训练次数变化图；
30.图6(a)为算法智能体一二运行轨迹图；
31.图6(b)为算法智能体三四运行轨迹图；
32.图7为了得出投放设备的数量进行的仿真训练布局示意图；
33.图8为三智能体和四智能体覆盖率对比示意图；
34.图9为在带有障碍物的环境中进行仿真训练布局示意图；
35.图10为带有障碍物的环境智能体运行轨迹示意图。
具体实施方式
36.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的保护范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。下面结合附图对本发明做进一步的描述。
37.如图1所示，本发明涉及一种基于最优解的智能体残障设备投放方法，首先从设备所处环境出发，考虑设备智能体的状态集合和动作集合，以及根据优化目标函数确定奖励函数，分析考虑传统dqn带来的过估计问题，以及样本抽样的问题，引进ddqn进行改善过估计，加入差值约束扩大最优值和次优值的差距，以减小误差带来的策略选择错误，以及加入了优先级采样，采用sum-tree的形式进行存储最大抽样概率，结合上述几种方法，提出了一种改进dqn的多智能体强化学习算法，并应用于多目标的机场残障设备投放；步骤包括输入智能体的初始状态，初始化网络权重，进行动作选择，存储状态集合，更新数据概率，计算误差并缩小误差，判断是否为最终状态，智能体选择的动作a，q值，具体包括以下内容：
38.第1步：我们输入智能体的初始状态，经过计算得到智能体选择的动作、q值；
39.第2步：先进行初始化操作，初始化估计网络的权重使用随机权重、初始化目标网络的权重、初始化经验池d、总回合m、学习率；
40.第3步：进行总回合中的一个片段的操作，先初始化当前状态为s0，只有在ε概率时选择最大q值对应的动作，否则选择一个随机的动作；
41.第4步：执行这个动作后获得奖励进入下一个状态；
42.第5步：将当前状态、执行的动作、奖励、下一个状态作为一个四元组集合存入经验池：
43.第6步：更新sum-tree的父节点；
44.第7步：计算当前q值与最优值之间的误差，如果他们之间误差在(-ε，ε)之间那么就缩小为1，否则将对q值缩小的最小；
45.第8步：再计算q值完成对动作的估计，然后判断是否为最终状态，最终状态则作为损失来训练估计网络。从而选择最佳多智能体机场设备投放方法。
46.为了满足神经网络需要样本独立同分布的特点，本发明在dqn算法中引进了经验回放的关键方法。在经验回放中，智能体与环境交互产生状态s，选择动作a，下一状态s’，以及获得的奖励r，把这个四元组放进经验池中，并且在训练时随机抽样用于训练神经网络。随机抽样的好处可以打乱数据相关性，但随着回合的增加，对于状态动作对来(s，a)来说，其需要拟合的q值也会发生变化，因此样本的训练次数不一样才能达到最优的q值。也就是说更新的次数和误差大小有关，误差越大，需要更新的次数越多，这样就可以采用优先级采样，通过误差来衡量优先级，并且每个样本的抽样概率都可以计算。
47.其中，使用完全二叉树sum-tree来存储最大抽样概率，叶子节点是经验池中的样本数量，所有叶子节点保存的是样本的抽样概率。sum-tree是一个递归函数，输入是根节点和一个随机值(最大为所有叶子节点之和)，算法从根节点和随机值输入，具体算法流程是：
48.s1、判断该节点是否是叶子节点，是的话就定为抽样节点。
49.s2、比较随机值和当前节点的左儿子节点，如果左儿子节点的值大于随机值，那么就向下搜索，当前节点为左儿子节点，重复s1，否则向右搜索，当前节点设置为右儿子节点，并将随机值和左节点的差作为输入，重复s1。
50.如图2所示，机场设备投放规划的整体流程主要包括以下内容：
51.(1)模型输入的是目标覆盖率最大跟能耗最低，以及机场的环境数据，
52.(2)通过协同部署模型和马尔可夫模型以及强化学习算法来确定一个投放策略十分符合我们的要求。
53.(3)强化学习的过程是智能体处于一个复杂的环境，从一开始的盲目行动，不断试错，得到环境的回馈，进而更新自己的策略，逐渐的适应环境，即二者交互构成了强化学习的训练。
54.算法模型仿真训练输入机场布局，本实验的输入数据有，随机生成的机场布局内人流信息，其中方点表示人员，圆点表示设备，如图3所示，首先设备智能体获得初始点数据信息，然后随机化网络参数，在开始的5000步内先进行空间的探索，将得到的样本存储在经验池中，之后每隔4步学习一下，用经验池的数据去更新网络，并将更新后的网络用于设备决策。反复不断的学习与更新，最终收敛于平衡。
55.本发明奖励函数的设置是针对一个智能体的，每一个智能体都拥有这样的一个奖励函数，它们不仅包含了共同优化的目标即覆盖率，而且也包含了各自的优化函数即能耗，这样每一个智能体的目标就是在满足最大覆盖率的同时也要减少自己的能耗，智能体通过奖励函数相互协作达到最终的目的，奖励函数最终会用到深度神经网络训练的时候目标值进行监督训练。奖励进行分解，每一个智能体的奖励不仅包含自己的奖励，还包括所有智能体共同的奖励，这样可以提升智能体之间的协作性，对智能体学习起到促进作用同时能满
足优化目标；
56.在算法仿真实验中，我们仿真了dqn、ddqn、cddqn-per(本发明算法)三种算法，在同等条件三种算法第3900回合覆盖率和奖励趋势对比情况从覆盖率可以看出cddqn-per迅速达到覆盖率100％的位置，其次为ddqn，最差为dqn，如图4(a)所示。原因是cqqn-per算法经过dqqn和差值约束，能够减少误差的干扰，在每一次选择的时候能选择正确的策略动作，所以可以很快的达到部署位置。
57.从奖励值可以看出cddqn-per在三种算法中平均奖励值是最高的，如图4(b)所示，在达到奖励值最高峰时，可以看到奖励值衰减，这是因为我们设置的奖励函数，在达到覆盖率要求时，就算不动，奖励值也会减少，这个和我们的部署任务不冲突，其他两种算法没有这么大的衰减是因为没有覆盖率还有上升的空间，能耗损失小于覆盖率的增长，cddqn-per算法每一次的选择都是选择奖励值高的，相对其他两种算法来说，可以看出它的改进是有效的。
58.仿真实验中三种算法4000回合的覆盖率和奖励随训练次数的变化，从图5(a)可以看出cddqn-per算法非常迅速的达到覆盖率80％，而且在之后比较稳定，其他两种算法虽然也在之后达到了要求，但是波动性较大，因为误差的影响。
59.图5(b)可以看出三种算法在最大奖励值差别不大，主要区别就在于平均奖励值和波动性，其中从图上看到cddqn-per算法的平均奖励值最高，并且稳定性最高，其次是ddqn，最差是传统dqn。
60.我们可以得到cddqn-per算法相对于其他两种算法的改进有效性，所以我们使用cqqn-per算法进行设备投放，图6(a)和图6(b)展示了四个设备智能体的运行轨迹图，我们最后可以得到其最优点为(0.05,0.45)，(0.85,0.85)，(0.55,0.20)，(0.45,0.95)。
61.由图7-图8可以看出四智能体的覆盖率要高于三智能体，所以在进行智能体数量的选择时，如果对于覆盖率的要求在90％可以选择三智能体投放，如果高于90％选择四智能体,盲目地增加智能体数量会增加能耗，所有在合适的覆盖率要求下选择最小的智能体数量。
62.从图9-图10是四智能体在经过训练4000回合后得出的运行轨迹图，在达到部署目标要求的同时，我们可以看到四个智能体都可以在不触碰到障碍物的情况下达到的部署目的地，智能体在与环境的不断交互的过程中，记录下来触碰到障碍物的惩罚，在下一次不会到障碍物，所以可以得出不触碰障碍物的运行轨迹。
63.以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐源;王魁;唐小艳;刘玲意
技术所有人：成都海天数联科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。