基于深度强化学习的人群疏散仿真方法及系统与流程

文档序号：23653569发布日期：2021-01-15 13:50阅读：352来源：国知局

本公开涉及基于深度强化学习的人群疏散仿真方法及系统。

背景技术：

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着公共安全问题日益频繁的发生，大规模人群疏散问题成为应急处理中不容忽视的重要环节。在人群密集的场所中，危险事故一旦发生，人群为了躲避危险会急于逃离现场，从而在人群疏散过程中造成拥挤现象。如果不能及时疏散甚至可能会造成碰撞、踩踏事故，对疏散人群造成二次伤害。同时，大规模人群疏散是一个复杂的过程，并且大规模人群疏散实验受到组织难、成本高、人员安全等问题影响难以开展。因此计算机仿真技术成为分析疏散过程和评价疏散效率的主要手段。

如何提高人群疏散的效率，避免二次伤害，一直是研究者们十分关注的问题。强化学习是近年来人工智能领域的研究热点之一。强化学习与路径规划的结合为提高人群疏散效率提供了新的思路。基于多智能体强化学习的路径规划算法，大大提升了路径规划的效率并且因为能够不断学习所以该方法对动态环境也有一定的适应能力，实用性更强。但是由于真实疏散场景大多较为复杂，传统强化学习方法很难处理这一问题，而深度学习能够有效的处理高维输入，可以更好的处理复杂的真实场景。因此，将强化学习与深度学习结合，结合强化学习的学习策略和深度学习解决高维输入问题的能力，能够更好地应用于人群疏散仿真。由lowe等人提出的多智能体深度确定性策略梯度(multi-agentdeepdeterministicpolicygradient，maddpg)算法是一种新的多智能体深度强化学习算法，但是该算法也存在状态空间不可变以及经验回放随机等问题，严重影响了算法的学习效率。同时随着引导疏散的智能体数量的增加以及环境的复杂性提高不可避免的带来了庞大的状态空间，这些问题严重影响了该算法在人群疏散领域应用的效果。

技术实现要素：

本公开为了解决上述问题，提出了基于深度强化学习的人群疏散仿真方法及系统，在传统maddpg算法的基础上引入学习曲线与高优先级经验回放策略，形成一种高效的多智能体深度确定性策略梯度(efficientmulti-agentdeepdeterministicpolicygradient，e-maddpg)算法，提高了算法的学习效率，并在e-maddpg算法的基础上提出了一种分层路径规划方法用于规划人群的疏散路径，有效的缩短了路径规划的时间，能够更好地指导人群进行疏散，提高人群疏散的效率。

为实现上述目的，本公开采用如下技术方案：

在一个或多个实施例中，提出了基于深度强化学习的人群疏散仿真方法，包括：

根据场景信息和人群参数信息对构建的疏散场景仿真模型初始化设置；

将人群进行分组，并划分出每个群组的领导者与跟随者；

采用分层路径规划方法获得人群的疏散路径，其中，上层群组内领导者通过e-maddpg算法进行全局路径规划，获取最优疏散路径，下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。

进一步的，接收商场真实的场景数据库，获取行人运动停驻点，作为e-maddpg算法的状态空间。

进一步的，对maddpg算法中的经验池容量及采样样本数增添变化参数，形成e-maddpg算法的经验池曲线和采样样本曲线，通过变化参数调整经验池大小和采样样本数目，使e-maddpg算法的状态空间动态可变。

进一步的，在对e-maddpg算法的网络训练时，选取价值高的样本进行经验重放。

在一个或多个实施例中，提出了基于经验池优化的深度强化学习的人群疏散仿真系统，包括：

初始化设置模块，根据场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；

组内领导选取模块，实现对人群进行分组；选取组内领导；

疏散仿真模块，采用分层路径规划方法获得人群的疏散路径，其中，上层群组内领导者通过e-maddpg算法进行全局路径规划，获取最优疏散路径，下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。

在一个或多个实施例中，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成所述基于深度强化学习的人群疏散仿真方法的步骤。

在一个或多个实施例中，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成所述基于深度强化学习的人群疏散仿真方法的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开将多智能体深度强化学习算法应用于人群疏散的路径规划，提高了人群疏散的效率。

2、本公开考虑到多智能体深度强化学习算法存在的缺陷，在maddpg算法的基础上，提出了e-maddpg算法，结合学习曲线使得经验池动态可变提高学习效率，然后改进算法随机采样方式提高学习的有效性，并对算法的状态空间加以改进，从行人视频中提取运动停驻点作为状态空间，有效的解决了维度灾难问题。

3、本公开采用分层路径规划方法获取人群疏散路径，考虑到人的从众心理将人群划分为领导者与跟随者，将大规模人群疏散仿真问题划分为一组子问题，通过人群分组和领导者引导疏散，可以有效提高公共场所疏散的效率保证人员在突发事件中的安全

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1的流程图；

图2为本公开实施例1采用yolov3方法提取的行人运动轨迹；

图3为本公开实施例1构建的疏散场景图；

图4为本公开实施例1人群分组示意图；

图5为本公开实施例1人群疏散示意图；

图6为本公开实施例1人群疏散结束时刻示意图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

本实施例公开了基于深度强化学习的人群疏散仿真方法，包括：

根据场景信息和人群参数信息对构建的疏散场景仿真模型初始化设置；

将人群进行分组，并划分出每个群组的领导者与跟随者；

进一步的，接收商场真实的场景数据库，采用yolov3方法从行人视频中获取行人运动停驻点，作为e-maddpg算法的状态空间。

进一步的，在对e-maddpg算法的网络训练时，选取价值高的样本进行经验重放。

进一步的，组内领导者通过e-maddpg算法进行全局路径规划，获取最优疏散路径，具体为：

根据出口位置和领导者的初始位置，获取领导者的所有疏散路径；

计算每个疏散路径的奖励值；

选取奖励值最大的疏散路径为最优疏散路径。

进一步的，组内跟随者基于rvo算法避障跟随领导者沿最优疏散路径进行疏散，具体步骤为：

计算跟随者发生碰撞的所有速度和最佳无碰撞速度，最佳无碰撞速度的方向为组内领导者沿最优疏散路径运动的方向；

获取跟随者的当前位置；

当获得跟随者的最佳无碰撞速度时，更新跟随者的位置。

结合图1-图6对基于深度强化学习的人群疏散仿真方法进行具体说明，包括以下步骤：

步骤1：接收商场真实场景数据库，通过yolov3方法提取视频中行人运动停驻点作为状态空间；

深度强化学习的状态信息代表了智能体所感知到的环境信息以及因自身的动作改变带来的变化，状态信息是智能体制定决策和评估其长期收益的依据，而状态设计的好坏直接决定了深度强化学习算法能否收敛以及收敛速度快慢，并且随着疏散场景的扩大和细化，必然会导致状态空间的爆炸，这就是所谓的“维度灾难”，为了解决这一问题，本实施例提出了一种新的状态表示方法，采用yolov3方法从真实行人视频中提取行人运动轨迹的停驻点，得到相应的状态改变点，在此基础上，场景中的所有状态改变点都可以作为状态空间使用，其过程如图2所示。

步骤2：根据预设疏散场景参数信息创建疏散场景模型和人物模型，如图3所示，并将人物模型导入疏散场景模型中，将人群参数信息作为预设疏散人群参数信息进行初始化，将人群进行分组，对每组人群划分领导者与跟随者，如图4所示；

对初始化人群进行分组，划分领导者与跟随者，空间中的每个群体都有一个领导者来领导跟随者进行疏散，如图5所示。领导者与跟随者应该具备以下特点：

(1)领导者需要知道出口的位置。

(2)在疏散过程中，跟随者应始终跟随领导者。

分组后的结果如图4所示。

步骤3：在疏散过程中，采用分层路径规划方法获取人群的疏散路径，其中，上层为每组领导者使用e-maddpg算法实现全局路径规划，获取最优疏散路径，底层为每组内跟随者使用rvo算法来实现避免碰撞，跟随该组内领导者沿最优疏散路径进行疏散；

在顶层：当已知出口位置pj和领导者i的初始位置时，执行操作，达到下一个位置然后该位置作为当前位置继续执行操作，并重复操作直到他到达出口位置pj，并将这一组位置序列视为领导者i的疏散路径，成功疏散的k条路径暂时存储在路径缓冲区bufferi中。但是由于同时受到其他智能体影响，所以每条路径的奖励会有很大的不同。本公开对缓冲区中k条路径中的一组位置序列求得奖励值当遍历路径缓冲区中的k条候选路径时，选择在路径缓冲区中奖励r最大的路径作为领导者i的最优疏散路径，并输出路径集合pathi。

在底层：使用rvo来实现行人避障的过程，可以分两步实现，首先计算邻域中个体i与个体j碰撞的所有速度vc，然后，计算个体i选择无碰撞速度并选择最佳的无碰撞速度vb，其中，最佳速度vb是一个矢量具有方向和大小，其方向为pi表示上层获得的个体的全局路径，表示个体i在t时刻的位置。一旦获得了个体的无碰撞速度，其位置就更新为其中为当前位置。这使得所有的行人在疏散过程中的运动都是基于上层路径规划训练的最优路径。

步骤4：当最终出口的疏散人数等于总人数时疏散过程结束。

即，当从最终出口出来的人数等于总人数时结束，如图6所示。

在传统maddpg算法的基础上引入学习曲线与高优先级经验回放策略，形成一种高效的多智能体深度确定性策略梯度(efficientmulti-agentdeepdeterministicpolicygradient，e-maddpg)算法。

(1)结合学习曲线

由于外部环境提供的信息很少，强化学习是以“试错”的方式进行学习，通过这种方式，强化学习系统在行动-评价的环境中获得经验，改进行动方案以适应环境。从学习曲线理论，可以看出随着知识的增多，学习效率随之加强，在maddpg算法中固定容量的经验池无疑会影响学习的效率，因此，本公开将学习曲线理论与maddpg算法结合，考虑经验增长对学习效率的影响，将状态空间大小与经验的增长相结合，使状态空间动态可变。

在众多种学习曲线中，wright学习曲线应用最广，其学习曲线方程如下：

y(x)＝kx^α(1)

α＝lgx/log2(2)

其中，x为探索次数，k为第一次学习效果，y(x)为第x次所用时间，α为学习系数。

本公开参考学习曲线理论中生产量与时间的关系，对算法中经验池容量以及采样样本数增添变化参数，提出了经验池曲线以及采样样本曲线，结合经验池曲线对maddpg算法经验池进行改进，增加变化参数3，通过变化参数调整经验池大小，使得经验池动态变化，借此消除学习过程中经验池过小或过大对学习效率的影响，改进后其变化函数为：

其中，r(t)为当前大小，t为学习次数。

同样随着样本数目大大增加，固定的样本采集数目势必会影响学习的效率，本公开通过变化参数3来调整采样数目，改进后其变化函数为：

其中，n(t)为当前样本采集数目，t为学习次数。

(2)采用优先级经验回放

在传统的经验重放机制中，随机采样方法使得传送到网络训练的经验是完全随机的，导致了网络的训练效率低下。为了解决上述问题，本公开在重放缓冲区中选择有价值的样本，优先级经验重放的核心思想是更频繁地重放非常成功的尝试或表现极其糟糕的相关样本，借此提高学习的效率。优先级经验重放的思路来源于优先清理，它以高频率回放对学习更有用的样本，本公开使用td-error来衡量作用的大小。td-error的含义是某个动作的估计价值与当前值函数输出的价值之差，td-error越大，说明样本具有更高的价值，对这些高价值的样本进行更频繁地回放，可以帮助智能体提高学习的有效性，由此提高整体性能则，从该样本中“学到更多”。

本公开为了保证td-error暂时未知的新样本至少被回放一次，将其放在首位，此后，每次都回放td-error最大的样本。

本公开选择样本的td-error的绝对值|δt|作为评估样本价值的标准。|δt|计算公式如下：

δt＝r(si，ai)+γq′(si+1，μ′(si+1|θ^μ′)|θ^q′)-q(si，ai|θ^q)(6)

其中，r(si，ai)为奖励函数，γ∈(0，1)是折扣因子，q′(s，a|θ^q′)是目标动作价值网络，q(s，a|θ^q)是动作价值网络，μ(s|θ^μ)是actor网络，θ^q与θ^μ是网络参数。

本公开定义了基于多智能体强化学习的标准的强化学习元素，具体定义如下：

定义1(状态)：记为s，st∈s可以表示为行人在t时刻的位置。在学习过程中，s包括领导者的当前位置和路径规划的停驻点集合。

定义2(动作)：记为a，at∈a表示智能体根据当前状态选择下一个状态的动作。

定义3(奖励函数)：记为r，表示环境在执行a行动后对行动的奖励。在多智能体的路径规划中，主要需要完成两个任务：到达目的地，避免碰撞。奖励函数应当与这两个任务密切相关。本公开中奖励函数定义如下：

其中，r为适应函数，定义为：

r＝μ1*(di-di+1)+μ2*(dk-dk+1)+μ3*(cj-cj+1)(8)

其中，μ1，μ2，μ3通常为正值，且μ1+μ2+μ3＝1。di表示从当前位置到出口的最小距离，dobs表示从当前位置到最近障碍物的距离，cj表示出口j的拥塞程度。定义分别如下：

cj＝pj/bj(11)

其中，(xi，yi)为领导者的当前位置，(xj，yj)为出口位置，j∈(1，m)；(xk，yk)为障碍物位置，k∈(1，n)。pj表示目标点j处人数，用bj表示目标点j单位时间通过的人数。

提出的e-maddpg算法，具体为：

随机初始化actor网络与critic网络参数：θ^q与θ^μ；

初始化目标网络参数θ^q与θ^μ；

初始化缓冲区d，采样数n，td-error最小值绝对值|δmin|，指针p＝1；

forepisode＝1，mdo

为行为探索初始化一个随机过程φ

收到初始观测状态s1

fort＝1，tdo

对于agenti，根据当前策略以及探索噪声选择动作

执行动作at，返回奖励值rt和新的状态st+1

存储经验et＝(st，at，rt，st+1)到重播缓冲区d

计算样本et的|δt|

if|δt|＞|δmin|，then

插入到et，查询td-error最小值更新|δmin|；

p＝p+1：

endif

foragenti＝1，xdo

从d中选取n个样本

设置1yi＝ri+γq′(si+1|θ^μ)|θ^q′

通过最小化损失函数l训练critic网络：

采用梯度策略更新actor策略：

endfor

更新目标网络：

endfor

本实施例将多智能体深度强化学习算法应用于人群疏散的路径规划，提高了人群疏散的效率。

本实施例考虑到多智能体深度强化学习算法存在的缺陷，在maddpg算法的基础上，提出了e-maddpg算法，结合学习曲线使得经验池动态可变提高学习效率，然后改进算法随机采样方式提高学习的有效性。并对算法的状态空间加以改进，从行人视频中提取运动停驻点作为状态空间，有效的解决了维度灾难问题。

本实施例采用分层路径规划方法，考虑到人的从众心理将人群划分为领导者与跟随者，将大规模人群疏散仿真问题划分为一组子问题。通过人群分组和领导者引导疏散，可以有效提高公共场所疏散的效率保证人员在突发事件中的安全。

实施例2

在该实施例中，公开了基于经验池优化的深度强化学习的人群疏散仿真系统，包括：

初始化设置模块，根据场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；

组内领导选取模块，实现对人群进行分组；选取组内领导；

实施例3

在该实施例中公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成所述基于深度强化学习的人群疏散仿真方法的步骤。

实施例4

在该实施例中公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成所述基于深度强化学习的人群疏散仿真方法的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘弘;李信金;孟祥栋;赵缘
技术所有人：山东师范大学
我是此专利的发明人

上一篇：一种具有保温隔热功能的玻璃贴膜及其制备方法与流程
上一篇：一种电网检修现场演示板的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。