基于物联网的高层电梯协同调度方法与流程

文档序号:33153544发布日期:2023-02-03 23:19阅读:83来源:国知局
基于物联网的高层电梯协同调度方法与流程

1.本发明涉及电梯控制技术领域,具体涉及基于物联网的高层电梯协同调度方法。


背景技术:

2.现代摩天大楼动辄上百层,人员流动主要依靠垂直电梯。高层建筑物越建越高,客流量越来越大,电梯的数量也在不断增加,一栋大厦有一个或多个电梯组,每个电梯组由多台电梯构成。因此,需要多部电梯协同调度,从整体上设计和优化电梯服务,缩短乘客的侯梯时间、乘梯时间,尽可能减少电梯起停次数,提高电梯运行的效率,提升乘客的舒适度。目前已经进入到电梯智能化发展阶段,实际应用方面大多是基于特定需求进行plc(可编程逻辑控制器)编程的先来先服务算法、扫描算法和look算法等。但是以上基于plc编程的电梯调度系统在多梯、客流高峰期的表现较差,出现这种问题的根本原因是其获取的环境信息不充足,例如无法获取某个楼层的乘坐人数,也没有预测状态变化的能力,完全是被动控制的。考虑到垂直电梯的使用者随机性强,需要即时性的反应,多个电梯之间的信息交换是个难题,建成的大厦一般无法增加电梯数量,因此如何实现电梯之间的准确交流、提高电梯的载客效率是一个重要的问题。


技术实现要素:

3.为了解决上述技术问题,本发明的目的在于提供一种基于物联网的高层电梯协同调度方法,所采用的技术方案具体如下:本发明提供了一种基于物联网的高层电梯协同调度方法,该方法包括以下步骤:获取电梯组中各电梯当前时刻的已载人数,基于电梯组中各电梯当前时刻的位置和呼唤电梯的楼层数获得各电梯当前时刻对应的目标距离;获取各楼层电梯门口当前时刻的图像,基于所述电梯门口当前时刻的图像和openpose模型得到各楼层当前时刻的等待人数;基于预设历史天数中每天电梯门口的监控视频数据,得到预设历史天数中每天的各时间段进入各电梯的人数,基于所述各时间段进入各电梯的人数和各电梯的运行状态,得到各时间段对应的上行人数占比;基于所述上行人数占比和各楼层当前时刻的等待人数,预测各楼层当前时刻等待上行的人数和等待下行的人数;所述运行状态包括上行、下行和等待;基于电梯组中各电梯当前时刻的运行状态、当前时刻的位置、所述目标距离和所述已载人数,构建各电梯当前时刻对应的特征向量;基于所述各楼层当前时刻等待上行的人数和等待下行的人数,构建摩天大楼当前时刻对应的特征向量;基于所述各电梯当前时刻对应的特征向量和所述摩天大楼当前时刻对应的特征向量获得当前时刻对应的状态向量;基于所述状态向量和训练好的es-强化学习网络,对各电梯进行控制;所述es-强化学习网络的奖励函数是根据各电梯的已载人数、各电梯的载客贡献度、各楼层的等待人数以及综合乘客流动性得到的。
4.优选的,所述es-强化学习网络的奖励函数为:
基于综合乘客流动性、各楼层的等待人数、各电梯的已载人数,构建第一奖励函数:其中,为第一奖励函数,为所有电梯在第j个时刻下的已载人数之和,为第j个时刻第i个楼层的等待人数,为第j个时刻的综合乘客流动性,为第一调节系数,为调节参数,为电梯能够到达的总楼层数,为电梯调转方向前消耗的时间;根据各时刻对应的预测准确性、各电梯在各时刻的载客贡献度和所述第一奖励函数,获得各电梯对应的切片奖励函数,即:其中,为第k台电梯对应的切片奖励,为该电梯在第j个时刻的载客贡献度,为第j个时刻对应的预测准确性。
5.优选的,所述基于所述各时间段进入各电梯的人数和各电梯的运行状态,得到各时间段对应的上行人数占比,包括:根据预设历史天数中每天的各时间段上行乘客的人数和下行乘客的人数,按照时间先后顺序构建总上行数据序列;基于所述总上行数据序列获取预设历史天数中每天的同一时间段对应的同步上行子序列;对于任一时间段:根据该时间段对应的同步上行子序列以及预设历史天数中每天的该时间段电梯门口的总等待人数,计算该时间段对应的上行人数的占比。
6.优选的,所述基于电梯组中各电梯当前时刻的位置和呼唤电梯的楼层数获得各电梯当前时刻对应的目标距离,包括:对于电梯组的任一电梯:计算当前时刻该电梯最近的可停留楼层的楼层数与呼唤电梯的楼层数的差值的绝对值,记为该电梯当前时刻对应的目标距离。
7.优选的,采用如下公式计算目标时间段对应的上行人数的占比:其中,为目标时间段对应的上行人数的占比,为历史第t天中的目标时间段的总上行人数,为历史第t天中的目标时间段电梯门口的总等待人数,为预设历史天数;所述目标时间段为历史每天中与当前时刻所在的时间段相同的时间段。
8.优选的,所述基于所述上行人数占比和各楼层当前时刻的等待人数,预测各楼层当前时刻等待上行的人数和等待下行的人数,包括:将历史每天中与当前时刻所在的时间段相同的时间段记为目标时间段;对于任一楼层:计算目标时间段对应的上行人数的占比和该楼层当前时刻的等待人数的乘积,作为该楼层当前时刻等待上行的人数,将该楼层当前时刻的等待人数与所述
该楼层当前时刻等待上行的人数的差值作为该楼层当前时刻等待下行的人数。
9.优选的,所述各电梯的载客贡献度的获取过程为:对于任一电梯:计算该电梯第j个时刻的已载人数与所有电梯在第j个时刻下的已载人数之和的比值,作为该电梯在第j个时刻的载客贡献度。
10.优选的,所述综合乘客流动性的获取过程为:对于任一楼层:根据该楼层上一时刻的乘客编号集合和该楼层当前时刻的乘客编号集合,采用如下公式计算该楼层当前时刻对应的乘客流动性:其中,为该楼层当前时刻对应的乘客流动性,为取绝对值,为集合的长度,为该楼层上一时刻的乘客编号集合,为该楼层当前时刻的乘客编号集合;计算所有楼层当前时刻对应的乘客流动性之和,作为当前时刻的综合乘客流动性。
11.本发明至少具有如下有益效果:本发明首先获取了电梯组中各电梯当前时刻的已载人数、各电梯当前时刻对应的目标距离、各楼层当前时刻的等待人数,考虑到一天中不同的时间段乘梯人数以及乘客的乘梯意向差异较大,因此本发明获取了预设历史天数中每天电梯门口的监控视频数据,对历史每天中各时间段上行人数和下行人数进行分析,基于各时间段上行人数的占比实时预测当前时刻各楼层等待上行的人数和等待下行的人数,构建各电梯对应的特征向量和摩天大楼对应的特征向量,进而获得状态向量,基于状态向量和训练好的es-强化学习网络来实现对电梯组中的电梯的控制,本发明结合物联网设备获取到了电梯门口乘客的信息,并将其输入到了es-强化学习网络中,es-强化学习网络中多个智能体共同合作给出最优的策略,实现了电梯组中的电梯之间的交流,减少了电梯停靠耗费的时间,提高了载客效率。
附图说明
12.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
13.图1为本发明提供的一种基于物联网的高层电梯协同调度方法的流程图;图2为电梯组协调网络的示意图。
具体实施方式
14.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于物联网的高层电梯协同调度方法进行详细说明如下。
15.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
16.下面结合附图具体的说明本发明所提供的一种基于物联网的高层电梯协同调度
方法的具体方案。
17.一种基于物联网的高层电梯协同调度方法实施例:本实施例提出了一种基于物联网的高层电梯协同调度方法,如图1所示,本实施例的一种基于物联网的高层电梯协同调度方法包括以下步骤:步骤s1,获取电梯组中各电梯当前时刻的已载人数,基于电梯组中各电梯当前时刻的位置和呼唤电梯的楼层数获得各电梯当前时刻对应的目标距离。
18.摩天大楼往往会有几十个电梯,构成若干个电梯组,本实施例以摩天大楼中的任意一个电梯组为例进行说明,该电梯组中共有台电梯,在摩天大楼中,如果有若干个乘客想要前往某一楼层,那么其中一个人在电梯组外按下目标方向(想要去的方向)的按钮,电梯调度系统收到了该信号,安排该电梯组中满足以下三个条件的一台电梯前往发送请求的楼层:条件1.与请求方向同向或者处于等待状态的;条件2.距离最近的;条件3.能够尽量多的装载该请求的乘客的;其中,条件1是前提条件,是目前大多数电梯普遍应用的规则,但并不是运行效率最优,而是兼顾运行效率和用户体验的整体最优的方案:电梯每次运行一个方向,将同方向的乘客都带上,为了避免电梯在运行过程中很可能会频繁改变方向,使乘客能够预估电梯的到达时间,到达用户请求的最高层之后才可以改变运行方向。条件2是为了保证效率尽量高,调度的目的是使得空载的电梯停留的位置最佳,下次被召唤时走最少路。条件3是为了避免电梯做无意义的停留,如果电梯显示已满载或者剩余容量很少,前往发送请求的楼层也无法上客,若电梯仍然停留反而浪费了时间,因此要在一个电梯组中优先选取优先载客量少的电梯。高层电梯协同调度是为了实现条件2的最快到达和条件3的避免拥挤。
19.本实施例以摩天大楼中的任一电梯组为例进行说明,在电梯内部都会安装的压力传感器,用于实时采集电梯内的承重量,获取该电梯组内各电梯的实时承重量,对于该电梯组中的任一电梯:将当前时刻该电梯的承重量与成年人的平均重量的比值作为当前时刻该电梯的已载人数,本实施例设置,在具体应用中,实施者可自行设置。此处估计不准确也无妨,因为即使将电梯内的物品错误地估计为人,电梯内的物品也会占据空间,的作用就是判断电梯内的已占用空间。
20.为了实现电梯最快到达,需要分析每台电梯的运行状态进而找到距离发送请求楼层最近的电梯,考虑到电梯存在无法及时停下来的情况,例如电梯在马上要经过某一个不停留的楼层时,这一层突然有人发送了请求,则电梯来不及停下来。电梯的控制单元实时记录每台电梯最近的可停留楼层,对于电梯组中的任意一台电梯:计算当前时刻该电梯最近的可停留楼层的楼层数与呼唤电梯的楼层数的差值的绝对值,记为该台电梯当前时刻对应的目标距离。采用上述方法,能够得到电梯组中各电梯当前时刻对应的目标距离。
21.步骤s2,获取各楼层电梯门口当前时刻的图像,基于所述电梯门口当前时刻的图像和openpose模型得到各楼层当前时刻的等待人数;基于预设历史天数中每天电梯门口的监控视频数据,得到预设历史天数中每天的各时间段进入各电梯的人数,基于所述各时间段进入各电梯的人数和各电梯的运行状态,得到各时间段对应的上行人数占比;基于所述上行人数占比和各楼层当前时刻的等待人数,预测各楼层当前时刻等待上行的人数和等待下行的人数;所述运行状态包括上行、下行和等待。
22.电梯调度系统通过物联网技术连接到监控网络,利用摄像头获取当前时刻各楼层电梯门口的图像,对所有楼层的图像进行实时的分析,检测站在电梯门口等待电梯的人数。具体的,本实施例利用openpose模型分别检测当前时刻各楼层电梯门口的图像中人体的头部和肩部以及足部的关键点,获得当前时刻每一楼层电梯门口等待电梯的人数。利用openpose模型检测关键点的方法为现有技术,此处不再赘述。
23.接下来本实施例需要基于当前时刻各楼层电梯门口等待电梯的人数和历史过程中上下行人数预测当前时刻上行人数和下行人数,进而基于预测结果实现电梯调度,因此首先获取历史数据,所述历史数据为预设历史天数中每天对应的数据,本实施例中预设历史天数为100天,从当日的0点开始往前回溯的最近100天,获取这100天中每天电梯开门期间的上客数量,即进入电梯的人数;具体获取过程为:首先,定义开门期间,由电梯的控制器得到电梯开门时刻和之后的关门时刻,将开门时刻和开门时刻之后的距离开门时刻最近的关门时间之间的时间段作为一个开门期间;使用卡尔曼滤波算法实现对目标的跟踪,得到开门期间进入电梯内部的人数;本实施例将利用openpose模型来获取开门期间进入电梯的人数,openpose模型的训练数据集为该摩天大楼的监控视频数据,数据标注专家对每个乘客的实际朝向进行标记,利用训练数据集对openpose模型进行训练,最终得到训练完成的openpose模型;openpose模型的训练过程为现有技术,此处不再赘述;本实施例以10分钟作为1个时间段,因此每天对应多个时间段,分别将历史100天中每个时间段电梯门口的监控视频数据输入到训练好的openpose模型中,获得各时间段进入电梯的人数;一般情况下乘客的意愿乘坐方向和进入的电梯一致,若某台电梯正在上行的过程中突然有乘客进入该电梯,则说明进入该电梯的乘客的乘梯意向为上行;若某台电梯正在下行的过程中突然有乘客进入该电梯,则说明进入该电梯的乘客的乘梯意向为下行;基于此,统计历史100天中每天的各时间段上行乘客的人数和下行乘客的人数,考虑到有可能开门期间横跨了两个时间段,则将该开门期间归属于前一个时间段,至此获得了历史100天中每天的各时间段上行乘客的总人数和下行乘客的总人数。
24.考虑到地面一楼及以下的乘客的上行概率较高,其它楼层的下行概率较高,不同的日期的同一个时间段的上下行人数是有关联的,因为大多数人会在每一天的同一个时间段乘坐电梯上行。本实施例将根据历史100天中每天的各时间段上行乘客的人数和下行乘客的人数预测当前时刻上行乘客的人数和下行乘客的人数。根据历史100天中每天的各时间段上行乘客的人数,按照时间先后顺序构建总上行数据序列,即,其中,为总上行数据序列,u为每天中时间段的总数量,为历史第1天中的第1个时间段的总上行人数,为历史第1天中的第2个时间段的总上行人数,为历史第1天中的第u个时间段的总上行人数,为历史第2天中的第1个时间段的总上行人数,为历史第2天中的第2个时间段的总上行人数,为历史第2天中的第u个时间段的总上行人数,为历史第100天中的第1个时间段的总上行人数,为历史第100天中的第2个时间段的总上行人数,为历史第100天中的第u个时间段的总上行人数。然后基于总上行数据序列获取历史100天中每天的同一时间段对应的同步上行子序列,对于第一个时间段,其对应的同步上行子序列为;至此,获得了每个时间段对应的同步上行子序列。
25.将历史每天中与当前时刻所在的时间段相同的时间段记为目标时间段,假设当前时刻为12点06分,其处在12点到12点10分的这个时间段中,那么每天中的12点到12点10分这个时间段即为目标时间段;根据历史100天中每天的目标时间段各楼层电梯门口的人数,计算历史100天中每天的目标时间段所有电梯门口的总人数;根据目标时间段对应的同步上行子序列以及历史100天中每天的目标时间段电梯门口的总等待人数,计算目标时间段对应的上行人数的占比,即:其中,为目标时间段对应的上行人数的占比,为历史第t天中的目标时间段的总上行人数,为历史第t天中的目标时间段电梯门口的总等待人数,为预设历史天数,本实施例中的为100,在具体应用中,实施者可自行设置。
26.根据目标时间段对应的上行人数的占比和各楼层当前时刻的等待人数,预测各楼层当前时刻等待上行的人数和等待下行的人数,即对于任一楼层:将目标时间段对应的上行人数的占比和该楼层当前时刻的等待人数的乘积作为该楼层当前时刻等待上行的人数,该楼层当前时刻的等待人数与该楼层当前时刻等待上行的人数的差值为该楼层当前时刻等待下行的人数。
27.对于目标时间段:计算历史100天中每天的目标时间段的总上行人数的均方差,即计算了目标时间段对应的同步上行子序列中所有元素的均方差;同时计算历史100天中每天的目标时间段电梯门口的总等待人数的平均值;进而基于均方差和平均值计算目标时间段对应的预测准确性,即:其中,为目标时间段对应的预测准确性,为历史100天中每天的目标时间段电梯门口的总等待人数的平均值,为目标时间段对应的同步上行子序列中所有元素的均方差。
28.采用上述方法,能够得到各时间段对应的预测准确性,后续在实现电梯组的电梯协同调度时预测准确性也是需要进行考虑的。
29.步骤s3,基于电梯组中各电梯当前时刻的运行状态、当前时刻的位置、所述目标距离和所述已载人数,构建各电梯当前时刻对应的特征向量;基于所述各楼层当前时刻等待上行的人数和等待下行的人数,构建摩天大楼当前时刻对应的特征向量;基于所述各电梯当前时刻对应的特征向量和所述摩天大楼当前时刻对应的特征向量获得当前时刻对应的状态向量;基于所述状态向量和训练好的es-强化学习网络,对各电梯进行控制;所述es-强化学习网络的奖励函数是根据各电梯的已载人数、各电梯的载客贡献度、各楼层的等待人数以及综合乘客流动性得到的。
30.根据电梯组中各电梯当前时刻的运行状态、电梯组中各电梯当前时刻的位置、电梯组中各电梯对应的目标距离和电梯组中各电梯的已载人数,构建电梯组中各电梯当前时刻对应的特征向量,对于第k个电梯,其在当前时刻对应的特征向量为,其中,的取值为,代表着电梯的运行状态,-1
代表下行,0代表待命(即等待状态),1代表上行,表示电梯当前时刻的位置;至此,获得了电梯组中各电梯当前时刻对应的特征向量。根据各楼层当前时刻等待上行的人数和等待下行的人数,构建摩天大楼当前时刻对应的特征向量,其中,m为该电梯组能够达到的最高楼层,为第1层当前时刻等待上行的人数,为第1层当前时刻等待下行的人数,为第2层当前时刻等待上行的人数,为第2层当前时刻等待下行的人数,为第m层当前时刻等待上行的人数,为第m层当前时刻等待下行的人数。需要说明的是,本实施例以电梯能够到达摩天大楼第一层到第m层之间的每一层为例构建的摩天大楼对应的特征向量,在具体应用中,根据电梯能够到达的具体楼层构建摩天大楼对应的特征向量。
31.本实施例基于电梯组中各电梯当前时刻对应的特征向量和摩天大楼当前时刻对应的特征向量,构建当前时刻对应的状态向量,即,其中, 为当前时刻对应的状态向量,为第1台电梯在当前时刻对应的特征向量,为第2台电梯在当前时刻对应的特征向量,为第k台电梯在当前时刻对应的特征向量,为电梯组中电梯的总台数。
32.本实施例将利用es-强化学习网络来实现对电梯组中的电梯的控制。强化学习中的智能体通过在实践环境中执行相应动作以期望获得环境给予的最大的奖励值,从而依据奖励不断地进行试错学习来不断地修正自己在具体环境中的动作策略。es-强化学习网络有两层,第一层是电梯组协调网络,第二层有n个智能体,每个智能体包含一个策略网络,如图2所示。整个网络采用异步更新的方式:假设当前时刻为t时刻,电梯的智能体获取上一时刻(即t-1时刻)的旧信息,包括其他智能体的旧信息,然后直接执行策略,电梯组协调网络再收集信息,作为下一时刻(即t+1时刻)的智能体的输入,实现相互合作的效果,智能体可以更快速地响应乘客的请求。多个智能体和协调网络之间的互动方式为:智能体在每个小时的初始时刻,通过观测环境得到当前时段的状态,作为当前时刻的状态,但不直接输入到智能体的深度q网络中,而且由电梯组协调网络统一获取,然后电梯组协调网络根据获取到的所有信息为每个智能体下发调控向量,智能体将调控向量拼接其状态向量,输入到其深度q网络中,得到应当执行的动作,最终引发新的状态,并得到环境给予的奖励,其中奖励是指在当前状态下经过动作并到达下一状态,环境所给予的反馈值,用于对下一时刻的状态-动作组合做价值评估。
33.动作向量是指电梯是否前往请求的楼层,前往哪几个楼层;每个电梯对应一个动作向量,对于任意一台电梯,其对应的动作向量,代表改变之后的前进的方向,代表该台电梯在第1层是否停留,代表该台电梯在第2层是否停留,代表该台电梯在第m层是否停留,每个元素的取值为0或1,0代表不停留,1代表停留。需要说明的是,虽然状态向量和动作向量的构成类似,但状态向量只代表收到了请求,不一定要去满足,动作才是代表会去满足的楼层。使每一个电梯的智能体权衡“用剩余的容量去满足某一楼层的请求所带来的运输人数”和“前往请求楼层消耗的时间”之间的效率。例如:一台上行的电梯在1楼接了乘客,剩余轿厢容量仅能容纳两个人,而二楼的乘客人数远大于两人,那么在接受到二楼的请求后,没必要在二
楼停留,可交由另一台剩余容量更大的电梯来满足二楼的请求,或者下一趟上行再满足二楼的请求,以此加速电梯运输乘客,实现全局最优,使电梯能运载更多的人,更快的将乘客送达目的地,具体的控制效果可体现在训练es-强化学习网络的奖励函数的构成上。当电梯获得了楼层的等待人数信息后,可对同样是上行的乘客安排多个电梯进行迎接,实现分流,这样多个电梯内部的请求的楼层的期望数量就会减少,运行速度会增加。因此,多个智能体合作是能够提升运行效率。为了达到上述的控制效果,需要对es-强化学习网络进行训练。
34.奖励值能够指示整个强化学习网络的优化方向,具体使用的优化算法是时间差分算法。通过奖励函数指导智能体的学习方向,最终拟合出符合条件的es-强化学习网络。
35.具体的,首先对奖励函数的预估运行流程进行分段,每次上行或下行调转方向前消耗的时间为该次上行或下行调转方向前消耗的时间,获取轿厢内乘客离开轿厢的所需的平均时间为,在动作向量中选出层数最高的值为1的元素,以其楼层作为目的地,然后由电梯控制器的内部参数获取电梯运行到目的地所需的时间,计算每次调转方向前消耗的时间,即:其中,为该台电梯在调转方向之前下电梯的乘客的总人数。
36.智能体每输出一个动作,即可预测完成一次上下行的奖励函数。虽然无法得知有多少乘客在某一楼层下轿厢,但电梯的开门次数是可以确定的,因此开门花费的时间是可以确定的;同时,下电梯的乘客数量也是可以确定的,因此乘客下轿厢花费的时间是可以确定的。
37.考虑到摩天大楼中有些楼层乘客的流动性较低,而有些楼层乘客的流动性较高,因此本实施例为了对电梯进行更准确的调度,需要获取各楼层的乘客流动性,具体的,对于任一楼层,openpose模型会为该楼层每一个候梯乘客赋予一个编号,构成乘客编号集合,根据该楼层上一时刻的(即t-1时刻)乘客编号集合和该楼层当前时刻(即t时刻)的乘客编号集合,衡量上个时刻的乘客在当前时刻的剩余人数,并作为该楼层当前时刻对应的乘客流动性,即:其中,为该楼层当前时刻对应的乘客流动性,为取绝对值,为集合的长度。
38.采用上述方法,能够得到各楼层当前时刻对应的乘客流动性,对m个楼层的乘客流动性进行求和,得到当前时刻的综合乘客流动性。需要说明的是,es-强化学习网络的训练数据集为电梯的历史运行数据,因此需要获取历史时刻的综合乘客流动性,历史时刻的综合乘客流动性与当前时刻的综合乘客流动性的获取方法相同,由于当前时刻的综合乘客流动性在上述过程中已经进行了说明,因此本实施例不再详细说明各历史时刻的综合乘客流动性的具体获取过程。
39.基于综合乘客流动性、各楼层的等待(侯梯)人数、各电梯的已载人数,构建第一奖励函数,第一奖励函数为整体奖励函数,第一奖励函数具体为:
其中,为第一奖励函数,为所有电梯在第j个时刻下的已载人数之和,为第j个时刻第i个楼层的等待人数,为第j个时刻的综合乘客流动性,为第一调节系数,为调节参数。的值可由公知技术确定,比如逆向强化学习,利用专家演示去学习奖励函数,再用第一奖励函数训练强化学习策略或者使用深度强化学习算法来通过神经网络方法自动学习奖励的合适的值。引入调节参数是为了防止分母为0,本实施例中的取值为0.01,在具体应用中,实施者可自行设置。
40.对于第k台电梯:计算该电梯第j个时刻的已载人数与所有电梯在第j个时刻下的已载人数之和的比值,作为该电梯在第j个时刻的载客贡献度;采用上述方法,能够得到该电梯在各时刻的载客贡献度。接下来根据预测准确性、该电梯在第j个时刻的载客贡献度和第一奖励函数,构架切片奖励函数,即该电梯对应的切片奖励为:其中,为第k台电梯对应的切片奖励,为该电梯在第j个时刻的载客贡献度,为第j个时刻对应的预测准确性。
41.每个智能体根据做出的贡献得到属于自己的奖励,以此为参考更新q网络中的参数。每个智能体根据做出的贡献得到属于自己的奖励,然后将奖励值作为时间差分算法的参数,使得q网络往奖励值更大的方向做梯度下降,从而q网络中的参数向着目标的方向更新。
42.获取es-强化学习网络的训练数据集,训练数据集为电梯历史运行过程中的数据;使用电梯调度仿真演示软件生成数据,设置高峰期前的一个小时,高峰期两个小时期间的乘客流动仿真,训练约100万次(仿真演示软件中的时间可以加速,因此训练时间取决于训练设备的性能),直到奖励函数的增长不显著为止,即表示强化学习网络训练完成。其中,增长不显著的判定可以设置阈值,若增长小于阈值,则判定奖励函数的增长不显著,即强化学习网络训练完成。本实施例的模型在使用时无需考虑奖励函数,只需要运行每个智能体中的策略网络和协调网络,即可实现对各种状况的应对。电梯控制系统仅用来运行训练完成的模型,不承担强化学习神经网络的需要高算力的训练任务,因此测试过程的显存占用量反映了真实的电梯控制平台配置需求。本实施例中的算法在测试过程中占用显存相比于原算法增加不明显,因此能够运行于一般的电梯组调度系统。具体的参数运用可运用公知技术来转换为电梯的控制器的物理信号。处理实现最有效率的调度,还可以在电梯内外显示下行预计等待时间,预计达到时间,方便乘客的时间规划。
43.将当前时刻对应的状态向量输入到训练好的es-强化学习网络中,实现电梯的调度,在具体应用中,实时的将对应的状态向量输入到训练好的es-强化学习网络中,对电梯组中的各电梯进行调度,实现电梯之间的交流,提高载客效率。
44.本实施例首先获取了电梯组中各电梯当前时刻的已载人数、各电梯当前时刻对应的目标距离、各楼层当前时刻的等待人数,考虑到一天中不同的时间段乘梯人数以及乘客
的乘梯意向差异较大,因此本实施例获取了预设历史天数中每天电梯门口的监控视频数据,对历史每天中各时间段上行人数和下行人数进行分析,基于各时间段上行人数的占比实时预测当前时刻各楼层等待上行的人数和等待下行的人数,构建各电梯对应的特征向量和摩天大楼对应的特征向量,进而获得状态向量,基于状态向量和训练好的es-强化学习网络来实现对电梯组中的电梯的控制,本实施例结合物联网设备获取到了电梯门口乘客的信息,并将其输入到了es-强化学习网络中,es-强化学习网络中多个智能体共同合作给出最优的策略,实现了电梯组中的电梯之间的交流,减少了电梯停靠耗费的时间,提高了载客效率。
45.需要说明的是:以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1