基于cmac网络的群控电梯调度方法

文档序号:8031045阅读:258来源:国知局
专利名称:基于cmac网络的群控电梯调度方法
技术领域
本发明涉及一种电梯的调度方法,尤其涉及一种电梯群控调度方法。
背景技术
早期电梯控制采用单呼梯信号形式,随着计算机控制和智能技术的发展,由计算机统一管理一组电梯的呼叫和指令信号,根据系统设定的优化目标和建筑物中的实际交通状况,产生最优电梯调度策略,这就是目前常见的电梯群控系统,其调度的实质是在开放、动态的复杂环境中,对乘客候梯时间、乘客乘梯时间、拥挤度和能耗等多个优化目标进行优化控制。目前群控电梯调度方法主要涉及分区算法、基于搜索的算法和基于规则的算法等等。随着智能技术的发展,越来越多的研究者采用专家系统、模糊控制、人工神经网络以及遗传算法等技术研究自适应的学习算法。但由于电梯运行在一个连续时间系统中,其状态空间高维,同时外部状态不能完全感知且随乘客到达率变化而动态改变,因此有效计算电梯群控调度的最优策略仍然是研究界和产业界面临的主要难题之一。
考虑到电梯面临的实际环境是未知的、不确定的,而调度是针对顾客到达模型的在线优化。因此将强化学习(Reinforcement learning)技术应用到电梯群控调度中,通过仿真实验表明其方法与目前已有算方法相比,能够获得较小的顾客平均等待时间。

发明内容
1、发明目的本发明的目的是提供一种可以减少乘客平均等待时间的高效电梯群控调度方法。
2、为了达到上述的发明目的,本发明包括下述步骤(1)确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学习参数,然后触发电梯群控系统,其中,静态参数为电梯数目和楼层数目,动态参数为层间运行时间、电梯停止/转向时间和乘客进出电梯时间,乘客到达模型参数为乘客到达时间分布,CMAC网络参数为输入节点、输出节点和泛化参数,强化学习参数为指数衰减速率β和学习率α;(2)设在tx时刻电梯i到达一个决策点,观察得到状态为x,根据CMAC网络计算得出Q(x,run)和Q(x,stop),其中,Q(x,run)为在x状态下电梯继续运行的Q值函数,Q(x,stop)为电梯停靠的Q值函数;(3)根据以下公式选择动作aPr(stop)=eQ(x,run)/TeQ(x,stop)/T+eQ(x,run)/T]]>其中,T为温度参数且T>0;(4)令电梯i的下一个决策点发生在ty时刻,其相应的状态为y,根据式ΔR[i]=e-β(t0-d[i])Σb{2λb(1-e-β(t1-t0))β4+(2β3+2w0(b)β2+w02(b)β)]]>-e-β(t1-t0)(2β3+2w1(b)β2+w12(b)β)+λb[(2w0(b)β3+w02(b)β2+w03(b)3β)-]]>e-β(t1-t0)(2w1(b)β3+w12(b)β2+w13(b)3β)]}]]>更新所有电梯的获得R[i]值,其中,R[i]为第i部电梯从其上一次决策时间点d[i]时开始累计的总折扣强化值,t0为上一事件发生的时间,t1为当前事件发生的时间,对于每个在t0和t1之间有效的电梯呼叫键b而言,令w0(b)和w1(b)分别为t0和t1时刻按钮b按下后逝去的时间,式中β为指数衰减速率,λ为顾客的泊松到达率;(5)电梯i根据式Q(x,a)←R[i]+e-β(ty-tx)mina′∈{stop,cont}Qcmac(y,a′)]]>调节其Q(s,a)的估值;(6)根据式ΔW=α[R[i]+e-β(ty-tx)mina′∈{stop,cont}Qcmac(y,a′,W)]]>-Qcmac(x,a,W)]▿WQcmac(x,a,W)]]>更新CMAC网络权值;(7)将x←y,tx←ty..转至步骤1,从而实现群控电梯调度。
3、有益效果其显著优点是能有效地减少乘客平均等待时间,提高电梯调度的性能。
表1 仅含下行交通模式的对比实验结果

表2 含上行交通模式的对比实验结果

表3 两倍上行交通的对比实验结果

以上分别在三种交通模式下进行实验,实验表明基于CMAC网络的群控电梯调度算法相比采用基于BP网络强化学习的群控调度算法和经典的SECTOR算法,能够获得较小的顾客平均等待时间;同时顾客等待时间超过60s的比例大幅减小。


图1是强化学习函数估计的结构图;图2是CMAC神经网络结构示意图。
具体实施例方式
如图1、图2所示,本实施例包括下列步骤(1)根据表4确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学习参数,然后触发电梯群控系统;
表4 实施例参数配置

(2)设在tx时刻电梯i到达一个决策点,观察得到状态为x,根据CMAC网络计算得出Q(x,run)和Q(x,stop),其中,Q(x,run)为在x状态下电梯继续运行的Q值函数,Q(x,stop)为电梯停靠的Q值函数;(3)根据以下公式选择动作a
Pr(stop)=eQ(x,run)/TeQ(x,stop)/T+eQ(x,run)/T]]>其中,T为温度参数且T>0;(4)令电梯i的下一个决策点发生在ty时刻,其相应的状态为y,根据式ΔR[i]=e-β(t0-d[i])Σb{2λb(1-e-β(t1-t0))β4+(2β3+2w0(b)β2+w02(b)β)]]>-e-β(t1-t0)(2β3+2w1(b)β2+w12(b)β)+λb[(2w0(b)β3+w02(b)β2+w03(b)3β)-]]>e-β(t1-t0)(2w1(b)β3+w12(b)β2+w13(b)3β)]}]]>,更新所有电梯的获得R[i]值,其中,R[i]为第i部电梯从其上一次决策时间点d[i]时开始累计的总折扣强化值,t0为上一事件发生的时间,t1为当前事件发生的时间,对于每个在t0和t1之间有效的电梯呼叫键b而言,令w0(b)和w1(b)分别为t0和t1时刻按钮b按下后逝去的时间,式中β为指数衰减速率,λ为顾客的泊松到达率;(5)电梯i根据式Q(x,a)←R[i]+e-β(ty-tx)mina′∈{stop,cont}Qcmac(y,a′)]]>调节其Q(s,a)的估值;(6)根据式ΔW=α[R[i]+e-β(ty-tx)mina′∈{stop,cont}Qcmac(y,a′,W)]]>-Qcmac(x,a,W)]▿WQcmac(x,a,W)]]>更新CMAC网络权值;(7)将x←y,tx←ty..转至步骤1,从而实现群控电梯调度。
权利要求
1.一种基于CMAC网络的群控电梯调度方法,其特征在于,该方法包括以下步骤(1)确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学习参数,然后触发电梯群控系统,其中,静态参数为电梯数目和楼层数目,动态参数为层间运行时间、电梯停止/转向时间和乘客进出电梯时间,乘客到达模型参数为乘客到达时间分布,CMAC网络参数为输入节点、输出节点和泛化参数,强化学习参数为指数衰减速率β和学习率α;(2)设在tx时刻电梯i到达一个决策点,观察得到状态为x,根据CMAC网络计算得出Q(x,run)和Q(x,stop),其中,Q(x,run)为在x状态下电梯继续运行的Q值函数,Q(x,stop)为电梯停靠的Q值函数;(3)根据以下公式选择动作aPr(stop)=eQ(x,run)/TeQ(x,stop)/T+eQ(x,run)/T]]>其中,T为温度参数且T>0;(4)令电梯i的下一个决策点发生在ty时刻,其相应的状态为y,根据式ΔR[i]=e-β(t0-d[i])Σb{2λb(1-e-β(t1-t0))β4+(2β3+2w0(b)β2+w02(b)β)]]>-e-β(t1-t0)(2β3+2w1(b)β2+w12(b)β)+λb[(2w0(b)β3+w02(b)β2+w03(b)3β)-]]>e-β(t1-t0)(2w1(b)β3+w12(b)β2+w13(b)3β)]},]]>更新所有电梯的获得R[i]值,其中,R[i]为第i部电梯从其上一次决策时间点d[i]时开始累计的总折扣强化值,t0为上一事件发生的时间,t1为当前事件发生的时间,对于每个在t0和t1之间有效的电梯呼叫键b而言,令w0(b)和w1(b)分别为t0和t1时刻按钮b按下后逝去的时间,式中β为指数衰减速率,λ为顾客的泊松到达率;(5)电梯i根据式Q(x,a)←R[i]+e-β(ty-tx)mina′∈{stop,cont}Qcmac(y,a′)]]>调节其Q(s,a)的估值;(6)根据式ΔW=α[R[i]+e-β(ty-tx)mina′∈{stop,cont}Qcmac(y,a′,W)]]>-Qcmac(x,a,W)▿WQcmac(x,a,W)]]>更新CMAC网络权值;(7)将x←y,tx←ty。转至步骤1,从而实现群控电梯调度。
全文摘要
本发明公开了一种基于CMAC网络的群控电梯调度方法,其步骤为(1)确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学习参数,然后触发电梯群控系统;(2)观察电梯状态计算得出Q(x,run)和Q(x,stop);(3)选择电梯动作;(4)令电梯i的下一个决策点发生在ty时刻,其相应的状态为y,更新所有电梯的获得R[i]值;(5)调节电梯I的Q(s,a)的估值;(6)根据式更新CMAC网络权值;(7)将x←y,t
文档编号B66B1/18GK1857981SQ20061004055
公开日2006年11月8日 申请日期2006年5月24日 优先权日2006年5月24日
发明者高阳, 胡景凯 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1