一种基于改进式DQN的升降式自动立体停车库调度方法

文档序号:32746153发布日期:2022-12-30 22:14阅读:25来源:国知局
一种基于改进式DQN的升降式自动立体停车库调度方法
一种基于改进式dqn的升降式自动立体停车库调度方法
技术领域
1.本发明涉及立体停车库调度优化领域,尤其涉及一种基于改进式dqn的升降式自动立体停车库调度方法。


背景技术:

2.随着城市高速发展、汽车保有量激增,为了解决停车位供需不平衡的问题,立体停车库逐渐发展起来。
3.升降式自动立体停车库是一种新型的立体车库,具备以下几点优势:
4.一是集约式存放车辆,提高空间利用率;
5.二是自动化存取车,大大缩短存取时间,提高效率;
6.三是相对传统车库的敞开式管理改为封闭式管理,实现人车分流,提高了安全性。
7.升降式自动立体停车库可建设为若干层,每层有若干个固定车位,依靠中央升降电梯对车辆进行转运,完成自动存取车。
8.当车辆进入零层停放在自动旋转台后,驾驶人即可下车离开,自动旋转台会将车辆水平旋转180
°
使得车头朝外,随后电梯的嵌入式底盘运载器通过伸缩臂将车辆带入电梯载车板,车辆便可跟随电梯运动至目标停车位。取车过程同理。
9.升降式自动立体停车库电梯调度的控制算法是控制系统的核心技术,在停车高峰时期,调度策略影响着存取效率。
10.车库环境和状态是大规模的、复杂的和不确定的,传统的智能算法难以解决这样的问题,既不能实现动态的实时调度,也容易陷入局部最优解或面临维度灾难。


技术实现要素:

11.针对传统智能算法存在的不足,本发明提出一种基于改进式dqn的升降式自动立体停车库调度方法;
12.本发明能够通过车库当前状态信息直接获取最优动作,并能方便、高效地实现模型参数优化。
13.本发明通过下述技术方案实现:
14.一种基于改进式dqn的升降式自动立体停车库调度方法,包括以下步骤:
15.s1,通过物联网获取当前车库状态信息;
16.s2,通过步骤s1获取车库的实时信息后,将升降式自动立体停车库调度模型构造为马尔科夫决策模型,利用马尔科夫决策过程建立升降式自动立体停车库实时调度问题模型,包括状态空间设置、动作定义和奖励函数设置;
17.s3,将实时状态存储在经验池中,随机选取若干样本作为dqn训练的输入;
18.s4,采用改进式dqn并结合状态、候选动作集以及奖励函数,对升降式自动立体停车库调度模型进行训练,得到具有在随机干扰下做出最优决策能力的q网络;
19.s5,利用训练完成的q网络引导立体停车库进行实时调度。
20.上述步骤s1中获取的车库当前时刻状态信息包含:当前决策阶段各个区域每层车位剩余数量、各个区域当前排队车辆数以及申请入库的车辆的到达车库时间、预计停放时长、质量等信息。
21.上述步骤s2中奖励函数的公式为:
[0022][0023]
式中,r
t+1
为即时回报,y1为用户等待时间,y2为机械损失能耗,ti为用户将车辆停放在自动旋转台的时刻,ti为车辆到达车库时刻,mi为车辆质量,di为电梯搬运距离,k为搬运能耗系数,w1,w2∈(0,1)为权重系数。
[0024]
上述步骤s4中采用dqn对升降式自动立体停车库调度模型进行训练,包含以下步骤:
[0025]
s4-1,初始化容量为n的经验池d、q网络及其参数θ、目标网络及其参数令设置折扣因子γ、所有车辆决策完毕的终止时间t和最大训练迭代次数m;
[0026]
s4-2,根据当前状态计算所有候选动作的状态动作价值,使用ε-贪婪策略选择最优动作;执行完动作后,系统状态更新为下一时刻状态,并计算即时回报;
[0027]
s4-3,当车库结束运行后(即完成一轮迭代),对于每一辆停放的车辆,计算其对应的长期回报g
t
并近似估计状态动作价值q(s
t
,a
t
),同时将其对应的状态、动作以及q值储存至经验池中;
[0028]
s4-4,从经验池中随机选取若干样本进行训练,训练结束后再开始新的一轮迭代,如此循环直到完成所有迭代;
[0029]
s4-5,以目标网络的期望状态动作函数值作为标签,q网络输出当前预测的q值,并根据平方目标偏差对q网络参数θ进行梯度下降和反向传播求解;
[0030]
s4-6,q网络每更新一定步数后,将q网络的参数θ赋予给目标网络
[0031]
上述步骤s4-2中采用ε-贪婪策略选择最优动作,其计算公式为:
[0032][0033]
式中,ai为选择的最优动作,ε为范围在[0,1]之间的贪心值。
[0034]
上述步骤s4-3中采用多组经历完整的状态序列的长期回报g
t
,来近似估计状态价值q(s
t
,a
t
),其计算公式为:
[0035]
q(s
t
,a
t
)=e[g
t
|s=s
t
,a=a
t
]
[0036][0037]
上述步骤s2中:
[0038]
状态空间设置;特征变量包括车位剩余数x
res
,当前排队车辆数x
wai
,以及车辆ji的信息(到达车库时间停放时间质量mi);
[0039]
动作定义;为准备入库的车辆指定最合适的停车位作为动作,包括车位的具体区域和楼层信息;
[0040]
奖励函数设置;以最小化用户等待时间和最小化机械设备损失成本作为目标,并据此设定奖励函数。
[0041]
本发明相对于现有技术,具有如下的优点及效果:
[0042]
1.本发明采用基于无模型的强化学习,可以根据当前车库状态、入库车辆信息来决策最佳动作,车库调度优化具有实时性。
[0043]
2.本发明不同于传统的dqn强化学习方法,本发明结合了蒙特卡洛思想,将one-step的状态价值估计策略改为通过采样若干经历完整的状态序列(episode)来估计状态价值,在车库调度中能够充分考虑到每一步动作对后续调度的影响。
[0044]
3.由于车库调度需要连续的时空信息作为输入,状态空间十分复杂,因此更新状态动作价值时采用价值函数逼近法,利用神经网络进行计算,避免了“维度灾难”。
[0045]
4.本发明采用的dqn算法具有经验回放功能,可以将车库调度系统探索环境得到的数据储存起来。这使得样本能重复利用,从而提高了学习率。同时降低了数据之间的关联性,避免陷入局部最优。
[0046]
5.本发明以最小化用户等待时间和最小化机械损失成本作为优化目标,既考虑了用户损失成本,又兼顾了运营者的机械维护和能耗成本。
附图说明
[0047]
图1为本发明实施例升降式自动立体停车库结构示意图;图中:电梯伸缩臂1;自动旋转台2;电梯板3;停车板4;排队车辆5。
[0048]
图2为本发明基于改进式dqn的升降式自动立体停车库调度方法流程图。
[0049]
图3为本发明改进式dqn的训练流程图。
具体实施方式
[0050]
下面将结合本发明实施例及说明书附图,对本发明实施例中的方案进行清晰、完整的描述。注:以下实施方式或者附图用于说明本发明,但不用来限制本发明的范围。
[0051]
本发明是利用改进式dqn强化学习方法来解决升降式自动立体停车库调度问题。
[0052]
图1展示了升降式自动立体停车库示意图。设车库总共有l层,除零层(首层)外每层设置c个车位,将停车空间划分为m个区域,共有m部升降电梯。在车库服务时段内有连续到达n辆汽车,即j=(j1,j2,j3,...,jn)。对于车辆ji,将其到达车库的时刻定义为停放
时长为用户将车辆停放至自动旋转台的时刻为ti,电梯从零层搬运车辆至目标楼层的距离为di,车辆质量为mi。
[0053]
图2展示了基于改进式dqn的升降式自动立体停车库调度优化方法,包括以下步骤:
[0054]
s1,获取当前时刻车库状态,包括剩余车位数情况和排队情况,以及新的申请入库的车辆信息。
[0055]
s2,马尔科夫决策问题模型的建立。
[0056]
本发明利用马尔科夫决策过程建立升降式自动立体停车库调度系统的存取车动态调度模型,将升降式自动立体停车库调度问题转化为强化学习框架下的多阶段序贯决策问题,根据决策时刻车库调度系统当前时刻的状态实时给出相应的最优调度方案,更加符合实际的运作情况。
[0057]
马尔科夫决策问题模型是一个四元组《s,a,t,r》,其中s是包含所有状态的有限集,a是包含所有动作的有限集,t是状态转移概率,r是奖励方程。本发明定义的升降式自动立体停车库实时调度的马尔科夫决策问题模型的详细定义如下。
[0058]
s2-1,状态空间构建。
[0059]
停车库的有效信息包括当前决策阶段各个区域每层车位剩余情况其中为二元变量,表示第i个区域的第j层是否有空余车位;各个区域当前排队车辆数其中表示第i区域的等候区当前排队车辆数。对于申请入库的车辆ji,其有效信息包括到达车库时间停放时间质量mi。
[0060]
将以上信息进行组合,状态空间最终可以被定义为:
[0061][0062]
s2-2,动作定义。
[0063]
对于车辆ji申请入库时的状态s
t
,电梯需要进行实时决策,为其分配一个最合适的库位并将车辆搬运至指定位置,一个库位的位置信息包括其所在的楼层l、区域m以及在该区域内的车位编号n。因此动作定义如下:
[0064][0065]
s2-3,奖励函数设置。
[0066]
优化目标为最小化用户损失以及机械设备损失。用户的损失主要考虑用户等待时间y1;对于机械设备的损失,考虑其升降电梯搬运车辆时的能量消耗y2,并忽略空载时的能量损失。
[0067]
对于车辆ji的用户,其等待时间可以定义为用户将车辆停放在自动旋转台的时刻ti与车辆到达车库时刻ti之差,即:
[0068]
y1=t
i-ti[0069]
假设电梯搬运车辆ji的能耗与车辆质量为mi和搬运距离di成正比,搬运能耗系数
为k,并忽略空载时的能耗,则机械设备搬运车辆ji的能耗可以定义:
[0070]
y2=km
idi
[0071]
为了增加神经网络的拟合效果,需要分别对各部分的奖励值进行归一化处理,保证总奖励值不至于过大或者过小。m
max
,d
max
,t
max
均为常数,分别代表车辆质量的最大值、库位距离的最大值以及通过贪婪策略估算出的用户等待时间的最大值。δ1(y1),δ2(y2)分别为用户等待时间,机械设备运行成本的归一化表达。利用上述各部分奖励的加权之和作为最终的奖励函数,w1,w2∈(0,1)为权重系数,可根据优化意图自主设置。因此奖励函数可以被定义为:
[0072][0073]
s3,将实时状态存储在经验池(记忆库)中,作为dqn训练的输入。
[0074]
s4,改进式dqn的训练。如图3所示,本发明的dqn训练流程如下。
[0075]
s4-1,初始化容量为n的经验池d、q网络及其参数θ、目标网络及其参数令设置折扣因子γ、所有车辆决策完毕的终止时间t和最大训练迭代次数m。
[0076]
s4-2,当有新的停车需求时,系统首先判断是否存在空余车位,若不存在则拒绝该停车需求。若接受请求,则根据当前状态s
t
计算所有候选动作的状态动作价值,使用ε-贪婪策略选择最优动作a
t
。执行完动作后,系统状态更新为下一时刻状态s
t+1
。根据上述奖励函数计算车库状态转变后环境反馈给智能体agent的即时回报r
t+1

[0077]
在使用ε-贪婪策略时,为避免智能体agent总是选择最高回报的动作导致计算陷入局部最优,将以概率ε进行动作的随机探索,以概率1-ε采用已学习到的经验进行动作决策:
[0078][0079]
ε贪心值可以随着迭代进行人为的调整,在训练的前期进行更多的探索,以发现更优的调度规则选择,避免dqn陷入局部最优;在迭代的后期倾向q值更大的动作,以获取更高的长期回报。
[0080]
s4-3,将一次完整的车库调度过程视为一次迭代,当车库结束运行后(即完成一轮迭代),对于每一辆进行停放的车辆,计算其对应的长期回报g
t
以及状态动作价值q(s
t
,a
t
),同时将其对应的状态、动作以及q值储存至经验池中。
[0081]
与传统的dqn算法不同,本发明改进的dqn不采用one-step或n-step的更新策略,而是结合蒙特卡洛法,通过采样若干经历完整的状态序列(episode)来估计状态的真实价值。所谓的经历完整,就是这个序列必须是达到终点的。比如下棋问题分出输赢,驾车问题成功到达终点或者失败。对于立体停车库的调度问题,本发明将其终点设置为停车库结束运行的时刻。利用多组经历完整的状态序列,来近似估计状态价值:
[0082]
q(s
t
,a
t
)=e[g
t
|s=s
t
,a=a
t
]
[0083]
在停车调度问题中,尤其是停车高峰期,每辆车的具体停放位置在当即时刻可能没有展现出多大差异。但当停车数量增多并进入排队时期,前期车辆的停放状况将对后续车辆的排队时间造成较大影响,例如,假设在高峰期之前,低楼层车位就被停满,则高峰期时的车辆需要被停在高楼层,导致排队时间延长。因此应当考虑每一步动作对后续的影响,即智能体agent需要考虑长期回报g
t
,这个衡量标准就是折扣因子γ。折扣因子γ取值在0至1之间,时间越远的回报权重越小,时间越近的回报权重越大。对于长期回报的定义如下:
[0084][0085]
s4-4,从经验池中随机选取若干样本进行训练,训练结束后再开始新的一次迭代,如此循环直到完成所有迭代。
[0086]
深度强化学习的学习过程是利用与环境迭代产生的样本作为学习样本,对模型参数进行更新,但由于前后状态产生的数据具有很强的关联性,会使得深度学习模型容易收敛到局部最优,削弱了模型的效果。为了降低训练样本之间的关联性,经验回放技术将环境探索得到的样本数据以记忆单元的形式储存起来。训练时,每次从经验池(记忆存储单元)中随机抽取小批量的样本数据,并使用随机梯度下降算法更新网络参数,从而提升了算法的稳定性。
[0087]
s4-5,以目标网络的期望状态动作函数值作为标签,q网络输出当前预测的q值,并根据平方目标偏差对q网络参数θ进行梯度下降和反向传播求解。
[0088]
q网络和目标网络是结构相同的两个神经网络。本发明设计了包含两个隐藏层的神经网络,其中第一个隐藏层有50个神经元,第二个隐藏层有30个神经元,激活函数采用relu函数。该网络结构以系统环境状态作为输入,以当前系统环境状态下各个备选动作的状态动作价值作为输出。
[0089]
s4-6,q网络每更新一定步数后,将q网络的参数θ赋予给目标网络
[0090]
在初始时刻,将q网络的参数分配给目标网络然后q网络继续更新神经网络参数θ,而目标网络的参数是固定的。q网络每更新一定步数后,将q网络的参数θ分配给目标网络来回循环直到训练完成。这会使目标q值在一段时间内保持恒定,从而使算法更新更加稳定。
[0091]
s5,升降式自动立体停车库实时调度。
[0092]
在经过改进式dqn的训练之后,用于升降式自动立体停车库实时调度的q网络参数被固定。当输入停车库实时状态时,dqn输出合适的调度规则,用于此刻的车库实时调度。在完成本次调度后,车库进入下一个状态,直到车库结束运行。
[0093]
如上所述,本发明通过物联网技术获取车库当前时刻状态,采用dqn对升降式自动立体停车库调度模型进行训练,以最小化用户等待时间和最小化机械损失成本为目标,得到具有在随机干扰下做出最优决策能力的q网络,并利用q网络引导车库进行实时调度。
[0094]
本发明通过深度强化学习方法解决了大规模复杂状态空间可能导致的维度灾难问题,并能实现动态实时调度。此外,不同于传统的dqn强化学习方法,本发明结合了蒙特卡洛思想,通过采样若干经历完整的状态序列来估计状态价值,使得车库调度的每一步动作都能充分考虑到其对后续调度的影响,更符合车库调度的现实需求。
[0095]
本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1