一种集装箱区垂直布置的双自动化场桥动态调度方法与流程

文档序号：24132031发布日期：2021-03-02 18:34阅读：来源：国知局

技术特征：
1.一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，在训练学习阶段包括场桥调度agent的深度置信神经网络dbn无监督学习步骤、场桥调度agent的深度置信神经网络dbn有监督学习步骤；在自适应调度应用阶段包括场桥调度agent的动作选择与自适应学习步骤；所述场桥调度agent的深度置信神经网络dbn无监督学习步骤，包括：基于集装箱码头实际作业记录数据，获得无监督训练样本集j1，所述样本集j1包括场桥调度agent的环境状态向量<s>；构建场桥调度agent的深度置信神经网络dbn；利用样本集j1无监督训练dbn的第1层受限玻尔兹曼机rbm网络参数θ1；利用训练后的rbm网络生成下一层rbm网络训练样本集j
i+1
，并对下一层rbm网络参数进行无监督训练，直至dbn所有隐含层无监督训练完毕；所述场桥调度agent的深度置信神经网络dbn有监督学习步骤，包括：将无监督训练后的dbn复制两份，分别称为动作dbn和目标dbn，其网络参数向量分别表示为θ和θ'；动作dbn用于训练场桥调度agent动作的选择，其网络参数θ根据小批量训练样本进行学习更新；目标dbn用于存储之前的学习参数并生成动作dbn训练样本标签值，其网络参数θ'根据动作dbn的参数θ进行柔性更新；dbn有监督学习初始时，其经验回放样本池为空，场桥调度agent依据动作探索利用策略选择当前场桥作业环境状态s下的动作a
+
；依据场桥执行动作a
+
后环境返回的立即回报r和下一环境状态s'计算获得q
a
，并构造有监督学习样本<s,a
+
,q
a
>；若有监督经验回放样本池中的样本量小于容量上限，则将学习样本<s,a
+
,q
a
>加入样本池；否则，用学习样本<s,a
+
,q
a
>随机替换样本池中的一个旧样本；重复进行有监督学习，直至满足动作dbn更新条件；从经验回放样本池中随机选取小批量学习样本<s,a
+
,q
a
>，依据损失函数计算小批量样本集的误差损失值，并利用梯度下降法反向更新动作dbn的网络参数θ；用动作dbn的网络参数θ更新目标dbn网络参数θ'；重复进行有监督学习，直至满足迭代次数要求；所述场桥调度agent的动作选择与自适应学习步骤，包括：经过训练的场桥调度agent接收到环境发来的场桥动作指令请求，场桥调度agent依据最优动作选择策略和当前场桥的环境状态s选择最优的场桥动作a
*
；依据执行场桥动作a
*
后环境返回的立即回报r和场桥的下一环境状态s'计算获取q
a
，并构造场桥调度agent有监督学习样本<s,a
*
,q
a
>；根据损失函数获取当前样本的误差损失值，并利用梯度下降算法反向更新场桥调度agent动作dbn的网络参数θ；场桥调度agent的动作dbn网络参数θ每更新一定次数后，利用所述动作dbn网络参数θ更新一次目标dbn网络参数θ'。2.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，环境状态特征变量包括：堆取箱任务相关和场桥相关的两类特征量；所述堆取箱任务相关的状态特征量包括：任务类型特征量x1，任务到达时刻特征量x2，堆取箱目标位置特征
量x3，关联翻箱特征量x4；场桥相关的状态特征量包括：场桥当前位置特征量y1，对侧场桥当前位置特征量y2，对侧场桥目标位置特征量y3；所述环境状态特征变量具体描述如下：任务类型特征量x1，表示任务类型，取箱时为0，堆箱时为1；任务到达时刻特征量x2，表示待装卸任务车辆到达堆场交接区，等待装卸的开始时刻特征；其取值公式为：其中i-和i
+
为度量参数；堆取箱目标位置特征量x3，表示场桥堆取目标箱所在的位置，陆侧场桥agent的特征量x3的取值为目标箱所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数；海侧场桥agent的特征量x3的取值为目标箱所在贝位与海侧交接区之间的贝位数比上箱区总的贝位数；关联翻箱特征量x4，表示堆取箱任务执行所关联的翻箱量特征，指提取任务目标箱时所需要翻倒的阻碍箱的箱量，取值集合为{0,1/4,1/2,3/4,1}，其值依次表示：不需要翻箱、需要1个翻箱、2个翻箱、3个翻箱、4个及以上翻箱；场桥当前位置特征量y1，表示当前场桥自身所在位置，陆侧场桥agent的特征量y1的取值为陆侧场桥所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数；海侧场桥agent的特征量y1的取值为海侧场桥所在贝位与海侧交接区之间的贝位数比上箱区总的贝位数；对侧场桥当前位置特征量y2，表示对侧场桥当前所在位置，其中海侧场桥与陆侧场桥互为对侧场桥；特征量y2与y1的计算方法相同；对侧场桥目标位置特征量y3，表示对侧场桥当前执行任务的目标位置，特征量y3与y1的计算方法相同；当对侧场桥为空闲状态时，特征量y3取值也为0。3.根据权利要求2所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，所述场桥调度agent的环境状态向量由4n
t
+3个特征变量组成，其中n
t
指所考虑任务的总数，即总数，即场桥调度agent的环境状态向量的可能状态用s表示，所有可能状态s组成状态集合s。4.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，所述立即回报函数r为：φ
c
为等待场桥作业的车辆任务集合，其中不包括场桥正在执行的任务；φ'
c
为场桥执行当前动作堆取集装箱任务期间新到达的待作业车辆任务集合；t
a
为场桥执行当前动作堆取集装箱任务所消耗的总时间，包括场桥移动、箱区内堆取箱和交接区装卸车辆时间，单位为分钟；t
i
为到场桥执行完当前动作时为止，任务i的等待时间，单位为分钟；t
m
为超长等待时间阈值，可根据码头的服务水平选定，单位为分钟；α为任务超长等待时间的附加惩罚权重值，根据码头的服务水平选定；max(
·
,
·
)为两者中取较大的值。5.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征
在于，所述场桥调度agent的深度置信神经网络dbn，包括输入层、隐含层和输出层，输入层有4n
t
+3个节点，分别对应n
t
个任务的4n
t
个状态特征量和3个场桥状态特征量，其中n
t
为所考虑任务的总数；输出层为正数节点，分别对应备选动作评价代表值输出。6.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，网络参数θ'根据动作dbn的参数θ进行柔性更新，公式为：θ'＝β
×
θ+(1-β)
×
θ'
ꢀꢀꢀꢀꢀꢀ
(2)其中：β为柔性更新参数。7.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，损失函数为：l(θ)＝e[(q
a-q(s,a；θ))2]
ꢀꢀꢀꢀ
(3)其中：q(s,a；θ)为网络参数θ条件下输入状态s对应动作a的输出值；q
a
为状态s对应动作a的样本标签值。8.根据权利要求5所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，所述备选动作包括：a1：待派场桥从备选任务中选择最早到达的任务执行；a2：待派场桥从备选任务中选择场桥行驶距离最短的任务执行；若有多个，则从中选择到达最早的任务执行；a3：待派场桥从备选任务中选择场桥空驶距离最短的任务执行；若有多个，则从中选择到达最早的任务执行；a4：待派场桥从备选任务中选择目标位置距离本场桥交接区最远的任务执行；若有多个，则从中选择到达最早的任务执行；a5：待派场桥从备选任务中选择不跨越对侧场桥当前作业目标位置的任务执行；若有多个，则从中选择到达最早的任务执行；a6：待派场桥从备选任务中选择任务完成时间最短的任务执行，其中任务完成时间＝场桥行驶时间+堆取箱作业时间+关联翻箱时间；若有多个，则从中选择到达最早的任务执行；a7：待派场桥从备选任务中选择关联翻箱量最大的任务执行；若有多个，则从中选择到达最早的任务执行。9.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，获取q
a
具体方式为：其中，r和s'分别为状态s下所选动作a执行之后的立即回报值和下一状态；θ'为目标dbn网络的参数；q(s',a'；θ')为目标dbn网络参数θ'下输入状态s'对应动作a'的输出值；γ为折扣因子。10.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，所述动作探索利用策略在环境状态s下，选取动作a
+
的公式为：其中，rand(a|s)表示当前状态s下的可行动作集合中随机选择的一个动作；a
*
表示当前
状态s下最优动作；k为0至1之间的随机数；ε为动作探索率；状态s下最优动作a
*
的公式为：其中，q(s,a；θ)为当前动作dbn网络参数θ下输入状态s对应动作a的输出值；动作探索率的计算公式为：其中，参数ε0和n
ε
为动作探索率参数；n
ε
(s)为在训练学习过程中状态s所属的状态类出现的次数，状态类根据状态变量y1,y2和y3进行划分。

完整全部详细技术资料下载

当前第2页1 2 3