行车调度方法、介质和电子设备与流程

文档序号：28171658发布日期：2021-12-24 23:46阅读：99来源：国知局

1.本技术涉及物流技术领域，特别涉及一种行车调度方法、介质和电子设备。

背景技术：

2.随着物流行业的飞速发展，人们对物流的时效的要求越来越高。为了提高仓库中货物入库/出库的速度，目前的仓库中采用智能机器人对仓库中的物品进行分拣、存放和运出。但是，对于存放重型货物的仓库，例如存放钢卷的仓库，由于开发能够运输钢卷等重型货物的智能机器人的成本较高，目前依然采用多个行车将仓库中的货物运送到装货区进行出库或从仓库入口运送到仓储区进行存放。但是，在通过行车进行货物入库/出库的过程中，由于行车车体只能沿同一个方向移动，行车在运送货物过程中常需要等待其他行车完成货物运送才进行下一个货物的运送，使得行车运送货物出库的过程中部分行车闲置，降低货物出库的效率。因此，如何更好地确定仓库中各货物的出库顺序以及运送货物的行车，以提高行车出库的效率，是亟需解决的问题。

技术实现要素：

3.有鉴于此，本技术实施例提供行车调度方法、介质和电子设备。基于一种行车调度模型对待出库的委托单进行多次模拟调度生成多个模拟调度方案，并以该多个模拟调度方案中最优的一个作为调度行车出库的方案，从而可以减小行车在运送货物出库过程中的等待时间，提高行车运送货物出库的效率。
4.第一方面，本技术实施例提供了一种行车调度方法，应用于电子设备，方法包括：利用第一调度模型对待出库的多个委托单进行模拟调度，生成第一调度方案以及各委托单的第一回报值；对第一调度方案进行评价，生成各委托单的评价结果，并基于各委托单的第一回报值和评价结果确定第二调度模型；利用第二调度模型对待出库的多个委托单进行模拟调度，生成第二调度方案和各委托单的第二回报值，其中各第二回报值之和大于各第一回报值之和；根据第二调度方案调度行车对待出库的委托单进行出库。
5.即是电子设备可以利用第一调度模型，例如下文中的行车调度模型200，对待出库的多个委托单进行多次模拟调度，生成多个模拟调度方案，并根据多个模拟调度方案中各委托单的累计回报值最大的一个模拟调度方案调度行车对待出库的委托单进行出库。电子设备在通过行车调度模型200对待出库的多个委托单进行模拟调度的过程中，每完成一次模拟调度，即根据本次调度中各委托单的回报值和评价结果调整行车调度模型200的网络参数，并在下一次模拟调度中使用新的网络参数进行模拟调度，从而可以获取各委托单的回报值之和更好的调度方案。
6.通过本技术实施例提供的行车调度方法，可以减小行车在运送货物出库过程中的等待时间，提高行车运送货物出库的效率，降低钢铁成品仓储作业成本、提升仓储整体作业效率。
7.结合上述第一方面的第一种可能实现中，上述基于各委托单的第一回报值和评价
结果确定第二调度模型，包括：根据各委托单的第一回报值和评价结果，将第一调度模型的参数调整至第二调度模型的参数。
8.也即是说在本技术实施例中，第二调度模型是通过更新第一调度模型参数得到，例如在第一调度模型为行车调度模型200的情况下，基于下文步骤s506中方法更新行车调度模型200的参数即可得到第二调度模型。
9.结合上述第一方面的第一种可能实现的第二种可能实现中，上述第一调度模型包括任务调度网络和调度评价网络。
10.也即是第一调度模型包括两个网络，用于实现不同的功能，例如下文中的行车调度模型200包括任务调度网络201和调度评价网络202，任务调度网络201用于对待出库的委托单进行模拟调度并生成各委托单的回报值，调度评价网络202用于对任务调网络201的调度进行评价，生成各委托单的评价结果，以便于行车调度模拟200可以根据各委托单的回报值和评价结果调整任务调度网络201和调度评价网络202的参数，以在下一次模拟调度过程中获取各委托单的回报值之和更大的调度方案。
11.结合上述第一方面的第二种可能实现的第三种可能实现中，上述第一调度方案由任务调度网络生成。
12.结合上述第一方面的第三种可能实现的第四种可能实现中，上述任务调度网络通过循环执行以下操作生成第一调度方案：确定未确定出库顺序的各委托单的策略梯度，并以策略梯度最大的一个作为下一个出库的委托单。
13.例如，参考下文步骤s502中的方法，任务调度网络可以计算还未确定出库顺序的各委托单的策略梯度，以策略梯度最大的一个作为下一个出库的委托单，并将该委托单标记为已确定出库顺序(如下文中的更新调度参数)。
14.结合上述第一方面的第二种可能实现的第五种可能实现中，上述各第一回报值由调度评价网络生成，其中调度评价网络包括对待出库的多个委托单进行出库时各行车的等待时间进行预测的规则。
15.也即是说，调度评价网络(例如下文中的调度评价网络202)可以为预先训练好的的网络，用于可以下文所述的出库任务参数为输入，输出该出库任务参数对应的行车等待时间的预测值(以下简称预测值)，并以通过确定一个委托单后的出库任务参数对应的预测值减去确定该委托单前的出库任务参数对应的预测值差值作为该委托单的评价结果。
16.在对调度评价网络202预先训练过程中，可以以预设的调度方案为输入，并且以该预设的调度方案中各行车的理想等待时间为训练目标，例如0，从而拟合出对出库任务参数对应的预测值进行计算的规则。
17.结合上述第一方面及上述第一方面的任一种可能实现的第六种可能实现中，上述第二调度方案包括各委托单的出库顺序、执行各委托单的行车标识、各委托单对应的货物的起点位置和目标位置。
18.结合上述第一方面的第六种可能实现的第七种可能实现中，上述根据第二调度方案调度行车对待出库的委托单进行出库，包括：根据各委托单的出库顺序和执行各委托单的行车标识向执行各委托单的行车发送出库指令。
19.结合上述第一方面的第七种可能实现的第八种可能实现中，在待出库的委托单有变化的情况下，利用第一调度模型对待出库的委托单进行模拟调度，生成第一调度方案以
及各委托单的第一回报值。
20.也即是说，在本技术实施例中，电子设备在检测到待出库的委托单有变化的情况下，例如取消部分委托单、新增部分委托单的情况下，可以重新对待出库的委托单进行模拟调度，从而可以根据待出库的委托单的状态，实时调整行车调度方案，进一步提高行车运送货物出库的效率。
21.第二方面，本技术实施例提供了一种可读介质，该可读介质上存储有指令，指令在电子设备上执行时使电子设备实现上述第一方面及其可能实现提供的任一种行车调度方法。
22.第三方面，本技术实施例提供了一种电子设备，该电子设备包括：存储器，用于存储由电子设备的一个或多个处理器执行的指令；以及处理器，是电子设备的处理器之一，用于执行存储器中存储的指令以实现上述第一方面及其可能实现提供的任一种行车调度方法。
附图说明
23.图1根据本技术的一些实施例，示出了一种通过行车运送货物出库的场景示意图；
24.图2根据本技术的一些实施例，示出了一种行车调度的场景示意图；
25.图3根据本技术的一些实施例，示出了一种任务调度网络201的结构示意图；
26.图4根据本技术的一些实施例，示出了一种行车调度方法的流程示意图；
27.如；
28.图5根据本技术的一些实施例，示出了一种行车调度模型200确定调度方案的过程示意图；
29.图6根据本技术的一些实施例，示出了一种电子设备100的结构示意图。
具体实施方式
30.本技术的说明性实施例包括但不限于行车调度方法、介质和电子设备。
31.下面结合附图介绍本技术实施例的技术方案。
32.图1根据本技术的一些实施例，示出了一种通过行车运送货物出库的场景示意图。
33.如图1所示，仓库00中设置有行车10和行车20，各行车的车体(大车)，例如行车10的车体11可以沿y方向移动，设置于各行车车体上的小车例如行车10的小车12可以沿x方向移动；设置于各行车的小车上的起升机构，例如行车10的起升机构13，可以沿z方向移动。电子设备100分别与行车10和行车20耦接，以使得电子设备100可以控制行车10和行车20从仓储区01将货物移动到装货区02的运输车上，实现仓储区01货物的出库。
34.在需要通过行车10和行车20从仓库00运送多个委托单对应的货物出库的情况下，通常通过人工的方式确定各委托单的出库顺序以及运送各委托单对应的货物行车，但行车在运送货物出库过程中若和其他行车的行驶路径有冲突，需要等待其他行车完成货物出库后才能继续运送货物。例如，参考图1，在行车20位于y坐标为2的位置且运送货物沿y轴的负方向向装货区02移动、行车10位于y坐标为1的位置且要向y轴正方向移动至y坐标为2的位置运送货物的情况下，若行车20与行车10继续相向移动则会发生冲突。为避免冲突，行车10需要退回到等待区等待行车20将货物运送到送货区02后返回至y坐标为3的位置后再向y坐
标为2的位置移动。通过人工方式确定的各委托单的出库顺序以及运送各委托单对应的货物行车并不能有效避免行车间的冲突，也不能根据各行车当前运送的货物的路径选择使行车等待时间最短的委托单，从而使得行车运送货物出库的效率较低。
35.为了解决上述问题，本技术实施例提供了一种行车调度方法，具体地，该行车调度方法是基于一种行车调度模型(第一模型)实现的，该行车调度模型(例如下文的行车调度模型200)可以根据出库任务参数，例如出库的委托单的数量、各委托单对应的货物在仓储区01的位置(起点位置)、各委托单对应货物的装货区02的装货位置(目标位置)、仓库00中各行车的标识，各行车的初始位置、仓库00中各行车在仓库00中能够到达的区域等，对待出库的委托单进行多次模拟调度，生成多个模拟调度方案，并以多个模拟调度方案中最优的一个作为出库方案，例如确定各模拟调度方案中使各行车的等待时间最短的一个作为出库方案，从而可以减小行车10和行车20在运送货物出库过程中的等待时间，提高行车运送货物出库的效率，从而降低钢铁成品仓储作业成本、提升仓储整体作业效率。
36.例如，图2根据本技术的一些实施例，示出了一种行车调度的场景示意图。
37.参考图2，电子设备100在接收到待出库的委托单后，可以基于待出库的各委托单的具体信息生成出库任务参数，包括待出库的委托单的数量、各委托单的起点位置、各委托单的目标位置、仓库00中各行车的初始位置、仓库00中各行车在仓库00中能够到达的区域等，并将出库任务参数传递给行车调度模型200。行车调度模型200接收到出库任务参数后即可基于出库任务参数对电子设备接收到的待出库的委托单进行模拟调度。
38.具体地，行车调度模型200对电子设备100接收到的待出库的委托单进行模拟调度过程中，由任务调度网络201对出库任务参数进行初始化、提取出待出库的各委托单的特征，并基于提取的待出库的各委托单的特征，计算出待出库的各委托单的策略梯度。再从待出库的各委托单中选择出策略梯度最大的一个作为下一个出库的委托单，从待调度的委托单中删除该委托单，并计算出选择该委托单回报值(第一回报值)，其中回报值用于表征选择该委托单作为下一个出库的委托单的情况下，运送该委托单对应的货物的行车需要等待时间，例如，在一些实施例中，回报值可以定义为选择该委托单作为下一个出库的委托单的情况下，运送该委托单对应的货物的行车需要等待的总时间的负值。任务调度网络201通过循环执行上述步骤即可生成一个模拟调度方案，该模拟调度方案中包括了电子设备100接收到的待出库的各委托单的出库顺序和执行待出库的各委托单的行车。
39.在任务调度网络201生成一个模拟调度方案后，调度评价网络202对该模拟调度方案进行评价，生成模拟调度方案中各委托单的评价结果，以便于行车调度模型200可以基于各委托单的回报值和评价结果更新任务调度网络201和调度评价网络202的网络参数，以便于下一次模拟调度过程中任务调度网络201能给出累计回报值(即各委托单的回报值之和)更大的调度方案(也即是各行车的累计等待时间最短的调度方案)。
40.可以理解，在一些实施例中，调度评价网络202也可以在任务调度网络201确定一个待出库的委托单的出库顺序后，即对该委托单进行评价，生成各委托单的评价结果，在此不做限定。
41.行车调度模型200在获取到一个模型调度方案中各委托单的回报值和评价结果后，根据各委托单的回报值和评价结果更新任务调度网络201和调度评价网络202的网络参数，并以新的网络参数进行下一次模拟调度。行车调度模型200经过多次模拟调度后，可以
生成多个模拟调度方案，并以多个模拟调度方案中最优的一个作为出库方案，例如选择累计回报值最大的一个作为出库方案。电子设备100在获取到行车调度模型200生成的出库方案(包括但不限于各委托单出库顺序、各委托单货物的起点位置和目标位置、执行各委托单的行车的标识)后，即控制行车01和行车02逐个运送各委托单对应的货物出库。
42.可以理解，调度评价网络202可为以预先训练好的网络，可以以前述出库任务参数为输入，输出该出库任务参数对应的行车等待时间的预测值(以下简称预测值)，并以通过确定一个委托单后的出库任务参数对应的预测值减去确定该委托单前的出库任务参数对应的预测值差值作为该委托单的评价结果。在一些实施例中，在对调度评价网络202预先训练过程中，可以预设的调度方案为输入，并且以该预设的调度方案中各行车的理想等待时间为训练目标，例如0，从而拟合出对出库任务参数对应的预测值进行计算的规则。
43.可以理解，在一些实施例中，在电子设备100控制行车01和行02逐个运送各委托单对应的货物出库的过程中，若待出库的委托单状态有变化，例如取消部分委托单、增加新的委托单等，电子设备100还可以基于行车调度模型200重新进行模拟调度，以确定更合理的出库方案，进一步提高行车运送货物出库的效率。
44.可以理解，在本技术的各实施例中，行车调度模型200的任务调度网络201和调度评价网络202可以基于同一类型的神经网络模型来实现，也可以基于不同的神经网络模型来实现，还可以结合多种类型的神经网络模型来实现。例如，可以基于卷积神经网络(convolutional neural network，cnn)、循环神经网络(recurrent neural network，rnn)、注意力机制网络(attention mechanism network)、全连接神经网络(fully connected neural network)、归一化网络(normalization network)、丢弃网络(dropout network)、门控循环单元网络(gated recurrent unit，gru)等神经网络模型中的至少一个来实现。在本技术的一些实施例中，行车调度模型200可以由演员
‑
评论家(actor
‑
critic，ac)结构来实现，其中，任务调度网络201即为演员网络，调度评价网络202即为评论家网络。
45.示例性地，图3根据本技术的一些实施例，示出了一种任务调度网络201的结构示意图。如图3所示，任务调度网络201可以包括一维卷积网络201a、一维卷积网络201b、一维卷积网络201c、gru网络201d、全连接网络201e、丢弃网络201f、注意力机制网络201g、归一化网络201h、注意力机制网络201i和任务选择网络201j。
46.其中，一维卷积网络201a、一维卷积网络201b和全连接网络201e用于对输入任务调度网络201的出库任务参数提取特征，以便于后续计算对各委托单的策略梯度进行计算。
47.一维卷积网络201c、gru网络201d和丢弃网络201f用于根据任务调度网络201上一次确定出的委托单，删除任务调度网络201的部分网络，例如删除上一步确定出的委托单在一维卷积网络201a、一维卷积网络201b和全连接网络201e中对应的权重网络，以提高计算性能。
48.注意力机制网络201g、归一化网络201h、注意力机制网络201i可以基于全连接网络201e输出的各委托单的特征，计算得到各委托单的策略梯度，用于决定下一个出库的委托单。其中，委托单的策略梯度表明选择该委托单作为下一个出库的委托单的概率。
49.任务选择网络201j可以根据注意力机制网络201i输出的各委托单的策略梯度，选取策略梯度最大的委托单作为下一个出库的委托单。在一些实施例中，任务选择网络201j还可以根据各委托单的策略梯度，基于贪心算法选择下一个出库的委托单，例如基于ε
‑
贪
婪算法算法从委托单中选取下一个出库的委托单。
50.可以理解，图3所示的任务调度网络201的结构只是一种示例，在另一些实施例中，任务调度网络201可以包括更多或更少的网络，也合并或拆分部分网络，还可以替换部分网络，本技术实施例不做限定。
51.进一步，图4根据本技术的一些实施例，示出了一种行车调度方法的流程示意图。该流程由电子设备100执行，如图4所示，该流程包括如下步骤。
52.s401：获取出库任务参数。电子设备100获取出库任务参数，以便于电子设备100根据出库任务参数，基于行车调度模型200确定出库方案。
53.可以理解，出库任务参数包括但不限于的各委托单的起点位置、各委托单的目标位置、仓库00中各行车的标识，各行车的初始位置、各行车在仓库00中能够到达的区域等。
54.可以理解，在一些实施例中，出库任务参数可以由用户通过电子设备100录入，也可以由运行于电子设备100上的物流管理软件生成，在此不做限定。
55.s402：基于行车调度模型200和出库任务参数确定多个模拟调度方案，并从模拟调度方案中确定最优的一个作为出库方案。电子设备100将步骤s402获取的出库任务参数传输给行车调度模型200，行车调度模型200基于使行车的等待时间最短的原则根据出库任务参数进行预设次数的模拟调度，例如进行100次模拟调度，生成100种模拟调度方案，并从该100种模拟调度方案中选择最优的一种作为出库方案。具体地模拟调度过程将在下文进行详细描述，在此不做赘述。
56.可以理解，在一些实施例中，出库方案具体可以包括各委托单的出库顺序、各委托单对应的货物从仓储区01运送到装货区02的行车的标识(即执行各委托单的行车)、各委托单的出库时间、各委托单的起点位置、各委托单的目标位置等。
57.s403：根据出库方案调度行车执行出库任务。电子设备100在获取到出库方案后即可调度行车按出库方案中的各委托单的出库顺序执行各委托单。例如，在图1所示的场景中，电子设备100可以根据出库方案中各委托单的出库顺序向行车10和/或行车20发送指令，以控制行车10和/或行车20按照出库方案中各委托单的出库顺序将各委托单对应的货物从仓储区01运送到装货区02的车辆中。
58.s404：判断出库任务是否有更新。电子设备100在根据出库方案调度行车执行出库任务的过程中，可以周期性地执行步骤s404判断出库任务是否有更新，例如周期性地判断委托单是否有增加、取消，并在确定出库任务有更新的情况下，转至步骤s401，对更新后的出库任务进行调度，若出库任务没有更新，则转至步骤s403继续调度行车执行出库任务。
59.可以理解，上述步骤s401至步骤s404的执行顺序只是一种示例，在另一些实施例中，也可以合并或拆分部分步骤，还可以改变至少部分步骤的执行顺序，在此不做限定。
60.通过本技术实施例提供的行车调度方法，可以减小行车在运送货物出库过程中的等待时间，提高使用行车运送货物出库的效率。并且，在出库任务发生变化时，还可以重新确定各委托单的出库顺序和运送各委托单的货物的行车，进一步提高使用行车运送货物出库的效率，从而降低钢铁成品仓储作业成本、提升仓储整体作业效率。
61.下面对上述步骤s402基于出库行车调度模型200和出库任务参数确定多个模拟调度方案，并从模拟调度方案中确定最优的一个作为出库方案的具体过程进行详细描述。
62.图5根据本技术的一些实施例，示出了行车调度模型200确定调度方案的过程示意
图。如图5所示，该过程包括如下步骤。
63.s501：任务调度网络201根据出库任务参数初始化调度参数。即是任务调度网络201根据出库任务参数，例如出库的委托单的数量、各委托单对应的货物在仓储区01的位置、各委托单对应货物的装货区02的装货位置、仓库00中各行车的初始位置、仓库00中各行车在仓库00中能够到达的区域转换为任务调度网络201可以识别的数据形式。
64.例如，在一些实施例中，任务调度网络201可以将出库任务参数初始化为一个状态向量s＝{s1，s2}，其中s1代表委托单信息，s2代表行车信息。
65.具体地，在一些实施例中，s1＝{ls，le，to，ts}。其中ls和le为空间维度的属性，ls表示委托单对应的货物在仓储区01的位置，le表示委托单对应的货物在装货区02的位置；to和ts为时间维度的属性，to表示将委托单从仓储区01运送到装货区02所需的时间，ts表示委托单能够执行的最早时间，例如该委托单对应的运输车辆能到达装货区02的最早时间。
66.可以理解，在一些实施例中，to可以根据如下公式(1)计算得到：
[0067][0068]
其中，参见图1，t
start
表示行车抓取到货物的时间，例如，t
start
可以为行车10将起升机构13下降到仓储区01中各货物的位置，抓取货物并上升到预设高度所需的时间；t
end
表示行车将货物放置在装货区用于运送该货物的车辆上的时间，例如，t
end
可以为行车10将起升机构13下降运送货物的车辆上的时间；x1表示货物在仓储区01的x向坐标，y1表示货物在仓储区01的y向坐标，x2表示货物在装货区02的y向坐标，y2表示货物在装货区02的y向坐标；v表示行车在x向和y向的移动速度；max(x2‑
x1,y2‑
y1)表示货物在仓储区01和装货区02的x坐标差值和y坐标差值中较大的一个。
[0069]
可以理解，公式1中以v行车在x向和y向的移动速度是为了便于计算，在另一些实施例中，行车在在x和y向的速度也可以不同，在此不做限定。
[0070]
在一些实施例中，s2＝{ls1，le1，ts，te，tn}。其中ls1和le1为空间维度的属性，ls1表示仓库中的行车当前正在执行的委托单对应的货物在仓储区01的位置，le1表示行车当前正在执行的委托单对应的货物在装货区02的位置。ts，te，tn为时间维度的属性，ts表示行车当前执行任务的开始时间，te表示行车当前执行任务的结束时间，tn表示当前时间，ts，te，tn用于实时判断行车能够执行的任务。
[0071]
可以理解，上述将出库任务参数初始化为以状态向量s表示的调度参数只是一种示例，在另一些实施例中，也可以将出库任务参数初始化为其他形式的调度参数。
[0072]
在一些实施例中，调度参数还包括各行车在仓库中能够到达的位置，例如，参考图1，行车10能够到达的区域为y坐标为0至2的区域，行车20能够到达的区域为仓库中的全部区域。
[0073]
s502：任务调度网络201获取任务调度网络201的网络参数，在该网络参数下根据调度参数确定下一个出库的委托单，生成该委托单的回报值并更新调度参数。
[0074]
任务调度网络201获取任务调度网络201的网络参数，用于确定下一个出库的委托单。可以理解，在一些实施例中，任务调度网络201获取的任务调度网络201网络参数可以为上一次进行模拟调度过程中，行车调度模型200更新的网络参数；在另一些实施例中，任务
调度网络201获取的任务调度网络201网络参数也可以为预先对行车调度模型200进行训练生成的网络参数；还可以是任务调度网络201随机生成的网络参数，在此不做限定。
[0075]
任务调度网络201获取任务调度网络201的网络参数后，即可以根据行车10和行车20当前执行的委托单的结束时间，例如前文的te，确定下一个调度的行车，例如以先结束当前执行的委托单的行车为下一个调度的行车(即te靠前的一个行车)。任务调度网络201在确定出下一个调度的行车后，即可以根据该行车在仓库00中能够到达的区域以及各委托单对应的货物在仓储区01的位置确定当前行车能够执行的委托单，计算当前行车能够执行的各委托单的策略梯度，并以策略梯度最大的委托单作为下一个出库的委托单。
[0076]
任务调度网络201在确定出下一个出库的委托单后，计算出选择该委托单的回报值，例如，可以以选择该任务后，执行该委托单时对应的行车需要等待的时间的负值为该委托单的回报值，用于调整任务调度网络201的参数。
[0077]
可以理解，任务调度网络201在确定出下一个出库的委托单后，即更新调度参数，例如从调度参数中删除确定出的委托单的信息，以避免下一次选择时再次选择到已经确定过出库顺序的委托单。例如，当前的调度参数为状态向量s1，其中包含k个委托单的信息，在确定出下一个出库的委托单m后，则更新调度参数为包括k
‑
1个委托单的状态向量s2，即删出s1中委托m对应的信息、并更新s2中对应的行车信息。任务调度网络201在更新完调度参数后，即将更新前后的调度参数，例如状态向量s1和状态向量s2，传送给调度评价网络202。
[0078]
可以理解，前述以策略梯度最大的委托单作为下一个出库的委托单只是一种示例，在另一些实施例中，还可以在计算出当前行车能够执行的各委托单的策略梯度后，基于ε
‑
贪婪算法确定下一个出库的委托单，本技术实施例不做限定。
[0079]
s503：调度评价网络202获取调度评价网络202的网络参数，并在该网络参数下，以更新前后的调度参数为输入生成该委托单的评价结果。
[0080]
例如，如前所述，更新前的调度参数为状态向量s1，更新后的调度参数为状态向量s2，则调度评价网络202分别以s1和s2为输出，生成两个状态向量对应的预测值，并以s2的预测值减去s1的预测值得到的差值作为该委托单的评价结果。
[0081]
可以理解，如前所述，调度评价网络202在训练过程中是以输入的调度参数的理想等待时间值为训练目标，因此上述评价结果表征选择一个委托单时，执行该委托单的行车等待的时间。
[0082]
s504：任务调度网络201判断是否完成所有委托单的模拟调度。也即是说，任务调度网络201判断是否已经确定好所有委托单的出库顺序和执行委托单的行车，若已经确定出所有委托单的出库顺序和执行委托单的行车，则转至步骤s505生成一个模拟调度方案；否则转至步骤s502确定下一个出库的委托单。
[0083]
s505：任务调度网络201生成模拟调度方案。也即是说，任务调度网络201在完成一次完整的模拟调度(即是确定出所有委托单的出库顺序和运送各委托单对应的货物的行车)后，即可生成一个模拟调度方案。
[0084]
s506：行车调度模型200基于各委托单的评价结果和回报值更新任务调度网络201的网络参数和调度评价网络202的网络参数。
[0085]
如前所述，各委托单的评价结果和回报值都可以表明通过模拟调度方案对委托单进行出库时各行车的等待时间。因此，在一些实施例中，可以基于评价结果和各委托单的回
报值来更新任务调度网络201的网络参数和调度评价网络202的网络参数。
[0086]
具体地，在一些实施例中，任务调度网络201的损失函数1可以通过公式(2)计算：
[0087][0088]
其中n为委托单的数量。
[0089]
调度评价网络202的损失函数2可以通过公式(3)计算：
[0090][0091]
其中n为委托单的数量。
[0092]
行车调度模型200可以基于损失函数1和损失函数2，通过梯度下降法、梯度上升法等对任务调度网络201的网络参数和调度评价网络202的网络参数进行更新。从而可以在模拟调度过程中不断优化任务调度网络201的网络参数和调度评价网络202的网络参数，以便于下一次调度能获得回报值更高的调度方案。
[0093]
s507：行车调度模型200判断是否已经达到预设的模拟调度次数。行车调度模型200判断是否已经达到预设的模拟调度次数，若已经达到，则表明不需要继续进行模拟调度，转至步骤s508；否则，表明还需要继续进行模拟调度，转至步骤s501，使用更新后的网络参数进行下一次模拟调度。
[0094]
s508：行车调度模型200从生成的模拟调度方案中选取最优的一个作为出库方案。也即是说，行车调度模型200在完成预设模拟调度次数的模拟调度后，即从生成的方案中选择最优的一个作为出库方案。例如，行车调度模型200可以选择各模拟调度方案中，累计回报值最大的一个(也即是各行车的等待时间最短的一个)作为出库方案。
[0095]
可以理解，前述步骤s501至步骤s508的执行顺序只是一种示例，在另一些实施例中也只以采用其他顺序，例如步骤s503可以在步骤s505之后执行，在此不做限定。
[0096]
通过本技术实施例提供的方法，可以确定出使行车等待时间最短的出库方案，以便电子设备100可以根据出库方案控制行车运行货物出库，减小了使用行车运送货物出库时各行车的等待时间，提高了出库的效率，从而降低钢铁成品仓储作业成本、提升仓储整体作业效率。
[0097]
图6根据本技术的一些实施例，示出了一种电子设备100的结构示意图。如图6所示，电子设备100包括一个或多个处理器101、系统内存102、非易失性存储器(non
‑
volatile memory，nvm)103、通信接口104、输入/输出(i/o)设备105、以及用于耦接处理器101、系统内存102、非易失性存储器103、通信接口104和输入/输出(i/o)设备105的系统控制逻辑106。其中：
[0098]
处理器101可以包括一个或多个单核或多核处理器。在一些实施例中，处理器101可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。在一些实施例中，处理器101可以用于运行行车调度模型200对应的指令，以根据出库任务参数确定出库方案。
[0099]
系统内存102是易失性存储器，例如随机存取存储器(random
‑
access memory，ram)，双倍数据率同步动态随机存取存储器(double data rate synchronous dynamic random access memory，ddr sdram)等。系统内存用于临时存储数据和/或指令，例如，在一
些实施例中，系统内存102可以用于存储行车调度模型200对应的指令、出库方案等。
[0100]
非易失性存储器103可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，非易失性存储器103可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如硬盘驱动器(hard disk drive，hdd)、光盘(compact disc，cd)、数字通用光盘(digital versatile disc，dvd)、固态硬盘(solid
‑
state drive，ssd)等。在一些实施例中，非易失性存储器103也可以是可移动存储介质，例如安全数字(secure digital，sd)存储卡等。在另一些实施例中，非易失性存储器103可以用于存储行车调度模型200对应的指令、出库方案等。
[0101]
特别地，系统内存102和非易失性存储器103可以分别包括：指令107的临时副本和永久副本。指令107可以包括：由处理器101中的至少一个执行时使电子设备100实现本技术各实施例提供的行车调度方法。
[0102]
通信接口104可以包括收发器，用于为电子设备100提供有线或无线通信接口，进而通过一个或多个网络与任意其他合适的设备进行通信。在一些实施例中，通信接口104可以集成于电子设备100的其他组件，例如通信接口104可以集成于处理器101中。在一些实施例中，电子设备100可以通过通信接口104和其他设备通信，例如通过通信接口104获取行车10和行车20在仓库00中的位置、通过通信接口104控制行车10和行车20将货物从仓储区01运送至装货区02等。
[0103]
输入/输出(i/o)设备105可以输入设备如键盘、鼠标等，输出设备如显示器等，用户可以通过输入/输出(i/o)设备105与电子设备100进行交互，例如输入委托单的信息、显示委托单的状态等。
[0104]
系统控制逻辑106可以包括任意合适的接口控制器，以电子设备100的其他模块提供任意合适的接口。例如在一些实施例中，系统控制逻辑106可以包括一个或多个存储器控制器，以提供连接到系统内存102和非易失性存储器103的接口。
[0105]
在一些实施例中，处理器101中的至少一个可以与用于系统控制逻辑106的一个或多个控制器的逻辑封装在一起，以形成系统封装(system in package，sip)。在另一些实施例中，处理器101中的至少一个还可以与用于系统控制逻辑106的一个或多个控制器的逻辑集成在同一芯片上，以形成片上系统(system
‑
on
‑
chip，soc)。
[0106]
可以理解，电子设备100可以是能够实现本技术各实施例提供的行车调度方法的任意电子设备，包括但不限于计算机、服务器、平板电脑、手持计算机等，本技术实施例不做限定。
[0107]
可以理解，图6所示的电子设备100的结构只是一种示例，在另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。
[0108]
可以理解，在一些实施例中，为了提高电子设备100进行行车调度的速度，电子设备100的处理器101可以为第八代酷睿
tm i7处理器或运算能力相当/更高的处理器，电子设备100的系统内存102的空间大小可以大于16gb。
[0109]
本技术公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本技术的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至
少一个输入设备以及至少一个输出设备。
[0110]
可将程序代码应用于输入指令，以执行本技术描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本技术的目的，处理系统包括具有诸如例如数字信号处理器(dsp)、微控制器、专用集成电路(asic)或微处理器之类的处理器的任何系统。
[0111]
程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本技术中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。
[0112]
在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(cd
‑
roms)、磁光盘、只读存储器(rom)、随机存取存储器(ram)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
[0113]
在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。
[0114]
需要说明的是，本技术各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本技术所提出的技术问题的关键。此外，为了突出本技术的创新部分，本技术上述各设备实施例并没有将与解决本技术所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。
[0115]
需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0116]
虽然通过参照本技术的某些优选实施例，已经对本技术进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本技术
的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭剑;蔡序庆;陈媛媛;李勤英
技术所有人：上海欧冶物流股份有限公司
我是此专利的发明人

上一篇：一种可分离式多点采集小天体采样装置的制作方法
上一篇：数据压缩方法、装置、电子设备及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。