一种融合组合优化与强化学习加速收敛的物流分拣方法

文档序号：37070250发布日期：2024-02-20 21:23阅读：12来源：国知局

本发明涉及物流分拣领域，特别是涉及一种融合组合优化与强化学习加速收敛的物流分拣方法。

背景技术：

1、在物流中转场的货物分拣中，分拣格口作为物流分拣机的分拣落袋的最小单位，货物包牌作为中转场制定的货物流向与时效信息的货物聚类，两者的映射关系极大影响着整个物流分拣的效率。现有的物流分拣计划的优化更新通常基于每个班次之间进行迭代，通过对当前班次每个包牌所含货物的件量比例以及物流分拣机的格口处理效率的分析，进行每个包裹对应物流分拣机的格口落袋位置调整。这样的优化更新有很多缺陷：第一，当前的优化更新算法一般基于物流中转场人工分拣经验规则，只能寻找当前环境的局部最优分拣计划，无法寻找全局最优计划。第二，现有的优化更新算法只能根据当前班次的包牌所含货物件量比例来进行班次之间的调整，并未做到对历史货物的件量比例进行分析，使优化更新后的分拣计划普适性较差，难以适应多个分拣班次条件。第三，当前每个班次的分拣计划的优化更新时效要求较高，每个班次间隔时间为40分钟，在面临多个场地限制条件、多个分拣优化目标的极大搜索空间场景下，难以在40分钟内的时效要求下使用强化学习算法来寻找最优分拣计划。

技术实现思路

1、本发明的目的在于克服现有技术的不足，提供一种融合组合优化与强化学习加速收敛的物流分拣方法，分步使用组合优化以及结合排队论模型的蒙特卡洛树搜索算法，降低分拣计划优化更新的复杂度，加快蒙特卡洛树搜索的搜索速度，实现满足较高时效要求的多目标分拣优化策略。

2、本发明的目的是通过以下技术方案来实现的：一种融合组合优化与强化学习加速收敛的物流分拣方法，包括以下步骤：

3、s1.统计物流分拣系统历史班次的包牌类别所含货物件量比例数据，预测未来班次的每一个包牌类别的货物件量比例数据；

4、s2.基于预测的包牌所含货物件量比例数据，固定分拣格口分拣效率，通过目标组合优化，获得包牌所占格口数量最优分配；

5、s3.采集物流分拣系统中分拣机的分拣格口的历史分拣数据，拟合格口处理效率函数；

6、s4.整合包牌预测件量比例信息，获取包牌类别相似度矩阵和转移概率矩阵；

7、s5.基于包牌类别的相似度和转移概率矩阵设计强化学习策略以及价值网络，构造蒙特卡洛树的叶节点；

8、s6.通过对蒙特卡洛树的叶节点进行展开，获取最优的格口分拣策略。

9、本发明的有益效果是：本发明基于历史包牌所含货物的件量比例数据，通过lstm神经网络准确预测未来班次的货物件量比例信息，作为物流中转场分拣计划优化更新的输入。该方法不再需要对每个班次的历史货物件量信息进行分析，提高优化更新的效率以及分拣计划的普适性，可适用于多个分拣班次。针对当前较高的分拣计划优化更新时效要求，将不同场地的特殊格口分布约束以及多分拣优化的目标场景的极大搜索空间问题，分步使用组合优化以及结合排队论模型的蒙特卡洛树搜索算法，降低分拣计划优化更新的复杂度，加快蒙特卡洛树搜索的搜索速度，实现满足较高时效要求的多目标分拣优化策略。

技术特征：

1.一种融合组合优化与强化学习加速收敛的物流分拣方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种融合组合优化与强化学习加速收敛的物流分拣方法，其特征在于：步骤s1中所述历史班次的包牌类别所含货物件量比例数据是指：历史班次中每个包牌类别包含的货物件量站该班次中总货物件量的比例。

3.根据权利要求2所述的一种融合组合优化与强化学习加速收敛的物流分拣方法，其特征在于：所述步骤s1包括：

4.根据权利要求1所述的一种融合组合优化与强化学习加速收敛的物流分拣方法，其特征在于：所述步骤s2包括：

5.根据权利要求1所述的一种融合组合优化与强化学习加速收敛的物流分拣方法，其特征在于：所述步骤s3包括：

6.根据权利要求1所述的一种融合组合优化与强化学习加速收敛的物流分拣方法，其特征在于：所述步骤s4包括：

7.根据权利要求1所述的一种融合组合优化与强化学习加速收敛的物流分拣方法，其特征在于：所述步骤s5包括：

8.根据权利要求1所述的一种融合组合优化与强化学习加速收敛的物流分拣方法，其特征在于：所述步骤s6中按照选择、拓展、评估、回溯的流程对蒙特卡洛树的节点进行展开，其中根节点为初始固定的节点，叶节点为从根节点开始展开得到的蒙特卡洛树中的子节点，具体展开流程：

9.根据权利要求8所述的一种融合组合优化与强化学习加速收敛的物流分拣方法，其特征在于：所述蒙特卡洛树展开过程中，评估过程占据着四个过程中90％以上的计算时间，考虑到算法要求的极高时效要求，通过多线程探索子节点以及多进程加速评估过程结合的方式，并行实现蒙特卡洛树搜索的过程：在多线程探索子节点的过程中，利用根节点并行方式：同时使用n个线程同时探索n个子节点，通过完全展开n个子节点的分支，更新每个线程探索的子节点评估值到根节点中；在每个线程进行展开n个子节点的分支过程中，利用多进程加速方式，加速蒙特卡洛树评估过程：利用每个线程中的主线负责进行选择、拓展以及回溯流程，多进程负责加速评估过程，实现对每个分支的展开进行加速。

技术总结
本发明公开了一种融合组合优化与强化学习加速收敛的物流分拣方法,包括以下步骤：S1.统计历史班次的包牌所含货物件量比例数据，预测未来班次的货物件量比例数据；S2.通过目标组合优化，获得包牌所占格口数量最优分配；S3.基于分拣机的分拣格口的历史分拣数据，拟合格口处理效率函数；S4.获取包牌类别相似度矩阵和转移概率矩阵；S5.基于包牌类别的相似度和转移概率矩阵设计强化学习策略以及价值网络，构造蒙特卡洛树的叶节点；S6.通过对蒙特卡洛树的叶节点进行展开，获取最优的格口分拣策略。本发明降低分拣计划优化更新的复杂度，加快蒙特卡洛树搜索的搜索速度，实现满足较高时效要求的多目标分拣优化策略。

技术研发人员：黄川,崔曙光,张崴,李然
受保护的技术使用者：香港中文大学（深圳）未来智联网络研究院
技术研发日：
技术公布日：2024/2/19

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄川,崔曙光,张崴,李然
技术所有人：香港中文大学（深圳）未来智联网络研究院
我是此专利的发明人

上一篇：一种便携式观片装置的制作方法
上一篇：一种减噪型空气压缩机气缸的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。