基于深度强化学习的二维矩形条带包装方法

文档序号:34369971发布日期:2023-06-05 01:02阅读:231来源:国知局
基于深度强化学习的二维矩形条带包装方法

本发明涉及二维矩形条带包装的,尤其是指一种基于深度强化学习的二维矩形条带包装方法。


背景技术:

1、当今,切割和包装问题广泛存在于许多工业和商业领域,如制造业、物流和运输等。这些问题通常涉及到将一组较小的对象切割或打包到较大的对象中,以最小化材料浪费和提高生产效率。其中二维条带包装问题是切割和打包问题中的重要分支之一,它是一个经典的组合优化问题。具体来说,二维矩形条带包装问题是将任意形状的矩形对象打包到一个末端开口的条带中,以最小化所达到的高度。它的目标是在不浪费太多材料的情况下,尽可能地压缩物品的空间。因此,2dspp的研究对于降低生产成本、提高效率和推动工业自动化具有重要意义。

2、然而,由于2dspp是一个np-hard问题,解空间非常大,时间复杂度随着问题规模的增加迅速上升。以线性规划和动态规划为代表的精确算法能够获得精确解,但是只能解决简单的小规模包装问题。相反,启发式算法能够在短时间内找到较优解,容易实现和理解,但是需要基于经验和先验知识设计复杂的启发式规则,例如sba、bfdh等算法。另一类算法是基于搜索的全局优化方法,这类算法通常借助启发式算法构造一个初始解,并试图以迭代的方式找到更好的解决方案,但是时间开销很大,例如grasp、ish等算法。最近,深度强化学习作为一种新兴的人工智能技术,被广泛应用于许多领域,包括物流和制造业。深度强化学习技术结合了深度学习和强化学习的优势,通过自主学习获取最优策略,具有更好的泛化能力。本文提出一种深度强化学习和启发式算法的混合算法,旨在利用深度强化学习的优势,学习一个更鲁棒更好的适应度函数,从而在合理时间内有效提升条带利用率并降低生成成本。


技术实现思路

1、本发明的目的在于克服现有技术的缺点与不足,提出了一种行之有效、科学合理可靠的基于深度强化学习的二维矩形条带包装方法。

2、为实现上述目的,本发明所提供的技术方案为:基于深度强化学习的二维矩形条带包装方法,该方法考虑二维情况下,将多个矩形对象逐一包装到一个末端开口的条带中,以最小化矩形对象所达到的高度,结合天际线算法将二维矩形条带包装过程建模为马尔可夫决策过程,再通过强化学习方法训练用于二维矩形条带包装的网络模型,最终得到一种最优的包装方案;

3、该方法的具体实施包括以下步骤:

4、1)通过随机分割矩形的方式生成训练集、验证集和测试集;

5、2)结合天际线算法将二维矩形条带包装过程建模为马尔可夫决策过程,并设计用于二维矩形条带包装的网络模型;

6、3)从步骤1)生成的训练集中选择一批数据,将其中的矩形逐一打包到对应的条带中,不断收集由状态、动作、奖惩、下一个状态构成的元组数据,将收集到的元组数据输入到步骤2)设计的网络模型,并基于td算法和policy gradient算法对网络模型进行训练,根据训练过程中网络模型的性能对奖惩函数权重、学习率和损失函数系数进行调整,从而提高网络模型训练的效率,最终迭代进行至验证集的总奖惩收敛到最大值,得到用于二维矩形条带包装的最优网络模型;

7、4)对步骤1)生成的测试集进行测试,通过步骤3)得到的最优网络模型将待打包的矩形逐一打包到条带中,输出最优的包装方案。

8、进一步,在步骤1)中,使用随机分割矩形的方式生成大规模数据集,在一个宽度为w、高度为h的大矩形上,交替进行水平方向随机分割和垂直方向随机分割,分割出n个小矩形,构造具有最优解的条带包装实例;真实世界的数据包含一些相同尺寸的矩形,因此在分割时会随机选择k个矩形,并将它们分别分割成随机个数的相同尺寸矩形,以便更贴近真实数据;训练集包括50000条上述包装实例,同时对实例中的每个矩形尺寸添加噪声;验证集和测试集分别包括1000条上述包装实例。

9、进一步,在步骤2)中,结合天际线算法将二维矩形条带包装过程建模为马尔可夫决策过程,其中智能体通过观察环境状态、选择动作和获得奖励来学习如何解决问题,具体包括以下步骤:

10、2.1)确定状态表示:二维矩形条带包装问题的观测包括已打包矩形和未打包矩形,对其分别进行预处理得到状态表示;已打包矩形的数量随着打包的进行成直线增长,但是对决策有用的信息只有已打包矩形的最外侧边缘信息,因此使用天际线的线段序列表示已打包矩形信息,每一条线段表示为一个向量sj=(sj_x1,sj_x2,sj_y,sj_striph),其中每一项分别表示线段左端点x坐标、线段左端点x坐标、线段y坐标、条带宽度;网络模型的输入必须是确定的维度,因此对未打包矩形设置最大可见数量,这种方式的优点是操作简单,速度快;每个未打包矩形表示为一个向量ri=(ri_w,ri_h,ri_l,ri_s,ri_d),其中每一项表示矩形的宽度、高度、周长、面积;

11、2.2)确定动作表示:二维矩形条带包装问题的动作空间包括选择矩形、选择旋转角度和选择打包位置;为了减小动作空间,矩形考虑不超过40个,旋转角度考虑0度和90度,打包位置考虑最低的天际线线段sl的左右端点处;采用组合动作空间,对剩余矩形进行编号,t时刻执行的动作记为at,at<40表示选择第at个矩形放置到sl的左端点;40≤at<80表示选择第at-40个矩形并且旋转90度,放置到sl的右端点;80≤at<120表示选择第at-80个矩形放置到sl的左端点;120≤at<160表示选择第at-120个矩形并且旋转90度,放置到sl的右端点;

12、2.3)确定奖惩函数:在步骤2.1)确定的状态下,采取步骤2.2)确定的动作,为了使得条带中包装的矩形对象所达到的高度最小,环境需要给出一个奖惩值,以便对每个状态动作对进行评估,帮助智能体学习如何选择动作,因此设计了如下的奖惩函数rt:

13、

14、其中,uupper为当前的总体利用率上限,如果uupper≤0.66则提前终止打包;swt为动作at产生的条带浪费面积;

15、2.4)确定智能体策略函数:为了在连续状态空间中进行决策,将智能体的策略函数设计为一个网络模型,将当前状态作为输入,输出动作概率分布,根据步骤2.3)确定的奖惩值计算损失并训练该网络模型,该网络模型分为特征提取、特征融合和决策评估三个部分;特征提取部分由三层全连接网络组成,每层的神经元数量分别为16、32和16,并且每一层后面都接了一个relu激活函数;特征融合部分由一层transformer编码器和一层256个神经元的全连接组成,并接了一个tanh激活函数;决策评估部分由一个大小为81的输出层组成。

16、进一步,所述步骤3)包括以下步骤:

17、3.1)从训练集中随机选择一批数据,将每一条数据中的矩形序列打乱顺序,并初始化未打包矩形序列和天际线线段序列,得到当前状态;

18、3.2)将状态输入智能体策略函数,输出动作,将动作对应的矩形放置到条带中最低天际线线段所在的位置,计算奖惩,更新未打包矩形序列和天际线线段序列,得到新的状态;

19、3.3)重复步骤3.2)直到将所有矩形打包到条带中,并收集由状态、动作、奖惩、下一个状态构成的元组数据;

20、3.4)将步骤3.3)收集到的元组数据输入到网络模型,计算损失并基于td算法和policy gradient算法对网络模型进行训练;

21、3.5)根据步骤3.4)训练过程中网络模型的性能对奖惩函数权重、学习率和损失函数系数进行调整,其中学习率和损失函数系数使用模拟退火机制,从而提高网络模型训练的效率;

22、3.6)使用步骤3.5)得到的奖惩函数权重、学习率和损失函数系数训练网络模型,最终迭代进行至验证集的总奖惩收敛到最大值,得到用于二维矩形条带包装的最优网络模型。

23、进一步,在步骤4)中,对步骤1)生成的测试集进行测试,对当前的天际线线段和未打包矩形进行处理得到状态,将状态输入最优网络模型,输出选择的动作,将对应的矩形打包到条带中,重复此操作直到所有矩形打包完成,最终输出最优的包装方案。

24、本发明与现有技术相比,具有如下优点与有益效果:

25、1、智能化:利用强化学习技术,能够获取多个不同的较优解。

26、2、高效性:利用强化学习技术,不需要人为设计复杂的启发式规则。

27、3、适应性:本发明方法可以应用于多种物品的包装和运输,同时还可以适应不同的环境和布局。

28、本发明方法的应用场景包括但不限于以下几个方面:

29、电子商务:在电子商务平台上,通过本发明方法,可以将订单中的多个物品自动化进行包装,从而提高物品运输的效率和准确度,并减少空间浪费和成本。

30、物流:在物流领域,本发明方法可以用于物品的自动化包装和布局,提高物流效率和准确度。

31、生产流程:在生产流程中,通过本发明方法,可以实现物品自动化布局,从而提高生产效率和质量。

32、仓库管理:在仓库管理中,通过本发明方法,可以自动将不同类型的物品进行布局和排列,减少空间浪费和提高物品存储效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1