基于历史信息嵌入的取送货路径规划方法及系统

文档序号:37679705发布日期:2024-04-18 20:52阅读:12来源:国知局
基于历史信息嵌入的取送货路径规划方法及系统

本发明涉及路径规划,具体是一种基于历史信息嵌入的取送货路径规划方法及系统。


背景技术:

1、取送货旅行商问题(pickup and delivery traveling salesman problem,pdtsp)是车辆路径问题(vehicle routing problem,vrp)的一种变体。pdtsp将vrp中的节点分配为配送点和取货点,每一个配送点对应一个取货点且不共享,另外添加了单车辆,节点不重复访问,方案是一个循环路径和取货优先于送货等约束。这种组合优化问题涉及如何有效的规划车辆访问所有的节点,完成所有配送订单,并在满足约束条件的情况下最小化总行驶距离或成本。相关的实例如同城快递配送和共享单车/汽车服务。现有的针对pdtsp的方法大多数是使用精确算法和启发式算法,但由于pdtsp的np-hard性质,这些算法在较短的运算时间内很难获得最优解。

2、近年来,基于任何组合优化问题都可以等价转化为一个序列决策问题这一理论,研究者们尝试利用解决序列决策问题的深度强化学习(deep reinforcement learning,drl)来研究组合优化问题,发现其效果在提高效率的同时也获得了高质量的解。深度强化学习基于马尔科夫决策过程(markov decision process,mdp)进行设计,与普通的机器学习相比,深度强化学习是通过与环境交互获得奖励或惩罚,不断地学习知识,优化自身动作策略,以获得长期收益(累计奖励)最大化,更加适应环境。mdp包含四个重要的元素:状态、动作、奖励和转移概率。状态代表智能体所能感知的世界的状态,动作是智能体与环境交互的方式,奖励是智能体采取动作后获得的奖励或惩罚,转移概率为当前状态转移到另一种状态的可能性。智能体与环境交互的过程可以看做是多个时刻、每一时刻智能体根据环境的状态,依据一定的策略选择一个动作,然后环境依据一定的状态转移概率转移到下一个状态,与此同时根据此时状态的好坏反馈给智能体一个奖励。智能体可以根据环境的反馈调整其策略,然后继续在环境中探索,最终学习到一个能够获得最多奖励的最优策略。

3、针对drl解决这一类问题的相关研究,最近也提出了一些算法。比如针对电动汽车的流行,部分学者提出一种新的框架来解决电动汽车车队调度问题和利用电动汽车进行取货和送货的服务;一部分人提出一种独特的神经网络整合了为取货和送货问题定制的异质注意力机制;一部分人提出一个双阶段框架,将图分配和基于注意力的drl结合,最小化卡车,拖车和客户之间的距离;一部分人提出一种有效的神经领域搜索pdstp,制作一个综合多种特征的注意力模型,通过编码器—解码器架构的增强,可以自主学习节点对操作,并采用强化学习算法进行训练,训练结果甚至在更多约束的情况下超过了著名的lkh3求解器。尽管drl解决组合优化问题取得了一些成果,但大多数基于drl为基础的解决方案只能处理典型的vrp问题,处理pdtsp中配对和优先级关系不太有效。同时现有技术大多数是提高解的多样性和解空间大小,但是这类方法大大增加了运算时间,且不能保证搜索到的解的质量。


技术实现思路

1、针对上述现有技术中的不足,本发明供一种基于历史信息嵌入的取送货路径规划方法及系统,能够有效地在减少运算时间的同时,获得高质量的取送货路径规划结果。

2、为实现上述目的,本发明提供一种基于历史信息嵌入的取送货路径规划方法,基于训练完成的深度强化学习模型进行取送货路径规划,其包括如下步骤:

3、步骤1,将起点、取货节点与送货节点的坐标作为节点特征,并随机生成个取送货路径规划的规划结果存入精英档案,其中,所述取货节点与所述送货节点一一对应;

4、步骤2,将当前所述精英档案中最优的规划结果作为当前规划结果,并将所述起点、所述取货节点与所述送货节点在所述当前规划结果中的索引作为节点位置特征;

5、步骤3,对所述节点特征进行线性投影得到节点特征嵌入,对所述节点位置特征进行循环位置编码得到节点位置嵌入,并将所述节点特征嵌入与所述节点位置嵌入进行整合得到增强节点嵌入;

6、步骤4,将所述增强节点嵌入与所述精英档案中的所有规划结果结合生成历史节点嵌入,并对所述历史节点嵌入进行增强处理,得到精炼节点嵌入;

7、步骤5,基于所述精炼节点嵌入,在当前规划结果的基础上进行节点对的移除与重新插入,得到第一新规划结果,其中,所述节点对包括一组对应的取货节点与送货节点;

8、步骤6,在所述第一新规划结果的基础上进行节点的移除与重新插入,得到个第二新规划结果;

9、步骤7,筛选出所述第一新规划结果、所有所述第二新规划结果与所述精英档案中的所有规划结果中最优的个,并更新所述精英档案;

10、步骤6,判断是否满足迭代终止条件:

11、若是,将当前所述精英档案中最优的规划结果作为最优取送货路径规划结果,并输出;

12、否则,返回步骤2。

13、为实现上述目的,本发明还提供一种基于历史信息嵌入的取送货路径规划系统,所述取送货路径规划系统包括:

14、初始解生成单元,用于随机生成个取送货路径规划的规划结果存入精英档案;

15、特征转换单元,用于将起点、取货节点与送货节点的坐标作为节点特征,以及将起点、取货节点与送货节点在当前规划结果中的索引作为节点位置特征,其中,取货节点与送货节点一一对应;

16、编码器,用于对节点特征进行线性投影得到节点特征嵌入,对节点位置特征进行循环位置编码得到节点位置嵌入,并将节点特征嵌入与节点位置嵌入进行整合得到增强节点嵌入;

17、精炼器,用于将增强节点嵌入与精英档案中的解决方案结合生成历史节点嵌入,并对历史节点嵌入进行增强处理,得到精炼节点嵌入;

18、解码器,用于基于精炼节点嵌入,在当前取送货路径规划结果的基础上进行节点对的移除与重新插入,得到第一新规划结果,其中,节点对包括一组对应的取货节点与送货节点;

19、精英档案更新单元,用于在第一新规划结果的基础上进行节点的移除与重新插入,得到个第二新规划结果,并筛选出第一规划结果、所有第二新规划结果与精英档案中的所有规划结果中最优的个,更新精英档案;

20、结果输出单元,用于判断是否满足迭代终止条件,并在满足迭代终止条件时将当前精英档案中最优的规划结果作为最优取送货路径规划结果并输出,以及在不满足迭代终止条件时继续迭代。

21、与现有技术相比,本发明具有如下有益技术效果:

22、1.本发明分别基于节点的坐标以及在取送货路径规划结果中的索引生成节点特征嵌入与节点位置嵌入,并联合节点特征嵌入与节点位置嵌入得到增强节点嵌入,并从精英档案中的规划结果中提取动态图拓扑信息,结合增强节点嵌入得到精炼节点嵌入,最后再通过精炼节点嵌入完成取送货路径规划结果中节点对的移除与重新插入,实现取送货路径规划结果的迭代更新;

23、2.本发明在利用网络模型对规划结果进行更新后,再以成本和出现次数为依据,对更新后的规划结果进行样本扩充,进而给予网络模型更多的建议,这样网络模型在后续的迭代中会发现部分节点在某个位置出现次数多,同时方案成本更低,从而可以在更新的时候优先将这部分节点确认在这些位置,再去考虑别的节点对位置,加快计算过程的收敛。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1