基于强化学习的工业散货物输送智能调度策略的生成方法与流程

文档序号:36832578发布日期:2024-01-26 16:47阅读:16来源:国知局
基于强化学习的工业散货物输送智能调度策略的生成方法与流程

本发明属于工业散装物料输送,具体涉及一种基于强化学习的工业散货物输送智能调度策略的生成方法。


背景技术:

1、工业散装物料输送系统是物流工程行业中的关键环节,通过输送带、装运车、传感器等设备的交互联动实现货物的仓储与装运,被广泛地应用在矿山、电厂、冶金、港口等场景。随着工业化进程的不断推进,我国对于煤炭、钢铁、水泥骨料、码头货物的需求急剧增加,极大地推动了散货物输送行业的蓬勃发展。

2、工业散货物输送系统是由一个或多个工业装备组成的生产工序,多个生产工序构成了全流程生产线。其控制、运行与管理主要是通过生产调度部门和工艺技术部门实现。然而,现行的输送系统往往局限于某一固定模式,无法根据用户需求个性化定制装运计划和作业流程,同时,在役的输送系统运转流程较为单一,无法根据实际工作场景动态调整各环节设备,当有新环节引入到输送流程时,难以直接与其它环节协同运转,极大地限制了输送系统的推广与应用。

3、基于上述问题,采用深度学习网络、计算机视觉技术、窄带物联网等技术相结合构造新型智能散装物料输送系统越来越受到人们的关注,但是在现有的工业散货物输送调度方法中,工业散货物输送系统往往局限于某一固定模式,无法根据用户需求个性化定制装运计划和作业流程,缺乏对环境的适应能力。现有的工业散货物输送系统智能调度方法,对系统各项数据的依赖程度较高,计算冗杂,缺乏一种依赖较少数据的最优调度策略。


技术实现思路

1、为了解决现有技术中存在的上述问题,本发明提供了一种基于强化学习的工业散货物输送智能调度策略的生成方法。本发明要解决的技术问题通过以下技术方案实现:

2、本发明提供了一种基于强化学习的工业散货物输送智能调度策略的生成方法,包括:

3、步骤1:利用构建的煤粉输送系统的系统模型,获取所述煤粉输送系统在当前时刻的系统状态;其中,所述系统状态包括:所述煤粉输送系统中煤仓和各筒仓的煤粉储量;

4、步骤2:将所述当前时刻的系统状态输入至预先得到的决策模型中,得到所述煤粉输送系统的调度策略;其中,所述调度策略包括:所述煤粉输送系统中各筒仓的传送带上的给煤量速度;

5、其中,所述决策模型是利用深度强化学习将所述煤粉输送系统的煤粉输送过程建模为一个具有序贯决策特征的马尔可夫决策得到的。

6、与现有技术相比,本发明的有益效果在于:

7、本发明的基于强化学习的工业散货物输送智能调度策略的生成方法,引入伯努利随机变量和高斯变量建模物料输送过程中的个体货车拉货和煤矿开采速度现象,构建起煤粉输送的系统模型。将动作空间无限的随机物料输送系统环境构建成一个具有序贯决策特征的马尔可夫决策过程模型,利用该决策模型制定煤粉输送系统的调度策略,在无需复杂数学模型的基础上优化煤粉输送系统的输送智能调度策略,实施简单,实用性强。

8、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。



技术特征:

1.一种基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,包括:

2.根据权利要求1所述的基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,所述煤粉输送系统的系统模型为:

3.根据权利要求1所述的基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,所述决策模型的获取过程包括:

4.根据权利要求3所述的基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,所述actor训练网络、所述critic训练网络、所述actor目标网络和所述critic目标网络均为单隐层的神经网络,所述actor训练网络和所述actor目标网络的输出层的激活函数为正切函数。

5.根据权利要求3所述的基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,所述s3包括:

6.根据权利要求5所述的基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,所述动作对应的奖励按照下式计算得到:

7.根据权利要求3所述的基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,在所述s6中,从所述经验回放区中抽取预设数量的经验,以对所述神经网络模型进行网络参数更新,包括:

8.根据权利要求7所述的基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,所述目标损失函数为:

9.根据权利要求8所述的基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,所述策略梯度表示为:

10.根据权利要求9所述的基于强化学习的工业散货物输送智能调度策略的生成方法,其特征在于,所述目标网络的网络参数的同步过程为:


技术总结
本发明涉及一种基于强化学习的工业散货物输送智能调度策略的生成方法,包括:步骤1:利用构建的煤粉输送系统的系统模型,获取煤粉输送系统在当前时刻的系统状态;其中,系统状态包括:煤粉输送系统中煤仓和各筒仓的煤粉储量;步骤2:将当前时刻的系统状态输入至预先得到的决策模型中,得到煤粉输送系统的调度策略;其中,调度策略包括:煤粉输送系统中各筒仓的传送带上的给煤量速度;其中,决策模型是利用深度强化学习将煤粉输送系统的煤粉输送过程建模为一个具有序贯决策特征的马尔可夫决策得到的。本发明的方法,在无需复杂数学模型的基础上优化煤粉输送系统的输送智能调度策略,实施简单,实用性强。

技术研发人员:严实,方鹏飞,杨清宇,叶青山,李东鹤
受保护的技术使用者:陕西物流集团产业研究院有限公司
技术研发日:
技术公布日:2024/1/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1