一种基于DQN的不确定零部件回收状态的实时规划方法

文档序号:36015009发布日期:2023-11-17 10:37阅读:29来源:国知局
一种基于DQN的不确定零部件回收状态的实时规划方法

本发明涉及拆卸线优化,具体是一种基于dqn的不确定零部件回收状态的实时规划方法。


背景技术:

1、随着制造水平的提高和生活节奏的加快,大量的报废产品被生产出来。因此,大量的再生资源需要回收。拆卸线平衡问题(dlbp)是资源回收的关键研究之一。dlbp的优化有助于提高采收率。

2、为了优化dlbp,已经开发了几种方法来求解dlbp。然而,这些方法在求解dlbps时仍然存在缺陷。混合整数规划(mip)方法不能获得大规模的解,尽管mip方法可以实现优化。相反,智能算法不能保证解决方案的最优性。与mip方法相比,智能算法对于大规模eol产品案例具有更快的解决速度。然而,上述两种解决方案也需要花费较长的运行时间来获得解决方案。换句话说,这些方法都不能迅速提供拆卸解决方案。

3、另外,废弃产品由于是使用之后回收聚集的,废弃产品在使用和回收过程中会由于一些原因从而造成一些零部件的缺失,进一步导致优化过程中的零部件数量和优先关系发生变化,并且在回收过程中会随着产线上产品的不断输出,每个产品的回收状态均不同。但是现有技术只能针对相同回收状态的废弃产品,无法规划不确定回收状态的废弃产品的回收,且不能实时规划输出。

4、深度强化学习(drl)是机器学习的一个分支,结合了强化学习和深度学习的优点。深度强化学习虽然花很长时间训练一个问题的模型,但在模型训练完成后,它可以迅速输出批量案例的良好解决方案。深度q网络(dqn)是由deepmind提出的一种具有出色决策性能的深度强化学习算法。


技术实现思路

1、鉴于此,本发明的主要目的在于提供了一种基于dqn的不确定零部件回收状态的实时规划方法,以有效解决实际回收过程中的废弃产品回收状态不确定等规划问题。

2、本发明的技术方案是,一种基于dqn的不确定零部件回收状态的实时规划方法,包括以下步骤:

3、步骤s1:以最小化空闲时间均衡指标为目标,建立数学模型,在所述数学模型的基础上,收集拆卸线数据并提出目标函数的约束条件,形成拆卸平衡设计模型。

4、步骤s2:采用dqn深度强化学习算法求解数学模型。

5、本发明的技术效果是:

6、(1)现有技术只能规划确定零部件数量的废弃产品的回收,本技术可实现不确定零部件数量回收状态的废弃产品的回收规划;

7、(2)现有技术对废弃产品的规划时间较长,对于废弃产品的规划可实现实时规划,可在秒级内完成规划;

8、(3)现有技术针对不同废弃产品和不同零部件数量的案例,均需要分别进行长时间运算,本技术训练完成的模型可直接应用于不同废弃产品和不同零部件数量的案例。



技术特征:

1.一种基于dqn的不确定零部件回收状态的实时规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于dqn的不确定零部件回收状态的实时规划方法,其特征在于:所述步骤2中的初始化设置状态操作包括以下步骤:

3.根据权利要求1所述的一种基于dqn的不确定零部件回收状态的实时规划方法,其特征在于:所述步骤3中的掩码操作为:

4.根据权利要求1所述的一种基于dqn的不确定零部件回收状态的实时规划方法,其特征在于:所述步骤4中更新奖励函数的方法为:

5.根据权利要求1所述的一种基于dqn的不确定零部件回收状态的实时规划方法,其特征在于:所述步骤4中更新状态为下一状态的具体操作包括以下步骤:


技术总结
一种基于DQN的不确定零部件回收状态的实时规划方法,涉及拆卸线优化技术领域,主要包括以下步骤:以最小化空闲时间均衡指标为目标,建立数学模型,采用DQN深度强化学习算法求解数学模型;本发明可实现不确定零部件数量回收状态的废弃产品的回收规划,对于废弃产品的规划可实现实时规划,可在秒级内完成规划,且本发明训练完成的模型可直接应用于不同废弃产品和不同零部件数量的案例。

技术研发人员:梁巍,张则强,刘思璐,胡淇译,李艳,陈海烨
受保护的技术使用者:西南交通大学
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1