生成用于工业系统的控制策略的方法及装置与流程

文档序号:35892984发布日期:2023-10-28 21:02阅读:39来源:国知局
生成用于工业系统的控制策略的方法及装置与流程

本公开涉及人工智能服务领域,更具体地涉及一种生成用于工业系统的控制策略的方法、装置、训练方法、电子设备和计算机可读存储介质。。


背景技术:

1、随着工业发展的推进,新一轮的工业革命正在兴起,信息化技术和人工智能等新技术促进了产业变革。各行业也在向数字化、智能化、自动化转型,进入现代化工业新阶段。然而,由于工业系统的复杂程度越来越高,其控制难度也越来越大。

2、为了满足越来越丰富的系统需求,工业界提出使用基于人工智能的方法来对工业系统状态进行分析,并制定出合适的控制策略进行控制。例如,在自动化设备控制、物流资源调度、电网调度等应用场景中,可以利用基于人工智能的方法来帮助人们制定合适的控制策略。

3、然而,当前的工业控制方案使用人工智能来实现自动化,但并不能完全保证工业系统的安全风险,尤其是微电网系统容易受到错误操作行为的影响。当前的工业控制方案主要是基于强化学习方案的,其为了获得更好的收益,往往忽略了安全风险约束,导致不良行为的产生。因此,需要改进当前的基于人工智能的工业控制方案,以确保系统安全。


技术实现思路

1、本公开实施例提供了一种生成用于工业系统的控制策略的方法、装置、训练方法、电子设备和计算机可读存储介质。

2、本公开实施例提供了一种生成用于工业系统的控制策略的方法,包括:获取基于上一状态的控制策略对所述工业系统进行控制所产生的当前状态信息;基于所述工业系统的当前状态信息,预测当前状态下用于控制所述工业系统中部分组件的第一控制信息;基于所述第一控制信息和用于控制所述工业系统的安全风险的等式约束,生成当前状态下用于控制所述工业系统中全部组件的第二控制信息;基于用于控制所述工业系统的安全风险的不等式约束,对所述第二控制信息进行修正,生成用于当前状态下所述工业系统的控制策略,以及基于所述控制策略,在所述工业系统的应用环境下对当前状态的所述工业系统进行控制。

3、本公开实施例提供了一种生成用于工业系统的控制策略的装置,包括:策略网络,被配置为:获取模块,被配置为:获取基于上一状态的控制策略对所述工业系统进行控制所产生的当前状态信息;策略网络,被配置为:基于所述工业系统的当前状态信息,预测当前状态下用于控制所述工业系统中部分组件的第一控制信息;补全模块,被配置为:基于所述第一控制信息和用于控制所述工业系统的安全风险的等式约束,生成当前状态下用于控制所述工业系统中全部组件的第二控制信息;修正模块,被配置为:基于用于控制所述工业系统的安全风险的不等式约束,对所述第二控制信息进行修正,生成用于当前状态下所述工业系统的控制策略;以及控制模块,被配置为基于所述控制策略,在所述工业系统的应用环境下对当前状态的所述工业系统进行控制。

4、本公开实施例提供了一种电子设备,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述的方法。

5、本公开实施例提供了一种设备,包括:处理器;存储器,存储器存储有计算机指令,该计算机指令被处理器执行时实现上述方法。

6、本公开实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现上述方法。

7、根据本公开的另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个方面或者上述各个方面的各种可选实现方式中提供的方法。

8、本公开的各个实施例基于用于控制所述工业系统的安全风险的等式约束和不等式约束,对所预测的用于控制工业系统的动作序列进行补充和调整,从而确保了用于所述工业系统的控制策略的安全风险。更进一步地,本公开的一些实施例所涉及的策略网络的训练过程,还进一步使用了用于控制所述工业系统的安全风险的等式约束和不等式约束来生成增强损失,以利用隐式微分方法来实现基于安全风险约束的梯度回传,从而得到更加鲁棒和可靠的策略网络。



技术特征:

1.一种生成用于工业系统的控制策略的方法,包括:

2.如权利要求1所述的方法,其中,所述基于用于控制所述工业系统的安全风险的不等式约束,对所述第二控制信息进行修正,生成用于所述工业系统的控制策略包括:

3.如权利要求2所述的方法,其中,所述在每次迭代中,基于用于控制所述工业系统的安全风险的不等式约束,确定所述第二控制信息对应的修正量包括:

4.如权利要求1所述的方法,其中,所述工业系统为微电网系统,

5.如权利要求1所述的方法,其中,由策略网络预测当前状态下用于控制所述工业系统中部分组件的第一控制信息,由补全模块生成当前状态下用于控制所述工业系统中全部组件的第二控制信息,由修正模块生成用于当前状态下所述工业系统的控制策略,由控制模块在所述工业系统的应用环境下对当前状态的所述工业系统进行控制。

6.如权利要求5所述方法,其中,所述策略网络的训练包括:

7.如权利要求6所述的方法,其中,所述奖励网络的输入为所述当前状态信息和所述针对当前状态信息的控制策略,输出为所述工业系统在当前状态下采取所述控制策略能够获得的期望累计奖励。

8.如权利要求6所述的方法,其中,所述对训练中的策略网络进行训练,以使得增强损失的值收敛包括:

9.如权利要求6所述的方法,其中,

10.如权利要求9所述的方法,其中,在训练过程中,

11.如权利要求10所述的方法,其中,在训练过程中的每个时间步中,

12.如权利要求11所述的方法,其中,在训练过程中的每个时间步中,

13.一种生成用于工业系统的控制策略的装置,包括:

14.一种电子设备,包括:

15.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-12中的任一项所述的方法。


技术总结
公开了一种生成用于工业系统的控制策略的方法、装置、电子设备和计算机可读存储介质。该方法包括:获取基于上一状态的控制策略对该工业系统进行控制所产生的当前状态信息;基于该工业系统的当前状态信息,预测当前状态下用于控制该工业系统中部分组件的第一控制信息;基于该第一控制信息和用于控制该工业系统的安全风险的等式约束,生成当前状态下用于控制该工业系统中全部组件的第二控制信息;基于用于控制该工业系统的安全风险的不等式约束,对该第二控制信息进行修正,生成用于当前状态下该工业系统的控制策略,以及基于该控制策略,在该工业系统的应用环境下对当前状态的该工业系统进行控制。

技术研发人员:刘浏,刘子轩,赵沛霖
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1