本发明属于一种工业过程运行控制方法,具体涉及一种数据驱动的多时间尺度工业过程自学习最优运行控制方法。
背景技术:
1、最优运行控制问题是通过控制工业过程中的单元设备过程来优化操作指标(例如,经济效益和材料消耗)。然而,由于单元设备过程的动力学通常操作在快速时间尺度上,运行过程的动力学操作在慢时间尺度上,这样快慢速率的差异对优化工业过程造成了巨大的挑战。众所周知的是,当忽略多速率的影响时,可能会出现病态问题和高维的复杂度。克服多时间尺度操作所造成的负面影响,开发工业过程最优运行控制方法一直是一个主要问题。
2、注意到现有的奇异摄动技术仍然存在一些局限性,包括要求系统精确模型是已知的,并且对非线性系统很难起作用。近年来,利用强化学习技术对多时间尺度系统的次优控制策略进行了一些尝试,为解决多速率最优运行控制问题奠定了基础。在实践中,工业过程的非线性动力学可以近似为具有未建模系统的线性模型,这是因为工业过程通常在平衡点上运行。
3、此外,值得指出的是,目前还没有一种直接的方法可供参考来补偿具有两个时间尺度系统的未知系统的未建模动态。因此,在系统动力学完全未知的情况下,使用奇异摄动理论和强化学习技术来优化具有未建模动态的两个时间尺度的系统的性能仍是一个巨大的挑战。在实际工业过程中客观地存在多时间尺度和强非线性,因此设计优化工业运行的控制策略具有极大的挑战性。
技术实现思路
1、本发明的目的在于提供一种数据驱动的多时间尺度工业过程自学习最优运行控制方法,本发明致力于开发一种自学习不依赖系统动态的方法,以优化具有多时间尺度和未知动态的系统中的运行指标,将整个运行过程中的最优运行控制问题分解为次优控制问题,并使运行指标通过近似最优的方式达到理想的目标值。
2、本发明的目的是通过以下技术方案实现的:
3、本发明数据驱动的多时间尺度工业过程自学习最优运行控制方法,具体包括以下步骤:
4、步骤1、基于奇异摄动理论,将具有未建模动态的单元设备过程系统和运行过程系统分解成快慢子系统;
5、步骤2、针对所建立的工业系统的动态,提出了最优运行控制问题,构建最优运行控制子问题;
6、步骤3、提出一种具有信号补偿的岭强化学习算法,实现最优控制策略自学习。
7、所述步骤1为:
8、考虑如下单元设备过程:
9、
10、y(t)=c0x(t) (1)
11、其中ò是很小的参数,x(t)、u(t)、w1(t)和y(t)分别表示系统的状态、控制输入、未建模动态和系统的输出,a1、b1、c0和d1是合适维度的矩阵,并且矩阵a1、b1、c0和d1是未知的。
12、运行过程为:
13、
14、r(t)=cz(t) (2)
15、其中z(t)表示运行层系统的状态,y(t)表示运行层系统的控制输入,w2(t)表示未建模动态,r(t)表示运行层系统的控制输出,a2、b2、d2和c是未知的合适维度的矩阵。
16、基于奇异摄动理论,系统被分解为慢子系统和快子系统:
17、1)令ò=0并且忽略系统(1)的快过程,可以得到:
18、0=a1xs(t)+b1us(t)+d1w1s(t) (3)
19、其中xs(t)表示准稳态。
20、2)把(3)代入到(2)的慢过程中,慢子系统表示为:
21、
22、rs(t)=czs(t) (4)
23、其中zs(t)表示慢子系统的状态,us(t)表示慢子系统的控制输入,w1s(t)和w2s(t)表示慢子系统中的未建模动态,rs(t)表示慢子系统的输出,
24、3)由(1)和(2),得到快子系统为:
25、
26、yf(t)=c0xf(t) (5)
27、其中xf(t)表示快子系统的状态,uf(t)=u(t)-uf(t)表示快子系统的控制输入,w1f(t)=w1(t)-w1s(t)表示快子系统中的未建模动态,yf(t)表示快子系统的控制输出。
28、考虑到分解的快子系统是具有快动态的特征的边界层系统,引入一个快时间尺度l=t/ò,改写快子系统(5)为:
29、
30、yf(l)=c0xf(l) (6)
31、所述步骤2为:
32、最优运行控制问题:寻求组合的控制策略u=us+uf,最小化和最大化性能指标(7)。
33、
34、s.t.(1)和(2) (7)
35、其中β是折扣因子常数,δw(n)=[δw1st(n) δw2st(n) δw1ft(n)]t,δw1s(n)=w1s(n)-w1s(n-1),δw2s(n)=w2s(n)-w2s(n-1),δw1f(n)=w1f(n)-w1f(n-1),n表示快采样时刻,r=diag(rs,rf)>0,γ是衰减因子常数,qs≥0和qf≥0表示具有合适维数的矩阵。
36、子问题1:寻求一个鞍点使得性能指标(8)可以被最小化和最大化。
37、
38、子问题2:寻求一个鞍点使性能指标(9)可以被最小化和最大化。
39、
40、所述步骤3为:
41、提出具有信号补偿的岭强化学习算法:
42、步骤1、给定行为控制策略us(k),uf(n)和理想的运行指标数据r*(k),添加探测噪声,收集系统(1)和(2)所测量的变量数据;
43、步骤2、给出初始的可允许的控制增益和迭代指标js,jf,并让迭代指标从js=0,jf=0开始;
44、步骤3、性能策略评估:
45、
46、其中是未知的矢量,k表示慢采样时刻,αs≥0为岭参数,
47、
48、
49、
50、
51、
52、
53、
54、
55、x(k)=[zt(k) (r*(k))t w1st(k-1) w2st(k-1)]t
56、步骤4、策略更新:
57、
58、
59、其中
60、
61、
62、步骤5、判断(σ1是很小的正数),若是,执行下个步骤,否则执行js=js+1,返回执行步骤3;
63、步骤6、性能策略评估:
64、
65、其中
66、是未知的矢量,n表示快采样时刻,αf≥0为岭参数,
67、
68、
69、
70、
71、
72、
73、
74、
75、
76、步骤7、策略更新:
77、
78、
79、其中
80、
81、
82、步骤8、判断(σ2是很小的正数),若是,执行下个步骤,否则执行jf=jf+1,返回执行步骤6。
83、本发明的优点与积极效果:
84、1)根据奇异摄动理论,采用关键的数学变换,提出了一种新颖的奇异摄动方法,将多时间尺度系统分解为快、慢变量分离的降阶子系统。进一步地,将整个运行过程中的最优运行控制问题分解为次优控制问题。
85、2)提出了一种自学习复合控制器的算法,实现未建模动态补偿,并使运行指标通过近似最优的方式达到理想的目标值。