一种基于局部保留变量加权自编码器的软测量方法

文档序号:28367199发布日期:2022-01-05 13:11阅读:145来源:国知局
一种基于局部保留变量加权自编码器的软测量方法

1.本发明属于工业过程领域,涉及一种基于局部保留变量加权自编码器的软测量方法。


背景技术:

2.在现代工业过程中,对过程性能的及时监测和控制对于实现绿色生产、节能降耗、提高企业效益具有重要意义。过程关键质量变量是过程性能的重要指标,对一些过程关键质量变量进行及时而准确的监测和分析,是实现监测系统运行状态、实现过程平稳控制、生产高质量产品的重要保障和必要前提。然而,由于测量环境恶劣、仪器成本昂贵、测量延迟大等原因,关键质量变量无法或难以被实时、准确地测量。在现代工业过程中,软测量传感器通过建立数学模型,使用容易测量的辅助变量来估计关键质量变量,从而为过程监控、优化和控制提供重要的实时信息。相较于传统的硬测量方法,软测量具有响应迅速、成本低廉、方法多样、维护方便、操作安全等诸多优点,使其在化工、生化、冶金、制药等工业领域取得了大量成功应用。
3.软测量传感器通常可以分为两类:基于过程机理建模的方法和数据驱动建模的方法。基于过程机理建模的方法,适用于处理稳态工况数据,依赖于过程物理化学背景知识。而在实际工业过程中缺乏对过程反应特性机理的足够了解,以及缺少足够的专家知识而导致无法建立精确的模型。这些原因在一定程度上限制了基于机理建模的方法的应用和推广。随着分布式控制系统的广泛使用,大量的传感器数据可以被记录、收集和分析,这使得数据驱动建模的软测量传感器在实践中成为可能并广泛使用。数据驱动的软测量传感器不需要事先的过程机理知识或操作经验,其建立的预测模型完全基于过程历史数据。
4.常用的数据驱动软测量方法有pcr、pls、kpcr、kpls、svm等。神经网络方法是目前处理非线性普遍采用的方法。多层的深度神经网络能够更有效地表达高度复杂系统的特征。在软测量邻域,常用的深度学习方法主要有深度信念网络(dbn)、自编码器(ae)、卷积神经网络(cnn)和循环神经网络(rnn)等。其中,自编码器是最为广泛应用的一种神经网络。它通过编码器将输入变量变为隐变量,再通过解码器将隐变量还原成输入变量,其中,编码器和解码器都是通过神经网络实现。通过这个编码和解码的过程,神经网络可以学习到数据内部之间的关联,这赋予了自编码器强大的特征提取能力,被广泛应用于工业过程软测量建模中。它具有无监督学习、极强的可拓展性等特点。工业过程数据通常含有数目众多的辅助变量,即具有高维特性;基于流行假设,辅助变量在高维空间中一个保持了局部欧式特性的低维流形上,因此,应当考虑保留样本在低维空间的结构信息,而现有的自编码器未充分考虑样本间空间结构信息,这容易导致预测精度较低。


技术实现要素:

5.针对现有的自编码器未考虑样本间空间结构信息的不足,本发明提出了一种基于局部保留变量加权自编码器的软测量方法,该方法将样本间的局部空间结构信息引入ae损
失函数,通过对输入变量特征的质量相关加权以及对近邻样本空间信息的局部保留,提高自编码器的特征提取能力。再将特征迁移至强回归器进行回归预测。
6.本发明的目的通过如下的技术方案来实现:
7.一种基于局部保留变量加权自编码器的软测量方法,其特征在于,包括如下步骤:
8.步骤一:收集历史工业过程数据建立训练数据集,所述训练数据集包括关键质量变量y和辅助变量x,其中d
x
为输入矢量的维度;
9.步骤二:对训练数据集进行归一化预处理,使结果值映射到0~1之间;
10.步骤三:构建局部保留变量加权自编码器,其包括编码器和解码器两部分,编码器和解码器均为单层神经网络;编码器将x从输入层通过非线性函数映射到隐层,解码器通过另一非线性变换进行输入的重构,具体的公式如下:
11.h=encode(x)=f
e
(w
e
·
x+b
e
)
[0012][0013]
其中,是隐层特征,d
h
是其维度;w
e
是权重系数矩阵,b
e
是相应的偏置量;f
e
(
·
)表示非线性激活函数;
[0014]
整个局部保留变量加权自编码器的待优化参数集为θ={w
e
,b
e
,w
d
,b
d
},损失函数设计为下式:
[0015][0016][0017][0018]
其中ρ
(d)
为第d维输入变量与标签变量的相关系数,cov(x
(d)
,y)为x
(d)
、y的协方差,var(x
(d)
)、var(y)为x
(d)
、y各自的方差;λ为权衡系数,用来调节正则化项的权重;n为样本数;v
ij
为约束两个隐层特征样本h
i
、h
j
之间接近程度的权重,σ为控制权重随距离递减的速率的可调超参数;n
k
(x
i
)表示与x
i
相近的k个近邻样本;
[0019]
步骤四:采用预处理后的训练数据集对局部保留变量加权自编码器进行训练;
[0020]
首次迭代时,编码器将x从输入层映射到隐层,再进行自编码训练;后序的每次迭代均将前一次迭代得到的隐层特征作为当前迭代的编码器的输入,并进行自编码训练,从而实现逐层堆叠;考虑到ae特征提取中各隐层均有有效信息,将各隐层拼接作为整个局部保留变量加权自编码器提取的特征,将拼接后的降维特征以及关键质量变量y迁移至强回归器,训练强回归器;
[0021]
步骤五:将新的工业过程数据进行归一化处理后,输入训练后的局部保留变量加权自编码器,将其隐层拼接后,输入训练后的强回归器,得到预测输出。
[0022]
进一步地,所述步骤二中采用min

max标准化方法对数据集进行归一化预处理。
[0023]
进一步地,所述强回归器选用xgboost、svr、ridge中的任意一种。
附图说明
[0024]
图1为本发明的基于局部保留变量加权自编码器的软测量方法的流程图。
[0025]
图2为单层自编码器结构示意图。
[0026]
图3为堆叠的自编码器结构示意图。
[0027]
图4为脱丁烷塔的流程图。
具体实施方式
[0028]
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0029]
本发明提出的基于局部保留变量加权自编码器的软测量方法,其流程图如图1所示,包括如下步骤:
[0030]
步骤一:收集历史工业过程数据建立训练数据集,所述的训练集包括关键质量变量y和辅助变量x,其中d
x
为输入矢量的维度。
[0031]
步骤二:采用min

max标准化方法,对数据集进行归一化预处理,使结果值映射到0~1之间,并划分为训练集dtrn和测试集dtest
[0032]
步骤三:构建局部保留变量加权自编码器(lp

vwae);
[0033]
ae的目标是学习一个函数γ
θ
(x)使得如图2所示,局部保留变量加权自编码器包括编码器和解码器两部分,编码器和解码器均为单层神经网络;编码器将x从输入层通过非线性函数映射到隐层,h=encode(x)=f
e
(w
e
·
x+b
e
),其中,是隐层特征,d
h
是其维度;w
e
是权重系数矩阵,b
e
是相应的偏置量;f
e
(
·
)表示非线性激活函数。在编码得到隐层特征h后,再通过解码器对输入进行另一非线性变换的重构,如下式所示:
[0034]
整个自编码器ae模型中的待优化参数集为θ={w
e
,b
e
,w
d
,b
d
}。其中,损失函数的设计重视提取与标签变量高度相关的输入特征,对重构对象中不同维度的变量赋予不同的权重;并基于局部一致性假设,增加一个局部保留正则化项,构成局部保留变量加权自编码器。lp

vwae的损失函数设计为下式:
[0035][0036]
其中λ为权衡系数,用来调节正则化项的权重;n为样本数;ρ
(d)
为第d维输入变量与标签变量的相关系数,其计算为下式:
[0037][0038]
其中cov(x
(d)
,y)为x
(d)
、y的协方差,var(x
(d)
)、var(y)为x
(d)
、y各自的方差;
[0039]
v
ij
为约束两个隐层特征样本h
i
、h
j
之间接近程度的权重,其计算为下式:
[0040][0041]
其中σ为控制权重随距离递减的速率的可调超参数;n
k
(x
i
)表示与x
i
相近的k个近邻样本。
[0042]
步骤四:采用预处理后的训练数据集对局部保留变量加权自编码器进行训练;
[0043]
首次迭代时,编码器将x从输入层映射到隐层,再进行自编码训练;后序的每次迭代均将前一次迭代得到的隐层特征作为当前迭代的编码器的输入,并进行自编码训练,从而实现逐层堆叠;如图3所示。考虑到ae特征提取中各隐藏层均有有效信息,将各隐藏层拼接作为提取的特征,将拼接后的降维特征以及关键质量变量y迁移至强回归器,训练强回归器。
[0044]
步骤五:将新的工业过程数据进行归一化处理后,输入训练后的局部保留变量加权自编码器,将其隐层拼接后,输入训练后的强回归器,得到预测输出。所述强回归器选用xg

boost、svr、riege中的任意一种。
[0045]
下面结合两个具体的应用实例,说明本发明的软测量方法的性能。
[0046]
1.脱丁烷塔
[0047]
脱丁烷塔是一种分馏塔,它主要用于在精炼过程中从天然气或石脑油流中分离丁烷。脱丁烷塔的流程图如图4所示。脱丁烷塔的目标是尽量减少丁烷含量,但是丁烷含量的测量需要大量时间和成本。为了加强工业过程的质量控制,需要开发和应用质量变量预测模型。在此过程中收集了七个变量,它们是最高温度,最高压力,回流流量等。该数据集共有2394个样本,本实施例使用前2/3的数据来学习模型参数,使用后1/3的数据作为测试集。
[0048]
对比强回归器、基本ae模型、vwae模型与lp

vwae模型的预测结果,其中3种自编码器均采用两层堆叠的模型结构,第一层隐层神经元数为12,第二层隐层神经元数为4,强回归器选取ridge岭回归和svr支持向量回归。对lp

vwae的超参数进行网格搜索参数寻优,其参数选择为:λ=1,σ=1.5,k=6。表1列出了上述4种方法下测试集的预测结果。可以看出,lp

vwae模型相比于其他模型,均方误差rmse最小,r2最大,在这两项指标上均取得了最好的效果。
[0049]
表1软测量模型的预测结果
[0050][0051]
2.某电厂scr入口烟气no
x
浓度
[0052]
选取浙江台州某1000mw燃煤机组为对象。选择性催化还原技术(scr)反应器入口
的no
x
浓度主要受锅炉的运行工况影响。在通常燃烧温度下,煤燃烧生成的no
x
在烟气中的含量<1%,其中,no占no
x
的90%以上,,no2占5%~10%,而n2o只占1%左右。
[0053]
通过对炉膛出口no
x
生成机理分析结合相关文献中的研究,选择的主要辅助变量有:机组负荷、总煤量、一次风总量、二次风总量、烟气含氧量和炉膛出口温度。关键质量变量取a侧scr入口no
x
浓度。
[0054]
选取了负荷在400mw~520mw过程中的历史运行数据,持续时间近6个半小时,每隔1min采一个点,共计600组数据点,基本为稳定低负荷运行工况,比较全面地反映了低负荷稳态工况下研究对象的特性,各变量数据取自电厂厂级监控信息系统(sis)。本实施例使用前2/3的数据来学习模型参数,使用后1/3的数据作为测试集。
[0055]
对比强回归器、基本ae模型、vwae模型与lp

vwae模型的预测结果,其中3种自编码器均采用两层堆叠的模型结构,第一层隐层神经元数为9,第二层隐层神经元数为6,强回归器选取ridge岭回归。对lp

vwae的超参数进行网格搜索参数寻优,其参数选择为:λ=20,σ=8,k=2。表2列出了上述4种方法下测试集的预测结果。可以看出,lp

vwae模型相比于其他模型,均方误差rmse最小,r2最大,在这两项指标上均取得了最好的效果。
[0056]
表2各模型预测指标
[0057]
模型ridgeae+ridgevwae+ridgelp

vwae+ridgermse0.07240.06930.06640.0592r20.75560.77570.79450.8300
[0058]
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1