一种分层集成的高斯过程回归软测量建模方法与流程

文档序号:13136739阅读:1664来源:国知局
一种分层集成的高斯过程回归软测量建模方法与流程

本发明涉及一种分层集成的高斯过程回归软测量建模方法,属于复杂工业过程建模和软测量领域。



背景技术:

化工、冶金和发酵等工业过程中的一些重要质量变量,往往无法或难以通过在线仪表测量。基于数据驱动的软测量建模方法,无需深入了解过程的机理知识,在工业过程建模中得到了广泛应用。常用的线性建模方法如主成分回归(principalcomponentregression,pcr)、偏最小二乘(partialleastsquares,pls)等可以很好的处理过程数据间的线性关系并进行建模。

然而,化工过程常呈现显著的非线性特征,因此非线性建模方法如人工神经网络(artificialneuralnetworks,ann)、支持向量机(supportvectormachine,svm)和高斯过程回归(gaussianprocessregression,gpr)等得到广泛应用。针对化工过程中的多阶段特征,各种聚类算法如k均值(k-means)、模糊c均值(fuzzycmeans,fcm)和高斯混合模型(gaussianmixturemodel,gmm)等被广泛用于过程数据的阶段划分,从而提取多阶段特征。

集成学习思想的本质是将一系列有差异的模型进行组合,以提高模型的泛化能力与预测精度。集成学习的首要任务是划分子数据集,常用的划分方法有bagging、boosting、聚类和子空间方法等。chen等采用bagging算法提升高斯过程回归模型的泛化能力与预测精度,通过聚丙烯聚合过程验证了所提方法的有效性;cao等采用boosting算法产生若干有差异的样本子集,并将所提方法应用于心脏病数据的分类和近红外光谱数据的回归预测,可以有效的增强模型的分类性能和预测精度;li等采用聚类算法将原始数据集划分为不同的子样本集,通过对子模型的融合得到最终的预测输出,结合不同数据集的仿真对所提方法的有效性进行了验证;ge等采用子空间pls方法将原始数据集划分为不同的子样本集,并建立相应的pls回归模型,采用均值融合方式到最终的预测输出,实现了对近红外光谱蛋白质含量的预测。

bagging、boosting和聚类三种方法在样本维度上划分子数据集,子空间方法在变量维度构建子数据集。常规的集成学习仅从单一的样本或变量维度建立软测量模型,没有充分利用样本所包含的两个维度信息,因此wang等提出了一种分层集成的软测量模型结构,采用gmm进行样本划分,利用随机重采样策略和偏互信息准则进行变量的划分与选择,达到增强模型的多样性,最后采用pls剪枝技术去除冗余模型,所提方法的有效性在田纳西化工过程与工业橡胶混合过程得到了验证。虽然采用随机重采样策略可以增强模型的泛化能力,但是模型结构存在一定的不确定性。

综上所述,一种基于gmm与子空间主成分分析(subspaceprinciplecomponentanalysis,spca)的分层集成高斯过程回归(hierarchicalensemblegaussianprocessregression,hegpr)软测量建模方法,从样本和变量多个角度考虑建立了分层集成软测量模型,既考虑到样本含有的信息,又考虑了输入变量的多样性信息,同时模型具有良好的稳定性与泛化能力。hegpr模型结构上有两层集成,第一层集成对采用gmm方法得到的子样本集,利用spca划分子空间数据集,并建立集成高斯过程回归(spca-gpr)模型,采用均值融合方式得到第一层的预测输出。第二层集成针对spca-gpr模型得到的各操作阶段的局部输出进行再次融合,采用后验概率融合方式得到最终的模型输出。hegpr可以有效的解决工业过程中的多阶段和非线性问题。



技术实现要素:

针对于化工过程呈现的非线性和多阶段性,产品质量往往得不到保证,为了提高产品的质量,本发明提供一种可在线测量多阶段化工过程产品质量的多模型融合软测量建模方法。

通过gmm对化工过程不同的阶段性进行辨识,然后在特定的阶段子空间pca建立泛化能力优异的spca-gpr模型。对spca-gpr子模型进行均值融合,得到各操作阶段下的局部预测值,最后,对于不同的操作阶段,根据辨识得到的后验概率对局部预测值进行融合,实现对化工过程产品质量的在线估计,从而提高产量,降低生产成本。

本发明的目的是通过以下技术方案实现的:

分层集成的高斯过程回归软测量建模方法,所述方法包括以下过程:针对于复杂多变的多阶段性的化工过程,用高斯混合模型对过程的不同阶段进行辨识,并采用一种集成学习的方法,建立有差异性的高斯过程回归模型,增强模型的泛化能力。

当新的数据到来时,根据spca选择模型对应的变量,根据建立的离线高斯过程回归模型,得到各spca-gpr的预测输出值,对各子模型的预测值进行均值融合,可得到各操作阶段下的局部预测值。

最终根据计算得到的新的数据隶属于每个不同阶段的后验概率,对局部预测值进行融合输出,能够对关键变量进行精确预测,从而提高产品质量,降低生产成本。

附图说明

图1是hegpr测试样本在线预测流程图;

图2hegpr建模流程图;

图3脱丁烷塔过程各模态子空间选择变量个数;

图4三种建模方法(1.gpr全局模型;2.基于gmm的gpr多模型(简记为gmm-gpr);3.分层集成高斯过程回归软测量模型(hegpr))对丁烷浓度的预测结果;

图5对丁烷浓度三种建模方法的预测误差;

图6阶段1中不同子空间下各变量的贡献指标;

图7gmm-egpr(基于随机子空间的分层集成软测量模型)和hegpr的预测结果散点图;

图8gmm-egpr和hegpr的预测误差;

具体实施方式

下面结合图1所示,对本发明做进一步详述:

以常见的化工过程——脱丁烷塔过程为例。实验数据来自于脱丁烷塔过程,对预测产品塔底丁烷浓度进行预测。

步骤1:收集输入输出数据组成历史训练数据库。

步骤2:基于历史训练数据估计得到高斯混合模型(gaussianmixturemodel,gmm)的参数,然后把完整的输入和输出训练数据划分到不同的操作阶段,所述的gmm算法为:

gmm假设数据服从具有未知参数的混合高斯分布。给定训练样本集x∈rn×m和y∈rn×1,其中n是样本点个数,m是样本维数。假定训练样本x服从k成分的高斯混合模型,则概率密度可以表示为:

其中,m是过程变量的维数,n是训练样本的个数,θ={π1,…,πk,μ1…μk,σ1,…,σk}是高斯混合模型的参数,其中μk、σk和πk分别代表第k个高斯成分的均值、协方差和权值;同时,参数πk满足和0≤πk≤1。

式(1)中n(x|θi)表示多元高斯概率密度函数:

通过期望最大化算法(expectation-maximization,em)估计模型的参数,对于新来样本xq对于每个高斯成分的后验概率可通过式(3)计算得到。

步骤3:根据步骤2辨识得到的不同操作阶段,对应建立不同的子数据库,针对不同的操作阶段数据采用子空间pca进行分解,子空间pca算法为:

假设有训练样本集d={x,y},其中x={xi∈rm}i=1,2,...,n是n个训练输入样本,m是辅助变量个数,y={yi∈r}i=1,2,...,n是n个输出样本。pca模型如式(4)和(5)所示。

x=tpt+e(4)

t=xp(5)

式中,p∈rm×t和t∈rn×t分别表示第k个操作阶段下的载荷矩阵和得分矩阵,e∈rn×m表示残差矩阵,t表示选择的主成分数目。

不同主元之间互不相关,根据主元方向构建不同的子模型,增加模型间的差异性,在每个主元方向上,由每个变量的贡献指数(contributionindex,ci)来衡量其重要性,贡献指数的定义如式(6)所示。

其中i=1,2,...,m,j=1,2,...,t,pij是载荷矩阵对应的第j个主元上的第i个元素。ci的值越大,表示变量包含的信息越多,与主元方向的相关性越强。根据ci的值进行降序排列,设置不同的ci阈值确定各子空间模型选取的辅助变量个数。

基于主元方向的不相关性,根据d个不同主元方向将训练样本集x划分为d个不同的子空间。

步骤4:在d个不同主元方向将第k个操作阶段下的样本集sk划分为d个不同的子空间;

步骤5:对不同的子空间建立离线的局部gpr模型为:

给定数据集{x,y},其中x∈rn×m,y∈rn×1,n样本点数,m是样本维数。输入输出之间满足式(8)所示

y=f(x)+ε(8)

式中ε是均值为0,方差为的高斯噪声,f是未知的函数形式。gpr假设回归函数y=f(x)具有零均值的高斯先验分布,描述如式(9)

y~n(0,c)(9)

式中c为n×n的协方差矩阵,其i行j列元素定义为cij=c(xi,xj;θ),协方差矩阵通过核函数计算得到,文中选取平方指数协方差核函数,定义如式(10)所示

式中δij=1仅在i=j时成立,否则δij=0,l为方差尺度,为信号方差,为噪声方差,为gpr的超参数,超参数的选取对模型性能有很大影响,采用最大似然估计法可以获得最优的超参数。

对于新来的样本xq,其对应的gpr模型输出均值和方差如式(11)和(12)所示

其中c(xq)=[c(xq,x1),...,c(xq,xn)]是新来样本与训练样本间的协方差矩阵,c是训练样本之间的协方差矩阵,c(xq,xq)是新来样本的自协方差。

步骤6:对于新来样本点,根据式(12)所示建立好的离线spca-gpr模型,得到子空间下的预测值,由式(13)得到第一层集成输出;

其中是第k个操作阶段第i个子空间模型的预测输出,是第k个操作阶段的局部输出

步骤7:计算新来样本点对于各操作阶段的后验概率,根据式(14)进行融合输出,得到最终的质量预测,完成第二层集成输出

p(sk|xq)根据式(3)可计算得到

图4是预测产品塔底丁烷浓度的在线预测值和实际值拟合曲线散点分布,并且与所建立的gpr全局模型和基于gmm的gpr多模型软测量模型进行了比较。图8是预测产品塔底丁烷浓度的在线预测值和实际值拟合曲线散点分布,与所建立的基于随机子空间的分层集成软测量模型进行了比较。由图可知,基于分层集成的高斯过程回归软测量模型能够有效地预测脱丁烷塔过程中的塔底丁烷浓度含量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1