基于协同训练偏最小二乘模型的工业过程软测量建模方法

文档序号:9196545阅读:380来源:国知局
基于协同训练偏最小二乘模型的工业过程软测量建模方法
【技术领域】
[0001] 本发明属于工业过程预测与控制领域,尤其涉及一种协同训练算法与偏最小二乘 算法的软测量建模方法。
【背景技术】
[0002] 在传统工业过程中存在着许多无法或者难以用传感器直接测量的变量如产品反 应速率、产品成分含量等等,而这些参数对于提高产品质量和保证安全生产有重要的作用, 是工业生产过程中必须加以严格监视和控制的参数。虽然这些变量可以用在线分析仪表进 行检测,但是一方面需要大量的投资,另一方面可能因为有较大的测量滞后而使得调节不 够及时,从而使得产品质量难以得到保证。这些对于工业生产过程具有重要作用的变量我 们称之为主导变量,其他的一些易于测量的变量我们称之为辅助变量。软测量指的是通过 建立工业过程变量之间的数学模型,实现利用辅助变量预测主导变量信息的技术方法。近 年来,工业过程的软测量得到了越来越多的重视。
[0003] 传统的工业过程软测量建模方法除了基于机理模型的方法以外,大多数采用多元 统计分析和机器学习的方法,例如主元回归PCR和偏最小二乘PLS等,在机理模型难以获取 的情况下,基于数据驱动的多元统计分析方法已经成为半导体过程监测的主流方法。但是, 传统的多元统计方法在训练样本数目较少的情况下,所建立起的模型的预测精度往往不能 够达到有效的精度;此外,传统多元统计学习方法建模时所用的数据往往都是那些辅助变 量有对应主导变量信息的数据,没有对应主导变量仅有辅助变量信息的数据往往被直接忽 视了。在工业过程中,基于上面所述的主导变量难以检测等原因,工业过程中存在着大量的 不包含有主导变量仅有辅助变量信息的数据,这些数据中包含着大量的有用信息,直接弃 之不用造成了浪费。
[0004] 相比之下,半监督学习方法通过使用有标签数据建立初始模型,然后利用无标签 数据对模型进行参数优化与调整,最终达到提高模型精度的效果。本发明主要利用了半监 督学习中的协同训练算法,结合偏最小二乘模型,找到了一种在辅助变量个数较多的条件 下进行模型学习的方法,并成功利用了无标签数据提升了模型的精度,表明了半监督学习 方法应用到软测量研宄中具有绝对的可能性与相当的有效性,也为今后软测量建模的研宄 提供了一个新的方法和思路。

【发明内容】

[0005] 本发明的目的在于针对现有技术的不足,提供一种基于协同训练算法的偏最小二 乘回归软测量建模方法。
[0006] 本发明的目的是通过以下技术方案来实现的:一种基于协同训练算法的偏最小二 乘软测量模型的建立,主要包括以下几个步骤:
[0007] (1)利用集散控制系统以及离线检测方法,按生产批次收集工业生产过程的数据 组成建模用的训练样本集。对于每个批次的训练样本集,一部分为既包含主导变量数据也 包含辅助变量信息的样本集D e Rk〃,其中,D为有标签数据集,K为采样数据点个数,J为 变量个数;另一部分为只包含辅助变量数据的样本集X e RNX2M,其中,X为无标签数据集,N 为采样数据点数,2M为变量个数,将这些数据存入历史数据库。
[0008] (2)对于每个生产批次的有标签数据,沿着时间点方向对每一个数据矩阵进行排 列,得到新的数据矩阵,并对其进行预处理和归一化,即使得各个过程变量的均值为零,方 差为1,得到新的数据矩阵集为
[0009] (3)基于得到的二维数据矩阵De ,按照主导变量和辅助变量分类标准,选取 其中的主导变量作为预测目标因变量#
,选取其中的辅助变量作为自变量集
,则该二维数据矩阵
可以重新描述为:
[0010] (4)对于有标签数据集,对其自变量集进行均分,前一半自变量作为第一自变 量视图:
,后一半自变量作为第二自变量视图:
4导到两 组新的有标签数据集
,并按照同样的变量 拆分方法对于无标签数据进行拆分,得到两组新的无标签数据集

[0011] (5)首先,利用
建立初始的模型PLS1,利用
建立初 始的模型PLS2,然后,不断迭代使用无标签数据更新模型训练数据,当达到一定的终止条件 时,终止迭代。一般选取的终止条件为迭代达到一定次数抑或是无法继续找到置信度足够 高的样本。
[0012] (6)将建模数据和各个模型参数存入历史数据库和实时数据库中备用。
[0013] (7)收集新的过程数据,并对其进行预处理和归一化。
[0014] (8)采用基于协同训练算法的偏最小二乘方法对工业过程的变量进行预测,实现 过程监控与控制。
[0015] 本发明的有益效果是:本发明通过对于工业数据建立起的软测量模型,不但利用 了传统软测量方法建模所利用的有标签数据,也利用了传统软测量建模方法所不能利用的 无标签数据,在训练样本相同的情况下,能够建立起比传统软测量模型精度更高的预测模 型。相比目前的其他软测量建模方法,本发明不仅可以大大提高训练样本数目极少的情况 下模型的预测效果,而且在很大程度上改善了监测方法对过程知识的依赖性,增强了过程 操作员对过程的理解能力和操作信心,更加有利于工业过程的自动化实施。
【附图说明】
[0016] 图1是本发明方法和传统偏最小二乘方法对在不同有标签样本比例下建模预测 结果的RMSE对比图;
[0017] 图2是在有标签样本比例为30%的情况下样本真实值、协同训练偏最小二乘算法 预测值和偏最小二乘算法的预测值的曲线对比图;
[0018] 图3是上述两种方法预测结果与真实值之间的误差对比图。
【具体实施方式】
[0019] 本发明是针对工业过程中训练数据较少情况下的软测量建模问题,首先利用集散 控制系统收集有标签与无标签数据,利用有标签数据建立初始的具有一定差异性的两个模 型,然后在初始模型的基础上,通过不断的迭代循环,逐步的将置信度最高的无标签数据转 换为有标签数据并加入到训练集中来,逐渐扩大训练集的样本数目,最终达到提高模型精 度的效果。本发明不仅提高了工业过程的软测量模型预测效果,增强了过程操作员对过程 状态的掌握,使工业生产更加安全,产品质量更加稳定;而且很大程度上改善了软测量建模 方法对过程知识的依赖性,更加有利于工业过程的自动化实施。
[0020] 下面结合附图和具体实施例对本发明进行详细说明。
[0021] 本发明一种基于协同训练算法的偏最小二乘软测量建模方法,该方法针对工业过 程的软测量建模问题,首先利用集散控制系统以及离线检测方法收集包含主导变量信息与 辅助变量信息的有标签数据和仅包含辅助变量的无标签数据,然后利用有标签数据建立两 个具有相当差异性的初始模型,然后再初始模型的基础上利用无标签数据对两个模型及其 训练集进行迭代更新,当达到一定的迭代次数或是终止条件之后,停止对于模型的更新,并 利用最终的训练数据建立新的模型,实现对于工业过程的软测量建模。把模型参数存入数 据库中备用。
[0022] 本发明采用的技术方案的主要步骤如下:
[0023] 第一步,利用集散控制系统以及离线检测方法,按生产批次收集工业生产过程的 数据组成建模用的训练样本集,对于一些无法进行在线检测的主导变量,则在离线进行测 量后将测量后的变量信息与其对应的辅助变量信息一起存储到数据集中。在这样的条件 下,对于同一个批次的训练样本集,一部分为既包含主导变量数据也包含辅助变量信息的 样本集D e RKX\其中,D为有标签数据集,K为采样数据点个数,J为变量个数;另一部分为 只包含辅助变量数据的样本集X e RNX2M,其中,X为无标签数据集,N为采样数据点数,2M为 变量个数,将这些数据存入历史数据库。
[0024] 第二步,对于每个生产批次的有标签数据,对采集到的过程数据进行预处理,剔除 野值点和明显的粗糙误差数据。得到新的数据矩阵集为De Rk〃。基于得到的二维数据矩 阵D e RKXJ。
[0025] 第三步,按照主导变量和辅助变量分类标准,选取其中的主导变量作为预测目标 因变量集
选取其中的辅助变量作为自变量集
,则该二维数据矩 阵
可以重新描述为:
>
[0026] 第四步,对于有标签数据集中的每个样本(Xi,yi),对其自变量集进行均分,前 一半作为第一视图,得到一个新样本:Uattl+ Yi),后一半作为第二视图,也得到一个新样 本:(xatt2,i,yi)。对于整个样本集,也使用同样的分配方法进行分割获取

,这样可以得到两组新的有标签数据集
以及
:然后按照同样的变量拆分方法对于无标签数据进行拆分,得到两组 新的无标签数据集
[0027] 第五步,不失一般性,先灰
建立初始的PLS模型:对X和Y进行 中心化,即使各个变量的均值为〇,方差为1,得到一组新的数据Etl, Ftl,并记录其均值与方差 分别为Mx,Sx,My,Sy。然后,分别提取两变量组的第一对成分,使之相关性最大:
[0028] 假设从两组变量分别提出第一对成分为&和u i,其中&是自变量集X的线性组 合,U1是因变量集Y的线性组合,为了回归分析的需要,要求t JP u 可能多的提取所在变 量组的变异信息以及二者之间的相关程度达到最大。现在由Etl, Ftl,计算第一对成分的得分 向量,记为h和Wl,贝1J有
[0029]
[0030]
[0031] 第一对成分1^和u i的协方差可以用第一对成分的得分向量^和Wl的内积来计 算,故而有
[0032]
[0033] 此时,只需要计算MXM矩阵的最大特征值及其对应的特征向量,且 尽的最大特征值即为Θ i的平方,相应的单位特征向量即为所求解的w i,而Vl可以 由
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1