基于注意力机制的多时间尺度卷积神经网络软测量方法与流程

文档序号:18971169发布日期:2019-10-29 02:54阅读:362来源:国知局
基于注意力机制的多时间尺度卷积神经网络软测量方法与流程

本发明涉及基于注意力机制的多时间尺度卷积神经网络软测量方法,属于软测量技术领域。



背景技术:

在现代工业生产过程中,为了实现节能和效益最大化,及时对生产过程中的重要参量进行监测和控制具有重要意义。通常对于工业生产过程中的重要参量,测量方法主要有在线测量和离线测量两种。在线测量指使用仪器直接对参数进行测量,但设备价格昂贵,维护困难,且测量结果的准确性易受到现场工况的影响。离线测量指应用离线检验的方法对参量进行测量,但离线检验往往需要较长时间,导致离线获得的测量结果对生产过程的指导存在较大延时性。因此,如何实时估计难测参量成为过程控制首先要解决的关键问题。

20世纪90年代以来,软测量技术快速发展,逐渐成为解决上述问题的有效途径之一。软测量技术是一种利用容易获得的辅助变量来建立预测模型来实现对难测参量的在线实时估计,这可以为过程监控、优化和控制提供所需的重要实时信息,进而实现节能和效益最大化的目标。



技术实现要素:

本发明的目的是提供一种基于注意力机制的多时间尺度卷积神经网络软测量方法,从而实现对难测参量的实时在线估计。

为了实现上述目的,本发明采用的技术方案是:

基于注意力机制的多时间尺度卷积神经网络软测量方法,该方法内容包括以下步骤:

步骤1、确定辅助变量并且进行数据处理

通过对工业工艺流程的分析,初步选取与难测参量相关的易测变量作为软测量模型的辅助变量并采集辅助变量与难测参量的时间序列;

然后采用3σ准则对采集到的数据中的异常值进行剔除,并且在训练前对数据进行归一化处理;

步骤2、注意力机制及关注区域的选择

采取硬注意力机制,根据工艺流程中各辅助变量相对于难测参量的时延和有效时间尺度划分出关注区域;

步骤3、构建软测量模型的输入

将各辅助变量的时间序列构成矩阵,并结合注意力机制的关注区域确定软测量模型的输入;

步骤4、建立时序卷积神经网络软测量模型

确定时序卷积神经网络模型的初始参数,并对网络进行前向训练;其中初始参数包括时序卷积神经网络的卷积层数和池化层数,学习率,各隐层、全连接层以及输出层的权值w和偏置b,卷积核以及池化核的个数及大小;

步骤5、训练时序卷积神经网络软测量模型

利用误差反向微调进行有监督训练,通过对误差的修正,优化时序卷积神经网络中的权值w和偏置b;

步骤6、利用步骤5训练好的时序卷积神经网络模型对难测参量进行实时估计

本发明技术方案的进一步改进在于:步骤1中,在采用3σ准则处理数据异常值时,剔除难测参量的异常值;在剔除难测参量异常值的过程中,要剔除该异常值对应的辅助变量的时间序列;

具体方法为:

设难测参量在不同时刻的采样序列为y(k)=(y(0),…,y(n)),对y(k)中的每一个点y(i)进行判断,如果满足式(1),则说明该点为异常点需被剔除,同时应剔除该点对应的各辅助变量数据;

式中,y为变量y(k)的均值;σ为变量y(k)的标准差;

将各变量的数据依据式(2)进行min-max标准化处理,转化为无量纲化指标测评值,使各变量数据处于同一数量级别,进行综合测评分析;

式中,为变量i归一化后的时间序列,ximin为变量i的最小值,ximax变量i的最大值。

本发明技术方案的进一步改进在于:步骤2中,通过对具体工业工艺流程的分析并结合专家经验,判断各辅助变量相对于难测参量的时延参数;根据各辅助变量在工艺流程中作用的时间长短来确定各个辅助变量的时间尺度,由此构建出各辅助变量时间序列中的关注区域;

具体方法为:

设某一采样频率为fi的某辅助变量样本数据在难测参量采样间隔t内的全部时间序列为xi(k)=(xi(0),…,xi(ni-1)),ni为该辅助变量时间序列的长度;由专家经验得到的该辅助变量相对于难测参量的时延大概范围为tdimin~tdimax,作用时长为tsimin~tsimax,则该辅助变量的关注区域内的时间范围为:

则该辅助变量时间关注区域内的时间序列为:

本发明技术方案的进一步改进在于:步骤3中,将各个辅助变量的原始时间序列以及受关注时间段内的时间序列进行特征压缩,然后将经过特征压缩后的各辅助变量时间序列构成二维输入矩阵作为软测量模型的输入;

具体处理方法为:

3-1)、特征压缩过程:

(1)辅助变量全部时间序列特征压缩过程:

在难测参量采样间隔t内辅助变量的全部时间序列为xi(k)=(xi(0),…,xi(ni-1)),特征压缩后的时间序列内数值个数为m,特征压缩后的时间序列为x′i(k)=(x′i(0),……x′i(m-1))。

特征压缩程度li为:

特征压缩过程公式:

(2)辅助变量关注区域内时间序列特征压缩过程:

某辅助变量关注区域内的时间序列为特征压缩后的时间序列内数值个数为n,特征压缩后的时间序列为

特征压缩程度为:

特征压缩过程公式为:

3-2)、构建软测量模型的输入矩阵:

(1)辅助变量的全部时间序列构成的二维输入矩阵为:

式中,分别为由全部时间序列x′0和x′r-1所构成向量的转置,m为特征压缩后各辅助变量时间序列内含有的数值个数,r为辅助变量的个数;

(2)辅助变量关注区域内时间序列构成的二维输入矩阵为:

式中,分别为由关注区域内时间序列所构成向量的转置,n为特征压缩后各辅助变量关注区域内时间序列的数值个数,r为辅助变量的个数。

本发明技术方案的进一步改进在于:步骤4中,软测量模型为多通道卷积神经网络,各通道的卷积层数和池化层数,各隐层、全连接层的权值w和偏置b,卷积核以及池化核的个数及大小可根据各通道的输入数据特征分别设置;各通道采用一维卷积池化方式提取每一列的特征,最后对各通道提取到的特征进行特征融合后输入全连接层;

其中,特征融合的具体方法为:

基于注意力机制的多时间尺度卷积神经网络模型对各通道特征的特征融合过程在全连接层完成,特征融合公式为:

式中,yk-1为融合后的全连接层,分别为通道0、通道i和通道n的全连接层,a为全连接层的特征向量对应位置,max()为求取特征的最大值。

本发明技术方案的进一步改进在于:步骤5中,有监督的反向微调参考bp神经网络中的反向误差修正算法实现逐层优化权值w和偏置b,时序卷积神经网络中的反向训练为有监督训练。

由于采用了上述技术方案,本发明取得的技术效果有:

1、本发明建立的基于注意力机制的多时间尺度卷积神经网络软测量方法能够很好的解决对难测参量进行实时估计的问题。建立的软测量模型具有良好的泛化能力,不仅可以为操作员提供指导,也为后续工业生产的智能控制提供了先决条件。

2、本发明依据流程工业的工艺特点,结合专家经验大致确定各辅助变量相对于难测参量的时延和时长,降低了时序匹配所需的运算量,也避免了因变量之间的强非线性、强耦合性、时滞性以及控制系统的介入而导致的时延和时长难以准确测量的窘境。

3、本发明中的注意力机制的引入,能够很好考虑到各辅助变量的长时间序列中包含更多的信息量的短子序列中所含有的重要显著特征。同时,使得软测量模型既能参考各辅助变量时间序列的全局特征和局部特征。

4、本发明中对时间序列进行特征压缩,有效解决了各辅助变量之间因采样频率不同造成的时间序列长度不一致,难以构建卷积神经网络模型输入的问题,同时也避免了因同一辅助变量相邻采样点数据相同而造成的数据冗余。

5、本发明的特征融合方法能够很好融合各通道的特征,融合后的特征参考了各通道特征之间的差异性,同时降低了各通道特征之间的冗余性。

附图说明

图1为本发明方法的流程图;

图2为本发明方法应用于水泥熟料fcao后的软测量方案;

图3为本发明设计的基于注意力机制的多变量多时间尺度时序卷积神经网络模型结构图;

图4为某一通道的时序卷积过程;

图5为双通道特征融合过程;

图6为本发明方法应用于水泥生产过程中熟料fcao软测量模型的训练后的预测结果图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步详细说明:

本发明公开了一种基于注意力机制的多时间尺度卷积神经网络软测量方法,该方法内容,图1为本发明测量方法的流程图。

该方法包括以下步骤:

步骤1、确定辅助变量并且进行数据处理

通过对工业工艺流程的分析,初步选取与难测参量相关的易测变量作为软测量模型的辅助变量并采集辅助变量与难测参量的时间序列;

然后进行数据采集,并采用3σ准则对数据的异常值进行剔除,并且在训练前对数据进行归一化处理;在采用3σ准则处理数据异常值时,剔除难测参量的异常值;在剔除难测参量异常值的过程中,要剔除该异常值对应的辅助变量的时间序列;

具体特征为:

设难测参量在不同时刻的采样序列为y(k)=(y(0),…,y(n)),对y(k)中的每一个点y(i)进行判断,如果满足式(1),则说明该点为异常点需被剔除,同时应剔除该点对应的各辅助变量数据;

式中,为变量y(k)的均值;σ为变量y(k)的标准差;

将各变量的数据依据式(2)进行min-max标准化处理,转化为无量纲化指标测评值,使各变量数据处于同一数量级别,进行综合测评分析;

式中,为变量i归一化后的时间序列,ximin为变量i的最小值,ximax变量i的最大值。

步骤2、注意力机制及关注区域的选择

采取硬注意力机制,根据工艺流程中各辅助变量相对于难测参量的时延和有效时间尺度划分出关注区域;

通过对具体工业工艺流程的分析并结合专家经验,判断各辅助变量相对于难测参量的时延参数;根据各辅助变量在工艺流程中作用的时间长短来确定各个辅助变量的时间尺度,由此构建出各辅助变量时间序列中的关注区域;

具体方法为:

设某一采样频率为fi的某辅助变量样本数据在难测参量采样间隔t内的全部时间序列为xi(k)=(xi(0),…,xi(ni-1)),ni为该辅助变量时间序列的长度;由经验得到的该辅助变量相对于难测参量的大概时延范围为tdimin~tdimax,作用时长范围为tsimin~tsimax,则该辅助变量的关注区域内的时间范围为:

则该辅助变量时间关注区域内的时间序列为:

步骤3、构建软测量模型的输入

将各辅助变量的时间序列构成矩阵,并结合注意力机制的关注区域确定软测量模型的输入;

将各个辅助变量的原始时间序列以及受关注时间段内的时间序列进行特征压缩,然后将经过特征压缩后的各辅助变量时间序列构成二维输入矩阵作为软测量模型的输入;

具体处理方法为:

3-1)、特征压缩过程:

(1)辅助变量全部时间序列特征压缩过程:

在难测参量采样间隔t内辅助变量的全部时间序列为xi(k)=(xi(0),…,xi(ni-1)),特征压缩后的时间序列内数值个数为m,特征压缩后的时间序列为x′i(k)=(x′i(0),……x′i(m-1))。

特征压缩程度li为:

特征压缩过程公式:

(2)辅助变量关注区域内时间序列特征压缩过程:

某辅助变量关注区域内的时间序列为特征压缩后的时间序列内数值个数为n,特征压缩后的时间序列为

特征压缩程度为:

特征压缩过程公式为:

3-2)、构建软测量模型的输入矩阵:

(1)辅助变量的全部时间序列构成的二维输入矩阵为:

式中,分别为由全部时间序列x′0和x′r-1所构成向量的转置,m为特征压缩后各辅助变量时间序列内含有的数值个数,r为辅助变量的个数;

(3)辅助变量关注区域内时间序列构成的二维输入矩阵为:

式中,分别为由关注区域内时间序列所构成向量的转置,n为特征压缩后各辅助变量关注区域内时间序列的数值个数,r为辅助变量的个数。

步骤4、建立时序卷积神经网络软测量模型

确定时序卷积神经网络模型的初始参数,并对网络进行前向训练;其中初始参数包括时序卷积神经网络的卷积层数和池化层数,学习率,各隐层、全连接层以及输出层的权值w和偏置b,卷积核以及池化核的个数及大小;

软测量模型为多通道卷积神经网络,各通道的卷积层数和池化层数,各隐层、全连接层的权值w和偏置b,卷积核以及池化核的个数及大小可根据各通道的输入数据特征分别设置;因为各变量的数据具有时序性、耦合性和时滞性等特点,各通道采用一维卷积池化方式提取每一列的特征,对各通道提取到的特征进行特征融合后输入全连接层;

其中,特征融合的具体方法为:

基于注意力机制的多时间尺度卷积神经网络模型对各通道特征的特征融合过程在全连接层完成,特征融合公式为:

式中,yk-1为融合后的全连接层,分别为通道0、通道i和通道n的全连接层,a为全连接层的特征向量对应位置,max()为求取特征的最大值。

步骤5、训练时序卷积神经网络软测量模型

利用误差反向微调进行有监督训练,通过对误差的修正,优化时序卷积神经网络中的权值w和偏置b。有监督的反向微调参考bp神经网络中的反向误差修正算法实现逐层优化权值w和偏置b,时序卷积神经网络中的反向训练为有监督训练。

步骤6、利用步骤5训练好的时序卷积神经网络模型对难测参量进行实时估计。

本发明提供了一种基于注意力机制的多时间尺度卷积神经网络软测量方法,用于对难测参量的实时估计。该方法结合专家经验引入注意力机制划分出输入变量的时间序列中的关注区域。通过对输入变量的全部时间序列和关注区域内的时间序列进行压缩解决了各辅助变量因采样频率不同而造成的时间序列长度不匹配的问题。最后对注意力机制模块输出和全局模块的输出进行特征融合,保留多个通道的差异性信息去除冗余信息。其中,多时间尺度的引入不仅能使软测量模型学习到各辅助变量时间序列中的粗细粒度特征,还解决了各变量之间的时变时延问题。综上所述,该软测量方法很好的解决了工业过程中强非线性、耦合性、大时滞对预测结果的影响,并且该方法直接基于实际数据,具有适用性强、成本低、算法简单等优点。

以下是该测量方法实际应用于某水泥厂实际生产中,对水泥熟料fcao进行实时估计的过程。图2是本发明方法应用于水泥熟料fcao后的软测量方案。

大致思路为,首先进行变量选取,根据水泥工艺分析获得与熟料fcao的相关变量,确定软测量建模的时间序列。结合专家经验,确定各辅助变量的时延和时长,确定关注区域,对包含各个变量特征信息的全部时间序列和关注区域内的时间序列进行特征压缩并构建输入矩阵作为建模数据输入双通道软测量模型中,依据时间序列的特点,各通道采用一维卷积池化核的方式提取特征,然后对各通道提取到的特征进行特征融合并将全连接层综合各通道融合后的特征信息传递给输出层。构建的基于注意力机制的多时间尺度卷积神经网络软测量模型如图3所示。最后利用bp神经网络中的误差反向微调原理进行有监督的参数微调,完成了软测量模型的构建。

具体的测量内容和步骤如下:

步骤1:确定辅助变量并且进行数据处理

对水泥工艺的综合分析选取与熟料fcao相关的13个变量,将各变量一定时间段内的数据序列作为软测量模型的输入。

由水泥工艺学可知,水泥生料经回转窑烧成带高温煅烧,发生烧结反应,最后经冷却获得的固体颗粒物料称为水泥熟料,凝固体中含有少量未化合的氧化钙称为游离钙(fcao)。游离钙含量过高会使水泥的安定性下降,过低导致水泥烧成能耗增加,因此fcao需要控制在合理的范围之内。水泥煅烧过程中,烧成带的各参量对熟料fcao含量有着至关重要的作用,因此烧成系统参量是实现熟料fcao软测量的主要因素。烧成带的热量源是分解炉喂煤量、窑头喂煤量以及从篦冷机回收进窑的二次风,此时的烧成带温度影响了生料分解过程中产生的氧化钙含量,以及所产生的氧化钙被其他化合物(sio2、al2o3、fe2o3)吸收情况。高温风机和窑头负压使窑内产生巨大的气压差,保证水泥烧成系统气路畅通,维持窑内压力稳定。回转窑在旋转运行时需要窑电机提供动力,保证了回转窑内物料化学反应的均匀性,窑主机电流越大,说明窑内物料的粘度越大,窑内温度越高。篦下压力在一定程度上反应了篦冷机上物料的厚度。

由上述分析可知,选取与水泥熟料fcao含量密切相关的13个变量:分解炉喂煤量、高温风机转速、分解炉出口温度、喂料量、窑尾温度、窑头负压、二次风温、二室篦下压力、窑电流、窑头喂煤量和三率值(hm、im、sm)。

然后进行数据采集及预处理。

采用3σ准则对采集到的数据的异常值进行剔除,并且在训练前对数据进行归一化处理。

设熟料烧成过程中,水泥熟料fcao在不同时刻的采样序列为y(k)=(y(0),…,y(n)),对y(k)中的每一个点y(i)进行判断,如果满足式(1),则说明该点为异常点需被剔除,同时应剔除该点对应的各辅助变量的时间序列。

式中,为变量y(k)的均值;σ为变量y(k)的标准差;

由于13个辅助变量数据的量纲不同,则评价标准也不同,为了能够统一评价标准,则需要将13个辅助变量的数据依据式(2)进行min-max标准化处理,转化为无量纲化指标测评值,满足数据之间的可比性。当各变量数据处于同一数量级别,可进行综合测评分析。

式中,为变量i归一化后的时间序列,ximin为变量i的最小值,ximax变量i的最大值。

步骤2:注意力机制及关注区域的选择

依据专家经验结合硬注意力机制,根据各辅助变量相对于难测参量的时延和作用时长大致划分出关注区域。

设熟料烧成过程某一采样频率为fi的辅助变量在熟料fcao采样间隔t内的全部时间序列为xi(k)=(xi(0),…,xi(ni-1)),ni为该辅助变量时间序列的长度。由水泥厂中专家的经验得到的该辅助变量相对于熟料fcao的大概时延范围为tdimin~tdimax,作用时长范围为tsimin~tsimax,则该辅助变量的关注区域内的时间范围为:

则该辅助变量时间关注区域内的时间序列为:

如采样频率为12次/min的分解炉出口温度在水泥熟料fcao采样间隔60min内的全部时间序列为x(k)=(x(0),……,x(719)),专家经验得到分解炉出口温度相对于水泥熟料fcao的大概时延范围为57~59min,有效作用时长约为10~20min,则该辅助变量的时间关注区域为:关注区域内的时间序列为:

按照此方法,对其余12个辅助变量进行处理。

步骤3:构建软测量模型的输入

因为在生产过程中,各辅助变量之间的采样频率可能是不同的,需要将各个辅助变量的原始时间序列以及受关注时间段内的时间序列进行特征压缩,使经过特征压缩后的各辅助变量时间序列能够构成二维输入矩阵。

综合考虑水泥熟料生产过程中各辅助变量的采样频率,确定各辅助变量时间序列经特征压缩后含有相同的数值个数,原始时间序列内的数值个数应为特征压缩后时间序列内数值个数的整数倍。

该步骤主要包括两个处理过程,为了便于说明将其中的特征压缩过程记做步骤3-1,将其中的构建软测量模型的输入矩阵的过程记做步骤3-2。以下为具体实施内容。

步骤3-1、特征压缩过程包括以下两个处理过程:

(1)辅助变量全部时间序列特征压缩过程:

在水泥熟料fcao采样间隔t内某辅助变量xi的全部时间序列为xi(k)=(xi(0),…,xi(ni-1)),特征压缩后的时间序列内数值个数为m,特征压缩后的时间序列为x′i(k)=(x′i(0),……x′i(m-1))。

特征压缩程度li为:

特征压缩过程公式:

(2)辅助变量关注区域内时间序列特征压缩过程:

某辅助变量xi关注区域内的时间序列为特征压缩后的时间序列内数值个数为n,特征压缩后的时间序列为

特征压缩程度为:

特征压缩过程公式为:

如对步骤3中的分解炉出口温度的全部时间序列和关注区域内时间序列进行特征压缩,特征压缩后的全部时间序列内数值个数为60,关注区域内时间序列内的数值个数也为60,这样,关注区域内的时间序列相当于对全部时间序列内的局部进行放大,且关注区域内可能含有较多的信息。

特征压缩后的分解炉出口温度的全部时间序列为:

x′(k)=(x′(0),……x′(59))

特征压缩后的分解炉出口温度关注区域内的时间序列为:

按照此方法,对其余12个辅助变量进行处理。

步骤3-2、构建软测量模型的输入矩阵的过程如下:

因为时序卷积神经网络模型的输入要求是二维张量,即输入是二维矩阵。我们需要分别将特征压缩后的水泥熟料fcao辅助变量的全部时间序列和关注区域内的时间序列构建成二维矩阵作为软测量模型的输入。

(1)辅助变量的全部时间序列构成的二维输入矩阵为:

式中,分别为由全部时间序列x′0和x′12所构成向量的转置,在60×13中,60为特征压缩后各辅助变量时间序列内含有的数值个数,13为是辅助变量的个数;

(4)辅助变量关注区域内时间序列构成的二维输入矩阵为:

式中,分别为由关注区域内时间序列所构成向量的转置,在60×13中,60为特征压缩后各辅助变量关注区域内时间序列的数值个数,13为是辅助变量的个数。

步骤4:建立时序卷积神经网络软测量模型

本发明中的基于注意力机制的多时间尺度卷积神经网络模型结构图如图3所示,该软测量模型为双通道卷积神经网络,各通道的卷积层数和池化层数,各隐层、全连接层的权值w和偏置b,卷积核以及池化核的个数及大小可根据各通道的输入数据特征分别设置。各通道均采用单维卷积池化方式提取每一列的特征,对各通道提取到的特征输入全连接层,同时在全连接层处进行双通道特征融合。

在水泥熟料的生产过程中各变量之间的强耦性导致了变量间的时间延迟很难确定,同一时刻、不同变量的数据可能不具有关联性,且各变量对难测参量的影响程度不同。采用单维的卷积池化方式,既避免了各辅助变量之间及各辅助变量与水泥熟料fcao之间的时滞不定性问题,又很大程度上降低了时序匹配所需的运算量,避免了在时序匹配时可能造成的特性信息丢失。某一通道的卷积池化方式如图4所示,该通道的k-1层为经多次卷积和池化之后得到的特征向量,作为全连接层的输入。该全连接层的输入与输出之间的关系如下式。

式中,分别为通道i中全连接层的权值和偏置。

由于各通道提取到信息具有差异性和冗余性,需要对各通道提取到差异性信息和冗余性信息进行特征融合,保留差异性信息去除冗余性信息。基于注意力机制的多时间尺度卷积神经网络模型对各通道特征的特征融合过程在全连接层完成。

本发明采用的双通道特征融合方式如图5所示,特征融合公式为:

式中,yk-1为融合后的全连接层,分别为通道0、通道1的全连接层,a为全连接层的特征向量对应位置,max()为求取特征的最大值。

为了避免过拟合,在该网络模型输出层前采用正则化方法——丢失数据(dropout)技术,达到提升网络模型泛化能力的目的。如图5中第k层所示,时序卷积神经网络输出层采用线性加权求和直接计算难测参量的值。则该层输入xk与输出值y'之间的计算公式为:

y'=wkxk+bk(12)

式中wk和bk为别为输出层的权值和偏置。

步骤5:训练时序卷积神经网络软测量模型

将步骤4中构建的输入矩阵输入到软测量模型中。利用bp神经网络中的误差反向微调原理进行有监督训练,通过对误差的修正,优化时序卷积神经网络中的权值w和偏置b。

步骤6:利用步骤5训练好的时序卷积神经网络模型对难测参量进行实时估计。

本发明方法应用于水泥生产过程中熟料fcao软测量模型的训练后的预测结果如图6所示。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1