一种基于分段形态表示的工业序列数据缺失的填补方法

文档序号:6401440阅读:230来源:国知局
专利名称:一种基于分段形态表示的工业序列数据缺失的填补方法
一种基于分段形态表示的工业序列数据缺失的填补方法技术领域
本发明属于信息技术领域,涉及到序列非等间距分割、序列形态表示、寻找相似序列和回声状态网络建模理论,是一种基于分段状态表示的工业序列数据缺失的填补方法。本发明利用工业现场已有的历史数据,首先对待填补的目标序列进行非等间距分割,然后通过幅值水平,变化趋势以及波动大小三个特征量对分割后序列进行形态表示,进一步计算序列形态表示相似系数,利用计算的相似系数来寻找相似序列,最后利用机器学习的方法建立数据缺失填补模型,实现对缺失数据序列的填补。从而有效地保障现场调度人员所需数据的完整性和可靠性。此方法在不同工业领域中均可有广泛的应用。
背景技术
随着信息技术的发展,尤其是大数据时代的到来,数据逐步成为了解决很多工业问题的关键,如近些年发展的基于数据的优化、控制、调度、决策和故障诊断等。基于数据的相关研究前提是有完整的数据,然而由于生产过程工艺的复杂性、采集过程故障、系统传输偏差、数据存储异常等原因,现场采集到的数据经常出现不同程度的缺失情况,这样很容易导致相关工作人员在制定优化、控制和调度时的误判,做出错误的决策,影响正常的生产运行。因此,工业现场急需一种对缺失数据进行填补的科学方法。
常见的数据填补问题通常分为两类:一是对多变量问题中的某个变量的值的缺失的填补,目前对该类数据填补的研究很多,主要是借助于其它几个变量的值来估计某一变量的缺失值,如对日常降水量数据缺失的填补(c.Simolo, M.Brunetti, M.Maugeri, etal.(2010).1mproving estimation of missing values in daily precipitation seriesby a probability density function-preserving approach.1nternational Journalof Climatology, 30,1564 - 1576),对基因表达序列数据缺失的填补(X.B.Zhangj H.N.Wang, X.F.Songj H.P.Zhang.(2007).A non-parametric imputation method formicroarray missing values.Computers and Applied Chemistry,24(12),1611-1616),对微阵列矩阵中的数据缺失的填补(T.Aittokalli0.(2010).Dealing with missingvalues in large-scale studies:microarray data imputation and beyond.BriefBioinformatics, 11(2),253-264) ;二是对序列数据缺失的填补,对该类序列数据缺失进行填补目前是非常少见的。
工业数据中存 在着大量的序列数据,如典型的与时间相关的序列数据,在数据填补领域属于序列数据缺失填补,其填补难点在于:1)序列形态的表示;2)样本序列与目标序列的相似度计算;3)建立有效的数据填补模型。目前还缺少一种有效的方法能够同时解决上述所示的三个问题。发明内容
本发明要解决的技术问题是工业序列数据缺失的填补问题。为解决上述这一问题,对某工业现场提供的数据进行分析,首先对待填补的目标序列以及样本序列进行非等间距分割;然后通过幅值水平、变化趋势以及波动大小三个特征量对分割后序列进行形态表示,进一步计算序列形态表示相似系数,利用计算的相似系数寻找相似序列;最后利用机器学习的方法建立数据缺失填补模型,实现对缺失序列数据的填补。利用该发明可以准确地对不同程度缺失的工业序列数据进行有效填补,从而为现场工作人员进行优化、控制和调度等工作提供决策支持。
本发明技术方案的整体实现流程如附图1所示,具体步骤如下:
1.建立历史数据库:从现场实时数据库中读取能源数据,将数据序列划分为与目标序列等长的样本序列;
2.序列非等间距分割:对目标序列和样本序列进行非等间距分割;
3.筛选训练样本:对分割好的序列进行形态表示,计算目标序列与样本序列的相似度,筛选相似度较高的样本作为训练样本;
4.建立基于机器学习方法的数据填补模型:训练样本中已知索引数据点为网络输入,缺失索引数据为网络输出,训练缺失数据模型;
5.进行数据填补:目标序列作为填补模型输入,获取填补序列。
本发明的效果和益处是:
本发明在对工业现场序列数据进行填补时,通过对目标序列和样本序列的非等间距分割,能够对序列进行更好的形态表示;在对序列进行形态表示时,综合考虑幅值水平、变化趋势和波动大小是更有效的形态表示方法;给出一种更有效的计算序列相似性的方法,筛选出有效的训练样本;利用机器学习方法对筛选好的训练样本进行训练,建立的数据填补模型运行速度快,精度高。
本发明能够根据给定工业序列数据的特点,提出一套关于工业序列数据缺失的填补方法,及时有效的填补缺失的数据,从而为现场相关的优化、预测和平衡调度提供有效的支持。


图1为本发明的实施流程图。
图2(a)为1#高炉煤气受入流量监测曲线。
图2(b)为1#热轧使用高炉煤气流量监测曲线。
图2(c)为1#焦炉使用高炉煤气流量监测曲线。
图3为如何利用key - sliding - window分割方法对序列进行非等间距划分。
具体实施方式
·
为了更好地理解本发明的技术方案,本发明以冶金企业能源序列数据缺失为例,结合附图对本发明的实施方式作详细描述。冶金企业能源序列数据的种类众多,不同的能源数据呈现出不同的特征,如具有类周期特性并且数据波动幅度较大的数据,见附图2(a)高炉煤气受入流量数据;具有相对固定的周期性数据,见附图2(b)焦炉使用高炉煤气流量数据;还有无明显规律性的数据,见如图2(c)热轧用户高炉煤气使用量。本发明通过对不同类型的能源序列数据进行非等间距划分,使得每段序列划分可以用同一特征量即序列形态进行表示,以待填补序列为比对目标,寻找与待填补序列相似性较高的序列作为机器学习的样本,从而建立缺失数据填补模型,完成冶金能源序列数据缺失的填补。按照图1所示的方法流程,本发明的具体实施步骤如下:
步骤1:样本的获取
从工业现场实时数据库中读取能源数据,将读取的数据序列划分为与目标序列等长的样本序列;
步骤2:序列非等间距分割
以key -sliding -window分割方法为例来说明如何对上述的序列进行非等间距划分,首先逐次选取序列内点与指定邻域δ内的所有数据点进行比较,若该点为其范围内最大值点或最小值点则将该点定义为关键点,本发明取全部关键点对序列进行粗划分,如果两个关键点之间的数据点数大于3个,在此基础上采用sliding -window方法验证关键点间的数据是否平稳,对非平稳的粗划分进一步精划分,如附图3所示,Si,Sj为序列S的两个连续关键点,两个连续关键点包含点数大于3个,需要用滑动窗进一步精划分,Sk为两个连续关键点间任意一点,Si与Sk右侧点依次连线表示为lk, Sk到滑动窗端点拟合直线的垂直距离为 dk,给定 sliding -window 拟合最大误差 emax,若 max (dk) >emax,则 sk 为 sliding -window分割点。
对于序列S,用key -sliding -window分割方法将序列划分为η段,序列表示如式(1),其中skl,skr, Ik分别表示第k段划分的左侧起点和右侧终点以及第k段划分包含的段数。
S- { (Sn,Sir,li),......,(Skl,Skr,lk),......Sni,Snr, ln) } ( I )
步骤3:筛选训练样本
采用基于序列形态表示的方法筛选训练样本具体流程如下:
①本发明提出利用均值偏移,变化趋势以及标准差来描述序列特征。序列的均值表示为:
U= (U1,......, uk,......Un) (2)
其中,Uk表示第k段序列的均值。序列变化趋势用tr表示,tr表示形式如下:
tr=(l,0,......,I) (3)
其中,I表示序列趋势上升即在该段划分内st>skl,否则用O表示序列趋势下降。σ为序列标准差,表示序列的波动程度,即:
σ=(σ”......,σ k,......,σ n) (4)
其中,ok表示第k段序列的标准差。对于给定的序列,序列均值偏移表示该段序列偏离序列整体均值的程度,能够有效表示幅值所处的一个整体水平,序列S的第k段均值偏移表不为:
权利要求
1.一种基于分段形态表示的工业序列数据缺失的填补方法,其特征在于如下步骤: (1)从工业现场的实时数据库读取序列数据,用序列数据划分为与待填补的目标序列等长的样本序列; (2)将待填补序列和其他的样本序列进行非等间距分割: 首先对序列进行非等间距划分,逐次取序列内点与指定邻域S内的所有数据点进行比较,若该点为其范围内最大值点或最小值点则将该点定义为关键点,取全部关键点对序列进行粗划分;如果两个关键点之间的数据点数小于3个,则不需要精划分,否则,验证关键点间的数据是否平稳,并对非平稳的粗划分进一步精划分:选取两个关键点间的任意一点,将该点右侧的点与左侧关键点间做连线,如果该点到各条连线间的距离的最大值大于指定的最大拟合误差,则视该点为一个新的关键点,用于进行分割; 对于序列S,将序列划分为η段,序列表示如式:S { (Sn,Sir,I), ,(Ski,Skr,Ik),......^nlJ ^nrJ In) 其中,skl,Skr, Ik分别表示第k段划分的左侧起点和右侧终点以及第k段划分包含的段数; (3)计算序列的形态相似性,筛选训练样本 ①用均值偏移,变化趋势以及标准差来描述序列特征。序列的均值表示为: U= (U1,......, Uk,......Un) 其中,Uk表示第k段序列的均值。序列变化趋势用tr表示,tr表示形式如下: tr=(l, O,......,I) 其中,I表示序列趋势上升即在该段划分内st>skl,否则用O表示序列趋势下降;σ为序列标准差,表示序列的波动程度,即: . 0 =(° I,......, 0 k,......, ση) 其中,O k表示第k段序列的标准差。对于给定的序列,序列均值偏移表示该段序列偏离序列整体均值的程度,能够有效表示幅值所处的一个整体水平,序列S的第k段均值偏移表示为cik=uk/u ; ②对于比较两相似序列Si,Sj第k段划分的相似性,定义第k段的相似性系数为:
全文摘要
一种基于分段形态表示的工业序列数据缺失的填补方法,首先对待填补的目标序列进行非等间距分割,并通过幅值水平、变化趋势以及波动大小三个特征量对分割后序列进行形态表示,然后建立一种计算形态表示相似系数的方法,利用计算的相似系数来寻找相似序列,最后利用机器学习方法训练待填补序列的相似序列,以建立数据缺失填补模型,实现对缺失数据序列的填补。本发明能够对工业过程因数据存储或传输故障等原因导致的序列数据缺失情况进行填补,进一步完整监测数据,提高数据的可靠性为实施工业过程基于数据的优化、控制和调度工作提供保障。
文档编号G06F17/30GK103246702SQ20131011382
公开日2013年8月14日 申请日期2013年4月2日 优先权日2013年4月2日
发明者刘颖, 赵珺, 盛春阳, 徐世坤, 王伟 申请人:大连理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1