本发明涉及电网设备的数据处理,具体涉及一种基于关联规则的电网设备数据流清洗方法。
背景技术:
目前,电力系统中针对电网设备的在线数据流清洗一直是电力系统状态估计的重要功能之一,并且数据中不良数据的存在导致无法对电网设备实现准确有效的监测。然而在对电网设备进行在线数据监测时有可能出现数据采集设备异常,操作失误或者数据传输通道阻塞等原因,导致误差较大的不良数据出现。因为,由上述原因形成的不良数据的出现,使得对电网设备风险的评估发生较大的偏差,进而增加了电网维护、检修与调度工作的复杂度与经济成本,因此影响了整个电力系统安全稳定的运行。
技术实现要素:
本发明的主要目的在于提供一种基于关联规则的电网设备数据流清洗方法。
本发明采用的技术方案是:一种基于关联规则的电网设备数据流清洗方法,包括以下步骤:
s1,通过利用apriorri算法对数据流中各个数据序列的历史数据,进行关联强度的计算,并输出不同数据序列间的关联关系;
s2,利用基于滑动时间窗口的异常数据筛选算法对关联强度较弱的数据序列,进行逐一检测,若发现数据序列中的存在异常点,则利用小波神经网络进行数据清洗;
s3,对于关联程度较高的数据序列在同一时刻做异常数据辨识处理;
s4,将多种小波基函数的神经网络应用到数据清洗中,完成组合预测。
进一步地,所述步骤s1中具体包括:
将数据序列符号化,划分成若干个子序列;
通过apriorri算法发现项集中置信度小于阈值的规则;
设数据序列a与数据序列b,其中存在n条关联规则
置信度为:
进而得出不同数据序列间的关联关系,以找出关联强度较高的数据序列。
更进一步地,所述步骤s2中对数据序列中异常点的判断步骤如下:
s21,选则一段时间的数据序列,在开始点设置窗口大小为的滑动窗口;
s22,弱数据点
s23,计算滑动窗口内各个数据点到空间中心的平均距离为:
式中
s24,计算
从而计算出预测的位于均值附近的
s25,将阈值利用
s26,重复执行步骤s22至s25,直至所有时间序列遍历结束,并输出含有时刻标记的异常集d;
其中时间序列为根据时间和其记录值组成的元素,并对此元素在集合中进行有序排列,其表示为
更进一步地,所述步骤s3具体为:
对于关联程度较高的数据序列在同一时刻做异常数据辨识处理,如果两个或者多个关联性较强的数据序列在相近时刻出现了异常数据,将此按由设备异常所引起的异常数据来进行处理;如果关联性较强的多个序列中仅仅单个数据序列出现了个别的异常,将通过小波神经网络对其关联的数据序列进行数据预测,得出其实际值与预测之间的差异;如果差异过大,则认为设备异常,否则认为采集设备波动。
更进一步地,所述步骤s4中的小波基函数包括:
更进一步地,所述
所述
所述
预测偏差
式中
当输入信号序列为时,隐藏层输出公式为:
式中
小波神经网络输出层计算公式为:
式中
利用分别含有3种小波基函数神经网络的分析结果
设存在
本发明的优点:
本发明的一种基于关联规则和改进后小波神经网络的大数据流清洗方法,通过对数据序列间关联强度的分析,结合基于滑动窗口的异常数据筛选原理,来对异常数据的形成原因进行甄别。并通过优化小波神经网络参数的方式改进小波神经网络,并采用优化后的小波神经网络对由采集装置波动而形成的不良数据进行清洗,进而完成对电网设备数据流的实时清洗。对电网设备风险的评估准确,数据稳定可靠。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明的数据流清洗方法流程图;
图2是本发明的算法流程图;
图3是本发明的小波神经网络拓扑结构图;
图4是本发明的三种神经网络分析结果图;
图5是本发明的原始序列和3种小波基神经网络组合分析后序列图
图6是本发明的乙烯产气率和油温原始数据图;
图7是本发明的第2组待测数据关联序列异常点图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由各个电网设备在线监测数据序列集合而形成的数据流,其中的异常数据产生原因可以划分为两个类别:由采集设备异常产生的不良数据,或者由电网设备故障而形成的异常数据。本发明主要对由采集设备异常形成的不良数据进行甄别与清洗,并对设备异常数据进行保留。
参考图1,如图1所示,一种基于关联规则的电网设备数据流清洗方法,包括以下步骤:
s1,通过利用apriorri算法对数据流中各个数据序列的历史数据,进行关联强度的计算,并输出不同数据序列间的关联关系;
s2,利用基于滑动时间窗口的异常数据筛选算法对关联强度较弱的数据序列,进行逐一检测,若发现数据序列中的存在异常点,则利用小波神经网络进行数据清洗;
s3,对于关联程度较高的数据序列在同一时刻做异常数据辨识处理;
s4,将多种小波基函数的神经网络应用到数据清洗中,完成组合预测。
所述步骤s1中具体包括:
将数据序列符号化,划分成若干个子序列;
通过apriorri算法发现项集中置信度小于阈值的规则;
设数据序列a与数据序列b,其中存在n条关联规则
置信度为:
进而得出不同数据序列间的关联关系,以找出关联强度较高的数据序列。
数据序列间的关联强度的作用是为表示不同数据序列间的关联关系,同时,置信度的作用是为表示这一关联关系的可信度。不同数据序列间的关联性越强,则说明其关系十分紧密。不同数据序列间的置信度越高,则其关联强度就愈加可信。在分析电网设备在线监测数据流中不同数据序列时,若干两个数据序列间的最小支持度与置信度大于设定的最小值,则我们在后续的数据清洗过程中,需要考虑它们之间的关联关系,反之则认为两个数据序列间不具有关联性。参考一般关联规则,本发明将最小支关联度与置信度的阈值均设为。
所述步骤s2中对数据序列中异常点的判断步骤如下:
s21,选则一段时间的数据序列,在开始点设置窗口大小为的滑动窗口;
s22,弱数据点
s23,计算滑动窗口内各个数据点到空间中心的平均距离为:
式中
s24,计算
从而计算出预测的位于均值附近的
s25,将阈值利用
s26,重复执行步骤s22至s25,直至所有时间序列遍历结束,并输出含有时刻标记的异常集d;
其中时间序列为根据时间和其记录值组成的元素,并对此元素在集合中进行有序排列,其表示为
所述步骤s3具体为:
对于关联程度较高的数据序列在同一时刻做异常数据辨识处理,如果两个或者多个关联性较强的数据序列在相近时刻出现了异常数据,将此按由设备异常所引起的异常数据来进行处理;如果关联性较强的多个序列中仅仅单个数据序列出现了个别的异常,将通过小波神经网络对其关联的数据序列进行数据预测,得出其实际值与预测之间的差异;如果差异过大,则认为设备异常,否则认为采集设备波动。
所述步骤s4中的小波基函数包括:
所述
所述
所述
小波神经网络是基于神经网络而构建的,其运行原理为把小波基函数看作隐藏层节点的传递函数,在信号前向传递时,将其误差进行反向传播的一种神经网络。小波神经网路的拓扑结构如图3所示。
预测偏差
式中
当输入信号序列为时,隐藏层输出公式为:
式中
小波神经网络输出层计算公式为:
式中
利用分别含有3种小波基函数神经网络的分析结果
设存在
实验分析:
无关联性序列清洗案例:
本发明利用组无异常的甲烷数据,来对小波神经网络进行训练。完成对小波神经网络的训练后,利用组未知状态的甲烷数据对其进行测试。图4中的实现所代表的是正常数据的分布情况,但是为验证所述算法的可行性,在原始数据中的第样本至第样本处混入了一段高斯白噪声,并将第处样本移除,第样本处添加一个异常数据,进而形成一条需进行清洗处理的数据样本,并在图4中利用虚线表示。
利用基于滑动窗口的异常数据筛选算法查找异常数据点,如图5所示,此数据被看作由数据采集设备波动所导致的异常数据,所以需要利用清洗算法进行处理。通过分别含有类小波基函数的小波神经网络来计算分析,其处理结果如图3-5所示。并在表3-3中展示具体误差,由此能够得到在对电网设备数据序列的处理上具有更好的性能。
表3-3单序列异常点清洗结果
为处理第个数据样本,使改进后的小波神经网络同,神经网络和算法进行对比分析。其处理结果在表3-4中进行展示,由表可知改进后的小波神经网络在对变压器数据序列处理上的准确率较高。
表3-4不同预测方法结果比较
利用包含组合预测公式的小波神经网络对数据处理的结果在图6中进行展示,并由此图能够得出处理后的数据序列更加接近真实值。
强关联性序列清洗案例:
上述实验结果验证了乙烯产气率与油温间的关联强度较高,因此能够利用此数据来对小波神经网络进行训练。同时将设备与异常数据分别混入到第一组测试样本中的第50个样本处,与第二组数据的第75个样本处,将有传感器波动所引起的异常数据放置到第一组数据的第100个样本数。
通过400组无异常来训练改进后的小波神经网络。并将第一组测试样本放入其中,并且此样本中第50个样本数据为设备异常数据,第100个样本为传感器波动所引起的不良数据,利用基于滑动窗口的异常数据检测算法找出序列中的异常数据和缺失样本。
(1)经过利用异常数据检测算法处理后,在1区域第50样本处,乙烯产气率序列与油温序列同时发现了异常数据,数据分布在图7内进行展示。由数据清洗流程中的步骤可知此处设备状态发生了异常,所以不对此样本进行清洗。而实际情况为此处数据确实为变压器故障数据。
(2)在2区域中的第100样本处,利用异常检测算法在乙烯变化率的序列中发现了异常数据,那么将对与其关联性较强油温序列进行数据预测处理,得出油温序列在此时刻预测结果的偏差值,其具体结果由表3-5可知。从表3-5能够看出油温序列在第100样本处的预测偏差值比较小,进而可以得出在此时刻数据采集装置出现了波动,因此将对乙烯产气率序列在此数据样本处执行数据清洗算法。
表3-5油温变化量在第100个数据处预测结果
(3)在对第2组数据进行测试时,得出仅仅在油温序列的第75个样本处发现了异常,其数据具体分布在图6中进行展示,因此需要在此时刻对与其关联性较强乙烯产气率进行数据样的预测处理,得出预测误差值。
分别选用含有3类不同小波基函数的小波基神经网络,在第75样本对其进行预测处理,具体预测值在表3-6内进行展示。由此表中的预测偏差值能够得出,不同类别的小波神经网络在此时刻的预测偏差值较大。通过序列关联强度与神经网络预测结果可以得出,此时刻设备出现了异常。需对设备进行具体分析。
表3-6乙烯产气率在第75个数据处的预测结果
然而由于存在当设备故障发生时,个别数据序列的波动幅度有限,因此无法利用基于滑动窗口的异常数据检测算法及时发现,因此为进一步提高数据流中对异常点辨识的精度,考虑针对关联性强的两组数据序列,结合改进后的小波神经网络,从此数据序列中辨识出由设备异常而形成的异常数据。由实验验证结果可以得出,基于关联规则的电网设备数据流清洗方法,能够及时辨识出设备异常数据,同时对由采集设备波动所以引起的异常数据进行剔除及清洗。
本发明的一种基于关联规则和改进后小波神经网络的大数据流清洗方法,通过对数据序列间关联强度的分析,结合基于滑动窗口的异常数据筛选原理,来对异常数据的形成原因进行甄别。并通过优化小波神经网络参数的方式改进小波神经网络,并采用优化后的小波神经网络对由采集装置波动而形成的不良数据进行清洗,进而完成对电网设备数据流的实时清洗。对电网设备风险的评估准确,数据稳定可靠。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。