一种基于动态离群点检测的配电网数据在线清洗方法

文档序号:8488259阅读:409来源:国知局
一种基于动态离群点检测的配电网数据在线清洗方法
【技术领域】
[0001] 本发明涉及一种配电网数据在线清洗方法,具体涉及一种基于动态离群点检测的 配电网数据在线清洗方法。
【背景技术】
[0002] 配电网作为电力系统面向用户的最后环节,具有设备量多且分布广,网络拓扑架 构复杂且不稳定等特点,配电终端采集信息多为电流、电压、开关位置等状态量及模拟量, 采集频率较高使得总体采集数据量级非常大,同时配电自动系统业务繁多,各应用对通信 的需求有所区别,部分应用对数据的实时性要求较高,为了实现数据监测通信的统一以及 扩展业务的需要,配电网在线数据采集是当前非常重要的一项工作。
[0003] 而安装在高中低压配电网现场的各种远方监测设备(主要包括配电开关监控终 端、配电变压器监测终端、开关站和公用及客户配电所的监控终端)、用电信息采集终端和 各类通信设备长期暴露于户外,部分设备环境适应能力较差,故障率较高,当出现故障时会 产生大量错误数据;同时配电网所使用的通信方式在电力系统中较为复杂多样,其中既包 括可靠性很强的光纤以太网方式,也有一些质量较差的配电载波、GPRS或3G无线通信方 式,还有一些小众的无线扩频、Zigbee技术,这些通信方式当遭受雷击过电压、大电流冲击 等强电磁干扰时会出现错码断码现象。配电网量测误差至少还包括:PT/CT设备误差、时间 不同步导致数据采集的不同时性、三相不平衡及功率因数变化导致的误差。虽然配电网所 采集的绝大部分数据都是正常数据,只有极少量的异常数据,但这仍然会干扰配电网的运 行状态监测、实时仿真分析和基础计算优化等工作。

【发明内容】

[0004] 针对现有技术的不足,本发明提供一种基于动态离群点检测的配电网数据在线清 洗方法,通过建立数据缓冲队列,动态更新欧式矩阵和清除数据异常点三个过程对配电网 运行和故障过程中产生的配电网数据实时在线数据进行清洗,提升了配电网数据质量及可 用性,从海量时序样本中快速排除干扰点,提高仿真计算和状态监测等工作结果的精确度。
[0005] 本发明的目的是采用下述技术方案实现的:
[0006] 一种基于动态离群点检测的配电网数据在线清洗方法,其改进之处在于,包括:
[0007] 步骤⑴建立缓冲队列,缓冲队列接收第1批配电网实时数据集合&并获取所述 缓冲队列的长度1 1;
[0008] 步骤(2)对所述数据集合4计算所有数据点间的欧氏距离,形成欧氏矩阵D1; [0009] 步骤(3)若缓冲队列不再接收配电网实时数据集合,则执行步骤(5);若缓冲队列 继续接收第n批配电网实时数据集合An,则根据所述第n批配电网实时数据集合An计算缓 冲队列的长度ln、数据点间的欧氏距离dn和欧氏矩阵Dn,并对欧氏矩阵Dn_i进行稀释,获取 稀释后的配电网实时数据集合A'n_i,其中,n为配网数据源的第n个周期的实时数据; [0010] 步骤(4)根据所述配电网实时数据集合A'n_i获取欧式矩阵Dn' ,并将欧氏矩 阵〇"与欧式矩阵Dn' 合并得到矩阵Dn";使用离群点检测算法检测Dn"异常数据,将错 误数据发回数据源端重传或纠错,输出清洗结果并清空缓冲队列,执行步骤(3);
[0011] 步骤(5)数据清洗结束并输出清洗结果。
[0012] 优选的,所述步骤(2)包括:欧氏距离计算公式为:
[0013] 屯(i,j) = [ (Xn-Xji) 2+(xi2-xj2) 2+. ? ? + (xip_XjP)2]1/2 (1)
[0014] 其中i= [xn,xi2, ? ? ?,xip]和j= [Xji,xj2, ? ? ?xjp]为集合六丨中的两个p维的对 象;
[0015] 根据式⑴的计算结果获取欧氏距离矩阵D1:
【主权项】
1. 一种基于动态离群点检测的配电网数据在线清洗方法,其特征在于,包括: 步骤(1)建立缓冲队列,缓冲队列接收第1批配电网实时数据集合4并获取所述缓冲 队列的长度11; 步骤(2)对所述数据集合&计算所有数据点间的欧氏距离,形成欧氏矩阵D1; 步骤(3)若缓冲队列不再接收配电网实时数据集合,则执行步骤(5);若缓冲队列继续 接收第n批配电网实时数据集合An,则根据所述第n批配电网实时数据集合An计算缓冲队 列的长度ln、数据点间的欧氏距离dn和欧氏矩阵Dn,并对欧氏矩阵Dn_i进行稀释,获取稀释 后的配电网实时数据集合A'n_i,其中,n为配网数据源的第n个周期的实时数据; 步骤(4)根据所述配电网实时数据集合A'n_i获取欧式矩阵D'n_i,并将欧氏矩阵0" 与欧式矩阵D'n_i合并得到矩阵D"n;使用离群点检测算法检测D" "异常数据,将错误数 据发回数据源端重传或纠错,输出清洗结果并清空缓冲队列,执行步骤(3); 步骤(5)数据清洗结束并输出清洗结果。
2. 如权利要求1所述的方法,其特征在于,所述步骤(2)包括:欧氏距离计算公式为: ^ (i,j) = [ (Xii-Xjj) 2+ (xi2-xJ2) 2+. . . + (xip-xJp)2]1/2 (1) 其中i= [xn,xi2, . . .,xip]和j=[Xpxj2, . . .xjp]为集合六:中的两个p维的对象; 根据式(1)的计算结果获取欧氏距离矩阵D1:
(2) 其中,所述矩阵〇:为1iXli矩阵,1 ,为所述缓冲队列的长度。
3. 如权利要求1所述的方法,其特征在于,所述步骤(3)中对欧氏矩阵Dn_i进行稀释包 括:将所述集合An_i中的每一维AmW(0 <j<p)等分区域并在所述等分区域中随机删除 点;其中,所述若干个区域和所述若干个点根据所述缓冲队列的长度UP1n获取。
4. 如权利要求3所述的方法,其特征在于,所述将所述集合An_i中的每一维A <j<P)等分区域并在所述等分区域中随机删除点包括:计算稀释因子&
(3) 其中,稀释因子3为删除点所占总体的百分比;ln为当前周期缓冲队列长度,ln_i为前 一周期缓冲队列长度。
5. 如权利要求4所述的方法,其特征在于,计算基于每维每个区间所标记的待删除点 数量的矩阵H的公式为:
其中,5为稀释因子,f(Xl,x2)表示在4和&间数据点个数,znuffl为根据实际情况而设定 的每一维度等分的区间个数,《以为么中最小值,中最大值,P为矩阵维度。
6. 如权利要求5所述的方法,其特征在于,为保证时间复杂度为0 = 1mXp,包括如下 步骤: 步骤(3-1)建立数组队列a[ZnUffl],a[zM]对应An_/j)的每一个子区间,遍历An_/j)中的 参数; 步骤(3-2)根据判断参数所属区间并且放入队列a[k]中,其中为為 中最小值,C为An_,中最大值 步骤(3-3)根据公式(5)判断该参数是否需要删除
(5) 其中,deleteNum,表示a[k]中已标记为待删除点的数量,3为稀释因子; 步骤(3-4)随机选取队列a[k]任意一点代入公式(5)中,若满足公式(5)则将该点标 记为待删除点并更新deleteNumk; 步骤(3-5)An_iu)遍历完成后,从An_i中删除所有标记为待删除的点。
7. 如权利要求1所述的方法,其特征在于,所述步骤(4)中矩阵D" "为:
(6) 其中,E为所述配电网实时数据集合A'n_i与所述配电网实时数据集合An的欧氏距离,D'n_i为数据集合A'n_i的欧式矩阵,Dn为配电网实时数据集合An的欧氏矩阵; 时间复杂度〇 = (G+ImXln)/2,其中ln为当前周期缓冲队列长度,1n_i为前一周期缓 冲队列长度。
8. 如权利要求7所述的方法,其特征在于,计算矩阵D"n中每个对象ai与其他对象之 间的距离并获取第k大的距离[distance(叫),其中,k为正整数。
9. 如权利要求8所述的方法,其特征在于,计算矩阵D"n中对象a,对于对象〇的可达 距离reachdisfei,。)。GN(ai): reachdis(ai;o) =max{k-distance(o),d(ai;o)} (7) 其中,k_distance(o)为矩阵D"n中每个对象o与其他对象之间的距离并获 取第k大的距离,N(ai)为邻域集合中对象个数,d(ai,〇)为对象%、〇两点间距离, max{k-distance(〇),d(a。〇)}为选择k_distance(〇)和d(a。〇)二者中较大的一个。
10. 如权利要求9所述的方法,其特征在于,基于矩阵D"n计算局部可达密度lrd(ai):
(8) 其中,|Nk(ai) |为第k距离邻域集合中对象个数,reachdis(a^o)为对象aj#于对象 〇的可达距离。
11. 如权利要求10所述的方法,其特征在于,计算局部离散群点因子LOF(aJ: (9) 其中,|N(ai) |为邻域集合中对象个数的绝对值,N(ai)为邻域集合中对象个数,lrdfei) 为对象%的局部可达密度,lrd(o)为对象〇的局部可达密度。
【专利摘要】本发明涉及一种基于动态离群点检测的配电网数据在线清洗方法,包括:建立缓冲队列,缓冲队列接收第1批配电网实时数据集合A1并获取缓冲队列的长度l1;对数据集合A1计算所有数据点间的欧氏距离,形成欧氏矩阵D1;若缓冲队列继续接收第n批配电网实时数据集合An,则对欧氏矩阵Dn-1进行稀释,获取稀释后的配电网实时数据集合A′n-1,将欧氏矩阵Dn与欧式矩阵D′n-1合并得到矩阵D′′n;使用离群点检测算法检测D′′n异常数据,将错误数据发回数据源端重传或纠错,输出清洗结果并清空缓冲队列;本发明提供的方法通过建立数据缓冲队列,动态更新欧式矩阵和清除数据异常点三个过程对配电网运行和故障过程中产生的配电网数据实时在线数据进行清洗,提升了配电网数据质量及可用性。
【IPC分类】G06Q10-06, G06Q50-06
【公开号】CN104809594
【申请号】CN201510242157
【发明人】刁赢龙, 刘科研, 孟晓丽, 盛万兴, 何开元, 贾东梨, 胡丽娟, 叶学顺
【申请人】中国电力科学研究院, 国家电网公司, 国网北京市电力公司
【公开日】2015年7月29日
【申请日】2015年5月13日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1