基于k近邻回归的输变电主设备负荷数据缺失填补算法

文档序号:10725440阅读:1379来源:国知局
基于k近邻回归的输变电主设备负荷数据缺失填补算法
【专利摘要】一种基于k近邻回归的电力输变电设备负荷数据缺失填补算法,其特征在于,填补步骤为:将数据集D分为两个子集,即子集Dm、子集Dc。将子集Dm中的向量x分为x=[xo;xm]。计算对应时刻值中,向量xo与子集Dc中所有向量的欧氏距离。根据距离大小对子集Dc中的向量进行升序排列,得到子集D'c。取子集D'c中的前k个向量(y1,y2,…,yk)。计算x在第i时刻缺失值的加权k近邻回归值。重复步骤一至步骤六,直至子集Dm中的所有向量都被处理过。其有益效果是:不需要使用训练集进行训练,近邻算法的优点是事先并不要求知道待预测样本的分布函数,因此具有直观、无需先验统计知识、无监督学习等特点。
【专利说明】
基于k近邻回归的输变电主设备负荷数据缺失填补算法
技术领域
[0001] 本发明涉及电力系统大数据挖掘领域,特别是一种输变电主设备负荷数据缺失填 补算法。
【背景技术】
[0002] 随着电力系统信息化程度的不断提高和电力大数据量的迅速增长,研究适用于电 力大数据挖掘的算法并建立有效的知识发现模型,对智能电网业务模式创新和发展具有重 要意义。
[0003] 电力系统中,各类数据采集与监控系统采集的输变电主设备负荷数据是电力系统 调度运行、安全稳定分析、设备状态与风险评估的基础。然而,在电力系统的实际运行中,一 方面由于数据采集通道错误、远程终端单元故障等原因会导致观测数据出现反常态势,以 致与大多数观测值不一致;另一方面,由于特殊事件(如线路检修、切负荷停电、大事件冲击 等)引起负荷的异常变化,也会导致观测数据违背常规。此外,数据计量装置或存储设备故 障也可能导致部分负荷数据缺失。因此,在进行负荷数据分析与建模之前必须对原始负荷 数据中的异常数据进行相应地填补和修正。
[0004] 目前国内外对电力负荷数据缺失的处理研究存在一些普遍性的问题。第一,文献 中的方法都是针对小规模数据集,对于大规模数据集的计算效率较低;第二,这些方法对单 个离散坏数据的处理效果较好,而对于大片连续坏数据的处理效果一般。

【发明内容】

[0005] 本发明的目的是为了解决上述问题,设计了一种基于k近邻回归的电力输变电设 备负荷数据缺失填补算法。具体设计方案为:
[0006] 填补步骤为:
[0007] 步骤一,将数据集D分为两个子集,即子集Dm、子集Dc。
[0008] 步骤二,将子集Dm中的向量X分为X = [X。; xm]。
[0009] 步骤三,计算对应时刻值中,向量X。与子集Dc中所有向量的欧氏距离。
[0010]步骤四,根据距离大小对子集Dc中的向量进行升序排列,得到子集D ' c。
[0011] 步骤五,取子集D'c中的前k个向量(yi,y2,~,yk)。
[0012] 步骤六,计算X在第i时刻缺失值的加权k近邻回归值:
[0014] 其中Wj是向量yj的权重。
[0015] 步骤七,重复步骤一至步骤六,直至子集Dm中的所有向量都被处理过。
[0016] 步骤一中,所述子集Dm是包含缺失值的负荷曲线集合,子集Dc是不包含缺失值的 负荷曲线集合。
[0017] 步骤二中,所述向量X。为无缺失向量,向量Xm为缺失向量。
[0018]步骤六中,与xo距离近的向量应取较大权重,与xo距离远的向量应取较小权重。 [0019]步骤六中,权函数计算公式为:
[0023] 权函数计算公式中,所述dist(Xl,Yj)表示向量XI与Yj的欧氏距离。
[0024] 通过本发明的上述技术方案得到的基于k近邻回归的电力输变电设备负荷数据缺 失填补算法,其有益效果是:
[0025] k近邻算法是一种惰性学习算法,不需要使用训练集进行训练,其时间复杂度为0 (η),其中η为训练集中的样本数。k近邻算法的优点是事先并不要求知道待预测样本的分布 函数,因此具有直观、无需先验统计知识、无监督学习等特点。
【附图说明】
[0026] 图1是本发明在单个缺失值(t = 23)条件下,通过均值填充获得的填补结果;
[0027] 图2是本发明在单个缺失值(t = 23)条件下,通过kNN回归填充w3获得的填补结果;
[0028] 图3是本发明连续缺失值(t = 21_25)条件下,通过均值填充获得的填补结果;
[0029]图4是本发明连续缺失值(t = 21-25)条件下,通过kNN回归填充w3获得的填补结 果;
【具体实施方式】
[0030] 下面结合附图对本发明进行具体描述。
[0031] 填补步骤为:
[0032]步骤一,将数据集D分为两个子集,即子集Dm、子集Dc。
[0033] 步骤二,将子集Dm中的向量X分为X = [X。; Xm]。
[0034]步骤三,计算对应时刻值中,向量X。与子集Dc中所有向量的欧氏距离。
[0035]步骤四,根据距离大小对子集Dc中的向量进行升序排列,得到子集D'c。
[0036]步骤五,取子集D ' C中的前k个向量(y 1,y2,…,yk)。
[0037]步骤六,计算X在第i时刻缺失值的加权k近邻回归值:
[0039] 其中Wj是向量yj的权重
[0040] 步骤七,重复步骤一至步骤六,直至子集Dm中的所有向量都被处理过。
[0041]步骤一中,所述子集Dm是包含缺失值的负荷曲线集合,子集Dc是不包含缺失值的 负荷曲线集合。
[0042] 步骤二中,所述向量X。为无缺失向量,向量Xm为缺失向量。
[0043] 步骤六中,与xo距离近的向量应取较大权重,与xo距离远的向量应取较小权重。
[0044] 步骤六中,权函数计算公式为:
[0048]权函数计算公式中,所述dist(Xl,Yj)表示向量XI与Yj的欧氏距离。
[0049] 实施例1
[0050] 取某省级电网185个电力主设备一年365天的负荷数据,共67525条负荷曲线。每条 负荷曲线记录全天的48点,共3241200个数据点。对其中2条曲线人为制造部分缺失数据,曲 线1为单个缺失值,在t = 23处缺失;曲线2为连续缺失值,数据在t = 21-25处缺失
[0051 ]数据集D为所有67525条符合曲线集合,将其分为两个负荷曲线集合Dm和Dc,Dm为 有缺失值的两条曲线集合,Dc为其余无缺失值得曲线集合。
[0052]考虑单个缺失值的曲线XI,将其分为无缺失和有缺失两部分Xl = [xl,. .x22, χ24,."χ48;χ23]·
[0053]计算XI与子集Dc中所有曲线的欧式距离,Dc中的负荷曲线使用除χ23以外的所有 值。
[0054]根据距离大小对Dc中的向量进行升序排列,得到D'c。
[0055] 根据k值取前k个向量(Yl,Y2,…,Yk)。
[0056] 计算XI在第i时刻缺失值的加权k近邻回归值:
[0058] 在本实施例中考虑三种权值w:
[0062] 其中dist(Xl,Yj)表示向量XI与Yj的欧氏距离。
[0063]完成本实施例的上述步骤后,通过现有的均值填充方法,完成本实施例中所述的 某省数据缺失计算。
[0064] 图1是本发明在单个缺失值(t = 23)条件下,通过均值填充获得的填补结果;图2是 本发明在单个缺失值(t = 23)条件下,通过kNN回归填充w3获得的填补结果,如图1、图2所 示,对于单个离散缺失值,k近邻回归的填充效果明显优于均值填充方式。
[0065] 图3是本发明连续缺失值(t = 21_25)条件下,通过均值填充获得的填补结果;图4 是本发明连续缺失值(t = 21-25)条件下,通过kNN回归填充w3获得的填补结果对于成片连 续缺失值,k近邻回归的填充效果明显优于均值填充方式。
[0066] 实施例2
[0067]取某省级电网185个电力主设备一年365天的负荷数据,共67525条负荷曲线。每条 负荷曲线记录全天的48点,共3241200个数据点。对其中2条曲线人为制造部分缺失数据,曲 线1为单个缺失值,在t = 23处缺失;曲线2为连续缺失值,数据在t = 21-25处缺失 [0068]数据集D为所有67525条符合曲线集合,将其分为两个负荷曲线集合Dm和Dc,Dm为 有缺失值的两条曲线集合,Dc为其余无缺失值得曲线集合。
[0069] 考虑单个缺失值的曲线XI,将其分为无缺失和有缺失两部分Xl = [xl,. .x22, χ24,."χ48;χ23]·
[0070] 计算XI与子集Dc中所有曲线的欧式距离,Dc中的负荷曲线使用除χ23以外的所有 值。
[0071] 根据距离大小对Dc中的向量进行升序排列,得到D'c。
[0072] 根据k值取前k个向量(Yl,Y2,…,Yk)。
[0073 ]计算XI在第i时刻缺失值的加权k近邻回归值:
[0075] 在本实施例中考虑三种权值w:
[0079] 其中dist(Xl,Yj)表示向量XI与Yj的欧氏距离。
[0080] 完成本实施例的上述步骤后,通过现有的均值填充方法,完成本实施例中所述的 某省数据缺失计算;
[0081] 完成本实施例的上述步骤后,通过现有的线性直插方法,完成本实施例中所述的 某省数据缺失计算;
[0082] 完成本实施例的上述步骤后,通过现有的样条直插方法,完成本实施例中所述的 某省数据缺失计算;
[0083]分别用均值填充、线性插值、三次样条插值、k近邻回归(取三种权函数)进行缺失 值填补,用采用平均绝对百分比误差(mean absolute percentage error,MAPE)指标评估 XI负荷曲线的填补效果,所述MAPE指标计算公式为
[0085]其中Xl是真实值,·^:是预测值。可见MAPE越小说明预测的准确度越高。
[0086]表1为单个缺失值各种填补方法的MAPE指标(t = 23)
[0087]
[0088] 表2为连续缺失值各种填补方法的MAPE(t = 21-25)
[0089]
[0090] 如表1、表2所不,
[0091] 1.对于单个离散缺失值,k近邻回归的填充效果明显优于其他方式。
[0092] 2.对于成片连续缺失值,k近邻回归的填充效果优于其他方法。
[0093] 3.采用指数权函数w3的预测误差小于其他两种权函数。
[0094] 上述技术方案仅体现了本发明技术方案的优选技术方案,本技术领域的技术人员 对其中某些部分所可能做出的一些变动均体现了本发明的原理,属于本发明的保护范围之 内。
【主权项】
1. 一种基于k近邻回归的电力输变电设备负荷数据缺失填补算法,其特征在于,填补步 骤为: 步骤一,将数据集D分为两个子集,即子集Dm、子集化。 步骤二,将子集Dm中的向量X分为x= [x〇;Xm]。 步骤Ξ,计算对应时刻值中,向量X。与子集化中所有向量的欧氏距离。 步骤四,根据距离大小对子集化中的向量进行升序排列,得到子集D ' C。 步骤五,取子集D'c中的前k个向量(yi,y2,…,yk)。 步骤六,计算X在第i时刻缺失值的加权k近邻回归值:其中wj是向量yj的权重 步骤屯,重复步骤一至步骤六,直至子集Dm中的所有向量都被处理过。2. 根据权利要求1中所述的基于k近邻回归的电力输变电设备负荷数据缺失填补算法, 其特征在于,步骤一中,所述子集Dm是包含缺失值的负荷曲线集合,子集化是不包含缺失值 的负荷曲线集合。3. 根据权利要求1中所述的基于k近邻回归的电力输变电设备负荷数据缺失填补算法, 其特征在于,步骤二中,所述向量X。为无缺失向量,向量Xm为缺失向量。4. 根据权利要求1中所述的基于k近邻回归的电力输变电设备负荷数据缺失填补算法, 其特征在于,步骤六中,与X0距离近的向量应取较大权重,与X0距离远的向量应取较小权 重。5. 根据权利要求1中所述的基于k近邻回归的电力输变电设备负荷数据缺失填补算法, 其特征在于,步骤六中,权函数计算公式为:6. 根据权利要求5中所述的基于k近邻回归的电力输变电设备负荷数据缺失填补算法, 其特征在于,权函数计算公式中,所述dist(Xi,Yj)表示向量Xi与Y北勺欧氏距离。
【文档编号】G06F19/00GK106096324SQ201610743642
【公开日】2016年11月9日
【申请日】2016年8月26日
【发明人】庄池杰, 张斌, 胡军, 段炼, 尹立群, 郭丽娟, 张玉波, 罗怿, 曾嵘
【申请人】清华大学, 广西电网有限责任公司电力科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1