本发明涉及电力运维领域,尤其涉及一种基于特征选择和孤立随机森林的专变窃电识别方法。
背景技术:
窃电问题的日益突出导致配电网线损率居高不下,使电力企业蒙受巨大的直接经济损失,加重了电力企业的经营负担,同时容易危害电网的安全运行,严重损害正常用户的利益。窃电问题不仅制约了供电企业的发展,也严重影响了国家的经济建设和社会的稳定。而长期以来,我国在反窃电方面以人工排查为主,有效的反窃电技术措施不足,防治手段落后。因此,现实生活中迫切需要研究更高效、系统、全面的反窃电技术措施。
部分电网企业升级改造负荷管理系统平台功能。针对部分特定的窃电嫌疑客户,在客户侧加装防窃电模块,增强监控时效性。防窃电模块主要是在客户现场采集客户一次负荷运行数据,用以对比计量装置二次数据,扩展后台监控与分析功能,实现窃电监控24小时不间断监控功能,系统异常自动报警为电网企业防窃电工作人员提供查窃电线索,减轻人力巡查。
目前电网企业普遍投入使用了远程负荷管理系统。电网企业的负荷管理系统24小时监测用户的用电和计量状态,通过系统不间断的挂机工作,采集用电情况,监测计量装置二次侧的电压、电流、功率、电量等参数的变化,进而提升了基于用电模式识别来检测窃电行为的潜力。在窃电检测领域里常用的分类器包括支持向量机、人工神经网络、决策树等。但是以上方法一般没有利用到专变行业的用电信息,因此正确率非常有限。
技术实现要素:
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种基于特征选择和孤立随机森林的专变窃电识别方法,以提高对该行业的专变用户窃电行为的辨识效率及准确率的目的。为此,本发明采取以下技术方案。
一种基于特征选择和孤立随机森林的专变窃电识别方法,包括步骤:
1)提取某一行业专变用户一年的日用电量数据,并根据有无窃电记录将用户分成窃电用户集和正常用户集;
2)以用户的日用电量数据为输入,计算该行业用户集的用电特征,并进行规范化;
3)使用relief过滤式特征选择方法,选择相关统计量较大的特征作为辨识该行业窃电用户的关键特征;
4)将窃电用户集和正常用户集作为训练集,构建孤立随机森林检测集;
5)将该行业待检测专变用户特征集输入孤立随机森林检测集;
6)选取检测深度最浅的m%作为待排查的窃电嫌疑用户,m为基于供电公司排查人力确定的设定值;
7)对得到待排查的窃电嫌疑用户信息进行确认。
作为优选技术手段:在步骤2)中,基于该行业专变用户年日用电量数据进行分析,计算该行业用户集的用电特征,基于日用电量的用户用电特征包括年/月用电方差,月用电增长率,月负载率,月峰谷差,本方法选取以上指标作为用户用电特征,对应的计算公式分别为:
201)月用电方差
式中:
202)年用电方差
式中:
203)月用电增长率
式中:
204)月负载率
式中:
205)月峰谷差
式中:
式中:
将该行业用户集的用电特征集c=[c1,c2,…,cm]中的每一列分别规范化,则可得规范化后的用电特征集
作为优选技术手段:在步骤3)中,考虑到窃电用户样本的年/月用电方差,月用电增长率,月负载率,月峰谷差等常见用电特征中,各特征的异常度不同,且异常程度随窃电方法与时段变化较大,因此需要采用特征选择的方法,对规范化后的特征集矩阵进行筛选,筛选表征该行业窃电用户窃电的关键特征集,排除与窃电关联较小的特征,从而提高窃电检测器的效率与准确性。采用relief过滤式特征选择方法,计算各维特征向量的相关统计量,选取相关统计量较大的特征作为构建孤立随机森林的关键特征,其计算方法为:
301)给定该行业专变用户的样本数据
302)对第i个专变用户的用电特征向量xi=[xi,1,xi,2,…,xi,m],先在xi的同类样本中寻找其欧氏距离最近邻
式中:n为专变样本数目;xi,j、
303)根据相关统计量排序,其值较大的特征向量作为该行业专变用户窃电关键特征集。
作为优选技术手段:在步骤5)中,选取该专变窃电用户与待检测专变用户的关键特征集作为测试数据集,输入训练所得孤立随机森林检测集iforest中,计算每一个专变用户孤立随机森林的路径长度作为其平均深度。
作为优选技术手段:在步骤6)中,测试集中孤立随机森林检测平均深度代表该样本用户的窃电嫌疑度,其深度约浅,窃电嫌疑越大。可依据供电公司现场排查能力确定平均深度最浅的样本作为现场排查名单。
有益效果:本技术方案采用特征选择和孤立随机森林的机器学习方法,能够结合区域内行业专变用户的用电特征以及部分已经排查到的窃电用户样本,通过筛选窃电用户样本历史用电数据特征中与正常用户样本差异较大的特征集,选取该部分特征集构建所对应的随机森林检测集,通过异常用电检测实现对该行业的专变用户窃电行为的辨识;本发明可以快速、准确地根据不同行业正常用户和窃电用户的用电特征,完成一个行业窃电嫌疑户的快速排查。
附图说明
图1是本发明的流程图。
图2是本发明的各维特征的相关统计量值分布图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,本发明的步骤为:首先采集了区域范围内某一行业的专变用户(包括正常用户与窃电用户)一年的日用电量数据;接着计算该行业用户集的用电特征,包括年/月用电方差,月用电增长率,月负载率,月峰谷差等,建立特征集矩阵;然后使用relief过滤式特征选择方法,选择相关统计量较大的特征作为辨识窃电用户的关键特征;最后使用孤立随机森林检测算法,检测已知的窃电样本与疑似窃电用户。具体步骤为:
步骤1.根据用电信息采集系统中的专变行业分类信息,将区域内某一行业的专变一年的日用电数据作为输入,并根据历史窃电记录将专变用户设置对应标签,窃电用户为正例,即设置标签y=1,未发现窃电的用户为负例,即设置标签y=0;
步骤2.基于该行业专变用户年日用电量数据进行分析,计算该行业用户集的用电特征,基于日用电量的用户特征常见包括但不限于年/月用电方差,月用电增长率,月负载率,月峰谷差,本方法选取以上指标作为用户用电特征,对应的计算公式分别为:
1)月用电方差
式中:
2)年用电方差
式中:
3)月用电增长率
式中:
4)月负载率
式中:
5)月峰谷差
式中:
式中:
计算所得的该行业用户集的用电特征集为x=[c1,c2,…,cm]=[c1,c2,c3,c4,c5],m为c1~c5特征维数之和,将该行业用户集的用电特征集c=[c1,c2,…,cm]中的每一列分别规范化,则可得规范化后的用电特征集
步骤3.对规范化后的特征集矩阵进行筛选,采用relief过滤式特征选择方法,计算各维特征向量的相关统计量,选取相关统计量较大的特征作为构建孤立随机森林的关键特征,其计算方法为:
1)给定该行业专变用户的样本数据
2)对第i个专变用户的用电特征向量xi=[xi,1,xi,2,…,xi,m],先在xi的同类样本中寻找其欧氏距离最近邻
式中:n为专变样本数目;xi,j、
3)根据相关统计量排序,其值较大的特征向量作为该行业专变用户窃电关键特征集;
步骤4.选取该专变窃电用户与部分正常用户的关键特征集作为训练数据集,调用孤立森林算法,构建孤立随机森林检测集,其伪代码为:
其中ceiling(x)为取整函数,构建单棵树的函数itree(x’,e,l)的伪代码为:
步骤5.选取该专变窃电用户与待检测专变用户的关键特征集作为测试数据集,输入训练所得孤立随机森林检测集iforest中,计算每一个专变用户孤立随机森林的路径长度作为其平均深度;
步骤6.测试集中孤立随机森林检测平均深度代表该样本用户的窃电嫌疑度,其深度约浅,窃电嫌疑越大。可依据供电公司现场排查能力选取平均深度最浅的样本作为现场排查名单。在本技术方案中,选取测试集中孤立随机森林检测平均深度最浅的10%作为窃电嫌疑用户
以下通过具体数据对本发明效果进行进一步的说明:
1数据来源
数据主要来源于国家电网用电信息采集系统,具体包括某省纺织行业专变2018年的365天日用电量数据,选取2018年稽查的2个窃电纺织专变用户作为正例样本,200个正常纺织专变用户作为反例样本,该省某市100个纺织专变用户作为待测试样本,总共包含四万余条数据。
2特征选择
对全部样本用户的2018年日用电量数据进行分析,计算用户集的用电特征,包括年/月用电方差,月用电增长率,月负载率,月峰谷差等。采用relief过滤式特征选择方法,计算正例样本和反例样本各维特征的相关统计量,其结果如图2所示,根据相关统计量大小进行特征选择,选取相关统计量较大的20%特征作为关键特征。
3孤立随机森林检测及结果分析
将正例样本和反例样本的关键特征作为训练集构建孤立随机森林检测集,将正例样本和测试样本作为测试集输入训练所得的孤立随机森林检测集,其辨识结果如表1所示。
表1纺织行业窃电用户和窃电嫌疑用户的辨识结果
由表1可得,采用特征选择的孤立随机森林检测模型可以较好的检出专变用户中的窃电用户,并且根据不同行业窃电特征与手法的相似性,可以将窃电嫌疑用户较好的辨识出来,缩小电网企业排查窃电用户的范围,从而提高对该行业的专变用户窃电行为的排查效率。
以上图1所示的一种基于特征选择和孤立随机森林的专变窃电识别方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。