本发明属于电力系统领域,涉及基于大数据分析的用电异常识别与预防系统及方法。
背景技术:
1、现阶段,用电稽查人员仍然以定期巡检、定期校验电表、用户举报窃电等手段为主,反盗电工作存在较大的漏洞。在窃电与违约用电的管理中,相应的检查手段不仅落后而且还较为单一,现有防窃电方法现场工作量大,对于日渐多样化的窃电手段显得无所适从,尚无科学的用电采集系统、缺乏对数据的有效处理方法,使得电力公司在防窃电工作中耗费大量的人力物力。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种基于大数据分析的用电异常识别与预防系统及方法。
2、本发明要解决的技术问题之一在于,提供了一种用电信息采集系统的设计架构,为后续反窃电平台研究提供数据来源支撑。
3、本发明要解决的技术问题之二在于,提供了一种对于处理用电信息的大数据分析方法,利用大数据分析法能够有效提高数据应用的准确性。
4、本发明的技术问题之三在于,提供了一种反窃电平台模型的设计方案。通过对大数据算法的研究,提出了基于逻辑回归的疑似窃电用户概率预测模型,在用电信息采集系统实时数据基础上,确定窃电类型,起到防范作用。
5、针对现阶段在窃电与违约用电的管理中,相应的检查手段落后单一,然而现有防窃电方法现场工作量大,对于日渐多样化的窃电手段显得无所适从,尚无精准的用户窃电识别和预警的线上系统,用电检查人员仍然以定期巡检、定期校验电表、用户举报窃电等手段为主,反盗电工作存在较大的漏洞。本发明的目的在于提供基于大数据分析的用电异常识别与预防方法,通过搭建用电信息采集系统,基于大数据分析方法创建反窃电模型,实现了对用电过程中的电能数据采集和窃电行为的防范,为电力系统的建设、运行、规划提供了强力的数据支撑,以解决上述背景技术中提出的问题。
6、为达到上述目的,本发明提供如下技术方案:
7、基于大数据分析的用电异常识别与预防系统,包括采集设备层、通信信道层与主站层;
8、所述包括数据库管理部分、负载端采集业务部分与客户端采集业务部分;
9、其中负载端采集业务部分用于满足所构建系统当中针对负载端的用电情况进行信息采集;
10、客户端采集业务部分负责对客户日常用电信息进行采集,将负载端采集业务部分和客户端采集业务部分采集到的信息进行解析,形成数据库;
11、所述通信信道层包括为系统及终端设备的实际运行提供通信信道;
12、所述采集设备层对系统在运作期间所形成的原始用电信息进行采集与转发,满足计量设备或终端设备子层的数据支持;
13、主站层根据数据库监测数据属性变化,利用逻辑回归算法输出关系数据库,最终显示疑似窃电程度。
14、可选的,所述逻辑回归算法的步骤为:
15、①构造预测函数h;逻辑回归算法用来处理二分类问题,二分类问题的输出只有两种,代表两个类别,通过logistic函数来表示,函数形式为:
16、g(z)是logistic函数,且以z为自变量;当z接近正无穷时,e-z趋近于0,g(z)趋近于1;当z接近负无穷时,e-z趋近于无穷大,g(z)趋近于0;当z=0时,g(z)等于1/2;
17、对于线性边界的情况,边界形式如下:
18、
19、θtx是多元线性回归方程,θ0表示线性方程的截距,θ1,θ2,…,θn表示各个自变量的斜率,x1,x2,…,xn表示各个自变量;
20、构造预测函数为:
21、
22、函数hθ(x)的值代表类别1的概率,二类结果为类别1和类别0的概率分别为:
23、p(y=1|x;θ)=hθ(x)
24、x是预测函数的自变量,y只有0和1两个取值;y=0时代表类别0,y=1时代表类别1;
25、p(y=0|x;θ)=1-hθ(x)
26、构造损失函数,即j函数为:
27、
28、
29、结合概率公式得:
30、p(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
31、③构建适宜的回归参数θ;
32、乘一个负的系数-1/m,取j(θ)最小值时的θ为要求的最佳参数;
33、
34、查准率p与查全率r分别定义为:
35、
36、
37、a,b,c,d对应混淆矩阵中的数据;
38、查准率和查全率在一定程度上是反相关的,需要一个“平衡点”来度量,f1度量:
39、
40、基于逻辑回归的疑似窃电用户概率预测模型构建;
41、基于随机森林进行特征提取,特征值选择完成后,将特征数据作为模型的输入数据构建数据集,将数据集导入反窃电平台挖掘场景中进行建模和窃电预测工作;在反窃电平台中完成挖掘场景运算后,得出具有窃电嫌疑用户的清单,以及用户的疑似窃电程度;
42、基于f1值的疑似窃电程度阈值选择:使用测试集对模型的性能进行评估,得出疑似窃电程度阈值f1;设用户a疑似窃电程度p>f1时,则预测用户a为窃电用户;
43、选取自稽查系统中的窃电用户及非窃电用户各600户,同时从用电信息采集系统中获取用户电量数据作为模型输入数据,将数据按2:1分为训练集和测试集。
44、可选的,所述基于随机森林进行特征提取的特征满足:
45、特征类别包括0特征、日用电量特征、周用电量特征、月用电量特征、weekday用电量特征、用电类别、电压等级和行业;
46、其中,0特征包括0值占总天数比例和空值占总天数比例;
47、日用电量特征包括日用电量标准差和日用电量偏度;
48、周用电量特征包括周用电量最小最大值之比和周用电量峰度;
49、月用电量特征包括月用电量最小值和月用电量最小最大值之比;
50、weekday用电量特征包括周二用电量最大值、周三用电量标准差、周三用电量峰值、周四用电量标准差、周五用电量偏度、周六用电量偏度、周六用电量峰度、周日用电量最小值和周日用电量中位数;
51、用电类别包括用电类别是否为“商业用电”;
52、电压等级包括电压等级是否为“交流220v”;
53、行业包括行业是否为“城镇居民”。
54、可选的,所述将特征数据作为模型的输入数据构建数据集,将数据集导入反窃电平台挖掘场景中进行建模和窃电预测工作具体为:
55、将用户的电能表示值倒转量、0值占总天数比例、空值占总天数比例、0和空值占总天数比例、日用电量标准差、月用电量最小值、用电类别是否为“商业用电”、电压等级是否为“交流220v”的特征数据作为模型的输入数据构建数据集,带入逻辑回归模型,设置模型参数算法的最大迭代次数为200,正则化参数为0.01;
56、选择测试集的数据对模型的性能进行评估,根据计算f1=0.7083,准确率为0.6159,对测试集数据统计实际发生数量和预测发生数量,形成混淆矩阵,得到预测窃电的用户数量和预测没有窃电的用户数量。
57、基于大数据分析的用电异常识别与预防方法,该方法包括以下步骤:
58、针对负载端的用电情况进行信息采集;
59、对客户日常用电信息进行采集;
60、将采集到的信息进行解析,形成数据库;
61、对形成的原始用电信息进行采集与转发,满足计量设备或终端设备子层的数据支持;
62、根据数据库监测数据属性变化,利用逻辑回归算法输出关系数据库,最终显示疑似窃电程度。
63、可选的,所述逻辑回归算法的步骤为:
64、①构造预测函数h;逻辑回归算法用来处理二分类问题,二分类问题的输出只有两种,代表两个类别,通过logistic函数来表示,函数形式为:对于线性边界的情况,边界形式如下:
65、
66、构造预测函数为:
67、
68、函数hθ(x)的值代表类别1的概率,二类结果为类别1和类别0的概率分别为:
69、p(y=1|x;θ)=hθ(x)
70、p(y=0|x;θ)=1-hθ(x)
71、构造损失函数,即j函数为:
72、
73、
74、结合概率公式得:
75、p(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
76、③构建适宜的回归参数θ;
77、乘一个负的系数-1/m,取j(θ)最小值时的θ为要求的最佳参数;
78、
79、查准率p与查全率r分别定义为:
80、
81、
82、查准率和查全率在一定程度上是反相关的,需要一个“平衡点”来度量,f1度量:
83、
84、基于逻辑回归的疑似窃电用户概率预测模型构建;
85、基于随机森林进行特征提取,特征值选择完成后,将特征数据作为模型的输入数据构建数据集,将数据集导入反窃电平台挖掘场景中进行建模和窃电预测工作;在反窃电平台中完成挖掘场景运算后,得出具有窃电嫌疑用户的清单,以及用户的疑似窃电程度;
86、基于f1值的疑似窃电程度阈值选择:使用测试集对模型的性能进行评估,得出疑似窃电程度阈值f1;设用户a疑似窃电程度p>f1时,则预测用户a为窃电用户;
87、选取自稽查系统中的窃电用户及非窃电用户各600户,同时从用电信息采集系统中获取用户电量数据作为模型输入数据,将数据按2:1分为训练集和测试集。
88、可选的,所述基于随机森林进行特征提取的特征满足:
89、特征类别包括0特征、日用电量特征、周用电量特征、月用电量特征、weekday用电量特征、用电类别、电压等级和行业;
90、其中,0特征包括0值占总天数比例和空值占总天数比例;
91、日用电量特征包括日用电量标准差和日用电量偏度;
92、周用电量特征包括周用电量最小最大值之比和周用电量峰度;
93、月用电量特征包括月用电量最小值和月用电量最小最大值之比;
94、weekday用电量特征包括周二用电量最大值、周三用电量标准差、周三用电量峰值、周四用电量标准差、周五用电量偏度、周六用电量偏度、周六用电量峰度、周日用电量最小值和周日用电量中位数;
95、用电类别包括用电类别是否为“商业用电”;
96、电压等级包括电压等级是否为“交流220v”;
97、行业包括行业是否为“城镇居民”。
98、可选的,所述将特征数据作为模型的输入数据构建数据集,将数据集导入反窃电平台挖掘场景中进行建模和窃电预测工作具体为:
99、将用户的电能表示值倒转量、0值占总天数比例、空值占总天数比例、0和空值占总天数比例、日用电量标准差、月用电量最小值、用电类别是否为“商业用电”、电压等级是否为“交流220v”的特征数据作为模型的输入数据构建数据集,带入逻辑回归模型,设置模型参数算法的最大迭代次数为200,正则化参数为0.01;
100、选择测试集的数据对模型的性能进行评估,根据计算f1=0.7083,准确率为0.6159,对测试集数据统计实际发生数量和预测发生数量,形成混淆矩阵,得到预测窃电的用户数量和预测没有窃电的用户数量。
101、本发明的有益效果在于:本发明为反窃电工作提供了可靠的依据,大大减少了现场工作量,精准地定位了疑似窃电用户。现场稽查人员可以依据疑似窃电用户清单进行检查,使得窃电排查工作由被动变为主动,并且实现了对用电信息的有效采集,也完善了基于大数据分析法的反窃电平台的功能应用,实现数据的有效利用,起到了节省人财物的作用,取得了有价值的发明成果,对窃电用户的发现和窃电行为的预防方面起到了一定的促进作用。
102、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。