一种基于预判模型的窃电用户判断方法与流程

文档序号:24736708发布日期:2021-04-20 20:02阅读:397来源:国知局
一种基于预判模型的窃电用户判断方法与流程

1.本发明涉及一种基于预判模型的窃电用户判断方法,属于窃电用户识别领域。


背景技术:

2.随着国家经济的快速发展和人民生活水平的提高,全社会的用电量不断增加,能源需求的不断增大,电力产业作为国家重要的基础能源产业也得到快速的发展。目前,在国家层面、电力企业层面都有着重要的电力数据分析需求。于国家而言,电力大数据有助于电力行业整体提高运营效率和服务质量,从而达到节能减排的目标,推动社会经济的可持续发展;于电力企业而言,智能化电网中所产生的大量电力数据有助于加强其自身的管理决策能力,同时提升其供电服务质量。长期以来,社会中窃电、欺诈等现象屡禁不止,这些行为严重危害其他用户的生命财产安全,电力企业的经营管理以及供电秩序,甚至对国家经济的发展带来严重的威胁。因此,如何判断窃电用户是目前亟待解决的问题。


技术实现要素:

3.本发明提供了一种基于预判模型的窃电用户判断方法,解决了背景技术中披露的问题。
4.为了解决上述技术问题,本发明所采用的技术方案是:
5.一种基于预判模型的窃电用户判断方法,包括,
6.获取若干待判断用户用电数据;
7.利用典型窃电用户的用电数据,采用相似性检索方法,从所有待判断用户中筛选出窃电嫌疑用户;
8.根据窃电嫌疑用户的用电数据,判断窃电嫌疑用户的类型,并提取相应的用电特征;
9.将窃电嫌疑用户的用电特征输入预先训练的xgboost窃电预判模型,判断该用户是否为窃电用户;其中,xgboost窃电预判模型与窃电嫌疑用户的类型匹配。
10.用户的类型包括低压用户和高压用户,高压用户包括三相电流、电压数据缺失的高压用户和三相电流、电压数据完整的高压用户。
11.与低压用户匹配的xgboost窃电预判模型为日冻结电量预判模型,采用低压用户的日冻结电量特征训练;其中,低压用户包括典型窃电用户和正常用户。
12.日冻结电量特征包括,
13.用电量移动平均的均值、中位数、标准差、偏度、峰度;
14.用电量移动平均差分的均值、中位数、标准差、偏度、峰度。
15.与三相电流、电压数据缺失的高压用户匹配的xgboost窃电预判模型为96点电量预判模型,采用三相电流、电压数据缺失高压用户的96点电量特征训练;其中,三相电流、电压数据缺失的高压用户包括典型窃电用户和正常用户。
16.96点电量特征包括,
17.日平均用电量移动平均的均值、中位数、标准差、偏度、峰度;
18.日平均用电量移动平均差分的均值、中位数、标准差、偏度、峰度;
19.单日内96点用电量标准差的均值、中位数、标准差、偏度、峰度。
20.与三相电流、电压数据完整的高压用户匹配的xgboost窃电预判模型为综合预判模型,采用三相电流、电压数据完整高压用户的96点电量特征、电压特征和电流特征训练;其中,三相电流、电压数据完整的高压用户包括典型窃电用户和正常用户。
21.96点电量特征包括,
22.日平均用电量移动平均的均值、中位数、标准差、偏度、峰度;
23.日平均用电量移动平均差分的均值、中位数、标准差、偏度、峰度;
24.单日内96点用电量标准差的均值、中位数、标准差、偏度、峰度;
25.电压特征包括电压不平衡度的均值、中位数、标准差、偏度、峰度;
26.电流特征包括电流不平衡度的均值、中位数、标准差、偏度、峰度。
27.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行基于用电采集大数据的窃电用户判断方法。
28.一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行基于用电采集大数据的窃电用户判断方法的指令。
29.本发明所达到的有益效果:本发明通过相似性检索方法,利用典型窃电用户,筛选出窃电嫌疑用户,通过与用户类型相应的xgboost窃电预判模型,精准识别窃电用户,实现对窃电行为的精准打击。
附图说明
30.图1为本发明的流程图;
31.图2为输入xgboost窃电预判模型的过程。
具体实施方式
32.下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
33.如图1所示,一种基于预判模型的窃电用户判断方法,包括以下步骤:
34.步骤1,基于用电信息采集系统,获取若干待判断用户用电数据。
35.用电数据一般包括日冻结电能示值、电压曲线、电流曲线、功率曲线、功率因数曲线、线损数据、事件类数据信息等。
36.步骤2,利用典型窃电用户的用电数据,采用相似性检索方法,从所有待判断用户中筛选出窃电嫌疑用户。
37.步骤3,根据窃电嫌疑用户的用电数据,判断窃电嫌疑用户的类型,并提取相应的用电特征。
38.用户类型一般包括低压用户和高压用户,其中低压用户不采集96点电量、电流、电
压数据,部分高压用户缺失三相电流、电压数据,因此高压用户包括三相电流、电压数据缺失的高压用户和三相电流、电压数据完整的高压用户。
39.步骤4,将窃电嫌疑用户的用电特征输入预先训练的xgboost窃电预判模型(见图2),判断该用户是否为窃电用户;其中,xgboost窃电预判模型与窃电嫌疑用户的类型匹配。
40.训练xgboost窃电预判模型的具体过程如下:
41.1)获取典型窃电用户和正常用户的用电数据。
42.基于营销业务应用系统,提取近几年的典型窃电用户数据,包括用户信息、违约用电窃电信息、窃电检查结果信息。基于用电信息采集系统,按窃电和正常为1:2比例,抽取典型窃电用户和正常用户的用电数据,主要包括日冻结电能示值、电压曲线、电流曲线、功率曲线、功率因数曲线、线损数据、事件类数据信息等。
43.2)提取用电数据特征,构建样本集。
44.不同类型的用户对于不同的模型,因此需要构建三个样本集,分别对应三种用户,包括低压用户特征集、三相电流、电压数据缺失的高压用户集、三相电流、电压数据完整的高压用户集;其中,低压用户特征集中包括低压用户的日冻结电量特征,三相电流、电压数据缺失的高压用户集中包括三相电流、电压数据缺失高压用户的96点电量特征;三相电流、电压数据完整的高压用户集包括三相电流、电压数据完整高压用户的96点电量特征、电压特征和电流特征;每个集合中的用户均包括典型窃电用户和正常用户。
45.低压用户的用电数据主要为日冻结电量,先对其进行缺失值插补,然后提取日冻结电量特征。
46.具体如下:
47.(1)根据每个用户每日的用电量,计算每个用户的用电量移动平均(窗口长度n=5),假设第t天(t≥5)的用电量为x
t
,则第t天的用电量移动平均m
t

48.(2)根据每个用户每日的平均用电量移动平均,计算每个用户的用电量移动平均差分δm
t
=m
t

m
t
‑1;
49.(3)给正常和窃电用户增加一列是否窃电标签(qdtype),正常=0,窃电=1,之后合并正常和窃电,得到所有用户电量相关数据;
50.(4)计算日冻结电量特征;即计算每个用户的用电量移动平均的均值、中位数、标准差、偏度、峰度,计算每个用户的用电量移动平均差分的均值、中位数、标准差、偏度、峰度。
51.日冻结电量原始数据共有1082299条记录,其中包括正常用户对应数据666224条、典型窃电用户对应数据416075条,包括用户id、电表id、数据日期、地市供电单位、用户类型、数据类型、日冻结电能示值等。经过上述处理后,共得到2079个用户的相关电量数据,其中包括正常用户1507户、典型窃电用户572户。每个用户共计2
×
5=10项特征。
52.三相电流、电压数据缺失的高压用户的用电数据主要为96点电量数据,先对其进行缺失值插补,然后提取96点电量特征。
53.具体如下:
54.(1)根据96点电能示值,计算每个用户每日的平均用电量;
55.(2)根据96点电能示值,计算每个用户每日的用电量标准差;
56.(3)根据每个用户每日的日平均用电量,计算每个用户的日平均用电量移动平均(窗口长度n=5);
57.(4)根据每个用户每日的平均用电量移动平均,计算每个用户的日平均用电量移动平均差分;
58.(5)给正常和窃电用户增加一列是否窃电标签(qdtype),正常=0,窃电=1,之后合并正常和窃电,得到所有用户电量相关数据;
59.(6)计算96点电量特征;即计算每个用户的日平均用电量移动平均的均值、中位数、标准差、偏度、峰度;计算每个用户的日平均用电量移动平均差分的均值、中位数、标准差、偏度、峰度;计算每个用户的单日内96点用电量标准差的均值、中位数、标准差、偏度、峰度。
60.96点电量原始数据共有159217条记录,其中包括正常用户对应数据94705条、典型窃电用户对应数据64512条,包括用户id、电表id、数据日期、地市供电单位、用户类型、数据类型、数据完整性、数据点数标志、96点电能示值等。经过上述处理后,共得到344个用户的相关电量数据,其中包括正常用户275户、典型窃电用户69户。每个用户共计3
×
5=15项特征。
61.三相电流、电压数据完整的高压用户的用电数据主要为96点电量数据、电压数据和电流数据,先对其进行缺失值插补,然后提取特征。
62.96点电量与上面一样,这里不重复描述了。
63.电压数据处理过程如下:
64.(1)根据96点电压示值,分别计算每个用户每日的三相电压平均值;
65.(2)根据每个用户每日的三相电压平均值,计算每个用户每日的三相电压不平衡度;假设第t天的三相电压为v
ta
、v
tb
、v
tc
,则第t天的电压不平衡度为
66.(3)给正常和典型窃电用户增加一列是否窃电标签(qdtype),正常=0,窃电=1,之后合并正常和窃电,得到所有用户电压相关数据。
67.(4)计算电压特征;即计算每个用户的电压不平衡度的均值、中位数、标准差、偏度、峰度。
68.电压原始数据共有497573条记录,其中包括正常用户相应数据274479条、典型窃电用户相应数据223094条,包括用户id、电表id、数据日期、地市供电单位、用户类型、数据类型(相位)、数据完整性、数据点数标志、96点电压示值等,经过上述处理,共得到294个用户的相关电压数据,其中包括正常用户226户、典型窃电用户68户,每个用户共5项特征。
69.电流数据处理的过程如下:
70.(1)根据96点电流示值,分别计算每个用户每日的三相电流平均值;
71.(2)根据每个用户每日的三相电流平均值,计算每个用户每日的三相电流不平衡度;假设第t天的三相电流为i
ta
、i
tb
、i
tc
,则第t天的电流不平衡度为
72.(3)给正常和窃电用户增加一列是否窃电标签(qdtype),正常=0,窃电=1,之后合并正常和窃电,得到所有用户电流相关数据;
73.(4)计算电流特征;即计算每个用户的电流不平衡度的均值、中位数、标准差、偏度、峰度。
74.电流原始数据共有527149条记录,其中包括正常用户相应数据281299条、典型窃电用户相应数据245850条,包括用户id、电表id、数据日期、地市供电单位、用户类型、数据类型(相位)、数据完整性、数据点数标志、96点电流示值等,经过上述处理,共得到279个用户的相关电流数据,其中包括正常用户216户、典型窃电用户63户,每个用户共5项特征。
75.96点电量特征、电压特征和电流特征进行合并,删除重复列,若仅存在较少的缺失值,可采用knn法插补缺失值。在k个最近邻中通过设定函数值(一般会选取均值、中位数、众数等)来填充缺失值。采用最近的5个邻居的平均数值来填补缺失值。
76.经过数据合并与缺失值插补预处理,可得到274个用户的相关数据,其中包括正常用户211户、典型窃电用户63户,合并后的数据集中,每个用户共7
×
5=25项特征。
77.样本集按7:3的比例划分训练集与测试集,分别进行训练和测试。样本集中样本数量,依据历史发生经验,按照不同类型用户窃电发生比例取样,每类有效用户数据不得少于50条。样本集中样本时间周期,如窃电时间准确,窃电用户数据取窃电发生时间前后6个月;如窃电时间不准确,则前后至少各1年;正常用户按照窃电用户取同等周期。
78.3)对xgboost窃电预判模型进行训练和测试。
79.xgboost窃电预判模型包括日冻结电量预判模型、96点电量预判模型和综合预判模型,分别对应低压用户、三相电流、电压数据缺失的高压用户、三相电流、电压数据完整的高压用户;其中,日冻结电量预判模型采用低压用户的日冻结电量特征训练;96点电量预判模型采用三相电流、电压数据缺失高压用户的96点电量特征训练;综合预判模型采用三相电流、电压数据完整高压用户的96点电量特征、电压特征和电流特征训练。
80.所有xgboost窃电预判模型的超参数选择与模型评估方法类似,首先将样本集导入python,采用分层抽样将整个样本集按照7:3的比例划分训练集与测试集。然后,利用xgboost分类器构建模型,在训练集中使用网格搜索与交叉验证对每个模型的参数进行调整,以最大化预测准确率(accuracy)为目标选取每个模型的最优超参数组合(设置树的最大深度为20,学习率为0.002,决策树的个数为5000棵,用于训练模型的子样本占整个样本集合的比例为0.5,训练每棵树时使用的数据占全部训练集的比例为0.5),然后使用该超参数组合在训练集上重新训练模型,使用测试集进行模型评估。
81.做一下对比,将其与采样决策树(decision tree,dt)、随机森林(random forest,rf)、深度神经网络(deep neural network,dnn)、逻辑回归(logistic regression,lr)、支持向量机(support vector machine,svm)的方法进行对比,具体如表1~3所示。
82.表1日冻结电量预判模型对比表
83.分类器准确率交叉验证准确率查准率查全率f1

score决策树72.28%73.11%50.53%54.86%0.5260
随机森林80.13%81.58%76.29%42.29%0.5441xgboost82.37%80.76%81.73%48.30%0.6071深度神经网络79.52%72.49%78.00%22.29%0.3467逻辑回归69.87%70.99%44.44%29.71%0.3562支持向量机72.60%74.12%52.50%24.00%0.3294
84.可以看出,在缺失96点电能数据,仅有日冻结电能数据的数据匮乏情况下,利用xgboost建立的10项指标的模型分类准确度仍能达到82.37%,查准率达到81.73%,综合评价指标f1

score为0.6071,综合性能优于其他分类算法。
85.表2 96点电量预判模型对比表
86.分类器准确率交叉验证准确率查准率查全率f1

score决策树83.56%81.77%87.50%36.84%0.5185随机森林86.42%82.14%90.00%47.37%0.6207xgboost87.65%80.68%90.91%52.63%0.6667深度神经网络86.70%73.60%87.50%36.84%0.5185逻辑回归83.95%81.40%71.43%52.63%0.6061支持向量机83.95%81.40%75.00%47.37%0.5806
87.可以看出,利用xgboost建立的15项指标的模型分类准确度达到87.65%,查准率达到90.91%,综合评价指标f1

score达到了0.6667,综合性能优于其他分类算法,具有较高的准确度和泛化性能。
88.表3综合预判模型对比表
89.分类器准确率交叉验证准确率查准率查全率f1

score决策树75.90%82.86%60.87%56.00%0.5833随机森林89.16%87.96%94.44%68.00%0.7907xgboost90.36%85.79%90.48%76.00%0.8261深度神经网络85.34%76.64%83.33%80.00%0.8163逻辑回归81.93%80.36%65.62%84.00%0.7368支持向量机80.72%83.94%75.00%30.00%0.4286
90.可以看出,利用xgboost建立的25项指标的模型分类准确度达到90.36%,查准率达到90.48%,综合评价指标f1

score达到了0.8261,综合性能优于其他分类算法,具有较高的准确度和泛化性能。
91.上述方法通过相似性检索方法,利用典型窃电用户,筛选出窃电嫌疑用户,通过与用户类型相应的xgboost窃电预判模型,精准识别窃电用户,实现对窃电行为的精准打击。
92.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行基于用电采集大数据的窃电用户判断方法。
93.一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行基于用电采集大数据的窃电用户判断方法的指令。
94.本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
95.本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
96.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
97.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
98.以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1