本发明属于电力、人工智能,涉及一种基于smote-gbdt的不平衡窃电数据分类方法、装置、计算机设备和存储介质。
背景技术:
1、随着电力网络的不断扩大,其受到窃电破坏的概率也大大提高,窃电行为不仅破坏电力系统的经济效益,而且窃电装置往往会造成配电线路和装置的损坏,对周围居民的人身财产安全造成了严重的安全隐患。当前,传统电力系统正不断的向具有数字控制和通信能力的智能电网系统发展,同时越来越多的科技手段也被应用于窃电的环境下,传统的窃电检测以及数据分析方法已经不能适应电力系统的发展,电力部门需要新的高效的方法来对窃电行为进行分析。故如何提高电网的防窃电水平,提升窃电稽查工作的效率,成为了亟待解决的问题
2、非侵入式负荷分析,通过计量装置的电力负荷入口处的电流、电压以及功率等信息的测量与分析便可实现用户行为的分析,具有简单、经济、易于推广与应用等优势。本专利针对计量系统中的用户负荷数据,使用均值插补法对用电的时间序列数据进行缺失值填充,使用邻近点在特征空间上接近的特点合成准确率较高的新样本,最后使用gbdt进行窃电用户分类,从而实现用户窃电行为分析,提升用电客户计量数据的应用价值。
技术实现思路
1、本发明的目的在于提供一种基于smote-gbdt的不平衡窃电数据分类方法、装置、计算机设备和存储介质,使用缺失值填充,并针对非均衡数据通过人工生成样本提升窃电检测效果。
2、本发明采取的技术方案如下:
3、第一方面,本发明提供一种基于smote-gbdt的不平衡窃电数据分类方法,其包括如下步骤:
4、步骤一、收集用户负荷数据;
5、步骤二、对数据进行缺失值填充和标准化处理;
6、步骤三、基于smote算法取不同k过采样;
7、步骤四、过采样后的数据集,采用默认参数的gbdt训练gbdt模型,
8、步骤五、评估不同k值生成数据集的分类性能,找出最优化分类的k近邻取值;
9、步骤六,基于过采样效果最好的数据集训练gbdt模型;
10、步骤七,基于网络搜索、交叉验证组合模型参数,测试找出gbdt模型最优参数,进而获得最优的窃电分析模型。
11、进一步的,所述步骤二中,采用均值插补法对缺失值进行填充,公式如(1)所示:
12、
13、其中下标i代表第i个用户,下标j代表第j天,xij代表第i个用户第j天的用电量,f1(xij)表示xij均值插补后的值。
14、进一步的,所述步骤二中,采取最大最小标准方法对数据集进行标准化处理,计算如公式(2):
15、
16、其中x表示用户用电数据,i表示用户i,j表示第j天,xij表示用户i在第j天时的用电量,ximin表示第i个用户的最小用电量,ximax表示第i个用户的最大用电量,f3(xij)表示xij最大最小标准化处理后的值。
17、进一步的,所述gbdt模型在smote算法k值取5所得数据集上训练的综合性能最好。
18、第二方面,本发明提供一种基于smote-gbdt的不平衡窃电数据分类装置,其包括:
19、数据采集模块,用于收集计量系统中的用户负荷数据;
20、数据预处理模块,用于对数据进行缺失值填充和标准化处理;
21、过采样模块,用于对预处理后的数据,采用smote算法取不同k值过采样;
22、模型训练与生成模块,用于对过采样后的数据集,采用默认参数的gbdt训练gbdt模型,并评估不同k值生成数据集的分类性能,找出最优化分类的k近邻取值,根据最优的k值,对用户负荷数据集采用smote生成新的数据集,在此数据集训练上训练gbdt模型,并对gbdt模型基于网格搜索、交叉验证组合模型参数,寻优gbdt模型最优参数;
23、模型应用模块,将原始用户负荷数据输入训练好的最优gbdt模型中进行计算分析。
24、第三方面,本发明提供一种计算机设备,其包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面方案中所述的数据分类方法。
25、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面方案中所述的数据分类方法。
26、本发明的有益效果是:本专利针对计量系统中的用户负荷数据,使用均值插补法对用电的时间序列数据进行缺失值填充,使用邻近点在特征空间上接近的特点合成准确率较高的新样本,最后使用gbdt进行窃电用户分类,从而实现用户窃电行为分析,提升用电客户计量数据的应用价值。
1.一种基于smote-gbdt的不平衡窃电数据分类方法,其特征在于包括如下步骤:
2.根据权利要求1所述的一种基于smote-gbdt的不平衡窃电数据分类方法,其特征在于,所述步骤二中,采用均值插补法对缺失值进行填充,公式如(1)所示:
3.根据权利要求1所述的一种基于smote-gbdt的不平衡窃电数据分类方法,其特征在于,所述步骤二中,采取最大最小标准方法对数据集进行标准化处理,计算如公式(2):
4.根据权利要求1所述的一种基于smote-gbdt的不平衡窃电数据分类方法,其特征在于,所述gbdt模型在smote算法k值取5所得数据集上训练的综合性能最好。
5.一种基于smote-gbdt的不平衡窃电数据分类装置,其特征在于包括:
6.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-4任一项所述的数据分类方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-4任一项所述的数据分类方法。