一种三阶段多视角特征融合的窃电分类预测方法与流程

文档序号:12786917阅读:171来源:国知局

本发明涉及客户用电行为分类预测的机器学习方法,尤其涉及一种三阶段多视角特征融合的窃电分类预测方法。



背景技术:

社会经济的发展使得社会用电量逐年增加,受利益驱使,客户异常用电即窃电的现象也日益严重。客户窃电行为不仅给供电企业造成了重大经济损失,也严重影响了正常的供用电秩序。根据国家电网公司统计,近年因客户窃电导致的损失达上千万元。近年来,客户窃电方式也由野蛮窃电发展到设备智能化、手段专业化、行为隐蔽化、实施规模化的高科技窃电,给反窃电工作进一步增加了很大的难度。随着电力系统升级,智能电力设备的普及,电网公司可以实时收集海量的客户用电行为数据、电力设备监测数据,为通过大数据分析技术来开展客户的窃电行为预测提供了基础。通过大数据分析技术实现对客户窃电概率的预测,可以科学的开展防窃电监测分析,提高反窃电工作效率,降低窃电行为分析的时间及成本。

在对大量客户的用电行为进行分析时,由于客户量巨大,历史用电数据缺失较为严重,现有的机器学习方法在处理时面临着缺失值处理、特征提取、特征选择和模型融合等多个方面的挑战,不仅对计算资源要求高,而且需要花费大量的时间对数百维、上千维的特征进行组合和选择。同时,单个分类算法还难以获得较好的客户窃电概率的预测结果,因此,研究可以更好适应数据缺失,减少特征选择过程和提高预测精度的方法具有很强的社会需求和很大的经济价值。



技术实现要素:

本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷,提供一种三阶段多视角特征融合的窃电分类预测方法。

本发明为解决上述技术问题采用以下技术方案:

一种三阶段多视角特征融合的窃电分类预测方法,包括如下步骤:

步骤1),对待分析的客户用电数据,将其作为测试集,并对日用电量、当日电表读数、前一日电表读数中的缺失数据分别用“-1”和“0”进行填充,形成两份预处理数据;

步骤2),对每份预处理数据:

步骤2.1),从时间窗口统计、异常突变值统计和时间序列分析这三个视角中选择至少两个视角来提取特征,每个视角提取的特征值的集合作为一个单独的特征簇,然后把提取到的单独的特征簇合并为一个特征簇,并把该各个单独的特征簇以及合并后的特征簇形成的集合作为该预处理数据的特征簇集合;

步骤2.2),对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;

步骤3),对于训练集和测试集中的每一个客户,将其在两份预处理数据中预测得到的各个预测窃电概率组成其预测窃电概率集合;

步骤4),将训练集和测试集中所有客户的预测窃电概率集合作为特征、分别用树分类模型和线性分类模型对测试集进行预测,,得到待分析的客户用电数据中各个客户的最终预测窃电概率;

步骤5),将待分析的客户用电数据中各个客户的最终预测窃电概率分别和预设的窃电概率阈值进行比较,将最终预测窃电概率大于预设的窃电概率阈值的客户划分为窃电客户,将最终预测窃电概率小于等于预设的窃电概率阈值的客户划分为正常客户。

作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,所述步骤2.1)中选择三个视角来提取特征时的详细步骤为:

步骤2.1.1),对每个用户按每个月进行的用电量统计,并将其作为作为时间窗特征簇,所述用电量统计包括用电量的最大值、最小值、均值、均方差和根方差,;

步骤2.1.2),统计日用电量、当日电表读数和前一日电表读数的数值突变情况,并将其作为突变特征簇,所述数值突变情况包括小于前一日电表读数的电表读数、日用电量缺失、当日电表读数缺失、前一日电表读数缺失和日用电量为负数的电表读数;

步骤2.1.3),对每个用户按时间顺序,将日用电量转化为时间序列,分别提取时间序列的峰值个数、波谷个数、均值、分位数、季节性趋势、周期性趋势时间序列特征,作为时序特征簇;

步骤2.1.4),将时间窗特征簇、突变特征簇和时序特征簇合并为一个特征簇;

步骤2.1.5),把时间窗特征簇、突变特征簇、时序特征簇和合并后的特征簇形成的集合作为预处理数据的特征簇集合。

作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,所述步骤2.2)的详细步骤为:

对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;

步骤2.2.1),将训练集的数据按客户随机抽样分成N份训练数据;

步骤2.2.2),对于每份训练数据:

将其作为子验证集、其余N-1份训练数据的合集作为子训练集,依次使用特征簇集合中的每一个特征簇、采用至少一种二分类的分类方法预测该训练数据和测试集中客户的窃电概率;

步骤2.2.3),将步骤2.2.2)中所有训练数据的预设结果进行合,得到训练集中各个客户的窃电概率的预测值;

步骤2.2.4),对步骤2.2.2)中各份训练数据对应的测试集中的每一份客户的窃电概率求平均值,得到测试集中的各个客户的窃电概率的预测值。

作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,步骤2.2.1)中采用的二分类的分类方法包含XGBoost、LightGBM、Keras、Nerual Network、Logistic Regression和Gradient Boost Decision Tree。

作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,步骤4)中所述的树分类模型为XGBoost、LightGBM、Keras、Nerual Network、Gradient Boosting Decision Tree中的一种。

作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,步骤4)中所述的线性分类模型为booster设定为gblinear的XGBoost、LogisticRegeression、Linear Regression中的一种。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

1. 本发明的方法可以使得只需考虑单个视角的特征集内部的特征选择问题,避免了现有方法中在成千上万维的特征中来做特征选择时所需的大量计算资源和时间资源;

2. 相对于现有的机器学习方法或集成学习方法,本发明方法对现实中存在大量缺失数据的数据集更有效,同时通过增加数据集的多样性、模型的多样性和反过拟合,可以在减少计算量的同时,提升预测精度;

3. 本发明的方法在实现过程中无需修改现有客户用电行为分类预测的算法,可充分利用现有的分类预测算法来实现。

附图说明

图1是本发明中三阶段多视角特征融合的原理示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

本发明公开了一种三阶段多视角特征融合的窃电分类预测方法,包括如下步骤:

步骤1),对待分析的客户用电数据,将其作为测试集,并对日用电量、当日电表读数、前一日电表读数中的缺失数据分别用“-1”和“0”进行填充,形成两份预处理数据;

步骤2),对每份预处理数据:

步骤2.1),从时间窗口统计、异常突变值统计和时间序列分析这三个视角中选择至少两个视角来提取特征,每个视角提取的特征值的集合作为一个单独的特征簇,然后把提取到的单独的特征簇合并为一个特征簇,并把该各个单独的特征簇以及合并后的特征簇形成的集合作为该预处理数据的特征簇集合;

步骤2.2),对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;

步骤3),对于训练集和测试集中的每一个客户,将其在两份预处理数据中预测得到的各个预测窃电概率组成其预测窃电概率集合;

步骤4),将训练集和测试集中所有客户的预测窃电概率集合作为特征、分别用树分类模型和线性分类模型对测试集进行预测,得到待分析的客户用电数据中各个客户的最终预测窃电概率;

步骤5),将待分析的客户用电数据中各个客户的最终预测窃电概率分别和预设的窃电概率阈值进行比较,将最终预测窃电概率大于预设的窃电概率阈值的客户划分为窃电客户,将最终预测窃电概率小于等于预设的窃电概率阈值的客户划分为正常客户。

所述步骤2.1)中选择三个视角来提取特征时的详细步骤为:

步骤2.1.1),对每个用户按每个月进行的用电量统计,并将其作为作为时间窗特征簇,所述用电量统计包括用电量的最大值、最小值、均值、均方差和根方差,;

步骤2.1.2),统计日用电量、当日电表读数和前一日电表读数的数值突变情况,并将其作为突变特征簇,所述数值突变情况包括小于前一日电表读数的电表读数、日用电量缺失、当日电表读数缺失、前一日电表读数缺失和日用电量为负数的电表读数;

步骤2.1.3),对每个用户按时间顺序,将日用电量转化为时间序列,分别提取时间序列的峰值个数、波谷个数、均值、分位数、季节性趋势、周期性趋势时间序列特征,作为时序特征簇;

步骤2.1.4),将时间窗特征簇、突变特征簇和时序特征簇合并为一个特征簇;

步骤2.1.5),把时间窗特征簇、突变特征簇、时序特征簇和合并后的特征簇形成的集合作为预处理数据的特征簇集合。

所述步骤2.2)的详细步骤为:

对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;

步骤2.2.1),将训练集的数据按客户随机抽样分成N份训练数据;

步骤2.2.2),对于每份训练数据:

将其作为子验证集、其余N-1份训练数据的合集作为子训练集,依次使用特征簇集合中的每一个特征簇、采用至少一种二分类的分类方法预测该训练数据和测试集中客户的窃电概率;

步骤2.2.3),将步骤2.2.2)中所有训练数据的预设结果进行合,得到训练集中各个客户的窃电概率的预测值;

步骤2.2.4),对步骤2.2.2)中各份训练数据对应的测试集中的每一份客户的窃电概率求平均值,得到测试集中的各个客户的窃电概率的预测值。

步骤2.2.1)中采用的二分类的分类方法包含XGBoost、LightGBM、Keras、Nerual Network、Logistic Regression和Gradient Boost Decision Tree。

步骤4)中所述的树分类模型为XGBoost、LightGBM、Keras、Nerual Network、Gradient Boosting Decision Tree中的一种。

步骤4)中所述的线性分类模型为booster设定为gblinear的XGBoost、LogisticRegeression、Linear Regression中的一种。

如图1所示,是本发明的一个实施例中,所用的预处理数据集为2个,提取特征的视角为简化起见只选用了时间窗统计特征和异常突变特征这2个,选用的分类算法为2个,做特征融合时将数据分成5份(N=5)。

本实施例包括下列步骤:

步骤1),对待预测的数据,将缺失的日用电量(KWH)、当日电表读数(KWH_READING)和前一日电表读数(KWH_READING1)分别填充为-1和0,产生两个预处理文件PD1和PD2。

步骤2),对PD1和PD2从时间窗统计特征和异常突变特征这2个不同的视角来分别提取特征,获得V11、V12、V21、V22、V11和V12的合集V1A、V21和V22的合集V2A:

步骤2.1),按客户分组后,将时间按月划分为不同的时间窗口,统计每个时间窗口内的日用电的特征,包括最大值、最小值、中值、均值、0的个数、连续0的个数、十分位数等,作为时间窗特征。对PD1和PD2分别提取时间窗特征,得到V11和V21;

步骤2.2),对客户分组后,按时间从小到大排序后,分别统计日用电量为负数、日用电量为0、当日电表读数小于前一日电表读数等,作为异常突变特征。对PD1和PD2分别提取异常突变特征,得到V12和V22;

步骤2.3),将PD1的多个视角的特征集合并,即将V11和V12合并,得到特征合集V1A;将PD2的多个视角的特征集合并,即将V21和V22合并,得到特征合集V2A;

步骤3),分别对每个特征集采用两种不同的分类预测算法,预测训练集和测试集中的客户的窃电概率:

步骤3.1),对每个特征集,将训练集分为5份(N=5)。

步骤3.2),取任意4份训练数据,用分类预测算法训练模型,然后预测另外一份训练数据和测试数据中客户的窃电概率;

步骤3.3),将步骤3.2)中得到的对训练数据的窃电概率预测数据合并,得到对整个训练集中客户的窃电概率;将步骤3.2)中得到的对测试集中客户的窃电概率预测值求平均,得到对测试集中客户窃电的预测概率;

步骤3.4),用分类预测算法M对每个特征集V11、V12、V1A、V21、V22、V2A分别用步骤3.1),、步骤3.2),、步骤3.3),的步骤,得到对每个特征集的窃电预测概率M11、M12、M1A、M21、M22、M2A;用分类预测算法N(N跟M为不同的分类预测算法)对每个特征集V11、V12、V1A、V21、V22、V2A分别用步骤31)、步骤32)、步骤33)的步骤,得到对每个特征集的窃电预测概率N11、N12、N1A、N21、N22、N2A;

步骤4),将步骤3)对训练集中客户的窃电概率预测值作为训练集输入特征,对测试集的窃电概率预测值作为测试集输入特征,分别用分类预测的树模型和分类预测的线性模型来预测测试集中客户的窃电概率,并对预测结果求平均,得到最终的客户窃电预测结果:

步骤4.1),将步骤3)得到的基础模型的预测概率作为特征,将M11、N11、M12、N12、M1A、N1A、M21、N21、M22、N22、M2A、N2A以客户编号为主键进行连接,用线性分类算法LogisticRegressionClassifier进行分类预测,获得对测试集中客户窃电概率的预测值LA;

步骤4.2),将步骤3)得到的基础模型的预测概率作为特征,将M11、N11、M12、N12、M1A、N1A、M21、N21、M22、N22、M2A、N2A以客户编号为主键进行连接,用树分类算法XGBoost进行分类预测,获得对测试集中客户窃电概率的预测值TA;

步骤4.3),将步骤4.1)和步骤4.2)的客户窃电概率预测值求均值,作为最客户的最终预测窃电概率R;

步骤5),将待分析的客户用电数据中各个客户的最终预测窃电概率分别和预设的窃电概率阈值进行比较,将最终预测窃电概率大于预设的窃电概率阈值的客户划分为窃电客户,将最终预测窃电概率小于等于预设的窃电概率阈值的客户划分为正常客户。

本发明的基本原理是:首先对待分析的客户用电数据的缺失值进行不同的填充,产生多个不同的预处理数据集,增加了数据的多样性,使得后续的特征提取和模型可以更好的利用缺失数据隐含的信息。其次在特征提取过程中,对每个预处理数据集,从时间窗统计、突变值统计和时间序列特征等多个视角来分别构建特征集,并将多个视角的提取的特征合并为一个特征集,这使得对每个预处理数据集的特征可以更好的刻画数据集的特性,同时由于几个特征集是从不同视角出发来构建的,特征集之间的差异性很大,避免了特征之间的相互干扰,减少了特征选择的计算过程。同时,由于对于每个预处理数据集,都构建了一个由多个不同视角的特征簇的特征合集,因此可以较好的融合多个不同视角的特征集,有利于最终的模型融合。在模型构建过程中,采用多个现有的主流分类算法,包括XGBoost、Gradient Boost Decision Tree、Neural Network等算法,增加了算法的多样性,使得不同算法的组合可以更好的从不同的角度刻画数据的特性。最后,采用树模型和线性模型的预测概率的均值作为最终预测结果,可以较好的避免模型的过拟合问题。上述方法用更小的资源实现了对客户窃电概率更精准的分类预测,具有更好的实际工程应用价值。

本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1