一种基于数据挖掘的用电客户流失电量预测方法与流程

文档序号:11775407阅读:165来源:国知局

本发明涉及用电客户流失电量预测方法,具体涉及一种基于数据挖掘的用电客户流失电量预测方法。



背景技术:

客户流失,在电力系统中称之为客户销户,即客户因自身原因希望终止与供电企业的供用电关系而办理销户手续。根据原国家电力工业部1996年发布的《供电营业规则》第三十二条和三十三条规定:客户销户,须向供电企业提出申请。供电企业应按下列规定办理:1)销户必须停止全部用电容量的使用;2)客户已向供电企业结清电费;检查用电计量完好性后,拆除接户线和用电计量装置;4)客户持供电企业出具的凭证,领还电能表保证金与电费保证金;办结上述事宜,即解除供用电关系。

电力一直以来处于垄断地位,2015年3月中共中央、国务院印发《中共中央国务院关于进一步深化电力体制改革的若干意见》(中发〔2015〕9号)和《关于推进售电侧改革的实施意见》,根据文件精神要求通过开展售电侧改革试点,引入社会资本竞争,未来电力企业面临社会资本对客户市场的竞争。未来客户可以根据电价、服务体验等因素对供电对象进行选择,因此电力企业需要通过现有强大的客户基础信息数据,对客户流失问题开展研究,并对流失进行预测,为制定相应的服务策略争取增量客户市场提供决策依据,同时也能为政府机构开展经济形势分析提供参考。

目前针对用电客户流失的相关研究较少,往往通过人工经验预测流失电量,没有系统的流失电量计算方法,使得预测流失电量对预测人的经验要求非常高,故需设计一种用电客户流失电量预测方法,以估算客户流失给电力企业带来的的电量。



技术实现要素:

本发明旨在提供一种基于数据挖掘的用电客户流失电量预测方法,以解决现有技术中通过只能通过人工经验预测流失电量的问题。

为了实现所述目的,本发明一种基于数据挖掘的用电客户流失电量预测方法,包括如下步骤,

步骤1:利用聚类分析法对用电客户进行分类;

步骤2:计算每类用电客户在预测月流失的预测客户流失数;

步骤3:获取每个用电客户的历史用电量,根据历史用电量计算得出每类用电客户在预测月的平均用电量;

步骤4:根据每类用电客户在预测月的平均用电量和每类用电客户在预测月流失的预测客户流失数计算得出全体用电客户在预测月的总流失电量。

优选的,所述利用聚类分析法对用电客户进行分类包括:获取每个用电客户的特征数据,利用k均值聚类法根据特征数据对用电客户进行分类,其中所述特征数据包括电压等级、合同容量、累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数和用电量。

优选的,所述利用k均值聚类法根据特征数据对用电客户进行分类的步骤包括:

步骤a1:根据特征数据建立d维数据集{xj|xj∈rd,j=1,2,……,n},其中xj表示d维数据集中的第j个数据点;xj∈rd表示xj属于d维数据集中的其中一个数据点;n表示d维数据集中数据点的个数;

步骤a2:从d维数据集中随机选取k个初始参照点c1,c2,……,ck;以c1,c2,……,ck为参照点,对d维数据集进行划分,形成k个簇,其划分方法为:若dij(xj,ci)<dim(xi,cm),则将xj划分到cj所在簇中;其中,xj表示d维数据集中的第j个数据点,ci表示第i个参照点,xi表示d维数据集中的第i个数据点,cm表示第m个参照点,m=1,2,……,k;j=1,2,……,k;j≠m;i=1,2,……,n,dij(xj,ci)是xj与ci之间的欧式距离,dim(xi,cm)是xj与cm之间的欧式距离,n表示xi所在簇内的数据点个数;

步骤a3:根据公式计算质心其中wi表示第i个簇,ni表示wi中数据点的个数,x表示d维数据集中的数据点;

步骤a4:判断对任意i∈{1,2,......,k},是否都成立,如果都成立,根据则当前的k个簇对用电客户进行分类,否则,令并进入步骤a2。

优选的,所述计算每类用电客户在预测月流失的预测客户流失数包括:从每类用电客户中抽取流失客户和预设比例的正常客户作为样本客户,获取样本客户在设定月的属性变量作为第一属性变量,获取每个用电客户在预测月的属性变量作为第二属性变量,以用电客户是否流失作为目标变量,以第一属性变量作为预测变量,建立卡方自动交互检测决策树模型,根据卡方自动交互检测决策树模型和第二属性变量计算得出各个用电客户是否流失,进而计算得到每类用电客户在预测月流失的预测客户流失数。

优选的,在设定月下的第一属性变量包括累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数、om月用电量、tm月用电量、om月同比、tm月同比、om月环比、tm月环比、om月同比和tm月同时为空、om月环比和tm月环比同时为空,其中om月为t月的前一月,tm月为om月的前一月,所述t月为设定月;用电客户在预测月下的第二属性变量包括累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数、om'月用电量、tm'月用电量、om'月同比、tm'月同比、om'月环比、tm'月环比、om'月同比和tm'月同时为空、om'月环比和tm'月环比同时为空,其中om'月为t'月的前一月,tm'月为om'月的前一月,所述t'月为预测月。

优选的,所述预设比例为0.5%。

优选的,所述设定月为预测月前十二个月中的每个月,或,所述设定月为预测月的前一月。

优选的,根据历史用电量计算得出每类用电客户在预测月的平均用电量包括:根据历史用电量计算得出全体用电客户在预测月的预测用电总量、全体用电客户在预测月前一月的实际用电总量和每类用电客户在预测月前一月的实际平均用电量,根据全体用电客户在预测月的预测用电总量和全体用电客户在预测月前一月的实际用电总量得出用电量环比值,根据用电量环比值和每类用电客户在预测月前一月的实际平均用电量得出每类用电客户在预测月的平均用电量。

优选的,根据历史用电量数据计算得出全体用电客户在预测月的预测用电总量包括:根据历史用电量数据建立holt-winters加法指数模型,根据holt-winters加法指数模型计算得出所有用电客户在预测月的预测用电总量。

优选的,每个用电客户的历史用电量数据为每个用电客户预测月前24个月中每个月的用电量。

通过实施本发明可以取得以下有益技术效果:本发明首先对用电客户通过聚类分析法进行分类,根据每类用电客户在预测月流失的预测客户流失数和每类用电客户在预测月的平均用电量计算全体用电客户在预测月的总流失电量,也就是说先是计算每类用电客户在预测月的流失电量,再根据每类用电客户在预测月的流失电量得到全体用电客户在预测月的总流失电量,使得计算得出的全体用电客户在预测月的总流失电量更准确。本发明实现对总流失电量的计算,克服了现有技术中只能通过经验获得预测流失电量的缺陷。

附图说明

图1为本发明的流程图。

具体实施方式

为了便于本领域技术人员的理解,下面结合具体实施例对本发明作进一步的说明:

如图1所示,本发明提供了一种基于数据挖掘的用电客户流失电量预测方法,包括如下步骤,

步骤1:利用聚类分析法对用电客户进行分类;

步骤2:根据步骤1的分类,得到每类用电客户在预测月流失的预测客户流失数;

步骤3:获取每个用电客户的历史用电量,根据历史用电量计算得出每类用电客户在预测月的平均用电量;

步骤4:根据每类用电客户在预测月的平均用电量和每类用电客户在预测月流失的预测客户流失数计算得出全体用电客户在预测月的总流失电量。

本发明首先对用电客户通过聚类分析法进行分类,根据每类用电客户在预测月流失的预测客户流失数和每类用电客户在预测月的平均用电量计算全体用电客户在预测月的总流失电量,也就是说先是计算每类用电客户在预测月的流失电量,再根据每类用电客户在预测月的流失电量得到全体用电客户在预测月的总流失电量,使得计算得出的全体用电客户在预测月的总流失电量更准确。本发明实现对总流失电量的计算,克服了现有技术中只能通过经验获得的缺陷。

步骤1中,利用聚类分析法对用电客户进行分类包括:获取每个用电客户的特征数据,利用k均值聚类法根据特征数据对用电客户进行分类。

本实施例中,特征数据是多维数据,具备包括电压等级、合同容量、累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数和用电量。作为一种优选方案,电压等级、合同容量、累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数和用电量对应为用电客户在t月的电压等级、合同容量、累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数和用电量,t月优选为预测月前十二个月中的每个月,也就是说预测月前十二个月中的每个月的电压等级、合同容量、累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数和用电量均作为一组多维数据,以保证分类的准确性;t月也可为预测月前一月或其他月份。

在知道特征数据的前提下,如何利用k均值聚类法根据特征数据对用电客户进行分类是本领域人员应当知晓的。

利用k均值聚类法根据特征数据对用电客户进行分类可以通过如下步骤实现:

步骤a1:根据特征数据建立d维数据集。为了便于知晓d维数据集中的数据,d维数据集用{xj|xj∈rd,j=1,2,……,n}表示,其中xj表示d维数据集中的第j个数据点;xj∈rd表示xj属于d维数据集中的其中一个数据点;n表示d维数据集中数据点的个数;(本实施例中,特征数据采用电压等级、合同容量、累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数和用电量8项数据时,每个数据点均包含8项数据,d维数据集为8维数据集)

步骤a2:从d维数据集中随机选取k个初始参照点c1,c2,……,ck;以c1,c2,……,ck为参照点,对d维数据集进行划分,形成k个簇w1,w2,……,wk,其划分方法为:若dij(xj,ci)<dim(xi,cm),则将xj划分到cj簇中,其中,xj表示d维数据集中的第j个数据点,ci表示第i个参照点,xi表示d维数据集中的第i个数据点,cm表示第m个参照点,m=1,2,……,k;j=1,2,……,k;j≠m;i=1,2,……,n,dij(xj,ci)是xj与ci之间的欧式距离,dim(xi,cm)是xj与cm之间的欧式距离,n表示xi所在簇内的数据点个数;

步骤a3:根据公式计算质心其中wi表示第i个簇,ni表示wi中数据点的个数,x表示d维数据集中的数据点;

步骤a4:判断对任意i∈{1,2,......,k},是否都成立,如果都成立,则根据则当前的k个簇对用电客户进行分类,否则,令并进入步骤a2。

根据则当前的k个簇对用电客户进行分类的方法为:获取同一簇内的数据点,获取该数据点对应的用电客户,将获取的用电客户作为一类。

步骤2中,计算每类用电客户在预测月流失的预测客户流失数包括:从每类用电客户中抽取流失客户和预设比例的正常客户作为样本客户,获取样本客户在设定月的属性变量作为第一属性变量,获取每个用电客户在预测月的属性变量作为第二属性变量,以用电客户是否流失作为目标变量,以第一属性变量作为预测变量,建立卡方自动交互检测决策树模型,根据卡方自动交互检测决策树模型和第二属性变量计算得出各个用电客户是否流失,进而计算得到每类用电客户在预测月流失的预测客户流失数。

卡方自动交互检测以样本客户的原始数据处理为出发点,首先选定分类的目标变量,然后选定分类的预测变量,预测变量与目标变量进行交叉分类,产生一系列二维表,然后分别计算所生成二维表的卡方χ2统计量,比较统计量p值大小,以统计量p值最大的二维表作为最佳初始分类表,在最佳二维分类表的基础上继续使用分类预测变量对目标变量进行分类,重复上述过程直到分类条件满足p值大于拆分水准α_split为止。

具体步骤如下:

步骤c1:对于每个预测变量b,寻找关于目标变量y的分布差异最小的两个类别(也就是p值最大)。由于本专利的目标变量是定类变量,采用χ2统计量,其中χ2统计量计算公式为:

上述公式中,fij=yij/n,为实际分布频率,其中yij为第i类目标变量y的分布频数,n为全部样本数,yij是与fij对应的理论期望分布频率的估计值;其中yj为二维交叉分类表中第i行元素求和,yi为二维交叉分类表中第j列元素求和。

步骤c2:找出p值最大的b的两个类别,比较p值和默认的合并水准αmerge(0,05),如果p值小于αmerge,则将b的两个类别合并,合并后形成一个新的系列b类别,然后重复步骤c1;如果p值大于合并水准α,则继续步骤c3。

步骤c3:采用bonferroni法计算预测变量b和目标变量y的列表调整的p值。bonferroni法的计算公式为:

式中c为预测变量起始类别数;r为解预测变量合并的类别数。

步骤c4:选择调整后p值最小的预测变量b。比较p值和默认的拆分水准αsplit(0,05),如果p值小于αsplit,则根据一系列b类别拆分结点;如果p值大于αsplit,则不拆分结点,这个结点就是终结点。最终得出卡方自动交互检测决策树模型。

由于每月流失客户占正常客户的比例大致在0.14%左右,比例悬殊,由这些数据建立预测模型会引起模型的失真,并使用步骤1中的分类结果,按类随机抽取正常客户0.5%的数据,即预设比例为0.5%,保证了流失客户和正常客户的比例接近1:3,获得足够流失客户样本,设定月为预测月前十二个月中的每个月即获取了预测月前十二个月中的每个月的累计流失客户样本,避免因为数据分布的原因导致模型失真。当然,根据实际本发明方法的实际使用情况,所述设定月也可为预测月的前一月或预测月前的其他一个或几个月。

在设定月下的第一属性变量为累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数、om月用电量、tm月用电量、om月同比、tm月同比、om月环比、tm月环比、om月同比和tm月同时为空、om月环比和tm月环比同时为空,其中om月为t月的前一月,tm月为om月的前一月,所述t月为设定月;用电客户在预测月下的第二属性变量为累计改类次数、累计减容次数、累计欠费次数、累计暂停次数、累计更改缴费方式次数、om'月用电量、tm'月用电量、om'月同比、tm'月同比、om'月环比、tm'月环比、om'月同比和tm'月同时为空、om'月环比和tm'月环比同时为空,其中om'月为t'月的前一月,tm'月为om'月的前一月,所述t'月为预测月。

步骤3中,根据历史用电量计算得出每类用电客户在预测月的平均用电量包括:根据历史用电量计算得出全体用电客户在预测月的预测用电总量、全体用电客户在预测月前一月的实际用电总量和每类用电客户在预测月前一月的实际平均用电量,根据全体用电客户在预测月的预测用电总量和全体用电客户在预测月前一月的实际用电总量得出用电量环比值,根据用电量环比值和每类用电客户在预测月前一月的实际平均用电量得出每类用电客户在预测月的平均用电量。

根据历史用电量数据建立holt-winters加法指数模型,根据holt-winters加法指数模型计算得出所有用电客户在预测月的预测用电总量,其中每个用电客户的历史用电量数据可以为每个用电客户预测月前12个月中每个月的用电量。

在知道历史用电量数据的前提下,如何根据holt-winters加法指数模型计算得出所有用电客户在预测月的预测用电总量是本领域人员应当知晓的。本发明对此仅作简要描述。

holt-winters加法指数模型适用于具有线性时间趋势和加法模型的序列。

时间序列yu平滑后的序列y′u由下式给出:

y′u=au+buk′+cu+k′

式中:a表示截距;b表示趋势;c为加法模型的季节因子;u=1,2,......,t,表示按时间顺序输入的第u个数据,au表示按时间顺序输入的第u个数据所对应的截距;bu表示按时间顺序输入的第u个数据所对应的趋势;cu+k′表示按时间顺序输入的第u+k′个数据所对应的的季节因子;k′为向后平滑期数,k′>0。

本实施例中k′取1,即后平滑期数为1;

au,bu,bu的计算公式如下:

au=α(yu-cu-s)+(1-α)(au-1+bu-1)

bu=β(au-au-1)+(1-β)bu-1

cu=γ(yu-au)+(1-γ)cu-s

式中:α,β,γ为阻尼因子,在0~1之间,可以随机取数,多次带入以达到模型的最佳拟合效果;s表示季节周期的数量;yu表示按时间顺序输入的第u个数据;bu表示按时间顺序输入的第u个数据所对应的趋势;cu-s表示按时间顺序输入的第u个数据前一年所对应的趋势。

也就是说预测用电总量(预测值)由可以由下面公式计算:

y′t-1+k′=at-1+bt-1k′+ct-1+k′-s

式中:a表示截距;b表示趋势;c为加法模型的季节因子,s表示季节周期的数量,本实施例中输入的是月度数据,故s值为采用12;t-1+k′,表示预测时间,由于本实施例向后平滑期数为1,t-1+k′等价于t;ct-1+k′-s表示预测时间前一年的季节因子。

通过以下公式计算预测月与预测月前一月的用电量环比值f(gt)

f(yt-1)表示全体用电客户在预测月前一月的实际用电总量,y′t-1+k′表示本发明中的预测用电总量;

根据用电量环比值f(gt)和每类用电客户在预测月前一月的实际平均用电量得出每类用电客户在预测月的平均用电量。其中i类用电客户在预测月的平均用电量f(y)i通过如下公式计算:

f(y)i=s(xt-1)i*f(gt)+s(xt-1)i

t表示预测月,t-1表示预测月前一月,s(xt-1)i表示i类用电客户在预测月前一月的实际平均用电量。

为了计算所有用电客户在预测月的预测用电总量时的准确性,每个用电客户的历史用电量数据也可以为每个用电客户预测月前24个月中每个月的用电量。

作为根据历史用电量计算得出每类用电客户在预测月的平均用电量的另一种计算方法,步骤3中,根据历史用电量计算得出每类用电客户在预测月的平均用电量包括:根据历史用电量计算得出每类用电客户在预测月的预测用电总量、每类用电客户在预测月前一月的实际用电总量和每类用电客户在预测月前一月的实际平均用电量,根据每类用电客户在预测月的预测用电总量和每类用电客户在预测月前一月的实际用电总量得出每类用用电客户的电量环比值,根据每类用用电客户的电量环比值和每类用电客户在预测月前一月的实际平均用电量得出每类用电客户在预测月的平均用电量。

其优点在于,用电客户的电量环比值

步骤4中,根据每类用电客户在预测月的平均用电量和每类用电客户在预测月流失的预测客户流失数计算得出全体用电客户在预测月的总流失电量:

根据每类用电客户在预测月的平均用电量的全体用电客户在预测月的总流失电量y:

γi表示i类用电客户在预测月流失的预测客户流失数,k表示用电客户的分类数。

以上所述仅为本发明的具体实施例,但本发明的技术特征并不局限于此,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1