1.一种基于大数据技术的电力用户画像建立与分析方法,其特征是:包括以下步骤:
(1)获取电力用户的历史用电信息、基本属性、缴费信息和诉求信息;
(2)确定用户画像分类类别的集合,以及分类结果的影响因素集,确定影响因素集与分类集合的映射关系;
(3)将获取的数据进行随机抽取,一部分作为训练样本,其与数据作为预测样本;
(4)对训练样本和预测样本进行归一化处理,离散化处理以及属性约简,确定校正后的影响因素集合;
(5)对训练样本进行训练,并以十折交叉验证作为测试模式,建立基于朴素贝叶斯分类器的电力用户画像预测模型,利用预测模型对预测样本进行数据分类挖掘分析,得到电力用户画像。
2.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(1)中,所述影响因素包括基本信息、用电行为、缴费信息、诉求信息和社交信息,所述用户画像分类类别包括高质量用户,一般用户和低质量用户,具体质量等级根据设定的标准划分。
3.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(3)中,以20%的数据作为训练样本,其余80%数据作为预测样本。
4.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(4)中,对数据进行归一化处理:
式中:xij是归一化前样本,sij是归一化后样本;min(xj)是原始样本中的最小值;max(xj)是原始样本中的最大值。
5.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(4)中,对训练样本数据进行离散化处理:
式中:zij为离散化后样本,min(sj)为归一化后样本的最小值,max(sj)为归一化后样本的最大值,Q为步长:
6.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(4)中,属性约简的具体步骤包括:当去掉某个属性后,若没有发现有重复的训练样本数据,决策表中的不可辩关系发生了相对应的变化,所以此属性予以保留;以此类推,最终得到确定的影响因素集合。
7.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(5)中,建立电力用户画像预测模型的具体方法为:
(5-1)建立基于朴素贝叶斯分类器的电力用户画像预测模型,该模型以确定的影响因素集合为输入向量,以用户画像分类类别结合为输出向量;
(5-2)分别从详细精度、混淆矩阵和节点错误率三个方面,检验电力用户画像预测模型的准确性。
8.如权利要求7所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(5-2)中,详细精度包括:真正元比率、假正元比率、精准度、查全率、查准率和查全率的调和平均数。
9.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(5)中,利用预测模型对预测样本进行数据分类挖掘分析的具体方法:
(5-a)统计出实例训练样本的个数S、类别为Ci的样本数Si、第k个属性Ak等于xk且类别为Ci的训练实例样本个数Sik;
(5-b)分别计算各类别的概率与各类别中属性Ak等于xk的概率;
(5-c)利用分类器
得出预测实例样本X的归属分类结果,把用户画像的预测结果与实际情况做对比。
10.如权利要求9所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(5-b)中,
这里,Sc为所有分类数量,Sk示训练样本中第k个属性取值数目。