基于大数据技术的电力用户画像建立与分析方法与流程

文档序号:11144032阅读:来源:国知局

技术特征:

1.一种基于大数据技术的电力用户画像建立与分析方法,其特征是:包括以下步骤:

(1)获取电力用户的历史用电信息、基本属性、缴费信息和诉求信息;

(2)确定用户画像分类类别的集合,以及分类结果的影响因素集,确定影响因素集与分类集合的映射关系;

(3)将获取的数据进行随机抽取,一部分作为训练样本,其与数据作为预测样本;

(4)对训练样本和预测样本进行归一化处理,离散化处理以及属性约简,确定校正后的影响因素集合;

(5)对训练样本进行训练,并以十折交叉验证作为测试模式,建立基于朴素贝叶斯分类器的电力用户画像预测模型,利用预测模型对预测样本进行数据分类挖掘分析,得到电力用户画像。

2.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(1)中,所述影响因素包括基本信息、用电行为、缴费信息、诉求信息和社交信息,所述用户画像分类类别包括高质量用户,一般用户和低质量用户,具体质量等级根据设定的标准划分。

3.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(3)中,以20%的数据作为训练样本,其余80%数据作为预测样本。

4.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(4)中,对数据进行归一化处理:

<mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

式中:xij是归一化前样本,sij是归一化后样本;min(xj)是原始样本中的最小值;max(xj)是原始样本中的最大值。

5.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(4)中,对训练样本数据进行离散化处理:

<mrow> <msub> <mi>z</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&lt;</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&lt;</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>Q</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>Q</mi> <mo>&lt;</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&lt;</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mn>2</mn> <mi>Q</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>2</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mn>2</mn> <mi>Q</mi> <mo>&lt;</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&lt;</mo> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

式中:zij为离散化后样本,min(sj)为归一化后样本的最小值,max(sj)为归一化后样本的最大值,Q为步长:

<mrow> <mi>Q</mi> <mo>=</mo> <mfrac> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mn>3</mn> </mfrac> <mo>.</mo> </mrow>

6.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(4)中,属性约简的具体步骤包括:当去掉某个属性后,若没有发现有重复的训练样本数据,决策表中的不可辩关系发生了相对应的变化,所以此属性予以保留;以此类推,最终得到确定的影响因素集合。

7.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(5)中,建立电力用户画像预测模型的具体方法为:

(5-1)建立基于朴素贝叶斯分类器的电力用户画像预测模型,该模型以确定的影响因素集合为输入向量,以用户画像分类类别结合为输出向量;

(5-2)分别从详细精度、混淆矩阵和节点错误率三个方面,检验电力用户画像预测模型的准确性。

8.如权利要求7所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(5-2)中,详细精度包括:真正元比率、假正元比率、精准度、查全率、查准率和查全率的调和平均数。

9.如权利要求1所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(5)中,利用预测模型对预测样本进行数据分类挖掘分析的具体方法:

(5-a)统计出实例训练样本的个数S、类别为Ci的样本数Si、第k个属性Ak等于xk且类别为Ci的训练实例样本个数Sik

(5-b)分别计算各类别的概率与各类别中属性Ak等于xk的概率;

(5-c)利用分类器

<mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>argmax</mi> <mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>C</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mo>&Pi;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

得出预测实例样本X的归属分类结果,把用户画像的预测结果与实际情况做对比。

10.如权利要求9所述的一种基于大数据技术的电力用户画像建立与分析方法,其特征是:所述步骤(5-b)中,

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mi>S</mi> <mo>+</mo> <msub> <mi>S</mi> <mi>c</mi> </msub> </mrow> </mfrac> </mrow>

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>k</mi> </msub> <mo>=</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>S</mi> <mi>k</mi> </msub> </mrow> </mfrac> </mrow>

这里,Sc为所有分类数量,Sk示训练样本中第k个属性取值数目。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1