一种基于fcm聚类算法的用电行为分析方法

文档序号:10489409阅读:298来源:国知局
一种基于fcm聚类算法的用电行为分析方法
【专利摘要】本发明提出了一种基于FCM聚类算法的用电行为分析方法,包括:(1)将用电数据从关系数据库拷贝到分布式文件系统HDFS中,确定聚类个数c和停止域ε;(2)根据上一次的聚类结果确定初始聚类中心,并将数据传输至参与分布式计算的数据节点;(3)对用电数据进行预处理,并产生键值对<user,profile>;(4)将所有的键值对<user,profile>划分为若干个数据子集,并传输至Map函数计算;(5)将Map函数计算的结果传输至Reduce节点,Reduce任务将Map产生的中间键值根据聚类编号合并后进行计算,获得新的聚类中心;(6)重复步骤(2)~(5),直到隶属度矩阵满足停止域条件,算法结束,输出聚类结果。本发明对基于文件的海量历史用电数据进行直接计算并获得用电行为特征。
【专利说明】
-种基于FCM聚类算法的用电行为分析方法
技术领域
[0001] 本发明设及电力大数据领域,尤其设及一种基于FCM聚类算法的用电行为分析方 法。
【背景技术】
[0002] 基于智能电表数据,统计并挖掘电力客户的用电模式,是电力企业掌握客户构成, 了解用电行为特征的基础,也是提供个性化、精细化用电服务,实现客户智能化、精益化管 理的先决条件。但是,随着电力通信技术的发展,用电信息采集系统每天产生的用电数据是 高频海量的,运就对用户行为特征分析技术提出了能够高速、高精度处理数量庞大且数据 类型众多的用电数据,从中发掘高价值信息的要求。运符合典型的大数据应用特征,同时也 意味着使用传统计算结构和数据挖掘方式无法满足上述要求。
[0003] 随着智能电表的普及应用,用户用电信息采集频率更加频繁,15分钟甚至5分钟就 需要采集一次数据,且数据呈现双向流动特征,规模和频率呈指数级增长。W天津生态城为 例,用电信息采集系统目前已经覆盖1500万用户,数据年增长量约为12TB左右。同时,需求 侧响应应用对用电数据的分析计算又有着一定的实时性要求。
[0004]传统的大数据计算架构,如化doop、Fou;rinone等,适合处理大规模、高并发的数值 计算,但是一次计算所需要耗费的时间可能达到数十分钟甚至数小时,由此带来的高延时 问题限制了运些计算架构在高实时性大数据应用中的适用性。而高实时性的流式计算框 架,如Spark、Storm等,适用于处理高速、大型数据流的分布式实时计算,其数据结构设计 和对象关系又不适用于大规模并行计算。

【发明内容】

[0005] 针对智能用电领域用电行为特征分析对于并行计算的需求,提出了一种基于FCM 聚类算法的用电行为分析方法。
[0006] 为了实现上述目的,本发明使用W下技术方案:
[0007] -种基于FCM聚类算法的用电行为分析方法,所述分析方法包括:
[0008] (1)将用电数据从关系数据库拷贝到分布式文件系统HDFS中,确定聚类个数C和停 止域ε;
[0009] (2)根据上一次的聚类结果确定初始聚类中屯、,并将数据传输至参与分布式计算 的数据节点;
[0010] (3)对用电数据进行预处理,并产生键值对〈user, prof i le>;
[0011] (4)将所有的键值对〈user,prof i le>划分为若干个数据子集,并传输至Map函数计 算;
[0012] (5)将Map函数计算的结果传输至Reduce节点,Reduce任务将Map产生的中间键值 根据聚类编号合并后进行计算,获得新的聚类中屯、;
[0013] (6)重复步骤(2)~(5),直到隶属度矩阵满足停止域条件,分布式FCM算法结束,输 出聚类结果。
[0014] 优选的,所述步骤(3)中,所述键值对〈user,prof ile〉中user为用户的唯一标识, profile中包含了数据对象的特征。
[0015] 优选的,所述步骤(4)中,所述Map函数进行隶属度计算,产生的结果保存在中间 键值对α,μι>中,其中i为聚类编号,化为数据子集中所有数据对象对第i个聚类的隶属度。
[0016] 进一步的,所述Map函数通过下式计算隶属度;
[0017]
[001引 m为平滑因子,dik表示样本k到第i个聚类中屯、Pi之间的距离;d化表示样本k到第j个 聚类中屯、之间的距离,Wk表示样本k划分到第i个聚类的隶属度,C为聚类中屯、总数。
[0019] 优选的,所述步骤(5)中,利用下式计算获得新的聚类中屯、;
[0020]
[0021] 其中,xk为第k个样本值,m为设置的平滑因子或模糊程度加权指数,m越大则聚类 越模糊,用带权值的隶属度计算聚类中屯、,可W增加迭代的平滑性,更易收敛,一般取m=2, Pi为新的聚类中屯、。η为样本值总数。
[0022] 优选的,所述步骤(6)中,所述停止域条件为MuW-ufb+ill |<ε
[0023] 其中uW为第b次迭代的隶属度矩阵,ufb+υ为第b+i次迭代的隶属度矩阵,e为给定 的隶属度终止容限。
[0024] 优选的,所述步骤(6)中,所述聚类结果包括:聚类编号、聚类中屯、和每个用户对于 各个聚类的最终隶属度;
[0025] 所述聚类中屯、即为用电行为特征;
[0026] 所述隶属度矩阵决定了每个样本与用电行为特征的接近程度。
[0027] 与现有技术相比,本发明具有W下有益效果:
[0028] 针对用电信息采集系统所获历史数据信息量大,受限于计算机的内存大小和运算 速度,无法对大量的用电历史数据进行全局计算,只能从中抽取样本,通过对抽样数据集的 聚类分析用电行为特征,其结果的准确性由于样本缺失而无法得到保证。提出了使用一种 使用了分布式文件系统HDFS(化doop distributed file system)和Mapreduce的计算模 型,对基于文件的海量历史用电数据进行直接计算并获得用电行为特征。
【附图说明】
[00巧]图1是基于Mapreduce的FCM并行计算过程图;
[0030] 图2是基于FCM的用电行为分析算法流程图。
【具体实施方式】
[0031] 为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合 附图及具体实施例进行详细描述。
[0032] 本发明提出了一种基于FCM聚类算法的用电行为分析方法,将FCM的迭代过程分解 为Map和Reduce两个阶段,Map阶段在不同的数据节点上将同一个函数作用与不同的数据 集,输出的数据集^<1?37,乂曰1116〉形式保存在数据节点上,在Map阶段结束后,计算模型将传 输至承担Reduce工作的节点,并对Map阶段输出的键值对进行合并等处理,并输出<467, value〉形式的最终结果。由于Map和Reduce步骤都是可W在多台计算机上分布式运行的,且 对分布式计算过程进行了高度抽象,所WMapreduce计算模型可W方便、高效地对大规模数 据(ITB)W上进行分析计算。
[0033] 所述分析方法包括:
[0034] (1)将用电数据从关系数据库拷贝到分布式文件系统HDFS中,确定聚类个数C和停 止域ε;
[0035] (2)根据上一次的聚类结果确定初始聚类中屯、,并将数据传输至参与分布式计算 的数据节点;
[0036] (3)对用电数据进行预处理,并产生键值对〈user, prof i le>;
[0037] (4)将所有的键值对〈user, profile〉划分为若干个数据子集,并传输至Map函数计 算;
[0038] (5)将Map函数计算的结果传输至Reduce节点,Reduce任务将Map产生的中间键值 根据聚类编号合并后进行计算,获得新的聚类中屯、;
[0039] (6)重复步骤(2)~(5),直到隶属度矩阵满足停止域条件,分布式FCM算法结束,输 出聚类结果。
[0040] 所述步骤(3)中,所述键值对〈user,prof ile〉中user为用户的唯一标识,prof ile 中包含了数据对象的特征。
[0041] 所述步骤(4)中,所述Map函数进行隶属度计算,产生的结果保存在中间键值对<i, μι〉中,其中i为聚类编号,化为数据子集中所有数据对象对第i个聚类的隶属度。
[0042] 所述Map函数通过下式计算隶属度;
[0043]
[0044] m为平滑因子,dik表示样本k到第i个聚类中屯、Pi之间的距离;d化表示样本k到第j个 聚类中屯、之间的距离,Wk表示样本k划分到第i个聚类的隶属度,C为聚类中屯、总数。
[0045] 所述步骤(5)中,利用下式计算获得新的聚类中屯、;
[0046]
[0047] 其中,xk为第k个样本值,m为设置的平滑因子或模糊程度加权指数,m越大则聚类 越模糊,用带权值的隶属度计算聚类中屯、,可W增加迭代的平滑性,更易收敛,一般取m=2, Pi为新的聚类中屯、。η为样本值总数。
[004引所述步骤(6)中,所述停止域条件为lluW-utb+ill |<ε
[0049] 其中UW为第b次迭代的隶属度矩阵,U<b+U为第b+1次迭代的隶属度矩阵,ε为给定 的隶属度终止容限。
[0050] 所述步骤(6)中,所述聚类结果包括:聚类编号、聚类中屯、和每个用户对于各个聚 类的最终隶属度;
[0051] 所述聚类中屯、即为用电行为特征;
[0052] 所述隶属度矩阵决定了每个样本与用电行为特征的接近程度。
[0053] 1、模糊c-means(Fuzz;y C-means,FCM)聚类算法进行用电行为分析,基于目标函数 的FCM聚类算法适用于处理大量数据,而且算法过程简单,因此易于在计算机上实现,适合 对基于时间序列的复杂数据集进行划分,运一特性与用电数据的特性吻合。
[0054] 2、居民用户、大用户安装的智能电表借助化C和无线通信等通信技术,W-定频率 向用电信息采集系统传输用户用电数据,我们从中选取四类特征作为聚类分析的数据对 象:
[0055] (l)Xii用电量:日用电总量;
[0056] (2)xi2负荷率:平均负荷/最大负荷;
[0057] (3)Xi3峰电系数:峰时用电量/日用电总量;
[005引(4)Xi4谷电系数:谷时用电量/日用电总量。
[0059] 智能电表的采集频率是每15分钟一个点,因此每日采集96个,日用电总量为96点 数据之和,平均负荷为日用电总量/96,峰时用电量和谷时用电量分别为峰谷时间内的用电 总量。因此聚类分析的每一个样本a均为一个四维向量。
[0060] 3、图2所示,在数据预处理阶段,需要对缺失数据利用差值算法进行补齐处理,对 于超出阔值的数据进行修正,并产生键值对如361·, prof i le>,其中user为用户的唯一标识, profile中包含了数据对象的特征xii~xi4,接下来,对FCM聚类算法进行初始化,包括设置 聚类类别(3,迭代停止域6和迭代步数6 = 0,^及隶属度矩阵1]<^将所有的键值对<1136', profile〉划分为若干个数据子集,并传输至Map函数,Map函数进行隶属度计算,产生的结果 保存在中间键值对。典〉中,其中功聚类编号,μ功数据子集中所有数据对象对第i个聚类 的隶属度;将Map函数计算的结果传输至Reduce节点,Reduce任务将Map产生的中间键值根 据聚类编号进行合并后进行计算,获得新的聚类中屯、;通过迭代不断更新隶属度Wik和聚类 中屯、Pi直到满足设定的停止域条件|<ε为止。
[0061] W上显示和描述了本发明的基本原理、主要特征和有益效果和实施方案。本发明 主要应用于用电行为分析,W上重点阐述的是分布式文件系统HDFS(化doop distr化uted file system)和Mapreduce的计算模型,对基于文件的海量历史用电数据进行直接计算并 获得用电行为特征。
[0062]最后应当说明的是:W上实施例仅用于说明本申请的技术方案而非对其保护范围 的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当 理解:本领域技术人员阅读本申请后依然可对申请的【具体实施方式】进行种种变更、修改或 者等同替换,但运些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。
【主权项】
1. 一种基于FCM聚类算法的用电行为分析方法,其特征在于,所述分析方法包括: (1) 将用电数据从关系数据库拷贝到分布式文件系统HDFS中,确定聚类个数c和停止域 ε; (2) 根据上一次的聚类结果确定初始聚类中心,并将数据传输至参与分布式计算的数 据节点; (3) 对用电数据进行预处理,并产生键值对〈user,prof i le>; (4) 将所有的键值对〈user ,profile〉划分为若干个数据子集,并传输至Map函数计算; (5) 将Map函数计算的结果传输至Reduce节点,Reduce任务将Map产生的中间键值根据 聚类编号合并后进行计算,获得新的聚类中心; (6) 重复步骤(2)~(5 ),直到隶属度矩阵满足停止域条件,分布式FCM算法结束,输出聚 类结果。2. 根据权利要求1所述的分析方法,其特征在于,所述步骤(3)中,所述键值对〈user, profile〉中user为用户的唯一标识,profile中包含数据对象的特征。3. 根据权利要求1所述的分析方法,其特征在于,所述步骤(4)中,所述Map函数进行隶 属度计算,产生的结果保存在中间键值对中,其中i为聚类编号,W为数据子集中所有 数据对象对第i个聚类的隶属度。4. 根据权利要求3所述的分析方法,其特征在于,所述Map函数通过下式计算样本k划分 到第i个聚类的隶属度ylk:m为平滑因子,dlk表示样本k到第i个聚类中心Pl之间的距离;山!^表示样本k到第j个聚类 中心Pj之间的距离,c为聚类中心总数。5. 根据权利要求1所述的分析方法,其特征在于,所述步骤(5)中,利用下式计算获得新 的聚类中心Pi;其中,Xk为第k个样本值,η为样本值总数。6. 根据权利要求1所述的分析方法,其特征在于,所述步骤(6)中,所述停止域条件为IIU (b)_u(b+l)||<e 其中为第^欠迭代的隶属度矩阵,υα+υ为第b+1次迭代的隶属度矩阵,ε为给定的隶 属度终止容限。7. 根据权利要求1所述的分析方法,其特征在于,所述步骤(6)中,所述聚类结果包括: 聚类编号、聚类中心和每个用户对于各个聚类的最终隶属度; 所述聚类中心即为用电行为特征; 所述隶属度矩阵决定了每个样本与用电行为特征的接近程度。
【文档编号】G06Q50/06GK105844294SQ201610161721
【公开日】2016年8月10日
【申请日】2016年3月21日
【发明人】戴江鹏, 周建华, 柴博, 裘洪彬, 张波
【申请人】全球能源互联网研究院, 国网江苏省电力公司电力科学研究院, 国家电网公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1