基于大数据技术改进聚类算法的用户用电行为分析方法与流程

文档序号:12465469阅读:1205来源:国知局
基于大数据技术改进聚类算法的用户用电行为分析方法与流程

本发明属于电力系统数据分析技术领域,尤其是涉及一种基于大数据技术改进聚类算法的用户用电行为分析方法。



背景技术:

传统的k-means聚类算法,可以对一定量级(TB级、GB级)的数据进行挖掘分析。国家电网公司目前大力推广智慧家庭建设,提高居民用电智能化水平,采集了海量的用户用电行为、用电量数据采集,并对用户用电行为、用电量等数据信息,形成PB级存储数据,采用基于云计算平台和并行k-means聚类算法,可提高聚类分析效率,建立峰时耗电率、负荷率、谷电系数等时间序列特征,并采用熵权法计算各类特征权重,分析用户用电负荷趋势。未来随着智能电网的建设和发展,针对不同用户的用电行为分析,为国网公司制定峰谷阶梯电价策略、完善需求侧响应基线负荷提供相关依据和数据支撑。



技术实现要素:

为了解决上述问题,本发明的目的在于提供一种基于大数据技术改进聚类算法的用户用电行为分析方法。

为了达到上述目的,本发明提供的基于大数据技术改进聚类算法的用户用电行为分析方法包括按顺序进行的下列步骤:

1)建立基于大数据技术改进聚类算法的用户用电行为分析平台;该用户用电行为分析平台包括依次连接的用户用电特征数据导入模块、基于大数据技术改进的聚类数据挖掘模块、用户用电评价指标体系输出模块,所述的基于大数据技术改进的聚类数据挖掘模块包括依次连接的分布数据处理单元、聚类中心处理单元和迭代流程控制单元;

2)利用用户用电特征数据导入模块从配电网实际运行数据中提取用电用户一段时间内各类电器使用频率、用电时长、各时段用电量在内的数据;

3)利用分布数据处理单元将上述数据以行形式存储,然后按行分成数据片1、数据片2……数据片n;

4)利用聚类中心处理单元任选1个数据片作为初始聚类中心,然后计算每个数据片到初始聚类中心的距离,重新标记其所属的聚类类别;若输入的记录数据为上一轮迭代的聚类中心,则计算出距离其最近的聚类中心,并做新类别的标记,即重新划分用户用电评价等级,形成映射数据标记,即Map1、Map2……Mapn数据标记;

规约计算新的聚类中心:对形成的映射数据标记进行数据格式的映射回归转换,并将其存入非关系型数据库中;根据数据映射得到的中间结果计算出新的聚类中心,输入数据<key,value>对的形式为<聚类类别ID,{响亮属性集}>;所有key相同的记录(即有相同类别ID的记录)送给一个规约任务———累加key相同的点个数和各记录分量的和,求各分量的均值,得到新的聚类中心描述文件;输出结果<key,value>对的形式为<聚类类别ID,均值向量>数据标记,即Reduce1、Reduce2……Reduce n数据标记;

5)利用迭代流程控制单元判断计算的新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈值,则进入下一轮迭代,即执行映射——规约过程;如果差值小于给定的阈值,则找到了该数据片各类电器使用频率、用电时长、各时段用电量等因素所处等级范围,进入用户用电信用评价体系输出模块3;

6)利用用户用电信用评价体系输出模块建立用户用电评价指标体系,根据各因素范围界定进一步确定用户用电的评价等级。

在步骤6)中,用户用电评价指标体系由高到低依次划分为AAA级、AA级、A级、B级、C级、D级共六大等级。

本发明提供的基于大数据技术改进聚类算法的用户用电行为分析方法具有如下优点:

一、本发明利用大数据处理技术并发分析海量数据,可以通过电力企业提取3年以上的用电用电行为信息、各电器用电量数据,实现更大的数据吞吐量,获取更为全面的用户用电特征数据。

二、适用于大数据平台的改进的聚类数据挖掘算法并发分析海量用户用电行为数据,分析效率更高,更加准确的评估出用户用电行为特征。

附图说明

图1为本发明提供的基于大数据技术改进聚类算法的用户用电行为分析方法中所建立的用户用电行为分析平台构成框图。

图2为本发明提供的基于大数据技术改进聚类算法的用户用电行为分析方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于大数据技术改进聚类算法的用户用电行为分析方法进行详细说明。

1)建立基于大数据技术改进聚类算法的用户用电行为分析平台,如图1所示,该用户用电行为分析平台包括依次连接的用户用电特征数据导入模块1、基于大数据技术改进的聚类数据挖掘模块2、用户用电评价指标体系输出模块3,所述的基于大数据技术改进的聚类数据挖掘模块2包括依次连接的分布数据处理单元21、聚类中心处理单元22和迭代流程控制单元23;

2)利用用户用电特征数据导入模块1从配电网实际运行数据中提取用电用户一段时间内各类电器使用频率、用电时长、各时段用电量在内的数据;

3)利用分布数据处理单元21将上述数据以行形式存储,然后按行分成数据片1、数据片2……数据片n;

4)利用聚类中心处理单元22任选1个数据片作为初始聚类中心,然后计算每个数据片到初始聚类中心的距离,重新标记其所属的聚类类别;若输入的记录数据为上一轮迭代的聚类中心,则计算出距离其最近的聚类中心,并做新类别的标记,即重新划分用户用电评价等级,形成映射数据标记,即Map1、Map2……Map n数据标记;

规约计算新的聚类中心:对形成的映射数据标记进行数据格式的映射回归转换。并将其存入非关系型数据库中。根据数据映射得到的中间结果计算出新的聚类中心,输入数据<key,value>对的形式为<聚类类别ID,{响亮属性集}>;所有key相同的记录(即有相同类别ID的记录)送给一个规约任务———累加key相同的点个数和各记录分量的和,求各分量的均值,得到新的聚类中心描述文件;输出结果<key,value>对的形式为<聚类类别ID,均值向量>数据标记,即Reduce1、Reduce2……Reduce n数据标记。

5)利用迭代流程控制单元23判断计算的新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈值,则进入下一轮迭代,即执行映射——规约过程;如果差值小于给定的阈值,则找到了该数据片各类电器使用频率、用电时长、各时段用电量等因素所处等级范围,进入用户用电信用评价体系输出模块3;

6)利用用户用电信用评价体系输出模块3建立用户用电评价指标体系,即将用户用电进行等级划分,等级由高到低依次划分为AAA级、AA级、A级、B级、C级、D级等六大等级,根据各因素范围界定进一步确定用户用电的评价等级。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1