一种行业用电数据关联关系挖掘方法及装置与流程

文档序号:12064667阅读:210来源:国知局
一种行业用电数据关联关系挖掘方法及装置与流程

本发明涉及数据挖掘技术领域,特别涉及一种行业用电数据关联关系挖掘方法及装置。



背景技术:

智能电网作为解决未来能源输送问题的理想方案,成为电网发展的必然趋势。智能电网作为能源配置的绿色平台,是应对挑战、促进我国低碳发展的战略支点。伴随着智能电网的发展,关于负荷特性的有关研究也成为热点。基于智能电网的负荷分析目前还停留在区域性的或整体负荷分析,且因电网负荷是由众多用户负荷构成,不同用户的负荷受自身行业属性和生产特点影响,负荷规律也是千差万别,行业间的关联关系也对用户的用电行为产生一定影响。

国内对于负荷特性研究较多的是网、省级电网的负荷特性,对于行业负荷特性的分析较少涉及,这些研究主要是调研普查性质,对未来行业负荷、行业电量走势的预判未考虑行业间的关联关系,分析预测存在一定误差。



技术实现要素:

为解决现有技术的问题,本发明提出一种行业用电数据关联关系挖掘方法及装置,对未来行业负荷、行业电量走势的预判考虑行业间的关联关系,为分析行业用电量趋势提供了依据。

为实现上述目的,本发明提供了一种行业用电数据关联关系挖掘方法,包括:

获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;

采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;

对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。

优选地,所述采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理的步骤包括:

根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的信息和对应行业的归一化处理后的月用电量数据;

确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;

如果划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。

优选地,所述期望信息需求的表达式为:

其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。

优选地,对所述月用电量数据进行归一化处理的表达式为:

其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。

优选地,所述获取每个用电行业的月用电量数据的步骤包括:

从用电信息采集系统中获取用电行业所有用户的日电量,空缺数值采用相似日均值进行填补;

按照用户、行业将所有日电量数据合并为用电行业的月用电量数据。

为实现上述目的,本发明还提出一种行业用电数据关联关系挖掘装置,包括:

归一化处理单元,用于获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;

离散化处理单元,用于采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;

挖掘单元,用于对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。

优选地,所述离散化处理单元包括:

初始化模块,用于根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的信息和对应行业的归一化处理后的月用电量数据;

分裂点确定模块,用于确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;

迭代划分模块,用于如果划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。

优选地,所述分裂点确定模块获得期望信息需求的表达式为:

其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。

优选地,所述归一化处理单元对所述月用电量数据进行归一化处理的表达式为:

其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。

优选地,所述归一化处理单元还包括:

日用电量获取模块,用于从用电信息采集系统中获取用电行业所有用户的日用电量,空缺数值采用相似日用电量均值进行填补;

月用电量获取模块,用于按照用户、行业将所有日电量数据合并为用电行业的月用电量数据。

上述技术方案具有如下有益效果:

本技术方案抽取用电信息采集系统中的行业用电量数据代替平均负荷,避免了负荷的瞬时特性可能对行业整体负荷分析造成的干扰,采用基于熵的离散化方法将行业用电量数据进行离散处理,通过Apriori算法进行数据开采分析,得出挖掘关联规则的频繁项集,实现对不同行业的用电量数据进行关联挖掘。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提出的一种行业用电数据关联关系挖掘方法流程图;

图2为本发明实施例提出的一种行业用电数据关联关系挖掘装置功能框图;

图3为本实施例离散化结果示意图;

图4为本实施例的关联行业用电趋势图之一;

图5为本实施例的关联行业用电趋势图之二;

图6为本实施例的关联行业用电趋势图之三;

图7为本实施例的关联行业用电趋势图之四。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本技术方案的工作原理为:从总量上分析负荷变化规律忽略了行业的用电规律,仅针对单一行业进行负荷分析忽略行业间关联关系,分析结果都存在一定偏颇。随着智能电表的普及,用采系统历史数据库中存储了大量的数据,这些数据的背后隐藏了可以提高用电管理的信息。因为不同行业的用电量数据之间必定存在或大或小的关联,如果可以从行业用电量数据中挖掘其关联规则,并对其进行量化,不仅可以提高地区用电量预测的准确度,更可以深度挖掘行业之间的线索。本文用基于关联规则的数据挖掘技术进行数据开采分析,通过使用Weka数据挖掘平台对不同行业的用电量数据进行关联挖掘,以求充分发挥大数据对电力生产的指导作用。

基于上述工作原理,本发明实施例提出的一种行业用电数据关联关系挖掘方法,如图1所示。包括:

步骤101):获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;

在本实施例中,本次所获取的数据为冀北地区不同行业之间的表底示数,首先要对其进行递减运算,得到每日实际用电量数据,对于空缺值采用相似日均值进行填补,以求获得较为准确的用电量数据。

Apriori算法的特点是只能处理分类变量,无法处理数值型变量;数据存储可以是交易数据格式(事务表),或者是事实表方式(表格数据),所以计算出的用电量数据无法直接使用。需要对其进行归一化处理,并对其处理结果进行离散化处理。

首先对数据进行归一化,其公式如下:

x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。归一化之后,将数据限定在[0,1]区间内,然后处理数据,进行行业用电量的关联挖掘分析。

步骤102):采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;

离散化结果的好坏可以从以下几方面来考虑:(1)区间的个数。这也是对模型简洁性的要求。理论上来说,离散得到的区间数越少越好,便于理解,但区间数的减少另一方面也会导致数据的可理解性变差;(2)离散化所导致的不一致性。离散化之后数据的不一致性不能比离散化之前更高。这一点是对模型一致性的要求。(3)预测准确性。即对模型准确性的要求。

对于标准化的数据,要基于实际情况采用合适的方法对其进行离散化处理。这里采用基于熵的离散化方法,其内容如下:

算法流程熵(Entropy)是最常用的离散化度量之一。基于熵的离散化是一种监督的、自顶向下的分裂技术。它在计算和确定分裂点时利用分布信息。例如,对于本实施例来说,根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的分类信息和对应行业的归一化处理后的月用电量数据。为了离散化数值区间A,该方法选择数值区间A的具有最小熵的值作为分裂点,并递归地划分结果区间,得到分层离散化。这种离散化形成数值区间A的概念分层。

基于熵的离散化基本方法如下:数值区间A的每个值都可以看作一个划分数值区间A的值域的潜在的区间边界或分裂点(记作split_point)。也就是说,数值区间A的分裂点可以将数据元组集D中的元组划分成分别满足条件A≦split_point和A≥split_point的两个子集,这样就创建了一个二元离散化。选择分裂点对数据元组集D进行划分的目的是为了将数据更清晰地分类。理想的状态下,我们希望每一个分类中的元组所属类别尽可能地少,即分类后各类中的元组的类别尽可能地一致,也就是说在数值区间A上按照split_point划分数据元组集D后为了得到完全的分类所需要的信息越少。为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的概念,期望信息需求由下式给出:

其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。

这样在选择数值区间A的分裂点时,我们希望产生使得期望信息需求最小的数据点split_point作为分裂点,使用A≤split_point和A>split_point划分之后,且对元组完全分类需要的信息量最小。

如果划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的期望信息需求均小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。

步骤103):对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。

Apriori算法使用一种称作逐层搜索的迭代方法,即“K-1项集”用于搜索“K项集”。首先,找出频繁“1项集”的集合,该集合记作L1。用L1找频繁“2项集”的集合L2,再用L2找L3。如此下去,直到不能找到频繁“K项集”。每个频繁项集LK的寻找都需要一次数据库的扫描。核心思想是:连接步和剪枝步。连接步是自连接,原则是保证前k-2项相同,并按照字典顺序连接。剪枝步,是使任一个频繁项集的所有非空子集也必须是频繁的。反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从Ck中删除。Apriori寻找频繁项集的过程是一个不断迭代的过程,每次都是两个步骤,产生候选集Ck(可能成为频繁项集的项目组合);基于候选集Ck计算支持度,确定LK。Apriori的寻找策略就是从包含少量的项目开始逐渐向多个项目的项目集搜索。

在经典的Apriori中设置有类似置信度的度量来衡量规则的关联程度,同时也是本实施例使用软件weka的评判关联挖掘结果好坏的度量标准。它们分别是Lift,Leverage和Conviction。其含义分别如下:

Lift:P(A,B)/(P(A)P(B))

当Lift=1时表示A和B独立。这个数越大(>1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度。

Leverage:P(A,B)-P(A)P(B)

Leverage=0时A和B独立,Leverage越大A和B的关系越密切。

Conviction:P(A)P(!B)/P(A,!B)

Conviction也是用来衡量A和B的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大,A、B越关联。

本发明实施例还提供一种计算机可读程序,其中当在电子设备中执行所述程序时,所述程序使得计算机在所述电子设备中执行如图1所述的行业用电数据关联关系挖掘方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在电子设备中执行如图1所述的行业用电数据关联关系挖掘方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一般计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

如图2所示,为本发明实施例提出的一种行业用电数据关联关系挖掘装置功能框图。包括:

归一化处理单元201,用于获取每个用电行业的月用电量数据,对所述月用电量数据进行归一化处理;

离散化处理单元202,用于采用基于熵的数据离散化方法将归一化处理后的每个行业的所有月用电量数据进行离散化处理;

挖掘单元203,用于对离散化处理后的所有行业的用电数据采用Apriori算法挖掘行业间的关联关系。

优选地,在本实施例中,所述离散化处理单元202包括:

初始化模块,用于根据归一化处理后的每个行业的所有月用电量数据,确定每个行业的数值区间A以及数据元组集D,使得数值区间A包含归一化处理后的每个行业的所有月用电量数据;其中,数据元组集D中每个数据元组包括:行业的分类信息和对应行业的归一化处理后的月用电量数据;

分裂点确定模块,用于确定第一分裂点,根据所述第一分裂点将所述数值区间A划分成两个数值区间,并将数据元组集D划分成两个数据元组子集;其中,所述数值区间内期望信息需求最小的数据点作为分裂点;

迭代划分模块,用于如果划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求大于等于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数小于等于阈值时,确定符合条件的数值区间的分裂点,直至划分后的所述数值区间内的归一化处理后的月用电量数据的信息需求小于阈值或划分后的所述数值区间内的归一化处理后的月用电量数据个数大于阈值。

优选地,所述分裂点确定模块获得期望信息需求的表达式为:

其中,|D|是数据元组集D中的元组的个数,|D1|为分裂点划分数据元组集D后获得的子集D1的元组数,|D2|为分裂点划分数据元组集D后获得的子集D2的元组数;子集D1中的归一化处理后的月用电量数据分别属于行业类的个数为m,pi是子集D1中元组属于行业类i的概率,子集D2中的归一化处理后的月用电量数据分别属于行业类的个数为n,qi是D2中元组属于行业类i的概率。

优选地,所述归一化处理单元对所述月用电量数据进行归一化处理的表达式为:

其中,x′为归一化后的取值,xi是本行业的第i个月份的电量,min(x)是本行业所有数据的最小值,max(x)是某行业所有数据的最大值。

本领域技术人员还可以了解到本发明实施例列出的各种功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,比如,本技术方案中的归一化处理单元201、离散化处理单元202、挖掘单元203均可以通过FPGA实现,但这种实现不应被理解为超出本发明实施例保护的范围。

此外,尽管在上文详细描述中提及了装置的若干单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。同样,上文描述的一个单元的特征和功能也可以进一步划分为由多个单元来具体化。

本技术方案综合考虑负荷的瞬时特性或对行业整体负荷分析造成干扰,抽取用电信息采集系统中的行业用电量数据代替平均负荷,采用基于熵的离散化方法对行业用电量进行离散化处理,通过Apriori算法进行数据开采分析,挖掘关联规则的频繁项集,使用Weka数据挖掘平台对不同行业的用电量数据进行关联挖掘。本文选取了冀北地区用电量排名前12位的行业作为研究对象,12个行业分别为煤炭开采和冼选业,黑色金属矿采选业,食品、饮料和烟草制造业,木材加工及制品和家具制品业,化学原料及化学制品制造业,橡胶和塑料制品业,非金属矿物制品业,黑色金属冶炼及压延加工业,有色金属冶炼及压延加工业,金属制品业,通用及专用设备制造业,交通运输、电气、电子设备制造业。抽取用电信息采集系统中2014年1月--2016年9月12个行业所有用户的日电量,空缺数值采用相似日均值进行填补,按照用户、行业将所有日电量数据合并为行业月用电量数据,进行归一化处理,将数值限定在区间[0,1]内。

采用基于熵的数据离散化方法,将归一化后的数据离散,离散区间的数量对挖掘结果影响较大。经验证,将归一化处理后的每个行业的所有月用电量数据离散为5个区间,一方面保证数据不会失真,保证有较好的理解性,另外也可以满足关联挖掘模型的需求,确保其准确性。结果如图3所示。a1-a12分别代表煤炭开采和冼选业,黑色金属矿采选业,食品、饮料和烟草制造业,木材加工及制品和家具制品业,化学原料及化学制品制造业,橡胶和塑料制品业,非金属矿物制品业,黑色金属冶炼及压延加工业,有色金属冶炼及压延加工业,金属制品业,通用及专用设备制造业,交通运输、电气、电子设备制造业。其中,每列代表样本离散的类,每列的长度代表离散后样本的数量,每列不同的颜色代表离散后,此类离散值在样本中连续出现的次数,根据离散结果可知:样本被离散最多为6类,共1个行业,离散类数最少为3类,共2个行业,被离散为5类的行业共计5个行业,被离散为四类行业共计3个行业。

对离散后的数据基于Apriori算法进行关联分析,设置全局关联,以支持度0.05幅度递减,寻找置信度大于0.9的频繁项集,对模型进行训练。遍历5轮数据库后,频繁项集为空,训练结束。得到关联度较高的4类结果,如图4、图5、图6、图7所示。

如图4所示,为本实施例的关联行业用电趋势图之一。食品、饮料和烟草制造业与木材加工及制品和家具制品业及橡胶和塑料制品业关联度最高、相关性最强。

通过分析其用电量及变化趋势可知:3个行业均属于用电量相对较小的制造业,全年用电量除每年2月到3月用电量受春节假期影响有明显下降外,变化幅度较小。经调研,此类行业多为流水线生产,受人员变动影响较大,春节前后会大部分生产线停产,导致用电量大幅度下降。其中,木材加工及家具制品和橡胶和塑料制品业相关性更高。

如图5所示,为本实施例的关联行业用电趋势图之二。非金属矿物制品和通用及专用设备制造业关联度其次,2个行业为上下游关系。通用及专用设备制造业包括:锅炉及原动机制造,矿山、冶金、建筑专用设备制造,化工、木材、非金属加工专用设备制造,其原材料多为非金属矿物制品,电量消耗占比较大的行业也多为非金属工艺生产,所以与非金属矿物制品业用电走势极为相似,且通用及专用设备制造业电量变化稍滞后于非金属矿物制品业。

如图6所示,为本实施例的关联行业用电趋势图之三。煤炭开采和冼选业及黑色金属冶炼及压延加工业关联度略低于以上2类,2个行业有较强的生产关系,煤炭开采和冼选业为黑色金属行业主供能源。分析2个行业的用电量走势:煤炭开采和冼选业易受到国家政策及新能源影响,受国家2015年政策影响,河北共计关闭64处矿井,煤矿数量被控制在200处以内,煤炭开采和冼选业用电量2015年有明显下降趋势。但趋于稳定后,其电量变化趋势与黑色金属冶炼及压延加工业走势基本一致,关联度极高。

如图7所示,为本实施例的关联行业用电趋势图之四。食品饮料和烟草制品业、非金属矿物制品和金属矿物制品业3个行业关联度略小于以上3类。调研可知,非金属矿物制品和金属矿物制品业都属于下游产业,为其他行业提供工具或原材料,在关联关系挖掘过程中发现,非金属矿物制品、金属矿物制品业、食品饮料和烟草制品业、交通运输、电气、电子设备制造业等行业性质类似的,具有较强的关联关系。

本技术方案采用基于熵的数据离散化方法,将用电量数据转化为离散数据,离散效果经实际检验合理后,运用Apriori关联挖掘算法有效挖掘出冀北地区12个行业间的关联关系,得出以下结论:

1、食品、饮料和烟草制造业与木材加工及制品和家具制品业及橡胶和塑料制品业,用电量对人力因素极为敏感,表现出极高的关联度;

2、通用及专用设备制造业为非金属矿物制品的下游产业,两者用电量变化趋势一致,且下游产业电量变化稍滞后于上游产业;

3、作为黑色金属冶炼及压延加工业的主供能源,剔除煤炭开采和冼选业用电量受政策因素影响后,两者关联度极高;

4、非金属矿物制品、金属矿物制品业、食品饮料和烟草制品业、交通运输、电气、电子设备制造业的行业性质类似的产业,具有较强的关联关系。

研究表明,Apriori关联挖掘算法可以有效地挖掘行业间的关联关系,对于电力行业用电特性分析和挖掘具有可行性和参考价值。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1