本发明涉及能源数据分析,尤其涉及一种电网配用电大数据的数据挖掘方法。
背景技术:
1、大数据挖掘已经提出了许多基础的、通用的分析方法,包括分类、聚类、孤立点、预测、演变、关联、回归、决策树、神经网络、支持向量机、主成分分析、假设检验等。但是,对于配用电大数据态势感知和知识发现而言,现有的基础、通用的大数据挖掘分析方法并不完全适用。
2、随着电网规模扩大、量测手段和信息通信技术的不断完善,电网的基础运行数据逐渐呈现出数据量大、处理逻辑复杂、存储周期长等大数据特征,因此在配用电大数据的数据挖掘中,由于数据的类型以及体量较大,导致数据挖掘速率以及性能较低,同时单个处理器的数据处理负载较大,在数据挖掘搜索的过程中易产生大量的结构连接数目,这也为数据挖掘的可靠性带来严峻挑战。
技术实现思路
1、针对现有技术的不足,本发明提供了一种电网配用电大数据的数据挖掘方法,解决了针对配用电大数据进行数据挖掘过程中,所存在数据挖掘速率以及性能较低,同时易产生大量的结构连接数目的技术问题。
2、为解决上述技术问题,本发明提供了如下技术方案:一种电网配用电大数据的数据挖掘方法,该方法包括以下步骤:
3、s1、基于电网大数据获取当地电网的配用电数据;
4、s2、对配用电数据进行筛选并剔除其中与决策属性关联性小的数据集合得到决策数据集;
5、s3、确定与决策数据集相关联的数据挖掘规则,并根据数据挖掘规则生成矩阵挖掘规则;
6、s4、将决策数据集进行路径分解生成若干个查询路径;
7、s5、计算若干个查询路径中的任意多个数据片段的威望度;
8、s6、根据威望度判断查询路径是否为最优的查询路径;
9、若是,则进入步骤s7;
10、若否,则返回步骤s4;
11、s7、采用最优的查询路径根据矩阵挖掘规则在决策数据集中进行数据挖掘。
12、进一步地,在步骤s2中,具体过程包括以下步骤:
13、s21、将配用电数据随机划分为若干个数据集合,,其中p为配用电数据,为随机划分的第i个数据集合;
14、s22、设任意数据集合中所对应的事件a、事件b为配用电数据p上的两个等价关系族,事件d为决策属性,并根据等价关系族确定事件a和事件b在配用电数据p上的概率分布;
15、s23、根据概率分布计算事件a的信息熵h(a);
16、s24、根据信息熵h(a)计算相对于事件b的条件熵h(a|b);
17、s25、判断决策属性事件d与事件a的关联性大小;
18、若事件d与事件a的关联性大,则保留事件d所对应的数据集合;
19、若事件d与事件a的关联性小,则剔除事件d所对应的数据集合;
20、s26、将剔除的数据集合合并构成决策数据集r。
21、进一步地,在步骤s23中,信息熵h(a)的计算公式为:
22、
23、上式中,n、m均表示事件的数量,为事件a在配用电数据上的概率分布。
24、进一步地,在步骤s24中,条件熵h(a|b)的计算公式为:
25、
26、上式中,n、m均表示事件的数量,为事件a在配用电数据p上的概率分布,为事件b在配用电数据p上的概率分布。
27、进一步地,在步骤s25中,通过计算决策属性事件d与事件a的关联度作为关联性大小的判断依据,具体过程包括以下步骤:
28、s251、计算决策属性事件d的信息熵h(d);
29、s252、根据信息熵h(d)计算决策属性事件d相对事件a的条件熵h(d|a);
30、s253、根据信息熵h(d)和条件熵h(d|a)计算决策属性事件d与事件a之间的关联度。
31、进一步地,在步骤s3中,具体过程包括以下步骤:
32、s31、定义与配用电数据相对应的项集为,事件矩阵为,其中,
33、
34、上标t表示转置矩阵的符号;
35、s32、根据步骤s31计算与数据集合相对应项集的支持度;
36、s33、设处理器的数量为i个,将决策数据集r以数据长度l分割为i-1个数据块,且处理器根据数据块产生局部事件矩阵;
37、s34、处理器计算与局部事件矩阵对应的支持度;
38、s35、处理器删除支持度小于1的所对应的数据块,则完成矩阵挖掘规则的生成。
39、进一步地,在步骤s32中,支持度的计算公式为:
40、
41、上式中通过统计求和计算得出与数据集合相对应项集的支持度。
42、进一步地,在步骤s4中,具体过程包括以下步骤:
43、s41、采用树的查找算法在决策数据集中给定一颗查询树,并从查询树r中的路径集合中筛选出简单路径,n为查询树r中路径的数量;
44、s42、判断路径集合中的路径是否为简单路径;
45、若,路径是路径的父亲节点,且路径集合中相邻两个节点之间的边不表示祖先-后代关系,且存在路径是查询树r中的分支节点或谓词节点,则路径为简单路径;
46、s43、根据简单路径在决策数据集进行路径分解生成若干个查询路径;
47、若路径集合中的路径为简单路径,且查询树r中的每一个节点至少包含在一条路径中,则路径为决策数据集中的一个路径分解,即为一个查询路径。
48、进一步地,在步骤s5中,数据片段的威望度的计算公式为:
49、
50、上式中,表示片段数据i的入度,入度指在查询路径中所有经过片段数据i的边的和,i表示片段数据的总数量。
51、进一步地,在步骤s6中,具体为:
52、对查询路径中若干数据片段所对应的威望度求和并求解均值,若均值威望度大于等于阈值1,则该查询路径为最优的查询路径,若小于阈值1,则返回步骤s4。
53、借由上述技术方案,本发明提供了一种电网配用电大数据的数据挖掘方法,至少具备以下有益效果:
54、1、本发明解决数据挖掘在决策数据集r中数据量较大情况下的挖掘速率以及性能下降的问题,并快速生成相对应的挖掘目标,从而不仅减少了单个处理器需要处理的数据量,而且多个处理器同时运算,大大缩短了数据挖掘的耗时。
55、2、本发明解决了数据挖掘在决策数据集r中数据量较大情况下的挖掘速率以及性能下降的问题,利用矩阵挖掘规则快速生成相对应的挖掘目标,以矩阵挖掘规则的并行方式,不仅减少了单个处理器需要处理的数据量,而且多个处理器同时运算,大大缩短了数据挖掘的耗时。
56、3、本发明将决策数据集进行路径分解生成若干个查询路径,通过筛选出若干路径中的简单路径,并以简单路径为基础要求实现路径分解,即得到若干个查询路径,能够以目标节点为导向的路径查询处理框架,该方法充分利用基本操作的支持,增大了基本查询片段的粒度,从而减少了结构连接的数目,并且能够缩短在数据挖掘过程中的查询路径,提高了数据挖掘效率。