基于FP-growth的跳闸明细数据与气象数据关联分析及预警方法与流程

文档序号:15349630发布日期:2018-09-04 23:10阅读:509来源:国知局

本发明涉及电力系统运维技术领域,具体涉及一种分析气象数据与电力系统跳闸明显数据的关联规则的方法,还涉及一种利用关联规则进行跳闸故障预警的预警方法。



背景技术:

电力输电线路暴露在自然环境中,实际运行环境对线路的运行状态具有不可避免的重要影响,通过多种物理化学变化加速输电设备电气、机械及其他性能的劣化,严重时会引发突然性的设备失效,因此深入研究气象环境与线路故障跳闸之间的密切联系具有重要的实用价值。

目前随着气象科学技术的迅速发展进步,气象部门可提供更为丰富、高质量的气象数据产品,再加以电力部门多年架设的大量微气象监测装置,反映输电线路实际运行环境的气象数据在急剧增加;另外经过电网运营部门多年管理实践,积累了丰富的线路故障跳闸明细数据,具有信息量大、格式规范的特点,可为线路故障跳闸研究提供丰富数据。但是,目前关于线路跳闸与气象数据之间的关系还未被挖掘揭示出来,还不能利用气象数据对跳闸事故进行预测。

面对日益丰富的大量数据,已有的挖掘数据之间关联规则的方法主要采用apriori算法,该算法作为关联规则挖掘的经典算法,基于其核心理论:“频繁项集的子集是频繁项集;非频繁项集的超集是非频繁项集”,显示出良好的性能,但随着数据库的增大,同时也存在两个致命的性能瓶颈:1.产生大量的候选集;2.多次扫描数据库,需要相当大的i/o负载。随着电力系统运行记录数据及相关气象数据的数据量增长,势必需要更为高效可靠的数据挖掘算法。han等人提出了一种不产生候选集的发现频繁项集的挖掘方法fp-growth,它使用一种fp-tree形式的数据结构压缩数据,在产生频繁项集的过程中采用分治策略自底向上生成后缀项集并构造条件fp-tree,进而探索某个特定项结尾的频繁项集。实验证明,生成的fp-tree足够小或路径重叠较多时,fp-growth算法的运算速度比apriori算法快几个数量级。如附图1所示,随着事务数量的增多,fp-growth算法的运算效率更愈发明显。本发明据此提出了一种基于fp-growth算法的电力系统气象数据与跳闸明细数据关联规则分析方法。



技术实现要素:

针对上述现有技术的不足,本发明提供一种基于fp-growth的跳闸明细数据与气象数据关联分析方法,解决现有技术中还未揭露气象数据与电力系统跳闸明细数据的关联规则的技术问题,能够快速挖掘出气象数据与电力系统跳闸明细数据的关联规则,能够多维度、多层次的挖掘出关联规则。

为了解决上述技术问题,本发明采用了如下的技术方案:一种基于fp-growth的跳闸明细数据与气象数据关联分析方法,包括以下步骤:

步骤1:获取电力系统的跳闸明细数据,跳闸明细数据包含n种类型的跳闸数据,并统一跳闸明细数据的格式,从而使同一类型并具有相同含义的跳闸数据具有统一的格式;

步骤2:读取跳闸明细数据的故障地理坐标与故障发生时间;

步骤3:获取历史气象数据,每条历史气象数据包含有m种不同类型的天气数据,并分别对每种类型的天气数据进行聚类化;

步骤4:根据历史气象数据的监测时间与故障发生时间的对应关系,以及历史气象数据的监测点地理坐标与故障地理坐标的对应关系,建立跳闸明细数据与历史气象数据的连接,从而使得每条跳闸明细数据都有对应的历史气象数据;

步骤5:以每次跳闸事件作为一个事务,每个事务中包含跳闸明细数据以及该跳闸明细数据对应连接的历史气象数据;以事务中跳闸明细数据中的n种类型的跳闸数据对应作为事务中的n个项目,以事务中历史气象数据中的m项天气数据对应作为事务中的m个项目,从而使得每个事务包含m+n个项目;采集若干事务建立样本数据库;

步骤6:采用fp-growth算法挖掘样本数据库中项目或各项集之间的强关联规则,所述项集为包含项目的集合:设置支持度阈值以及置信度阈值,以样本数据库作为输入,通过频繁模式树fp-tree挖掘频繁项集,所述频繁项集是指满足支持度阈值的项集;从频繁项集中筛选出同时满足支持度阈值与置信度阈值的频繁项集作为强关联规则;

步骤7:以强关联规则作为跳闸明细数据与气象数据的关联规则,从而完成跳闸明细数据与气象数据关联分析。

优选的,历史气象数据按如下方式进行聚类化:分别将每种类型的天气数据的测量范围划分成若干聚类区间;将落入同一聚类区间内的同一类型的历史气象数据归为同一聚类项。

优选的,步骤401:将时间划分为若干时间区间,落入同一时间区间的时间点则归为同类时间,并为属于同类时间的时间点赋予相同的时间id,从而使得属于同类时间的历史气象数据的监测时间与跳闸明细数据的故障发生时间具有相同的时间id;

步骤402:采用网格进行地理区域划分,得到若干网格区域,并对每个网格区域赋予一个网格id,从而使得落入同一网格区域的历史气象数据的监测点地理坐标与跳闸明细数据的故障地理坐标具有相同的网格id;

步骤403:将具有相同网格id且具有相同时间id的跳闸明细数据与历史气象数据一一对应起来,从而实现跳闸明细数据与历史气象数据的连接。

优选的,所述跳闸明细数据包括以下类型的跳闸数据:电压等级、运维单位、跳闸原因以及重合闸是否成功。

优选的,所述历史气象数据包括以下类型的天气数据:风速、风向、气温、湿度、24h降雨量、12h降雨量以及光照强度。

本发明还提供一种电网系统的跳闸故障预警方法,采用上述的基于fp-growth算法的跳闸明细数据与气象数据关联分析方法挖掘出跳闸明细数据与气象数据的关联规则,并利用所述关联规则进行跳闸故障预警。

与现有技术相比,本发明具有以下有益效果:

1、统一跳闸明细数据的格式使得相同含义的跳闸数据在形式上也相同,从而在构造样本数据库时相同含义的跳闸数据则属于同一项目,从而在采用fp-growth算法进行关联规则挖掘时,使得相同跳闸数据构成的相同项目之间能够组成项集,从而能够更好的挖掘出跳闸的内因,即由电网系统自身的原因导致跳闸。当然,由跳闸数据构成的项目与由天气数据构成的项目之间组成项集,则能挖掘出跳闸的外因,即由天气原因导致的跳闸。

2、通过设置网格id与时间id来进行跳闸明细数据与历史气象数据的连接,能够提高连接的速度,减速运算量;并且由于天气在一定时间段和一定的区域范围内并不会有太大的差异,因此对时间进行区间划分,使得虽然在时间点上不能完全一致的历史气象数据监测时间与跳闸明细数据的故障发生时间能够对应起来;同样的,对地理区域进行划分,使得虽然在坐标点上不能完全一致的历史气象数据的监测点地理坐标与跳闸明细数据的故障地理坐标能够对应起来;这样大大降低了对气象监测点的布局密度要求以及监测频率要求,利用现有的气象监测系统便能实现,无需再增设气象监测点。

3、对每种类型的天气数据进行聚类化,是考虑到由于测量的误差,同类型的天气数据在形式上虽然不同,但是本质上是相同的情况,这样更利于fp-growth算法挖掘出本质性的关联规则。另外,聚类化后能够将数值化天气数据转化为文本数据。

4、在分析电力系统历史跳闸明细数据时融入了线路运行环境信息——气象数据,工作人员只需要将气象数据与线路跳闸明细数据按相近的时间、位置连接起来,统一数据格式;由于气象数据包括了气温、风速、风向、湿度、降水量等维度,然后跳闸明细数据包括故障时间、线路、故障类型、重合闸是否成功等维度,挖掘的规则可能是任意维度的,所以使用本方法即可在多种维度、层次上挖掘出潜在的强关联规则。

5、通过对电力系统气象数据以及历史跳闸明细数据的挖掘,可以根据气象预报信息对即将发生的跳闸作出预警、指出具体线路易出现故障的气象情况、指出易发生某类故障跳闸的供电公司、发现与重合闸失败强烈相关的因素,从而指导运维人员及时改造隐患较大地区、消除主要跳闸原因,防患于未然,有效减少电网故障率,提高供电可靠性。

6、本发明采用基于fp-growth的数据挖掘算法,为电力系统气象数据以及历史跳闸明细数据的关联规则挖掘提供了更为高效、快速、便捷、可靠的挖掘方法,相比于以往基于apriori的数据挖掘方法,本发明的快速计算优势随着处理数据量级的增加而愈发明显。

附图说明

图1是fp-growth算法与apriori算法的效果对比图;

图2是基于fp-growth的跳闸明细数据与气象数据关联分析方法的流程图。

具体实施方式

下面结合附图和优选实施方式对本发明作进一步的详细说明。

如图2所示,一种基于fp-growth的跳闸明细数据与气象数据关联分析方法,包括以下步骤:

步骤1:获取电力系统的跳闸明细数据,跳闸明细数据包含n种类型的跳闸数据,所述跳闸明细数据包括以下类型的跳闸数据:电压等级、运维单位、跳闸原因以及重合闸是否成功,并统一跳闸明细数据中同义异形文本数据的格式,从而使同一类型并具有相同含义的跳闸数据具有统一的格式;如运维单位这一类跳闸数据中出现了“国网某某供电公司”、“某某供电公司”两种同义异形的文本数据,则统一为“国网某某供电公司”。

步骤2:读取跳闸明细数据的故障线路名称、故障地理坐标以及故障发生时间。

步骤3:获取历史气象数据,每条历史气象数据包含有m种不同类型的天气数据,并分别对每种类型的天气数据进行聚类化;所述历史气象数据包括以下类型的天气数据:风速、风向、气温、湿度、24h降雨量、12h降雨量以及光照强度。

本具体实施方式中,历史气象数据按如下方式进行聚类化:分别将每种类型的天气数据的测量范围划分成若干聚类区间;将落入同一聚类区间内的同一类型的历史气象数据归为同一聚类项。聚类区间如下表:

表中vd表示设计风速,tmax表示最高设计气温,tmin表示最低设计气温;针对风速,根据数值距离设计风速vd的远近进行划分;风向数据采用气象学风向16方位图进行划分;气温根据数值距离设计考虑最高气温tmax、最低气温tmin的远近进行划分;湿度、光照辐射强度参数则按相同区间宽度均等划分;降水量、降水强度按照国家气象局颁布的降水强度等级划分标准,根据24h及12h降水量划分为无雨、小雨、中雨、大雨、暴雨、大暴雨和特大暴雨七种情况划分,据此将数值化的降雨量处理为离散化文本数据。

现举例说明聚类化的过程:设某一条历史气象数据中的“风速”这一天气类型的原始测量数据为1.2m/s,另一条历史气象数据中的“风速”这一天气类型的原始测量数据为2.3m/s,上表中设计风速vd=4m/s,则“1.2m/s”与“2.3m/s”都落入了[0,0.6vd)这一聚类区间内,即[0,2.4)这一聚类区间内,因此风速“1.2m/s”与“2.3m/s”为同一聚类项。

步骤4:根据历史气象数据的监测时间与故障发生时间的对应关系,以及历史气象数据的监测点地理坐标与故障地理坐标的对应关系,建立跳闸明细数据与历史气象数据的连接,从而使得每条跳闸明细数据都有对应的历史气象数据;

步骤5:以每次跳闸事件作为一个事务,每个事务中包含跳闸明细数据以及该跳闸明细数据对应连接的历史气象数据;以事务中跳闸明细数据中的n种类型的跳闸数据对应作为事务中的n个项目,以事务中历史气象数据中的m项天气数据对应作为事务中的m个项目,从而使得每个事务包含m+n个项目;采集若干事务建立样本数据库,样本数据库的样本总数为事务总数;

步骤6:采用fp-growth算法挖掘样本数据库中各项目或项集之间的强关联规则,所述项集为包含项目的集合:设置支持度阈值以及置信度阈值,以样本数据库作为输入,通过频繁模式树fp-tree挖掘频繁项集,所述频繁项集是指满足支持度阈值的项集;从频繁项集中筛选出同时满足支持度阈值与置信度阈值的频繁项集作为强关联规则;

fp-growth算法的原理如下:fp-growth算法采用分而治之策略:将提供频繁项集的样本数据库压缩到一棵频繁模式树(fp-tree),但仍保留项集关联信息;然后将这种压缩后的数据库分成一组条件数据库,每个关联一个频繁项目,并分别挖掘每个条件数据库。

算法:fp-growth//使用fp-tree通过模式段增长,挖掘频繁模式。

输入:样本数据库,支持度阈值与置信度阈值。

输出:频繁模式的完全集。

方法:

(1)按以下步骤构造fp-tree:

(a)扫描样本数据库一次。收集频繁项的集合f和它们的支持度。对f按支持度降序排序,结果为频繁项集l。

(b)创建fp-tree的根节点,以“null”标记它。对于样本数据库中每个事务trans,执行:

选择trans中的频繁项,(频繁项是指满足支持度的项目),并按l中的次序排序。设排序后的频繁项表为[p|p],其中p是第一个元素,而p是剩余元素的表。调用insert_tree([p|p],t)。该过程执行情况如下:如果t有子女n使得n.item-name=p.item-name,则n的计数增加1;否则创建一个新节点n,将其计数设置为1,链接到它的父节点t,并且通过节点链结构将其链接到具有相同item-name的节点。如果p非空,递归地调用insert_tree(p,n)。

(2)fp-tree的挖掘通过调用过程fp-growth(fp-tree,null)实现。

//该过程实现如下:

procedurefp-growth(tree,α)

1)iftree包含单个路径pthen

2)for路径p的每个节点组合(记为β)

3)产生模式β∪α,支持度support=β中节点的支持度阈值

4)elseforeachai在tree的头部{

5)产生模式β=ai∪β,其支持度support=ai·support

6)构造模式β的条件模式基,并构造β的条件fp-treeβ

7)ifthen

8)调用fp-growth(treeβ,β)};

得到频繁项集后,根据量化指标支持度与置信度筛选满足支持度阈值与置信度阈值的频繁项集,即为强关联规则。

在fp-growth算法相关术语的概念如下:

项集:项目组成的集合;

支持度:项目或项集在整个样本数据库中出现的数量与样本总数之比;

关联规则:设a、b为两个项集,则形如的即为一条关联规则,意为a项集出现的同时b项集也出现,其中a项集称为前项,b项集称为后项;

置信度:对于一条关联规则而言,前项与后项事件同时出现的数量与前项事件出现的数量之比,即为该关联规则的置信度;

频繁项集:满足支持度阈值的项集。

步骤7:以强关联规则作为跳闸明细数据与气象数据的关联规则,从而完成跳闸明细数据与气象数据关联分析。

本具体实施方式中,步骤4中按如下步骤建立跳闸明细数据与历史气象数据的连接:

步骤401:将时间划分为若干时间区间,落入同一时间区间的时间点则归为同类时间,并为属于同类时间的时间点赋予相同的时间id,从而使得属于同类时间的历史气象数据的监测时间与跳闸明细数据的故障发生时间具有相同的时间id;

步骤402:采用网格进行地理区域划分,网格大小采用10km*10km,得到若干网格区域,并对每个网格区域赋予一个网格id,从而使得落入同一网格区域的历史气象数据的监测点地理坐标与跳闸明细数据的故障地理坐标具有相同的网格id;

步骤403:将具有相同网格id且具有相同时间id的跳闸明细数据与历史气象数据一一对应起来,从而实现跳闸明细数据与历史气象数据的连接。

一种电网系统的跳闸故障预警方法,采用本具体实施方式的基于fp-growth的跳闸明细数据与气象数据关联分析方法挖掘出跳闸明细数据与气象数据的关联规则,并利用所述关联规则进行跳闸故障预警。

通过本发明,将反映线路实际运行环境的气象数据与线路跳闸明细数据通过位置坐标与时间连接在一起,利用fp-growth算法在多种维度、层次上快速、深度挖掘潜在强关联规则,可以根据气象预报信息对即将发生的跳闸作出预警、指出易引发具体某条线路出现故障的气象情况、指出易发生某类故障跳闸的供电公司、发现与重合闸失败强烈相关的因素等,指导运维人员及时改造隐患较大地区、消除主要跳闸原因,防患于未然,从而有效减少电网故障率,提高供电可靠性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1