基于数据挖掘技术的带电检测数据处理方法

文档序号:6540285阅读:256来源:国知局
基于数据挖掘技术的带电检测数据处理方法
【专利摘要】基于数据挖掘技术的带电检测数据处理方法。本发明属于信息技术中的数据挖掘【技术领域】,特别是涉及电力设备中的变压器、断路器、避雷器等的状态分析技术与方法。针对传统电力设备状态检修中存在的检修滞后以及计划检修过多的冗余的工作,建立了粗糙集和决策树相结合的数据挖掘状态分析模型,并结合已有的电力设备状态检修系统构建了基于数据挖掘技术的带电检测数据处理系统。将粗糙集和决策树的融合技术运用到电力设备状态数据分析中,根据已有的状态判决标准,对35KV及以上变压器、SF6断路器等电力设备状态数据进行数据预处理、对属性进行Gini系数索引、属性约简、阈值选择等步骤,并在此基础上进行状态分析,同时形成工作状态表并给出相应的处理方案。
【专利说明】基于数据挖掘技术的带电检测数据处理方法
【技术领域】
[0001]本发明属于信息技术中的数据挖掘【技术领域】,特别是涉及变电站的变压器、断路器、避雷器等带电设备实时数据分析处理的技术与方法。
【背景技术】
[0002]电力是国民工业的基础产业,关系到国民经济的可持续发展。随着现代社会和经济的发展,对能源的巨大需求促进了电力工业的飞速发展,使得电力系统向大容量、超高压和跨区域方向发展,然而,随着系统容量的增大和电力网规模的扩大,电力设备故障给人们的生产和现代生活所带来的影响越来越大,对系统的稳定经济运行也提出了越来越高的要求,而保证系统的经济性和稳定性的一个强有力措施就是在提高电力设备使用率的同时保障其正常运行。电力设备是电力网络的骨架,一台设备出现问题,往往造成局部和全局系统设备停止运行,造成供电中断事故的发生。
[0003]近年来,电力设备的状态监测技术在电力系统中越来越受到有关管理、科研、运营和工程技术人员的重视。主要有以下几方面的原因:①随着电力系统体制改革的深化,电力设备的维护人员的增长远远跟不上电力设备的快速增长,需要实现电力设备状态检修;②国家电网公司推行电力设备状态检修几年来,现在还仍处于起步阶段,其瓶颈问题为电力设备状态数据处理和状态评价的诊断专家系统未得到彻底解决。③通过对电力设备的状态监测(包括在线监测和离线带电检测),可以实时获得关于电力设备运行状况、评价、寿命等相关信息,但对设备运行状态的评估仍然采用手工打分的方式进行。④电力设备状态监测技术能对设备的异常运行进行状态分析、对异常的部位、严重程度和发展趋势做出判断,识别故障的早期征兆,根据分析诊断结果在设备性能下降到一定程度或故障将要发生之前进行维修,从而降低运行管理成本,提高电网运行可靠性。这些因素促使电力系统采用状态监测技术,可以肯定地说,广泛采用设备状态监测技术是电力系统发展的必然趋势。
[0004]我国1999-2003年的统计结果表明:电力设备自身故障造成的电网事故有逐年增多的趋势。每年都约占所有电网事故的一半左右。如2003年我国发生对电网运行影响较大的55起事故中,电力设备故障造成的有27起,占事故总数的49%。目前对国内外电网大停电事故的原因和电网主要存在问题的分析却更多地强调电网运行问题,而对电力设备自身故障引发大面积停电事故重视不够,在科研及技术攻关的投入上相当脆弱。因此,电力企业应当重视和加强对电力设备的检修维护工作,使之在整个生命周期内始终保持良好的状态。与此同时,还必须对设备的检修体制和检修方法进行合理的选择,避免和减少故障或事故的发生,以提高设备的可利用率,降低维护费用,保证电力企业的经济利益。目前,电力企业传统检修体制存在诸多缺陷,主要表现在如下几个方面:
维修不足。电力设备由于各种原因在计划检修期未到时产生局部故障,但是受到检修计划的制约无法即时地通过预防性试验发现故障。故障的继续恶化会造成的维修费用的增加以及不必要的事故损失。
[0005]维修过剩。计划检修贯彻“到期必修,修必修好”的原则。当设备到达预定的检修周期时,不论设备是否存在缺陷和问题,都要进行检修。
[0006]盲目维修。对于那些状态较好的设备进行检修,特别是解体大修,轻则影响其性能,重则降低其寿命。从而造成了不必要的停电损失以及人力、物力、财力的浪费,甚至引发维修故障。
[0007]造成这种缺陷的主要原因在于对电力设备状态运行评估不足,电力设备的状态评估是一个多属性决策问题,需要对其状态进行合理划分,并综合考虑监测资料、工作环境、运行检修记录,建立综合的评估指标体系。电力设备检修计划的制定包含许多不确定因素,是一个多目标、多约束的优化问题,优化存在多维、混合整数,非线性等困难。
[0008]如何从技术手段上、软件功能上加强数据集成、数据展示、数据统计分析,实现电力变压器状态评价、异常预警、例试周期调整、检修建议等决策功能,成为电力人迫在眉睫的任务。

【发明内容】

[0009]针对上述问题,本发明提出一种能及时、高效、快捷地对已有的电力设备的属性数据进行分析判断,通过粗糙集和决策树相结合的数据处理模型,给出电力设备的相应工作状态并给出决策支持的技术与方法。
[0010]本发明提供的一种基于粗糙集和决策树相结合的数据挖掘技术与方法,设计并实现了电力设备状态分析系统,包括以下内容:
(1)选用决策树作为分类方法。由于决策树具有易被用户理解、效率高、适合大训练集、生成算法不需要处理训练集之外的额外信息以精确度较高等优点,选择其作为数据模型的分类方法;
(2)选用粗糙集作为数据预处理方法。尽管决策树分类效率很高,也有它自身的缺点:一方面,它无法删除带噪声的不相关的属性;另一方面,大多数决策树被限制在每个结点上只检验单个属性。为了克服这些困难,模型引入了粗糙集技术。粗糙集理论作为信息科学的一种新的逻辑和研究方法,它是处理模糊和不精确知识的数学工具,具有很强的知识获取能力。粗糙集理论的优越性在于将分类和知识联系在一起,认为知识即是将对象进行分类的能力;
(3)设计并实现了粗糙集和决策树相结合的数据挖掘数据处理模型。但是尽管粗糙集理论对知识的不完全的处理是有效的,但是这个理论不是万能的,它的容错能力和推广能力相对较弱,这意味着需要其它方法补充。面对决策树技术和粗糙集各自的优缺点,模型将二者结合起来,取长补短,发挥各自的优势。首先有限制地增加每个结点包含的属性个数,然后由重新定义的属性依赖度和基于条件嫡的距离函数选择相关的属性组合作为属性选择的标准,从而提出一种新的多变量决策树构造算法。一般地,决策树生成的规则不是最简的,本文将粗集中的值约简用于决策树的修剪过程中,生成一种新的基于值核的极小化方法,并提出约简规则的判定准则,缩小了约简的范围,然后再对生成的规则进行极大化处理,以保证规则覆盖信息的一致性,最后得到最简规则;
(4)本系统选择使用JavaEE中的Struts2+Spring+AJAX等技术框架实现。其中Struts2是Struts的下一代产品,是在合并Strutsl和WebWork的技术基础上所形成的全新的Struts2架构。所形成的全新的Struts2体系结构与Strutsl体系结构之间差别很大。Struts2是以WebWork为其核心的,使用拦截器的机制来对用户的请求进行处理,这种设计进而能够使业务逻辑控制器与Servlet API完全分离开,因此Struts2可以被理解成Webffork的改进产品。Spring是一个开源的框架,是出于解决企业的应用程序开发复杂性由Rod Johnson所创建的。这个框架最主要的优势之一就是它的分层架构,因为分层架构能够允许使用者自主选择使用哪一个组件,同时为J2EE应用程序的开发提供了集成的架构。通过使用基本的JavaBean Spring完成了以前只可能靠EJB来完成的工作。不过,Spring的应用领域不仅仅局限于服务器端的开发。从可测试性、简单性和松耦合的角度来讲,每个Java应用都能够从Spring中获益。AJAX并不是一种新出现的程序设计语言,它是一种用于设计更快更好并且交互性更强的Web应用程序技术。通过AJAX, JavaScript可方便地使用JavaScript的XMLHttpRequest对象与服务器直接进行通信。JavaScript通过这个对象,能够在不重载页面的情况下与Web服务器进行数据交换。AJAX能够使因特网上的应用程序变得更快、更小、更友好。通过这三种框架可以有效地实现系统代码间、功能模块间的松率禹合以及提闻系统执行效率;
(5)功能模块设计。根据系统要求,划分建立试验数据的管理中心、实验数据的预处理、依据试验数据进行诊断分析、设备状态的趋势分析、决策分析、提供查询统计等辅助功能和生成试验报告等功能。
[0011]本发明综合运用改进的粗糙集和决策树算法建立分析模型;运用知识推理的方法进行状态分析;使用JavaEE中的Struts2+Spring+ AJAX等技术对系统进行设计开发。通过利用粗糙集和决策树的融合方法,从实际的应用出发研究适用于电力设备状态检修系统的数据挖掘算法,并结合已有的电力设备状态检修系统构建了基于数据挖掘技术的带电检测数据处理系统。将粗糙集和决策树的融合技术运用到电力设备状态数据分析中,根据已有的状态判决标准,对35KV及以上变压器、SF6断路器等电力设备状态数据进行数据预处理、属性约简、决策树建立、树剪枝等步骤,并在此基础上进行状态分析,同时形成工作状态表并给出相应的处理方案。该项目对判断电力设备的工作状态及决策处理提供了有效的支持。
[0012]选择使用JavaEE中的Struts2+Spring+ AJAX技术框架实现,通过这三种框架可以有效地实现系统代码间、功能模块间的松耦合,同时提高系统执行效率。系统的应用以电力设备数据处理流程为主线,结合已有的状态判决标准确定设备的工作状态;并基于粗糙集理论的数据处理模型对不同类型的设备状态进行属性约简形成决策表集;利用决策树,数据规则能够可视化,并减少其构造时间,形成高精度的输出结果。根据决策表和数据规则进行状态分析,为决策处理提供依据。
【专利附图】

【附图说明】
[0013]图1为项目技术路线框图;
图2为系统的功能模块图;
图3为典型的数据挖掘系统结构图;
图4为系统的逻辑结构图;
图5为DMDB的体系结构示意图;
图6为状态检修中数据聚集的维度示意图; 图7为DMDB总的逻辑体系结构图;
图8为系统的顶层数据流图;
图9为系统的第O层数据流;
图10为设备健康状态分析子系统的功能结构;
图11为系统分层实现功能模型;
图12为数据批量录入数据库的工作原理;
图13为数据删除工作原理;
图14为请求处理层的具体功能流程。
【具体实施方式】
[0014]基于数据挖掘技术的带电检测数据处理方法,它的步骤如下:
(1)数据清洗、属性约简,从电力公司提供的真实数据中,提取500组针对某一变压器状态分析的数据,其中选出200组作为测试数据集,剩余的300组作为验证数据集,根据设备状态评判标准将200组训练样本数据中明显错误的组项予以删除,运用粗糙集中基于依赖度的改进的属性约简方法先求出样本数据集的核,进而根据核值计算出约简集,得出约简后的决策表;
(2)决策树的构建,运用C4.5算法,根据查阅的计算公式先求出给定样本分类所需的期望信息,也即信息熵值,下一步计算出每个属性的信息增益,具有最高信息增益的属性选作以上获得的决策表的测试属性,创建一个结点,并以该属性标记,如果上面得到的训练样本集都属于同一类或者候选属性为空则将该结点作为叶子结点,否则根据该属性每个值创建分枝,并据此划分样本,构建得到决策树;
(3 )决策树剪枝、生成规则,采用代价复杂性剪枝算法对生长完全的树剪去分枝,通过删除结点的分枝,剪掉树结点,对于树中每一个非树叶结点,计算该结点上的子树被剪枝可能出现的期望错误率,然后,使用每个分枝的错误率,结合沿每个分枝观察的权重评估,计算不对该结点剪枝的期望错误率。如果剪去该结点导致较高的期望错误率,则保留该子树,否则剪去该子树。产生一组逐渐被剪枝的树之后,使用一个独立的测试集评估每棵树的准确率,得到具有最小期望错误率的决策树,根据剪枝后的决策树生成相应规则,运用验证数据集合对生成的规则进行验证,如生成规则不符合,或未达到预期标准,则重新进行计算,直至生成规则符合要求;
(4)构建系统,根据电力公司的需求,将系统划分分建立试验数据的管理中心、实验数据的预处理、依据试验数据进行诊断分析、设备状态的趋势分析、决策分析、提供查询统计等辅助功能和生成试验报告等功能模块,其中设备状态的趋势分析模块即为粗糙集和决策树算法的代码实现,使用JavaEE中的Struts2+Spring+ Ajax等技术建立系统框架,Struts2框架实现MVC开发模式的设计,运用Spring的分层架构来灵活的选择所需组件,Ajax技术则高效地实现了用户与前台页面的动态交互。
[0015]I粗糙集算法的研究 (O知识的含义
粗糙集理论建立在分类机制的基础上,并将等价关系对空间的划分与知识等同。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用己知的知识库中的知识来(近似)刻画。在粗糙集理论中,“知识”被认为是一种分类能力,也就是将知识理解为对数据的划分。用集合的概念表示就是使用等价关系集R对离散表示的空间U进行划分,知识就是R对U划分的结果。由此,在U和R的意义下,知识库可以定义为:属于R中的所有可能的关系对U的划分,记为K= (U,R)。
[0016]这样给定一组数据U与等价关系集R,在R下对L的划分,称为知识,记为U/R。如果一个等价关系集对数据的划分存在矛盾,则将导致不确定划分,可用粗糙度来度量。
[0017](2)粗糙集的定义与集合的上近似和下近似
定义1.1设X U,并且R是U上的一个等价关系,称X是R—可定义的,如果X是一些R的等价类的并集;否则,X是R —不可定义的。R —可定义的集合也称一确切集,R-不可定义的集合也可称作是R —非确切的或R —粗糙集。
[0018]定义1.2集合X U称为在知识库K中确切的,如果存在一个等价关系RE IND (K),使得X是R —确切的,并且称X在K中是粗糙的,如果X对于任意R ∈ IND (K)是R-粗糙的。
[0019]粗糙集理论的不确定性是建立在上、下近似的概念之上的。给定知识库K=(U,R),令X U是一个集合,R是一个定义在U上的等价关系,则:
R_(X)= U {Yi e U/R I Yi ∈ X}
R- (X) = U { Yi e U/R I Y η X ≠ Φ}
分别称为X的R —下近似集和R —上近似集。集合X的边界区定义为: bnR(X) =R- (X) -R_(X)
bnR(X)为集合X的上近似与下近似集之差。如果bnR(X)是空集,则称X关于R是清晰的;反之则称集合X为关于R的粗糖集。
[0020]在粗糙集理论中,也把posR⑴=R_⑴称为X的R正域,把negR⑴=U_R_⑴称为X的R负域。
[0021]定义1.3决策系统(DS)
称S= (U, A {Va},a)为知识表示系统,其中U为非空有限集,称为论域;A为非空有限集,称属性集合;Va为属性a e A的值域;a:U —Va为一单射,使论域U中任一元素取属性a在Va中的某一唯一值。如果A由条件属性集合C和结论属性集合D组成,C,D,满足C ∪ D=A,c n D= φ,则称s为决策系统。
[0022]在一个决策系统中,可以认为U的每个元素对应一条规则,规则的前件由C及其取值决定,后件由D及其取值决定。在Va和a:a:U —Va不至于引起混淆的情况下,用(U,C∪D)表示决策系统,不失一般性,为了表示简单和分析方便,用(U,C ∪ {d})表示决策系统,即结论属性集合只包含一个元素。
[0023]定义1.4糙隶属函数
【权利要求】
1.基于数据挖掘技术的带电检测数据处理方法,特征在于:它的步骤如下: (1)数据清洗、属性约简,从电力公司提供的真实数据中,提取500组针对某一变压器状态分析的数据,其中选出200组作为测试数据集,剩余的300组作为验证数据集,根据设备状态评判标准将200组训练样本数据中明显错误的组项予以删除,运用粗糙集中基于依赖度的改进的属性约简方法先求出样本数据集的核,进而根据核值计算出约简集,得出约简后的决策表; (2)决策树的构建,运用C4.5算法,根据查阅的计算公式先求出给定样本分类所需的期望信息,也即信息熵值,下一步计算出每个属性的信息增益,具有最高信息增益的属性选作以上获得的决策表的测试属性,创建一个结点,并以该属性标记,如果上面得到的训练样本集都属于同一类或者候选属性为空则将该结点作为叶子结点,否则根据该属性每个值创建分枝,并据此划分样本,构建得到决策树; (3 )决策树剪枝、生成规则,采用代价复杂性剪枝算法对生长完全的树剪去分枝,通过删除结点的分枝,剪掉树结点,对于树中每一个非树叶结点,计算该结点上的子树被剪枝可能出现的期望错误率,然后,使用每个分枝的错误率,结合沿每个分枝观察的权重评估,计算不对该结点剪枝的期望错误率,如果剪去该结点导致较高的期望错误率,则保留该子树,否则剪去该子树,产生一组逐渐被剪枝的树之后,使用一个独立的测试集评估每棵树的准确率,得到具有最小期望错误率的决策树,根据剪枝后的决策树生成相应规则,运用验证数据集合对生成的规则进行验证,如生成规则不符合,或未达到预期标准,则重新进行计算,直至生成规则符合要求; (4)构建系统,根据电力公司的需求,将系统划分分建立试验数据的管理中心、实验数据的预处理、依据试验数据进行诊断分析、设备状态的趋势分析、决策分析、提供查询统计等辅助功能和生成试验 报告等功能模块,其中设备状态的趋势分析模块即为粗糙集和决策树算法的代码实现,使用JavaEE中的Struts2+Spring+ Ajax等技术建立系统框架,Struts2框架实现MVC开发模式的设计,运用Spring的分层架构来灵活的选择所需组件,Ajax技术则高效地实现了用户与前台页面的动态交互。
【文档编号】G06F19/00GK103902816SQ201410091331
【公开日】2014年7月2日 申请日期:2014年3月12日 优先权日:2014年3月12日
【发明者】朱付保, 孙彤, 刘书如, 王 华, 李祖贺, 霍晓齐, 白庆春 申请人:郑州轻工业学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1