电力变压器缺陷信息数据挖掘方法

文档序号:10487988阅读:347来源:国知局
电力变压器缺陷信息数据挖掘方法
【专利摘要】本发明公开了一种电力变压器缺陷数据挖掘方法,包括:对电力变压器的历史缺陷数据集D0筛选缺陷属性,形成缺陷数据集D1;对D1中的缺陷属性进行填补或删除以降低数据噪音;基于D1已有属性构造新属性、对于连续型属性进行离散化和对于分类型属性进行合理分层,形成缺陷数据集D2;计算输入属性与目标属性间的相关性,删除不相关属性,剩余属性构成缺陷数据集D3;使用Apriori算法计算缺陷数据集属性间的关联关系;提取有效关联规则,分析电力变压器的缺陷因素,形成关联规则知识库。本发明具有如下优点:多维、多层挖掘电力变压器缺陷,方便快捷提取缺陷属性间的关联关系,为电力变压器状态评价提供依据,提高状态评价的准确率。
【专利说明】
电力变压器缺陷信息数据挖掘方法
技术领域
[0001] 本发明涉及数据挖掘技术领域,尤其是涉及一种电力变压器缺陷信息数据挖掘方 法。
【背景技术】
[0002] 电力系统的可靠与稳定运行,是保障经济发展、社会进步和人民生活水平提高所 需电力的前提和基础。电力变压器作为电力系统重要设备,承担电能传输与分配、电压变换 等功能,其运行状况、健康水平直接影响电力系统的安全性、稳定性和可靠性。基于状态评 价的状态检修技术,根据状态评价结果开展主动检修,合理安排检修时间与检修项目,从而 达到降低设备故障率和保障设备可靠运行的目的。
[0003] 缺陷信息作为电力变压器状态评价的重要数据基础,存在来源众多、属性丰富、数 据量大、准确性低及冗余度高等特点。过去,电力变压器缺陷信息分析主要依赖统计分析, 既无法快速获得高价值信息,也不能探测缺陷信息属性间的潜在关联关系,对电力变压器 运行状态评价缺乏足够支持。

【发明内容】

[0004] 本发明旨在至少解决上述技术问题之一。
[0005] 为此,本发明的目的在于提出一种电力变压器缺陷数据挖掘方法。
[0006] 为了实现上述目的,本发明的实施例公开了一种电力变压器缺陷数据挖掘方法, 包括以下步骤:S1:对电力变压器的历史缺陷数据集Do筛选缺陷属性,保留与挖掘目标可能 存在潜在关联的相关数据,形成缺陷数据集D 1; S2:对缺陷数据集D1中的缺陷属性通过填补 缺失、更正错误、直接删除、删除冗余和消除不一致性中至少一种以降低数据噪音;S3:对缺 陷数据集〇:的冗余属性通过数据集成与数据变换构造新属性、对于连续型属性进行离散化 和对于分类型属性进行分层,形成缺陷数据集D 2; S4:基于缺陷数据集02,计算输入属性与目 标属性间的相关性,删除不相关属性构成缺陷数据集D3; S5:基于缺陷数据集D3,设置最小支 持度和最小置信度,使用Apriori算法计算缺陷数据集属性间的关联关系;S6:提取有效关 联规则,分析电力变压器的缺陷因素,形成关联规则知识库。
[0007] 根据本发明实施例的力变压器缺陷数据挖掘方法,通过对电力变压缺陷信息的关 联挖掘方法,建立合适的缺陷数据集,消除多源异质缺陷数据的遗漏缺失、不一致及冗余等 问题,合理筛选数据属性,使用Apriori算法实现电力变压器缺陷数据的多维、多层挖掘,挖 掘缺陷属性间的关联关系,为状态评价提供依据,提高电力变压器状态评价的准确率,保证 电力变压器检修策略更合理有效。
[0008] 另外,根据本发明上述实施例的力变压器缺陷数据挖掘方法,还可以具有如下附 加的技术特征:
[0009] 进一步地,在步骤Sl中,缺陷数据集D1的挖掘维度包含但不限于电压等级、生产厂 家、设备型号、投运时间、缺陷发现时间、缺陷类型、缺陷处理措施和变电站名称在内的连续 型、分类型历史数据。
[0010] 进一步地,步骤S2进一步包括:基于挖掘目标重新定义电力变压器缺陷类型,删除 同一设备出现的重复缺陷,保留首次缺陷记录。
[0011] 进一步地,在步骤S3中,缺陷数据集D2的维度包括运行时间、操作机构类型、缺陷 处理方式、缺陷发生时间、生产厂家资质、设备型号、缺陷发生原因、设备运行环境、设备运 行场所和变电站名称中至少一种。
[0012] 进一步地,步骤S4进一步包括:对于缺陷数据集出的属性进行特征选择,基于卡方 校验计算各属性重要度,根据重要度值进行属性排序,保留重要度高于预设阈值的缺陷属 性。
[0013] 进一步地,使用Apriori算法计算缺陷数据集属性间的关联关系进一步包括:采用 Apriori算法进行所述电力变压器的缺陷相关因素间的关联规则挖掘,其中,所述电力变压 器的缺陷相关因素包括生产厂家、运行年限和缺陷类型。
[0014] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0015] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得 明显和容易理解,其中:
[0016] 图1是本发明一个实施例的电力变压器缺陷数据挖掘方法的流程图。
【具体实施方式】
[0017] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0018] 在本发明的描述中,需要理解的是,术语"中心"、"纵向"、"横向"、"上"、"下"、 "前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底"、"内"、"外"等指示的方位或位置关系为 基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗 示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对 本发明的限制。此外,术语"第一"、"第二"仅用于描述目的,而不能理解为指示或暗示相对 重要性。
[0019] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语"安装"、"相 连"、"连接"应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可 以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是 两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本 发明中的具体含义。
[0020] 参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述 和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施 例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的 实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0021 ]首先介绍一下运用Apriori算法涉及基本概念:关联规则及基本概念。
[0022]关联规则表示的是数据库中不同域之间具有某种满足指定要求的关联关系的规 贝1J。设I = U^i2,是项的集合。给定一个事物数据库D,其中每个事物T是项的集合,满 足;T G I P如果项集A' e /,Fei,并且Jf nF = 0,则形如的蕴涵式称为关联规则,X 和Y作为该关联规则的前提和结论;
[0023]衡量关联规则的基本参量包括支持度(Support)、置信度(Confidence)与提升度 (Lift)。
[0024]支持度(support):表示项集XU Y的支持度,即事务数据库D中同时包含项集X和项 集Y的比例,记为:
[0025]
[0026] 式中:It(XVY) I表示同时包含X和Y的事务数;|τ|表示总事务数。
[0027] 置信度(confidence):表示事务数据库D中出现X的事务中,同时又包含Y的比例, 记为:
[0028]
[0029] 提升度(lift):提升比为事务数据库D的置信度与后项置信度之比,记为:
[0030]
[0031] 捉井KLift衣不仕λ及王的汆忏卜,Y及王的汆忏概率是Y发生的先验概率的比值。 在提升比大于1时,表明K是有方向性的关联,g卩X的出现对Y的出现有促进作用;当lift 〈1,则表明X的出现降低了 Y出现的可能性。
[0032] 以下结合附图描述根据本发明实施例的电力变压器缺陷数据挖掘方法。
[0033] 图1是本发明一个实施例的电力变压器缺陷数据挖掘方法的流程图。请参考图1, 本发明实施例的电力变压器缺陷数据挖掘方法包括以下步骤:
[0034] SI:对电力变压器的历史缺陷数据集Do筛选缺陷属性,保留与挖掘目标可能存在 潜在关联的相关数据,形成缺陷数据集D 1。
[0035] 具体地,基于专家知识将数据集Do的不相关属性删除,包括"缺陷发现人"、"缺陷 消缺人"、"责任单位"和"进入检修部门时间"等非关联属性,通过初步筛选后保留缺陷属性 23项,构成缺陷数据集Du
[0036] S2:对缺陷数据集D1中的缺陷属性通过填补缺失、更正错误、直接删除、删除冗余 和消除不一致性中至少一种以降低数据噪音。
[0037]具体地,缺陷数据集D1*存在属性值缺失错误、离群、冗余及不一致等情况。针对 存在的问题,根据挖掘目标与缺失属性的类型、特点,其处理方法如下:
[0038] S201:由于需要衡量不同生产厂商设备可靠性,因此需要比较各设备缺陷首次发 生时间,而同一设备重复缺陷将严重影响设备的数据分布,使得关联计算结果不可靠,因此 根据"功能位置"、"变电站"、"设备编号"和"缺陷发生时间"等因素共同考虑,仅保留首次缺 陷而将其余冗余缺陷删除。
[0039] S202:对于分类型属性,例如属性为"电力变压器型号"存在缺失值或离群值,可通 过"变电站名称"、"电压等级"和"生产厂家"等因素共同分析填补缺失值或更正错误值。当 无法通过其他属性共同分析以弥补缺失数据,则删除该条记录。
[0040] S3:对缺陷数据集D1的冗余属性通过数据集成与数据变换构造新属性、对于连续 型属性进行离散化和对于分类型属性进行分层,形成缺陷数据集D 2。
[0041] 具体地,缺陷数据集D1中的部分属性冗余、价值密度低,通过数据集成与数据变换 方式构造新属性,既降低属性维度,同时也提升缺陷数据集表达能力。具体方法包括如下步 骤:
[0042] S301:基于"缺陷处理措施"和"缺陷处理结果"这两属性项,构造"缺陷处理方式" 缺陷,将缺陷处理措施划分为简单方式、更换方式、综合方式及其他方式等,将多种不同处 理措施划分至这四种方式,使数据更容易理解。
[0043] S302:通过"缺陷发现时间"与"设备投运时间",构建"设备运行年限"属性,并基于 专家知识将该连续型属性量化,分为"运行年限N〈1年"、"1年〈运行年限N〈5年"、"5年〈运行 年限N〈10年"、"10年〈运行年限N〈15年" "15年〈运行年限N〈20年"及"运行年限N>20年"等6个 属性值。
[0044] S303:根据"设备类型"和"生产厂家"属性,构建"厂家资质"属性并将其分成"外 资""合资""国产"三个属性值。
[0045] S304:将缺陷数据集D1中的数据进行量化、分层,建立电力变压器缺陷数据集D 2。
[0046] S4:基于缺陷数据集02,计算输入属性与目标属性间的相关性,删除不相关属性构 成缺陷数据集D 3。需要注意的是,对于不同的挖掘目标,其目标属性是不一样的。
[0047] 具体地,电力变压器缺陷数据集D2所含属性依然较多,通过考察属性间的重要性, 达到进一步精简的数据集的目的。属性的重要性可以从两个方面联合考察:第一,从属性自 身查考;第二,从输入属性与目标属性相关角度考察。从属性自身看,重要的属性应是携带 信息多,也就是方差较大。根据实际情况制定一些测度方差大小的标准,当属性方差小于指 定标准,则视为不重要。从输入属性与目标属性相关角度看,重要的属性应对目标属性的分 类预测有显著意义。对于不同类型的输入属性和目标属性,所采用的测量方法也不相同。具 体情况如表1所示,表1是不同变量测试方法表。
[0048] 表1不同类型变量测量方法
[0050]由于电力变压器缺陷属性集中为分类型属性,因此首先采用卡方校验方式测量属 性间的相关性。卡方校验属于统计学的假设检验范畴,主要涉及以下四大步骤:提出零假 设、选择和计算检验统计量、确定显著性水平、结论和决策。其中卡法检验的检验统计量为 Peason卡方统计量,其数据定义为:
[0051]
[0052] 式中:r为列联表的行数,c为列联表的列数;f°为观察频数,Γ为期望频数。
[0053]衡量属性间的重要程度是通过"重要度(Importance)"来衡量。重要性 (Importance)不是相关系数的大小,该值是通过计算特定显著性水平下卡方统计量的概率 P,通过比较各变量间的(I-P)值,从而衡量其重要性;通常该值越大表示该变量越重要。
[0054] 设置重要度1>0.95,当重要度值大于0.95的保留,而重要度小于0.9时则直接删 除;重要度高的属性,删除重要度低于所化标准的属性,形成电力变压器缺陷数据集D 3。
[0055] S5:基于缺陷数据集D3,设置最小支持度和最小置信度,使用Apriori算法计算缺 陷数据集属性间的关联关系。
[0056] 具体地,Apriori算法主要流程如下:
[0057]输入:缺陷数据库D3;最小支持度minsup [0058]输出:D3中所有强关联规则集合R
[0059] 算法:
[0060]
[0061]
[0062]
[0063]
[0064]
[0065]
[0066]
[0067]
[0068]
[0069]
[0070]
[0071]
[0072]
[0073]
[0074]
[0075]
[0076]
[0077]
[0078]
[0079]
[0080]
[0081]
[0082] returnCk;
[0083] procedurehas_infrequent_subset(c:candidatek-itmeset;Fk-1:frequent(k_ I)-itemset)
[0084]
[0085]
[0086] returnTRUE;
[0087] elsereturnFALSE;
[0088] S6:提取有效关联规则,分析电力变压器的缺陷因素,形成关联规则知识库。
[0089]在本发明的一个示例中,以电力变压器缺陷类型作为后项,基于apriori算法提取 的关联规则如表2所示,表2是力变压器强关联规则表。
[0090]表2电力变压器强关联规则
[0092]通过上述表格可知,厂商A的设备在运行年限在5-10年间冷却系统出现缺陷的概 率近乎90%,在设备状态评价时相应厂商相应缺陷的权重、评分等作出相应调整,同时针对 性的提出该厂商电力变压器设备的运维策略。通过改变关联规则的前项与后项属性,从多 角度、多维度、多层次关联分析导致电力变压器产生缺陷因素。
[0093]本发明实施例的电力变压器缺陷数据挖掘方法,结合电力行业的特殊性,将关联 规则应用于电力变压器缺陷信息关联规则的选取分析中,提出运用数据挖掘技术中的关联 规则对电力变压器缺陷数据进行分析的基本思路和具体的解决方案。通过对强关联规则的 提取和分析,为电力变压器的状态评价提供参考依据,状态评价准确率更高、电力变压器维 修策略更合理、更具针对性。
[0094] 另外,本发明实施例的电力变压器缺陷数据挖掘方法的其它构成以及作用对于本 领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
[0095] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示例"、"具体示 例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。
[0096] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不 脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本 发明的范围由权利要求及其等同限定。
【主权项】
1. 一种电力变压器缺陷数据挖掘方法,其特征在于,包括以下步骤: S1:对电力变压器的历史缺陷数据集Do筛选缺陷属性,保留与挖掘目标可能存在潜在关 联的相关数据,形成缺陷数据集Di; S2:对缺陷数据集Di中的缺陷属性通过填补缺失、更正错误、直接删除、删除冗余和消除 不一致性中至少一种以降低数据噪音; S3:对缺陷数据集Di的冗余属性通过数据集成与数据变换构造新属性、对于连续型属性 进行离散化和对于分类型属性进行分层,形成缺陷数据集D2; S4:基于缺陷数据集02,计算输入属性与目标属性间的相关性,删除不相关属性构成缺 陷数据集D3; S5:基于缺陷数据集D3,设置最小支持度和最小置信度,使用Apriori算法计算缺陷数据 集属性间的关联关系; S6:提取有效关联规则,分析电力变压器的缺陷因素,形成关联规则知识库。2. 根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,在步骤S1中,缺 陷数据集〇:的挖掘维度包含但不限于电压等级、生产厂家、设备型号、投运时间、缺陷发现 时间、缺陷类型、缺陷处理措施和变电站名称在内的连续型、分类型历史数据。3. 根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,步骤S2进一步包 括:基于挖掘目标重新定义电力变压器缺陷类型,删除同一设备出现的重复缺陷,保留首次 缺陷记录。4. 根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,在步骤S3中,缺 陷数据集〇2的维度包括运行时间、操作机构类型、缺陷处理方式、缺陷发生时间、生产厂家 资质、设备型号、缺陷发生原因、设备运行环境、设备运行场所和变电站名称中至少一种。5. 根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,步骤S4进一步包 括:对于缺陷数据集D2的属性进行特征选择,基于卡方校验计算各属性重要度,根据重要度 值进行属性排序,保留重要度高于预设阈值的缺陷属性。6. 根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,使用Apriori算 法计算缺陷数据集属性间的关联关系进一步包括:采用Apriori算法进行所述电力变压器 的缺陷相关因素间的关联规则挖掘,其中,所述电力变压器的缺陷相关因素包括生产厂家、 运行年限和缺陷类型。
【文档编号】G05B23/02GK105843210SQ201610166386
【公开日】2016年8月10日
【申请日】2016年3月22日
【发明人】吐松江·卡日, 高文胜, 陆国俊, 王勇, 栾乐, 熊俊, 覃煜, 李光茂, 陈国炎, 肖天为, 崔屹平
【申请人】清华大学, 广州供电局有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1