基于Apriori算法的配电变压器质量问题分析方法与流程

文档序号:15616730发布日期:2018-10-09 21:34阅读:173来源:国知局

本发明属于电力设备的质量监督技术领域,具体涉及一种基于apriori算法的配电变压器质量问题分析方法。



背景技术:

配电变压器是电力系统中非常重要的一种设备,它在电力系统中长期持续运行(一般20~30年),将电压从中高压降至用户直接使用的电压等级,起到电能中转枢纽的作用。如果其发生故障或损坏,将导致大量电力用户供电中断,造成严重的社会经济损失。

配电变压器的设备质量是影响其长期运行可靠性的关键因素,因此,长期以来配电变压器的设备质量一直备受关注,形成了一系列国家标准、行业标准以规范其质量要求。然而,随着供电可靠性要求不断提高,对配电变压器质量的要求也愈加提升和精细化,但是目前配电变压器生产企业繁多,产品质量参差不齐,而当前配电变压器的质量管控又往往依赖于供应商资格验证和极小比例的抽检试验,没有将配电变压器全寿命周期、多维度的数据信息充分利用起来,这严重限制了配电变压器质量管控的成效。同时,随着电力系统物资质量管控信息化发展和大量设备运维数据积累,给开展深度的配电变压器质量问题分析提供了基础,从而有利于实现对不同厂家、不同批次配电变压器质量的量化分析,满足当前质量管控精细化的要求。

apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,算法已经被广泛的应用到商业、网络安全等各个领域。传统的apriori算法在扫描数据集并得到频繁项集后直接根据设置的参数生成了高于阈值的关联规则,当数据量过大时,生成的规则同样会多且杂,有价值的规则很少,因此本发明还对传统的apriori算法进行了改进与优化。



技术实现要素:

为解决现有技术中的不足,本发明提供一种基于apriori算法的配电变压器质量问题分析方法,解决了目前对不同厂家、不同批次配电变压器质量管控缺少分析方法、难以确定关键管控因素的问题。

为了实现上述目标,本发明采用如下技术方案:一种基于apriori算法的配电变压器质量问题分析方法,其特征在于:包括以下步骤:

步骤s1,收集配电变压器全寿命周期、多维度的数据;

步骤s2,对收集到的数据信息进行预处理,预处理包括数据清洗、数据集成、数据变换以及数据归约,预处理后得到配电变压器质量问题数据集;

步骤s3,基于优化的apriori算法对预处理后的配电变压器质量问题数据集进行关联规则的挖掘;

步骤s4,通过进一步设置不同的支持度、置信度和提升度对计算得到关联规则进行筛选;

步骤s5,对筛选得到的关联规则进行分析,若某条关联规则中的支持度以及置信度很高,那么可以导出该规则中的项,找出过高的某一项或某几项,从而利用这些数据从根源减少质量问题的发生。

前述的一种基于apriori算法的配电变压器质量问题分析方法,其特征在于:所述配电变压器全寿命周期、多维度的数据信息包括设备编号、生产厂家、电压等级、生产批次、投运日期、运行时长以及全寿命周期各个环节产生的数据信息;所述全寿命周期各个环节产生的数据信息包括招投标环节、采购环节、监造环节、运输环节、验收环节、安装调试环节、运维环节发现的各类质量问题相关数据,各类质量问题包括验收试验不合格、变压器过热、三相电压不平衡、绕组绝缘受潮、绕组绝缘老化、声音异常、油温升高、油色变化显著、分接开关放电、保护装置异常。

前述的一种基于apriori算法的配电变压器质量问题分析方法,其特征在于:所述数据清洗包括填写缺失的值、异常数据和错误数据的清除;所述数据集成是将从不同数据系统里收集来的数据信息进行合并,精简冗余数据;所述数据变换是将合并后的数据转换为适合数据挖掘的形式;所述数据归约是当数据集过大时,利用归约技术将数据集简化,但仍能保持原数据的完整性。

前述的一种基于apriori算法的配电变压器质量问题分析方法,其特征在于:所述不同数据系统包括配电变压器使用单位的设备监测系统、能量管理系统、调度系统、故障统计系统、物资质量系统,以及来自配电变压器厂商、检测试验单位的检测报告系统。

前述的一种基于apriori算法的配电变压器质量问题分析方法,其特征在于:所述数据归约包括特征规约和样本规约,特征规约为从原有的特征中删除不重要或不相关的特征,或者通过对特征进行重组来减少特征的个数;样本归约为从数据集中选出有代表性的样本的子集。

前述的一种基于apriori算法的配电变压器质量问题分析方法,其特征在于:所述步骤s3具体方法为:

步骤s3.1,设置参数:必须设置的参数有支持度s和置信度t;支持度s为每条关联规则a→b在质量问题数据集中出现的比例;置信度t为在包括关联规则a→b中的项集a的全部关联规则中同时包含项集b的概率;还有一个度量关联规则是否有价值的参数,为提升度l,该值越高,表明该规则参考性越大;

步骤s3.2,扫描质量问题数据集,所有质量问题案例中出现的参数构成了全部项,每一个案例的项的不同组合构成了项集,计算每一项的支持度,将低于设定支持度的项去除,同时将包含该项的所有项集也去除,剩余的项集便构成了频繁项集;

步骤s3.3,将关联规则a→b中的b项集与步骤s1收集到的质量问题绑定,再次扫描频繁项集,将不包含质量问题里的项的频繁项集删除,得到新的频繁项集;

步骤s3.4,计算频繁项集的置信度,将低于置信度的规则排除,最终生成并输出优化后的关联规则。

本发明具有的有益效果:本发明利用电力物资质量管控和设备运维积累的配电变压器全寿命周期质量问题数据,通过优化apriori算法对配电变压器的质量问题数据进行了关联规则的挖掘,并能够根据目的来筛选某个质量问题或者某个参数引起的质量问题,因此可以针对如家族性缺陷等问题进行具体分析,为配电变压器的全寿命周期质量监督提供了方法和数据支持。

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

如图1所示,一种基于apriori算法的配电变压器质量问题分析方法,包括以下步骤:

步骤s1,收集配电变压器全寿命周期、多维度的数据;

配电变压器全寿命周期、多维度的数据信息包括设备编号、生产厂家、电压等级、生产批次、投运日期、运行时长以及全寿命周期各个环节产生的数据信息,全寿命周期各个环节产生的数据信息包括招投标环节、采购环节、监造环节、运输环节、验收环节、安装调试环节、运维环节发现的各类质量问题相关数据,其中运输环节还包括不同运输方式,验收环节还包括不同验收检测试验,各类质量问题包括验收试验不合格、变压器过热、三相电压不平衡、绕组绝缘受潮、绕组绝缘老化、声音异常、油温升高、油色变化显著、分接开关放电、保护装置异常等。

步骤s2,对收集到的数据信息进行预处理,预处理包括数据清洗、数据集成、数据变换以及数据归约,预处理后得到配电变压器质量问题数据集,数据集中的每一条数据为一个案例,案例的每个参数称为项,一个案例的所有项构成一个质量问题的全部信息,预处理具体方法包括:

步骤s2.1,数据清洗:包括填写缺失的值、异常数据和错误数据的清除;如某条数据中的生产厂家缺失,则可根据其同类的生产批次,确定其生产厂家,并补全该数据;如2018年收集得到某条数据投运日期为20150312并显示运行时长为5年,则该数据为错误数据,需将其清除。

步骤s2.2,数据集成:将从不同数据系统里收集来的数据信息进行合并,精简冗余数据,这些数据系统一般包括配电变压器使用单位的设备监测系统、能量管理系统(pms)、调度系统、故障统计系统、物资质量系统等,以及来自配电变压器厂商、检测试验单位的检测报告系统等。

步骤s2.3,数据变换:将合并后的数据转换为适合数据挖掘的形式,如抽检不合格项“雷电冲击试验不合格”变换为一个代码(如“j”)。

步骤s2.4,数据归约:当数据集过大(如超过10000条以上)时,可以利用归约技术把数据集简化,但仍能保持原数据的完整性,具体方法包括特征规约:从原有的特征中删除不重要或不相关的特征,或者通过对特征进行重组来减少特征的个数;样本归约:从数据集中选出一个有代表性的样本的子集。

步骤s3,基于优化的apriori算法对预处理后的配电变压器质量问题数据集进行关联规则的挖掘;一条案例中的某些项的组合构成了项集,项集可以为一项,也可以为多项,而关联规则的形式为a→b,a和b均为项集,且a和b不相交即

基于优化的apriori算法对步骤s2得到的数据集进行关联规则挖掘的具体步骤如下:

步骤s3.1,设置参数:必须设置的参数有支持度s和置信度t;支持度s为每条关联规则在质量问题数据集中出现的比例,公式为s=p(a∪b),即包含a和b两个项集的所有项的案例在质量问题数据集中的比例;置信度t为在包括项集a的全部关联规则中同时包含项集b的概率,公式为t=p(a∪b)/p(a),其中p(a)为包含a项集的所有项的案例在质量问题数据集中的比例;还有一个度量该规则是否有价值的参数,为提升度l,公式为l(a→b)=p(a∪b)/(p(a)p(b)),p(b)为包含b项集的所有项的案例在质量问题数据集中的比例,l值越高,表明该规则参考性越大;

步骤s3.2,扫描质量问题数据集,所有质量问题案例中出现的参数构成了全部项,每一个案例的项的不同组合构成了项集,计算每一项的支持度,将低于设定支持度的项去除,同时将包含该项的所有项集也去除,剩余的项集便构成了频繁项集;

步骤s3.3,将关联规则a→b中的b项集与步骤s1中收集到的质量问题绑定,再次扫描频繁项集;将不包含质量问题里的项的频繁项集删除,得到新的频繁项集,通过该步骤大大减少了无用规则的产生,同时减少了计算量;传统的apriori算法只包含步骤s3.1、s3.2以及s3.4,基于该步骤得到的关联规则过于冗杂,有用的信息较少,因此增加了步骤s3.3。

步骤s3.4,根据s3.1的公式,计算频繁项集的置信度,将低于置信度的规则排除,最终生成并输出优化后的关联规则。

步骤s4,通过进一步设置不同的支持度、置信度和提升度对计算得到关联规则进行筛选;

步骤s4中,可通过设置提升度的阈值,筛选提升度高于该阈值的关联规则集以及搜索变压器过热等质量问题关键词或生产厂家a等其他维度关键词来找到代表着质量问题发生的高概率诱因的目的规则,从而利用这些规则与参数对改善质量监督提供数据支持以及帮助。

步骤s5,对筛选得到的关联规则进行分析,若某条关联规则中的支持度以及置信度很高,那么可以导出该规则中的项,找出过高的某一项或某几项,也即是该规则对应的质量问题发生过高的原因并进行解决,从而利用这些数据从根源减少质量问题的发生,为配电变压器的质量监督提供支撑。

实施例:

s1,首先收集配电变压器的全寿命周期、多维度的数据信息,全寿命周期、多维度的数据信息包括设备编号、生产厂家、电压等级、生产批次、投运日期、运行时长以及全寿命周期各个环节产生的数据信息,全寿命周期各个环节产生的数据信息包括招投标环节、采购环节、监造环节、运输环节、验收环节、安装调试环节、运维环节发现的各类质量问题相关数据,其中运输环节还包括不同运输方式,验收环节还包括不同验收检测试验,各类质量问题包括验收试验不合格、变压器过热、三相电压不平衡、绕组绝缘受潮、绕组绝缘老化、声音异常、油温升高、油色变化显著、分接开关放电、保护装置异常等。部分数据条目如下所示:

表1基本信息列表

表2环节名称列表

表3运输方式列表

表4质量问题列表

表5检测试验项目列表

s2,接下来对收集到的数据进行预处理,包括数据的清洗、集成、变换以及归约。主要是填写缺失的值、异常数据和错误数据的清除,数据信息合并,精简冗余数据,以及将合并后的数据转换为适合数据挖掘的形式,最终得到的配电变压器质量问题数据集。具体形式如下所示:

表6数据集示例

s3,运用优化apriori算法对得到的数据集进行关联规则的挖掘,如果参数设置过高,那么结果可能是没有规则或者规则过于普通而不是非常有用的规则;另一方面如果参数太低,可能会导致规则数量很多,甚至需要运行很长的时间或者在搜索阶段耗尽内存。因此需要预先设计好需要的参数,以支持度为0.1为基准,意味着该规则至少出现在10%的质量问题中,同时置信度设置为0.3,则意味着该规则的可靠性为30%。

设置好参数后,开始进行关联规则的挖掘,首先是扫描数据集,所有质量问题案例中出现的参数构成了全部项,每一个案例的项的不同组合构成了项集,然后计算每一项的支持度,如厂商c项出现300次,全部项共计2000项,则厂商c的支持度为300/2000=0.15,大于所设阈值0.1,因此该项为频繁项。依次统计所有项的支持度,将支持度低于阈值0.1的项以及包含该项的项集删除,剩余的项集便是频繁项集。若直接运用apriori算法由频繁项集产生得到的关联规则,部分如表7所示:

表7关联规则表

可以看到,得到的规则会出现如10kv→厂商a这种与质量问题无直接关联、没有意义但支持度很高的规则,因此在由传统的apriori算法得到频繁项集后,不直接产生关联规则,而是将关联规则中的b项集与质量问题列表进行绑定,然后对频繁项集进行再次扫描,将不包含质量问题列表的频繁项集同样予以删除,然后进行关联规则的产生,最终得到的便是优化过后的关联规则。如表8所示,

表8优化后的部分关联规则表

由该部分关联规则列表可以分析出,厂商c的设备易漏油,可能存在家族性缺陷,建议以后不再购买该厂商的设备,同样的,我们还可以搜索公路运输等项,找出质量问题发生最多的运输方式或其他原因,以后尽量避免选择该方式运输配电变压器。

本发明通过优化apriori算法对配电变压器的质量问题数据进行了关联规则的挖掘,并能够根据目的(例如,目的是运输方式就查找运输方式的关联规则,目的是某个参数对质量问题的影响就查找某个具体参数)来筛选某个质量问题或者某个参数引起的质量问题,因此可以针对如家族性缺陷等问题进行具体分析,为配电变压器的全寿命周期质量监督提供了数据支持。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1