一种输变电设备疑似家族性缺陷的自动辨识方法及系统与流程

文档序号:15686739发布日期:2018-10-16 21:08阅读:374来源:国知局

本发明涉及文本挖掘技术领域,具体涉及一种输变电设备疑似家族性缺陷的自动辨识方法及系统。



背景技术:

输变电设备安全可靠的运行是电网安全运行的基础,因此,如果输变电设备存在缺陷,则电网的运行将会存在安全隐患,尤其是同一生产厂家由于相同工艺、相同材料、相同设计理念和思路造成的设备缺陷将对电网的安全稳定运行造成较大的隐患。

目前,输变电设备家族性缺陷来源主要包括:有关设备的家族事故通报、设备反措、设备家族性缺陷、制造厂通报的家族性缺陷。

家族性缺陷管理程序包括:①各运行公司上报疑似家族性缺陷;②调查统计分析;③界定并提出处理意见;④家族性缺陷信息及反措要求;⑤家族性缺陷设备汇总及相关家族性缺陷处理;⑥上报的处理结果。

针对家族性缺陷的认定主要通过专业人员通过对设备进行试验、解体分析,周期较长,不利于家族性缺陷的认定工作。因此,需要提供一种技术方案来满足现有的技术需要。



技术实现要素:

针对现有技术的不足,本发明提出了一种输变电设备疑似家族性缺陷的自动辨识方法及系统。

一种输变电设备疑似家族性缺陷的自动辨识方法,其包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。

采集到的输变电设备数据包括:输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。

采集输变电设备数据,对输变电设备缺陷信息进行文本分析,包括:利用采集到的输变电设备的缺陷记录和输变电设备的身份标识,对输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,疑似家族性缺陷分析宽表每行对应一个缺陷内容;基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。

基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表,包括:根据疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;对自定义词典、同义词词典和停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。

基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵,包括:基于设备缺陷信息词频统计表,按下式分别计算词频(tf)和逆文档词频(idf);

将词频(tf)*逆文档词频(idf)得到的值tf-idf,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;

其中所述设备缺陷信息特征词频矩阵的行对应缺陷内容,所述列对应特征词。

基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性,包括:基于设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:

其中,a和b分别为设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;ai和bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。

基于不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备,包括:基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;基于聚类结果,确定每一类的缺陷内容特征词并根据所述缺陷内容特征词生成对应的标签;对输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。

一种输变电设备疑似家族性缺陷的自动辨识系统,包括:设备缺陷信息特征词频矩阵模块,用于采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;相似性计算模块,用于基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;疑似家族性缺陷设备辨识模块,用于基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。

采集到的输变电设备数据包括:输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。

设备缺陷信息特征词频矩阵模块,包括:疑似家族性缺陷分析宽表子模块、设备缺陷信息词频统计表子模块和设备缺陷信息特征词频矩阵子模块;疑似家族性缺陷分析宽表子模块,用于利用采集到的输变电设备的缺陷记录和输变电设备的身份标识,对输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,所述疑似家族性缺陷分析宽表每行对应一个缺陷内容;设备缺陷信息词频统计表子模块,用于基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;设备缺陷信息特征词频矩阵子模块,用于基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。

设备缺陷信息词频统计表子模块,包括:词典定义单元和统计表单元;词典定义单元,用于根据疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;统计表单元,用于对自定义词典、同义词词典和停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。

设备缺陷信息特征词频矩阵子模块,包括:计算单元和特征词提取单元;计算单元,用于基于设备缺陷信息词频统计表,按下式分别计算词频(tf)和逆文档词频(idf);

特征词提取单元,用于将词频(tf)*逆文档词频(idf)得到的值tf-idf,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;其中,设备缺陷信息特征词频矩阵的行对应缺陷内容,列对应特征词。

相似性计算模块,进一步用于:基于设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:

其中,a和b分别为设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;ai和bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。

疑似家族性缺陷设备辨识模块,包括:聚类算法子模块、标签确定子模块和缺陷定义子模块;聚类算法子模块,用于基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;标签确定子模块,用于基于聚类结果,确定每一类的缺陷内容特征词并根据缺陷内容特征词生成对应的标签;缺陷定义子模块,用于对输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。

与最接近的现有技术比,本发明具有如下有益效果:

1、本发明对输变电设备缺陷信息进行聚类,并根据分组统计结果自动辨识疑似家族性缺陷设备,大大削减了人力和时间等成本。

2、本发明所采用算法避免了用户过多的参数设置上的参与,保证了结果的高复制性,如所采用聚类算法无需设置类的个数,而是算法自动选择最优的类的数量。

附图说明

图1是本发明方法的流程图;

图2是本发明的具体设计流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

如图1所示,本发明的输变电设备疑似家族性缺陷分析模型,通过收集设备缺陷情况,采用文本挖掘技术,对输变电设备缺陷信息进行文本分析,并提取输变电设备缺陷信息特征词,进行文本相似性计算及文本凝聚层次聚类,分析同一生产厂家生产的同一类型、同一型号、同一缺陷部位的同一缺陷,实现输变电设备疑似家族性缺陷的自动辨识。

为有效的使用该方法,需要保证本发明具备完整的设备缺陷记录、设备生产厂家信息、设备台账信息和设备分类信息等。

如图2所示,本发明包括以下六个步骤:

步骤一:抽取设备缺陷记录、设备生产厂家信息、设备台账信息、设备分类信息等数据,进行关联合并,形成输变电设备疑似家族性缺陷分析宽表

从pms2.0系统(设备运维精益管理系统)中抽取设备缺陷记录、设备生产升价信息、设备台账信息、设备分类信息等数据,以设备的id为标识,进行关联合并,形成宽表,此表每一行所包含的内容称为一条“缺陷内容”。

步骤二:定义设备缺陷分析自定义词典、同义词词典、停用词词典,并进行设备缺陷信息文本分词,同时,根据文本分词的结果,完善优化自定义词典、同义词词典和停用词词典

根据合并后的输变电设备缺陷信息宽表,分别定义自定义词典、同义词词典和停用词词典。在构建自定义词典、停用词词典、同义词词典对缺陷内容信息进行同义词转换操作和词的停用,进行文本分词,并对分词词汇进行词性标注(名词/动词/副词)。

1、定义自定义词典

依据专业标准进行专业词汇定义,形成自定义词典。在进行文本分词过程中加载自定义词典,提升设备缺陷信息文本分词效果。定义的自定义词,例如:“隔离开关”和“热耦继电器”等专业词汇。

2、定义同义词词典

依据“设备缺陷信息”进行同义词定义、合并,形成同义词词典,在进行文本分词过程中加载同义词词典,解决设备缺陷信息录入过程中由于录入人员环境差异、用语习惯等原因造成的设备缺陷信息描述不规范的问题,例如:将“不正确”、“不准确”、“不一致”等词汇统一定义为“不正确”。

3、停用词词典定义

依据“设备缺陷信息”,定义与设备缺陷无关的相关词汇,形成停用词词典,以便在文本分词的过程中摒弃该部分词汇,例如:“的”、“与”、“三星变电站”等与设备本体缺陷无关的词汇。

加载自定义词典、同义词词典、停用词词典,并进行设备缺陷信息进行文本分词分析,即扫描字符串,如发现字符串的子串和上述字典以及词库中的词相同,就算匹配成功并将词分出,这里使用的词库为已经向外公开的中文词库;与此同时,形成设备缺陷信息词频统计表。

步骤三:结合设备缺陷分词结果,利用tf-idf算法提取输变电设备缺陷信息特征词,形成设备缺陷信息特征词频矩阵

设备缺陷信息特征词频矩阵中每一行对应一条缺陷内容,而每一列则对应了这组缺陷内容的一个特征词,其中一个元素为1或0分别表示某一缺陷内容是否含有某一特征词。

针对每一条缺陷内容,根据设备缺陷信息分词结果,进行设备缺陷信息特征词提取,通过设备缺陷信息文本分词形成的词频表,计算具体词频(tf)和逆文档词频(idf),并利用tf-idf(tf×idf)值,按照降序排列,衡量词的重要性,将排名在前的若干词(如前10)提取出来作为特征词。

tf-idf=词频(tf)*逆文档词频(idf)公式(3)

将所有缺陷内容提取特征词以后,针对所有缺陷内容提取他们特征词的并集,为集合中每个特征词按照从1到m依次进行编号,其中m为集合中元素的数量,集合中的每个特征词可随机编号,不过需保证每个特征词具有唯一并且不与其它特征词重复的编号。

针对一条缺陷内容,首先将其缺陷内容特征词向量赋值为全零的长度为m的向量,然后将其所包含特征词编号所对应的位置的0改为1。

步骤四:针对输变电设备缺陷信息特征词频矩阵,利用余弦相似性算法,计算词频向量矩阵之间的相关性,实现不同的输变电设备缺陷信息之间相似性的计算

基于文本挖掘生成的特征词生成词频向量矩阵,计算各词向量的余弦值,利用词向量的余弦值计算设备缺陷信息的相似性,参见公式(4)所列。

如上述公式所列,cosθ值越接近1,表明夹角越接近0度,也就是两个向量越相似,a和b分别为设备缺陷信息特征词频矩阵中的两行缺陷内容特征词向量,每个向量的每个元素为二进制,而ai及bi则指每个向量中具体的第i个元素。

由于余弦的这种计算方法对n维向量也成立,因此可以将余弦相似性算法应用于计算设备信息缺陷的相似性,下面对缺陷内容特征词向量的获取进行简要说明:

步骤五:依据不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法,实现输变电设备缺陷信息的聚类分析,对输变电设备缺陷信息打标签。

根据文本相似性计算结果,利用凝聚层次聚类算法实现对“缺陷内容”的聚类,分析每一类所包含的主要特征词并根据这些特征词为这一类产生对应标签,如“断路器-门锁-损坏”和“断路器-sf6-气体-漏气”等。

步骤六:通过对设备生产厂家、设备类型、设备型号、缺陷部位和设备缺陷标签等维度进行分组统计,将数量大于或等于5个的设备本体缺陷定义为设备疑似家族性缺陷,实现对输变电设备疑似家族性缺陷的自动快速辨识。

基于同一发明构思,本发明还提供了一种输变电设备疑似家族性缺陷的自动辨识系统,下面进行说明。

本发明提供的系统包括:设备缺陷信息特征词频矩阵模块,用于采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;相似性计算模块,用于基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;疑似家族性缺陷设备辨识模块,用于基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。

采集到的输变电设备数据包括:输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。

设备缺陷信息特征词频矩阵模块,包括:疑似家族性缺陷分析宽表子模块、设备缺陷信息词频统计表子模块和设备缺陷信息特征词频矩阵子模块;疑似家族性缺陷分析宽表子模块,用于利用采集到的输变电设备的缺陷记录和输变电设备的身份标识,对输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,所述疑似家族性缺陷分析宽表每行对应一个缺陷内容;设备缺陷信息词频统计表子模块,用于基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;设备缺陷信息特征词频矩阵子模块,用于基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。

设备缺陷信息词频统计表子模块,包括:词典定义单元和统计表单元;词典定义单元,用于根据疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;统计表单元,用于对自定义词典、同义词词典和停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。

设备缺陷信息特征词频矩阵子模块,包括:计算单元和特征词提取单元;计算单元,用于基于设备缺陷信息词频统计表,按下式分别计算词频(tf)和逆文档词频(idf);

特征词提取单元,用于将词频(tf)*逆文档词频(idf)得到的值tf-idf,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;其中,设备缺陷信息特征词频矩阵的行对应缺陷内容,列对应特征词。

相似性计算模块,进一步用于:基于设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:

其中,a和b分别为设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;ai和bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。

疑似家族性缺陷设备辨识模块,包括:聚类算法子模块、标签确定子模块和缺陷定义子模块;聚类算法子模块,用于基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;标签确定子模块,用于基于聚类结果,确定每一类的缺陷内容特征词并根据缺陷内容特征词生成对应的标签;缺陷定义子模块,用于对输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1