一种基于文本挖掘技术提取断路器故障特征信息的方法

文档序号:9911199阅读:298来源:国知局
一种基于文本挖掘技术提取断路器故障特征信息的方法
【技术领域】
[0001 ]本发明涉及输变电设备管理技术领域,更为具体地说,涉及一种基于文本挖掘技 术提取断路器故障特征信息的方法。
【背景技术】
[0002] 断路器(circuit breaker)是指能够关合、承载和开断正常回路条件下的电流并 能关合、在规定的时间内承载和开断异常回路条件下的电流的开关位置,在电力输送的过 程中,起到重要作用。如此,在我国大型电网企业管理信息系统中,由各变电站节点输入的 有关断路器故障描述文本形成了规模庞大的资料库。作为电力系统中最重要的开关设备之 一,断路器由多个子部件组成,结构复杂,了解和掌握其常见的故障类型和表征信息,及其 与部件之间的关联关系,可以帮助实现对断路器健康状态的实时监测,保证电力系统的安 全与稳定运行,具有重要的经济和实际意义。
[0003] -般的网页和其它行业领域文本资料不同,电网企业信息系统中有关断路器故障 信息的资料库在存储格式和记录方式上具有独特性。在存储格式上,企业信息系统中多以 表格的形式存储断路器的故障历史信息。每行记录着一次断路器故障信息,由设备型号、生 产厂家、投运时间、故障大类别、故障详细情况及原因分析等列记录模块构成,具有一定的 结构化特征;其中故障详细情况及原因分析列记录是非结构化的文本描述。企业的每个地 方分局(或变电站)所记录的故障详细情况及原因分析文本描述因人而异,呈现非结构化特 征。
[0004] 因此,如何从这些断路器故障半结构化文本资料中提取特征信息,准确建立故障 类型和各部件之间的关联关系,实现断路器故障智能化分析成为供电企业信息系统亟待解 决的技术问题。

【发明内容】

[0005] 本发明的目的是提供一种基于文本挖掘技术提取断路器故障特征信息的方法,实 现断路器故障智能化分析。
[0006] 为了解决上述技术问题,本发明提供如下技术方案:
[0007] 本发明提供的一种基于文本挖掘技术提取断路器故障特征信息的方法,所述方法 主要包括:
[0008] 获取断路器故障信息,采用向量空间模型表示方法将其转化为计算机可识别的结 构化信息,建立断路器故障文本;
[0009] 比较所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进 行分类;
[0010]统计词频,抽取高频词;
[0011]结合供电企业信息系统中断路器采购记录资料以及高压断路器国家技术标准,自 定义分词词库;
[0012] 基于词典匹配的方法,对分词后的断路器故障文本进行词性标注;
[0013] 将标注信息抽取和高频词汇补充相结合,识别和提取各类型故障的表征词;
[0014] 建立断路器故障表征信息与部件之间、以及部件与部件之间的关联关系;
[0015] 其中:分词词库包括供电企业所采用断路器的型号、部件标准名称、生产厂家以及 常用的故障特征描述词等。
[0016] 优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述判断所 述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进行分类,具体包 括:
[0017] 采用jaccard相似度度量算法,将断路器的故障类型进行聚类和名称标准化,并据 此对故障详细情况文本进行分类。
[0018] 优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述统计词 频,抽取高频词,具体还包括:生成各类型故障发生的比率X词语矩阵D,统计各不同类型故 障发生的次数,计算其比率,其中,词语矩阵D为断路器常见故障类型及其对应的发生比率 构成的矩阵。
[0019]优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述方法还 包括,将各类型故障详细资料文本进行分词和语义消歧。
[0020] 优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述识别和 提取各类型故障的表征词,还包括:统计所述表征词,提取高频词。
[0021] 优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述方法还 包括,提取发生各类型故障的断路器型号及其生产厂家信息,并统计词频。
[0022] 优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述方法还 包括,构建所述断路器故障特征信息结构图。
[0023] 优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述统计各不同类 型故障发生的次数,计算其比率,具体包??
,1 d ΛΓ
[0024] 其中,i和j为常数,y(gl)表示断路器故障类型gl发生的次数,初始值设为0,N表示 断路器故障信息中元素总个数,
[002?
[0026] 其中dk表示发生次数最多的第k类故障名称,ρ为比率。
[0027] 本发明提供基于文本挖掘技术提取断路器故障特征信息的方法,利用文本挖掘技 术从这些断路器故障半结构化文本资料中提取特征信息,准确建立故障类型和各部件之间 的关联关系,实现断路器故障智能化分析成为供电企业信息系统需要解决的现实技术问 题。基于相似度的计算和比较,对断路器的故障类型进行聚类和标准化,并以此为依据对文 本进行分组处理;设计正向最大匹配分词算法对分组后的文本进行分词,基于词典匹配方 法标注词性,结合排除法,识别和提取各类型故障的常见表征信息;基于共现准则和统计方 法,分别建立各故障表征与断路器部件之间、以及部件与部件之间的关联关系,有利于发现 和提取导致故障发生的深层原因,为预防断路器故障提供依据。
【附图说明】
[0028] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动 性的前提下,还可以根据这些附图获得其它的附图。
[0029] 图1是本发明实施例提供的基于文本挖掘技术提取断路器故障特征信息的方法的 流程图;
[0030] 图2是本发明实施例提供的文本分词实现过程图; 图3是本发明实施例提供的矩阵D、B和P分层构建断路器故障特征信息结构图 图4是本发明实施例提供的结构图实现可视化的转化图。
【具体实施方式】
[0031] 本发明实施例提供的一种基于文本挖掘技术提取断路器故障特征信息的方法,实 现断路器故障智能化分析。
[0032] 为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实 施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中的技术 方案作进一步详细的说明。
[0033] 参考附图1,该图示出了本发明提供的基于文本挖掘技术提取断路器故障特征信 息的方法的结构流程图,其主要包括:
[0034] S101:获取断路器故障信息,采用向量空间模型表示方法将其转化为计算机可识 别的结构化信息,建立断路器故障文本。
[0035] 提取断路器故障信息表中"故障类型"列信息,采用向量空间模型表示方法将其转 化为计算机可识别的结构化信息,形成断路器故障文本,记为向量G。
[0036] S102:比较所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障 信息进行分类。
[0037]优选的,采用jaccard相似度度量算法,对向量G中断路器的故障类型进行聚类和 名称标准化,并据此对故障详细情况文本进行分组。向量G中任意两个元素 gdPgj之间的相 似度度量公式如下:
[0038]
[0039] 根据断路器故障记录表述方式的差异程度设置常数θ(〇<θ<1),根据经验设置Θ 值。记录方式的差异越大,则Θ的取值越低
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1