一种电网设备标准指标数据的挖掘提取方法

文档序号:9788064阅读:334来源:国知局
一种电网设备标准指标数据的挖掘提取方法
【技术领域】
[0001]本发明涉及电力数据的挖掘技术,更具体地说,涉及一种电网设备标准指标数据的挖掘提取方法。
【背景技术】
[0002]随着知识经济时代的到来,信息和知识已经成为人类社会取得可持续发展的重要基础。在这一背景下,网络信息技术的迅猛发展改变了人们使用信息的习惯,传统基于文献服务方式的信息获取已经不能满足用户的需求,用户需要更加精准的信息服务,针对不同的业务应用如何实现细粒度的内容提取和知识标引是提供细粒度精准服务的关键。无论是专业内容服务商还是搜索引擎都纷纷对原始内容进行深度标引的内容提取,进而提供面向问题的知识服务,这是整个信息服务领域的发展方向。
[0003]信息服务和知识服务方式的改变对标准化工作及标准服务的形式、方式都产生了巨大影响,标准服务的模式也内传统的文献服务转向碎片化的知识服务,同时基于深度标引的标准内容揭示和深度利用已经成为企业标准化工作的重点,无论是标准化工作人员、工程技术人员还是企业管理人员都迫切需要一种面向未来的全新标准服务模式和内容深度利用模式。对于电网公司各种大型电力设备除了各厂商自己的企业标准以外还有国家标准及行业标准对设备的各项功能和性能指标进行规范,充分利用这些标准及指标对于电网设备的维护、检修具有十分重要的意义。

【发明内容】

[0004]本发明的目的在于:提供一种电网设备标准指标数据的挖掘提取方法,对设备的各项功能和性能指标进行规范,以及利用这些标准及指标对于电网设备的维护、检修。
[0005]为了实现上述目的,本发明提供了一种电网设备标准指标数据的挖掘提取方法,它包括如下步骤:(I)根据电网设备标准体例结构对电网设备标准进行碎片化加工标引;
(2)对碎片化加工标引得到的电网设备标准进行数据挖掘,并分析出指标体系;(3)根据指标体系抽取指标值;(4)对同种设备不同标准之间的指标体系和指标值进行比对分析。
[0006]作为本发明的一种改进,在步骤(I)中,所述碎片化加工包括标准章节拆分、术语识别和图表拆分。
[0007]作为本发明的一种改进,步骤(I)还包括:将碎片化加工后的电网设备标准保存为XML文件。
[0008]作为本发明的一种改进,在步骤(I)中还包括:在保存为XML文件之前进行人工审核确认。
[0009]作为本发明的一种改进,步骤(2)包括:根据电网设备体系和业务应用关键词表对碎片化的XML内容进行挖掘分析,发现设备指标并建立初步的指标框架体系,再通过对企标、行标、国标的挖掘结果进行横向对比,从中找到所有可能的指标列表,并在基础上建立多层级的设备指标体系。
[0010]作为本发明的一种改进,步骤(3)包括:对具体的标准内容进行挖掘分析,通过模式匹配、句法分析识别具体指标内容单元,然后提取指标属性值,并用XML进行表示和存储,形成指标知识单元。
[0011]作为本发明的一种改进,步骤(4)包括:对同种设备不同标准的指标体系框架进行对比分析,通过主题关联、相似分析以及模式匹配,将不同标准之间的指标体系进行映射和关联,并就具体的指标值和属性值进行比对,分析其差异性,为设备的运维提供保障。
[0012]与现有技术相比,本发明实现了电网设备标准指标的自动提取和比对,能够结合设备关键词及碎片化以后的标准体例结构自动挖掘和发现指标并提取指标属性性,在提尚正确率的同时提高了自动化程度,从而提高效率,可以在业务应用中实时动态提取。
【附图说明】
[0013]下面结合附图和【具体实施方式】,对本发明的结构及其有益技术效果进行详细说明。
[0014]图1为本发明电网设备标准指标数据的挖掘提取方法的流程框图。
[0015]图2为本发明的电网设备标准碎片化加工标引流程图。
[0016]图3为本发明的指标体系挖掘及指标提取流程图。
[0017]图4为本发明的电网设备标准指标提取示例示意图。
【具体实施方式】
[0018]为了使本发明的发明目的、技术方案及其有益技术效果更加清晰,以下结合附图和【具体实施方式】,对本发明进行进一步详细说明。应当理解的是,本说明书中描述的【具体实施方式】仅仅是为了解释本发明,并非为了限定本发明。
[0019]请参阅图1,本发明电网设备标准指标数据的挖掘提取方法包括如下步骤:(I)根据电网设备标准体例结构对电网设备标准进行碎片化加工标引,对于本系统碎片化主要是指对电网设备标准根据其体例结构和目录层次进行拆分,形成一个个的内容单元,并对标准正文中出现的图片、表格等内容单元进行单独提取和保存;(2)对碎片化加工标引得到的电网设备标准进行数据挖掘,并分析出指标体系;(3)根据指标体系抽取指标值;(4)对同种设备不同标准之间的指标体系和指标值进行比对分析。
[0020]请参阅图2,在步骤(I)中,根据电网设备标准体例结构结合标准的章节目录进行碎片化拆分,然后保存成xml格式,本发明在碎片化加工过程中实现了自动拆分功能,系统通过版面分析技术结合标准本身的目录结构自动拆分,再通过加工人员的少量修正达到理想的拆分标引效果。
[0021]请参阅图3,在步骤(2)中,本发明是在对标准内容按结构进行碎片化的基础上进行,因此本发明首先根据电网设备体系和业务应用关键词表对碎片化的XML内容进行挖掘分析,从中发现设备指标,建立初步的指标框架体系,再通过对企标、行标、国标的挖掘结果进行横向对比,从中找到所有可能的指标列表,并在基础上建立多层级的设备指标体系;在步骤(3)中,建立设备指标体系框架以后,对具体的标准内容进行挖掘分析,通过模式匹配、句法分析等技术手段识别具体指标内容单元,然后提取指标属性值,并用XML进行表示和存储,形成指标知识单元;对同种设备不同标准的指标体系框架进行对比分析,通过主题关联、相似分析以及模式匹配,将不同标准之间的指标体系进行映射和关联,并就具体的指标值和属性值进行比对,分析其差异性,为设备的运维提供保障。
[0022]请参阅图4,本发明电网设备标准指标数据的挖掘提取方法实施过程中对电网设备标准的版面识别、划分等过程进行的标注。
[0023]根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行适当的变更和修改。因此,本发明并不局限于上面揭示和描述的【具体实施方式】,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
【主权项】
1.一种电网设备标准指标数据的挖掘提取方法,其特征在于,它包括如下步骤: (1)根据电网设备标准体例结构对电网设备标准进行碎片化加工标引; (2)对碎片化加工标弓I得到的电网设备标准进行数据挖掘,并分析出指标体系; (3)根据指标体系抽取指标值; (4)对同种设备不同标准之间的指标体系和指标值进行比对分析。2.根据权利要求1所述的电网设备标准指标数据的挖掘提取方法,其特征在于,在步骤(I)中,所述碎片化加工包括标准章节拆分、术语识别和图表拆分。3.根据权利要求1所述的电网设备标准指标数据的挖掘提取方法,其特征在于,步骤(I)还包括:将碎片化加工后的电网设备标准保存为XML文件。4.根据权利要求3所述的电网设备标准指标数据的挖掘提取方法,其特征在于,在步骤(1)中还包括:在保存为XML文件之前进行人工审核确认。5.根据权利要求3所述的电网设备标准指标数据的挖掘提取方法,其特征在于,步骤(2)包括:根据电网设备体系和业务应用关键词表对碎片化的XML内容进行挖掘分析,发现设备指标并建立初步的指标框架体系,再通过对企标、行标、国标的挖掘结果进行横向对比,从中找到所有可能的指标列表,并在基础上建立多层级的设备指标体系。6.根据权利要求5所述的电网设备标准指标数据的挖掘提取方法,其特征在于,步骤(3)包括:对具体的标准内容进行挖掘分析,通过模式匹配、句法分析识别具体指标内容单元,然后提取指标属性值,并用XML进行表示和存储,形成指标知识单元。7.根据权利要求5所述的电网设备标准指标数据的挖掘提取方法,其特征在于,步骤(4)包括:对同种设备不同标准的指标体系框架进行对比分析,通过主题关联、相似分析以及模式匹配,将不同标准之间的指标体系进行映射和关联,并就具体的指标值和属性值进行比对,分析其差异性,为设备的运维提供保障。
【专利摘要】本发明公开了一种电网设备标准指标数据的挖掘提取方法,它包括如下步骤:(1)根据电网设备标准体例结构对电网设备标准进行碎片化加工标引;(2)对碎片化加工标引得到的电网设备标准进行数据挖掘,并分析出指标体系;(3)根据指标体系抽取指标值;(4)对同种设备不同标准之间的指标体系和指标值进行比对分析。本发明实现了电网设备标准指标的自动提取和比对,能够结合设备关键词及碎片化以后的标准体例结构自动挖掘和发现指标并提取指标属性性,在提高正确率的同时提高了自动化程度,从而提高效率,可以在业务应用中实时动态提取。
【IPC分类】G06Q50/06
【公开号】CN105550940
【申请号】CN201510834351
【发明人】周育忠, 王宏, 王昕 , 王庆红, 谢松瑜, 利国鹏
【申请人】中国南方电网有限责任公司电网技术研究中心, 南方电网科学研究院有限责任公司, 同方知网(北京)技术有限公司
【公开日】2016年5月4日
【申请日】2015年11月25日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1