输变电工程word文档表格内容中工程特性指标的智能提取方法

文档序号:6539750阅读:191来源:国知局
输变电工程word文档表格内容中工程特性指标的智能提取方法
【专利摘要】本发明公开了输变电工程word文档表格内容中工程特性指标的智能提取方法,该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的表格内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行表格内容提取,提取后得到所需的输变电工程特性指标。该提取方法能够从设计文件中,自动提取所需的输变电工程特性指标信息,提高专家在设计评审中的工作效率。
【专利说明】输变电工程word文档表格内容中工程特性指标的智能提取方法
【技术领域】
[0001]本发明涉及输变电工程word文档中工程特性指标的提取方法,具体是指输变电工程word文档表格内容中工程特性指标的智能提取方法。
【背景技术】
[0002]在输变电工程评审工作中,评审专家需要反复的阅读评审报告才能从大量的文字和表格中提炼出评审指标内容,然后再综合给出评审意见。该过程中专家需要对文档内容进行反复的搜索,并记录相关指标内容,这些都需要专家手动完成,大大影响专家的工作效率和准确性。
[0003]工程特性指标信息主要存在工程设计报告中,不同的特性指标分布在不同的章节用正段文字描述说明或者采用表格方式说明。查看工程报告、模糊查找工程特性指标信息,效率低下。

【发明内容】

[0004]本发明的目的是提供输变电工程word文档表格内容中工程特性指标的智能提取方法,该提取方法能够从设计文件中,自动提取所需的输变电工程特性指标信息,提高专家在设计评审中的工作效率。
[0005]本发明的上述目的通过如下技术方案来实现的:
[0006]输变电工程word文档表格内容中工程特性指标的智能提取方法,其特征在于:该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的表格内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行表格内容提取;
[0007]所述的大纲级别提取依次包括如下步骤:
[0008]( I)初始化word文档,记录每一个表格所占用的段落数量;
[0009](2)遍历word文档中的每一个段落,解析段落属性信息,记录每一个段落数;
[0010](3)判断段落属性是否在表格中,若段落在表格中,则跳过该表格所占的段落数量,同时记录该表格在文档中出现的顺序号和所在的大纲标题,返回上述步骤(2);若段落不在表格中,则继续下述步骤(4);
[0011](4)判断段落属性,如果段落属性值不是正文文本,直接取出段落大纲级别值并记录所在的级别;如果段落属性值是正文文本,则把大纲级别设置为正文文本,返回上述步骤
(2);
[0012](5)判断大纲级别为正文文本,使用正则表达式对段落内容进行解析,解析规则如下:
[0013]a.自定义大纲段落的特征是以数字和字母开头,大纲编号之间用”进行分割,并且若大纲后为数字开始内容则他们之间必定有空格进行区分;[0014]b.过滤掉以数字开头,并非大纲的段落;
[0015]c.根据数字、字母使用正则表达式解析段落的大纲级别;
[0016]所述的表格内容提取依次包括如下步骤:
[0017](I)通过创建的指标库获取工程特性指标所在章节标题以及表格提取需要的行列标题、表达式;
[0018](2)匹配大纲级别提取的结果,获取对应大纲标题以及下面子节点大纲的表格和表格的顺号;
[0019](3)根据表格编号直接定位文档中对应的表格;
[0020](4)遍历每一个表格,根据配置的行列标题确定唯一单元表格,直接提取表格内的输变电工程特性指标,提取后得到所需的输变电工程特性指标。
[0021]与现有技术相比,本发明能够对输变电工程word文档表格内容中工程特性指标进行提取,提高专家在设计评审中的工作效率。
【专利附图】

【附图说明】
[0022]下面结合附图和【具体实施方式】对本发明作进一步详细说明。
[0023]图1为本发明智能提取方法的整体流程框图;
[0024]图2为本发明智能提取方法中大纲级别提取的流程框图;
[0025]图3为本发明智能提取方法中表格内容提取的流程框图;
[0026]图4为本发明智能提取方法中创建的指标库的示意图;
[0027]图5为本发明智能提取方法的提取结果示意图。
【具体实施方式】
[0028]如图1至图5所示,本发明输变电工程word文档表格内容中工程特性指标的智能提取方法,该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的表格内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行表格内容提取。
[0029]首先对工程特性指标信息进行定义,然后把工程设计报告进行矢量化,提取报告中大纲标题,划分报告中文字描述和表格描述,采用多种方式对工程特性信息进行提取并综合展示,方便评审专家查看工程特性指标信息,提高评审专家的评审效率。智能提取的操作流程图如图1所不:
[0030]指标库的创建
[0031]指标库是组织和存储工程特性指标单元,工程特性指标采用树形结构方式组织和存储,每个工程指标包含基础信息和提取方法信息,一个指标可以多种提取方法。指标基础特性信息主要有:指标名称、所属专业、所属工程类型、电压等级、指标单位等信息,提取方法信息:评审阶段、章节标题、是否表格提取、行标题、列标题、表达式、关键字、提取方法等。指标库是智能提取的基础数据,评审专家可以自定义工程特性指标数据。创建的指标库如图4所示。
[0032]文档预处理提取大纲级别
[0033]在word中,每一个段落都有大纲级别属性:正文文本或者是具体级别,如I级、2级、3级......,在编辑一篇word文档时,人们可以使用word自带的段落标题、项目符号等统
称“大纲级别”,word中自带的大纲级别时一个种树形结构的数据;同时,也可以直接编写段落编号,通过设置一些常用的数字和字母标识来区分不同的段落标题,这些标题称为“自定义大纲级别”,如“I标题I”或“a标题a”,自定义大纲级别是word文档本身不能识别的。因此,在对word文档的大纲级别进行提取时需要考虑word自身大纲级别和自定义大纲级别进行提取。
[0034]在提取文档大纲级别时,需要同时记录大纲级别的再文档中段落号、大纲所在级别以及表格所在大纲级别。大纲级别提取流程图如图2所示:
[0035]对word文档中大纲级别提取依次包括如下步骤:
[0036]1.初始化word文档,记录每一个表格所占用的段落数量;
[0037]2.遍历word文档中的每一个段落,解析段落属性信息,记录每一个段落数;
[0038]3.判断段落属性是否在表格中,若段落在表格中,则跳过该表格所占的段落数量,同时记录该表格在文档中出现的顺序号和所在的大纲标题,返回上述步骤2若段落不在表格中,则继续下述步骤4;
[0039]4.判断段落属性,如果段落属性值不是正文文本,直接取出段落大纲级别值并记录所在的级别;如果段落属性值是正文文本,则把大纲级别设置为正文文本,返回上述步骤2 ;
[0040]5.判断大纲级别为正文文本,使用正则表达式对段落内容进行解析,解析规则如下:
[0041]a.自定义大纲段落的特征是以数字和字母开头,大纲编号之间用”进行分割,并且若大纲后为数字开始内容则他们之间必定有空格进行区分,如“lllOkV配电装置”;
[0042]b.过滤掉以数字开头,并非大纲的段落,如“220千伏尾塘变电站主要供电范围为惠城区西南部地区”开始的段落,这种方式通过正则表达式过滤数字后面是“kV、mA、千伏、回”等特定字符;
[0043]c.根据数字、字母使用正则表达式解析段落的大纲级别。
[0044]表格内容提取
[0045]表格内容提取流程图如图3所示,表格内容提取依次包括如下步骤:
[0046]1.通过创建的指标库获取工程特性指标所在章节标题以及表格提取需要的行列标题、表达式;
[0047]2.匹配大纲级别提取的结果,获取对应大纲标题以及下面子节点大纲的表格和表格的顺号;
[0048]3.根据表格编号直接定位文档中对应的表格;
[0049]4.遍历每一个表格,根据配置的行列标题确定唯一单元表格,直接提取表格内的输变电工程特性指标,提取后得到所需的输变电工程特性指标,如图5所示。该步骤中的直接提取表格内的输变电工程特性指标也可以使用表达式来提取。
[0050]工程特性信息展示
[0051]将提取出的工程对应的技术指标进行按照工程数和表格的方式展示,供专家评审查阅,同时专家可以直接对所提取的指标值进行修改、文档定位高亮显示。
[0052]本发明的上述实施例并不是对本发明保护范围的限定,本发明的实施方式不限于此,凡此种种根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,对本发明上述结构做出的其它多种形式的修改、替换或变更,均应落在本发明的保护范围之内。
【权利要求】
1.输变电工程word文档表格内容中工程特性指标的智能提取方法,其特征在于:该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的表格内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行表格内容提取; 所述的大纲级别提取依次包括如下步骤: (1)初始化word文档,记录每一个表格所占用的段落数量; (2)遍历word文档中的每一个段落,解析段落属性信息,记录每一个段落数; (3)判断段落属性是否在表格中,若段落在表格中,则跳过该表格所占的段落数量,同时记录该表格在文档中出现的顺序号和所在的大纲标题,返回上述步骤(2);若段落不在表格中,则继续下述步骤(4); (4)判断段落属性,如果段落属性值不是正文文本,直接取出段落大纲级别值并记录所在的级别;如果段落属性值是正文文本,则把大纲级别设置为正文文本,返回上述步骤(2); (5)判断大纲级别为正文文本,使用正则表达式对段落内容进行解析,解析规则如下: a.自定义大纲段落的特征是以数字和字母开头,大纲编号之间用”进行分割,并且若大纲后为数字开始内容则他们之间必定有空格进行区分; b.过滤掉以数字开头,并非大纲的段落; c.根据数字、字母使用正则表达式解析段落的大纲级别; 所述的表格内容提取依次包括如下步骤: (1)通过创建的指标库获取工程特性指标所在章节标题以及表格提取需要的行列标题、表达式; (2)匹配大纲级别提取的结果,获取对应大纲标题以及下面子节点大纲的表格和表格的顺号; (3)根据表格编号直接定位文档中对应的表格; (4)遍历每一个表格,根据配置的行列标题确定唯一单元表格,直接提取表格内的输变电工程特性指标,提取后得到所需的输变电工程特性指标。
【文档编号】G06F17/24GK103914440SQ201410081331
【公开日】2014年7月9日 申请日期:2014年3月6日 优先权日:2014年3月6日
【发明者】吴烈鑫, 刘志明, 陈锟, 张章亮, 李国勇, 陈铭, 王彦峰, 侯凯, 陈宝珍 申请人:广东电网公司电网规划研究中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1