天然气与管道技术标准内容提取与展示系统的建立方法

文档序号:6489327阅读:218来源:国知局
天然气与管道技术标准内容提取与展示系统的建立方法
【专利摘要】本发明是一种天然气与管道技术标准内容提取与展示系统的建立方法,涉及数字数据处理装置和管道系统【技术领域】。它主要包括以下步骤:(1)使用光学字符识别(OCR)工具对天然气与管道标准文献全文进行数字化加工,使标准文献数字化;(2)建立天然气与管道标准本体库、体例库、题录数据库;(3)建立天然气与管道标准内容数据库;(4)开发天然气与管道标准内容提取与展示系统平台,用于标准内容提取、展示与对比。本发明所建立的系统能够实现从“基本字段信息”到“重要技术指标”的高效的标准信息检索。
【专利说明】天然气与管道技术标准内容提取与展示系统的建立方法
【技术领域】
[0001]本发明是一种天然气与管道技术标准内容提取与展示系统的建立方法,涉及数字数据处理装置和管道系统【技术领域】。
【背景技术】
[0002]随着信息技术与网络技术的发展,信息共享系统已经在各个行业广泛应用,大大提高了各行业工作劳动效率与便捷性,天然气与管道行业在信息化技术应用方面一直走在行业前列,随着业务、技术的进一步发展,仅仅提供文献级别的检索、浏览等功能已经不能满足用户的需求,必须进行更深一步的挖掘与服务,以满足用户需求。目前常用的标准检索方式为“基本字段信息”检索,一般仅能提供对标准名称、主题词进行检索,不能实现对技术指标的精确定位与检索、不同标准中同一技术指标的对比。概括起来,传统检索方式对技术标准的使用效果有以下几方面的局限性。
[0003](I)不能对技术标准内容进行精确检索
[0004]传统数据库检索方式是通过分类、标题、摘要及叙词等手段对标准文献进行题录数据加工,来实现对技术标准与技术法规的检索。但是技术指标一般会分散在不同技术标准与技术法规中,传统的检索方式只能通过题录数据库检索到相关标准,逐一阅读原文技术指标的内容。但是这样的方法很浪费时间,并且难以保障查全率。
[0005](2)不能同时检索到不同标准的技术指标,并实现不同标准的同一技术指标的对比。
[0006]在检索过程中,经常会出现同一产品的技术指标同时存在国际标准、国家标准、行业标准、地方标准和企业标准等不同的标准中,用户经常需要对不同标准中的相同产品的技术指标进行对比研究,这是传统检索方式所不能满足的。
[0007]标准内容提取与展示系统是标准信息检索的最新发展方向。这种新型的检索方式通过对标准技术指标的系统提取和有效组织,能够实现从“基本字段信息”到“重要技术指标”的高效的标准信息检索。对于负责油气管道工程建设的工程项目管理人员、实施人员,可以实现利用关键指标控制管道设计和施工建设;对于油气管道运行操作人员、管理人员,可以实现查询、对比操作参数、方法;对于科研人员,可以实现国内外标准关键指标差异分析、判断技术差异,分析体系内各标准间的协调性。
[0008]CN102591878A公开了一种技术标准内容提取与展示系统的建立方法,《石油规划设计》2011年第22卷第6期“天然气与管道标准信息管理系统开发方案研究”公开了一种天然气与管道标准信息管理系统的开发方案,但该系统仅能进行标准全文检索,无法实现标准内容的提取与展示,也并未公开建立天然气与管道标准本体库、体例库、题录数据库的方法,其技术并不完善。
[0009]标准内容提取与展示技术是一种新的标准检索技术,目前国外未见以此技术开发的商业数据库。在国内,只有中国标准化研究院将标准内容提取与展示技术初步应用在食品、农产品的国家标准、行业标准中,并建设了相应的提取与展示系统平台,实现对标准内容指标的提取与展示。而天然气与管道技术标准内容提取与展示系统的建立方法也不完
口 O

【发明内容】

[0010]本发明的目的是发明一种建立的系统能够实现从“基本字段信息”到“重要技术指标”的高效的标准信息检索的天然气与管道技术标准内容提取与展示系统的建立方法。
[0011]本发明如图1的技术路线所示,主要包括以下步骤:
[0012](I)使用光学字符识别(OCR)工具对天然气与管道标准文献全文进行数字化加工,使标准文献数字化;
[0013](2)建立天然气与管道标准本体库、体例库、题录数据库;
[0014](3)建立天然气与管道标准内容数据库;
[0015](4)开发天然气与管道标准内容提取与展示系统平台,用于标准内容提取、展示与对比。
[0016]具体建立步骤为:
[0017](I)按照标准文献数字化规范,对确定的天然气与管道标准进行全文数字化后,同时包括对文献内容识别与质量审校,使标准可编辑,满足提取与展示需求;
[0018](2)建立天然气与管道标准本体库、天然气与管道标准题录数据库、天然气与管道标准体例库,这三个数据库的建立为并列过程,互不干扰;
[0019]①建立天然气与管道标准本体库:对天然气与管道标准主题概念进行分析归纳,针对主体类别的概念内涵,根据对专业知识的查询结果和标准文献中枚举的标准化对象之间的从属关系进行本体概念分析,明确标准中发生的概念体系及其层次关系,建立天然气与管道标准本体库;
[0020]②建立天然气与管道体例库:对天然气与管道标准文献进行分类,归纳标准的结构化信息;按照相同结构的标准文献开展标准文献体例分析,抽象出其中的核心概念及其特征描述术语,建立体例库;
[0021]③天然气与管道标准题录数据库:针对天然气与管道技术标准进行标准技术指标分析归纳、对技术指标体系进行术语学与概念关系研究,进行技术指标概念的规范化及体系构建与标引,进行标准文献技术指标标引,进行体例元素的分类与标示,建立标准技术指标数据库,建立量与单位等辅助数据库;以标准文本中的中文标准名称、英文标准名称、标准号、标准类型、【技术领域】技术方向、采用关系、代替关系、被代替关系、引用文献、标准状态、立项日期、发布日期、实施日期、确认日期、重要程度分级、归口单位、起草单位、摘要、中文主题词、英文主题词、译文、备注、正文等信息为基础,建立标准题录数据库;
[0022](3)建立天然气与管道标准内容数据库
[0023]原有的标准体系表同步骤(2 )所建立本体库、题录数据库、体例库三个数据库,形成天然气与管道标准内容数据库;
[0024](4)开发天然气与管道标准内容提取与展示系统平台,该系统除一般检索系统功能外,如基本检索功能、管理功能、在线反馈功能、帮助功能等功能,而且还应具有标准内容指标检索功能、标准指标加工功能。
[0025]所述天然气与管道标准本体库构建流程如图2所示,为:[0026](I)确定本体的领域与范围;
[0027](2)领域信息的收集和分析;
[0028](3)概念的确定;概念的确定中,要补充同义词;
[0029](4)建立本体框架;
[0030](5)本体自定义集成,包括现有本体的引用,以及新本体的集成;
[0031](6)确定概念逻辑关系;确定概念逻辑关系时,要结合现有本体;
[0032]( 7 )建立完整的本体表;
[0033](8)确认与评价;
[0034](9)进化;进化后参与(3)概念的确定和(6)确定概念逻辑关系;
[0035]( 10)完成本体建立。
[0036]所述天然气与管道标准本体库构建流程具体为:
[0037](I)确定本体库的领域与范围:要明确构建的本体库将覆盖的专业领域、本体的目的、作用以及应用对象;
[0038](2)领域信息的收集和分析:通过收集石油天然气管道领域信息充分了解该领域知识;信息来源包括专家、书籍、标准、网络以及其它的本体;
[0039](3)概念的确定:在充分了解天然气与管道领域知识之后,确定该领域中概念和概念之间的关系,用精确的术语表达出来,经领域专家的确认,作为领域本体的核心概念集。基本应该满足的要求有:
[0040]①确定的概念及关系一定是领域相关的;领域的边界往往是模糊的,需根据实际需求确定边界包含的概念;
[0041]②采用的术语要精确,含义应具有唯一性;
[0042]③对每个术语有相应的自然语言描述和同义词补充;
[0043](4)建立本体库框架;对于步骤(3)中整理的领域中大量的概念,要按照一定的逻辑规则把它们进行分组,形成不同的小专业领域,在同一小工作领域的概念,其相关性应该比较强;另外,对其中的每一个概念的重要性要进行评估,选出关键性术语,摒弃那些不必要或者超出领域范围的概念,尽可能准确而精简的表达出领域的知识;
[0044](5)本体库自定义集成;在创建本体库可以自定义,也可以是领域中现存的本体库的重用;重用本体库时,需要注意查看元本体库,选择和自己概念模型中的语义和实现一致的术语定义;其中涉及的关键技术是本体的映射;针对每个集成的本体库,应确定其元本体库、术语集、形式化的本体库描述、以及集成在自己本体库中的位置等属性;
[0045](6)确定概念逻辑关系;主要以专业知识的与科学分类为基础,根据分类学中的主题法和分类法,确定概念的逻辑关系;
[0046](7)建立完整的本体库;将天然气与管道标准本体库与标准文献有效检索点结合,从而形成一个领域知识的框架体系,得到领域本体库的框架结构;
[0047]建立天然气与管道本体库时,本体划分应遵循以下基本规则:a)各子项的外延之和应等于母项的外延;b)划分的各子项,其外延宜相互排斥;c)每次划分应按同一原则进行;d)划分应按层次逐级、由高到低、由简到繁进行,宜结合天然气与管道主营业务粗细结合;e)应持续更新补充;
[0048]类目的划分与设置应突出主营业务,将内容相关性较大的类目,应尽量临近设置;对于一些无专属的类,且具有普遍指导意义的综合性基础标准可根据内容分别单独设置类;上一层次类目的技术要求下层类目都要满足;
[0049](8)确认与评价:本体库应具有正确性、一致性、可扩展性和有效性;
[0050](9)进化:在使用过程中需要对本体库不断更新,本体库进化的方式可以是集成新的本体库或定义新的概念和关系;
[0051](10)完成本体库建立。
[0052]所述天然气与管道标准体例库建立步骤如图3所示,为:
[0053]( I)标准专业分类;
[0054](2)分析每类标准体例特征,并参与进化;
[0055](3)提炼体例元素;提炼体例元素时,补充同义词;
[0056](4)建立体例结构表;同时补充同义词;
[0057](5)进化,进化后重新参与分析每类标准体例特征分析;
[0058]( 6 )体例库建立完成。
[0059]所述天然气与管道标准体例库建立具体方法为:
[0060]( I)对现有天然气与管道标准按照专业主题范畴分布进行标准专业分类;
[0061](2)分析每类标准体例特征:分析同一主题范畴标准的体例特征,根据专业特点以及体例的结构相似度大小判断是否需要将同一主题范畴的标准继续细分为不同类;
[0062](3)提炼体例元素:分析同一类中所有标准的体例特征,提炼出每项标准的体例元素,归并此类中不同标准的相似体例元素,每个体例元素的名称要具有概括性和通用性;
[0063](4)建立体例结构表:对于有同义词的体例元素,应补充每一项体例元素据的同义词,增加用户的检索入口 ;对于没有同义词的,可直接建立体例结构表;
[0064]体例建立的原则为:每一类标准的一级体例元素要涵盖此类标准的所有内容,要保证标准知识的完整性;二级、三级以及其他级体例元素要具有共同性,即对于含有相同一级体例元素的标准,应该均能提炼出此一级体例元素下的二级、三级以及其他级体例元素;
[0065](6)进化:对不嫩满足要求的体力元素重新进行体例特征分析、提炼体例元素、补充同义词、建立体例结构表;
[0066](7)完成体例库的建立。
[0067]所述天然气与管道内容题录数据库建立包含以下步骤:
[0068]( I)确定标准文献主题;
[0069]( 2 )判别标准文献归属的体例;
[0070]( 3)标准体例结构分析;
[0071](4)划分标准内容为独立条目;
[0072](5)条目数据的分析和加工;
[0073]( 6 )初步完成数据库建立;
[0074](7)条目格式与内容校对修改;
[0075]( 8 )完成题录数据库建立。
[0076]所述天然气与管道内容题录数据库建立具体过程如图4所示,为:
[0077](I)确定标准文献主题:有单主体和多主题之分;若是多主题标准,可以拆分成多个单主题处理;
[0078](2)判别标准文献归属体例;
[0079](3)标准体例结构分析,使该体例下的所有标准均可以和该体例完全匹配;
[0080](4)划分标准条目:将标准内容划分成多个独立条目,使得每一个条目成为一个检孛占.[0081](5)条目数据的加工:对于标准中的每一个条目均要进行主体对象、技术指标、提取与展示类、计量单位、内容注释与引用的细致分析;
[0082]主题对象:提炼条目的主题对象为一级指标;当条目无主题对象时,则以整个标准的主题对象作为一级指标;并对主题对象的同义词以及注释进行补充;
[0083]技术指标:将条目中所描述的主题对象属性,作为二级指标;并对技术指标的同义词以及注释进行补充;
[0084]提取与展示类:当条目中技术指标是按照特定类别进行细分而形成的细化类别,将细化的类别填入提取与展示指标类项目中;
[0085]计量单位:对于数据库不能识别的单位,用语言进行描述;
[0086]内容注释:
[0087]引用条目:
[0088](6)条目格式的校准:完成条目加工的标准,进行格式、内容的校对;
[0089](7)完成题录数据库的建立。
[0090]通过以上步骤,即可完成天然气管道标准提取与展示数据加工录入。
[0091]本发明的有益效果:
[0092]标准内容提取与展示技术主要克服了传统检索方式的缺点,实现了以下三种功倉泛:
[0093](I)能够实现对标准内容中技术指标的精确定位与检索;
[0094]在检索结果中直接显示所要的标准检索内容,而不需要用户对文献通篇阅读,查找需要信息,从而提高了检索效率;
[0095](2)技术指标相关的标准体检索;
[0096]在检索标准时,可以通过上位登录,在检索到特定标准技术指标时,也可以检索到其他相关标准;
[0097](3)不同标准中同一技术指标的对比。
[0098]在检索中,通过对“范畴”等的选择,可以实现同一技术指标在不同标准的差异对比,从而了解不同标准对同一技术指标的规定。
[0099]本发明建立的系统能够实现从“基本字段信息”到“重要技术指标”的高效的标准
信息检索。
【专利附图】

【附图说明】
[0100]图1天然气与管道标准内容提取与展示系统建立流程图
[0101]图2本体库构建流程图
[0102]图3体例库构建流程图
[0103]图4天然气与管道标准题录数据库构建流程图【具体实施方式】
[0104]实施例.以本例来说明本发明的【具体实施方式】并对本发明作进一步的说明。本例是一实验样机,其构成如图所示。
[0105]本例主要包括以下步骤:
[0106]使用OCR工具对天然气与管道标准文献全文进行数字化加工,使标准文献可编辑,满足提取与展示需求;
[0107]建立油气管道标准本体库;
[0108]进行标准结构分析,建立油气管道数据体例库;
[0109]建立天然气与管道标准题录数据库;
[0110]开发天然气与管道标准提取与展示软件系统平台;
[0111]完成标准内容提取与展示系统开发。
[0112]本例的体系表如下表:
[0113]表1本体表 样例
[0114]
[0115]
【权利要求】
1.一种天然气与管道技术标准内容提取与展示系统的建立方法,其特征是它主要包括以下步骤: (1)使用光学字符识别(OCR)工具对天然气与管道标准文献全文进行数字化加工,使标准文献数字化; (2)建立天然气与管道标准本体库、体例库、题录数据库; (3)建立天然气与管道标准内容数据库; (4)开发天然气与管道标准内容提取与展示系统平台,用于标准内容提取、展示与对比。
2.根据权利要求1所述的天然气与管道技术标准内容提取与展示系统的建立方法,其特征是具体建立步骤为: (1)按照标准文献数字化规范,对确定的天然气与管道标准进行全文数字化后,同时包括对文献内容识别与质量审校,使标准可编辑,满足提取与展示需求; (2)建立天然气与管道标准本体库、天然气与管道标准题录数据库、天然气与管道标准体例库,这三个数据库的建立为并列过程,互不干扰; ①建立天然气与管道标准本体库:对天然气与管道标准主题概念进行分析归纳,针对主体类别的概念内涵,根据对专业知识的查询结果和标准文献中枚举的标准化对象之间的从属关系进行本体概念分析,明确标准中发生的概念体系及其层次关系,建立天然气与管道标准本体库; ②建立天然气与管道体例库:对天然气与管道标准文献进行分类,归纳标准的结构化信息;按照相同结构的标准文献开展标准文献体例分析,抽象出其中的核心概念及其特征描述术语,建立体例库; ③天然气与管道标准题录数据库:针对天然气与管道技术标准进行标准技术指标分析归纳、对技术指标体系进行术语学与概念关系研究,进行技术指标概念的规范化及体系构建与标引,进行标准文献技术指标标弓I,进行体例元素的分类与标示,建立标准技术指标数据库,建立量与单位等辅助数据库;以标准文本中的中文标准名称、英文标准名称、标准号、标准类型、【技术领域】技术方向、采用关系、代替关系、被代替关系、引用文献、标准状态、立项日期、发布日期、实施日期、确认日期、重要程度分级、归口单位、起草单位、摘要、中文主题词、英文主题词、译文、备注、正文等信息为基础,建立标准题录数据库; (3)建立天然气与管道标准内容数据库 原有的标准体系表同步骤(2)所建立本体库、题录数据库、体例库三个数据库,形成天然气与管道标准内容数据库; (4)开发天然气与管道标准内容提取与展示系统平台,该系统除一般检索系统功能外,如基本检索功能、管理功能、在线反馈功能、帮助功能等功能,而且还应具有标准内容指标检索功能、标准指标加工功能。
【文档编号】G06F17/30GK103699540SQ201210366594
【公开日】2014年4月2日 申请日期:2012年9月28日 优先权日:2012年9月28日
【发明者】刘冰, 张欣, 姚学军, 税碧垣, 刘艳双, 郑娟, 李云杰 申请人:中国石油天然气股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1