天然气与管道技术标准本体库构建方法

文档序号:6489332阅读:198来源:国知局
天然气与管道技术标准本体库构建方法
【专利摘要】本发明是一种天然气与管道技术标准本体库构建方法,涉及数字数据处理装置和管道系统【技术领域】。其流程为:(1)确定本体的领域与范围;(2)领域信息的收集和分析;(3)概念的确定;概念的确定中,要补充同义词;(4)建立本体框架;(5)本体自定义集成,包括现有本体的引用,以及新本体的集成;(6)确定概念逻辑关系;确定概念逻辑关系时,要结合现有本体;(7)建立完整的本体表;(8)确认与评价;(9)进化;进化后参与(3)概念的确定和(6)确定概念逻辑关系;(10)完成本体建立。本发明所建立的本体库能够实现从“基本字段信息”到“重要技术指标”的高效的标准信息检索。
【专利说明】天然气与管道技术标准本体库构建方法
【技术领域】
[0001]本发明是一种天然气与管道技术标准本体库构建方法,涉及数字数据处理装置和管道系统【技术领域】。
【背景技术】
[0002]随着信息技术与网络技术的发展,信息共享系统已经在各个行业广泛应用,大大提高了各行业工作劳动效率与便捷性,天然气与管道行业在信息化技术应用方面一直走在行业前列,随着业务、技术的进一步发展,仅仅提供文献级别的检索、浏览等功能已经不能满足用户的需求,必须进行更深一步的挖掘与服务,以满足用户需求。目前常用的标准检索方式为“基本字段信息”检索,一般仅能通过对标准名称、主题词进行检索进而实现全文检索,不能实现对技术指标的精确定位与检索、不同标准中同一技术指标的对比。概括起来,传统检索方式对技术标准的使用效果有以下几方面的局限性。
[0003](I)不能对技术标准内容进行精确检索
[0004]传统数据库检索方式是通过分类、标题、摘要及叙词等手段对标准文献进行题录数据加工,来实现对技术标准与技术法规的检索。但是技术指标一般会分散在不同技术标准与技术法规中,传统的检索方式只能通过题录数据库检索到相关标准,逐一阅读原文技术指标的内容。但是这样的方法很浪费时间,并且难以保障查全率。
[0005](2)不能同时检索到不同标准的技术指标,并实现不同标准的同一技术指标的对比。
[0006]在检索过程中,经常会出现同一产品的技术指标同时存在国际标准、国家标准、行业标准、地方标准和企业标准等不同的标准中,用户经常需要对不同标准中的相同产品的技术指标进行对比研究,这是传统检索方式所不能满足的。
[0007]标准内容提取与展示系统是标准信息检索的最新发展方向。这种新型的检索方式通过对标准技术指标的系统提取和有效组织,能够实现从“基本字段信息”到“重要技术指标”的高效的标准信息检索。对于负责油气管道工程建设的工程项目管理人员、实施人员,可以实现利用关键指标控制管道设计和施工建设;对于油气管道运行操作人员、管理人员,可以实现查询、对比操作参数、方法;对于科研人员,可以实现国内外标准关键指标差异分析、判断技术差异,分析体系内各标准间的协调性。
[0008]CN102591878A公开了一种技术标准内容提取与展示系统的建立方法,《石油规划设计》2011年第22卷第6期“天然气与管道标准信息管理系统开发方案研究”公开了一种天然气与管道标准信息管理系统的开发方案,但该系统仅能进行标准全文检索,无法实现标准内容的提取与展示,也并未公开建立天然气与管道标准本体库的构建方法,其技术并不完善。
[0009]标准内容提取与展示技术是一种新的标准检索技术,目前国外未见以此技术开发的商业数据库。在国内,只有中国标准化研究院将标准内容提取与展示技术初步应用在食品、农产品的国家标准、行业标准中,并建设了相应的提取与展示系统平台,实现对标准内容指标的提取与展示。目前国内外未见到天然气与管道技术标准内容提取与展示系统的建立方法。
[0010]油气管道标准本体库就是标准化对象,能够涵盖天然气与管道标准中出现的所有有效检索对象,并可通过本体库界定不同本体对象的位置以及他们之间的所属关系,可以对标准内容指标的检索起到支撑作用。
[0011]要实现天然气与管道标准技术内容提取与展示就必须对技术标准中的标准对象进行归纳并明确各对象间的关系,进而形成统一的检索规则以及能够实现精确定位的有效检索点集合。此外随着天然气与管道技术标准对业务的支撑作用越来越强以及标准是适用范围越来越广,建立统一、规范、完整的标准化对象即本体库的成为用户的迫切需求,并且将在天然气与管道领域信息共享和集成过程中起到重要的作用。然而目前尚没有现成的本体库可用,且经检索也没有提取标准对象从而建立本体库的有效的方法。
[0012]因此对天然气与管道标准进行分解和核心标准对象的提取进而构建本体库是实现标准内容提取与展示的基础。

【发明内容】

[0013]本发明的目的是发明一种实现从“基本字段信息”到“重要技术指标”的高效的标准信息检索、简单易懂可行、能有效的分解、提取天然气与管道标准对象、构建统一、完整的天然气与管道技术标准本体库构建方法。
[0014]本发明是天然气与管道技术标准内容提取与展示系统中本体库的构建方法,天然气与管道技术标准内容提取与展示系统的建立方法如图1所示,主要包括以下步骤:
[0015](I)使用光学字符识别(OCR)工具对天然气与管道标准文献全文进行数字化加工,使标准文献数字化;
[0016](2)建立天然气与管道标准本体库、体例库、题录数据库;
[0017](3)建立天然气与管道标准内容数据库;
[0018](4)开发天然气与管道标准内容提取与展示系统平台,用于标准内容提取、展示与对比。
[0019]具体建立步骤为:
[0020](I)按照标准文献数字化规范,对确定的天然气与管道标准进行全文数字化后,同时包括对文献内容识别与质量审校,使标准可编辑,满足提取与展示需求;
[0021](2)建立天然气与管道标准本体库、天然气与管道标准题录数据库、天然气与管道标准体例库,这三个数据库的建立为并列过程,互不干扰;
[0022]①建立天然气与管道标准本体库:对天然气与管道标准主题概念进行分析归纳,针对主体类别的概念内涵,根据对专业知识的查询结果和标准文献中枚举的标准化对象之间的从属关系进行本体概念分析,明确标准中发生的概念体系及其层次关系,建立天然气与管道标准本体库;
[0023]②建立天然气与管道体例库:对天然气与管道标准文献进行分类,归纳标准的结构化信息;按照相同结构的标准文献开展标准文献体例分析,抽象出其中的核心概念及其特征描述术语,建立体例库;
[0024]③天然气与管道标准题录数据库:针对天然气与管道技术标准进行标准技术指标分析归纳、对技术指标体系进行术语学与概念关系研究,进行技术指标概念的规范化及体系构建与标引,进行标准文献技术指标标引,进行体例元素的分类与标示,建立标准技术指标数据库,建立量与单位等辅助数据库;以标准文本中的中文标准名称、英文标准名称、标准号、标准类型、【技术领域】技术方向、采用关系、代替关系、被代替关系、引用文献、标准状态、立项日期、发布日期、实施日期、确认日期、重要程度分级、归口单位、起草单位、摘要、中文主题词、英文主题词、译文、备注、正文等信息为基础,建立标准题录数据库;
[0025](3)建立天然气与管道标准内容数据库
[0026]原有的标准体系表同步骤(2 )所建立本体库、题录数据库、体例库三个数据库,形成天然气与管道标准内容数据库;
[0027](4)开发天然气与管道标准内容提取与展示系统平台,该系统除一般检索系统功能外,如基本检索功能、管理功能、在线反馈功能、帮助功能等功能,而且还应具有标准内容指标检索功能、标准指标加工功能。
[0028]所述天然气与管道标准本体库构建流程如图2所示,为:
[0029](I)确定本体的领域与范围;
[0030](2)领域信息的收集和分析;
[0031](3)概念的确定;概念的确定中,要补充同义词;
[0032](4)建立本体框架;
[0033](5)本体自定义集成,包括现有本体的引用,以及新本体的集成;
[0034](6)确定概念逻辑关系;确定概念逻辑关系时,要结合现有本体;
[0035]( 7 )建立完整的本体表;
[0036](8)确认与评价;
[0037](9)进化;进化后参与(3)概念的确定和(6)确定概念逻辑关系;
[0038]( 10)完成本体建立。
[0039]所述天然气与管道标准本体库构建流程具体为:
[0040](I)确定本体库的领域与范围:要明确构建的本体库将覆盖的专业领域、本体的目的、作用以及应用对象;
[0041](2)领域信息的收集和分析:通过收集石油天然气管道领域信息充分了解该领域知识;信息来源包括专家、书籍、标准、网络以及其它的本体;
[0042](3)概念的确定:在充分了解天然气与管道领域知识之后,确定该领域中概念和概念之间的关系,用精确的术语表达出来,经领域专家的确认,作为领域本体的核心概念集。基本应该满足的要求有:
[0043]①确定的概念及关系一定是领域相关的;领域的边界往往是模糊的,需根据实际需求确定边界包含的概念;
[0044]②采用的术语要精确,含义应具有唯一性;
[0045]③对每个术语有相应的自然语言描述和同义词补充;
[0046](4)建立本体库框架;对于步骤(3)中整理的领域中大量的概念,要按照一定的逻辑规则把它们进行分组,形成不同的小专业领域,在同一小工作领域的概念,其相关性应该比较强;另外,对其中的每一个概念的重要性要进行评估,选出关键性术语,摒弃那些不必要或者超出领域范围的概念,尽可能准确而精简的表达出领域的知识;[0047](5)本体库自定义集成;在创建本体库可以自定义,也可以是领域中现存的本体库的重用;重用本体库时,需要注意查看元本体库,选择和自己概念模型中的语义和实现一致的术语定义;其中涉及的关键技术是本体的映射;针对每个集成的本体库,应确定其元本体库、术语集、形式化的本体库描述、以及集成在自己本体库中的位置等属性;
[0048](6)确定概念逻辑关系;主要以专业知识的与科学分类为基础,根据分类学中的主题法和分类法,确定概念的逻辑关系;
[0049](7)建立完整的本体库;将天然气与管道标准本体库与标准文献有效检索点结合,从而形成一个领域知识的框架体系,得到领域本体库的框架结构;
[0050]建立天然气与管道本体库时,本体划分应遵循以下基本规则:a)各子项的外延之和应等于母项的外延;b)划分的各子项,其外延宜相互排斥;c)每次划分应按同一原则进行;d)划分应按层次逐级、由高到低、由简到繁进行,宜结合天然气与管道主营业务粗细结合;e)应持续更新补充;
[0051]类目的划分与设置应突出主营业务,将内容相关性较大的类目,应尽量临近设置;对于一些无专属的类,且具有普遍指导意义的综合性基础标准可根据内容分别单独设置类;上一层次类目的技术要求下层类目都要满足;
[0052](8)确认与评价:本体库应具有正确性、一致性、可扩展性和有效性;
[0053](9)进化:在使用过程中需要对本体库不断更新,本体库进化的方式可以是集成新的本体库或定义新的概念和关系;
[0054]( 10)完成本体库建立。
[0055]本发明的有益效果:
[0056]本发明为天然气与管道标准本体库的构建方法取得了以下有益效果:
[0057](I)本发明简单易懂可行,可以有效的分解、提取天然气与管道标准对象,构建统一、完整的本体库;
[0058](2)本发明构建的本体库应用于天然气与管道标准内容提取与展示系统可以作为有效检索点的集合实现技术标准内容的精确定位和检索,实现从“基本字段信息”到“重要技术指标”的高效的标准信息检索;
[0059](3)本发明提取的本体精确、唯一、科学,可作为术语数据库一部分,对天然气与管道领域的信息共享与交流有重要作用。
【专利附图】

【附图说明】
[0060]图1天然气与管道标准内容提取与展示系统建立流程图
[0061]图2本体库构建流程图
【具体实施方式】
[0062]实施例.本例是一实验方法,其流程如图2所不。
[0063]本例主要包括以下步骤:
[0064](I)确定本体的领域与范围;
[0065](2)领域信息的收集和分析;
[0066](3)概念的确定;概念的确定中,要补充同义词;[0067](4)建立本体框架;
[0068](5)本体自定义集成,包括现有本体的引用,以及新本体的集成;
[0069](6)确定概念逻辑关系;确定概念逻辑关系时,要结合现有本体;
[0070]( 7 )建立完整的本体表;
[0071](8)确认与评价;
[0072](9)进化;进化后参与(3)概念的确定和(6)确定概念逻辑关系;
[0073](10)完成本体建立。
[0074]本例的体系表如下表:
[0075]表1本体表样例
[0076]
【权利要求】
1.一种天然气与管道技术标准本体库构建方法,其特征是流程为: (1)确定本体的领域与范围; (2)领域信息的收集和分析; (3)概念的确定;概念的确定中,要补充同义词; (4)建立本体框架; (5)本体自定义集成,包括现有本体的引用,以及新本体的集成; (6)确定概念逻辑关系;确定概念逻辑关系时,要结合现有本体; (7)建立完整的本体表; (8)确认与评价; (9)进化;进化后参与(3)概念的确定和(6)确定概念逻辑关系; (10)完成本体建立。
2.根据权利要求1所述的天然气与管道技术标准本体库构建方法,其特征是构建流程具体为: (1)确定本体库的领域与范围:要明确构建的本体库将覆盖的专业领域、本体的目的、作用以及应用对象; (2)领域信息的收集和分析:通过收集石油天然气管道领域信息充分了解该领域知识;信息来源包括专家、书籍、标准、网络以及其它的本体; (3)概念的确定:在充分了解天然气与管道领域知识之后,确定该领域中概念和概念之间的关系,用精确的术语表达出来,经领域专家的确认,作为领域本体的核心概念集。基本应该满足的要求有: ①确定的概念及关系一定是领域相关的;领域的边界往往是模糊的,需根据实际需求确定边界包含的概念; ②采用的术语要精确,含义应具有唯一性; ③对每个术语有相应的自然语言描述和同义词补充; (4)建立本体库框架;对于步骤(3)中整理的领域中大量的概念,要按照一定的逻辑规则把它们进行分组,形成不同的小专业领域,在同一小工作领域的概念,其相关性应该比较强;另外,对其中的每一个概念的重要性要进行评估,选出关键性术语,摒弃那些不必要或者超出领域范围的概念,尽可能准确而精简的表达出领域的知识; (5)本体库自定义集成;在创建本体库可以自定义,也可以是领域中现存的本体库的重用;重用本体库时,需要注意查看元本体库,选择和自己概念模型中的语义和实现一致的术语定义;其中涉及的关键技术是本体的映射;针对每个集成的本体库,应确定其元本体库、术语集、形式化的本体库描述、以及集成在自己本体库中的位置等属性; (6)确定概念逻辑关系;主要以专业知识的与科学分类为基础,根据分类学中的主题法和分类法,确定概念的逻辑关系; (7)建立完整的本体库;将天然气与管道标准本体库与标准文献有效检索点结合,从而形成一个领域知识的框架体系,得到领域本体库的框架结构; 建立天然气与管道本体库时,本体划分应遵循以下基本规则:a)各子项的外延之和应等于母项的外延;b)划分的各子项,其外延宜相互排斥;c)每次划分应按同一原则进行;d)划分应按层次逐级、由高到低、由简到繁进行,宜结合天然气与管道主营业务粗细结合;e)应持续更新补充; 类目的划分与设置应突出主营业务,将内容相关性较大的类目,应尽量临近设置;对于一些无专属的类,且具有普遍指导意义的综合性基础标准可根据内容分别单独设置类;上一层次类目的技术要求下层类目都要满足; (8)确认与评价:本体库应具有正确性、一致性、可扩展性和有效性; (9)进化:在使用过程中需要对本体库不断更新,本体库进化的方式可以是集成新的本体库或定义新的概念和关系; (10)完成 本体库 建立。
【文档编号】G06F17/30GK103699542SQ201210366895
【公开日】2014年4月2日 申请日期:2012年9月28日 优先权日:2012年9月28日
【发明者】刘冰, 姚学军, 李云杰, 张欣, 税碧垣, 刘艳双, 郑娟 申请人:中国石油天然气股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1