基于本体构建材料科学领域语义数据模型的方法

文档序号:6369724阅读:115来源:国知局
专利名称:基于本体构建材料科学领域语义数据模型的方法
技术领域
本发明涉及一种构建语义数据模型的方法,尤其涉及一种基于本体构建材料科学领域语义数据模型(Semantic Model for Materials science data,简称 SMM)的方法,以实现为用户提供科学领域数据服务。
背景技术
本体(Ontology)的概念起源于哲学领域,定义为“对世界上客观存在物的系统描述”,但在计算机与信息科学领域,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”。本体提供一个共享词汇表,描述特定领域之中那些对象类型、概念及其属性和它们之间的相互关系。本体实际上就是对特定领域之中某些概念及其相互之间关 系的形式化表达(formal representation)。本体是一种特殊类型的术语集,具有结构化的特点,非常适合于在计算机系统之中使用。本体的目标是获取相关的领域知识,确定目标领域内共同认可的词汇(术语),并从不同层次上明确的给出这些领域词汇之间相互关系的形式化定义。使用本体可以为特定领域提供形式化的描述,包括形式化的知识表示、明确的领域词汇和语义。本体形式化的好处就是可以提供机器可处理的语义描述,增加了人机之间和机器之间的可交流性,进而支持本体推理发现隐性领域知识,为用户提供增值的信息服务。近年国内外,在科学数据共享、智能化信息检索、数字图书馆、知识工程和人工智能、信息系统集成、计算机辅助设计等诸多领域都得到了广泛应用,也掀起了本体应用的研究热潮。基于本体的数据语义集成方面的研究已取得大量的成果,利用本体技术解决数据源之间的语义异构问题也已成为异构集成普遍采用的方法。但是,目前针对材料科学领域数据的本体语义集成尚有待研究扩展,因为基于本体的材料领域数据语义集成需要解决以下多个方面的问题(1)具有大量的数据密集型应用,需要海量材料科学数据的支持;(2)材料科学数据异构、分布、结构杂乱、关联复杂;(3)材料数据源间的语义互操作复杂,异构数据模式结构复杂多变,存取效率有待提升;(4)科学家需要从多个自治系统中获得所需的材料科学数据,并人工将其所需服务提炼出来,耗时费力。

发明内容
本发明目的在于提供一种基于本体构建材料科学领域语义数据模型的方法,用于解决目前尚无针对材料科学领域数据的本体语义集成建模方法的问题。为解决上述技术问题,本发明提供的基于本体构建材料科学领域语义数据模型的方法包括以下步骤设计一种基于本体的材料科学领域语义数据模型,建立数据模式与本体之间的映射规则;基于所述语义数据模型,针对结构化数据、半结构化数据及非结构化数据进行基于本体的数据语义分析与标注,并构建领域数据的语义可视化模型,支持材料科学领域海量异构数据的语义集成与高效检索;基于0WL-S(0ntology Web Language forServices, web服务的本体语言)技术对相关数据服务进行描述、发布与获取,支持更高层次的材料科学领域服务语义协同。本发明提供的首先基于数据建模定义将各类结构化、半结构化、非结构化数据进行语义包装,根据映射规则库构建语义模型,从而形成领域数据本体,构建材料科学领域知识库;而后基于查询构造器、查询处理器及推理引擎构建材料科学领域数据语义查询工具,形成基于本体的查询接口,支持可视化语义检索,为上层应用需求提供高效的数据语义查询、互操作等相关服务,并基于OWL-S与本体技术进行服务语义的描述、发布、获取,构建更为智能化的服务语义协同,提供更为深层、个性、灵活的材料领域知识服务。其中,语义数据模型构建部分需满足并实现五方面的目标(I)保术语的一致性,该语义模型可以在该领域内重用;(2)该语义模型必须是形式化的,可以被计算机理解和 操纵的;(3)该语义模型能够在一定程度上支持语义推理,可以获取隐含的知识信息;(4)充分表示材料数据之间存在的关联关系;(5)在一定程度上表达数据的来源信息。据此,可采用适当的语义模型构建方法来构建材料科学领域语义数据模型SMM,并通过增加适当的语义映射规则,构筑领域本体知识库,完成数据语义建模,为海量异构数据的语义集成、高效查询、服务组合等提供支持。在本发明一个优选实施方式中,材料数据的语义集成部分主要包括如下四个方面的内容结构化材料数据(关系数据库)的语义集成;半结构化材料数据(MatML)的语义集成;非结构化材料数据(Image等)的语义标注;面向多语境环境下的数据检索及语义可视化。进一步地,结构化数据(关系数据库)的语义集成部分,包括(I)采用基于语义的多规则映射技术,将结构化数据统一映射为规范化XML文档,实现多源异构数据的格式转换,以屏蔽软硬件系统和数据模式的异构性;(2)针对多源异构数据进行错误数据删减、缺失数据赋值、数据精度调整、单位制转换、关联数据完善等操作,从而消除冗余信息,实现数据语义校验;(3)通过字符集转换、类型转换、单记录拆分、多记录合并、关联推导计算等方法,建立材料数据语义映射模型,支持结构化数据的关联合并,实现混杂数据的动态语义集成,以提高基于虚拟存储分析处理机制的数据语义查询效率。进一步地,半结构化数据(MatML)的语义集成部分,包括(I)定义一系列规则,从MatML Schema抽取出一个MatOWL本(2)将 MatML 文档转换为 OWL (Web Ontology Language, Wf语言)实例;(3)利用逻辑规则建立MatOWL本体与材料服务模型的映射关系,从而基于MapReduce虚拟存储分析处理机制,建立统一逻辑视图与物理存储之间的映射;(4)利用SPARQL语义查询语言对MatML数据进行查询,并从算法上优化查询效率,实现数据的高效检索。进一步地,非结构化数据(Image等)的语义标注部分,包括(I)知识获取收集针对非结构化数据的描述词汇,对词汇进行筛选、分析,并建立共享领域词汇表对收集的词汇进行统一存储管理,形成一个领域知识架构雏形,认知并获取相应知识概念。(2)领域本体建模将收集的领域词汇转换成本体中对应的元素,包括类(Class)和属性(Property),并定义类和属性的关系以及限制约束条件,然后以本体描述语言(如RDF、OffL等)进行表示,借此将领域中的知识转换成机器可理解的形式,并使用推理机对定义的概念逻辑关系进行一致性检验,用于指导本体的修正。此阶段可分为三个步骤区分类和属性,定义类与类之间的关系,定义关系上的公理。(3)知识表达针对实际的非结构化数据,根据建立的本体对数据的内容进行标注,即添加本体实例。此阶段的主要目的是以知识表达的方式将数据内容描述出来,以便于在检索图像时能利用描述的逻辑关系得到更多与数据内容相关的语义信息。根据对非结构 化数据进行标注的过程,本阶段也可分为四个步骤数据分类根据非结构化数据的内容,大致对其进行分类,以便于有效的区分出数据内容的初步语义不同,使之能与所构建的本体表达的语义一 i内容提取从媒体信息、对象、事件三个层次提取出非结构化数据实体,即提取出符合本体概念类、属性以及关系的实例信息;逻辑关系通过描述非结构化数据中的实体的语义关系来完成所有属性实例的添力口,其关系与本体中已定义的描述逻辑是一致的;标注描述重复之前几个步骤,完成对所有非结构化数据的标注描述,即为本体添加多个实例,基于此开发一个可视化的标注工具,提供领域共享词汇表和本体框架帮助使用者更精确的依据本体内容进行非结构化数据的标注,并以OWL本体描述语言来对标注内容进行描述和存储。进一步地,面向多语境环境下的数据检索及语义可视化部分,包括(I)利用语义Web技术建立多级、主动、开放的材料科学数据本体映射机制,实现数据隐含知识的语义映射;(2)采用面向多源异构、多粒度、多维度材料领域数据的聚类、分类、关联分析等技术,建立多语境环境下数据语义内在特性、关联的实时挖掘模型,形成并构建推理引擎,支持数据语义的交互协同与关联演化;(3)利用信息可视化技术,建立多语境交互环境中的数据语义可视化模型,实现基于语义的多应用领域服务融合与决策支持。进一步地,服务语义协同部分主要包括如下四个方面的内容(I)服务语义描述采用基于语义的服务表示方法,利用OWL-S和本体技术从材料领域数据的混杂服务中抽象出通用服务属性,构建基于本体的服务语义描述来标识各类服务;(2)服务语义注册、发布通过对服务访问相关属性的语义描述,确立面向领域数据融合、处理的分层统一服务语义模型,建立基于语义的服务UDDI中心对服务进行公共注册,进而将服务及其模型的语义描述发布到上层应用;(3)服务语义获取建立基于服务模型的语义理解与分析机制,通科学数据语义信息与决策需求的逆向解析与任务分解,建立基于语义推的服务获取机制,从而获取数据处理服务的关联彳目息;(4)服务语义协同、组合通过统一定义的服务互操作访问接口,利用工作流协调机制构建服务编排模型,深层挖掘其服务语义关系链的协作机制,有效发现各类服务及协同组合规律,实现面向高效服务规划组合的材料科学领域服务融合与协作共享。
与现有技术相比,本发明为数据集成系统提供了语义视图;有效地处理了概念扩展,利用描述逻辑的推理功能为用户提供了增值性服务;有效地处理了概念转换(全局到局部),用户不需要了解异构数据源中数据的结构和模式;通过描述逻辑的推理解决各个数据源的语义异构问题,无需将数据源中的数据导出为本体的实例数据;查询界面基于语义模型构造,让用户使用领域术语构造语义查询。此外,本发明还提供一种关系数据库语义集成方法,通过推理规则等方式,将领域概念进行扩展、转换,解决了结构化数据语义异构问题。另提供一种MatML数据语义集成方法,通过将MatML转换为OWL本体,并建立规则与SMM映射,解决了 MatML数据的语义查询问题。还提供一种针对非结构化数据的语义标注方法,有效解决了图像、视频等各类多元化复杂数据的语义异构问题;采用基于本体的材料领域科学数据语义集成方法,将海量复杂数据进行了更加精确的描述、表示与交互,提升了领域知识表达的正确性、精确度,有助于查询效率的提升;提出一种面向多语境环境下的语义可视化方法,更加直观地表达了领域知识系统的数据关联模式,并有助于领域知识的智能化提取。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为本发明优选实施例的基于本体的材料科学领域数据语义集成框架图;图2为本发明优选实施例的SMM的构建方法流程图;图3为数据集成系统的语义层次图;图4为结构化数据(关系数据库)语义集成方法流程图;图5为结构化数据(关系数据库)语义集成实例图;图6为半结构化数据(MatML)语义集成与查询方法流程图;图I 为从 MatML schema 抽取 MatOWL 实例图;图8为数据实例转换映射关系图;图9为材料本体MatOWL与语义模型SMM的映射图;图10为非结构化数据语义标注方法框架流程图;图11为面向多语境环境下的语义可视化实例图;图12为服务语义协同方法流程图;图13为服务语义协同实例对比图。
具体实施例方式下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。图I是基于本体的材料科学领域数据语义集成框架图。该框架以材料科学语义模型作为核心,通过数据源与语义模型之间的映射进行语义集成。框架主要包括数据源、包装器、材料领域知识库、查询工具和服务语义五大部分,具体如下(I)材料科学数据源的范围和类型 材料领域科学数据主要包括关系数据库、XML文档、纯文本文档、图频等形式,可大致分为结构化、半结构化、非结构化三类。( 2 )数据包装与转换根据结构化数据、半结构化数据和非结构化数据之间特点的差异,分别设计不同的语义包装器(Wrapper)软件工具完成数据的包装和转换。包装器将从数据源中抽取出数据源模型(局部本体),并且负责透明地访问数据源中的数据。(3)领域数据知识库MatKB材料领域数据知识库MatKB (Materials Knowledge Base)是语义集成框架的关键,将其定义如下材料领域知识库MatKB为一个三元组MatKB= (SMM, DOB,MapB),其中包括材料领域的语义模型SMM、领域本体库DOB和映射规则库MapB。材料科学语义模型SMM形式化地刻画出领域中概念以及概念之间的联系,为用户提供一个统一的领域视图。领域本体库DOB中存放材料科学领域的一些已经存在或将来设计的领域本体,这些本体通常是更为细小领域的领域本体,例如选材本体。当用户期望以领域本体作为语义上下文进行查询时,可以通过在领域本体与语义模型之间建立映射来实现。映射规则库MapB中存放数据源与领域语义模型之间的映射以及语义模型与领域本体之间的映射。不同数据源的数据可以被映射到语义模型上,从而在语义层面进行数据集成。在MatKB中,SMM为核心的领域视图,DOB中的本体作为辅助的领域视图,可以利用SMM或DOB中的本体生成基于领域术语的查询界面。SMM和DOB之间通过映射进行关联,其映射关系保存在MapB中。(4)材料数据的语义查询工具语义查询的目标是可以让用户使用材料科学领域的概念术语表达出他们的数据需求,并获得其所期望的结果。语义查询生成器提供一个可视化的交互式界面,将领域术语展现在用户界面之上,由用户进行选择并输入查询条件,自动地将用户的需求表示为语义Web查询语句,可以采用SPARQL来表示语义查询语句。查询处理器负责根据MatKB知识库中的知识生成具体的查询计划。(5)服务语义协同这部分需要将各种基于数据语义集成的服务进行服务语义级别的描述、注册与发布,形成统一的服务访问接口,支持灵活高效的服务协同与融合。针对发布的服务语义,用户可以根据个人需求方便快捷地将各类服务进行组合、编排与协同,从而形成更加多元化、个性化的领域知识服务。该语义集成框架具有三方面的特点(1)面向解决材料科学领域多种类型数据源的语义集成问题;(2)以MatKB知识库为中心,利用领域语义模型、本体和映射辅助语义集成的实现;(3)为材料数据库、MatML以及图形等数据的语义集成提供结构上的指导。
图2是语义模型SMM的构建方法流程图。材料科学数据语义模型主要是作为用户术语语义关联的模型,将其定义如下材料科学领域语义模型SMM (Semantic Model for Materials science data).SMM 是ー个 5 元组,SMM (CO, PO, 10, AO, Rsmm)。CO为领域概念集合。定义了若干概念超类,这些超类都具有若干子类。PO为领域概念之间的语义关联属性集合。PO= (HO,PLO, PD0), PO包含三种类型,HO用于表示概念之间的层次关系,即表示父类与子类之间的IS-A关系;PL0为连接语义模型中概念之间的关联属性集合;PD0为连接语义模型中概念和特定数据类型的关联属性集
ロ οAO为语义模型中的公理集合。利用描述逻辑中的公理构造符对概念制性公理,还可以利用公理构造符定义出新概念的充分必要条件,描述逻辑推理机可以根据这些公理对语义模型中的概念进行重新分类。IO为语义模型中的实例集合。Rsmm为ー组Horn式的规则集合。这些规则是利用语义模型中的C0、P0、IO所涉及到的术语构成。通过支持规则引擎的推理机,可以利用Rsmm发现语义模型中的隐含知识。本体是对共享概念体系明确的、形式化的规范说明。由于具备概念化、明确、形式化和共享四个特点,本体可以为知识的共享和重用提供共享术语词汇表,并且可以利用本体对特定领域中的信息内容进行逻辑推理。鉴于此,本发明优选实施例利用本体技术构建材料科学数据的语义模型,并利用OWL作为本体的描述语言。语义模型SMM的构建方法流程为首先定义SMM的范围和需求;然后识别该范围内的核心领域术语;确定术语中的核心概念,同时建立核心概念之间的层次关系;确定概念之间联系;进一步细化模型中的概念层次和联系概念的属性,此时可以重用已存在的领域分类或本体中的类和属性;为领域概念增加约束定理;SMM构建好后,可以通过加入新概念和属性的方式扩展,最常见的扩展方式是继承原来的概念。通过向SMM中増加逻辑条件的约束可以增强整个模型的概念之间的层次关系,即通过添加必要条件和充分必要条件,可以利用描述逻辑推理机对模型中概念进行重新分类,从而从模型中获取隐含在模型中的知识。通过向SMM中添加描述逻辑(Description Logic,DL)公理,可以利用描述逻辑推理机对模型中概念进行重新分类,其约束公理主要分为两类(I)増加必要条件。目的是为该概念增添更多的语义信息,在进行后,这种概念往往被归类为其它概念的子类。例如,为不锈钢Stainles设定了限制性公理,即不锈钢在大
气环境下具有较低的腐蚀率,其公理下 StainlessSteelQFerrousMetal 门ヨhasProperty· (CorrosionProperty Π V inEnvironment. Atmosphereu Π VhasCorrosionRate. Low)))(2)増加充分必要条件。通常是对ー个概念进行定义,在进行推理之后,满足该条件的所有概念都被归类到被定义的概念之下。例如,利用公理定义了耐腐蚀材料(CorrosionResistantMaterial)的充分必要条件,即具有腐蚀特性并且其腐蚀率为Low的材料,其公理描述如下
CorrosionRes i stantMaterial = Material
门ヨ hasProperty. (CorrosionProperty 门 VhasCorrosionRate. Low)))利用SMM中AO的已经可以对CO进行自动化的概念重新分类,但是OWL本身无法描述PO中不同属性之间的语义关联。因此,需为模型增加语义规则Rsmm。规则集的主要作用是进ー步加强SMM的语义关联性,当SMM中充满实例数据时,可以根据Rsmm进行ABox推理,从而自动得到隐含的知识。例如,若某金属的热处理工艺为正火,则其冷却方式为空冷,其关于金属热处理方面的规则可简单描述如下smm :Metal ( χ) Λ smm: Property ( y) Λ
smm:HeatTreatment ( h) Λ smm:hasProperty( x, y) Λsmm:hasProcessing( y, h) Λ smm:hasTreatmentType ( h,,,Normalizing,,)— smm:hasCoolingType ( h, ” aircooling,,)材料科学数据语义模型SMM构建好后,可以很方便的进行扩充,其扩充的方式分别为通过继承机制进行概念扩充;通过约束定理为概念增添语义;通过添加属性扩充概念之间的语义关联;通过加入新规则扩充属性之间的联。图3是数据集成系统的语义层次图。为了解决关系数据库的语义异构问题,本发明优选实施例提供一个基于本体的语义集成方法,将语义数据集成系统SI定义为ー个5元组SI=<G, S,D, MGS, MSD>基于本体的集成方法描述全局本体OG :令G=0G,这里利用SMM ;局部本体OSi :针对每个数据源Di建立相应的局部本体OSi,令S=OS ;建立映射MSD :D — Φ — OS ;建立映射MGS : OS — Ψ — OG ;查询分解用户提出全局查询请求qG时,利用DL推理机进行TBox推理;概念扩展利用OG所提供的概念层次对qG中的全局概念进行扩展;概念转换利用MGS将扩展后的全局概念集转换为相应的局部概念集;查询分解将qG分解为针对局部本体的子查询;查询转换根据MSD将查询重写为符合数据源语法的本地子查询;查询回答与结果生成子查询结果合并形成查询回答的最終結果;MSD 的实现设计了数据源描述本体0WL-DSD0,用于记录数据模式和映射;针对已经存在局部本体的数据源,直接建立MSD;否则,根据一定的转换规则自动将数据源模式转换为ー个轻型局部本体,同时生成MSD。MGS 的实现设计专门的映射本体0M,将映射关系存储在OM中;类之间的映射利用OWL中所提供的描述符equivalentCsubClassOf ;属性之间的映射利用OWL中所提供的描述符subPropertyOf,equivalentProperty。图4是结构化数据(关系数据库)语义集成方法流程图,即该方法的实现过程。其查询过程主要包括以下八个步骤步骤I.用户根据查询生成器所提供的用户界面,可以利用领域术语进行查询,并由查询生成器生成查询语句qG,qG采用本体查询语言(如SPARQL)描述查询请求。步骤2.推理引擎根据MGS并利用描述逻辑推理机进行TBox推理,将查询中的全局概念/属性及其子概念/属性转换为相应的局部概念/属性。步骤3.查询分解器将查询分解为相关数据源的子查询qSl,qS2, ...qSn,其中n e [O, p]。步骤4.包装器根据MSD将相关的局部概念转换为相应的数据源D上的概念,并将 查询重写为针对数据源的本地子查询qDl,qD2,. . . qDn。步骤5.数据源返回符合本地语法的局部查询结果;步骤6.包装器将本地结果转换为统ー语法格式的查询结果aDl,aD2,. . . aDn,其中n e
。在本方法中,aDl, aD2, . . . aDn采用领域标记语言进行表示。步骤7.将aDl,aD2,. . . aDn组合在一起形成查询回答的结果aG.步骤8.按照要求经过处理后返回给用户界面。图5是结构化数据(关系数据库)语义集成实例图。针对两个数据源Dl和D2的两个局部本体OSl和0S2,分别定义了各自的局部概念,存储在TiAl loy. owl和StainlessSteel. owl 文件中。如图中的 OSl 部分所不,OSl 中定 Mechani cal_Property (力学性能)和 TiAlloy(钦合金)等类,定义了 AlMaxElongation、HasYieldStrength、HasMechProp等属性;如图中的O丨所示,0S2中定义了 Elongation_Property (拉伸特性)和stainless_steel (不镑钢)等类,定义了 Elongation_At_Break、hasYieldPoint、hasElongationProp等属性。映射本体OM中利用owl:imports引入了 SMM本体(名空间为smm)以及两个局部本体TiAlloy. owl (名空间为T)和StainlessSteel. owl (名空间为S)。在映射本体OM中定义了全局本体OG与两个局部本体OSl和0S2之间概念的映射关系,图中OG与OSl和0S2之间的虚线部分给出了部分概念和属性的映射关系。该结构化数据语义集成方法的主要特点包括(I)有效地处理了概念扩展,利用描述逻辑的推理功能为用户提供了增值性服务;(2)有效地处理了概念转换(全局到局部),用户不需要了解异构数据源中数据的结构和模式;(3)通过描述逻辑的TBox推理解决各个数据源的语义异构问题,无需将数据源中的数据导出为本体的实例数据;(4)查询界面基于语义模型构造,让用户使用领域术语构造语义查询。图6是半结构化数据(MatML)语义集成与查询方法流程图,即该方法的实现过程。本方法的基本思路可以描述为以下几个基本步骤。步骤I :抽取MatOWL,本步骤重点分析MatML schema的基本结构,通过一系列的抽取规则从MatML shcema中抽取相关内容作为MatOWL的类和属性。通过该步骤,可以构建出MatOWL的概念层次(即TBox)。步骤2 :数据实例转换,为了将MatML文档中所描述的材料特性数据转换为语义Web格式,本步构建ー个面向对象的中间模型MatOO,利用MatOO辅助实例的转换。首先将MatML文档转换为ー组MatOO对象,然后通过ー个转换算法将MatOO对象转换为MatOWL的实例数据。通过该步骤,可以为MatOWL填充数据实例(即ABox)。步骤3 :构建MatOWL与SMM的映射,通过自动化程度很高的方式构的MatOWL虽然在形式上变更为语义Web格式的文档,但仍然缺乏高层的语义信息。为了方便用户的查询,需要在MatOWL与SMM之间构建语义映射。步骤4 :构建语义查询,用户可以利用MatOWL中的领域概念构造SPARQL查询,对MatOffL中的数据实例进行查询,从而实现对MatML数据进行语义查询的目的。图7是从MatML schema抽取MatOWL实例图。图中左面是MatML Schema的一个代码片断,右面是对应的MatOWL。复杂类型PropertyData被抽取为类PropertyData。由于属性property的类型为xsd: IDREF,所以它被转换为对象属性isPropertyOf (i sPropertyOf=f (property)),并且被其引用的类型Property Details被转换为类Property (Property=f (PropertyDetails))。兀素 Name 被转换为对象属性 hasName(hasName=f (Name)),其 domain 包含类 Proper ty 并且其 range 为类 Name。兀素 Notes 被转换为数据类型属性 notes (notes=f (Notes)),其 range 为 xsd: string, domain 包含类PropertyData、Specimen 和 DataSource0图8是数据实例转换映射关系图。利用语义集成方法将MatML转换为MatOWL的ー个实例,图的左侧是MatML文档的模式,右侧为MatOWL本体实例模式,该图清晰地表现出了两者之间详细的对应关系。图9是材料本体MatOWL与语义模型SMM的映射图。用户需要进行选材相关的语义查询,会涉及到高強度、耐腐蚀等概念,可以将这些概念定义在SMM之中。然后利用规则语言建立起MatOWL本体与SMM之间的联系,即利用MatOWL本体中的概念和属性来定义SMM中的概念。一旦构建好SMM与MatOWL本体之间的映射关系,就可利用更贴近于用户需求的SMM来构建语义查询,通过推理引擎自动将MatOWL本体实例数据归类到SMM的实例中。该半结构化数据语义集成方法的主要优势包括将MatML自动转换本体的模式抽取规则和实例转换算法;Mat0WL为MatML数据提供了ー个体,有利于MatML文档数据集成的实现;通过逻辑规则将MatOWL与SMM关联后,增强了 MatML文档查询的语义性,通过推理机制,用户可以间接地获取MatML文档中的数据。图10是非结构化数据语义标注方法框架流程图。其主要流程包括以下几个方面(I)知识建模为了保证领域知识的全面性和权威性,由知识工程师配合领域专家对图像等非结构化数据所在的材料领域知识进行萃取,形成ー个领域知识术语库;然后按照本体工程方法对领域知识进行编辑筛选,在概念模型的基础上,借助本体编辑器Prot6ge构建ー个以OWL语言描述材料图像等数据语义的领域知识本体,即可以看作是领域知识库的TBox ;另外,从已建成的术语库中抽象出ー些表示材料图像等数据知识特征的感性词汇,作为标注本体实例时的參考。(2)语义标注主要是将实际的非结构化数据依据本体的定义进行人エ标注。在标注数据内容时,本发明优选实施例先将数据进行分类,分类的依据是以问题为导向,目的是让标注的内容与本体定义的概念一致。标注工作者根据本体已定义好的知识框架,将原始数据中的内容提取出来,添加成为本体的实例,用以表达原始数据中的内涵知识。在标注数据内容,即添加本体实例时标注者可以从共享领域词汇表中选择词汇,而不用手工添加,这样既提高了标注的效率,也保证了标注词汇与本体概念的一致。按照本体框架完成标注后,标注信息也以OWL格式进行存储,它可以看作是ABox。本体的TBox和ABox文件就构成了一个关于材料非结构化数据的领域知识库,并且原始数据与知识库分开存储,这样便于后续应用系统的处理。(3)推理主要是在TBox和ABox构成的知识库基础上,建立推理引擎针对实例进行查询和推理。TBox主要描述了领域内的知识及相关概念的系,即是描述领域结构公理的集合;ABox则是针对实例定义的断言,即实例关系和概念的断言集合,或者说是针对具体数据的语义描述。可以设计一个基于描述逻辑(DL)的运算的推理引擎来实现对领域知识库的推理。以DL为基础的推理引擎不仅可以检测本体的一致性,还可以推理出本体概念类之间隐含的逻辑关系。(4)应用对非结构化数据进行语义标注的最終目的,就是为了更好的获取图像等数据的内容信息。所以在应用方面,主要是开发基于Web的非结构化数据检索功能,让使用者可以基于领域概念对数据进行检索,并由推理引擎提供更多符合检索条件的数据的相关信息。图11是面向多语境环境下的语义可视化实例图。例如,共享材料数据中包含黒色金属、有色金属、有机高分子、建筑材料等分节点材料数据,其中,建筑材料的装修材料中包含有“窗框”这ー材料,它的构成分为“铝合金”、“玻璃钢”等类型,其中“铝合金”主要由黑色金属中的“锰”和有色金属中的“銅”、“锌”、“镁”、“铝”等化学成分组成,而“玻璃钢”的主要成分则是有机高分子中的“塑料”及其纤维类中的“玻璃纤維”,如此,则实现了多语境环境下各类材料数据的语义可视化表达。图12是服务语义协同方法流程图,即整体架构图中服务语义协同部分的技术方案。该方案采用基于OWL-S的技术方法,对服务进行基于语义的统ー描述、注册与发布,进而支持服务级别的组合与协同。主要包括以下流程(I)采用OWL-S完成对A、B等各类服务基于语义的描述;(2)建立基于语义的服务UDDI中心对各类服务进行公共注册,并将服务及其模型的语义描述发布到上层领域应用;(3)上层应用调用统一定义的服务访问接ロ,查看服务描述文件,编写应用层代码,提供相应的參数调用A、B两类服务,从而得到相应的服务协..,一.合結果。图13是服务语义协同实例对比图。由于对各类服务的语义描述尚未范化,旧有的技术方案需通过多次交互来分别获取所需服务,并人工将其服务进行融合,给应用带来很大不便;而基于OWL-S的服务语义协同方案则很好地解决了该问题,且有利于方便快捷地将各类服务组合成更加多祥化的服务种类,满足更加个性化的用户需求。在建立材料属性语义检索服务页面时,可以基于数据语义集成技术以及材料属性关联视图,构建材料属性语义检索模块,实现材料相关属性的组合查询、综合检索服务。材料属性语义检索服务可根据不同材料类型、不同属性取值范围联合检索相关材料的牌号、材料名称、属性值等数据信息。例如根据属性取值诸如外观的透明度在O. 2-99%范围、物理性质的熔体流动速率在O. 01-20000g/10min范围、热学性能的维卡软化点在2-261. 5°C范围、力学性能的拉伸断裂強度在O. 75-29500MPa范围的联合属性自由选取,同时排除分类为“聚苯こ烯”的材料类型,进行基于语义的条件组合检索,得到同时满足这些条件的检索結果。基于本体支持数据语义集成为材料科学领域提供形式化的描述,包括形式化的知识表示、明确的领域词汇和语义;提供机器可处理的语义描述,可利用计算机检查概念的一致性,发现概念术语之间存在的矛盾和冲突;提供语义交互性,不同元数据、模式/术语表之间的映射和集成,更准确的捜索和浏览能力,通过知识结构将相关资源、服务、数据、设备联系起来;在分布异构数据集之间进行推理和演绎,通过本体所定义的概念之间的语义联系,可以推导出隐含的语义信息,为用户提供增值的信息服务,并可以实现带有一定逻辑推理功能的智能查询。综上,本发明基于本体构建材料科学领域语义数据模型,为数据集成系统提供了语义视图;有效地处理了概念扩展,利用描述逻辑的推理功能为用户提供了增值性服务;有效地处理了概念转换(全局到局部),用户不需要了数据源中数据的结构和模式;通过描述逻辑的推理解决各个数据源的语问题,无需将数据源中的数据导出为本体的实例数据; 查询界面基于语构造,让用户使用领域术语构造语义查询。此外,本发明还提供ー种关系数据库语义集成方法,通过推理规则等方式,将领域概念进行扩展、转换,解决了结构化数据语义异构问题。另提供ー种MatML数据语义集成方法,通过将MatML转换为OWL本体,并建立规则与SMM映射,解决了 MatML数据的语义查询问题。还提供一种针对非结构化数据的语义标注方法,有效解决了图像、视频等各类多元化复杂数据的语义异构问题;采用基于本体的材料领域科学数据语义集成方法,将海量复杂数据进行了更加精确的描述、表示与交互,提升了领域知识表达的正确性、精确度,有助于查询效率的提升;提出ー种面向多语境环境下的语义可视化方法,更加直观地表达了领域知识系统的数据关联模式,并有助于领域知识的智能化提取。在各类数据服务构建的实现基础上,更进ー步地对其上层服务进行语义描述、注册与发布,并将获取的服务属性进行语义协同、组合,有效降低了人工地将各类服务进行组装合并的劳动强度和难度,实现了更高级别的服务融合交互。以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
权利要求
1.一种基于本体构建材料科学领域语义数据模型的方法,其特征在于,包括以下步骤 设计ー种基于本体的材料科学领域语义数据模型,建立数据模式与本体之间的映射规则; 基于所述语义数据模型,针对结构化数据、半结构化数据及非结构化数据进行基于本体的数据语义分析与标注,并构建领域数据的语义可视化模型,支持材料科学领域海量异构数据的语义集成与高效检索; 基于OWL-S技术对相关数据服务进行描述、发布与获取,支持更高层次的材料科学领域服务语义协同。
2.根据权利要求I所述的方法,其特征在于,所述材料科学领域海量异构数据的语义集成步骤包括结构化材料数据的语义集成、半结构化材料数据的语义集成、非结构化材料数据的语义标注和面向多语境环境下的数据检索及语义可视化。
3.根据权利要求2所述的方法,其特征在于,所述结构化数据的语义集成步骤包括 采用基于语义的多规则映射技木,将结构化数据统一映射为规范化XML文档; 针对多源异构数据进行错误数据删减、缺失数据赋值、数据精度调整、単位制转换、关联数据完善操作; 通过字符集转换、类型转换、单记录拆分、多记录合并、关联推导.へ—法,建立材料数据语义映射模型,支持结构化数据的关联合井。
4.根据权利要求2所述的方法,其特征在于,所述半结构化数据的语义集成步骤包括定义一系列规则,从MatML Schema抽取出ー个MatOWL本体,其中MatML为半结构化数据; 将MatML文档转换为OWL实例; 利用逻辑规则建立MatOWL本体与材料服务模型的映射关系,基于MapReduce虚拟存储分析处理机制,建立统ー逻辑视图与物理存储之间的映射; 利用SPARQL语义查询语言对MatML数据进行查询,并从算法上优化查询效率,实现数据的高效检索。
5.根据权利要求2所述的方法,其特征在于,所述非结构化数据的语义标注步骤包括 知识获取收集针对非结构化数据的描述词汇,对词汇进行筛选、分析,并建立共享领域词汇表对收集的词汇进行统一存储管理,形成ー个领域知识架构雏形,认知并获取相应知识概念; 领域本体建模将收集的领域词汇转换成本体中对应的元素,并定义元素的类和属性的关系以及限制约束条件,然后以本体描述语言进行表示,以将领域中的知识转换成机器可理解的形式,并使用推理机对定义的概念逻辑关系进行一致性检验,用于指导本体的修正; 知识表达针对实际的非结构化数据,根据建立的本体对数据的内容进行标注。
6.根据权利要求5所述的方法,其特征在于,所述知识表达步骤包 数据分类根据非结构化数据的内容进行分类,以便于有效的区分出数据内容的初歩语义不同,使之能与所构建的本体表达的语义一致; 内容提取从媒体信息、对象、事件三个层次提取出非结构化数据内容的实体;逻辑关系通过描述非结构化数据中的实体的语义关系来完成所有属性实例的添加,其关系与本体中已定义的描述逻辑是一致的; 标注描述重复数据分类、内容提取和逻辑关系步骤,完成对所有非结构化数据的标注描述,并基于此开发可视化的标注工具,提供领域共享词汇表和本体框架帮助使用者更精确的依据本体内容进行非结构化数据的标注,并以OWL本体描述语言来对标注内容进行描述和存储。
7.根据权利要求2所述的方法,其特征在于,所述面向多语境环境下的数据检索及语义可视化步骤包括 利用语义Web技术建立多级、主动、开放的材料科学数据本体映射机制,实现数据隐含知识的语义映射; 采用面向多源异构、多粒度、多维度材料领域数据的聚类、分类、关联分析,建立多语境环境下数据语义内在特性、关联的实时挖掘模型,形成并构建推理引擎,支持数据语义的交互协同与关联演化; 利用信息可视化,建立多语境交互环境中的数据语义可视化模型,实现基于语义的多应用领域服务融合与决策支持。
8.根据权利要求I所述的方法,其特征在于,所述服务语义协同步骤包括 服务语义描述采用基于语义的服务表示方法,利用OWL-S和本从材料领域数据的混杂服务中抽象出通用服务属性,构建基于本体的服描述来标识各类服务; 服务语义注册及发布通过对服务访问相关属性的语义描述,确立面向领域数据融合、处理的分层统一服务语义模型,建立基于语义的服务UDDI中心对服务进行公共注册,进而将服务及其模型的语义描述发布到上层应用; 服务语义获取建立基于服务模型的语义理解与分析机制,通过材料科学数据语义信息与决策需求的逆向解析与任务分解,建立基于语义推理规则的服务获取机制,从而获取数据处理服务的关联信息; 服务语义协同及组合通过统一定义的服务互操作访问接ロ,利用工作流协调机制构建服务编排模型,深层挖掘其服务语义关系链的协作机制,有效发现各类服务及协同组合规律,实现面向高效服务规划组合的材料科学领域服务融合与协作共享。
全文摘要
本发明公开一种基于本体构建材料科学领域语义数据模型的方法,其包括以下步骤设计一种基于本体的材料科学领域语义数据模型,建立数据模式与本体之间的映射规则;基于所述语义数据模型,针对结构化数据、半结构化数据及非结构化数据进行基于本体的数据语义分析与标注,并构建领域数据的语义可视化模型,支持材料科学领域海量异构数据的语义集成与高效检索;基于OWL-S技术对相关数据服务进行描述、发布与获取,支持更高层次的材料科学领域服务语义协同。本发明具有可以有效实现材料科学领域数据的语义集成、智能查询及个性化服务的优点。
文档编号G06F17/30GK102682122SQ201210151430
公开日2012年9月19日 申请日期2012年5月15日 优先权日2012年5月15日
发明者刘振宇, 成欣, 李扬, 胡长军 申请人:北京科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1