大规模语义知识库的动态维护系统的制作方法

文档序号:6438682阅读:310来源:国知局
专利名称:大规模语义知识库的动态维护系统的制作方法
技术领域
本发明涉及网络信息处理技术,特别是涉及一种基于*吐2.0网络的异构语义知识库的动态维护系统。
背景技术
本发明所涉及的有以下几个技术1.语义^feb的知识库语义Web已经发展了十余年时间。知识表示、知识存储和查询、知识推理等语义 Web技术的研究已经有了长足的进步。但是与传统的Web相比,语义Web的知识库规模还相差甚远,能够实际应用的本体知识库凤毛麟角,很难满足语义Web对大规模知识库的需求。究其原因,本体的构建成本、效率,以及本体的管理难题都是制约语义知识库发展的障碍。本体是构成知识库的主体,目前构建本体的途径主要是由领域专家通过手工来制作本体,不但成本高、效率低,而且维护起来非常困难,也有研究人员通过统计分析和自然语言处理的方法对已有的Web页面进行标注或者抽取来获取语义知识,但是语义识别准确率不高,造成了本体质量低下。至今人们尚未找到一种能够持续、高效、优质地构建本体的途径。 然而,自底向上的建设语义Web已经获得越来越多的共识,从简单地关联大量的开放数据集开始,逐渐积累并丰富其语义,从而构建带有语义的Web知识库的工作已经起步并获得了显著的进展。2.分布式本体研究语义Web的发展从一开始就是建立在Web2. 0基础之上的,必将包含海量的语义数据。此外,在语义发展初期,众多的标准和技术形成了大量的异构语义数据源,如何联合异构语义数据源并在海量语义数据中进行查询和推理已经越来越受到科研人员的重视,然而由于大规模的语义Web知识库尚未建立,因此对分布式本体的研究也很难找到着力点。但是,在研究中提出来的一些思想和架构依然可以被借鉴,用来解决分布式本体条件下的难题。3.知识库维护研究语义知识库的维护主要是指对大量异构语义数据源的管理,以使整个语义知识库保持上层语义网应用所需的一致性以及推理和查询的效率。目前围绕知识库不一致性处理方面,已经产生了各个研究领域,如不一致性检测、不一致性推理、不一致性调试等,在提升推理和查询效率上,一方面有对本体推理查询算法的改进,如围绕描述逻辑推理算法 tabular算法的优化,对SPARQL查询机制的优化,另一方面有通过对本体之间数据关系的挖掘,来优化知识库中本体的存储结构,进而提高推理查询的效率,如本体合并、本体分割。针对大规模语义知识库的动态维护的难题,如何将各种本体维护算法结合起来构建一个能够提供不一致性本体处理,并能动态优化知识库中本体存储结构的管理接口是本领域所要解决的问题。

发明内容
基于上述现有技术,本发明提出一种大规模语义知识库的动态维护系统,结合本体合并算法、本体不一致性处理算法和本体分割算法,将不一致性处理算法与大规模语义知识库进行了整合,从而实现了大规模语义知识库的一致性管理。本发明提出了一种大规模语义知识库的动态维护系统,该系统包括主服务器、分布式数据服务器以及存储采用OffL语言描述的本体知识库,其特征在于,该系统还包括部署于主服务器上的全局知识管理系统和部署于该系统的分布式数据服务器的局部数据管理系统,所述全局知识管理系统和所述局部数据管理系统通过知识总线控制器,以一套标准的知识通信指令进行交互,其中局部数据管理系统,用于监听通过总线MULE传送来的指令并根据总线返回的控制流指令返回本体处理数据,实现语义知识库动态维护算法数据的存储与管理,包括本体的合并、分割以及不一致性处理;全局知识管理系统,用于统筹、维护和应用本体知识库,该系统包括局部服务器索引,该索引用来记录位于辅助数据服务器上的局部服务器的标注的信息,然后位于主服务器上负责统筹、维护和应用本体知识库的全局知识管理系统运行核心处理,依据请求查询相应索引信息,并发出多播和广播指令;API解释器,用于将来自上层的功能API的请求,解释成基础的核心查询指令,支持系统运行;全局知识库管理模块,运行于主服务器后台,用于执行本体知识库推理和演化算法,优化知识库结构和存储,实现一致本体视图抽取、本体合并、本体分割、负载均衡,具体算法如下本体合并算法,首先找到两个输入本体之间实体的关联,然后指定一个本体A作为基本体,将另一个本体B导入本体A中,然后在合并本体B中添加关联描述,则得到了所需的合并后的本体结果;本体不一致性处理算法,对每个不一致本体,计算不一致本体的不可满足概念集; 读取每一个不可满足概念的最小不一致子本体从每个不一致子本体中抽取一个三元组, 如果子本体有相交,则抽取相交部分的三元组,组成三元组集合;从原本体中去除这个三元组集合,使得所有不一致本体一致;得到最大一致子本体;本体分割算法,给定一个本体,首先将其转化为图形结构,然后判断其是否全连通,如果全连通则计算最小割集,包括割点与割边;根据割集分割;如果不是全连通,则计算极大连通子图,然后根据子图进行分割。所述局部服务器的标识信息包括如通信地址、本体列表、局部服务器状态信息。所述找到两个输入本体之间实体的关联的步骤,具体包括基于实体字符串距离构造一个距离矩阵,通过字符串距离计算算法,求得每一对实体之间的距离,距离最近的实体即认为是有关联的实体。所述字符串距离计算算法采用ontosim中的符串距离计算算法。所述找到两个输入本体之间实体的关联的步骤,该步骤的具体实现包括以下步骤通过对外部语义工具的调用,找到实体名之间的关联度,关联度最小的即认为是有关联的实体;
所述外部语义工具为WordNet或Wikipedia。所述通过总线MULE传送来的指令,该指令文件名必须与ontologyURI —致。与现有技术相比,本发明能够通过平台及平台之上的优化算法,实现对大规模语义知识库本体的优化,从而减少存储规模,以及优化推理和查询的效率。


图1为分布式本体管理体系架构图;图2为本体合并算法流程图;图3为本体不一致性处理算法流程图;图4为本体分割算法流程具体实施例方式首先,本发明利用了本体合并算法。由于本体数据源之间的异构以及概念的重叠, 找到本体之间结构的关联,减少存储规模从而优化推理和查询的效率就变得可能,该算法主要通过寻找本体的实体之间的距离,从而在合并后的本体中添加实体关系的描述,进而建立本体之间的关联。其次,本发明利用了本体不一致性处理算法。现实开放世界中的知识本身存在不完全性以及知识随时间的动态演化性,因此不一致性的出现不可避免。通过本发明提出了一种提取最大一致子本体的算法来解决这些问题。在本发明中的本体是采用基于描述逻辑的语言——OffL描述的。并且,将这个算法与底层知识库结合了起来,从而实现了分布式环境下全局知识库的一致性管理。以及,本发明还利用了本体分割算法的应用。在本体知识库中,有时会出现一些大规模本体,这些本体的出现对知识库推理和查询的效率会有显著的影响,通过将其分割成一些小规模本体就可以极大地提高推理和查询的效率。各个算法的功能如下一、本体合并算法。对任意给定的两个OffL本体,找到他们的实体(类、属性、实例)之间的关联(子类或者等价)。二、本体不一致性处理算法。对任意给定的一个不一致本体,返回一个临时的最大一致子本体。三、本体分割算法。对任意一个规则的OffL本体,返回它的最小割集。算法演示平台综合了以上三种算法,从而可以更加方便地对这些算法进行测试, 此外在这个平台的基础上以及对大规模语义知识库的整体设计上,将不一致性处理算法整合到知识库的管理接口中来,实现了对大规模语义知识库的一致性管理。以下通过具体实施方式
的描述,进一步说明本发明的技术方案1.大规模语义知识库设计我们将这个大规模语义知识库设计成由一个主服务器控制多个辅助数据服务器的模式。如图1所示,该分布式本体管理体系架构以知识总线控制器为边界,分为两个部分。上面的是全局知识管理系统,下面的是位于分布式数据服务器上的局部数据管理系统。这两个部分通过知识总线控制器和一套标准的知识通信指令进行交互,最终完成知识库的管理工作。局部数据管理系统位于辅助数据服务器上,负责监听总线传来的指令,并返回所需数据,维护局部数据的存储与管理。全局知识管理系统则位于主服务器上,负责统筹、维护和应用本体知识库的功能。首先该系统需要一个局部服务器索引用来记录局部服务器的信息,如通信地址、本体列表、局部服务器状态等信息。然后查询运行核心程序需要查询该索引信息,并发出多播和广播指令。API解释器相当于一个适配器,将上层五花八门的API 请求,解释成基础的核心查询指令,以此来支持系统运行。全局知识库管理器则是一个特殊的程序,它不停地运行于主服务器后台,并执行本体知识库推理和演化算法,不断地优化知识库结构和存储,其作用应该包括一致本体视图抽取、本体合并、本体分割、负载均衡等。2.本体合并算法如图2所示,为本体合并算法流程,使用Jena进行本体的合并时,首先找到两个输入本体之间实体的关联,然后指定一个本体A作为基本体,将另一个本体B导入本体A中, 然后在合并本体B中添加关联描述,则得到了所需的合并后的本体结果。合并后的本体可能会存在不一致性anconsistency)的情况,这时可以采用Jena或者Pellet进行一致性验证。例如,在本体B中添加完关联描述以后就可以调用Jena或者Pellet的推理器接口 (Reasoner),进行一致性验证了。如果不一致,则可通过再次调用Jena或者Pellet的推理器接口(Reas0ner)检验是哪些概念导致了本体不一致性的出现。本体合并算法的核心以及主要计算量集中在寻找本体之间的实体关联。寻找关联的原则主要有两类基于实体字符串距离,借助外部语义工具(如WordNetJikipedia)。基于第一类原则的方法主要是构造一个距离矩阵,通过计算字符串相似度算法,求得每一对实体名之间的距离,距离最近的实体即认为是有关联的实体。在ontosim中,作者提供了多种计算字符串距离的算法,这些算法可以很方便的与Alignment API结合。借助该API的帮助,我们可以比较各种算法的结果,并且与标准结果进行比较等功能。在本发明中,为了简化上述字符串距离算法,假定如果字符串相等,则距离为0,否则为1。基于第二种原则的方法则是通过对外部语义工具的调用,找到实体名之间的关联度,关联度最小的即认为是有关联的实体。例如,BLOOMS系统利用了 Wikipedia的分类系统(category hierarchy),对每对即将合并的类名,调用Wikipedia的服务(Webservice) 得到它所属的种类(category),递归得到一个高度为4的树,比较这些树之间的重合度,得到类之间的关系是相等、子类还是无关。此外,在Alignment API中,利用WordNet的合并算法可以很方便地找到两个概念之间的语义距离。这两种原则在实际中都取得了比较好的效果。3.本体不一致性处理算法本发明考虑的本体是采用OWL语言描述的本体,而OWL语言遵循的逻辑基础是描述逻辑的子集。在逻辑中,矛盾可以推导出一切,因而一个不一致本体是不能直接用来推理的。但现实环境中,因为知识的不完全性以及随时间的动态演化性,使得知识的不一致性不可避免。因而我们需要寻找一种方法来解决在不一致环境下的本体推理。一种常用的方法就是构造不一致本体的临时最大一致子本体。如图3所示,为计算最小不一致子本体的算法流程。简单说来,对每个不一致本体,第一步,计算不一致本体的不可满足概念集;第二步,读取每一个不可满足概念的最小不一致子本体从每个不一致子本体中抽取一个三元组(如果子本体有相交,则抽取相交部分的三元组),组成三元组集合;从原本体中去除这个三元组集合,使得所有不一致本体一致,即得到了最大一致子本体;例如,定位本体0的最小子集0’,使得0’不能满足概念C。换句话讲,概念C在本体0的任意一个最大真子集中得到满足,且在最小子集0’中不能满足。本算法将可用于确定抽取一致本体的规模的上限。4.本体分割算法现实Web环境中存在各种规模的本体数据,特别是一些专业组织开放的本体。如果要将这些大规模本体添加到一个本体知识库中,必须将其分割成小本体,以有利于知识库的存储和推理的效率。如果将类看作节点,类之间的关系(子类、互斥等)看作边,则其存储结构就是一张图。在实现本体分割算法的时候,可以将该视图看作无向图,并借鉴图论中求割点(关节点)的算法进行分割。这里的图是指一种复杂的数据结构。数据元素间的关系是任意的。其他数据结构(如树、线性表等)都有明确的条件限制,而图形结构中任意两个数据元素间均可相关联。如图4所示,为本体分割算法流程。给定一个本体的视图,首先将其转化为图形结构,然后判断其是否全连通,如果全连通则计算最小割集(包括割点与割边),根据割集分割;如果不是全连通,则计算极大连通子图,然后根据子图进行分割。该本体分割算法的主要过程就是求关节点。求关节点的过程就是一次深度优先遍历的过程,该算法的时间复杂度为0(n+e)(其中η为节点数,e为边数)。该算法仅仅针对本体结构上的划分;若再结合本体的语义等信息的考虑,本发明另外提出了一个模块化本体的表示和推理的框架,这种模块化表示可以看做本体分割的进一步深化,本发明的本体模块化具有以下三个特征松耦合性(loose coupling)、自包含性(self-containment)与完整性(integrity)。
权利要求
1.一种大规模语义知识库的动态维护系统,该系统包括主服务器、分布式数据服务器以及存储采用OffL语言描述的本体知识库,其特征在于,该系统还包括部署于主服务器上的全局知识管理系统和部署于该系统的分布式数据服务器的局部数据管理系统,所述全局知识管理系统和所述局部数据管理系统通过知识总线控制器,以一套标准的知识通信指令进行交互,其中局部数据管理系统,用于监听通过总线MULE传送来的指令并根据总线返回的控制流指令返回本体处理数据,实现语义知识库动态维护算法数据的存储与管理,包括本体的合并、分割以及不一致性处理;全局知识管理系统,用于统筹、维护和应用本体知识库,该系统包括局部服务器索引,该索引用来记录位于辅助数据服务器上的局部服务器的标注的信息,然后位于主服务器上负责统筹、维护和应用本体知识库的全局知识管理系统运行核心处理,依据请求查询相应索引信息,并发出多播和广播指令;API解释器,用于将来自上层的功能API的请求,解释成基础的核心查询指令,支持系统运行;全局知识库管理模块,运行于主服务器后台,用于执行本体知识库推理和演化算法,优化知识库结构和存储,实现一致本体视图抽取、本体合并、本体分割、负载均衡,具体算法如下本体合并算法,首先找到两个输入本体之间实体的关联,然后指定一个本体A作为基本体,将另一个本体B导入本体A中,然后在合并本体B中添加关联描述,则得到了所需的合并后的本体结果;本体不一致性处理算法,对每个不一致本体,计算不一致本体的不可满足概念集;读取每一个不可满足概念的最小不一致子本体从每个不一致子本体中抽取一个三元组,如果子本体有相交,则抽取相交部分的三元组,组成三元组集合;从原本体中去除这个三元组集合,使得所有不一致本体一致;得到最大一致子本体;本体分割算法,给定一个本体,首先将其转化为图形结构,然后判断其是否全连通,如果全连通则计算最小割集,包括割点与割边;根据割集分割;如果不是全连通,则计算极大连通子图,然后根据子图进行分割。
2.如权利要求1所述的大规模语义知识库的动态维护系统,其特征在于,所述局部服务器的标识信息包括如通信地址、本体列表、局部服务器状态信息。
3.如权利要求1所述的大规模语义知识库的动态维护系统,其特征在于,所述找到两个输入本体之间实体的关联的步骤,具体包括基于实体字符串距离构造一个距离矩阵,通过字符串距离计算算法,求得每一对实体之间的距离,距离最近的实体即认为是有关联的实体。
4.如权利要求3所述的大规模语义知识库的动态维护系统,其特征在于,所述字符串距离计算算法采用ontosim中的符串距离计算算法。
5.如权利要求1所述的大规模语义知识库的动态维护系统,其特征在于,所述找到两个输入本体之间实体的关联的步骤,该步骤的具体实现包括以下步骤通过对外部语义工具的调用,找到实体名之间的关联度,关联度最小的即认为是有关联的实体;
6.如权利要求1所述的大规模语义知识库的动态维护系统,其特征在于,所述外部语义工具为 WordNet 或 Wikipedia。
7.如权利要求1所述的大规模语义知识库的动态维护系统,其特征在于,所述通过总线MULE传送来的指令,该指令文件名必须与ontologyURI —致。
全文摘要
本发明公开了一种大规模语义知识库的动态维护系统,该系统包括主服务器、分布式数据服务器以及存储采用OWL语言描述的本体知识库,其特征在于,该系统还包括部署于主服务器上的全局知识管理系统和部署于该系统的分布式数据服务器的局部数据管理系统,所述全局知识管理系统和所述局部数据管理系统通过知识总线控制器,以一套标准的知识通信指令进行交互,与现有技术相比,本发明大规模语义知识库本体的优化,从而减少存储规模,以及优化推理和查询的效率。
文档编号G06F17/30GK102402599SQ20111036604
公开日2012年4月4日 申请日期2011年11月17日 优先权日2011年11月17日
发明者冯志勇, 贾彪, 饶国政 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1