保证语义正确性的动态分层集成数据访问方法

文档序号:6385968阅读:238来源:国知局

专利名称::保证语义正确性的动态分层集成数据访问方法
技术领域
:本发明涉及数据工程领域的集成数据访问方法。
背景技术
:数据是驱动现代企业业务发展的关键要素之一,实现数据资产业务价值的最大化是当代企业的首要目标之一。然而,虽然企业数据资产的逐年递增,但是当前利用信息的能力和手段仍然相对落后,信息过载(InformationOverloading)问题已经越来越成为困扰人们的难题。造成这一问题的根本原因在于人们在信息系统的建设过程中忽视顶层规划和设计,导致现有的数据环境异常复杂,数据的综合利用难度极大。因此,企业和科研机构在数据集成和访问方面的投入开始逐年增加。有调查表明,到2012年为止,全球在数据集成和访问技术方面的投入将会增长到30亿美元以上。数据集成技术已经发展了三十多年,到目前为止可分为以数据仓库为代表的物化集成方式(MaterializedApproach)和以Wrapper/Mediator为代表的虚拟集成方式(VirtualApproach)。其中,前者建造和维护的成本高昂,时效性也存在明显缺陷;而后者则较为灵活,更适合于对Web环境下自治、分布式的关系数据源进行集成。现有的数据集成方案通常在语法层面或者术语语义层面解决关系数据库的模式异构问题,经常无法向上层应用提供优质、正确的数据,因而难以支持企业智能决策向更加高端的方向发展。目前基于本体进行数据集成和访问的研究已经有了多年的发展,虽然已经取得了一定成果,但是尚未有能够解决集成数据访问的解决方案。现有的研究成果可归为三类(I)仅以解决模式异构问题为目标的传统的基于本体的数据集成方法,(2)以解决术语级语义的数据访问为基本目标的数据访问方法(3)以解决模式级语义的数据访问为基本目标的数据访问方法。1.传统的基于本体的集成数据访问方法本体技术于上世纪90年代中期出现并最先应用于数据集成领域。但是长期以来,本体的主要作用是充当领域的共享词汇集,人们希望通过本体来屏蔽对数据源描述的差异。MichaelGruninger等人在1996年的第十二届人工智能大会上提出,本体是足够描述领域知识的一个公理集合。传统基于本体的集成数据访问方法对本体的定位较低,在集成过程中并不关注本体中的公理类型以及本体自身的表达能力和推理复杂度,而且在查询处理过程中通常不涉及本体的ABox推理(这里的ABox是指依据本体公理定义而表示的个体信息)。比较有代表性的系统有1996年在期刊《AdvancedPlanningTechnology》上的文章QueryProcessingintheSIMSInformationMediator中公布的SIMS(SearchInMultipleSource)系统、1996年在第一届国际协作信息系统大会上的文章Anapproachforqueryprocessinginglobalinformationsystemsbasedoninteroperabilitybetweenpre-existingontologies中公布的OBSERVER(OntologyBasedSystemEnhancedwithRelationshipsforVocabularyhEterogeneityResolution)项目、1997年在ACM大会上的文章Thecontextinterchangemediatorprototype中公布的COIN(COntextINterchange)项目等。依据引入本体的数量和方式,通常可以区分为单本体方式(如SMS)、多本体方式(如OBSERVER)和混合方式(如COIN)。传统的基于本体的集成数据访问方法主要解决异构数据源集成问题,其数据访问并不能提供给用户高质量的数据,即无法保证数据语义的正确性。因而,通常本体在这类系统所起到的作用有限,查询处理的过程通常并不涉及本体的ABox推理。2.面向术语级语义的数据访问方法面向术语级语义的数据访问同样利用了本体的共享词汇集功能,其主要的研究分支包括基于本体的数据库检索(Ontology-BasedDatabaseRetrieval,0BDR)、关联数据(LinkedData)等等。其中,OBDR的基本思想是在大规模本体支持下,建立高效的语义索引,进而快速计算术语之间的语义相似度,提高查询结果的查全率和查准率。例如,中国人民大学数据工程与知识工程实验室开发的S1-SEEKER系统就是这样一类系统。关联数据技术的基本思想是将关系数据库中的数据转换成语义Web上的标准数据格式(如RDF等),然后基于语义Web平台和SPARQL查询语言来进行数据的查询。例如著名的DBPedia、D2RQ等都属于这一类解决方案。此外,国内浙江大学的DartGrid系统也是一种面向术语级语义的数据访问系统,主要利用RDF本体的表达能力实现较低层次的数据集成和访问,而且DartGrid本身是面向中医药领域的一个应用。面向术语级语义的数据访问通常能够从术语的角度给出和术语语义相关的查询结果。然而,术语本身的语义通常会出现同名异义、同义异名等问题,而且仅仅依据术语自身语义所给定的语义约束过少,因而经常无法保证返回给用户的数据是语义完全正确的数据,通常用查准率衡量正确获得数据的概率。查询扩展重写是在集成数据访问中,通过定义好的相关重写规则对用户查询进行重写,将全局模式上的查询重新阐释为数据源模式上的查询的过程,是语义查询处理的重要阶段。现有的查询重写算法有桶算法、逆规则算法、PerfectRef算法等。这几种算法在重写方式上有着不同的缺陷。比如PerfectRef算法,其执行效率取决于查询数据的规模和本体TBox的规模,数据规模过大时,重写时间将大幅增加。3.面向模式级语义的数据访问方法近年来,面向模式级语义的数据访问方法开始成为人们关注的热点问题。由DiegoCalvanese等人提出的OBDA方法主要面向大规模数据访问,将数据访问系统分为服务层、语义层和数据层。服务层主要关注数据访问系统向用户提供的服务,如语义查询和推理服务等;语义层包括本体、推理机和语义映射,封装为所谓的OBDA-Enabled系统;数据层则包括关系数据库和DBMS。Bozen-Bolzano自由大学和SAPIENZAUniversitadiRoma大学基于OBDA方法开发了的OBDA-Plugin原型系统。OBDA-Plugin是一款Prot6g6插件,用户可以定制EQL或者SPARQL查询对关系数据库访问。OBDA采用DL-Lite本体和Quonto推理机实现OBDA-Enabled系统,具有较好的数据访问性能。但是由于OBDA-Plugin采用全局局部视图法(GlobalandLocalAsView,GLAV)映射进行关系数据库和本体的连接,用户仍然需要花费大量的时间来手工构造GLAV映射,并不便于使用。此外,由于OBDA方法将关系数据库本身作为本体的“虚拟ABox”,这种局限使得该方法只能支持对单个数据库的访问。为了将OBDA方法应用于集成数据访问,Diego等人又设计了Mastix)-1。该集成数据访问系统采用DL-LiteA作为全局模式,首先借助IBMDB2InformationIntegrator数据源的联合,然后将全部的关系数据源看作一个整体进行基于本体的数据访问。Mastro-1将模式异构的问题交给已有的集成工具去做,本体不再承担Mediator的作用,凸显了其数据访问的功能。然而,这种做法的缺陷在于访问过程中对集成环境中存在的语义冲突问题无法控制,完全取决于底层数据联合工具的性能,这将影响到数据访问的效率和语义正确性。综上所述,基于本体的集成数据访问技术虽然已经有了多年的发展和积累,但是目前仍然存在诸多瓶颈问题尚未得到解决。因此,要实现语义正确的集成数据访问还需要寻找新的思路,在现有研究成果的基础上进行新的突破。
发明内容本发明要解决的技术问题在于如何在大规模关系数据库集成条件下,提供语义完全正确的数据访问,且使得查询响应时间不会随着数据规模的增加而出现急剧增加。为了解决上述技术问题,本发明提出的技术方案为使用分层TBox技术和动态ABox技术来改进集成数据访问的查询流程,使用LAV+0-GAV(LAV-LocalAsView,即局部视图法;0-GAV-0bject-GlobalAsView,即面向对象的全局视图法)方式的语义映射来解决集成数据访问中遇到的问题,使用虚拟对象作为查询处理的基本单元,以便对集成环境中的数据实现动态分层的数据访问和筛选。·具体技术方案为第一步,对DL-Lite系列中表达能力较强的描述逻辑子集DL_LiteA进行扩展,得到DL-Lite=,其中DL-Lite系列是一种保证在大型数据集上仍然具有多项式级时间的推理的轻量级的描述逻辑,可以参考DiegoCalvanese等在2005年第二十届AAAI会议发表的论文“DL-Lite:—种易处理的本体描述逻辑”(DL_Lite:TractableDescriptionLogicsforOntologies)。扩展方式为1.1增加值约束;1.2增加非受限数量约束;1.3增加对称关系、反对称关系、自反关系和反自反关系;1.4去除角色包含公理;第二步,基于DL-Lite^描述逻辑进行本体TBox分层。这里的本体是在OWLlDL(0WL1的子语言,可在确保计算完整性和可决定性的前提下提供最大程度的表达能力)本体的基础上应用SWRL(SemanticWebRuleLanguage,是以语义的方式呈现规则的一种语言)规则得到的,具有一阶逻辑的表达能力。本体TBox是以术语集的形式表达内涵知识,用公理定义概念及概念之间的关系。如附图3所示,本体TBox分层的步骤如下2.1将满足DL-Litgwi中肯定概念包含公理的子集从本体TBox中划分出来,作为第一个分层,记作TQ。将这一部分公理单独划分出来集中处理是为了提升效率,因为在查询重写过程中,需要对概念之间的包含关系进行推理。2.2将满足DL-Lite^^中角色与概念特性的约束性公理、否定包含公理的子集从本体TBox中划分出来,作为第二个分层,记作Tcst。DL-Lite=本体自身的约束公理较少,但是具有较好的联合复杂度性能,因而对于仅需要完成集成数据访问的用户来说,通常只需要找到满足这一部分公理约束的个体。2.3将满足OWLlDL本体中其他无法由DL-Lite^vJg法构造进行等价代换的剩余公理子集(该子集包含的公理有概念的交和并、命名个体、角色传递、角色包含和等价运算)的子集从本体TBox中划分出来,作为第三个分层,记作;,满足这一层约束公理的个体是OffLlDL本体的合法实例。但是,当上层应用给定的公理约束超出DL-Lite^本体的范畴时,用公理进行验证的性能将大幅度下降。2.4将用SWRL描述的Horn逻辑规则从本体TBox中划分出来,作为第四个分层。采用SWRL之后,知识库将具有相当于一阶逻辑的表达能力。此时,对数据访问的语义正确性不仅仅取决于本体是否存在模型,而且还在于实例是否满足SWRL规则。采用上述分层TBox模型的好处在于可以使查询处理更为灵活,兼顾了知识表示对表达能力的要求和数据访问对本体推理复杂度的要求。这里的层次划分采用了分而治之的思想,可以有效数据访问中的针对性,为接下来的操作奠定了基础。第三步,建立关系数据库和本体之间的LAV映射和O-GAV映射。其中,LAV是局部视图法,O-GAV是面向对象的全局视图法,具体步骤如下3.1基于概念连接图(概念连接图为二元组〈CNode,Edge〉,其中,节点集合CNode中的元素为本体中一般概念,边集合Edge中的元素描述了CNode中概念之间的连接关系)和实体树(实体树的根节点为DLiite^本体中的概念,且该概念描述了关系模式中隐含的一个实体集,叶节点为一个序偶〈col,dp>,其中col为关系模式中的列,dp为本体中的概念特性。)构造LAV映射。LAV映射构造过程分为5个步骤(详细过程见VisualizingSemanticMappingsBasedonViewGraph.1n:SecondInternationalSymposiumonKnowledgeAcquisitionandModeling.2009,唐富年于2009年在第二届国际知识获取与建模研讨会上发表的文章“基于视图的`可视化语义映射”),编码生成表示和存储LAV映射的XML文件。3.2采用面向对象的全局视图0GMG(O-GAVMappingGeneration)方法构造0-GAV映射。方法是3.2.1根据分层TBox的Tq分层进行LAV映射分类。通过遍历Tq中的概念集合和LAV映射集合,将含有同一概念的LAV映射分为一类。3.2.2依据LAV映射中的标识变量对映射中隐含的语义信息进行划分。由于在LAV映射编码的过程中同一棵实体树的信息均使用同一变量标识,因此将同一LAV映射中使用同一变量标识的合取项分为一类。3.2.3构造O-GAV映射的首部和体部。根据与同一概念相关的合取项分别构造O-GAV映射的首部和体部,其中,首部是只包含基本概念的映射,其余部分为映射的体部。LAV映射中隐含了对应的信息,很容易根据重组后的对象信息建立SQL查询,将内涵知识与外延事实对应起来。3.2.4合并O-GAV映射,将属于同一概念体的信息加以整合,即对首部中包含同一概念信息的O-GAV映射进行合并。3.2.5对O-GAV映射进行编码,得到包含O-GAV映射的映射文件;第四步,采用SuperRef算法扩展重写语义查询,方法是SuperRef扩展重写算法的思想是从TBox的Tq部分选取公理构造概念连接图,使得通过一次TBox扫描直接获取全部可应用于用户查询的公理,避免对大量与查询重写无关的公理进行多次重复扫描。4.1将用户查询中原子查询即由本体中的一元谓词或二元谓词构成的公式所包含的谓词作为搜索重写可达图的初始节点,重写可达图是以Tq中可用于扩展查询重写的谓词为节点,以符合重写规则的公理为边的一个有向图,且各条有向边的方向从包含公理右端的谓词指向包含公理左端的谓词;4.2选择初始节点为当前节点;4.3搜索当前节点是否存在未访问子节点,若存在,进行4.4,若不存在,转4.6IK少;4.4选择当前节点的任一未访问子节点,根据当前节点和所选子节点间存在的公理及该子节点的谓词,对当前节点的查询进行重写,将重写后的查询语句放到查询语句集合中,并将该子节点标记为已访问;4.5将该子节点作为当前节点,转4.3步;4.6判断当前节点是否为初始节点,若是,转4.8步,若不是,进行4.7;4.7令当前节点的父节点作为当前节点,转4.3步;4.8查询扩展重写过程结束,得到对用户查询扩展重写的查询语句集合。第五步,构造动态ABox。构造动态ABoxAq的步骤为5.1对扩展重写查询语句集合中的每一个合取查询(将多个原子查询合取得到一个总体的结果,该结果为各原子查询结果的交集),按照概念原子中包含的变量对查询进行划分,如果概念原子中的变量为共享变量,则将含有该共享变量的其他原子与该概念原子划分为同一组,若无共享变量则单独成组。划分后的每一组都描述了一个概念体的信息。5.2根据分组后的查询在O-GAV映射文件中进行查找,得到与该查询分组描述同一概念体的O-GAV映射。5.3根据映射从关系数据库中获取数据,得到虚拟对象集合,并且根据O-GAV映射构造断言(一般一个虚拟对象对应I或多条断言),进而形成动态ABoxAqAq中的元素是虚拟对象集合中的各虚拟对象的断言。第六步,对ABoxAq进行求精。6.1依据Tcst对Aq中的虚拟对象的断言进行检验,去除动态ABoxAq中不满足Tcst约束的虚拟对象的断言,得到一个相对于Tcsiτ0—致(与—致表示同时满足Tcst和Tq的约束)的动态ABoxAest。若数据源仅基于DL-Litegw本体集成,则Aest中的虚拟对象即为求精后的满足本体约束的实例,可作为查询结果应答用户查询,转第七步;6.2若数据源基于OWLlDL本体集成,则依据I;对Acst中的虚拟对象的断言进行检验,去除动态ABoxAest中不满足I;约束的虚拟对象,得到一个相对于Test热TqTr一致的动态ABoxAfttl,则Acm中的虚拟对象即为求精后的满足本体约束的实例,可作为查询结果应答用户查询,转第七步;6.3若数据源基于应用了SWRL规则的OWLlDL本体集成,则判断Acm中的虚拟对象的断言是否满足SWRL规则,去除不满足SWRL规则的虚拟对象,得到一个相对于Tfct热TqTr一致并满足SWRL规则的动态ABoxAre,则Acm中的虚拟对象即为求精后的满足本体约束的实例,可作为查询结果应答用户查询;第七步,返回查询应答结果。与现有技术相比,采用本发明可以达到以下技术效果1.本发明采用分层TBox和动态ABox能够有效降低计算复杂度,并且能够满足集成数据访问中对于语义正确性的需求本发明中第一步对描述逻辑子集行扩展得到DL-Lite=,第四步采用SuperRef算法对查询进行扩展重写。由于本发明以DL-Lit^wt描述逻辑子集作为集成数据访问内核,并且针对不同的TBox分层灵活构建动态ABox,因而能够很好的解决现实需求在本体的表达能力和计算复杂度之间的固有矛盾,当本体ABox规模超过IO4以上时,本发明在集成数据访问方面表现出巨大的优势。2.本发明在扩展查询重写的效率上具有较为明显的优势。本发明第四步采用SuperRef算法对查询进行扩展重写,避免了对TBox的大量重复搜索。目前的扩展重写在重写过程中要对TBox中的所有公理进行遍历,但是当TBox规模较大时,如果每次重写都对TBox中的全部公理进行遍历,那么如果查询的规模较大时,则搜索空间将呈指数级增长。但本发明采用的SuperRef算法每次遍历TBox时仅对那些和查询相关的公理进行搜索,且搜索只需要在第一个TBox分层进行,因此搜索空间相对要小得多。实验比较效果如图6所示。3.本发明通过第五步构造动态ABox,能够支持大规模的数据访问,降低算法复杂度。现有的基于本体的数据访问方法通常需要限制数据访问规模。本发明中引入的动态ABox与查询相关,仅将那些与查询相关的数据引入到ABox中,没有将整个集成环境中的数据全部物化为本体的实例,因此参与本体推理的数据规模大幅度下降。动态ABox和常规ABox相比更加灵活,它与分层TBox相互配合,形成了一条完整而独特的数据访问路线,如附图5所示。从附图5中可以看到,查询响应时间与数据规模大体上呈对数关系变化,说明本发明在性能上较为稳定,查询响应时间不会随着数据规模的增加而出现急剧增加。(其中,Ql表示概念带有子类的查询,Q2表示概念不带有子类的查询,Q3表示对满足角色定义域约束的查询,Q4表示对满足概念属性条件的对象的查询,Q5表示对满足概念约束且参与二元关系的对象的查询,Q6表示满足二元关系的对象的查询)4.本发明能够向用户提供语义完全正确的数据。本发明第三步建立了关系数据库和本体之间的LAV+0-GAV映射,LAV映射能够明确地描述关系模式的语义,不但便于扩展和重用,而且能够通过基于概念连接图和实体树的方法实现映射的半自动化构造;0-GAV映射的构造需要借助本体中的知识对LAV中隐含的关系数据库语义进行重组,建立本体中特定元素集合(描述了本体中的一部分内涵知识)和与该元素集合描述的内涵知识相应的外延知识(以关系表形式存储)之间的联系。在LAV映射和O-GAV映射正确的前提下,本发明第四步采用SuperRef算法扩展重写语义查询可保证语义正确性,且能够确保提交给用户的数据都是满足本体中公理约束的数据,都是通过本体中的语义关系进行重组之后的数据,与传统数据集成和访问方法中提交给用户的元组有本质不同。因为本体中的公理越多也就意味着语义约束越多,查询得到的结果也就越准确。图1是本发明的总体流程图。图2是本发明第一步从DL_LiteA到DL-Litelvi的扩展示意图。图3是本发明中TBox分层示意图。图4是本发明中动态ABox构造及查询求精的示意图。图5是本发明中的数据规模和查询响应时间的关系效能实验图。图6是发明中使用的SuperRef算法和已有的PerfectRef算法的重写时间对比图。具体实施例方式图1是本发明的总体流程图。本发明包括以下步骤第一步,对DL_LiteA描述逻辑子集进行扩展得到DL-Lite^tt;第二步,基于DL-Lke^描述逻辑进行本体TBox分层;第三步,建立关系数据库和本体之间的LAV映射和O-GAV映射;第四步,采用SuperRef算法对用户查询进行扩展重写;第五步,构造动态ABox;第六步,对根据用户查询得到的虚拟对象集合进行求精;第七步,返回查询应答结果。图2是本发明第一步从DL_LiteA到DL-Litefwi的扩展示意图,包括以下步骤(I)增加值约束;(2)增加非受限数量约束;(3)增加对称关系、反对称关系、自反关系和反自反关系;(4)去除角色包含公理。图3是本发明第二步基于DL-Litfw描述逻辑进行本体TBox分层示意图,包括以下步骤(I)将满足DL-LitC中肯定概念包含公理子集划分出来作为第一个分层Tq;(2)将满足DL-Lite^i中角色与概念特性的约束性公理、否定包含公理子集划分出来,作为第二个分层Tcst;(3)将满足OWLlDL本体中其他无法由语法DL-LC构造进行等价代换的剩余公理子集划分出来,作为第三个分层I;;(4)将用SWRL描述的Horn逻辑规则划分出来,作为第四个分层;图4是本发明第五步动态构造ABox及第六步查询求精的示意图。主要包括以下步骤第五步,(I)对用户查询进行扩展重写,并根据O-GAV映射得到虚拟对象集合,进而形成动态ABoxAq;第六步,根据分层Tbox对虚拟对象集合Aq进行求精6.1依据Tcst对Aq中的虚拟对象的断言进行检验,去除动态ABoxAq中不满足Tcst约束的虚拟对象的断言,得到一个相对于TfwTe—致的动态ABoxAcst;6.2若数据源基于OWLlDL本体集成,则依据I;对Acst中的虚拟对象的断言进行检验,去除动态ABoxAcst中不满足I;约束的虚拟对象,得到一个相对于Test热TqTr一致的动态ABoxA0wl;6.3若数据源基于应用了SWRL规则的OWLlDL本体集成,则判断Aqw1中的虚拟对象的断言是否满足SWRL规则,去除不满足SWRL规则的虚拟对象,得到一个相对于Tfct热TqTr一致并满足SWRL规则的动态ABoxAqs。图5是本发明中的数据规|旲和查询响应时间的关系效能实验图。图中横座标表不数据规模,纵座标表示查询响应时间,Ql表示概念带有子类的查询,Q2表示概念不带有子类的查询,Q3表示对满足角色定义域约束的查询,Q4表示对满足概念属性条件的对象的查询,Q5表示对满足概念约束且参与二元关系的对象的查询,Q6表示满足二元关系的对象的查询。显示的查询响应时间与数据规模大体上呈对数关系变化,这说明本发明的查询处理方法在性能上较为稳定,查询响应时间不会随着数据规模的增加而出现急剧增加。图6是发明第四步使用的SuperRef算法和已有的PerfectRef算法的重写时间对比图。横座标表示14个代表不同特征的LUBM测试基准数据,纵座标是重写响应时间,图中显示在不同数量的查询次数情况下,SuperRef算法均比PerfectRef算法具有更短的重写时间。权利要求1.ー种保证语义正确性的动态分层集成数据访问方法,其特征在于包括以下步骤第ー步,对DL-Lite系列中的描述逻辑子集DL-LiteA进行如下扩展,得到DL-LiteニT,DL-Lite是ー种保证在大型数据集上仍然具有多项式级时间的推理的描述逻辑。1.1増加值约束;1.2増加非受限数量约束;1.3增加对称关系、反对称关系、自反关系和反自反关系;[1.4去除角色包含公理;第二步,基于DしLite:.,描述逻辑进行本体TBox分层,这里的本体是在OWLlDL本体的基础上应用SWRL规则得到的,具有一阶逻辑的表达能力;其中,本体TBox是描述概念之间相互关系的术语公理集,OffLlDL是OWLl的子语言,SffRL是以语义的方式呈现规则的ー种语言;本体TBox分层的步骤如下[2.1将满足DL-Lite^w中肯定概念包含公理的子集从本体TBox中划分出来,作为第一个分层,记作Tq;[2.2将满足DL-Litel1中角色与概念特性的约束性公理、否定包含公理的子集从本体TBox中划分出来,作为第二个分层,记作Tcst;[2.3将满足OWLlDL本体中其他无法由Dししゎ;^语法构造进行等价代换的剩余公理子集从本体TBox中划分出来,作为第三个分层,记作I;,满足这一层约束公理的个体是OWLlDL本体的合法实例,剩余公理子集包含的公理有概念的交和并、命名个体、角色传递、角色包含和等价运算;[2.4将用SWRL描述的Horn逻辑规则从本体TBox中划分出来,作为第四个分层;第三步,建立关系数据库和本体之间的LAV映射和O-GAV映射,其中,LAV是局部视图法,O-GAV是面向对象的全局视图法,具体步骤如下[3.1基于概念连接图和实体树构造LAV映射,编码生成表示和存储LAV映射的XML文件,所述概念连接图为ニ元组〈CNode,Edge〉,CNode为概念连接图中的节点集合,Edge为概念连接图中的边集合;所述实体树的根节点为DしLiteごm本体中的概念,描述关系模式中隐含的一个实体集,实体树的叶节点为一个序偶〈col,dp>,其中col为关系模式中的列,dp为本体中的概念特性;[3.2采用面向对象的全局视图OGMG方法构造O-GAV映射,方法是[3.2.1根据分层TBox的Tq分层进行LAV映射分类,通过遍历Tq中的概念集合和LAV映射集合,将含有同一概念的LAV映射分为ー类;[3.2.2依据LAV映射中的标识变量对映射中隐含的语义信息进行划分,将同一LAV映射中使用同一变量标识的合取项分为ー类;[3.2.3构造O-GAV映射的首部和体部根据与同一概念相关的合取项分别构造O-GAV映射的首部和体部,其中,首部是只包含基本概念的映射,其余映射为映射的体部;[3.2.4合并O-GAV映射,将属于同一概念体的信息加以整合,即对首部中包含同一概念信息的O-GAV映射进行合并;[3.2.5对O-GAV映射进行编码,得到包含O-GAV映射集合的映射文件;第四步,采用SuperRef算法对查询进行扩展重写,方法是·4.1将用户查询中的原子查询,即由本体中的一元谓词或ニ元谓词构成的公式所包含的谓词,作为搜索重写可达图的初始节点,重写可达图是以Tq中可用于扩展查询重写的谓词为节点,以符合重写规则的公理为边的ー个有向图,且各条有向边的方向从包含公理右端的谓词指向包含公理左端的谓词;·4.2选择初始节点为当前节点;·4.3搜索当前节点是否存在未访问子节点,若存在,进行4.4,若不存在,转4.6步;·4.4选择当前节点的任一未访问子节点,根据当前节点和所选子节点间存在的公理及该子节点的谓词,对当前节点的查询进行重写,将重写后的查询语句放到查询语句集合中,并将该子节点标记为已访问;·4.5将该子节点作为当前节点,转4.3步;·4.6判断当前节点是否为初始节点,若是,转4.8步,若不是,进行4.7;·4.7令当前节点的父节点作为当前节点,转4.3步;·4.8查询扩展重写过程结束,得到对用户查询扩展重写的查询语句集合;第五步,构造动态ABox,方法是·5.1对扩展重写查询语句集合中的每ー个合取查询,按照概念原子中包含的变量对查询进行划分,如果概念原子中的变量为共享变量,则将含有该共享变量的其他原子与该概念原子划分为同一组,若无共享变量则単独成组,划分后的每ー组都描述了ー个概念体的信息;所述合取查询是指将多个原子查询合取得到一个总体的結果,该结果为各原子查询结果的交集;·5.2根据分组后的查询在O-GAV映射文件中进行查找,得到与该查询分组描述同一概念体的O-GAV映射;·5.3根据O-GAV映射从关系数据库中获取数据,得到虚拟对象集合,并且根据O-GAV映射构造断言,进而形成动态ABoxAq,Aq中的元素是虚拟对象集合中的各虚拟对象的断言;第六步,对ABoxAq进行求精·6.1依据Tcst对Aq中的虚拟对象的断言进行检验,去除动态ABoxAq中不满足Tcst约束的虚拟对象的断言,得到ー个相对于ETe—致的动态ABoxAcst,所述与Tcn—致表示同时满足Tcst和Tq的约束,Tcsf^!^是指Tcst和Tq的并集;若数据源仅基于DL-Lite=本体集成,则Aest中的虚拟对象即为求精后的满足本体约束的实例,可作为查询结果应答用户查询,转第七步;·6.2若数据源基于OWLlDL本体集成,则依据I;对Acst中的虚拟对象的断言进行检验,去除动态ABoxAest中不满足I;约束的虚拟对象,得到ー个相对于Test热TqTr一致的动态ABoxA0wl,则Acm中的虚拟对象即为求精后的满足本体约束的实例,可作为查询结果应答用户查询,转第七步;·6.3若数据源基于应用了SWRL规则的OWLlDL本体集成,则判断Acm中的虚拟对象的断言是否满足SWRL规则,去除不满足SWRL规则的虚拟对象,得到ー个相对于Test热TqTr一致并满足SWRL规则的动态ABoxAos,则A0wl中的虚拟对象即为求精后的满足本体约束的实例,可作为查询结果应答用户查询;第七步,返回查询应答結果。全文摘要本发明公开了一种保证语义正确性的动态分层集成数据访问方法,目的是解决如何在大规模关系数据库集成条件下,提供语义完全正确的数据访问。技术方案为,先对描述逻辑子集DL-LiteA进行扩展得到然后基于描述逻辑进行本体TBox分层,并建立关系数据库和本体之间的LAV映射和O-GAV映射。再根据TBox分层中的TQ,采用SuperRef算法对查询请求进行扩展重写,构建包含查询结果动态ABoxAQ。最后,对ABoxAQ进行求精,返回查询应答结果。采用本发明能够向用户提供语义完全正确的数据,满足集成数据访问中对于语义正确性的需求,且可降低计算复杂度,提高扩展查询重写的效率。文档编号G06F17/30GK103049555SQ20121058660公开日2013年4月17日申请日期2012年12月30日优先权日2012年12月30日发明者姚莉,唐富年,封孝生,刘芳,张群,郝智勇,李金洋,袁金平申请人:中国人民解放军国防科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1