基于R2RML标准的映射方法、装置、设备及存储介质与流程

文档序号:22627452发布日期:2020-10-23 19:36阅读:498来源:国知局
基于R2RML标准的映射方法、装置、设备及存储介质与流程

本发明涉及计算机技术领域,更具体地说,涉及一种基于r2rml标准的的映射方法、装置、设备及存储介质。



背景技术:

随着科学技术的不断发展,将关系数据库向资源描述框架映射的映射转换工具越来越多,比如,db2triple、morph-rdb、r2rmlparser、virtuosouniversalserver、xsparql、ontop、sparqlmap、sparqlify、geotriples、r2rml-kit。这些映射转换工具主要是通过聚焦于r2rml映射规则的解析和映射执行,将关系数据库向资源描述框架映射。

但在实际映射转换工具使用过程中,现有的映射转换工具缺少关系数据库模式分析和隐性语义发现的功能;缺少易理解、有效的映射定义方式,现有的映射工具,通常基于命令行或界面,不支持rdf词汇推荐或领域模型的导入,一般是由用户自己将运用领域知识的规则直接编辑在映射文档中,缺乏领域语义建模辅助功能,对于用户的技术和专业能力要求较高。并且现有的映射转换工具仅提供r2rml映射文档的输入和映射执行功能,无法自动生成r2rml映射文档;进而无法实现rdf三元组文件的自动生成。若得到r2rml映射文档,需要用户人工编辑,对于用户的技术和专业能力要求较高。现有的映射转换工具还缺乏对映射过程的质量控制机制,无法对映射结果rdf三元组文件的检查和综合性报告。用户无法获悉生成的rdf三元组文件的质量。



技术实现要素:

有鉴于此,本发明提供一种基于r2rml标准的映射方法、装置、设备存储介质,以自动生成r2rml映射文档,进而实现rdf三元组文件的自动生成。技术方案如下所示:

本发明第一方面公开一种基于r2rml标准的映射方法,包括:

确定用户创建的基于r2rml标准的关系数据库到资源描述框架的映射任务,连接所述映射任务指示的关系数据库;

对所述关系数据库进行显性结构特征、数据特点和隐形语义分析,得到所述关系数据库的关联关系表;

确定用户从预先设置的至少一种映射模式中选取的目标映射模式,至少一个映射模式包括直接映射模式、自定义映射模式和借助领域模型的映射模式;

利用所述目标映射模式和所述关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档;

根据所述r2rml映射文档生成rdf三元组文件。

可选的,若所述目标映射模式为借助领域模型的映射模式,该方法还包括:

确定所述映射任务的领域本体,所述领域本体是基于所述映射任务携带的任务描述和数据源描述向所述用户推荐的领域本体,或者,所述领域本体是所述用户导入的领域本体,或者,所述领域本体是所述用户在线构建的领域本体;

确定所述关系数据库的数据表中字段与所述领域本体的领域本体类之间的映射关系;

所述利用所述目标映射模式和所述关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档,包括:利用所述目标映射模式、所述关联关系表和所述映射关系进行rdf三元组分析,并基于r2rml映射规则自动生成r2rml映射文档。

可选的,若所述目标映射模式为自定义映射模式或借助领域模型的映射模式,所述利用所述目标映射模式和所述关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档,包括:

确定rdf词汇,所述rdf词汇包括已有rdf词汇、自定义rdf词汇、为用户推荐的rdf词汇;

利用所述目标映射模式、所述关联关系表以及定义的rdf三元组结构,并基于所述rdf词汇和所述r2rml映射规则生成r2rml映射文档。

可选的,还包括:

检测所述r2rml映射文档的语法错误生成r2rml映射文档的语法校验结果,所述语法校验结果包括映射规则拼写错误、语法错误、逻辑错误,以及错误的问题描述和问题行编号;

对所述关系数据库进行空值校验得到所述关系数据库的空值校验结果;

对将根据所述r2rml映射文档执行的r2rml映射的结果进行预计算生成映射结果并预计映射结果生成时间,所述映射结果包括三元组数量、冗余三元组数量、唯一主语数量、唯一谓语数量和唯一宾语数量;空白节点数量包括主语空白节点数量和宾语空白节点数量;

显示所述空白节点的处理机制和冗余节点的处理机制。

可选的,所述根据所述r2rml映射文档生成rdf三元组文件,包括:

结合所述用户对是否将数据库字段注释、约束添加至三元组的设置操作以及所述用户对所述空白节点的处理机制和冗余节点的处理机制的选择操作,根据所述r2rml映射文档和各个处理机制生成rdf三元组文件。

可选的,还包括:

对所述rdf三元组文件进行数据评估得到所述rdf三元组文件的结果评估报告,所述结果评估报告包括:结果数据数量统计、特定数据格式有效性和rdf数据质量评估指标。

可选的,还包括:

接收所述用户发送的sparql检索请求,获取所述sparql检索请求的查询结果返回给所述用户;所述sparql检索请求指示虚拟检索或rdf文档检索;

若所述sparql检索请求指示虚拟检索,所述获取所述sparql检索请求的查询结果返回给所述用户包括:将所述sparql检索请求对应的sparql查询语句转换为sql查询语句,根据所述sql查询语句直接访问所述关系数据库得到查询结果,并将所述查询结果转换成rdf三元组返回给所述用户。

本发明第二方面公开一种基于r2rml标准的映射装置,包括:

第一确定单元,用于确定用户创建的r2rml关系数据库到资源描述框架的映射任务,连接所述映射任务指示的关系数据库;

分析单元,用于对所述关系数据库进行显性结构特征、数据特点和隐形语义分析,得到所述关系数据库的关联关系表;

第一接收单元,用于确定用户从预先设置的至少一种映射模式中选取的目标映射模式,至少一个映射模式包括直接映射模式、自定义映射模式和借助领域模型的映射模式;

第一生成单元,用于利用所述目标映射模式和所述关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档;

第二生成单元,用于根据所述r2rml映射文档生成rdf三元组文件。

本发明第三方面公开一种设备,包括:处理器以及存储器,所述处理器以及存储器通过通信总线相连;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序用于实现所述基于r2rml标准的映射方法。

本发明第四方面公开一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行如上述本发明第一方面任意一项公开的基于r2rml标准的映射方法。

本发明提供一种基于r2rml标准的映射方法、装置、设备及存储介质,通过确定用户创建的r2rml关系数据库到资源描述框架的映射任务,并连接映射任务指示的关系数据库;对关系数据库进行显性结构特征、数据特点和隐形语义分析,得到关系数据库的关联关系表;确定用户从预先设置的至少一种映射模式中选取的目标映射模式,至少一个映射模式包括直接映射模式、自定义映射模式和借助领域模型的映射模式;利用目标映射模式和关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档,进而根据r2rml映射文档自动生成rdf三元组文件,进而解决现有技术的无法自动生成r2rml映射文档,导致无法实现rdf三元组文件的自动生成的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于r2rml标准的rdb2rdf映射转换工具功能实现的结构示意图;

图2为本发明实施例提供的一种基于r2rml标准的rdb2rdf映射转换工具主要数据交互流程图;

图3为本发明实施例提供的一种基于r2rml标准的rdb2rdf映射转换工具的结构示意图;

图4为本发明实施例提供的一种进行参数配置的示例图;

图5为本发明实施例提供的一种进行映射语言转换的示例图;

图6本发明实施例提供的一种基于r2rml标准的rdb2rdf映射转换工具实现关系数据库到资源描述框架的映射的流程示意图;

图7为本发明实施例提供的一种关系数据库数据结构和语义分析的结构示意图;

图8为本发明实施例提供的一种基于r2rml标准的rdb2rdf映射转换工具提供3种映射模式的设计思路的结构示意图;

图9为本发明实施例提供的一种映射定义视图和映射匹配推荐的结构示意图;

图10为本发明实施例提供的一种多重数据映射文档检查和结果数据评估的结构示意图;

图11为本发明实施例提供的一种数据映射执行和数据查询性能优化机制的结构示意图;

图12为本发明实施例提供的一种数据映射文档和数据协同共享平台的结构示意图;

图13为本发明实施例提供的一种基于r2rml标准的映射装置的结构示意图;

图14为本发明实施例提供的一种服务器的硬件结构框图;

图15为本发明实施例提供的一种基于r2rml标准的映射方法所使用的终端的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由上述背景技术可知,利用映射转换工具可以将关系数据库向资源描述框架映射。

本申请人通过研究发现,现有的映射转换工具无法自动生成r2rml映射文档,进而无法实现rdf三元组文件的自动生成以外,还存在以下问题:

(1)、现有的映射转换工具仅提供对数据源的连接,获取对数据源浏览和展示,没有提供对原有数据结构的充分分析。在将关系数据库向资源描述框架映射之前,如果缺乏对原有数据的结构、语法、语义等多方面的全面分析和综合了解,在撰写和生成映射规则时会影响映射数据质量和映射效率。或者是在进行映射后才发现映射问题,需要重新修改编辑映射规则,再进行映射和重新执行,会增加用户的工作量。

(2)、在现有的映射过程中,在基于r2rml标准完成自定义映射模式或借助领域模型映射模式时,不仅需要用户了解自己的关系数据库数据,还需要用户具有it技术,以及具有编写映射规则的能力。此外,用户还要熟悉领域知识,能够找到合适的rdf词汇或者构建合适的领域模型,对用户的技术和领域知识能够要求较高。并且,现有的映射转换工具通常基于命令行或界面,不支持rdf词汇推荐或领域模型导入,由用户自己运用领域知识直接编辑在r2rml映射文档中,不了解领域模型的用户很难完成该项任务。虽然,现有的映射转换工具能将领域本体建模工具protégé集成到映射功能中,进而支持领域本体编辑和集成应用,支持r2rml映射文档的导入和导出,但不提供r2rml映射规则的编辑功能,仅支持对其自身创建语言的编辑,并且protégé对中文本体的支持有限。

(3)、在现有的映射转换工具中,部分映射转换工具提供映射有效器,进行映射规则的语法和程序检查,比如字段名称错误、映射规则错误等等,但是这种检测是在实际运行中进行的。如果数据量较大,程序运行一段时间后才能检测到错误,这时程序会报告错误且不再继续运行生成rdf三元组文件,此时用户需要修改映射规则并重新启动映射执行。只要遇到一个问题就程序就会停止运行,再次启动也可能会在下一个问题处也停止,造成过多时间消耗。除此之外,现有的映射转换工具仅具有执行映射功能,缺乏对数据映射过程的质量控制,不提供对rdf三元组文件的检查和综合性报告。用户无法获悉生成rdf三元组文件的质量,rdf三元组文件可能具有大量冗余三元组或无意义的空白节点,严重映射数据质量。

(4)、大量用户基于r2rml标准开展了不同的从关系数据库数据(relationaldatabase,rdb)到rdf的映射实践,也有一些用户通过github等平台共享开源工具或通过开放数据平台发布转换后的开放共享数据,但是较少涉及到映射任务和r2rml映射文档的共享。从实际映射来说,了解和借鉴他人的映射任务和映射文档能够更快的获得映射规则的编写经验和映射流程的实现经验。目前,尚没有面向映射任务资源(包括映射任务、r2rml映射文档、领域模型等)的共享媒介或平台。

因此,本发明提供一种基于r2rml标准的关系数据库到资源描述框架的映射转换工具,能够在提高映射数据质量和映射效率的基础上,自动生成r2rml映射文档,进而根据自动生成的r2rml映射文档自动实现rdf三元组文件的生成,并对生成的rdf三元组文件进行评估,并生成评估报告。在自动生成r2rml映射文档后,还可以将生成的r2rml映射文档进行共享,以便其他用户可以了解和借鉴,进而能够更快的获得映射规则的编写经验和映射流程的实现经验。本发明提供基于r2rml标准的rdb2rdf映射转换工具还可以根据用户的需求进行映射、rdf实例化、支持数据的sparql查询和可视化浏览。

本申请通过构建基于r2rml标准的rdb2rdf映射转换工具和数据共享平台来实现关系数据库到资源描述框架的映射。本申请主要介绍基于r2rml标准的rdb2rdf映射转换工具的开发及实现。首先对开发工具、工具运行环境、平台运行环境等进行了简短论述;然后,介绍基于r2rml标准的rdb2rdf映射转换工具的功能开发及主要数据交互流程;最后,通过结合实验用例,以图文结合的方式介绍了基于r2rml标准的rdb2rdf映射转换工具的实现效果。

本申请人通过对现有rdb2rdf映射转换工具进行调研和分析发现,ontop在虚拟查询方面效果较好,而db2triple在实例化映射方面综合性能最佳。为了快速构建具有普适性的r2rml映射转换工具,本申请基于java语言,以ontop和db2triple作为r2rml映射转换底层技术支撑,采用主流springboot框架开发了imir2rml映射转换工具。

在本申请实施例中,基于r2rml标准的rdb2rdf映射转换工具的运行环境包括服务器配置、服务器环境、客户端环境。其中,服务器配置包括操作系统(windowsserver2008r2企业版)、系统类型(64位中文操作系统)、处理器(intel(r)xeon(r)cpue7-4820@2.00ghz)、内存(64gb)、带宽(5mbps);服务器环境包括数据库(mysql5.6.17)、java环境(jdk1.8)、python环境(python3.7)、tomcat容器(tomcat8.0)、全文索引服务(solr6.5);客户端环境包括操作系统(windows7、windows10、linux等)、内存(16g内存以上)、浏览器(谷歌浏览器(推荐)、ie10+、极速浏览器、360浏览器)。

平台运行环境包括服务器配置、服务器环境、客户端环境。其中,操作系统(windowsserver2008r2企业版)、系统类型(64位中文操作系统)、处理器(intel(r)xeon(r)cpue7-4820@2.00ghz)、内存(16gb)、带宽(10mbps);服务器环境包括数据库(mysql5.6.17)、java环境(jdk1.8)、python环境(python3.7)、tomcat容器(tomcat8.0)、全文索引服务)(solr6.5);客户端环境包括操作系统(windows7、windows10、linux等)、内存(16g内存以上)、浏览器(谷歌浏览器(推荐)、ie10+、极速浏览器、360浏览器)。

在本申请实施例中,基于r2rml标准的rdb2rdf映射转换工具的集成开源包括关联开放词汇(linkedopenvocabularies,lov),lov旨在帮助关联数据发布者和用户更好的获取、共享、重用关联数据中的词汇。lov词汇表包含一系列类和属性的定义,用于描述特定类型的或特定域的或特定用途的事物,以及包含指向各种关联数据的链接。目前lov官网上提供了https的开放api接口,也可以通过httppost或者httpget的方式进行接口调用,本申请采用后者方式进行调用。bioportal词汇检索,bioportal词汇检索api由一组资源(本体、类等)和相关端点(注释器、推荐器等)组成,这些资源通过链接关联在一起。本申请在调用时,通过httppost或者httpget方式进行接口调用,且调用过程中通过注册密钥才能进行访问。anotherrdfparser,anotherrdfparser的功能是提供rdf三元组文件验证服务,其当前使用版本为2-alpha-1,该服务目前支持rdf核心工作组发布的最后工作草案规范(lastcallworkingdraftspecifications),且不再支持rdf模型和语法规范中已弃用元素和属性。本申请在调用时,先在github官网下载java开源代码,然后将修改后的源代码置于项目中以此将验证服务功能集成到基于r2rml标准的rdb2rdf映射转换工具中。d2rq_r2rml,该开源代码提供将两种映射语言d2rq和r2rml相互转化的功能。本申请在调用时,因该代码采用python语言进行编写,故通过http接口请求封装好的python接口的方式进行调用。db2triple,db2triple属于轻量级工具,易于调用和整合到其他应用中,其在遵循r2rml语法规则和实例化映射性能测试方面具有较好效果,本申请在调用时先从github中下载源码,然后通过maven将其打包为jar包,继而在程序中进行引用。本申请调用该工具完成了基于r2rml映射文档生成rdf三元组文件,程序获取r2rml映射文档和jdbc相关配置后,通过调用db2triple的内置方法进行rdf三元组文件的输出。ontop,ontop为按需映射方式提供了强大的支持,其通过最新一代的查询改写技术以及查询优化技术提高查询性能。本申请在调用时,从github中下载ontop源码后通过maven将其打包为jar包,继而在程序中进行引用。本申请调用该工具实现了rdf三元组文件的虚拟查询,即将查询rdf三元组文件的sparql语言转换为查询关系数据的sql语言,获取关系数据后将其转换为rdf三元组文件进行结果输出。

本申请提供的基于r2rml标准的rdb2rdf映射转换工具可独立完成从对数据源的模式分析到映射结果的浏览、查询与可视化展示和共享,具体过程包括对映射任务创建及管理、数据源连接和领域模型导入、模式分析、映射定义、映射编辑与检测、映射执行、rdf三元组文件质量评估、可视化浏览与查询、映射任务共享等。其中,基于r2rml标准的rdb2rdf映射转换工具功能具体实现及主要数据交互流程如图1和图2所示。

本发明重点针对现有r2rml标准映射模式和映射转换工具映射过程中的r2rml映射规则撰写难度大、领域知识建模和语义丰富上支持力度不足、缺乏对r2rml映射的结果进行评估和质控机制等关键问题,提供了一种可交互、易理解、可操作的基于r2rml标准的rdb2rdf映射转换工具。该基于r2rml标准的rdb2rdf映射转换工具通过提供可视化的关系数据库模式分析、隐性语义提示以及可理解、易操作的映射定义视图,辅助用户进行关系数据库模式分析;支持包括直接映射模式、自定义映射模式和借助领域模型映射模式3种不同的映射模式,并根据不同映射模式的特点、需求和目的,提供rdf词汇推荐和查询、r2rml映射文档检测,通过多种语义相似度计算提供自动映射对推荐,领域模型推荐、创建和编辑,r2rml映射文档的数据评估和质控(包括对空白节点和冗余三元组的检测和处理)、结果可视化等服务。该工具能够在一定程度上降低用户的映射操作难度,提高用户操作便利性和可理解性,促进r2rml映射标准的学习、推广和应用。

参见图3,示出了本发明实施例提供的一种基于r2rml标准的rdb2rdf映射转换工具的结构示意图。该基于r2rml标准的rdb2rdf映射转换工具具体包括基础层,提供工具底层支撑,包括操作系统、硬件服务器、基础软件和网络设备。

存储层,主要用于存储生成的数据,包括用户数据、日志数据、映射过程中的基础数据和生成的rdf文件数据。

支撑层,提供应用支撑,包括用户管理、任务管理、关系数据管理、映射基础库管理、数据映射管理、领域模型编辑、数据映射结果检测和质控、数据检索和日志管理功能。

其中,用户管理,主要是进行用户注册、用户信息浏览、用户角色和权限管理。任务管理,主要是进行映射任务创建、任务浏览、任务编辑、任务删除和任务共享。关系数据管理,主要是支持用户创建数据源连接,进行关系数据库连接的创建、编辑、修改和删除,以及数据的浏览和查询。映射基础库管理,是对支撑数据映射的基础库管理,包括数据源管理、rdf词汇表管理、领域模型管理、映射优化参数设置管理,其中,通过映射优化参数设置管理进行参数配置如图4所示。数据映射管理,进行数据映射步骤管理,包括命名空间配置、关系数据库数据源模式分析和映射定义(包括直接映射模式、自定义映射模式和借助领域模型映射模式,提供可视化映射定义视图、映射定义审核视图和映射文档检测编辑视图,用户可通过不同视图实现不同模式的数据映射定义和审核)。r2rml映射文档检测,根据映射定义生成的r2rml映射文档的语法检测,以及进行映射结果预运行和预运行结果处理。r2rml数据映射执行,检测后进行r2rml映射文档的执行。映射语义丰富辅助功能,在映射过程中,基于r2rml标准的rdb2rdf映射转换工具提供数据映射流程中的辅助功能,包括相似数据映射任务推荐,即推荐与创建映射任务相似的已共享的映射任务供用户参考;基于多种相似度算法(通用数据相似度和领域数据相似度算法)的数据映射匹配推荐,辅助进行借助领域模型的数据映射匹配(包括数据列和领域本体类或属性的匹配);关系数据库隐性语义关系提示,减少转换中的语义缺失;借助领域模型的数据映射模式需要领域本体支持,工具根据映射任务描述和源数据推荐已有领域知识本体,扩展领域语义;工具提供来自多源的rdf词汇推荐功能支持进行数据描述语义扩展。领域模型管理,面向领域语义驱动的数据映射需求,支持领域知识模型的导入、编辑、创建、修改、浏览和保存功能。数据映射结果检测和质控,提供对生成rdf三元组文件的统计分析和评估,通过评估指标对rdf三元组文件进行评估和质控,提供多维度映射结果数据评估。根据评估结果中的冗余三元组、空白节点等影响数据质量的情况进行干预和处理,提高rdf三元组文件的数据质量。可视化浏览与查询,针对按需转换,提供sparql转sql查询和优化机制。而针对实例化转换,提供基于jena的sparql查询。日志管理,提供日志编辑、日志浏览、日志查询和日志删除功能。

应用层,通过用户界面提供映射服务,包括数据映射、数据浏览和查询、数据检测和评估、数据映射文档共享和其他服务。

其中,数据映射,提供数据映射服务,通过创建映射任务,支持关系数据模式分析、直接映射模式、自定义映射模式和借助领域模型映射模式等不同模式下的映射模式。数据浏览和查询,支持不同映射模式,按需转换和实例化转换的数据查询方式,支持数据查询结果可视化、rdf三元组文件下载和领域知识模型编辑和浏览。映射数据检测和评估,支持r2rml映射文档检测、rdf三元组文件的数据评估、rdf三元组文件评估结果质控处理和rdf三元组文件统计分析。数据和rdf映射文档共享,支持映射任务全流程文件共享、rdf三元组文件共享、r2rml映射文档共享和r2rml映射标准浏览。其他服务,除上述服务功能外,提供其他工具映射语言如d2rq与r2rml之间的转换,其中,d2rq与r2rml之间的转换如图5所示。

参见图6,示出例本发明实施例提供的一种基于r2rml标准的rdb2rdf映射转换工具实现关系数据库到资源描述框架的映射的流程示意图,包括映射任务创建、数据连接和领域模型导入、模式分析、映射定义、映射编辑与检测、映射实现、结果评估和映射任务管理和共享8个主要步骤。

映射任务创建:创建映射任务,进行映射任务描述和映射任务中相关资源配置。若基于r2rml标准的rdb2rdf映射转换工具联网登录后,基于r2rml标准的rdb2rdf映射转换工具和平台互联,基于r2rml标准的rdb2rdf映射转换工具可以根据映射任务描述提供相关数据任务的推荐,供公户学习和借鉴。

数据连接和领域模型导入:在确定用户创建的r2rml关系数据库到资源描述框架的映射任务后,建立和映射任务指示的关系数据库的数据连接,如mysql、h2、mssql等。通过与该关系数据库连接可以访问关系数据库的模式和数据。如果是借助领域模型映射模式,则需要导入领域本体。系统支持自建领域本体导入(即用户自己导入领域本体),也支持网络本体导入(即用户在线构建领域本体),并能够进行本体编辑和浏览,同时基于r2rml标准的rdb2rdf映射转换工具也可提供与数据映射相关领域本体推荐(即基于所创建映射任务携带的任务描述和数据源描述向用户推荐领域本体)。

模式分析:在与所创建的映射任务指示的关系数据库建立连接后,需要充分分析该关系数据库的显性结构特征、数据特点,尤其是要分析隐含的语义和明确映射目标,根据需要适当扩充外部语义。如果映射中需引入领域本体,更需要构建适当的领域本体,对领域本体的模式结构、语义特点有足够的理解、分析和研究,这样才能更好的定义后续的映射。进而解决了现有技术中缺少数据源rdb模式分析和隐性语义发现的问题。

参见图7,关系数据模式分析主要通过数据源连接,连接到关系数据库,提供映射源关系数据库中的一个或多个表进行浏览。对关系数据库中的结构、数据和关联关系的显性结构和语义进行充分展示和呈现,对隐性结构和语义辅助发现给予提示,供用户选择,将潜在结构和语义进行显性化表示。显性结构包括数据表、数据列(也称为字段,包括列名、数据类型、注释等信息)、值(包括数据值)和约束(包括主键约束、外键约束、非空约束和唯一约束),支持的操作包括数据表的查看、浏览、约束的查看、注释的编辑等。

除了显性结构外,关系数据库中也包括一些隐性结构和语义,这些往往是在映射中容易被用户忽略的,或者在映射目标中需要扩展、补充和完善的。隐形结果包括列名潜在关联、列名注释、数据统计量和检查约束。基于r2rml标准的rdb2rdf映射转换工具通过模式分析,根据容易被忽略的隐性结构和语义完善转换数据的语义。

其中,列名潜在关联:在数据映射前,将待映射数据尽量清晰的拆分,将其拆分为多个实体表以及建立明确的实体表间的关系。但是在实际映射中,用户并不会将数据拆分过细,甚至也不会为数据创建主、外键的关联关系,而数据中存在隐性主、外键的关系,这时应自动识别这种关系并将它们提示给用户,以便用户在进行数据映射时采取适当映射策略。列名注释:工具支持查看源数据创建的列名注释,也提供对列名含义的标注和编辑功能,由于数据表的列命名不一定是能充分描述该列表达含义,很可能是缩写或编码,如persion_name被缩写为pn,这种命名方式使得无论在关系数据库表应用还是转换生成rdf三元组文件的映射中,人和机器难以理解该名称含义。因此,基于r2rml标准的rdb2rdf映射转换工具提供了在模式分析中为已有列名添加注释功能,可增强转换后的rdf三元组文件语义,便于机器和人进行数据理解和处理。此外,列名注释的添加也可以在后续映射对匹配过程中应用于辅助实现语义相似度计算,用于映射对的推荐。检查约束:检查约束是在数据库关系表中定义一个对关系表某列新输入数据按照设置的逻辑进行检查的标识符,用于限制列中的值的范围。检查约束有可能是数字取值范围或枚举类型。

映射定义:基于r2rml标准的rdb2rdf映射转换工具提供3种映射模式进行定义,包括直接映射模式、自定义映射模式和借助领域模型映射模式。当检测到用户选择的映射为直接映射模式时,为了便于理解,将用户所选取的映射模式,即直接映射模式确定为目标映射模式。

在本申请实施例中,三种映射模式并不是孤立的,直接映射模式和自定义映射模式是借助领域模型映射模式的基础,借助领域模型模式的映射可以在二者基础上进行。

在自定义映射模式和借助领域模型映射模式的映射模式中,基于r2rml标准的rdb2rdf映射转换工具主要从三方面提供领域语义的支持,一、提供领域知识模型(本体)推荐和导入;二、提供自定义领域本体建模工具;三、提供多源rdf词汇推荐,以解决当前工具“缺乏领域语义辅助功能”,具体结构如图8所示。

其中,提供领域知识模型(本体)推荐和导入。支持借助领域模型映射模式,根据所创建的映射任务的描述和源数据描述,通过多种语义相似度算法从自定义的本体库和工具集成的bioportal接口推荐相应领域本体,也支持直接导入自建的领域本体,或通过添加-uri导入网络开放领域本体作为领域知识模型。提供自定义领域本体建模工具,在进行源数据模式分析的基础上,基于r2rml标准的rdb2rdf映射转换工具设计提供领域语义建模编辑功能,可以进行简单的中、英文领域本体创建、编辑、修改、保存和导出。根据用户创建映射任务时填写的映射任务和关系数据描述推荐适合的领域本体进行映射,为用户提供更多选择。提供多源rdf词汇推荐,在自定义映射模式借助领域模型映射模式的映射过程中,谓词初始可能来源于关系数据库数据的列名,其可能不能充分和清楚的表达语义,谓词也可以复用通用rdf词表中的词汇。但是现有映射转换工具没有提供适合的通用或领域rdf词汇表中的词汇,而本申请提供的基于r2rml标准的rdb2rdf映射转换工具,集成了多源关联数据开放词汇表linkedopenvocabularies(lov)和生物医学领域bioportal的本体资源,并且支持构建自定义rdf词汇表,在映射过程中,通过多种语义相似度算法提供谓语和数据类型定义的rdf词汇推荐、rdf词汇检索查找,提高映射数据的语义表达,便于用户使用。

在本申请实施例中,本申请还可以根据不同的映射模式,在映射定义阶段设计3种定义视图并设计r2rml映射规则库,定义视图和r2rml映射规则相结合,根据用户的映射定义,调用映射规则,帮助用户完成数据映射定义如图9所示。定义视图包括可视化映射定义视图、映射定义审核视图、r2rml编辑检测视图。在映射过程中,基于r2rml标准的rdb2rdf映射转换工具在借助领域模型映射模式中,还通过多种通用和领域语义相似度算法提供关系数据库和领域本体映射语义匹配,进行映射对推荐,支持中英文数据的映射匹配。

其中,可视化映射定义视图,通过可视化界面显示关系数据库的结构,如果是借助领域模型映射模式,显示领域本体结构,通过拖拽方式进行列之间的映射或列和类或属性之间的映射。如果是进行直接映射模式,没有主键的表需要指定主语,而后无需进行拖拽,直接完成映射定义。如果进行自定义映射模式,可以进行表间关系的建立。借助领域模型映射模式可以基于直接映射和自定义映射基础进行关系数据表和本体类与属性的映射,基于r2rml标准的rdb2rdf映射转换工具提供基于多种相似度算法的映射匹配。3种映射通过拖拽触发成对的映射关系,错误关系允许修正和编辑。通过对象化编程建立r2rml底层映射规则库,主要根据不同映射模式生成规则。一旦模式中的映射对生成,则触发r2rml映射规则生成。

在可视化映射定义视图中,基于r2rml标准的rdb2rdf映射转换工具提供中、英文的数据列和领域本体的语义映射匹配算法,辅助用户完成关系数据列名和领域本体类或属性的匹配。这种匹配主要基于列名和类名、属性名,并且在工具的关系数据模式分析部分提供列名注释,因为列名信息有限,匹配度较低,但是列名注释和本体注释的语义匹配更有助于映射匹配。映射匹配相似度算法包括基于wordnet的相似度、基于umls的相似度、结合本体的相似度、q-gram字符相似度、段落向量方法和监督语义相似度算法,支持中、英文的匹配。基于r2rml标准的rdb2rdf映射转换工具根据关系数据列名提供与之映射匹配度高的本体类或属性,给出语义相似度计算的不同分值,供用户进行筛选和确定。

映射定义审核视图,通过可视化映射定义视图,确定数据映射对。而后通过映射定义审核视图进行数据表结构和数据浏览,核对数据表和数据,进行rdf三元组主、谓、宾语的类型、谓词的语义丰富和规范化。该映射定义审核视图是通过逐表对每个表生成的每一个三元组进行主、谓、宾语的定义审核,内容修正和编辑,可以对谓词和数据类型进行设置,包括多源rdf词汇推荐和查找。

r2rml编辑检测视图,提供根据映射规则对生成的r2rml映射文档的检查和自定义编辑。该r2rml编辑检测视图使用不同颜色分别显示关系数据库的不同列名,如果使用了领域本体,则也使用不同颜色标识来自本体的类或属性,用以提醒用户书写的正确性。如果拼写错误则不能正常显示。该r2rml编辑检测视图还将r2rml映射规则切分为一个个小的triplemap,每个triplemap均拆分为可用sql语句查询的源数据,基于r2rml标准的rdb2rdf映射转换工具提供少量样例查询以测试数据源选择和连接的正确性,目标是领域本体上的类或属性,通过颜色标注是否拼写正确。此外,掌握r2rml映射语法的用户可以通过该视图进行映射规则的修改和完善。

映射编辑和检测:本申请根据映射定义,可自动生成r2rml映射文档,能够有效降低工具的使用门槛,扩大工具应用范围。此外,基于r2rml标准的rdb2rdf映射转换工具提供r2rml编辑器,支持r2rml的浏览、编辑和修改,其中,基于r2rml标准的rdb2rdf映射转换工具支持多重数据映射文档检查结构如图10所示。在r2rml映射规则完成时,基于r2rml标准的rdb2rdf映射转换工具提供对映射规则的检测,保证映射执行过程的顺畅运行。映射规则部分主要通过工具的映射有效器,快速运行少量数据,检查映射规则拼写、语法、逻辑等方面的错误,如果出现问题,则给出问题描述和问题所在的行编号,便于用户进行问题定位、查找和修改。同时基于r2rml标准的rdb2rdf映射转换工具支持映射预执行,即对将执行的r2rml映射的结果进行预计算,映射结果预计算结果包括三元组数量、冗余三元组数量、唯一主语数量、唯一谓语数量和唯一宾语数量;空白节点数量,包括主语空白节点数量和宾语空白节点数量;预计映射结果生成时间及rdf三元组文件的生成时间。基于r2rml标准的rdb2rdf映射转换工具提供对空白节点的处理机制,包括不生成含有空白节点的三元组、不生成含有主语空白节点的三元组、不生成含有宾语空白节点的三元组以及将不同空白节点按照一定规则替换成uri以进行有效区分等。基于r2rml标准的rdb2rdf映射转换工具也针对预计冗余情况提供推荐处理机制,用户可勾选“不重复生成rdf三元组的”的推选项。预计算映射结果使用户可以全面了解基于r2rml标准生成rdf三元组文件的情况并根据统计、评估结果进行一定的质量控制,数据删减和修整,以及r2rml映射规则修正。

映射实现:面向大数据量数据处理,本申请提供的基于r2rml标准的rdb2rdf映射转换工具在数据映射转换方面提供实例化和按需两种实现方式,如图11所示。数据映射性能优化策略,在映射数据生成时,针对大数据量处理,采用多线程方式支持数据的生成性能;在映射规则执行前,基于r2rml标准的rdb2rdf映射转换工具判断预生成的数据量情况,以及是否调用多线程并设置启动线程数,自动进行形成优化。映射结果查询优化策略。在数据查询方面,基于r2rml标准的rdb2rdf映射转换工具提供按需映射和实例化映射两种映射转换方式,分别采用不同策略提供数据查询。按需映射不生成实际的rdf三元组文件,而是通过sparql转sql进行数据查询。如果按需查询数据数量较大,在查询语句转换时会产生性能问题,主要通过优化撰写的sql语句,提高数据查询性能。当访问实例化映射结果时,利用jena进行数据查询,直接使用sparql进行rdf数据查询,探索提高查询性能的方法

结果评估:基于r2rml标准的rdb2rdf映射转换工具的结果评估主要参考w3c对rdf语法的有效性检查和luzz的rdf数据评估,并结合一些有效应用,从而制定rdfrdf三元组文件的数据评估指标,辅助用户进行rdf三元组文件的数据评估和质控。基于r2rml标准的rdb2rdf映射转换工具对rdf三元组文件的统计评估主要分为以下三个方面,并生成评估报告。一方面是结果数据数量统计,包括三元组数量统计,如三元组总数量、唯一三元组数量、冗余三元组数量、宾语为uri三元组数量、宾语为值三元组数量、宾语为空白节点三元组数量;三元组成分数量统计,如唯一主语数量、唯一谓语数量、唯一宾语数量、唯一uri宾语数量、唯一值宾语数量、唯一空白节点宾语数量;空白节点统计,如空白节点数量、主语空白节点数量、宾语空白节点数量等。另一方面是特定数据格式有效性。rdf三元组文件的有效性检查主要应用w3c的有效性检查,对rdf/xml格式的数据进行语法检查,保证该格式数据可以得到正确解析。又一方面是8大rdf三元组文件的数据质量评估指标,包括人类可理解标签、机器可读许可协议、缺省uris、扩展简洁、兼容数据类型、外部连通性、内部连通性和词汇丰富度,指标具体信息见表1。结果数据质控机制:对于空白节点和冗余三元组,可以通过去除一些包含冗余信息的空节点三元组并将一些空节点映射到特定uri标识,具体如删除含有空白节点的三元组、删除含有主语空白节点的三元组、删除含有宾语空白节点的三元组、将不同空白节点按照一定规则替换成uri以及删除冗余三元组等,使rdf三元组文件更加精简,控制数据质量。

表1:

映射任务管理和共享:在映射完成后,基于r2rml标准的rdb2rdf映射转换工具支持数据映射任务管理,包括r2rml映射文档、映射结果数据等,并可以支持数据映射任务相关资源到语义数据映射和转换平台的发布和共享。

目前数据开放共享的平台很多,但是能够进行数据映射任务共享、映射文档共享的平台和工具却没有。虽然用户进行数据映射转换的目的不同,转换的源数据和使用的领域模型有所差别,但在一定程度上其数据映射转换的文档、转换任务的经验能够给更多初级研究者或有类似数据转换需求的用户提供经验借鉴,而他们的映射文档则可以为其他人提供映射学习基础。因此,本发明中提出构建基于r2rml标准的rdb2rdf映射转换工具和语义数据映射转换和共享平台如图12所示、一方面,基于r2rml标准的rdb2rdf映射转换工具解决映射过程中的关键问题,辅助用户完成基于r2rml标准的映射工作,另一方面,基于r2rml标准的rdb2rdf映射转换工具和平台进行交互,通过语义数据映射转换和共享平台提供数据映射任务中公共功能,用户可以上传数据,使用平台提供的关系数据模式分析、领域模型编辑和浏览、r2rml映射文档编辑、r2rml映射文档检测、rdf三元组文件有效性测评、rdf三元组文件分析和评估、rdf词汇推荐、rdf三元组文件查询和可视化等服务,也可以在利用工具完成映射任务后,将映射任务、映射文档、领域模型和转换后数据共享到平台,最大程度促进数据映射转换标准和相关成果的复用。

本发明提供的基于r2rml标准的rdb2rdf映射转换工具可以进行数据源模式自动分析:辅助用户分析数据源的数据结构和语义关系,减少语义缺失问题,增强数据间的语义关联;还可以实现谓语职能的自动推荐,具有领域知识建模编辑和多源rdf词汇推荐服务,辅助用户进行语义扩展;还能够根据映射模式的不同,自动生成相应格式的r2rml映射文档,进而根据生成的r2rml映射文档自动生成rdf三元组文件;还能够实现数据开放共享服务,促进映射文档的复用,推动语义数据的产生和数据共享。

并且,本申请还可以通过建立面向不同映射模式的映射定义视图和r2rml映射文档自动生成。可使用单一视图也可结合不同视图实现基于r2rml标准的rdb2rdf的多种映射模式定义。在借助领域模型映射模式中提供多种语义相似度算法提供rdb和领域本体模式的映射。程序化编码的r2rml映射规则库用于存储创建的遵循r2rml语法的、结合不同模式特点的多种映射规则。通过视图定义数据映射关系后,基于r2rml标准的rdb2rdf映射转换工具可动态调用程序化规则库中对应的r2rml映射规则,实现r2rml映射文档的自动生成。建立人工r2rml映射规则定义,提高用户对映射转换的可理解性和可操作性。

本发明还提供映射转换过程中的多种语义建模和语义丰富功能。提供关系数据模式分析和潜在语义关系发现功能,帮助用户全面理解自己的源数据,更好的达成映射目标。关系数据模式分析提供关系数据库中的结构、数据和关联关系的显性结构和语义充分的展示和呈现,对隐性结构和语义辅助发现给予提示,供用户选择,将潜在结构和语义进行显性化表示。提供面向借助领域模型映射的领域知识模型(本体)推荐、导入、编辑、修改等功能,支持引入领域知识,进行领域知识建模。提供多源rdf词汇查询和推荐功能,用于支持自定义映射模式,丰富借助领域模型映射模式的领域语义。

本发明还提出一套多重数据映射文档检测和结果数据评估与控制机制。通过提供映射文档进行语法和规则检测机制,帮助用户检查r2rml映射规则错误。提出映射转换预计算机制和预计算指标,利用少量数据预计算数据三元组数量,主、谓、宾三元组数量,空白节点数量等,并对结果进行预判,针对空白节点提出不生成含有空白节点的三元组、不生成含有主语空白节点的三元组、不生成含有宾语空白节点的三元组、将空白节点按照规则转换为带基础uri的节点、不重复生成rdf三元组文件等处理机制。对生成的rdf三元组文件进行评估,评估指标包括w3c有效性验证、结果数量统计(包括基本数据统计、冗余数据统计、空白节点)和多评估指标报告(包括人类可理解标签、机器可读许可协议、缺省uris、扩展简洁、兼容数据类型、外部连通性、内部连通性、词汇丰富度等多质量评估指标)。对于冗余数据和空白节点,工具提供数据处理机制。由此,在一定程度上保证了rdf三元组文件的质量。

参考图13,本发明实施例提供了一种基于r2rml标准的映射装置的结构示意图,该关系数据库到资源描述框架的映射装置包括:

第一确定单元131,用于确定用户创建的r2rml关系数据库到资源描述框架的映射任务,连接映射任务指示的关系数据库;

分析单元132,用于对关系数据库进行显性结构特征、数据特点和隐形语义分析,得到关系数据库的关联关系表;

第一接收单元133,用于确定用户从预先设置的至少一种映射模式中选取的目标映射模式的选取操作,至少一个映射模式包括直接映射模式、自定义映射模式和借助领域模型的数据映射模式;

第一生成单元134,用于利用目标映射模式和关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档;

第二生成单元135,用于根据r2rml映射文档生成rdf三元组文件。

本发明提供一种基于r2rml标准的映射装置,通过确定用户创建的r2rml关系数据库到资源描述框架的映射任务,并连接映射任务指示的关系数据库;对关系数据库进行显性结构特征、数据特点和和隐形语义分析,得到关系数据库的关联关系表;确定用户从预先设置的至少一种映射模式中选取的目标映射模式,至少一个映射模式包括直接映射模式、自定义映射模式和借助领域模型的映射模式;利用目标映射模式和关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档,进而根据r2rml映射文档自动生成rdf三元组文件,进而解决现有技术的无法自动生成r2rml映射文档,导致无法实现rdf三元组文件的自动生成的问题。

进一步的,若目标映射模式为借助领域模型的映射模式,本申请实施例提供的基于r2rml标准的映射装置,还包括;

第二确定单元,用于确定映射任务的领域本体,领域本体是基于映射任务携带的任务描述和数据源描述向用户推荐的领域本体,或者,领域本体是用户导入的领域本体,或者,领域本体是用户在线构建的领域本体;

第三确定单元,用于确定关系数据库的数据表中字段与领域本体的领域本体类之间的映射关系;

第一生成单元,还用于利用目标映射模式、关联关系表和映射关系进行rdf三元组分析,并基于r2rml映射规则自动生成r2rml映射文档。

在本申请实施例中,若目标映射模式为自定义映射模式或借助领域的映射模式,优选的,第一生成单元包括:

第四确定单用,用于确定rdf词汇,rdf词汇包括已有rdf词汇、自定义rdf词汇、为用户推荐的rdf词汇;

第三生成单元,用于利用目标映射模式、关联关系表以及定义的rdf三元组结构,并基于rdf词汇和r2rml映射规则生成r2rml映射文档。

进一步的,本申请实施例提供的基于r2rml标准的映射装置,还包括;

检测单元,用于检测r2rml映射文档的语法错误生成r2rml映射文档的语法校验结果,语法校验结果包括映射规则拼写错误、语法错误、逻辑错误,以及错误的问题描述和问题行编号;

校验单元,用于对关系数据库进行空值校验得到关系数据库的空值校验结果;

预计算单元,用于对将根据r2rml映射文档执行的r2rml映射的结果进行预计算生成映射结果并预计映射结果生成时间,映射结果包括三元组数量、冗余三元组数量、唯一主语数量、唯一谓语数量和唯一宾语数量;空白节点数量包括主语空白节点数量和宾语空白节点数量;

显示单元,用于显示空白节点的处理机制和冗余节点的处理机制。

在本申请实施例中,优选的,第二生成单元包括:

第四生成单元,用于结合用户对是否将数据库字段注释、约束添加至三元组的设置操作以及用户对空白节点的处理机制和冗余节点的处理机制的选择操作,根据r2rml映射文档生成rdf三元组文件。

进一步的,本申请实施例提供的基于r2rml标准的映射装置,还包括;

评估单元,用于对rdf三元组文件进行数据评估得到rdf三元组文件的结果评估报告,结果评估报告包括:结果数据数量统计、特定数据格式有效性和rdf数据质量评估指标。

进一步的,本申请实施例提供的基于r2rml标准的映射装置,还包括;

第二接收单元,用于接收用户发送的sparql检索请求,获取sparql检索请求的查询结果返回给用户;sparql检索请求指示虚拟检索或rdf文档检索;

若sparql检索请求指示虚拟检索,第二接收单元,还用于将sparql检索请求对应的sparql查询语句转换为sql查询语句,根据sql查询语句直接访问关系数据库得到查询结果,并将查询结果转换成rdf三元组返回给用户。

基于上述共性,本申请实施例还提供一种设备,该设备包括:处理器以及存储器,处理器以及存储器通过通信总线相连;其中,处理器,用于调用并执行存储器中存储的程序;存储器,用于存储程序,程序用于实现本申请实施例提供的一种基于r2rml标准的映射方法。

本申请实施例提供的一种设备可以为终端,也可以为服务器,现分别从服务器和终端的角度对本申请实施例提供的一种基于r2rml标准的映射方法进行详细说明。

为了便于理解,现从服务器的角度对本申请实施例提供的一种基于r2rml标准的映射方法进行详细说明。服务器可以是网络侧为用户提供服务的服务设备,其可能是多台服务器组成的服务器集群,也可能是单台服务器。

图14为本申请实施例提供的一种服务器的硬件结构框图。参照图14,服务器的硬件结构可以包括:处理器141,通信接口142,存储器143和通信总线144;

在本发明实施例中,处理器141、通信接口142、存储器143、通信总线144的数量均可以为至少一个,且处理器141、通信接口142、存储器143通过通信总线144完成相互间的通信;

处理器141可能是一个中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器143可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,程序用于:

确定用户创建的基于r2rml标准的关系数据库到资源描述框架的映射任务,连接映射任务指示的关系数据库;

对关系数据库进行显性结构特征、数据特点和和隐形语义分析,得到关系数据库的关联关系表;

接收用户对预先设置的至少一种映射模式中目标映射模式的选取操作,至少一个映射模式包括直接映射模式、自定义映射模式和借助领域模型的数据映射模式;

利用目标映射模式和关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档;

根据r2rml映射文档生成rdf三元组文件。

可选的,程序的细化功能和扩展功能可参照上文描述。

图15为本申请实施例提供的一种基于r2rml标准的映射方法所适用于的终端的硬件结构框图。

如图15所示该终端可以包括:处理器151、存储器152、通信接口153、输入单元154和显示器155和通信总线156。

存储器152中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本发明实施例中,该存储器中至少存储有用于实现以下功能的程序:

确定用户创建的基于r2rml标准的关系数据库到资源描述框架的映射任务,连接映射任务指示的关系数据库;

对关系数据库进行显性结构特征、数据特点和和隐形语义分析,得到关系数据库的关联关系表;

接收用户对预先设置的至少一种映射模式中目标映射模式的选取操作,至少一个映射模式包括直接映射模式、自定义映射模式和借助领域模型的数据映射模式;

利用目标映射模式和关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档;

根据r2rml映射文档生成rdf三元组文件。

可选的,程序的细化功能和扩展功能可参照下文描述。

处理模块151、存储器152、通信接口153、输入单元154、显示器155、均通过通信总线156完成相互间的通信。

在本发明实施例中,该处理器151,可以为中央处理器(centralprocessingunit,cpu),特定应用集成电路(application-specificintegratedcircuit,asic),数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件等。

该处理器可以调用并执行存储器152中存储的程序。

该通信接口153可以为通信模块的接口,如gsm模块的接口。

本发明还可以包括输入单元154,该输入单元可以包括感应触摸显示面板上的触摸事件的触摸感应单元、键盘等等。

该显示器155包括显示面板,如触摸显示面板等。在一种可能的情况中,可以采用液晶显示器(liquidcrystaldisplay,lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板。

当然,图15所示的终端结构并不构成对本发明实施例中终端的限定,在实际应用中终端可以包括比图15所示的更多或更少的部件,或者组合某些部件。

进一步的,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令用于执行上述基于r2rml标准的映射方法。

有关计算机可执行指令的具体内容可参见上文对本申请实施例提供的一种基于r2rml标准的映射方法的详细描述,在此不做赘述。

本发明提供一种基于r2rml标准的映射方法、装置、设备及存储介质,通过确定用户创建的基于r2rml标准的关系数据库到资源描述框架映射任务,连接映射任务指示的关系数据库,如需借助领域模型进行映射,则可导入领域本体;对关系数据库进行智能模式分析,包括显性结构特征、数据特点,以及隐含语义分析,得到关系数据库的关联关系表;确定用户从预先设置的至少一种映射模式中选取的目标映射模式,至少一个映射模式包括直接映射模式、自定义映射模式和借助领域模型的数据映射模式。其中,在自定义映射和借助领域模型的映射模式下,用户可复用已有rdf词汇、自定义rdf词汇,或者为用户智能推荐的与之匹配的已有的rdf词汇,帮助其扩展描述语义关系;利用目标映射模式和关联关系表进行rdf三元组定义,并基于r2rml映射规则自动生成r2rml映射文档;本发明提供基于r2rml标准的rdb2rdf映射转换工具提供r2rml编辑器,支持r2rml映射文档的浏览、编辑和修改,同时基于r2rml标准的rdb2rdf映射转换工具还支持对r2rml语法检查,并进行映射预执行,统计预生成的数据结果;通过r2rml处理器实现数据映射生成rdf三元组文件,以及对生成的rdf三元组文件进行评估,并生成评估报告。

本发明提供的技术手段,通过建立面向不同映射模式的映射定义视图,提供映射转换过程中的多种语义建模和语义丰富功能,r2rml映射文档自动生成,并提出一套多重数据映射文档检测和结果数据评估与控制机制,在一定程度上降低用户的映射操作难度,提高用户操作便利性和可理解性。

以上对本发明所提供的一种基于r2rml标准的映射方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1