一种面向RDF三元组的专业数据直接映射方法与流程

文档序号:18985804发布日期:2019-10-29 04:23阅读:519来源:国知局
一种面向RDF三元组的专业数据直接映射方法与流程

本发明涉及专业数据直接映射技术领域,尤其涉及一种面向rdf三元组的专业数据直接映射方法。



背景技术:

资料描述框架,简称rdf,是用于描述web资源的标记语言,同时也是整个语义网系统结构中的核心,它被广泛用于描述互联网上存在的各种信息资源,数据映射是指将源数据通过某种数据加工步骤映射为目标数据的过程,通常而言,源数据以及目标数据都是数据表的字段,而数据加工步骤则使用结构化查询语言语句来表示,用于描述数据映射的数据称为数据映射逻辑,基于数据映射逻辑可以生成用于实现数据映射的代码;

在现有技术中,数据映射逻辑通常采用文字描述的方式,将数据映射逻辑转化为对应的代码过程往往需要开发人员通过手工编写,或在部分自动生成的基础上结合大量的手工修改才能完成,不仅效率低,还容易导致代码与数据映射逻辑不一致的情况发生,并且现有rdf三元组的专业数据的可达性查询方式无法满足快速有效处理数据的需求。



技术实现要素:

(一)发明目的

为解决背景技术中存在的技术问题,本发明提出一种面向rdf三元组的专业数据直接映射方法,可以高效、准确地建立大规模rdf数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。

(二)技术方案

为解决上述问题,本发明提出了一种面向rdf三元组的专业数据直接映射方法,包括以下步骤:

s1、预处理长字符串类型的rdf三元组,获得与各长字符串类型的rdf三元组相对应的长整型rdf三元组;

s2、利用预设框架对长整型rdf三元组进行分割处理,生成数据索引文件夹;

s3、利用数据索引文件夹构建rdf数据的可达性查询索引;

s4、对构建的rdf数据的可达性查询索引进行验证和评估;

s5、保存构建的rdf数据的可达性查询索引;

s6、获取待映射的数据文件;

s7、配置数据映射逻辑;

s8、获取数据映射逻辑并对其进行解析,生成数据映射代码;

s9、执行数据映射代码,进行数据映射;

s10、解析数据中的逻辑段,获得sql片段;

s11、根据sql片段拼接生成与数据加工步骤相对应的sql语句;

s12、生成嵌入有上述sql语句的数据映射脚本。

优选的,在s1中,每个长整型rdf三元组包括主体、谓词和客体。

优选的,在s2中,预设框架为mapreduce框架或spark框架。

优选的,在s2中,还包括对长整型rdf三元组进行分类操作,并生成与每种分类方式相对应的数据索引文件夹。

优选的,每个类别的索引文件夹中包含有多个子文件。

优选的,在s3中,具体包括以下步骤:利用主体-谓词-客体索引文件夹和客体索引文件夹中的内容确定rdf数据的可达性查询索引的根节点等价类;根据集合的独立性定理,利用主体-客体后代索引文件夹、根节点等价类以及客体等价类索引文件夹中的内容确定rdf数据的可达性查询索引的非根节点等价类;利用rdf数据的可达性查询索引的根节点等价类、rdf数据的可达性查询索引的非根节点等价类、客体索引文件夹和主体-谓词-客体索引文件夹中的内容确定rdf数据的可达性查询索引的根节点等价类与非根节点等价类的谓词;生成rdf数据的可达性查询索引。

优选的,在s10中,具体包括以下步骤:解析逻辑段的段名称并获得与逻辑段相对应的sql语句中的操作关键词;解析逻辑段中的参数字段并获得与操作关键词相关联的操作参数;解析所述逻辑段中的附加文本字段,获得附加文本;基于操作关键词、操作参数和附加文本生成sql片段。

优选的,在s12中,具体包括以下步骤:获得数据映射脚本公用部分的模板文件;将sql语句嵌入模板文件以生成数据映射脚本。

本发明的上述技术方案具有如下有益的技术效果:

本发明可以高效、准确地建立大规模rdf数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。

附图说明

图1为本发明提出的一种面向rdf三元组的专业数据直接映射方法的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

如图1所示,本发明提出的一种面向rdf三元组的专业数据直接映射方法,包括以下步骤:

s1、预处理长字符串类型的rdf三元组,获得与各长字符串类型的rdf三元组相对应的长整型rdf三元组;

s2、利用预设框架对长整型rdf三元组进行分割处理,生成数据索引文件夹;

s3、利用数据索引文件夹构建rdf数据的可达性查询索引;

s4、对构建的rdf数据的可达性查询索引进行验证和评估;

s5、保存构建的rdf数据的可达性查询索引;

s6、获取待映射的数据文件;

s7、配置数据映射逻辑;

s8、获取数据映射逻辑并对其进行解析,生成数据映射代码;

s9、执行数据映射代码,进行数据映射;

s10、解析数据中的逻辑段,获得sql片段;

s11、根据sql片段拼接生成与数据加工步骤相对应的sql语句;

s12、生成嵌入有上述sql语句的数据映射脚本。

在一个可选的实施例中,在s1中,每个长整型rdf三元组包括主体、谓词和客体。

在一个可选的实施例中,在s2中,预设框架为mapreduce框架或spark框架。

在一个可选的实施例中,在s2中,还包括对长整型rdf三元组进行分类操作,并生成与每种分类方式相对应的数据索引文件夹。

在一个可选的实施例中,每个类别的索引文件夹中包含有多个子文件。

在一个可选的实施例中,在s3中,具体包括以下步骤:

利用主体-谓词-客体索引文件夹和客体索引文件夹中的内容确定rdf数据的可达性查询索引的根节点等价类;

根据集合的独立性定理,利用主体-客体后代索引文件夹、根节点等价类以及客体等价类索引文件夹中的内容确定rdf数据的可达性查询索引的非根节点等价类;

利用rdf数据的可达性查询索引的根节点等价类、rdf数据的可达性查询索引的非根节点等价类、客体索引文件夹和主体-谓词-客体索引文件夹中的内容确定rdf数据的可达性查询索引的根节点等价类与非根节点等价类的谓词;

生成rdf数据的可达性查询索引。

在一个可选的实施例中,在s10中,具体包括以下步骤:

解析逻辑段的段名称并获得与逻辑段相对应的sql语句中的操作关键词;

解析逻辑段中的参数字段并获得与操作关键词相关联的操作参数;

解析所述逻辑段中的附加文本字段,获得附加文本;

基于操作关键词、操作参数和附加文本生成sql片段。

在一个可选的实施例中,在s12中,具体包括以下步骤:

获得包括所述数据映射脚本的公用部分的模板文件;

将所述sql语句嵌入所述模板文件以生成所述数据映射脚本。

本发明中,首先对长字符串类型的rdf三元组进行预处理,获得与各长字符串类型的rdf三元组相对应的长整型rdf三元组;利用预设框架对长整型rdf三元组进行分割处理,生成数据索引文件夹;

利用数据索引文件夹构建rdf数据的可达性查询索引,包括利用主体-谓词-客体索引文件夹和客体索引文件夹中的内容确定rdf数据的可达性查询索引的根节点等价类,根据集合的独立性定理,利用主体-客体后代索引文件夹、根节点等价类以及客体等价类索引文件夹中的内容确定rdf数据的可达性查询索引的非根节点等价类,利用rdf数据的可达性查询索引的根节点等价类、rdf数据的可达性查询索引的非根节点等价类、客体索引文件夹和主体-谓词-客体索引文件夹中的内容确定rdf数据的可达性查询索引的根节点等价类与非根节点等价类的谓词,生成rdf数据的可达性查询索引;

对构建的rdf数据的可达性查询索引进行验证和评估;保存构建的rdf数据的可达性查询索引;获取待映射的数据文件;配置数据映射逻辑;获取数据映射逻辑并对其进行解析,生成数据映射代码;执行数据映射代码,进行数据映射;解析数据中的逻辑段,获得sql片段,包括解析逻辑段的段名称并获得与逻辑段相对应的sql语句中的操作关键词,解析逻辑段中的参数字段并获得与操作关键词相关联的操作参数,解析所述逻辑段中的附加文本字段,获得附加文本,基于操作关键词、操作参数和附加文本生成sql片段;

根据sql片段拼接生成与数据加工步骤相对应的sql语句;生成嵌入有上述sql语句的数据映射脚本,包括获得数据映射脚本公用部分的模板文件,将sql语句嵌入模板文件以生成数据映射脚本;

本发明可以高效、准确地建立大规模rdf数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1