一种基于MinDFA的联邦型RDF系统属性路径查询与优化方法

文档序号:26606684发布日期:2021-09-10 23:45阅读:64来源:国知局
一种基于mindfa的联邦型rdf系统属性路径查询与优化方法
技术领域
1.本发明涉及分布式rdf系统数据管理与应用领域,一种基于mindfa的联邦型rdf系统属性路径查询与优化方法。


背景技术:

2.随着信息时代的高速发展和5g网络的形成,网络资源规模日益增大,网络资源之间相互关联形成了天然的数据语义网络。为了形式化描述这些web资源,2004年,w3c提出了资源描述框架(resource description framework,rdf)的概念,它主要用来描述比如网页的标题、作者、修改日期、内容以及版权信息。在rdf数据概念模型中,网络资源的命名方式采用统一资源标识(uniform resource indentifiers,uri)进行命名,它的数据基本形式为<主体,谓词,客体>和<主体,属性,属性值>的三元组,如:<张三,朋友,李四>表示张三有一个朋友是李四,<张三,年龄,30>表示张三的年龄属性值为30。若干rdf三元组共同组成一个rdf数据集,为了对构建好的rdf数据集进行数据管理,2008年,w3c提出了针对rdf数据集的结构化标准查询语言sparql(simple protocoland rdf query language)1.0。该查询语言的形式与关系型数据库的sql类似,使用select关键字查询满足where条件下的rdf数据。由于w3c的大力推广和rdf特有的灵活性结构,不局限于网络资源数据,越来越多的领域数据也被表示为rdf形式。随着rdf数据集规模的日益增长,集中式rdf系统的单机处理能力已彰显出性能不足的特点,采用分布式数据系统对其进行查询处理成为当前研究热点。
3.联邦型rdf系统作为分布式rdf数据系统中比较新颖的一类,它由一个控制站点和一系列各自“自治”的rdf数据源组成。这些rdf数据源的更新、维护由它们各自的数据管理员独自管理,仅对外提供sparql查询接口,不会暴露数据集的所有数据,一定程度上确保了数据的安全性。控制站点负责面向用户交互,将用户提交的联邦查询分发到对应的rdf数据源上进行rdf数据的sparql查询。由于sparql查询语言的设计初衷只针对集中式rdf系统有效,不能直接应用在联邦型rdf系统,因此联邦型rdf系统的sparql查询需要一定的处理转换。针对用户提交一个sparql查询,控制站点首先分析联邦sparql查询语句,将其分解为多个子查询。然后,将这些子查询分发到相应的rdf数据源上。最后,所有子查询的执行结果返回到控制站点并进行join操作形成最终结果返回给用户。
4.2013年sparql 1.1的发布新增了许多复杂查询方式,其中新增的属性路径查询能够查询数据集中满足属性路径表达式规则的顶点对,这些属性路径表达式规则往往需要复杂的转换才能用基础查询替代,甚至难以使用基础查询替代,然而这些复杂查询的使用需求日益增强,目前,已有的联邦型rdf系统主要实现了sparql 1.0中的基础查询和多查询,并对其进行了一些优化,但尚未实现sparql 1.1中的复杂查询;因此,针对上述问题,本发明提出了一种基于mindfa的联邦型rdf系统属性路径查询与优化方法,在联邦型rdf系统中实现了sparql 1.1中属性路径查询,并通过相关优化策略提升了查询效率。


技术实现要素:

5.本发明旨在解决联邦型rdf系统尚未实现sparql 1.1中属性路径查询的问题。
6.为此,本发明提出了一种基于mindfa的联邦型rdf系统属性路径查询与优化方法,主要包括两个内容:
7.(1)基于thompson算法的联邦型rdf系统属性路径查询属性路径表达式mindfa快速构建方法;
8.(2)基于mindfa和b

dfs的属性路径查询执行方法。
9.具体内容如下:
10.采用方法(1)根据联邦属性路径查询语句中的属性路径表达式,快速构建其与对应的mindfa;采用方法(2)实现联邦型rdf系统属性路径表达式快速查询,总体技术框架见附图1。具体算法如下:
11.(1)基于thompson算法的联邦型rdf系统属性路径查询属性路径表达式mindfa快速构建方法
12.联邦型rdf系统中属性路径查询的属性路径表达式的形式可以表示为:select*where{?s p?o},其中p为属性路径表达式,属性路径语法规定一个属性路径表达式由正则运算符、iri和路径元素组成,正则运算符集合可以表示为:s={^,|,/,*,+,?,!}。
13.针对属性路径表达式中iri和路径元素与正则表达式子母集的差异,通过建立双映射规则将其转换为普通正则表达式;再采用thompson算法将正则表达式转换为nfa,并通过幂集构造和等价状态消除策略将nfa转为dfa并最小化形成mindfa;最后通过双映射规则将正则表达式构建的mindfa快速反映射为属性路径表达式对应的mindfa,实现联邦型rdf系统属性路径查询中属性路径表达式对应mindfa的快速构建。
14.(2)基于mindfa和b

dfs的属性路径查询执行方法
15.通过采用广度优先搜索和深度优先搜索相结合的b

dfs方法,首先,对属性路径表达式mindfa起始状态第一跳状态转移采用广度优先搜索匹配方法查询所有满足起始状态自转移和第二状态转移条件的数据;然后,对后续状态转移采用深度优先搜索匹配方法以实现查询结果的快速收敛;最后,通过交替缓冲标记机制消除可能存在的循环重复匹配问题,实现联邦型rdf系统属性路径表达式快速查询。
附图说明
16.图1为本发明技术框架图
具体实施方式
17.结合附图1技术路线图,本发明步骤如下:
18.第一步:辅助索引和代价模型构建
19.在离线阶段提取联邦型rdf系统中各个数据集的元数据,构建查询分解使用的辅助索引和查询计划生成使用的代价模型。
20.第二步:查询分解与mindfa构建
21.根据第一步构建的辅助索引将联邦属性路径查询语句分解为多个子查询,并对包含属性路径表达式的子查询,分别构建与属性路径表达式对应的mindfa。
22.第三步:查询计划生成
23.根据第一步构建的代价模型评估每个子查询的查询代价以及子查询之间join代价,根据不同子查询执行顺序带来的不同连接代价生成最优查询计划。
24.第四步:基于mindfa的查询计划执行
25.根据查询计划中子查询执行顺序执行各个子查询语句,其中,对包含属性路径表达式的子查询采用基于mindfa的查询方式执行,执行过程中采用b

dfs和交替缓冲标记机制进一步提高查询效率。


技术特征:
1.一种基于mindfa的联邦型rdf系统属性路径查询与优化方法,其主要特征是:(1)基于thompson算法的联邦型rdf系统属性路径查询属性路径表达式mindfa快速构建方法;(2)基于mindfa和b

dfs的属性路径查询执行方法。2.根据权利要求1所述的基于thompson算法的联邦型rdf系统属性路径查询属性路径表达式mindfa快速构建方法,其特征是,针对联邦型rdf系统属性路径查询中的属性路径表达式与传统正则表达式形式差异,从而导致属性路径表达式构建mindfa效率低下的问题,通过建立双映射规则将其转换为传统正则表达式,再采用thompson算法将传统正则表达式转换为nfa,并通过幂集构造和等价状态消除策略将nfa转为dfa并最小化形成mindfa,最后通过双映射规则将传统正则表达式构建的mindfa快速映射为属性路径表达式mindfa,实现联邦型rdf系统属性路径查询中属性路径表达式对应mindfa的快速构建。3.根据权利要求1所述的基于mindfa和b

dfs的属性路径查询执行方法,其特征是,针对mindfa只能用来判断给定的输入是否满足正则表达式规则,无法直接应用到数据库查询领域的问题,通过采用广度优先搜索和深度优先搜索相结合的b

dfs方法,对mindfa起始状态第一跳状态转移采用广度优先搜索匹配,对后续状态转移采用深度优先搜索匹配实现查询结果的快速收敛,另外,通过交替缓冲标记机制消除可能存在的循环重复匹配问题,实现联邦型rdf系统属性路径表达式快速查询。

技术总结
本发明涉及一种基于MinDFA的联邦型RDF系统属性路径查询与优化方法。其发明内容主要包括(1)基于Thompson算法的联邦型RDF系统属性路径查询属性路径表达式MinDFA快速构建方法;(2)基于MinDFA和B


技术研发人员:葛宁超 秦拯 彭鹏 李明道
受保护的技术使用者:湖南大学
技术研发日:2021.07.05
技术公布日:2021/9/9
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1