一种用于大数据环境下可支持多格式特性的数据空间检索方法

文档序号:6542363阅读:311来源:国知局
一种用于大数据环境下可支持多格式特性的数据空间检索方法
【专利摘要】本发明涉及一种用于大数据环境下可支持多格式特性的数据空间检索方法。本发明包括:用户输入查询内容;判断用户查询类型;采用前缀扫描方式读取所建立的多级索引;进行链表合并操作;重写查询;遍历多级索引;将逆序压入栈中;首先弹出栈顶中两个元素;读取所建立的多级索引;根据索引链表右连接方案;弹出栈顶元素;输出满足条件的所有元素。本发明的方法由B-树索引和二级索引共同构成多级索引,能够解决主索引在大数据环境下,路径查询索引连接代价过大的问题。
【专利说明】一种用于大数据环境下可支持多格式特性的数据空间检索方法
【技术领域】
[0001]本发明涉及一种用于大数据环境下可支持多格式特性的数据空间检索方法。
【背景技术】
[0002]数据空间数据具有多样化特征,它包含结构化、半结构化和非结构化数据,如关系元祖、XML> Word文档、Emai1、视频、音频等数据,这种特征导致迫切需要一种支持多种类型的查询方式,因此其索引技术就显得尤为关键。一方面,与搜索引擎和传统数据集成技术不同的是,数据空间索引技术需索引多种类型数据,而不是为每种类型建立一种索引;另一方面,与传统搜索引擎、XML引擎、数据库查询不同的是,不再是侧重于某种类型数据的查询,而是灵活地支持多种不同程度结构的查询,如关键词查询、谓词查询、路径查询等。
[0003]随着互联网的飞速发展,数据信息呈现爆炸式增长,每年至少上亿TB的新数据产生,面对这种大数据环境,其索引效率的高低,直接决定数据空间数据查询的性能好坏,因此,数据空间数据的索引效率十分关键。目前数据空间索引技术主要有Hybrid-ATIL索引、图索引、全文索引+副本,尽管这些索引技术很好地索引了多种类型数据,但是它们难以解决大数据环境下的数据空间索引连接效率低下的问题。针对该问题,本发明利用多级索引思想,设计出了一种针对大数据环境下的数据空间高效索引技术,从而提高查询性能。

【发明内容】

[0004]本发明的目的在于提供一种支持多种查询方式及索引多格式数据,能够减少大量连接操作的、高效的用于大数据环境下可支持多格式特性的数据空间检索方法。
[0005]本发明的目的是这样实现的:
[0006]一种用于大数据环境下可支持多格式特性的数据空间检索方法,包括:
[0007]1)用户输入查询内容;
[0008]2)判断用户查询类型,如果为关键词查询P = ,.为关键词,则执行步骤3);如
果为谓词查询Q = (V, {kj), V为属性,ki为关键词,则转到步骤5);如果为路径查询Q =kl/....Ai/...,/,表示层次路径,则转到步骤7);
[0009]3)采用前缀扫描方式读取所建立的多级索引,获取表示以关键词ki开始
索引项,开头对应的链表结果分别记为^…1V ;表示索引中第j个包含匕索引项所对应的
文档列表,即posting ;如果查询类型为关键词查询,则转到步骤4);如果查询类型为路径查询,则转到步骤7);
[0010]4)进行链表合并操作,即先对所有ki开头的索引项对应的
posting进行并操作,对所有关键词ki并后的结果进行交操作,同时出现所有关键词的文档列表;[0011]5)查询重写为{ki/Vv};
[0012]6)遍历步骤I)所建立的多级索引,获取ki/zV对应的项,记为
【权利要求】
1.一种用于大数据环境下可支持多格式特性的数据空间检索方法,其特征在于: 1)用户输入查询内容; 2)判断用户查询类型,如果为关键词查询P= IMavS关键词,则执行步骤3);如果为谓词查询Q= (v, {kj), V为属性,匕为关键词,则转到步骤5);如果为路径查询Q =kl/....Ai/...,/,表示层次路径,则转到步骤7); 3)采用前缀扫描方式读取所建立的多级索引,获取ki*,ki*表示以关键词ki开始索引项,开头对应的链表结果分别记为~._//,表示索引中第j个包含h索引项所对应的文档列表,即posting ;如果查询类型为关键词查询,则转到步骤4);如果查询类型为路径查询,则转到步骤7); 4)进行链表合并操作,即Z= UU Lk,先对所有ki开头的索引项对应的posting进行并操作,对所有关键词ki并后的结果进行交操作,同时出现所有关键词的文档列表; 5)查询重写为{ki/Vv}; 6)遍历步骤I)所建立的多级索引,获取!^/八对应的项“己为工=^“!^,Lki/Vv表示索引项中ki/Vv对应posting, L表示在属性中同时出现多个关键词ki的所有文档列表; 7)将匕到匕逆序压入栈中; 8)首先弹出栈顶中两个元素,记为Ic1和k2; 9)读取步骤I)所建立的多级索引,获取Ic1的B-树索引和k2的H索引,分别记为',关键词I^1对应资源视图编号为兀素构成的的B树索引和关键词k2对应的H索引; 10)根据索引链表右连接方案,连接/^和',结果记为及_= Ui''生成的临时B树,初始为空,即对A中每个主键K来说,如果在A中能够发现,则把K对应项C= {cj中所有元素插入到Btraip中; 11)如果栈不为空,则转到步骤12);否则,转到步骤14)中; 12)弹出栈顶元素ki;读取步骤I)所建立的多级索引,获取Ici的H索引,记为%,按照步骤10)方法连接和BtMP,结果记为#— = H.13)转到步骤11); 14)遍历Btraip或者L,输出满足条件的所有元素。
2.根据权利要求1所述的一种用于大数据环境下可支持多格式特性的数据空间检索方法,其特征在于:所述步骤3)所建立的多级索引的构建过程包括下述步骤: A、在大数据环境下对数据空间构建多级索引;所述构建内容包括采用扩展倒排索引的主索引的构建与采用B-树与二级索引相结合的辅助索引的构建;扩展倒排索引负责支持大数据的关键词查询、谓词查询树索引和二级索引则负责支持大数据的路径查询; 主索引的构建是为针对资源视图中不同组件,采用扩展的倒排索引进行索引构建: (1)装载数据空间数据; (2)对每个资源视图Vi的名称为keyword的名称组件,在关键词列中加入keyword,并且在相应链表中加入项,其中Vi表示资源视图Vi的唯一标识,{P,k}表示Vk — Vi的所有Vk的标识构成的集合;即Vi的所有父节点标识; (3)如果资源视图的元组组件不为空,则转到步骤4),如果内容组件不为空,则转到步骤(5); (4)对资源视图的元组组件τ= (w,t),其中,w表示模式,t是符合模式w的一个元组;w = a」, j=l, 2,..k是一个属性序列,其中a」为属性名;t = Vj, j=l, 2,“.1?是值序列,其中Vj为值,此步骤包含两个子步骤(4-1)和(4-2); (4-1)在关键词列中加入属性名,并在相应的链表中加入项(Vi, IVJ),其中Vi表示资源视图\的唯一标识; (4-2) <a,k>S (w,t)的一个相对应的属性-值对,则对每一个< a, k >,在关键词列中加入k//a,并在相应的链表中添加一个项(Vi, {VJ),其中Vi表不资源视图Vi的唯一标识; (5)对于内容组件中每个关键词keyword来说,在关键词列中加入keyword,并在相应链表中添加一个项(Vi, (Vj),其中Vi表不资源视图Vi的唯一标识; B、辅助索引主要是为解决主索引在大数据环境下,路径查询索引连接代价高昂的问题;辅助索引由B-树索引和二级索引构成,其具体步骤如下: (1)读取主索引; (2)对每一个关键词keywordl,获取其对应的项阶1=? —< K’ I >,…丨,Pik是vi的父资源视图; (3)如果keywordl不是扩展关键词,即a//k形式,则进行以下两个步骤: (3-1)假定S = {VJ,其中Vi为项i的所有元素的左半部分,即S为包含关键词keywordl的所有资源视图,则对S进行B-树索引;(3-2)对项i中每个元素< I/” \lf I >中每个#,如果父视图vector中不包含,则加入到父视图vector中,并且把Vi加入到其对应的链表中,形成H索引。
3.根据权利 要求1所述的一种用于大数据环境下可支持多格式特性的数据空间检索方法,其特征在于所述的多级索引技术,采用右连接规则处理不同类型的查询。
【文档编号】G06F17/30GK103902699SQ201410125840
【公开日】2014年7月2日 申请日期:2014年3月31日 优先权日:2014年3月31日
【发明者】周连科, 王洪滨, 王念滨, 祝官文 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1