一种支持全局复杂检索的跨地域查询方法及系统与流程

文档序号:11199343阅读:593来源:国知局
一种支持全局复杂检索的跨地域查询方法及系统与流程

本发明涉及一种支持对数据中心海量数据的全局分组、统计、排序等复杂检索的跨地域查询方法及系统,属于大数据处理领域。



背景技术:

随着计算机技术的不断发展和信息化程度的不断提高,数据量迅速增长,面向海量数据存储及应用也随之蓬勃发展,大数据应用越来越广泛。如,在网络安全上,使用大数据技术分析网络攻击行为;在电子商务上,使用大数据技术分析用户购物喜好或最受青睐的商品;在城市建设上,利用大数据技术构建智慧城市,方便人民出行。诸如此类,大数据技术在建设节约型社会,提高生成效率等方面起到了积极的推动作用。

但随着数据量的持续增大和大数据应用的不断发展,用于分业务或分省点存储数据的数据中心也越来越多。某些行业或机构(尤其政府、公安、部队等领域)常设立多个数据中心用于存储业务数据,如此在海量数据分析应用中,只能对单数据中心进行数据提取,对各数据中心的所有数据作为整体数据集进行分组、统计、排序等简单分析的需求也日益明显。在大数据应用中,将存储于各数据中心的海量数据作为整体进行分析是必备手段之一。因此,研究一个囊括各数据中心所有数据并提供全局查询的软件系统成为解决该需求的关键。



技术实现要素:

为解决上述问题,本发明的目的就是提供一种支持全局分组、排序等复杂查询的跨地域查询方法及系统,提高对各数据中心大数据的综合分析能力。

本发明采用的技术方案如下:

一种支持全局复杂检索的跨地域查询方法,包括以下步骤:

1)建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;

2)根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;

3)解析用户的查询请求,根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;

4)全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。

进一步地,所述全局元数据组织结构中包括数据中心的各数据表所在引擎、库以及字段名和类型的描述,全局用户以及权限相关的描述;各数据中心建立本地查询代理的路由配置信息结构。

进一步地,各数据中心的表结构信息中包括数据中心别称、表所在引擎、表所在库、表名及字段描述,其中字段描述中包含字段名称及字段类型;各数据中心的路由配置信息包括数据中心别称、本地查询代理ip1和本地查询代理ip2以及虚拟ip;全局用户分为root用户和普通用户,root用户拥有全局最高权限,普通用户由root用户创建并分配权限;所述权限包括增/删视图权限、查询权限。

进一步地,全局视图包括全局视图名及视图字段的描述信息;全局视图与数据中心的实体表的映射信息包括全局视图各字段映射的数据中心的具体引擎、库、表和字段。

进一步地,各数据中心实时推送数据表的增、删、改动作,由此联动修改全局元数据,供全局用户查看数据中心的数据表,并且动态调整因数据中心的数据表的修改所引起的全局视图的映射关系。

一种采用上述方法的支持全局复杂检索的跨地域查询系统,包括全局点和各数据中心,对全局点和各数据中心建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。

本发明的有益效果如下:

本发明的主要创新点是提供了一种支持全局分组、排序等复杂查询的跨地域查询方案,不仅能够实现对数据中心别结构变化的动态感知,而且能从全局将数据中心数据集当做整体来进行数据分析,能够提高对各数据中心大数据的综合分析能力,符合目前的大数据分析应用需求,在大数据处理领域具有很强的实用性和应用范围,具有广阔的应用前景。

附图说明

图1为跨地域查询系统的元数据组织结构示意图;

图2为全局元数据动态感知流程图;

图3为全局查询流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。

本发明提供支持分组、排序等复杂检索且具备用户和权限控制的跨地域查询方案,以满足将数据中心当作整体数据集来处理的需求,实现不同用户不同级别的权限控制,有效提高对各数据中心海量数据的综合分析能力。

本发明的第一方面,给出了跨地域查询系统的元数据组织结构和数据中心(后文也称为分中心)本地查询代理的路由配置信息结构。其中,元数据包括全局二维视图的描述,全局视图与数据中心实体表到字段级的映射关系,数据中心各数据表所在引擎、库以及字段名和类型的描述,全局用户以及权限相关的描述;路由配置信息包括数据中心别称、本地查询代理ip1和本地查询代理ip2以及虚拟ip。以上数据组织格式支持全局点由于数据中心数据表结构调整的动态感知以及历史视图的映射关系的动态调整。

本发明的第二方面,该系统支持数据中心实时推送本中心的数据表的增、删、改等动作,由此联动修改全局元数据,提供全局用户查看数据中心的数据表,并且动态调整因数据中心的数据表的修改所引起的历史全局视图映射关系。

本发明的第三方面,该系统支持用户和权限。用户分为root用户和普通用户,root用户拥有全局最高权限,普通用户由root用户创建并分配权限;权限分为增/删视图、查询(字段级)权限。

本发明的第四方面,该系统支持用户创建全局视图,并手动指定与数据中心的数据表的映射关系,由此建立的全局视图在全局用户看来是一个囊括了各数据中心的实体表的大表。

图1给出了跨地域查询系统的元数据组织结构示意图。一种实施例中,分中心表结构信息中包括分中心别称、表所在引擎、表所在库、表名及字段描述等基本信息,其中字段描述中包含字段名称及字段类型;各数据中心本地查询所属的数据中心别称、主proxyip、备proxyip以及虚拟ip;全局视图的元数据信息包括视图名及视图字段的描述信息;全局视图与数据中心实体表的映射信息包括全局视图各字段要映射到数据中心具体哪个引擎的哪个库的哪个表的哪个字段,在创建映射信息时,会对全局视图的字段类型与映射字段类型进行校验,主要是进行字段类型是否匹配的校验。

图2示出了全局元数据动态感知流程图,具体步骤如下:

步骤201:接收数据中心的表结构增/删/修改的http请求;

步骤202:更新全局点的分中心表结构描述信息;

步骤203:判断是否为增加数据表操作,若是,则执行步骤201;否则执行204;

步骤204:转向对历史映射关系的校准模块,并执行相关逻辑:如果为删除分中心数据表的请求,则对全局映射关系的所有关于该表的映射记录删除;如果为更新分中心数据表的请求,则判断如果为增加字段请求,则不对已有的全局映射关系做任何调整;如果为删除字段请求,则将该表所对应的全局视图中对应的该字段删除;如果为更新字段名;则将该表所对应的全局视图中对应的该字段名更新;

步骤205:根据步骤204得出是否需要更新映射关系,若不是,则执行步骤201,否则执行步骤206;

步骤206:更新映射关系,并转向步骤201。

图3给出了全局查询流程图,该步骤执行的输入为符合全局语法的sql,具体步骤如下:

步骤301:对用户输入的sql语句进行解析;

步骤302:读取元数据及路由信息,对解析后的sql语句进行语义校验;

步骤303:根据步骤302语义校验结果进行判断,若sql有误,则直接退出;否则执行步骤304;

步骤304:将sql语句下发至各数据中心执行查询;

步骤305:等待数据中心反馈的查询结果,若所有数据中心查询有误(例如:分中心查询引擎故障,或是数据中心至全局点的链路网络故障,等等),则结束,否则执行步骤306;

步骤306:向查询无误的数据中心下发取数据请求,数据中心分批次将数据返回全局点;

步骤307:判断各数据中心是否将所有数据全部返回,若无,则继续执行步骤306,否则执行步骤307;

步骤308:判断是否为普通检索,若是,则直接将分中心返回的数据展示给全局用户,然后结束;否则执行步骤309;

步骤309:将各数据中心返回的查询结果进行汇总(这里使用将分中心上报的数据结果生成本地文件,并远程上传至hive数据仓库,使用hql语法进行包括分组,排序,limit等查询),然后将数据展示给全局用户,最后结束本次查询。

应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。本发明的保护范围应以权利要求书所述为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1