本说明书涉及计算机,尤其涉及一种多源异构数据关联查询加速方法、装置及设备。
背景技术:
1、信息技术的高速发展促进了现有数据存储方案的多元化,同时现有存储模型呈现多样化的趋势,数据存储已经不再局限于数据库、文件系统、对象存储等单一存储介质。在数据分析、数据处理等场景下,需要将多源异构的数据整合到一起,进行关联计算和分析。
2、然而,现有对异构数据源进行关联和管理的方法的灵活性较差,导致执行数据查询的时间较长,数据处理任务的整体效率较低,无法充分发挥存储系统的软、硬件性能。
3、因此,如何提高对数据进行联合查询的效率,充分发挥存储系统的软、硬件性能,是一个亟待解决的问题。
技术实现思路
1、本说明书提供一种多源异构数据关联查询加速方法、装置及设备,以部分的解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、本说明书提供了一种多源异构数据关联查询加速方法,包括:
4、获取各异构数据源,并根据所述各异构数据源的描述信息,分别与所述各异构数据源建立连接;
5、接收各异构数据源对应的初始查询请求;
6、对所述各异构数据源中指定数据模式的目标数据以及所述初始查询请求进行特征抽取,得到具有若干维度的特征向量;
7、将所述特征向量输入预先训练的决策模型,确定不同迁移策略的执行时间;
8、根据所述执行时间,确定目标迁移策略,并根据所述目标迁移策略判断是否需要进行数据迁移;
9、若是,则按照所述目标迁移策略进行数据迁移,得到目标数据源,所述目标数据源的数量小于迁移之前的异构数据源的数量;
10、根据所述目标数据源,对所述初始查询请求进行解析重建,并根据重建后的目标查询请求生成逻辑执行计划;
11、根据所述逻辑执行计划确定物理执行计划,并根据所述物理执行计划执行所述目标查询请求对应的数据处理任务。
12、可选地,所述若干维度的特征向量至少包括:异构数据源类型、数据模式的元信息,所述初始查询请求中逻辑连接方式、连接字段、关联字段类型、数据规模以及数据膨胀率。
13、可选地,所述方法还包括:
14、确定目标迁移策略在不同特征向量以及软、硬件环境参数下的实际执行时间,并将所述实际执行时间反馈给所述决策模型;
15、根据所述实际执行时间,对所述决策模型在各环境参数下的模型参数进行更新。
16、可选地,按照所述目标迁移策略进行数据迁移,得到目标数据源,具体包括:
17、按照所述目标迁移策略,将存储在不同位置的异构数据源汇聚到所述目标迁移策略所指定的数据源中,得到所述目标数据源。
18、可选地,对所述各异构数据源中指定数据模式的目标数据以及所述初始查询请求进行特征抽取,得到具有若干维度的特征向量,具体包括:
19、根据所述查询请求对应结构化查询语言sql中的查询字段对所述各异构数据源的元数据进行校验;
20、针对每个异构数据源,对该异构数据源执行数据采样,并根据采样结果抽取数据特征;
21、对所述sql进行解析,得到所述查询请求对应的抽象语法树ast,根据所述ast确定所述查询请求对应数据处理逻辑的特征;
22、根据每个异构数据源对应的数据特征以及所述数据处理逻辑的特征确定所述具有若干维度的特征向量。
23、可选地,根据重建后的目标查询请求生成逻辑执行计划,具体包括:
24、对所述目标查询请求对应的sql进行解析,并对解析得到的基于关系代数的表达节点进行拼接,得到所述目标查询请求对应的目标ast;
25、调用基于代价的sql优化器对所述目标ast进行优化,得到优化后ast;
26、根据所述优化后ast生成基于关系代数的逻辑执行计划。
27、可选地,根据所述逻辑执行计划确定物理执行计划,具体包括:
28、根据所述目标数据源对应的描述信息,确定该目标数据源对应的种类信息;
29、确定所述种类信息所对应的数据库方言;
30、将所述逻辑执行计划发送给所述目标数据源,以使所述目标数据源根据所述数据库方言,将所述逻辑执行计划转换成所述物理执行计划并执行。
31、本说明书提供了一种多源异构数据关联查询加速装置,包括:
32、连接模块,获取各异构数据源,并根据所述各异构数据源的描述信息,分别与所述各异构数据源建立连接;
33、接收模块,接收各异构数据源对应的初始查询请求;
34、抽取模块,对所述各异构数据源中指定数据模式的目标数据以及所述初始查询请求进行特征抽取,得到具有若干维度的特征向量;
35、输入模块,将所述特征向量输入预先训练的决策模型,确定不同迁移策略的执行时间;
36、判断模块,根据所述执行时间,确定目标迁移策略,并根据所述目标迁移策略判断是否需要进行数据迁移;
37、迁移模块,若是,则按照所述目标迁移策略进行数据迁移,得到目标数据源,所述目标数据源的数量小于迁移之前的异构数据源的数量;
38、重建模块,根据所述目标数据源,对所述初始查询请求进行解析重建,并根据重建后的目标查询请求生成逻辑执行计划;
39、执行模块,根据所述逻辑执行计划确定物理执行计划,并根据所述物理执行计划执行所述目标查询请求对应的数据处理任务。
40、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多源异构数据关联查询加速方法。
41、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述多源异构数据关联查询加速方法。
42、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
43、在本说明书提供的多源异构数据关联查询加速方法中,获取各异构数据源,并接收各异构数据源对应的初始查询请求;根据各异构数据源的描述信息,分别与所述各异构数据源建立连接;对指定数据模式的目标数据以及查询请求进行特征抽取,得到特征向量并输入决策模型,确定不同迁移策略的执行时间,进而确定目标迁移策略,根据目标迁移策略判断是否需要进行数据迁移;若是,则按照目标迁移策略进行数据迁移,得到目标数据源;根据目标数据源对查询请求进行解析重建,并根据重建后的目标查询请求生成逻辑执行计划;根据逻辑执行计划确定物理执行计划,并执行目标查询请求对应的数据处理任务。
44、从上述方法可以看出,本方案在进行多源异构数据联合查询的过程中,可以通过对查询请求以及异构数据源中指定数据模式的数据进行特征抽取,得到相应的特征向量,充分获取数据本身的分布特征而不局限于数据源本身的统计数据,进而根据特征向量确定出最优的执行计划,判断是否需要进行数据迁移以及目标迁移策略,相比于现有技术,本方案可以根据预测出的执行时间确定出最优的目标迁移策略,保证对数据进行联合查询的效率,充分发挥存储系统的软、硬件性能。