一种数据加载方法、终端和计算集群与流程

文档序号:12124128阅读:来源:国知局

技术特征:

1.一种数据加载方法,其特征在于,计算集群用于数据加载,查询集群用于KeyValue数据库的数据查询,所述计算集群与所述查询集群为不同集群,所述方法包括:

所述计算集群接收数据加载请求,所述数据加载请求携带有待加载数据表的分区信息;

所述计算集群根据所述分区信息确定第一数据分区,其中,所述分区信息指示的所有分区分别绑定一个所述第一数据分区;

所述计算集群从分布式文件系统中分别获取所述分区信息指示的每个分区的源数据,对每个分区的源数据分别执行映射任务;

所述计算集群根据所述分区信息指示的分区与所述第一数据分区的绑定关系,将执行每个映射任务所得的中间数据对应地写入所述第一数据分区;

所述计算集群对每个所述第一数据分区中的中间数据分别执行归约任务,执行得到每个归约任务的目标文件,所述目标文件供KeyValue数据库的所述加载数据表进行数据查询使用。

2.根据权利要求1所述的方法,其特征在于,所述分区信息指示的每个分区的Key值范围不同;对于具有所述绑定关系的所述分区与所述第一数据分区,所述分区的源数据与所述第一数据分区的中间数据具有相同的Key值范围。

3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:

所述计算集群将所述目标文件发送至所述查询集群。

4.根据权利要求3所述的方法,其特征在于,所述查询集群中具有第二数据分区,所有所述第二数据分区对应的Key值范围与所述第一数据分区对应的Key值范围相同,所述第二数据分区用于存储对应Key值范围的所述目标文件。

5.一种数据加载方法,其特征在于,计算集群用于数据加载,查询集群用于KeyValue数据库的数据查询,所述计算集群与所述查询集群为不同集群,所述方法包括:

向所述计算集群发送数据加载请求,所述数据加载请求携带有待加载数据表的分区信息,所述数据加载请求指示所述计算集群根据所述分区信息确定第一数据分区,所述分区信息指示的所有分区分别绑定一个所述第一数据分区,所述第一数据分区用于存储对于所述第一数据分区绑定的分区中的源数据执行映射任务所得的中间数据,以便对所述第一数据分区中的中间数据执行归约任务来获取目标文件;

请求所述计算集群将每个所述第一数据分区对应的目标文件发送至所述查询集群,以便在KeyValue数据库的所述待加载数据表进行数据查询时使用所述目标文件。

6.根据权利要求5所述的方法,其特征在于,所述查询集群中具有第二数据分区,所有所述第二数据分区对应的Key值范围与所述第一数据分区对应的Key值范围相同,所述第二数据分区用于存储对应Key值范围的所述目标文件。

7.根据权利要求5或6所述的方法,其特征在于,在向所述计算集群发送数据加载请求之前,所述方法还包括:

向所述查询集群请求待加载数据表的分区信息。

8.一种计算集群,其特征在于,包括:

接收模块,用于接收数据加载请求,所述数据加载请求携带有待加载数据表的分区信息;

确定模块,用于根据所述分区信息确定第一数据分区,其中,所述分区信息指示的所有分区分别绑定一个所述第一数据分区;

执行模块,用于从分布式文件系统中分别获取所述分区信息指示的每个分区的源数据,对每个分区的源数据分别执行映射任务;

写入模块,用于根据所述分区信息指示的分区与所述第一数据分区的绑定关系,将执行每个映射任务所得的中间数据对应地写入所述第一数据分区;

所述执行模块还用于,对每个所述第一数据分区中的中间数据分别执行归约任务,执行得到每个归约任务的目标文件,所述目标文件供查询集群的KeyValue数据库的所述加载数据表进行数据查询使用。

9.根据权利要求8所述的计算集群,其特征在于,所述分区信息指示的每个分区的Key值范围不同;对于具有所述绑定关系的所述分区与所述第一数据分区,所述分区的源数据与所述第一数据分区的中间数据具有相同的Key值范围。

10.根据权利要求8或9所述的计算集群,其特征在于,还包括:

发送模块,用于将所述目标文件发送至所述查询集群。

11.根据权利要求10所述的计算集群,其特征在于,所述查询集群中具有第二数据分区,所有所述第二数据分区对应的Key值范围与所述第一数据分区对应的Key值范围相同,所述第二数据分区用于存储对应Key值范围的所述目标文件。

12.一种终端,其特征在于,包括:

发送模块,用于向所述计算集群发送数据加载请求,所述数据加载请求携带有待加载数据表的分区信息,所述数据加载请求指示所述计算集群根据所述分区信息确定第一数据分区,所述分区信息指示的所有分区分别绑定一个所述第一数据分区,所述第一数据分区用于存储对于所述第一数据分区绑定的分区中的源数据执行映射任务所得的中间数据,以便对所述第一数据分区中的中间数据执行归约任务来获取目标文件;

请求模块,用于请求所述计算集群将每个所述第一数据分区对应的目标文件发送至所述查询集群,以便在查询集群的KeyValue数据库的所述待加载数据表进行数据查询时使用所述目标文件。

13.根据权利要求12所述的终端,其特征在于,所述查询集群中具有第二数据分区,所有所述第二数据分区对应的Key值范围与所述第一数据分区对应的Key值范围相同,所述第二数据分区用于存储对应Key值范围的所述目标文件。

14.根据权利要求12或13所述的终端,其特征在于,所述请求模块还用于:

在向所述查询集群请求待加载数据表的分区信息之前,向所述查询集群请求待加载数据表的分区信息。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1