一种基于流水线的分布式多表连接方法及系统与流程

文档序号:11177300阅读:来源:国知局

技术特征:

技术总结
本发明涉及一种基于流水线的分布式多表连接方法及系统,其中方法包括并行执行的以下步骤:映射处理单元从分布式文件系统读取待连接表,将所述待连接表进行映射处理后得到对应的数据块,并以每两个待连接表为一组输出;第二规约处理单元按序读取第二组至末尾组表的数据块,并对每组表的两个数据块进行哈希连接得到每组表的两表连接结果;第一规约处理单元读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果,并在等待第二规约机器群完成一组表的哈希连接后,将当前的多表连接结果与该组表的两表连接结果进行顺序连接,直至所有组表完成连接。本发明通过并行执行的流水线,既实现了查询操作时自适应分割,又能快速高效的完成。

技术研发人员:王宏志;孙旭冉;赵志强
受保护的技术使用者:哈工大大数据产业有限公司
技术研发日:2017.05.19
技术公布日:2017.10.03
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1