技术特征:
技术总结
本发明公开了一种面向流水线结构化数据查询的数据库智能分区方法,解决了基于pipeline的查询上,广播地从其它存储节点获取执行pipeline所需的数据,网络传输开销大、查询执行时间长,查询性能差的问题。本发明方法包括:查询引擎根据SQL的查询请求经过物理计划的执行来处理该SQL查询请求,进行pipeline的划分,并将pipeline的划分情况上传至中心节点;中心节点采用在线k‑means聚类算法计算出存储引擎节点间最优的数据存储布局,其中,聚类结果中的每个簇对应一个存储节点;各存储节点利用增量方式存储当前最优数据布局的数据,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点仅保存新布局的数据。
技术研发人员:段翰聪;刘长红;姚入榕;闵革勇;梁戈
受保护的技术使用者:电子科技大学
技术研发日:2019.05.21
技术公布日:2019.08.16