一种基于副本选择的大数据实时查询系统负载均衡方法

文档序号:7783510阅读:288来源:国知局
一种基于副本选择的大数据实时查询系统负载均衡方法
【专利摘要】本发明涉及计算机数据库处理领域,尤其涉及一种基于副本选择的大数据实时查询系统负载均衡方法,包括节点负载信息收集和节点负载均衡两个过程,节点负载均衡过程包括预处理和选择副本两个阶段。本发明的有益效果:本发明针对现有的大数据实时查询系统负载均衡方法过于简单且不考虑机器当前状态的问题,提出了新的基于副本选择的大数据实时查询系统负载均衡方法,本发明的优点包括:负载均衡效果优于现有的大数据实时查询系统;时间复杂度较小,为O(n2),其中n为块的数目;适用于异构分布式系统和系统中运行其他任务的情况。
【专利说明】一种基于副本选择的大数据实时查询系统负载均衡方法【技术领域】
[0001]本发明涉及计算机数据库处理领域,尤其涉及一种基于副本选择的大数据实时查询系统负载均衡方法。
【背景技术】
[0002]在大数据时代,海量数据已不可能存储在单一服务器中。现有的大数据实时查询系统,如Google Dremel、Cloudera Impala等,均采用分布式计算架构,以保证大数据查询的实时性。如何在运行期间保证各个节点的负载均衡,一直是分布式系统关注的重点。
[0003]现有的大数据实时查询系统的数据库表逻辑上由存储的数据和描述表中数据形式的相关元数据组成。数据一般存放在分布式文件系统中。现有的分布式文件系统会对文件进行分块,将同一个文件的不同数据块存储在多个节点上,对每个数据块创建副本。因此,在数据库表载入内存的过程中,大数据实时查询系统需要为该表对应的每一个数据块选择副本,即选择某个节点上的副本。因为选中的节点需要完成将数据块副本从磁盘读入内存的任务,所以选择的过程中就需要考虑负载均衡。假设一个数据库表文件被划分成η个数据块,即B1, B2, , Βη。现有的大数据实时查询系统会先为B1选择副本,再为B2选择副本,依次类推,最后SBn选择副本。其通过每次选择已分配任务最少(用字节量衡量)的节点上的副本的策略实现负载均衡。现有的大数据实时查询系统的负载均衡方法存在如下问题,第一,无法得到较优的负载均衡。在每次选择副本的策略确定的情况下,按照不同的数据块先后顺序所产生的负载均衡程度是多样的,只考虑默认的数据块先后顺序,很难得到较优的负载均衡。第 二,没有考虑分布式系统异构,如机器磁盘读取速率有差异的情况。

【发明内容】

[0004]本发明为克服上述的不足之处,目的在于提供一种基于副本选择的大数据实时查询系统负载均衡方法,在分布式数据库大量查询任务并发执行的情况下,保证集群中各个节点负载均衡,解决了现有技术中存在的问题,本发明通过以下技术方案达到上述目的:
[0005]一种基于副本选择的大数据实时查询系统负载均衡方法,包括节点负载信息收集和节点负载均衡两个过程,负载信息收集过程包括以下步骤:
[0006]I)节点负载信息汇报器到集群负载信息收集器注册;
[0007]节点负载信息汇报器发送节点的IP和主机名到集群负载信息收集器,集群负载信息收集器对节点的IP进行注册,创建该节点负载信息对象,该节点负载信息汇报器发送的负载信息都将存在该对象中,集群负载信息收集器还会建立从节点IP到节点主机名的映射;
[0008]2)节点负载信息汇报器获得节点最大可提供磁盘读取速率;
[0009]3)节点负载信息汇报器预估节点执行任务期间可提供磁盘读取速率,包括以下步骤:
[0010](I)计算最近一次间隔时间内平均已使用磁盘读取速率,公式如下:[0011 ]
【权利要求】
1.一种基于副本选择的大数据实时查询系统负载均衡方法,其特征在于,包括节点负载信息收集和节点负载均衡两个过程,负载信息收集过程包括以下步骤: 1)节点负载信息汇报器到集群负载信息收集器注册; 2)节点负载信息汇报器获得节点最大可提供磁盘读取速率; 3)节点负载信息汇报器预估节点执行任务期间可提供磁盘读取速率; (1)计算最近一次间隔时间内平均已使用磁盘读取速率;
【文档编号】H04L29/08GK103731498SQ201310755662
【公开日】2014年4月16日 申请日期:2013年12月31日 优先权日:2013年12月31日
【发明者】王敬昌, 吴勇, 陈岭, 赵江奇, 徐精忠, 李晓平, 赵宇亮 申请人:浙江鸿程计算机系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1