一种面向多级调度分布式并行计算的监控系统及监控方法

文档序号:9923488阅读:992来源:国知局
一种面向多级调度分布式并行计算的监控系统及监控方法
【技术领域】
[0001]本发明涉及集群监控领域,具体涉及一种面向多级调度分布式并行计算的监控系统及监控方法。
【背景技术】
[0002]分布式系统是由多个分散的计算机经互连网络构成的统一计算机系统。其中各个物理的和逻辑的资源既相互配合又高度自治,能在全系统范围内实现资源管理和数据共享,动态地实现任务分配和功能分配,且能并行的运行分布式程序,它强调资源、任务、功能、数据和控制的全面分布,它们分布于各个物理上分散的计算机节点中,各个节点经过互连网络相互通信,构成统一的处理系统。
[0003]任何分布式系统都会涉及到数据的一致性问题,进行数据一致性分析和处理主要出于两个目的:可靠性和性能。数据一旦被更改或复制,就会带来一致性的问题。
[0004]分布式系统的一个重要问题是数据的复制,对数据的复制一般有两个原因:
[0005]1、增加系统的可靠性,防止单点失效的问题;
[0006]2、提高系统性能,利用不同地理位置的副本迅速响应用户需求。
[0007]数据复制的主要难题是保持各个副本的一致性。即在更新一个副本时,必须确保更新其他副本,否则数据的各个副本将不再相同。
[0008]—致性模型实质上是进程和数据之间的一个约定,正常情况下,一个数据项上执行读操作时,它期待该操作返回的是该数据在其最后一次写操作之后的结果。在没有全局时钟的情况下,精确的定义哪次写操作时最后一次写操作是十分困难的。
[0009]分布式并行计算集群(也称为分布式并行计算平台)聚合了大量物理资源、虚拟资源,并采用虚拟化技术实现动态伸缩服务量,按需提供服务。而监控在提高分布式并行计算平台服务质量方面扮演重要角色;为使得平台可以顺利提供服务且正确运转,需要多方位监控。

【发明内容】

[0010]本发明的目的是提供一种面向多级调度分布式并行计算的监控系统及监控方法,能够通过界面高效准确的观察应用运行的状态,精准衡量应用的运行状态,从而对应用能够准确计量其使用的消耗量;灵活可扩展的监控系统具有强大的容错能力,从而提高了系统的可靠性和服务性。
[0011]为实现上述目的,本发明采用以下技术方案:一种面向多级调度分布式并行计算的监控系统,包括:
[0012]本地集群监控模块和多级共享集群监控模块;
[0013]本地集群监控模块包括集群调度节点、可配置模块和监控处理模块;本地集群调度节点用于定时将本地集群的资源信息发送到连接该集群的监控客户端,供客户端统计和展示;可配置模块用于将监控客户端的控制命令发送至本地集群调度节点,本地集群调度节点判断控制命令中的消息类型并将控制消息发送至监控处理模块;监控处理模块根据控制消息对本地集群节点进行处理,并将处理结果发送至本地集群调度节点,本地集群调度节点通过监控响应模块对控制命令进行响应;
[0014]多级共享集群监控模块包括分布式的群集调度节点、多级共享集群资源池和管理客户端;所述分布式的群集调度节点将本地集群信息发送至本地集群网关节点监控应用模块;多级共享集群资源池通过本地集群网关节点监控应用模块将本地集群信息写入多级共享集群资源池中,集中管理;管理客户端用于查看资源池中已注册的多个本地集群信息并控制和调整其中一个集群的相应属性。
[0015]所述监控系统还包括监控服务器,维护通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态;
[0016]通过整个广域网各分布式并行计算平台调度服务器定时接收该平台的集群信息;
[0017]当其中一个集群信息的资源不够用时,首先向监控服务器请求共享集群信息资源,根据当前广域网内可用信息资源向适合的集群发送任务联合调度请求;
[0018]当请求联合调度的集群计算完成后将计算信息上报到监控服务器。
[0019]所述本地集群的资源信息包括每台本地集群服务器的节点类型、主机名称、CPU核总数、磁盘总量、内存总量、主机IP、已用CPU核数、磁盘使用量、内存使用量、正在计算的工程ID号、正在计算的任务ID号和主机信息更新时间;所述本地集群服务器的节点类型包括调度节点、数据节点和计算节点。
[0020]所述监控处理模块对本地集群节点进行的处理包括删除一个或多个计算节点目录功能和生成节点信息并打包上传给监控客户端、查询其中一个或多个计算节点进程信息、结束一个或多个计算节点的一个或多个进程、启动一个或多个计算节点的一个或多个进程。
[0021]所述集群信息包括本集群的计算节点数量、集群总核数、集群已用核数、集群可用核数、集群可用磁盘空间、集群级别、集群区域地名信息、集群上级区域名称、支持的计算类型个数及列表、是否同意共享调度和本集群用于外部连接的IP地址。
[0022]所述管理客户端为由Zookeeper组成的集群网关节点服务器的管理客户端;不会因其中一个Zookeeper节点失效导致连接到该失效节点的管理客户端获取信息失败,因为当节点失效时Zookeeper在底层自动将该管理客户端与其他有效网关节点建立起了可靠的连接。
[0023]所述多级共享集群资源池的建立是按照paxos算法,由Zookeeper框架组成的集群资源池树状结构;Server节点代表每个集群的网关服务器节点,每个网关服务器自由的加入或者退出资源池,当资源池建立后,其内部会从Server中选一个作为领导者Leader用于进行投票的发起和决议,更新系统状态,paxos算法原理内部核心机制是原子广播机制,该机制保证各个Server之间的状态和数据同步,实现该机制的协议为Zab协议;Zab协议有两种模式,是恢复模式和广播模式;当服务启动或者在领导者Leader奔溃后,Zab就进入了恢复模式;当领导者被选举出来,且Server完成了和新Leader的状态同步后,恢复模式就结束了;
[0024]每个本地集群都只向自己的网关节点上报集群信息,然后通过网关服务器上调用资源池开放接口将自己的信息记入资源池,实现所有网关服务器的实时共享。
[0025]所述监控服务器的总体框架采用了glib的消息触发机制。
[0026]—种面向多级调度分布式并行计算的监控方法,包括:
[0027]本地集群监控:定时将本集群的资源信息发送到连接该集群的监控客户端,供客户端统计和展示;将监控客户端的控制命令发送至本地集群调度节点,本地集群调度节点判断控制命令中的消息类型并将控制消息发送至监控处理模块;监控处理模块根据控制消息对本地集群节点进行处理,并将处理结果发送至本地集群调度节点,本地集群调度节点通过监控响应模块对控制命令进行响应;
[0028]多级共享集群监控:将本地集群信息发送至本地集群网关节点监控应用模块;通过本地集群网关节点监控应用模块将本地集群信息写入多级共享集群资源池中,集中管理;查看资源池中已注册的多个本地集群信息并控制和调整其中一个集群的相应属性。
[0029]所述方法还包括:
[0030]维护监视服务器通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态;
[0031 ]定时接收整个广域网各分布式并行计算平台的集群信息;
[0032]当其中一个集群信息的资源不够用时,首先向监控服务器请求共享集群信息资源,根据当前广域网内可用信息资源向适合的集群发送任务联合调度请求;
[0033]当请求联合调度的集群计算完成后将计算信息上报到监控服务器。
[0034]对本地集群节点进行的处理包括删除一个或多个计算节点目录功能和生成节点信息并打包上传给监控客户端、查询其中一个或多个计算节点进程信息、结束一个或多个计算节点的一个或多个进程、启动一个或多个计算节点的一个或多个进程。
[0035]按照paxos算法,由Zookeeper框架组成的集群资源池树状结构;Server节点代表每个集群的网关服务器节点,每个网关服务器自由的加入或者退出资源池,当资源池建立后,其内部会从Server中选一个作为领导者
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1