一种面向多级调度分布式并行计算的监控系统及监控方法_4

文档序号:9923488阅读:来源:国知局
br>1.一种面向多级调度分布式并行计算的监控系统,其特征在于:包括: 本地集群监控模块和多级共享集群监控模块; 本地集群监控模块包括集群调度节点、可配置模块和监控处理模块;本地集群调度节点用于定时将本地集群的资源信息发送到连接该集群的监控客户端,供客户端统计和展示;可配置模块用于将监控客户端的控制命令发送至本地集群调度节点,本地集群调度节点判断控制命令中的消息类型并将控制消息发送至监控处理模块;监控处理模块根据控制消息对本地集群节点进行处理,并将处理结果发送至本地集群调度节点,本地集群调度节点通过监控响应模块对控制命令进行响应; 多级共享集群监控模块包括分布式的群集调度节点、多级共享集群资源池和管理客户端;所述分布式的群集调度节点将本地集群信息发送至本地集群网关节点监控应用模块;多级共享集群资源池通过本地集群网关节点监控应用模块将本地集群信息写入多级共享集群资源池中,集中管理;管理客户端用于查看资源池中已注册的多个本地集群信息并控制和调整其中一个集群的相应属性。2.如权利要求1所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述监控系统还包括监控服务器,维护通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态; 通过整个广域网各分布式并行计算平台调度服务器定时接收该平台的集群信息; 当其中一个集群信息的资源不够用时,首先向监控服务器请求共享集群信息资源,根据当前广域网内可用信息资源向适合的集群发送任务联合调度请求; 当请求联合调度的集群计算完成后将计算信息上报到监控服务器。3.如权利要求1或2所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述本地集群的资源信息包括每台本地集群服务器的节点类型、主机名称、CPU核总数、磁盘总量、内存总量、主机IP、已用CPU核数、磁盘使用量、内存使用量、正在计算的工程ID号、正在计算的任务ID号和主机信息更新时间;所述本地集群服务器的节点类型包括调度节点、数据节点和计算节点。4.如权利要求3所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述监控处理模块对本地集群节点进行的处理包括删除一个或多个计算节点目录功能和生成节点信息并打包上传给监控客户端、查询其中一个或多个计算节点进程信息、结束一个或多个计算节点的一个或多个进程、启动一个或多个计算节点的一个或多个进程。5.如权利要求1或2所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述集群信息包括本集群的计算节点数量、集群总核数、集群已用核数、集群可用核数、集群可用磁盘空间、集群级别、集群区域地名信息、集群上级区域名称、支持的计算类型个数及列表、是否同意共享调度和本集群用于外部连接的IP地址。6.如权利要求1或5所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述管理客户端为由Zookeeper组成的集群网关节点服务器的管理客户端;不会因其中一个Zookeeper节点失效导致连接到该失效节点的管理客户端获取信息失败,因为当节点失效时Zooke印er在底层自动将该管理客户端与其他有效网关节点建立起了可靠的连接。7.如权利要求6所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述多级共享集群资源池的建立是按照paxos算法,由Zookeeper框架组成的集群资源池树状结构;Server节点代表每个集群的网关服务器节点,每个网关服务器自由的加入或者退出资源池,当资源池建立后,其内部会从Server中选一个作为领导者Leader用于进行投票的发起和决议,更新系统状态,paxos算法原理内部核心机制是原子广播机制,该机制保证各个Server之间的状态和数据同步,实现该机制的协议为Zab协议;Zab协议有两种模式,是恢复模式和广播模式;当服务启动或者在领导者Leader奔溃后,Zab就进入了恢复模式;当领导者被选举出来,且Server完成了和新Leader的状态同步后,恢复模式就结束了 ; 每个本地集群都只向自己的网关节点上报集群信息,然后通过网关服务器上调用资源池开放接口将自己的信息记入资源池,实现所有网关服务器的实时共享。8.如权利要求2所述的一种面向多级调度分布式并行计算的监控系统,其特征在于:所述监控服务器的总体框架采用了 glib的消息触发机制。9.一种面向多级调度分布式并行计算的监控方法,其特征在于:包括: 本地集群监控:定时将本集群的资源信息发送到连接该集群的监控客户端,供客户端统计和展示;将监控客户端的控制命令发送至本地集群调度节点,本地集群调度节点判断控制命令中的消息类型并将控制消息发送至监控处理模块;监控处理模块根据控制消息对本地集群节点进行处理,并将处理结果发送至本地集群调度节点,本地集群调度节点通过监控响应模块对控制命令进行响应; 多级共享集群监控:将本地集群信息发送至本地集群网关节点监控应用模块;通过本地集群网关节点监控应用模块将本地集群信息写入多级共享集群资源池中,集中管理;查看资源池中已注册的多个本地集群信息并控制和调整其中一个集群的相应属性。10.如权利要求9所述的一种面向多级调度分布式并行计算的监控方法,其特征在于:所述方法还包括: 维护监视服务器通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态; 定时接收整个广域网各分布式并行计算平台的集群信息; 当其中一个集群信息的资源不够用时,首先向监控服务器请求共享集群信息资源,根据当前广域网内可用信息资源向适合的集群发送任务联合调度请求; 当请求联合调度的集群计算完成后将计算信息上报到监控服务器。11.如权利要求9所述的一种面向多级调度分布式并行计算的监控方法,其特征在于:对本地集群节点进行的处理包括删除一个或多个计算节点目录功能和生成节点信息并打包上传给监控客户端、查询其中一个或多个计算节点进程信息、结束一个或多个计算节点的一个或多个进程、启动一个或多个计算节点的一个或多个进程。12.如权利要求9-11任意一项所述的一种面向多级调度分布式并行计算的监控方法,其特征在于:按照paxos算法,由Zookeeper框架组成的集群资源池树状结构;Server节点代表每个集群的网关服务器节点,每个网关服务器自由的加入或者退出资源池,当资源池建立后,其内部会从Server中选一个作为领导者Leader用于进行投票的发起和决议,更新系统状态,paxos算法原理内部核心机制是原子广播机制,该机制保证各个Server之间的状态和数据同步,实现该机制的协议为Zab协议;Zab协议有两种模式,是恢复模式和广播模式;当服务启动或者在领导者Leader奔溃后,Zab就进入了恢复模式;当领导者被选举出来,且Server完成了和新Leader的状态同步后,恢复模式就结束了 ; 每个本地集群都只向自己的网关节点上报集群信息,然后通过网关服务器上调用资源池开放接口将自己的信息记入资源池,实现所有网关服务器的实时共享。
【专利摘要】本发明涉及一种面向多级调度分布式并行计算的监控系统及监控方法,所述系统包括为本地集群监控模块和多级共享集群的监控模块。前者实现了对每台服务器节点信息的监视和控制,集群调度节点通过可配置模块可接受来自监控客户端的命令并正确响应;后者实现了对基于Zookeeper架构模式的多级共享分布式并行计算集群资源池的统一管理和控制,通过网关节点服务器的管理客户端,都可以清晰的查看资源池中已注册的多个集群信息。本发明技术方案能够通过界面高效准确的观察应用运行的状态,精准衡量应用的运行状态,从而对应用能够准确计量其使用的消耗量;灵活可扩展的监控系统具有强大的容错能力,从而提高了系统的可靠性和服务性。
【IPC分类】H04L29/06, H04L12/26, H04L29/08, H04L12/24
【公开号】CN105703940
【申请号】CN201510917999
【发明人】周智强, 刘娜娜, 何春江, 秦长锋, 陈继林, 佟德江, 孙永峰, 张亮, 郭中华, 陈勇, 裘微江, 田芳, 李亚楼, 李勤新, 刘琳, 罗春青, 宫春明, 邹卫美
【申请人】中国电力科学研究院, 国家电网公司
【公开日】2016年6月22日
【申请日】2015年12月10日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1