一种面向多级调度分布式并行计算的监控系统及监控方法_3

文档序号:9923488阅读:来源:国知局
空间、可支持的计算类型,是否同意广域网间联合调度等信息。平台监控的信息如图5所示;
[0073]3、当某个集群资源不够用时,可首先向监控服务器请求共享集群资源信息,然后根据当前广域网内可用资源信息向合适的集群发送任务联合调度请求。
[0074]4、请求联合调度的机群计算完成后将有关计算信息上报到监控服务器,以便统计共享机群为其他机群提供的共享率。
[0075]所述监控服务器的处理过程如图4所示,为:主函数运行,服务器初始化,包括Glib线程初始化和变量初始化;连接通信中间件订阅消息处理函数;信号处理函数初始化,服务器开始运行,运行主循环程序,当处理进程退出信号函数时,服务器退出。
[0076]精细化监控目标监控方法还包括:维护监视服务器通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态;
[0077]定时接收整个广域网各分布式并行计算平台的集群信息;
[0078]当其中一个集群信息的资源不够用时,首先向监控服务器请求共享集群信息资源,根据当前广域网内可用信息资源向适合的集群发送任务联合调度请求;
[0079]当请求联合调度的集群计算完成后将计算信息上报到监控服务器。
[0080]1、本地集群cpu核数的监控
[0081]通过收集cpu的一些统计信息,了解到对服务器节点对cpu的消耗,及时优化资源,提高当前应用的执行速度。
[0082]2、本地集群磁盘空间的监控
[0083]通过对磁盘各分区的使用情况,避免由于各种突发情况,造成磁盘空间被消耗殆尽的情况。导致后续日志文件无法归档等问题。
[0084]3、本地集群内存空间的监控
[0085]通过对内存的使用情况的监控,使用户可以及时释放和压缩系统内存,从而使进程的运行速度和系统崩溃的几率大大降低。
[0086]4、多级集群节点数的监控
[0087]通过集群节点数的监控,使用户可以知道集群的规模和计算能力,以及计算时间长短等。
[0088]5、多级集群级别的监控
[0089]通过多级集群级别的监控信息,能够清楚获知集群能否对上或对下提供服务,以及属于国分省调中的哪一类别。
[0090]6、多级集群区域名称的监控
[0091]通过对集群区域名称的信息,能够准确的判断出该集群所在的位置。
[0092]7、多级集群的资源共享标识监控
[0093]通过对多级集群的资源共享标识信息的监控,可以准确判断出是否能够对外提供计算功能以及具体提供哪些类计算。
[0094]如图9所示,资源池的建立是按照paxos算法原理将逻辑上独立的服务器通过网络互连,运用分布式框架组成一整套能对外提供协调一致性服务的应用,它包含一系列开放的接口,分布式应用程序可以基于它实现同步服务,图中的Server节点代表每个集群的网关服务器节点,每个网关服务器可以自由的加入或者退出资源池,当资源池建立后,内部会从众多Server中选一个作为Leader用于进行投票的发起和决议,更新系统状态,paxos算法原理内部核心机制是原子广播,这个机制保证了各个Server之间的状态和数据同步,实现这个机制的协议叫Zab协议。Zab协议有两种模式,它们分别是恢复模式和广播模式,当服务启动或者在领导者Leader奔溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数Server完成了和新Leader的状态同步后,恢复模式就结束了。状态同步保证了Leader和Server具有相同的系统状态。
[0095]每个集群都只向自己的网关节点上报本地集群的资源信息,然后网关服务器上的应用再调用资源池开放接口将自己的资源信息记入资源池,实现所有网关服务器的实时共享,由于资源池有多个Server,因此实现了网络负载分流和均衡。多级调度分布式并行计算集群以树状结构在网络中形成资源池,每个分布式集群都有两个重要的属性包括级别和区域名,级别和树状层次结构相对应,区域名是独一无二的,比如国调、华北网调、河北省调,这些属性规定了资源池进行资源统一分配的时候按照一定的策略分配,由配置文件或管理客户端指定调度方式,更好的完成了整个集群的管理和控制。
[0096]zookeeper分布式框架
[0097]Zookeeper提供了包括配置信息集中管理和动态更新,通过分布式命名服务,可以很容易的创建一个全局唯一的path。分布通知和协调功能可以使管理人员在控制台的一些操作,如修改了 zookeeper上的某些节点的状态,zookeeper可以把这些变化及时通知给其他客户。使用zookeeper来分布式通知和协调能够大大降低系统之间的耦合。分布式锁的功能可以保证数据的强一致性,即用户只要完全相信每时每刻,zookeeper集群中任意节点上的相同znode的数据是一定相同的。zookeeper的集群管理功能可以实时了解集群机器的存活、增加等情况,zookeeper的强一致性,能够保证在分布式高并发情况下节点创建的全局唯一性,即:同时有多个客户端请求创建节点,最终一定只有一个客户端请求能够创建成功。Zookeeper的分布式与数据复制功能使得系统容错能力得到改善,提高了系统的可扩展能力。所有这些功能强有利的支持了监控系统对资源使用情况、应用运行情况的掌握,为及时做出调度和调整提供依据。
[0098]Zookeeper维护一个类似文件系统的数据结构,如图6所示:
[0099]每个子目录项如NameService都被称作为znode,和文件系统一样,我们能够自由的增加、删除znode,在一个znode下增加、删除子znode,唯一的不同在于znode是可以存储数据的。
[0?00] Zookeeper包括以下几类主要功能:
[0101]1、命名服务
[0?02] 在zookeeper的文件系统里创建一个目录,即有唯一的path。在我们使用tborg无法确定上游程序的部署机器时即可与下游程序约定好path,通过path即能互相探索发现。
[0103]2、配置管理,如图7所示:
[0104]配置信息保存在的某个目录节点中,然后所有相关应用程序对这个目录节点进行监听,一旦配置信息发生变化,每个应用程序就会收到Zookeeper的通知,然后从Zookeeper获取新的配置信息应用到系统中。
[0105]3、集群管理,如图8所示:
[0106]所谓集群管理无在乎两点:是否有机器退出和加入、选举master。对于第一点,所有机器约定在父目录GroupMembers下创建临时目录节点,然后监听父目录节点的子节点变化消息。一旦有机器挂掉,该机器与zookeeper的连接断开,其所创建的临时目录节点被删除,所有其他机器都收到通知:某个兄弟目录被删除,于是,所有人都知道:它上船了。新机器加入也是类似,所有机器收到通知:新兄弟目录加入,highcount又有了。对于第二点,我们稍微改变一下,所有机器创建临时顺序编号目录节点,每次选取编号最小的机器作为master。
[0107]面向多级调度的分布式并行计算平台应用和服务的精细管理和监控,能够通过界面高效准确的观察应用运行的状态,包括CPU、内存和磁盘空间占用等,精准衡量应用的运行状态,从而对应用能够准确计量其使用的消耗量;灵活可扩展的监控系统具有强大的容错能力,从而提高了系统的可靠性和服务性。
[0108]所述方法是分布式并行计算平台的重要组成部分,它是分布式并行计算平台中系统管理,作业调度,负载均衡,恢复操作的前提。可以帮助分布式并行计算平台动态量化资源使用、检测服务缺陷、发现用户使用模式、辅助资源调度,对提高分布式计算平台的服务质量发挥着重要作用。
[0109]最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员尽管参照上述实施例应当理解:依然可以对本发明的【具体实施方式】进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在本发明的权利要求保护范围之内。
【主权项】<
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1