集群管理系统及方法

文档序号:7755132阅读:169来源:国知局
专利名称:集群管理系统及方法
技术领域
本发明涉及通信领域,具体而言,涉及一种集群管理系统及方法。
背景技术
集群管理系统按可划分为多个子系统性能管理子系统、告警管理子系统和安全管理子系统等。同一个子系统内又可分为多个功能模块南向模块、北向模块和服务器处理模块等,其中,每个模块可称之为一个服务。集群管理系统就是由众多的服务组成的一个系统。随着通讯技术的不断发展,管理网络的规模越来越大,并且其类型各种各样,各种类型的网络都有各自的网管系统。为了管理上的方便,对多种网络施行统一管理非常必要, 这就对网管系统的管理能力和本身的性能提出了很高要求。为解决这个问题,相关技术中通常采用分布式设计,即将网管的服务分布式运行在多台主机中,利用多台机器的硬件资源来提高网管的管理能力。图1是根据相关技术的集群管理系统的部署结构的示意图,包括一个管理进程以及多个从进程,其中,由管理进程控制系统中所有从进程的状态,以提高网管的管理能力。但是,这种由管理进程管理多个从进程的结构,对管理进程可靠性的要求非常高, 因为一旦该管理进程失效,整个集群管理系统将都不能工作。

发明内容
针对相关技术中集群管理系统采用一个管理进程和多个从进程,一旦管理进程失效,整个集群管理系统将都不能工作的问题而提出本发明,为此,本发明的主要目的在于提供一种集群管理系统及方法,以解决上述问题。为了实现上述目的,根据本发明的一个方面,提供了一种集群管理系统。根据本发明的集群管理系统包括存储模块,用于保存多个进程的进程标识和多个进程的通讯地址;多个集群管理模块,与多个进程一一对应,其中,多个集群管理模块中的每个集群管理模块均用于从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址,并使用其它进程的通讯地址获取其它进程包含的服务;多个服务管理模块, 与多个集群管理模块一一对应,其中,多个服务管理模块中的每个服务管理模块均用于从自身对应的集群管理模块获取其它进程包含的服务,并用于调用其它进程包含的服务。进一步地,上述集群管理系统还包括多个监听模块,与多个服务管理模块一一对应,用于记录自身对应的服务管理模块获取的其它进程包含的服务的可用信息,其中,可用信息用于指示服务可用或者不可用;多个服务管理模块中的每个服务管理模块还用于接收来自自身对应的监听模块的可用信息,并用于根据可用信息,调用其它进程包含的服务。进一步地,上述集群管理系统还包括多个定时器,与多个集群管理模块一一对应;多个集群管理模块中的每个集群管理模块还用于当自身对应的定时器到时,向多个集群管理模块中除自身之外的其它集群管理模块发送检测消息,其中,检测消息用于检测自身与其它集群管理模块的连接关系;以及多个集群管理模块中的每个集群管理模块还用于当检测到没有接收到来自其它集群管理模块中的一个或多个集群管理模块的响应消息时, 删除一个或多个集群管理模块对应的进程。进一步地,多个集群管理模块中的每个集群管理模块还用于向存储模块写入自身对应的进程的通讯地址。进一步地,上述集群管理系统还包括判断模块,用于判断存储模块是否已经保存有多个进程中的一个或多个进程的进程标识;更新模块,用于在判断结果为是时,更新一个或多个进程的通讯地址,其中,通讯地址包括以下至少之一互联网协议IP地址、监听端口 fn息ο进一步地,多个集群管理模块之间通过UDP进行通讯。进一步地,多个集群管理模块中的每个集群管理模块还用于管理自身对应的集群管理模块对应的进程包含的服务。为了实现上述目的,根据本发明的另一个方面,提供了一种集群管理方法。根据本发明的集群管理方法包括集群管理模块从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址;集群管理模块使用其它进程的通讯地址获取其它进程包含的服务,并发送给自身对应的服务管理模块;服务管理模块调用其它进程包含的服务。进一步地,在服务管理模块调用其它进程包含的服务之前,还包括监听模块记录自身对应的服务管理模块获取的其它进程包含的服务的可用信息,其中,可用信息用于指示服务可用或者不可用;监听模块向服务管理模块发送可用信息;服务管理模块根据可用信息,执行调用其它进程包含的服务的操作。进一步地,在集群管理模块从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址之前,还包括集群管理模块当自身对应的定时器到时,向多个集群管理模块中除自身之外的其它集群管理模块发送检测消息,其中,检测消息用于检测自身与其它集群管理模块的连接关系;集群管理模块当检测到没有接收到来自其它集群管理模块中的一个或多个集群管理模块的响应消息时,删除一个或多个集群管理模块对应的进程。进一步地,在集群管理模块从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址之前,还包括集群管理模块向存储模块写入自身对应的进程的通讯地址。通过本发明,采用集群的分布式设计,解决了相关技术中集群管理系统采用一个管理进程和多个从进程,一旦管理进程失效,整个集群管理系统将都不能工作的问题,保证了服务的正常使用,提高了网管的管理能力。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1是根据相关技术的集群管理系统的部署结构的示意图;图2是根据本发明实施例的集群管理系统的结构框图;图3是根据本发明优选实施例的集群管理系统的部署结构的示意5
图4是根据本发明实施例的集群管理方法的流程图;图5是根据本发明优选实施例的集群管理方法的交互流程图。
具体实施例方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。根据本发明的实施例,提供了一种集群管理系统。图2是根据本发明实施例的集群管理系统的结构框图,包括存储模块22,集群管理模块M和服务管理模块26。下面对其结构进行详细描述。存储模块22,用于保存多个进程的进程标识和多个进程的通讯地址。多个集群管理模块M,连接至存储模块22,与多个进程一一对应,其中,多个集群管理模块M中的每个集群管理模块M均用于从存储模块22获取多个进程中除自身对应的进程之外的其它进程的通讯地址,并使用其它进程的通讯地址获取其它进程包含的服务。多个服务管理模块沈,与多个集群管理模块M —一对应,并分别连接至其对应的集群管理模块对,其中,多个服务管理模块26中的每个服务管理模块沈均用于管理自身对应的集群管理模块M对应的进程包含的服务,并用于从自身对应的集群管理模块M获取其它进程包含的服务,并用于调用其它进程包含的服务。相关技术中,集群管理系统采用一个管理进程和多个从进程,这样,一旦管理进程失效,整个集群管理系统将都不能工作。本发明实施例中,采用集群的分布式设计,每个进程可以通过集群管理模块M获取其它进程包含的服务,从而当某个进程失效时,可以选择存在该服务的其它进程,然后,通过调用该其它进程中的该服务,可以保证该服务的正常使用。需要说明的是,上述存储模块22可以为数据库。需要说明的是,对于上述服务管理模块沈用于管理自身对应的集群管理模块M 对应的进程包含的服务,其管理方式可以参考相关技术中管理进程和多个从进程的管理方式。需要说明的是,为提高负荷,同一个服务在不同进程可能都存在,当有命令发到服务时,由服务管理模块决定发给哪个进程处理。优选地,上述集群管理系统还包括多个监听模块28,与多个服务管理模块沈一一对应,用于记录自身对应的服务管理模块沈获取的其它进程包含的服务的可用信息, 其中,可用信息用于指示服务可用或者不可用;多个服务管理模块26中的每个服务管理模块沈还用于接收来自自身对应的监听模块观的可用信息,并用于根据可用信息,调用其它进程包含的服务。本优选实施例中,监听模块观记录了其它进程包含的服务的可用信息,可以为服务管理模块26调用的操作提供支持,以便服务管理模块沈选择存在某一服务的其它进程, 然后,通过调用该其它进程中的该服务,保证该服务的正常使用。优选地,上述集群管理系统还包括多个定时器,与多个集群管理模块M —一对应;多个集群管理模块对中的每个集群管理模块M还用于当自身对应的定时器到时,向多个集群管理模块M中除自身之外的其它集群管理模块M发送检测消息,其中,检测消息用于检测自身与其它集群管理模块M的连接关系;以及多个集群管理模块M中的每个集群管理模块M还用于当检测到没有接收到来自其它集群管理模块M中的一个或多个集群管理模块M的响应消息时,删除一个或多个集群管理模块M对应的进程。本优选实施例中,集群管理模块M之间通过检测消息进行相互的通讯检测,以便准确删除通讯存在问题的一个或多个集群管理模块M对应的进程。同时,定时器可以用于控制集群管理模块M发送检测消息的频率,从而避免过度频繁的检测消息给通讯网络的冲击。优选地,多个集群管理模块中的每个集群管理模块M还用于向存储模块22写入自身对应的进程的通讯地址。本优选实施例中,多个集群管理模块M中的每个集群管理模块M将自身对应的进程的通讯地址写入存储模块22,以便其它集群管理模块M进行获取,有利于各个集群管理模块M对其对应的进程包含的服务进行通讯,实现两两容灾。优选地,上述集群管理系统还包括判断模块,用于判断所述存储模块是否已经保存有多个进程中的一个或多个进程的进程标识;更新模块,用于在判断结果为是时,更新一个或多个进程的通讯地址,其中,通讯地址包括以下至少之一互联网协议anternet Protocol,简称为IP)地址、监听端口信息。优选地,多个集群管理模块之间通过用户数据协议(User Date Protocol,简称为 UDP)进行通讯。本优选实施例中,采用无连接的UDP通讯协议,可以减少资源占用。优选地,多个集群管理模块中的每个集群管理模块还用于管理自身对应的集群管理模块对应的进程包含的服务。本发明还提供了一个优选实施例,结合了上述多个优选实施例的技术方案,下面结合图3来详细描述。图3是根据本发明优选实施例的集群管理系统的部署结构的示意图,如图3所示, 网管进程A,B,C都连接到同一个数据库,每个网管进程中都包含有集群管理模块,服务管理模块,以及若干服务。每个进程都会监听一个UDP端口,并写入到同一个数据库中。集群管理模块从数据库中获取另外两个进程的IP和端口后,A,B,C相互通讯,获取所有的服务信息,并传给服务管理模块。服务管理模块通知监听模块,现在有al,a2, bl,1^2这些服务可用。当要调用某个服务时,以进程A为例,假定要调用服务bl,由于bl在进程B和C中都提供,服务管理模块按照一定策略调用B或者C中的一个。如有是调用服务1^2,那么只能调用到进程B。进程A,B, C之间还通过集群管理模块定时发送定时检查,如果某个进程意外退出,由服务管理模块将这个进程包含的服务去掉,并通知监听模块某些服务不可用。假定B 意外退出,那么要通知监听模块1^2不可用,但是bl仍然可用,因为bl在C进程中还存在, 对bl的调用可以到C进程。根据本发明的实施例,还提供了一种集群管理方法,该集群管理方法可以基于上述集群管理系统而实现。图4是根据本发明实施例的集群管理方法的流程图,包括如下的步骤S402至步骤S406。
步骤S402,集群管理模块M从存储模块22获取多个进程中除自身对应的进程之外的其它进程的通讯地址。步骤S404,集群管理模块M使用其它进程的通讯地址获取其它进程包含的服务, 并发送给自身对应的服务管理模块沈。步骤S406,服务管理模块沈调用其它进程包含的服务。相关技术中,集群管理系统采用一个管理进程和多个从进程,这样,一旦管理进程失效,整个集群管理系统将都不能工作。本发明实施例中,采用集群的分布式设计,每个进程可以通过集群管理模块M获取其它进程包含的服务,从而当某个进程失效时,可以选择存在该服务的其它进程,然后,通过调用该其它进程中的该服务,可以保证该服务的正常使用。需要说明的是,上述存储模块22可以为数据库。需要说明的是,对于上述服务管理模块沈用于管理自身对应的集群管理模块M 对应的进程包含的服务,其管理方式可以参考相关技术中管理进程和多个从进程的管理方式。需要说明的是,上述服务管理模块沈还可以管理自身对应的集群管理模块对应的进程包含的服务。优选地,在服务管理模块沈调用其它进程包含的服务之前,监听模块观记录自身对应的服务管理模块26获取的其它进程包含的服务的可用信息,其中,可用信息用于指示服务可用或者不可用;监听模块观向服务管理模块26发送可用信息;服务管理模块沈根据可用信息,执行调用其它进程包含的服务的操作。本优选实施例中,监听模块观记录了其它进程包含的服务的可用信息,可以为服务管理模块26调用的操作提供支持,以便服务管理模块沈选择存在某一服务的其它进程, 然后,通过调用该其它进程中的该服务,保证该服务的正常使用。优选地,在集群管理模块M从存储模块22获取多个进程中除自身对应的进程之外的其它进程的通讯地址之前,集群管理模块M当自身对应的定时器到时,向多个集群管理模块M中除自身之外的其它集群管理模块M发送检测消息,其中,检测消息用于检测自身与其它集群管理模块M的连接关系;集群管理模块M当检测到没有接收到来自其它集群管理模块M中的一个或多个集群管理模块M的响应消息时,删除一个或多个集群管理模块M对应的进程。本优选实施例中,集群管理模块M之间通过检测消息进行相互的通讯检测,以便准确删除通讯存在问题的一个或多个集群管理模块M对应的进程。同时,定时器可以用于控制集群管理模块M发送检测消息的频率,从而避免过度频繁的检测消息给通讯网络的冲击。优选地,在集群管理模块M从存储模块22获取多个进程中除自身对应的进程之外的其它进程的通讯地址之前,集群管理模块M向存储模块22写入自身对应的进程的通讯地址。本优选实施例中,多个集群管理模块M中的每个集群管理模块M将自身对应的进程的通讯地址写入存储模块22,以便其它集群管理模块M进行获取,有利于各个集群管理模块M对其对应的进程包含的服务进行通讯,实现两两容灾。
8
优选地,集群标识是安装的时候生成,属于同一个集群的多个进程共同提供一套网管对外的服务,它们的集群标识相同。优选地,进程标识是安装时候生成,每个进程的标识都不一样。进程可能是重启, 本进程的信息已经存在存储模块用,用进程标识判断本进程信息是否已经存在,如果存在则更新一下本进程的IP,端口信息。本发明还提供了一个优选实施例,结合了上述多个优选实施例的技术方案,下面结合图5来详细描述。图5是根据本发明优选实施例的集群管理方法的交互流程图,包括如下的步骤 S502至步骤S516。步骤S502,A进程启动后查询数据库,用集群标识和进程标识判断A进程信息是否存在。其中,进程标识,集群标识都是在安装的时候生成,进程标识对于每个进程都不同,集群标识在同一个集群内相同。如果存在则更新进程的通讯IP和进程的监听端口信息,如果不存在则将A进程的集群标识、进程标识、进程的通讯IP和进程的监听端口信息写入数据库,并获取本集群的其它进程的信息。具体地,数据库表可按照下表1进行设计,以便A进程的写入。表1用于写入集群标识、进程标识、进程的通讯IP和进程的监听端口的数据库的不意表
权利要求
1.一种集群管理系统,其特征在于,包括存储模块,用于保存多个进程的进程标识和所述多个进程的通讯地址;多个集群管理模块,与所述多个进程一一对应,其中,所述多个集群管理模块中的每个集群管理模块均用于从所述存储模块获取所述多个进程中除自身对应的进程之外的其它进程的通讯地址,并使用所述其它进程的通讯地址获取所述其它进程包含的服务;多个服务管理模块,与所述多个集群管理模块一一对应,其中,所述多个服务管理模块中的每个服务管理模块均用于从自身对应的集群管理模块获取所述其它进程包含的服务, 并用于调用所述其它进程包含的所述服务。
2.根据权利要求1所述的系统,其特征在于,还包括多个监听模块,与所述多个服务管理模块一一对应,用于记录自身对应的服务管理模块获取的所述其它进程包含的服务的可用信息,其中,所述可用信息用于指示所述服务可用或者不可用;所述多个服务管理模块中的每个服务管理模块还用于接收来自自身对应的监听模块的可用信息,并用于根据所述可用信息,调用所述其它进程包含的所述服务。
3.根据权利要求1所述的系统,其特征在于,还包括多个定时器,与所述多个集群管理模块一一对应;所述多个集群管理模块中的每个集群管理模块还用于当自身对应的定时器到时,向所述多个集群管理模块中除自身之外的其它集群管理模块发送检测消息,其中,所述检测消息用于检测自身与所述其它集群管理模块的连接关系;以及所述多个集群管理模块中的每个集群管理模块还用于当检测到没有接收到来自所述其它集群管理模块中的一个或多个集群管理模块的响应消息时,删除所述一个或多个集群管理模块对应的进程。
4.根据权利要求1所述的系统,其特征在于,所述多个集群管理模块中的每个集群管理模块还用于向所述存储模块写入自身对应的进程的通讯地址。
5.根据权利要求1所述的系统,其特征在于,还包括判断模块,用于判断所述存储模块是否已经保存有所述多个进程中的一个或多个进程的进程标识;更新模块,用于在判断结果为是时,更新所述一个或多个进程的所述通讯地址,其中, 所述通讯地址包括以下至少之一互联网协议IP地址、监听端口信息。
6.根据权利要求1所述的系统,其特征在于,所述多个集群管理模块之间通过用户数据协议UDP进行通讯。
7.根据权利要求1所述的系统,其特征在于,所述多个集群管理模块中的每个集群管理模块还用于管理自身对应的集群管理模块对应的进程包含的服务。
8.一种集群管理方法,其特征在于,包括集群管理模块从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址;所述集群管理模块使用所述其它进程的通讯地址获取所述其它进程包含的服务,并发送给自身对应的服务管理模块;所述服务管理模块调用所述其它进程包含的所述服务。
9.根据权利要求8所述的方法,其特征在于,在所述服务管理模块调用所述其它进程包含的所述服务之前,还包括监听模块记录自身对应的服务管理模块获取的所述其它进程包含的服务的可用信息, 其中,所述可用信息用于指示所述服务可用或者不可用;所述监听模块向所述服务管理模块发送所述可用信息;所述服务管理模块根据所述可用信息,执行调用所述其它进程包含的所述服务的操作。
10.根据权利要求8所述的方法,其特征在于,在所述集群管理模块从所述存储模块获取所述多个进程中除自身对应的进程之外的其它进程的通讯地址之前,还包括所述集群管理模块当自身对应的定时器到时,向所述多个集群管理模块中除自身之外的其它集群管理模块发送检测消息,其中,所述检测消息用于检测自身与所述其它集群管理模块的连接关系;所述集群管理模块当检测到没有接收到来自所述其它集群管理模块中的一个或多个集群管理模块的响应消息时,删除所述一个或多个集群管理模块对应的进程。
11.根据权利要求8所述的方法,其特征在于,在所述集群管理模块从所述存储模块获取所述多个进程中除自身对应的进程之外的其它进程的通讯地址之前,还包括所述集群管理模块向所述存储模块写入自身对应的进程的通讯地址。
全文摘要
本发明公开了一种集群管理系统及方法,该系统包括存储模块,用于保存多个进程的进程标识和多个进程的通讯地址;多个集群管理模块,与多个进程一一对应,其中,多个集群管理模块中的每个集群管理模块均用于从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址,并使用其它进程的通讯地址获取其它进程包含的服务;多个服务管理模块,与多个集群管理模块一一对应,其中,多个服务管理模块中的每个服务管理模块均用于从自身对应的集群管理模块获取其它进程包含的服务,并用于调用其它进程包含的服务。本发明保证了服务的正常使用,提高了网管的管理能力。
文档编号H04L12/24GK102340410SQ201010236219
公开日2012年2月1日 申请日期2010年7月21日 优先权日2010年7月21日
发明者全锐, 胡良俊 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1