集群监测方法和设备的制造方法

文档序号:9818421阅读:429来源:国知局
集群监测方法和设备的制造方法
【技术领域】
[0001]本申请涉及网络通信技术,特别涉及集群监测方法和设备。
【背景技术】
[0002]下面为使本申请容易理解,先对本申请涉及的技术术语进行描述:
[0003]集群(Cluster):将多台物理服务器集中起来进行统一的管理和对外提供服务,集群内部可进行运行状态、管理等信息的交互和存储、计算等资源的共享,对外服务可表现为一台逻辑的大型服务器,通过集群技术科可获得更高的计算能力、HA能力。
[0004]虚拟机(VM:Virtual Machine):通过在物理服务器上部署虚拟化软件,把物理服务器划分成多个逻辑主机,每个逻辑主机成为虚拟机,虚拟机可以分配独立的硬件资源、运行独立的操作系统和对外提供服务,虚拟机技术能够大大提高物理服务器的资源利用率。
[0005]动态资源调度(DRS):当集群内的一台物理服务器上的资源无法满足其上某个VM的运行需求时,系统会自动选择集群内其它资源充足的物理服务器把这个VM迁移过去,而不影响现有服务。
[0006]高可靠性(HA):当集群内的一台物理服务器或VM发生故障无法提供服务时,系统会在其它正常的物理服务器上重新启动受故障影响的VM继续对外提供服务,从而达到最短的业务中断时间。
[0007]以上对本申请涉及的技术术语进行了简单描述。
[0008]如图1所示,目前集群内物理服务器上部署的VM,均统一由管理服务器(Core-controller)进行配置管理和状态查询,且集群内各物理服务器之间的状态监测是通过心跳检测机制实现的。这里,心跳检测机制具体为:在每台物理服务器上驻留HA监测程序,每台物理服务器定时以组播的形式发送心跳报文,这里,心跳报文携带本物理服务器的状态信息比如本服务器的工作状态、负载等。这种方式实现了管理和监测分离,管理网络或者管理服务器故障不会影响VM对外服务。但是,由于集群内物理服务器通过组播形式发送心跳报文,这会在集群内服务器规模较大时,导致集群内物理服务器之间的心跳报文交互频繁,且在心跳报文大量时会导致物理服务器无法及时处理某些心跳报文。

【发明内容】

[0009]本申请提供了集群监测方法和设备,以避免集群内物理服务器通过组播形式发送心跳报文所带来的缺陷。
[0010]本申请提供的技术方案包括:
[0011]—种集群监测方法,所述集群被划分成多个子域,每一子域内物理服务器上的虚拟机VM配置了其所属的子域,每一子域中选择一个VM为子域控制器Sub-controlIer,该方法应用于子域中被选择为Sub-controller的VM,包括:
[0012]以单播方式定时向用于管理所述集群的管理服务器Core-controller发送心跳报文;
[0013]接收所属子域内其他VM发送的心跳报文,所述其他VM定时以单播方式向Core-controller、以及所属子域内的Sub-controller发送心跳报文;
[0014]在第一设定时间内接收不到所属子域内其他VM发送的心跳报文时,确定其他VM
故障;
[0015]接收Core-controller向本VM发送的监测报文,在第二设定时间内接收不到所述Core-controller 发送的监测报文,确定 Core-controller 故障,代替 Core-controller 负责所属子域内动态资源调度DRS功能和高可靠性HA功能的调度。
[0016]一种集群监测方法,该方法应用于用于管理集群的管理服务器Core-controller,所述集群被划分成多个子域,每一子域内物理服务器上的虚拟机VM配置了其所属的子域,每一子域中选择一个VM为子域控制器Sub-controller,该方法包括:
[0017]接收各个子域内的VM发送的心跳报文;
[0018]定时向每一子域内被选择为Sub-controller的VM发送监测报文;
[0019]在未故障时负责各个子域内动态资源调度DRS功能和高可靠性HA功能的调度。
[0020]一种集群监测设备,所述集群被划分成多个子域Sub-AZ,每一子域内物理服务器上的虚拟机VM配置了其所属的子域,每一子域中选择一个VM为子域控制器Sub-controller,该设备应用于子域中被选择为Sub-controller的VM,包括:
[0021]心跳报文发送单元,用于以单播方式定时向用于管理所述集群的管理服务器Core-controller发送心跳报文;
[0022]检测单元,用于接收所属子域内其他VM发送的心跳报文,所述其他VM定时以单播方式向Core-controller、以及所属子域内的Sub-controller发送心跳报文,在第一设定时间内接收不到所属子域内其他VM发送的心跳报文时,确定其他VM故障;以及,
[0023]接收Core-controller向本VM发送的监测报文,在第二设定时间内接收不到所述Core-controller发送的监测报文,确定Core-controller故障;
[0024]调度单元,用于在所述检测单元确定Core-controller故障时,代替Core-controller负责所属子域内动态资源调度DRS功能和高可靠性HA功能的调度。
[0025]一种集群监测设备,该设备应用于管理服务器Core-controller,所述集群被划分成多个子域,每一子域内物理服务器上的虚拟机VM配置了其所属的子域,每一子域中选择一个VM为子域控制器Sub-controller,该设备包括:
[0026]接收单元,用于接收各个子域内的VM发送的心跳报文;
[0027]发送单元,用于定时向每一子域内被选择为Sub-controller的VM发送监测报文;
[0028]调度单元,用于在未故障时负责各个子域内动态资源调度DRS功能和高可靠性HA功能的调度。
[0029]由以上技术方案可以看出,本发明中,VM在被指定为所属子域的Sub-controller时,仅以单播方式定时向Core-controller发送心跳报文,这相比于现有技术中各物理服务器之间都需要进行心跳报文的交互大大减轻了集群内物理服务器处理心跳报文的负担,避免集群内物理服务器通过组播形式发送心跳报文所带来的缺陷。
【附图说明】
[0030]图1为现有集群监测示意图;
[0031]图2为本发明提供的集群结构示意图;
[0032]图3为本发明提供的方法流程图;
[0033]图4为本发明提供的设备结构图;
[0034]图5为本发明提供的另一设备结构图。
【具体实施方式】
[0035]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0036]本发明能够避免集群内物理服务器通过组播形式发送心跳报文所带来的缺陷,t匕如集群内物理服务器之间的心跳报文交互频繁、在心跳报文大量时物理服务器无法及时处理某些心跳报文。
[0037]下面对本发明进行描述:
[0038]在本发明中,需要将整个可靠性集群域(AZ:Availability Zone)划分成多个子域(Sub-AZ)。这里,可依据集群内物理服务器的应用部署、物理位置等条件将AZ划分为多个子域。比如整个AZ内有15台物理服务器,其中有5台物理服务器比如物理服务器I至物理服务器5部署了联通业务应用,还有5台物理服务器比如物理服务器6至物理服务器10部署了移动业务应用,剩下的5台物理服务器比如物理服务器11至物理服务器15部署了电信业务应用,则基于物理服务器的应用部署,可将AZ划分成3个子域,其中,物理服务器I至物理服务器5属于同一个子域,记为子域I,物理服务器6至物理服务器10同一个子域,记为子域2,物理服务器11至物理服务器15同一个子域,记为子域3。
[0039]需要说明的是,本发明中,在划分子域时,还需要考虑划分出的子域规模不要太大,一般建议一个子域内所有物理服务器上的VM之和不要超过32。
[0040]在将AZ划分完多个子域后,针对每一子域做出以下配置:
[0041]I),对每一子域内各物理服务器上的VM配置该子域的标识(ID)。
[0042]2),从每一子域内各物理服务器上的VM中选择出一个VM在该子域内担任控制器(记为Sub-controller)。这里,可随机从该每一子域内选择一个VM,也可按照预定的策略比如选择优先级最高等从每一子域内选择一个VM作为Sub-controller。
[0043]3),在每一子域内被选择为Sub-controller的VM上配置Core-controller的地址;在每一子域内不被选择为Sub-controller的VM上配置Core-cont
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1