物理主机故障检测方法、装置及虚机管理方法、系统的制作方法_2

文档序号:9471262阅读:来源:国知局
行的物理主机(一般是与该发生故障的物理主机相同集群下的其他物理主机)上。
[0039]为了更好的理解本发明,下面以结合物理主机的心跳消息、IPMI检测指令和物理主机通过存储网上报唯一标识码的情况实现物理主机故障的可靠检测的流程为例,对本发明做进一步的说明。请参见图1所示,其包括:
[0040]步骤101:监测物理主机心跳消息的上报是否正常;如否,转至步骤102 ;否则,继续检测;
[0041]虚拟化管理中心节点首先在管理网中,管理程序与物理主机之间的消息通信都是通过管理网,所以第一步可首先根据物理主机通过管理网上报上来的心跳消息检测该物理主机是否发生故障,如果心跳丢失,则突破管理网心跳检测的第一防线,说明主机可能发生故障;
[0042]步骤102:向该物理主机下发IPMI检测指令对该物理主机进行检测;
[0043]步骤103:根据检测结果判断该物理主机是否正常,如否,转至步骤104,否则,结束;
[0044]生产环境中单独部署IPMI网络,因此可通过虚拟化管理中心下达IPMI检测指令,检测物理主机是否故障,如果IPMI检测结果为故障,为了确保不是由于主机卡死等异常原因导致的IPMI指令结果失效,可进一步进行步骤104的检测;
[0045]步骤104:通过存储网判断该物理主机的唯一标识码是否正常上报,如否,转至步骤105 ;否则,结束;
[0046]步骤105:判定该物理主机故障。
[0047]虚拟化管理中心与各个物理主机通过单独的存储网络可访问某块共享存储,基于此,每个物理主机定时向该共享存储写入带有唯一标识码(例如UUID Universally UniqueIdentifier,通用唯一识别码)物理主机标记,因此可以通过检测物理主机是否通过存储网正常定时上报该唯一标识码进一步检测该物理主机是否故障,如在该共享存储中未检测到该物理主机的唯一标识码,则代表该物理主机未正常上报其唯一标识码,确定该主机故障。
[0048]实施例二:
[0049]本实施例提供了一种虚机管理系统,也即虚拟化管理中心,其包括物理主机故障检测装置和虚机转移装置。请参见图2所示,该图示出了虚机管理系统与各物理主机的连接关系。
[0050]请参见图3所示,本实施例中的物理主机故障检测装置包括:智能型平台管理接口检测模块(IPMI检测模块),用于向物理主机下发智能型平台管理接口检测指令对物理主机进行检测,根据检测结果判断该物理主机是否正常。
[0051]一般来说,当监测到物理主机的心跳消息的上报正常时,该物理主机一般也都运行正常。在此情况下,向该物理主机下发IPMI检测指令的必要性就不是太大,因为即使此时向物理主机下发IPMI检测指令,获取的检测结果页基本都是运行正常。因此,为了尽可能减少系统不必要的额外开销,提高资源利用率,本实施例中可以设置仅在检测到物理主机上报的心跳消息不正常时,才向该物理主机下发IPMI检测指令。此时,请参见图3所示,物理主机故障检测装置还可包括心跳检测模块,用于在智能型平台管理接口检测模块向物理主机下发智能型平台管理接口检测指令之前,监测物理主机心跳消息的上报是否正常;如否,触发智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令。本实施例中的心跳检测模块具体可包括监测子模块和判断子模块;判断子模块用于判断监测子模块是否连续N次未监测到所述物理主机通过管理网上报的心跳消息,如是,判定物理主机心跳消息的上报不正常#大于等于I。
[0052]本实施例中,触发向物理主机下发IPMI检测指令的条件除了物理主机心跳不正常外,还可采用定时触发的方式实现。此时,物理主机故障检测装置还可包括定时模块,用于在智能型平台管理接口检测模块向物理主机下发智能型平台管理接口检测指令之前开始计时,并在计时达到预设时间值时,触发智能型平台管理接口检测模块向物理主机下发智能型平台管理接口检测指令。应当理解的是,在本实施例中,还可同时结合这两种方式实现触发,也即只有当着两种触发条件都满足后,才触发下发IPMI检测指令的操作。
[0053]在通过IPMI检测指令监测到物理主机不正常时,在绝大部分情况下都可判定物理主机发生故障,需要对其上的虚机进行迁移处理。但是,为了确保不是由于物理主机卡死等异常原因导致的IPMI检测结果失效,请参见图3所示,在本实施例中,物理主机故障检测装置还可包括标识判断模块,用于在智能型平台管理接口检测模块根据检测结果判断物理主机不正常后,通过存储网判断物理主机的唯一标识码是否正常上报,如否,判定物理主机故障。
[0054]虚机管理系统与各个物理主机通过单独的存储网络可访问某块共享存储,基于此,每个物理主机定时向该共享存储写入带有唯一标识码(例如UUID Universally UniqueIdentifier,通用唯一识别码)物理主机标记,因此可以通过检测物理主机是否通过存储网正常定时上报该唯一标识码进一步检测该物理主机是否故障,如在该共享存储中未检测到该物理主机的唯一标识码,则代表该物理主机未正常上报其唯一标识码,确定该主机故障。
[0055]在通过物理主机故障检测装置判定出物理主机故障后,虚机转移装置则可将该物理主机上的虚机转移到其他正常运行的物理主机上。
[0056]可见,本发明提供的物理主机故障检测方法可分别通过管理网、IPMI网以及存储网,结合心跳消息、IPMI检测结果以及物理主机的唯一标识上报情况对物理主机是否故障进行准确的判定。进而避免由于物理主机故障的误检测导致同一虚机在多个物理主机上启动的情况发生。
[0057]以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
【主权项】
1.一种物理主机故障检测方法,其特征在于包括: 向物理主机下发智能型平台管理接口检测指令对所述物理主机进行检测,根据检测结果判断所述物理主机是否正常。2.如权利要求1所述的物理主机故障检测方法,其特征在于,在向所述物理主机下发智能型平台管理接口检测指令之前,还包括; 监测所述物理主机心跳消息的上报是否正常;如否,触发向所述物理主机下发智能型平台管理接口检测指令; 和/或, 设置定时模块,在该定时模块计时达到预设时间值时,触发向所述物理主机下发智能型平台管理接口检测指令。3.如权利要求2所述的物理主机故障检测方法,其特征在于,当所述方法包括监测所述物理主机心跳消息的上报是否正常时,该过程包括: 判断是否连续N次未监测到所述物理主机通过管理网上报的心跳消息,如是,则判定所述物理主机心跳消息的上报不正常;所述N大于等于I。4.如权利要求1-3任一项所述的物理主机故障检测方法,其特征在于,根据所述检测结果判断所述物理主机不正常后,还包括: 通过存储网判断所述物理主机的唯一标识码是否正常上报,如否,判定所述物理主机故障。5.一种虚机管理方法,其特征在于包括:通过如权利要求1-4任一项所述的物理主机故障检测方法判定所述物理主机故障后,将所述物理主机上的虚机转移到其他正常运行的物理主机上。6.一种物理主机故障检测装置,其特征在于包括:智能型平台管理接口检测模块,用于向所述物理主机下发智能型平台管理接口检测指令对所述物理主机进行检测,根据检测结果判断所述物理主机是否正常。7.如权利要求6所述的物理主机故障检测装置,其特征在于,还包括心跳检测模块,用于在所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令之前,监测所述物理主机心跳消息的上报是否正常;如否,触发所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令; 和/或, 还包括定时模块,用于在所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令之前开始计时,并在计时达到预设时间值时,触发所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令。8.如权利要求6所述的物理主机故障检测装置,其特征在于,当包括所述心跳检测模块时,所述心跳检测模块包括监测子模块和判断子模块;所述判断子模块用于判断所述监测子模块是否连续N次未监测到所述物理主机通过管理网上报的心跳消息,如是,判定所述物理主机心跳消息的上报不正常;所述N大于等于I。9.如权利要求6-8任一项所述的物理主机故障检测装置,其特征在于,还包括标识判断模块,用于在所述智能型平台管理接口检测模块根据所述检测结果判断所述物理主机不正常后,通过存储网判断所述物理主机的唯一标识码是否正常上报,如否,判定所述物理主机故障。10.一种虚机管理系统,其特征在于包括虚机转移装置和如权利要求6-9任一项所述的物理主机故障检测装置;所述虚机转移装置用于在所述物理主机故障检测装置检测出物理主机故障后,将所述物理主机上的虚机转移到其他正常运行的物理主机上。
【专利摘要】本发明公开了一种物理主机故障检测方法、装置及虚机管理方法、系统,通过向物理主机下发智能型平台管理接口检测指令对物理主机进行检测,根据检测结果判断物理主机是否正常;并非简单的根据物理主机的心跳消息是否正常来判定物理主机是否故障。可以在较大程度上提高物理主机故障检测的准确率,进而避免由于物理主机故障的误检测导致同一虚机在多个物理主机上启动的情况发生。
【IPC分类】G06F11/22
【公开号】CN105224426
【申请号】CN201410253708
【发明人】胡岩岩
【申请人】中兴通讯股份有限公司
【公开日】2016年1月6日
【申请日】2014年6月9日
【公告号】WO2015188619A1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1