物理机故障分类处理方法、装置和虚拟机恢复方法、系统与流程

文档序号：11261875阅读：338来源：国知局

本申请涉及通信技术领域，特别是涉及一种应用于虚拟化集群系统的物理机故障分类处理方法、装置及虚拟机恢复方法、系统。

背景技术：

随着计算机技术的迅猛发展，人们开始越来越多的关注如何降低能耗和提高资源利用率，云计算模式应运而生。云计算将所有的计算机抽象成特定的计算资源，然后将这些计算资源提供给用户，而不是像传统那样直接提供一台或多台计算机。云计算模式最大的好处就是用户可以根据自己的需要来申请资源，避免不必要的资源浪费，提高资源利用率。

在云计算环境中，虚拟化集群技术是关键技术之一。虚拟化集群将多台虚拟化服务器组成为一个有机的整体，从而获得很高的计算速度，提升虚拟化系统整体的计算能力。虚拟化集群对多台服务器进行统一管理，通过虚拟化技术将物理资源抽象为存储、计算、网络等各种资源组成大的资源池，通过按需申请资源的方式提供虚拟机给用户。

随着虚拟化集群规模的逐渐扩大，由于集群内物理机软硬件问题导致物理机故障的概率也逐渐增大。物理机故障会直接影响其上所运行的虚拟机服务。为了保证虚拟机业务的正常运行，需要及时发现其所在的物理机故障并迅速处理以恢复虚拟机业务；否则，虚拟机用户会受到物理机故障的影响，无法保证业务的连续性。现有技术可以定时监控物理机状态，当发生物理机故障时，则会对其上的虚拟机进行关机，然后再开机操作；或者是关闭故障物理机，将其上的虚拟机迁移到集群内其他物理机上。

然而，物理机故障通常是由不同的原因而导致的，且物理机故障的现象也会有很多种，而现有技术并未对物理机故障进行精细划分，并未针对性的进行分类处理，因此在实际商业化用途中会存在较多的误判和漏判的情况，从而无法实现物理机故障后其上的虚拟机高可用(highavailability,ha)。

因此，如何更准确、高效、有针对性地进行物理机故障分类修复处理，成为亟需本领域技术人员解决的技术问题。

技术实现要素：

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种应用于虚拟化集群系统的物理机机故障分类处理方法、装置及虚拟机恢复方法、系统。

本申请公开一种集群物理机故障分类处理方法，包括：

从物理机故障信息存储中心获取物理机故障信息列表；

若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障，则触发所述集群外部的安全攻击防护中心处理；

若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障，则向故障物理机发送关闭故障物理机的指令；及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

本申请还公开了一种集群物理机故障分类处理装置，包括：

获取模块，用于从物理机故障信息存储中心获取物理机故障信息列表；

第一处理模块，用于若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障，则触发所述集群外部的安全攻击防护中心处理；

第二处理模块，进一步包括：

关闭处理单元，用于若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障，则向故障物理机发送关闭故障物理机的指令；

迁移处理单元，用于通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

本申请还公开了一种虚拟机恢复方法，应用于虚拟化集群系统，所述方法包括：

虚拟化集群系统内的物理机自主检测自身的故障动态；

若自主检测到物理机自身能容错修复的软硬件故障，通过容错方式修复；

若自主检测到物理机自身能重启修复的软硬件故障，通过重启物理机方式修复；

从物理机故障信息存储中心获取物理机故障信息列表；

若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障，则触发所述集群外部的安全攻击防护中心处理；

相应的，本申请公开了一种虚拟机恢复系统，包括：

物理机故障修复装置，应用于虚拟化集群系统内的物理机上自主检测物理机自身的故障动态，若自主检测到物理机自身能容错修复的软硬件故障，通过容错方式修复；若自主检测到物理机自身能重启修复的软硬件故障，通过重启物理机方式修复；

物理机故障信息存储中心，用于将所有上报的物理故障信息汇集成物理机故障信息列表；

物理机故障分类处理装置，用于从所述物理机故障信息存储中心获取物理机故障信息列表，若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障，则触发所述集群外部的安全攻击防护中心处理；若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障，则向故障物理机发送关闭故障物理机的指令，及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

本申请实施例可以在大规模的云计算集群中，通过对多种物理机故障场景，进行精细化故障快速、准确的识别，并有针对性的进行分类处理，从而实现快速、高可靠的物理机故障修复处理，以保证其上的虚拟机服务的快速恢复。

进一步的，本申请实施例通过物理机自主检测自身的故障动态，并对物理机自身能修复的物理机故障情况有针对性的进行分类修复处理；对物理机自身不能修复的物理机故障情况，通过集群外部的物理机故障分类处理模块有针对性的进行分类修复处理，从而有效降低物理机故障的误判和漏判情况的发生，更安全、稳定、快速的进行虚拟机自动恢复。

另外，本申请实施例针对物理机自身不能修复的物理机故障情况，除了可以通过故障物理机上的带外管理模块关闭故障物理机之外，还可以通过集群外部的物理机故障分类处理模块，指示故障物理机自主关机，从而弥补带外管理模块调用关机操作的可用性无法达到商用标准的问题，同时也确保自动化物理机隔离的有效性。

此外，本申请实施例也同时考虑到大规模云计算集群内发生物理机规模故障情况的可能性，通过判断故障物理机的数量是否构成机房级别，并有针对性的采取不同的修复处理方式。尤其是针对大规模物理机故障的情况，采用人工处理的方式修复，从而有效避免由于故障物理机上的虚拟机的频繁迁移而影响系统性能情况的发生。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一种集群物理机故障分类处理方法实施例的步骤流程图；

图2是本申请的另一种集群物理机故障分类处理方法实施例的步骤流程图；

图3是本申请的一种虚拟机恢复方法实施例的步骤流程图；

图4是本申请的另一种虚拟机恢复方法实施例的步骤流程图；

图5是本申请的一种物理机故障修复装置实施例的结构框图；

图6是本申请的一种集群物理机故障分类处理装置实施例的结构框图；

图7是本申请的一种虚拟机恢复系统实施例的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

为了方便理解本发明实施例，首先在此介绍本发明实施例描述中会涉及的几个要素：

a、云计算

云计算是一种基于互联网技术的相关服务的增加、使用和交付模式，是在所有使用的服务器上实践分布式计算的服务器集群。也就是说，云计算提供了一个虚拟化的按需动态供应硬件、软件和数据集的弹性资源平台。

b、虚拟集群

在云计算平台上进行集群管理就构成了虚拟集群。所谓的虚拟集群就是通过采用虚拟化技术来虚拟出多台计算节点，从而构建出与物理集群相似而且规模巨大的一个集群系统。也就是说，虚拟集群就是将那些协同完成特定任务的多台同构或异构的计算机连接起来的系统。

c、物理机

虚拟集群系统内协同完成特定任务的多台计算机即为集群物理计算机，简称集群物理机。其中，一台物理机上可以模拟出一台或者多台虚拟的计算机。

d、虚拟机

通过虚拟机软件可以在一台物理机上模拟出一台或者多台虚拟的计算机，而这些虚拟机就像真正的计算机那样进行工作，虚拟机上可以安装操作系统和应用程序，虚拟机还可访问网络资源。对于在虚拟机中运行的应用程序而言，虚拟机就像是在真正的计算机中进行工作。

本申请实施例可以应用在大规模的云计算虚拟化集群系统中，可以通过集群系统内的物理机自主检测自身的故障动态，进而对物理机自身能修复的物理机故障情况有针对性的进行分类修复处理；而对物理机自身不能修复的物理机故障情况，通过集群外部的物理机故障分类处理模块有针对性的进行分类修复处理，从而有效降低物理机故障的误判和漏判情况的发生，更安全、稳定、快速的进行虚拟机自动恢复。

影响虚拟机运行和管理的物理机故障现象可以归纳如下几种：

1、物理机网络不通

其原因主要包括：物理机宕机、网卡异常、上联交换机故障、硬件异常、内核模块异常、物理机重启、网络分布式拒绝服务攻击(distributeddenialofservice,ddos)等。

2、物理机丢包

其原因主要包括：物理机负载高、上联网络设备切换、网络ddos攻击等。

3、物理机硬件系统故障

例如，物理机磁盘、内存、中央处理器(centralprocessingunit，cpu)故障等。

4、物理机软件异常

例如，物理机的文件系统、虚拟化相关模块、操作系统内核模块等操作系统层面的软件异常等。

5、物理机远程访问通道不通

其原因主要包括：网络丢包、系统服务异常、文件系统异常等。

6、物理机性能异常

例如，可能表现为物理机输入输出(input/output，i/o)卡顿、负载高等。其原因主要包括：物理机硬件故障、物理机内核模块异常、物理机用户态进程异常等。

可以看出，以上物理机故障的现象并不是一成不变的，而是在一定时间内可以相互转化的，甚至是相关关联、相互交织的。并且，相同的物理机现象其背后的原因可能不一样，因此故障物理机的修复处理方式需要具体区分，例如，对于因网络ddos攻击而导致的某台物理机网络不通与因物理机宕机而导致的物理机网络不通是需要区别对待的，如果在物理机正遭受网络 ddos攻击时将其上的虚拟机迁移至其他物理机，会产生骨牌效应，导致扩大故障风险，即其他物理机陆续被攻击而不可用，最终可能造成全集群网络设备的泛洪(flooding)，导致全集群物理机故障风险。

基于上述物理机故障现象和异常的深层原因分析，本发明实施例中，可以将物理机故障归纳为如下几类：

a、物理机自身能容错修复的软硬件故障类型

例如，存储数据的磁盘故障、虚拟化相关内核模块异常、存储数据的文件系统异常等。

b、物理机自身能重启修复的软硬件故障类型

例如，根文件系统只读等异常、网卡驱动重启可修复的异常、操作系统内核模块异常等。

c、物理机自身不能修复的软硬件故障类型

例如，物理机宕机、物理机cpu异常、物理机内存异常、物理机电源模块等各类硬件问题异常。

另外，还包括未知原因的故障类型，例如，系统负载类、系统网络类、硬件故障类等。这类故障虽然本质的原因比较难查，但是这类故障的现象却很明确，主要是：物理机网络丢包、物理机管理通道访问异常、物理机性能使用异常。

d、物理机遭受网络攻击而导致物理机故障类型

例如，网络ddos类型安全攻击，从而造成网络大量丢包甚至网络不通。这类故障的现象主要包括：物理机网络不通、网络丢包、管理通道不通等。

因此，本申请实施例通过对多种物理机故障场景，进行精细化故障快速、准确的识别，并有针对性的进行分类处理，从而实现快速、高可靠的物理机故障修复处理，以保证其上的虚拟机服务的快速恢复。例如，本申请实施例可以在十几分钟内处理完成故障物理机上的虚拟机恢复且该虚拟机的功能具备超过99.95％的商用可用性标准。

实施例一

参照图1，示出了本申请的一种集群物理机故障分类处理方法实施例的步骤流程图，所述物理机故障分类处理方法可以应用于虚拟化集群系统，具体可以包括如下步骤：

步骤210，从物理机故障信息存储中心获取物理机故障信息列表；

需要说明的是，所述物理机故障信息列表包括：由所述集群外部的物理机故障探测模块从故障物理机处探测到并上报给所述物理机故障信息存储中心的物理机故障信息，及由所述集群外部的物理机故障收集模块从故障物理机处收集到并上报给所述物理机故障信息存储中心的物理机故障信息。

步骤220，若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障，则触发所述集群外部的安全攻击防护中心处理；

可以理解的是，在实际应用中，所述集群外部的安全攻击防护中心被触发后，会启动安全清洗程序，例如进行流量清洗等，从而使得故障物理机恢复健康。需要说明的是，对于因网络ddos攻击而导致的某台物理机网络不通与因物理机宕机而导致的物理机网络不通是需要区别对待的，如果在物理机正遭受网络ddos攻击时将其上的虚拟机迁移至其他物理机，会产生骨牌效应，导致扩大故障风险，即其他物理机陆续被攻击而不可用，最终可能造成全集群网络设备的泛洪(flooding)，导致全集群物理机故障风险。

步骤230，若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障，则向故障物理机发送关闭故障物理机的指令；及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上；

优选的，若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障，则向故障物理机发送关闭故障物理机的指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块。

需要说明的是，所述的物理机自身不能修复的软硬件故障类型可以包括：物理机宕机、物理机cpu异常、物理机内存异常、物理机电源模块等各类硬件问题异常。这类故障会直接导致物理机不可用，且需要更换硬件模块方可修复，因此，本申请实施例通过从集群中将故障物理机隔离后再对故障物理机进行硬件更换或者维护。

此外，针对物理机自身不能修复的软硬件故障的情况下，传统物理机上的带外管控系统由于硬件故障率和成本问题，通常可用性在90％左右甚至更低，在云计算服务本身至少99.95％的商用可用性要求下，全年的不可用性时长共计262.8分钟，如果一台故障物理机无法得到及时修复，则由于一台物理机故障就会直接导致几十分钟的人工处理时耗，因此，现有技术中的带外管控系统的可用性指标无法匹配商用云计算服务的故障恢复服务等级协议(service-levelagreement，sla)。而本申请实施例提供的技术方案，对传统的带外管控系统进行改进，在带外管理模块可用性达不到商用标准时，可以通过所述集群外部的物理机故障分类处理模块的指令指示故障物理机自主关闭，再由所述集群外部的物理机故障分类处理模块通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上；从而大量缩短故障物理机的修复时间，进而提高系统的商用可用性。

实施例二

参照图2，示出了本申请的另一种集群物理机故障分类处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤210，从物理机故障信息存储中心获取物理机故障信息列表；

步骤220，若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障，则触发所述集群外部的安全攻击防护中心处理；

步骤240，若在所述物理机故障信息列表中检测到物理机网络完全不通且网络不通持续时间达到预设时间；判断网络不通的物理机数量是否超过预设数量，如果是则通知运营维修人员人工修复；否则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内到其他健康物理机上；

其中，所述预设时间可以依据实际情况设定为3分钟、5分钟等适合的时间段。

需要说明的是，在检测到物理机网络完全不通且网络不通持续时间达到预设时间的情况下，本申请实施例需要进一步检查网络不通的故障物理机的数量是否超过一个机柜的物理机数量或者一个交换机下联物理机数量，如果超过，则认为是集群规模性网络故障，则需要采取电话报警通运营维修人员人工修复，而不再自动处理。这是由于对于大规模物理机故障，在进行隔离物理机迁移虚拟机时，会导致大量物理机被关闭，当机房设备(网络设备或者电力设备等)恢复后，还需要再次重启物理机，然后恢复虚拟机，这一系列的操作将直接导致人工处理时间加倍甚至更多，从而大大加大虚拟机的不可用时长。因此，本申请实施例提供的方法，对此种物理机故障类型加以区分处理，可以大量缩短故障物理机的修复时间，从而大大缩短其上的虚拟机不可用的时长，进而提高系统的商用可用性。

优选的，本申请实施例所述方法还可以进一步包括：

步骤250，若在所述物理机故障信息列表中检测到物理机网络不通但网络不通持续时间未达到预设时间后网络又恢复正常，且确定物理机网络不通是物理机重启所导致的，则判断当前的物理机是否健康，如果健康则通过虚拟化接口重启所述物理机上的虚拟机，如果不健康则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群内其他健康物理机上；

步骤260，若在所述物理机故障信息列表中检测到物理机网络不稳定且网络不稳定持续时间达到预设时间，则向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机；及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上；

需要说明的是，所述物理机网络不稳定且网络不稳定持续时间达到预设时间的情况主要是一些未知原因造成物理机故障，例如，系统负载类、系统网络类、硬件故障类等。这类故障虽然本质原因比较难查，但是这类故障的现象却很明确，主要是：物理机网络丢包、物理机管理通道访问异常、物理机性能使用异常。对于这类物理机故障，可以采用相同的处理方式，即向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机；及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

优选的，在本申请的一个实施例中，通过以下方式确定所述健康物理机：

在所述物理机故障信息列表中匹配所述集群内的所有物理机；

将没有匹配成功的物理机确定为健康物理机。

实施例三

参照图3，示出了本申请的一种虚拟机恢复方法的实施例示意图，具体可以包括如下步骤：

步骤310，虚拟化集群系统内的物理机自主检测自身的故障动态；

优选的，每台物理机可以以固定的时间间隔定期自主检测自身的故障动态，例如每隔30秒自主检测一次。

步骤320，若自主检测到物理机自身能容错修复的软硬件故障，通过容错方式修复；

可以理解的是，本申请实施例所述的物理机自身能容错修复的软硬件故障，可以包括：存储数据的磁盘故障、虚拟化相关内核模块异常、存储数据的文件系统异常等。例如，针对存储数据的磁盘故障，容错修复方式具体是，首先隔离磁盘，然后利用集群分布式存储多份数据的机制，实现该磁盘上数据自动复制至其他健康磁盘上，这样可以有效保证该故障磁盘隔离后不会影响系统稳定运行。同样，针对存储数据的文件系统损坏，也可以通过隔离该文件系统挂载的磁盘达到容错修复的目的。

步骤330，若自主检测到物理机自身能重启修复的软硬件故障，通过重启物理机方式修复；

可以理解的是，本申请实施例所述的物理机自身能修复的软硬件故障，可以包括：根文件系统只读等异常、网卡驱动重启可修复的异常、操作系统内核模块异常等。这类软硬件故障都可以通过重启物理机的方式予以修复。

步骤340，从物理机故障信息存储中心获取物理机故障信息列表；

需要说明的是，由物理机故障分类处理模块从物理机故障信息存储中心获取物理机故障信息列表。所述物理机故障信息列表包括：由所述集群外部的物理机故障探测模块从故障物理机处探测到并上报给所述物理机故障信息存储中心的物理机故障信息，及由所述集群外部的物理机故障收集模块从故障物理机处收集到并上报给所述物理机故障信息存储中心的物理机故障信息。

步骤350，若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障，则触发所述集群外部的安全攻击防护中心处理；

步骤360，若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障，则向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机；及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

优选的，本申请实施例所述方法还可以进一步包括：

步骤370，若在所述物理机故障信息列表中检测到物理机网络完全不通且网络不通持续时间达到预设时间；判断网络不通的物理机数量是否超过预设数量，如果是则通知运营维修人员人工修复；否则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内到其他健康物理机上。

其中，所述预设时间可以依据实际情况设定为3分钟、5分钟等适合的时间段。

优选的，本申请实施例所述方法还可以进一步包括：

步骤380，若在所述物理机故障信息列表中检测到物理机网络不通但网络不通持续时间未达到预设时间后网络又恢复正常，且确定物理机网络不通是物理机重启所导致的，则判断当前的物理机是否健康，如果健康则通过虚拟化接口重启所述物理机上的虚拟机，如果不健康则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群内其他健康物理机上。

优选的，本申请实施例所述方法还可以进一步包括：

步骤390，若在所述物理机故障信息列表中检测到物理机网络不稳定且网络不稳定持续时间达到预设时间，则向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机；及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

优选的，在本申请的一个实施例中，通过以下方式确定所述健康物理机：

在所述物理机故障信息列表中匹配所述集群内的所有物理机；

将没有匹配成功的物理机确定为健康物理机。

实施例四

参照图4，示出了本申请的另一种虚拟机恢复方法的实施例示意图，具体可以包括如下步骤：

物理机故障探测模块每隔30秒检查集群内每台物理机的网络情况，并更新至物理机故障信息存储中心；集群系统内的每台物理机自主检测自身的故障情况，并通过物理机故障收集模块更新至物理机故障信息存储中心。

对于物理机自身能容错修复的软硬件故障的场景，则由物理机自身通过容错方式修复处理；对于物理机自身能重启修复的软硬件故障，则由物理机自身通过重启物理机方式修复处理；如果是物理机自身不能修复的软硬件故障，则进行关机处理。

物理机故障分类处理模块每隔1分钟从物理机故障信息存储中心获取物理机故障信息列表；判断该物理机故障信息列表是否为空，如果是则返回循环；否则继续判断所述物理机故障信息列表中是否有因遭受网络攻击而导致物理机故障的情况，如果有，则触发所述集群外部的安全攻击防护中心处理；否则继续判断在所述物理机故障信息列表中是否有因物理机自身不能修复的软硬件故障的情况，如果有，则向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机；再通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

如果确定所述物理机故障信息列表中没有因遭受网络攻击而导致物理机故障的情况，则继续判断在所述物理机故障信息列表中是否有物理机网络完全不通且网络不通持续时间达到预设时间，例如3分钟；如果有则再判断网络不通的物理机数量是否超过预设数量，例如，故障物理机的数量是否超过一个机柜的物理机数量或者一个交换机下联物理机数量，如果超过，则认为是集群规模性网络故障，则需要采取电话报警通运营维修人员人工修复，而不再自动处理。否则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内到其他健康物理机上。

判断在所述物理机故障信息列表中是否有检测到物理机网络不通但网络不通持续时间未达到预设时间后网络又恢复正常，且确定物理机网络不通是物理机重启所导致的，则判断当前的物理机是否健康，如果健康则通过虚拟化接口重启所述物理机上的虚拟机，如果不健康则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群内其他健康物理机上。

如果在所述物理机故障信息列表中检测到物理机网络不稳定且网络不稳定持续时间达到预设时间，则向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机；及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

优选的，在本申请的一个实施例中，通过以下方式确定所述健康物理机：

在所述物理机故障信息列表中匹配所述集群内的所有物理机；

将没有匹配成功的物理机确定为健康物理机。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

实施例五

参照图5，示出了本申请的一种物理机故障修复装置实施例的结构框图，所述物理机故障修复装置500应用于虚拟化集群系统内的物理机上，具体可以包括：自主检测模块(selfchecker)510、自主处理模块(selfhnadler)520；其中：

自主检测模块510具体包括：检测单元511，用于自主检测物理机自身的故障动态；优选的，检测单元511可以以固定的时间间隔定期自主检测物理机自身的故障动态，例如每隔30秒自主检测一次。

自主处理模块520，具体包括：

容错单元521，用于若所述检测单元511检测到物理机自身能容错修复的软硬件故障，则通过容错方式修复；

重启单元522，用于若所述检测单元511检测到物理机自身能重启修复的软硬件故障，则通过重启物理机方式修复。

可以理解的是，本申请实施例所述的物理机自身能重启修复的软硬件故障，可以包括：根文件系统只读等异常、网卡驱动重启可修复的异常、操作系统内核模块异常等。这类软硬件故障都可以通过重启物理机的方式予以修复。

优选的，所述自主处理模块520还可以进一步包括：

关机单元523，用于若所述检测单元511检测到物理机自身不能修复的软硬件故障，则根据所述集群外部的物理机故障分类处理模块的指令或通过所述物理机上的带外管理模块530关闭故障物理机，由所述集群外部的物理机故障分类处理模块通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

需要说明的是，针对物理机自身不能修复的软硬件故障的情况下，传统物理机上的带外管控系统由于硬件故障率和成本问题，通常可用性在90％左右甚至更低，在云计算服务本身至少99.95％的商用可用性要求下，全年的不可用性时长共计262.8分钟，如果一台故障物理机无法得到及时修复，则由于一台物理机故障就会直接导致几十分钟的人工处理时耗，因此，现有技术中的带外管控系统的可用性指标无法匹配商用云计算服务的故障恢复服务等级协议(service-levelagreement，sla)。而本申请实施例提供的技术方案，对传统的带外管控系统进行改进，在带外管理模块530可用性达不到商用标准时，可以通过所述集群外部的物理机故障分类处理模块的指令指示故障物理机自主关闭，再由所述集群外部的物理机故障分类处理模块通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上；从而大量缩短故障物理机的修复时间，进而提高系统的商用可用性。

优选的，所述自主检测模块510还可以进一步包括：

上报单元512，用于当检测单元511自主检测到因遭受网络攻击而导致物理机故障时，通过物理机故障收集模块上报物理机故障信息到物理机故障信息存储中心，由所述集群外部的物理机故障分类处理模块触发所述集群外部的安全攻击防护中心处理。

其中，所述集群外部的安全攻击防护中心被触发后，会启动安全清洗程序，例如进行流量清洗等，从而使得故障物理机恢复健康。需要说明的是，对于因网络ddos攻击而导致的某台物理机网络不通与因物理机宕机而导致的物理机网络不通是需要区别对待的，如果在物理机正遭受网络ddos攻击时将其上的虚拟机迁移至其他物理机，会产生骨牌效应，导致扩大故障风险，即其他物理机陆续被攻击而不可用，最终可能造成全集群网络设备的泛洪(flooding)，导致全集群物理机故障风险。

实施例六

参照图6，示出了本申请的一种集群物理机故障分类处理装置实施例的结构框图，所述物理机故障分类处理装置600具体可以包括如下模块：

获取模块610，用于从物理机故障信息存储中心获取物理机故障信息列表；需要说明的是，所述物理机故障信息列表包括：由所述集群外部的物理机故障探测模块从故障物理机处探测到并上报给所述物理机故障信息存储中心的物理机故障信息，及由所述集群外部的物理机故障收集模块从故障物理机处收集到并上报给所述物理机故障信息存储中心的物理机故障信息。

第一处理模块620，用于若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障，则触发所述集群外部的安全攻击防护中心处理；

第二处理模块630，进一步包括：

关闭处理单元，用于若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障，则向故障物理机发送关闭故障物理机的指令；优选的，所述指令可以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机；

迁移处理单元，用于通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

优选的，所述物理机故障分类处理装置600还可以进一步包括第三处理模块640，该第三处理模块640具体包括：

通知处理单元，用于若在所述物理机故障信息列表中检测到物理机网络完全不通且网络不通持续时间达到预设时间，并且网络不通的物理机数量超过一台，则通知运营维修人员人工修复；

迁移处理单元，用于若在所述物理机故障信息列表中检测到物理机网络完全不通且网络不通持续时间达到预设时间，并且网络不通的物理机数量未超过预设数量，则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内到其他健康物理机上。

其中，所述预设时间可以依据实际情况设定为3分钟、5分钟等适合的时间段。

优选的，所述物理机故障分类处理装置600还可以进一步包括第四处理模块650，所述第四处理模块650具体包括：

重启处理单元，用于若在所述物理机故障信息列表中检测到物理机网络不通但网络不通持续时间未达到预设时间后网络又恢复正常，且确定物理机网络不通是物理机重启所导致的，则在确定当前的物理机是健康的情况下，通过虚拟化接口重启所述物理机上的虚拟机；

迁移处理单元，用于若在所述物理机故障信息列表中检测到物理机网络不通但网络不通持续时间未达到预设时间后网络又恢复正常，且确定物理机网络不通是物理机重启所导致的，则在确定当前的物理机是不健康的情况下，通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群内其他健康物理机上。

优选的，所述物理机故障分类处理装置600还可以进一步包括第五处理模块660，所述第五处理模块660具体包括：

关机处理单元，用于若在所述物理机故障信息列表中检测到物理机网络不稳定且网络不稳定持续时间达到预设时间，则向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机；

迁移处理单元，用于通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

优选的，所述物理机故障分类处理装置600还可以进一步包括：

确定模块670，用于在所述物理机故障信息列表中匹配所述集群内的所有物理机，将没有匹配成功的物理机确定为健康物理机。

实施例七

参照图7，示出了本申请的一种虚拟机恢复系统实施例的架构图，该虚拟机恢复系统包括：物理机故障修复装置710，其应用于虚拟化集群系统700内的每台物理机上；物理机故障分类处理装置720及物理机故障信息存储中心730；其中：

所述物理机故障修复装置710具体可以包括：自主检测模块711、自主处理模块712；其中：自主检测模块711用于自主检测物理机自身的故障动态；自主处理模块712用于若所述自主检测模块711检测到物理机自身能容错修复的软硬件故障，则通过容错方式修复；还用于若自主检测模块711检测到物理机自身能重启修复的软硬件故障，通过重启物理机方式修复。

优选的，所述自主处理模块712还可以用于若所述自主检测模块711检测到物理机自身不能修复的软硬件故障，则根据所述集群外部的物理机故障分类处理模块720的指令或通过所述物理机上的带外管理模块713关闭故障物理机，由所述集群外部的物理机故障分类处理模块720通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

优选的，所述自主检测模块712还可以用于当自主检测模块711自主检测到因遭受网络攻击而导致物理机故障时，通过物理机故障收集模块760上报物理机故障信息到物理机故障信息存储中心730，由所述集群外部的物理机故障分类处理模块720触发所述集群外部的安全攻击防护中心740处理。

需要说明的是，在本申请另一实施例中，该自主检测模块711和自主处理模块712可以是部署在集群每台物理机上的软件模块，在物理机开机时自动启动，该自主检测模块711和自主处理模块712的运行不依赖文件系统，仅仅依赖cpu、内存。

所述物理机故障信息存储中心730，用于将所有上报的物理故障信息汇集成物理机故障信息列表；其中，所述物理机故障信息列表包括：由所述集群外部的物理机故障探测模块750从故障物理机处探测到并上报给所述物理机故障信息存储中心730的物理机故障信息，及由所述集群外部的物理机故障收集模块760从故障物理机处收集到并上报给所述物理机故障信息存储中心730的物理机故障信息。

所述物理机故障分类处理装置720，用于通过获取模块721从所述物理机故障信息存储中心730获取物理机故障信息列表，若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障，则通过第一处理模块722触发所述集群外部的安全攻击防护中心740处理；若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障，则通过第二处理模块723向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块713关闭故障物理机，及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

优选的，所述物理机故障分类处理装置720还可以进一步包括第三处理模块724，用于若在所述物理机故障信息列表中检测到物理机网络完全不通且网络不通持续时间达到预设时间；判断网络不通的物理机数量是否超过预设数量，如果是则通知运营维修人员人工修复；否则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内到其他健康物理机上。

优选的，所述物理机故障分类处理装置720还可以进一步包括第四处理模块725，用于若在所述物理机故障信息列表中检测到物理机网络不通但网络不通持续时间未达到预设时间后网络又恢复正常，且确定物理机网络不通是物理机重启所导致的，则判断当前的物理机是否健康，如果健康则通过虚拟化接口重启所述物理机上的虚拟机，如果不健康则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群内其他健康物理机上。

优选的，所述物理机故障分类处理装置720还可以进一步包括第五处理模块726，用于若在所述物理机故障信息列表中检测到物理机网络不稳定且网络不稳定持续时间达到预设时间，则向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机；及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。

优选的，所述物理机故障分类处理装置720还可以进一步包括确定模块727，用于在所述物理机故障信息列表中匹配所述集群内的所有物理机，将没有匹配成功的物理机确定为健康物理机。

需要说明的是，所述物理机故障修复装置710以及物理机故障分类处理装置720的具体结构请参见前述实施例的详细说明，此处不再赘述。

需要说明的是，在本申请另一个实施例中，虚拟机恢复系统中的物理机故障分类处理装置720、物理机故障探测模块750、物理机故障收集模块760均为部署在虚拟化集群系统700以外的物理机上的软件模块，其可以各自独立部署在不同的物理机上，也可以合并部署在同一台物理机上。此外，物理机故障信息存储中心730是部署在虚拟化集群系统700以外的一套数据库系统。安全攻击防护中心740可以直接采用现有的安全攻击防护系统。本申请实施例对此不做限制。

本申请实施例，具备以下优点：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd@rom、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd@rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种应用于虚拟化集群系统的物理机故障修复方法、装置和集群物理机故障分类处理方法、装置及虚拟机恢复方法、系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均可有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张文
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种广告投放故障的修复方法及装置与流程
上一篇：分层多核处理器核间可靠通信方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。