一种云平台故障探测方法及装置与流程

文档序号:11147705阅读:559来源:国知局
一种云平台故障探测方法及装置与制造工艺

本发明涉及云计算技术领域,特别是涉及一种云平台故障探测方法及装置。



背景技术:

随着云计算技术的快速发展,对计算资源、存储资源和网络资源统一管理和编排的技术发展的越来越成熟,使得云平台中基于硬件资源而存在的计算、存储、网络和虚拟化操作系统等各种元素紧密地结合在一起,且规模越来越大。

在云平台中,如何及时发现硬件资源存在的故障,是目前本领域技术人员亟需解决的技术问题。



技术实现要素:

本发明的目的是提供一种云平台故障探测方法及装置,以对云平台中硬件资源进行故障探测,及时发现故障,为云平台的正常运行提供有力保障,降低云平台的维护成本,提高数据中心的可用性。

为解决上述技术问题,本发明提供如下技术方案:

一种云平台故障探测方法,包括:

在每个探测周期内,在达到设定的故障探测触发条件时,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法;

针对每个硬件资源,根据该硬件资源对应的探测方式,启动探测进程或者探测虚拟机;

通过所述探测进程或者所述探测虚拟机使用该硬件资源对应的探测方法对该硬件资源进行故障探测;

根据探测结果,确定该硬件资源是否存在故障。

在本发明的一种具体实施方式中,所述在达到设定的故障探测触发条件时,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法,包括:

在达到设定的目标探测时间点时,根据预设的覆盖策略,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法,所述目标探测时间点为所述探测周期包含的一个或多个探测时间点中的任意一个探测时间点,依据在一个探测周期内,完成对云平台中所有硬件资源的故障探测的原则设定所述覆盖策略。

在本发明的一种具体实施方式中,所述在达到设定的故障探测触发条件时,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法,包括:

在捕获到云平台的异常事件时,对所述异常事件进行分析,预测所述异常事件对应的故障类型;

根据所述故障类型,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法。

在本发明的一种具体实施方式中,还包括:

在每个探测周期结束时,注销所述探测进程或者所述探测虚拟机。

在本发明的一种具体实施方式中,在确定该硬件资源存在故障时,还包括:

将故障上报给云平台的设定系统。

一种云平台故障探测装置,包括:

探测相关确定模块,用于在每个探测周期内,在达到设定的故障探测触发条件时,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法;

启动模块,用于针对每个硬件资源,根据该硬件资源对应的探测方式,启动探测进程或者探测虚拟机;

故障探测模块,用于通过所述探测进程或者所述探测虚拟机使用该硬件资源对应的探测方法对该硬件资源进行故障探测;

故障确定模块,用于根据探测结果,确定该硬件资源是否存在故障。

在本发明的一种具体实施方式中,所述探测相关确定模块,具体用于:

在达到设定的目标探测时间点时,根据预设的覆盖策略,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法,所述目标探测时间点为所述探测周期包含的一个或多个探测时间点中的任意一个探测时间点,依据在一个探测周期内,完成对云平台中所有硬件资源的故障探测的原则设定所述覆盖策略。

在本发明的一种具体实施方式中,所述探测相关确定模块,具体用于:

在捕获到云平台的异常事件时,对所述异常事件进行分析,预测所述异常事件对应的故障类型;

根据所述故障类型,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法。

在本发明的一种具体实施方式中,还包括:

注销模块,用于在每个探测周期结束时,注销所述探测进程或者所述探测虚拟机。

在本发明的一种具体实施方式中,还包括:

故障上报模块,用于在确定该硬件资源存在故障时,将故障上报给云平台的设定系统。

应用本发明实施例所提供的技术方案,在每个探测周期内,在达到设定的故障探测触发条件时,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法,针对每个硬件资源,根据该硬件资源对应的探测方式,启动探测进程或者探测虚拟机,通过探测进程或者探测虚拟机使用该硬件资源对应的探测方法对该硬件资源进行故障探测,确定该硬件资源是否存在故障。这样,可以对云平台中硬件资源进行故障探测,及时发现故障,为云平台的正常运行提供有力保障,降低了云平台的维护成本,提高了数据中心的可用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种云平台故障探测方法的实施流程图;

图2为本发明实施例中云平台硬件资源部署结构示意图;

图3为本发明实施例中一种云平台故障探测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1所示,为本发明实施例所提供的一种云平台故障探测方法的实施流程图,该方法可以包括以下步骤:

S110:在每个探测周期内,在达到设定的故障探测触发条件时,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法。

云平台中可以包含多个硬件资源,为保证云平台的正常运行,可以按照探测周期对云平台中的硬件资源进行故障探测,以及时发现存在的故障,对故障进行处理。

如图2所示,在云平台中,服务器一般会有一条或多条链路上行接入到网络设备,如以太网交换机设备,存储资源可以作为服务器的硬盘通过服务器的上行链路接入到网络设备,也可以作为独立的存储服务器通过多条链路接入到网络设备。服务器或者存储资源接入的网络设备到其上行的网络设备可以有多条路径,这些网络设备可以是盒式设备或机架式设备,机架式设备可以有多个业务板通过多个网络接口连接服务器或者互联网。

在实际应用中,可以根据实际需要设定探测周期,比如一周或者一天等。

在每个探测周期内,在达到设定的故障探测触发条件时,可以确定当前待探测的一个或多个硬件资源,即确定出需要探测的硬件资源的范围,包括服务器网络和存储等应用程序会使用的硬件资源。同时,需要确定每个硬件资源对应的探测方式和探测方法。具体的哪类硬件资源对应哪种探测方式和哪种探测方法,可以根据实际情况预先设定。

在本发明实施例中,探测方式可以是探测进程或者探测虚拟机。探测方法可以为:启动探测用网页服务器(web server)和网页客户端(web client)、启动探测用数据库服务器(server)和客户端(client)、启动通用的网络测试工具、启动通用的硬盘测试工具。

在本发明的一种具体实施方式中,在达到设定的目标探测时间点时,根据预设的覆盖策略,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法。目标探测时间点为探测周期包含的一个或多个探测时间点中的任意一个探测时间点,依据在一个探测周期内,完成对云平台中所有硬件资源的故障探测的原则设定覆盖策略。

在本发明实施例中,一个探测周期可以包含一个或多个探测时间点,目标探测时间点为其中的任意一个探测时间点。在达到目标探测时间点时,启动对云平台的硬件资源的故障探测。

根据云平台包含的硬件资源的实际情况,可以设定覆盖策略,设定的覆盖策略依据在一个探测周期内,完成对云平台中所有硬件资源的故障探测的原则。即预先设定一个探测周期中在每个探测时间点需探测的硬件资源,及每个硬件资源的探测方式和探测方法,使得在一个探测周期内可以完成一次对云平台中所有硬件资源的故障探测。具体哪个硬件资源需要使用哪种探测方式和探测方法,可以随机确定,或者按照一定的分配原则进行分配,比如平均分配原则,或者权重分配原则,或者轮流使用各探测方式和各探测方法。

在本发明的另一种具体实施方式中,在捕获到云平台的异常事件时,对异常事件进行分析,预测异常事件对应的故障类型,根据故障类型,确定当前待探测的一个或多个硬件资源,及每个硬件资源的探测方式和探测方法。

在一个探测周期内,如果捕获到云平台的异常事件,如温度异常告警事件、湿度异常告警事件、震动异常告警事件或者硬件告警事件等,则可以认为达到了设定的故障探测触发条件。对该异常事件进行分析,可以预测该异常事件可能造成的故障,及异常事件对应的故障类型,如资源配置故障类型、器件物理损伤类型、环境类型等。根据故障类型,可以确定当前待探测的一个或多个硬件资源,及每个硬件资源的探测方式和探测方法。比如,异常事件与硬盘相关,故障类型为资源配置故障类型,则可以确定当前待探测的硬件资源为硬盘,确定的对硬盘的探测方式为,探测进程,确定的对硬盘的探测方法为:启动通用的硬盘测试工具。

可以预先设定异常事件与故障类型的对应关系,及每个故障类型对应的硬件资源范围、探测方式和探测方法。

步骤S120:针对每个硬件资源,根据该硬件资源对应的探测方式,启动探测进程或者探测虚拟机。

根据步骤S110可以确定针对当前待探测的每个硬件资源所对应的探测方式为探测进程或者探测虚拟机。针对每个硬件资源,根据该硬件资源对应的探测方式,启动探测进程或者探测虚拟机。

S130:通过探测进程或者探测虚拟机使用该硬件资源对应的探测方法对该硬件资源进行故障探测。

根据步骤S110可以确定针对当前待探测的每个硬件资源所对应的探测方法。通过探测进程或者探测虚拟机使用该硬件资源对应的探测方法对该硬件资源进行故障探测。如,模拟应用程序在物理机上启动探测进程或者启动探测虚拟机,在探测进程或探测虚拟机上启动探测用的网页服务器(web server)和网页客户端(web client),启动探测用的数据库服务器(sever)和客户端(client),在保证不影响正常应用运行情况下短时间启动标准的网络或硬盘检测的测试程序测试网络的丢包率和硬盘的IPOS(IP Over SDH,以SDH网络作为IP数据网络的物理传输网络)。

S140:根据探测结果,确定该硬件资源是否存在故障。

针对当前待探测的每个硬件资源,启动探测进程或者探测虚拟机后,通过探测进程或者探测虚拟机使用该硬件资源对应的探测方法对该硬件资源进行故障探测,根据探测结果,可以确定该硬件资源是否存在故障。

在确定该硬件资源存在故障时,可以将故障上报给云平台的设定系统,以由设定系统进行后续处理。如发送给故障告警系统,故障告警系统将故障输出给运维人员,以使运维人员对故障进行及时处理,或者发送给故障修复系统,以使故障修复系统对故障进行智能修复。

在本发明的一个实施例中,该方法还可以包括以下步骤:

在每个探测周期结束时,注销探测进程或者探测虚拟机。

在每个探测周期结束时,注销在该探测周期中启动的探测进程或者探测虚拟机,以及时释放资源,进行资源回收,避免云平台的资源浪费。

应用本发明实施例所提供的方法,在每个探测周期内,在达到设定的故障探测触发条件时,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法,针对每个硬件资源,根据该硬件资源对应的探测方式,启动探测进程或者探测虚拟机,通过探测进程或者探测虚拟机使用该硬件资源对应的探测方法对该硬件资源进行故障探测,确定该硬件资源是否存在故障。这样,可以对云平台中硬件资源进行故障探测,及时发现故障,为云平台的正常运行提供有力保障,降低了云平台的维护成本,提高了数据中心的可用性。

相应于上面的方法实施例,本发明实施例还提供了一种云平台故障探测装置,下文描述的一种云平台故障探测装置与上文描述的一种云平台故障探测方法可相互对应参照。

参见图3所示,该装置包括以下模块:

探测相关确定模块310,用于在每个探测周期内,在达到设定的故障探测触发条件时,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法;

启动模块320,用于针对每个硬件资源,根据该硬件资源对应的探测方式,启动探测进程或者探测虚拟机;

故障探测模块330,用于通过探测进程或者探测虚拟机使用该硬件资源对应的探测方法对该硬件资源进行故障探测;

故障确定模块340,用于根据探测结果,确定该硬件资源是否存在故障。

应用本发明实施例所提供的装置,在每个探测周期内,在达到设定的故障探测触发条件时,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法,针对每个硬件资源,根据该硬件资源对应的探测方式,启动探测进程或者探测虚拟机,通过探测进程或者探测虚拟机使用该硬件资源对应的探测方法对该硬件资源进行故障探测,确定该硬件资源是否存在故障。这样,可以对云平台中硬件资源进行故障探测,及时发现故障,为云平台的正常运行提供有力保障,降低了云平台的维护成本,提高了数据中心的可用性。

在本发明的一种具体实施方式中,探测相关确定模块310,具体用于:

在达到设定的目标探测时间点时,根据预设的覆盖策略,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法,目标探测时间点为探测周期包含的一个或多个探测时间点中的任意一个探测时间点,依据在一个探测周期内,完成对云平台中所有硬件资源的故障探测的原则设定覆盖策略。

在本发明的一种具体实施方式中,探测相关确定模块310,具体用于:

在捕获到云平台的异常事件时,对异常事件进行分析,预测异常事件对应的故障类型;

根据故障类型,确定当前待探测的一个或多个硬件资源,及每个硬件资源对应的探测方式和探测方法。

在本发明的一种具体实施方式中,还包括:

注销模块,用于在每个探测周期结束时,注销探测进程或者探测虚拟机。

在本发明的一种具体实施方式中,还包括:

故障上报模块,用于在确定该硬件资源存在故障时,将故障上报给云平台的设定系统。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1