一种故障定位方法及装置与流程

文档序号:16671742发布日期:2019-01-18 23:37阅读:144来源:国知局
一种故障定位方法及装置与流程

本发明涉及通信技术领域,特别是涉及一种故障定位方法及装置。



背景技术:

随着网络用户规模的不断增大,服务器需要承载的业务也越来越多,主流的大规模服务提供商通常采用分布式服务架构,通过部署在各个区域的服务器就近为用户服务,若服务器发生故障,则需要发现故障以进一步解决故障。

现有技术中,在收到服务器异常报障后,通常需要运维人员查看大量的图标、系统日志等,才能发现故障所在,发现故障的难度极大、效率极低。



技术实现要素:

鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种故障定位方法及装置。

根据本发明的第一方面,提供了一种故障定位方法,所述方法包括:

获取第一服务器在第一预设时间范围内的多个慢速比;

根据所述多个慢速比,确定所述第一服务器的服务质量等级;

在所述服务质量等级满足预设条件的情况下,确定所述第一服务器的各预设类别与所述第一服务器的服务质量的相关系数;

根据所述相关系数,定位所述第一服务器的第一故障类别。

根据本发明的第二方面,提供了一种故障定位装置,所述装置包括:

慢速比获取模块,用于获取第一服务器在第一预设时间范围内的多个慢速比;

服务质量等级确定模块,用于根据所述多个慢速比,确定所述第一服务器的服务质量等级;

相关系数确定模块,用于在所述服务质量等级满足预设条件的情况下,确定所述第一服务器的各预设类别与所述第一服务器的服务质量的相关系数;

第一故障类别定位模块,用于根据所述相关系数,定位所述第一服务器的第一故障类别。

本发明实施例包括以下优点:本发明实施例可以自动定位服务器的故障类别,大大提升了定位故障的效率和降低了运维人员的工作难度。具体来说,首先获取第一服务器在第一预设时间范围内的多个慢速比,然后根据多个慢速比确定服务器的服务质量等级,在服务质量等级满足预设条件的情况下,确定第一服务器的各预设类别与第一服务器的服务质量的相关系数,根据相关系数即可知道各预设类别对第一服务器服务质量的影响,从而定位到第一服务器的第一故障类别。通过本发明实施例可以自动定位到第一服务器的第一故障类别,运维人员只需要对定位到的故障进行处理,而不需要耗费大量的时间精力发现故障,因此大大提升了定位故障的效率和降低了运维人员的工作难度。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1是本发明实施例提供的一种故障定位方法的流程图;

图2是本发明实施例提供的一种故障定位方法的具体流程图;

图3是本发明实施例提供的一种故障定位装置的框图;

图4是本发明实施例提供的一种故障定位装置的具体框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

应当理解,此处所描述的具体实施例仅用以解释本发明,仅仅是本发明一部分实施例,而不是全部的实施例,并不用于限定本发明。

实施例一

参照图1,示出了一种故障定位方法的流程图。

可以理解,本发明实施例可以应用于服务器端,该服务器端可以是web(worldwideweb,万维网)服务器,也可以是其他形式的服务器,本发明实施例对此不做具体限制。

具体应用中,服务器可以在夜间用户访问量较少的情况下,对故障进行主动定位,以提升处理效率并降低服务器白天运行时的负载;服务器也可以在任意时间对故障进行主动定位,本发明实施例对进行本发明的故障定位方法的具体实施时机不作限制。

该方法具体可以包括如下步骤:

步骤101:获取第一服务器在第一预设时间范围内的多个慢速比。

本发明实施例中,第一预设时间范围可以是一天、两天等任意时间范围,具体根据实际的应用场景确定,本发明实施例对第一预设时间范围的具体值不作限定。

本发明实施例中,慢速比可以用于标识第一服务器的服务质量。

具体应用中,当用户访问第一服务器时,会记录一条用户访问日志,用户访问日志可以包括:用户ip地址、请求uri(uniformresourceidentifier,统一资源标识符)、下载速度等信息。

本发明实施例中,慢速比优选地可以定义为:第二预设时间范围内,第二请求数量与第一请求数量的比值;所述第一请求数量包括:所述第一服务器在所述第二预设时间范围内接收到的请求的数量;所述第二请求数量包括,在所述第二预设时间范围内,所述第一服务器响应于所述接收到的请求进行数据传输时,传输速度小于预设阈值的请求的数量。

具体应用中,第二预设时间范围可以是小于第一预设时间范围的值,使得在第一预设时间范围内可以获取多个慢速比。具体地,第二预设时间范围可以是一分钟、十分钟等,本发明实施例对预设时间范围不做具体限定;预设阈值也可以根据实际应用中,第一服务器提供服务的用户请求规模以及所提供服务的质量要求等确定,本发明实施例对预设阈值也不做具体限定。

举例来说,可以抓取一分钟内第一服务器最新的1000行用户访问日志,过滤掉非正常请求对应的用户访问日志,非正常请求具体可以是用户访问日志中的下载文件大小为0、状态码异常等对应的请求,在过滤后的用户访问日志中,统计下载速度小于200kb/s的条数,将下载速度小于200kb/s的条数除以过滤后的用户访问日志条数,就得到了该一分钟对应的第一服务器的慢速比。

步骤102:根据所述多个慢速比,确定所述第一服务器的服务质量等级。

具体应用中,可以预先设定第一服务器的服务质量等级包括:服务存在问题极严重、服务存在问题严重、服务存在问题较严重、服务存在问题一般等。

具体应用中,根据多个慢速比确定第一服务器的服务质量等级可以是,预先设定服务存在问题极严重、服务存在问题严重、服务存在问题较严重、服务存在问题一般等对应的慢速比范围,然后可以将多个慢速比求平均值后,匹配相应的慢速比范围,确定出第一服务器的服务质量等级。

具体应用中,根据多个慢速比确定第一服务器的服务质量等级还可以是,按照根据实际应用场景设定的算法对多个慢速比计算后,根据计算结果,确定出第一服务器的服务质量等级;本发明实施例对确定第一服务器的服务质量等级的具体方式不做限定。

步骤103:在所述服务质量等级满足预设条件的情况下,确定所述第一服务器的各预设类别与所述第一服务器的服务质量的相关系数。

本发明实施例中,预设条件可以是服务质量等级为:服务存在问题极严重、服务存在问题严重、服务存在问题较严重的任意一种。

当服务质量等级为服务存在问题极严重、服务存在问题严重、服务存在问题较严重的任意一种时,可以认为第一服务器中可能存在故障,因此,确定第一服务器的各预设类别与第一服务器的服务质量的相关系数,以进一步定位第一服务器中具体哪个预设类别存在故障。

作为本发明实施例的一种优选方案,所述预设类别包括:cpu、内存、磁盘、网络和其他;所述确定所述第一服务器的各预设类别与所述第一服务器的服务质量的相关系数的步骤,包括:

子步骤a1:获取与所述第一服务器对应的基础监控数据。

子步骤a2:将所述基础监控数据按照所述预设类别聚合,得到多个类别指标数据序列。

子步骤a3:根据所述多个慢速比与所述多个类别指标数据序列,确定所述预设类别与所述第一服务器的服务质量的相关系数。

本发明实施例中,基础监控数据可以用于反映第一服务器的具体运行数据,具体应用中,可以获取所述第一预设时间范围内第一服务器对应的基础监控数据,即,获取的基础监控数据可以与获取的多个慢速比对应有相同的时间段,例如,获取同一天、或同一时间段内的基础监控数据和多个慢速比。

本发明实施例中,基础监控数据通常数量较大、种类繁多,导致对基础监控数据分析时难度较大,因此,可以将基础监控数据按照预设类别进行聚合,从而减低分析复杂度。

具体应用中,预设类别可以根据第一服务器运行时的依靠的设备确定,例如,预设类别可以包括:cpu、内存、磁盘、网络、其他,则基础监控数据可以被分类聚合为:cpu指标数据序列、内存指标数据序列、磁盘指标数据序列、网络指标数据序列、其他指标数据序列。可以理解,本领域技术人员也可以根据实际应用场景,确定预设类别的具体形式。

本发明实施例中,一个类别指标数据序列对应一个具体的预设类别,因此,可以分别将各个类别指标数据序列与多个慢速比作为相关性算法的参数,计算得到各具体预设类别与第一服务器服务质量的相关系数。

具体应用中,相关性算法具体可以是:肯德尔相关系数算法,斯皮尔曼相关系数算法、皮尔森相关系数算法等,本发明实施例对具体的相关性算法不作限定。

在一种具体实现形式中,以采用皮尔森相关系数算法计算cpu的类别数据序列与所述多个慢速比组成的慢速比数据序列的相关系数ρ为例,皮尔森相关系数的计算方式如下:

其中,xi表示cpu的类别数据序列中的类别数据,yi表示慢速比数据序列的慢速比,i为自然数,表示cpu的类别数据序列中的类别数据的均值,表示慢速比均值,即:

在具体应用中,cpu的类别数据序列还可以根据cpu类别下的子类别进一步聚合为多个子类别序列,子类别具体可以是“cpu等待io时间比例”“cpu每个核心的负载”“软中断占用的cpu比例”“用户程序占用的cpu比例”“系统应用占用的cpu比例”等,可以通过上述计算相关系数的方法计算出各子类别数据序列与所述慢速比数据序列的子类别相关系数后,将子类别相关系数中,数值最大的子类别相关系数确定为预设类别cpu与第一服务器的服务质量的相关系数。可以理解,本领域技术人员可以根据实际应用场景,采用其他方式确定预设类别与第一服务器的服务质量的相关系数,本发明实施例对确定相关系数不作具体限定。

具体应用中,基础监控数据对应的可以是第一服务器应用层的信息数据,使得本发明实施例可以从应用层的服务质量定义故障,相较于现有技术的在网络层或系统层查找系统故障的方式,本发明实施例的应用层信息数据能更加直观的反映故障所在,能有效提升定义故障的准确性和时效性。

步骤104:根据所述相关系数,定位所述第一服务器的第一故障类别。

本发明实施例中,得到各预设类别与第一服务器的服务质量的相关系数后,可以定位到与服务质量相关系数较高的预设类别为第一服务器可能故障的第一故障类别,实现了主动定位故障,大大减少了运维人员排除故障的难度。

具体应用中,可以设定相关系数阈值,若其中一项或几项预设类别与第一服务器服务质量的相关系数高于相关系数阈值,可以认为第一服务器的服务质量的瓶颈在于该项预设类别,可以认为该预设类别为第一故障类别。

综上所述,本发明实施例可以自动定位服务器的故障类别,大大提升了定位故障的效率和降低了运维人员的工作难度。具体来说,首先获取第一服务器在第一预设时间范围内的多个慢速比,然后根据多个慢速比确定服务器的服务质量等级,在服务质量等级满足预设条件的情况下,确定第一服务器的各预设类别与第一服务器的服务质量的相关系数,根据相关系数即可知道各预设类别对第一服务器服务质量的影响,从而定位到第一服务器的第一故障类别。通过本发明实施例可以自动定位到第一服务器的第一故障类别,运维人员只需要对定位到的故障进行处理,而不需要耗费大量的时间精力发现故障,因此大大提升了定位故障的效率和降低了运维人员的工作难度。

实施例二

参照图2,示出了一种故障定位方法的具体流程图,具体可以包括如下步骤:

步骤201:获取第一服务器在第一预设时间范围内的多个慢速比。

步骤202:根据所述多个慢速比,确定所述第一服务器的服务质量等级。

作为本发明实施例的一种优选方案,所述服务质量等级包括第一等级、第二等级、第三等级;所述多个慢速比包括:中位慢速比、高位慢速比;所述中位慢速比为:在所述多个慢速比按数值排序的情况下,位于中间位的慢速比;所述高位慢速比为:在所述多个慢速比按数值排序的情况下,位于预设高位的慢速比;

所述第一等级包括:所述中位慢速比大于第一预设阈值,且,所述高位慢速比与所述中位慢速比的比值大于第二预设阈值;

所述第二等级包括:所述中位慢速比大于所述第一预设阈值;

或,

所述高位慢速比与所述中位慢速比的比值大于所述第二预设阈值;

或,

所述中位慢速比大于第三预设阈值,且,所述高位慢速比与所述中位慢速比的比值大于第四预设阈值;

所述第三等级包括:所述中位慢速比大于所述第三预设阈值,或,所述高位慢速比与所述中位慢速比的比值大于所述第四预设阈值。

本发明实施例中,第一等级可以对应为第一服务器的服务存在问题极严重、第二等级可以对应为第一服务器的服务存在问题严重、第三等级可以对应为第一服务器的服务存在问题较严重,除去第一等级、第二等级、第三等级之外的情况,可以认为第一服务器的服务不存在问题。

具体应用中,假设获取到100个慢速比,将100个慢速比按照数值由小到大排序后,可以将位于第50位的慢速比和第51位的慢速比求平均值,作为中位慢速比;将处于第90至95位的任意一个慢速比作为高位慢速比,以排除可能出现的不正常的、过高的慢速比对服务等级的影响;相应的,如果需要使用低位慢速比,可以将处于第5至10位的任意一个慢速比作为低位慢速比。

具体应用中,第一预设阈值、第二预设阈值、第三预设阈值、第四预设阈值的具体值可以由本来领域技术人员根据实际的应用场景进行确定。

举例来说,可以设定第一预设阈值为10%、第二预设阈值为4、第三预设阈值为6%、第四预设阈值为2.5。则,第一等级为:中位慢速比大于10%,且,高位慢速比与低位慢速比的比值大于4。第二等级为:中位慢速比大于10%;或,高位慢速比与低位慢速比的比值大于4;或,中位慢速比大于6%,且,高位慢速比与低位慢速比的比值大于2.5。第三等级为:中位慢速比大于6%;或,高位慢速比与低位慢速比的比值大于2.5。

步骤203:在所述服务质量等级满足预设条件的情况下,确定所述第一服务器的各预设类别与所述第一服务器的服务质量的相关系数。

作为本发明实施例的一种优选方式,所述在所述服务质量等级满足预设条件的情况下,确定所述第一服务器的各预设类别与所述慢速比的相关系数的步骤,包括:

在所述服务质量等级为所述第一等级、所述第二等级及所述第三等级的至少一种的情况下,确定所述第一服务器的各预设类别与所述慢速比的相关系数。

本发明实施例中,当服务质量等级为第一等级、第二等级、第三等级的任意一种时,可以认为第一服务器中可能存在故障,因此,确定第一服务器的各预设类别与第一服务器的服务质量的相关系数,以进一步定位第一服务器中具体哪个预设类别存在故障。

步骤204:根据所述相关系数,定位所述第一服务器的第一故障类别。

步骤205:确定所述至少一个第二服务器对应于所述预设类别的至少一个第二故障类别;其中,所述第一服务器处于第一网络数据中心中,所述第一网络数据中心还包括:至少一个第二服务器。

本发明实施例中,通过步骤205和步骤210可以进一步定位出第一服务器所在的第一网络数据中心中可能存在的故障。

本发明实施例中,idc(internetdatacenter,网络数据中心)中通常布设有多台服务器,以第一网络中心中布设有第一服务器与至少一个第二服务器为例,可以通过第一服务器的第一故障类别和至少一个第二服务器各自对应的第二故障类别,确定出第一故障类别和第二故障类别在网络数据中心的全部服务器中占据的比例,进而确定出第一网络中心中可能存在的故障。

具体应用中,第二服务器中的预设类别与第一服务器的预设类别保持一致,可以为:cpu、内存、磁盘、网络、其他;确定至少一个第二服务器对应于所述预设类别的至少一个第二故障类别的方式,与确定第一服务器对应于预设类别的方式相似,在此不再赘述。

步骤206:确定所述第一故障类别对应的服务器的第一个数。

步骤207:分别确定所述至少一个第二故障类别对应的服务器的至少一个第二个数。

步骤208:根据所述第一个数、所述至少一个第二个数,分别确定所述第一故障类别在所述第一网络数据中心的第一占比,及所述至少一个第二故障类别在所述第一网络数据中心的至少一个第二占比。

步骤209:若所述第一占比,和/或,所述至少一个第二占比,高于第六预设阈值,确定所述第一网络数据中心的第三故障类别。

步骤210:若所述第一占比,和/或,所述至少一个第二占比,低于第七预设阈值,确定所述第一网络数据中心的故障服务器。

本发明实施例中,第一故障类别、至少一个第二故障类别可以是预设类别:cpu、内存、磁盘、网络、其他的一种或几种。

举例来说,若第一网络数据中心中包括1个第一服务器,9个第二服务器,经计算,第一服务器的第一故障类别为cpu,9个第二服务器中对应的第二故障类别分别为:cpu、内存、磁盘、网络、cpu、内存、cpu、网络、cpu;则可以得出,cpu故障的服务器个数是5、内存故障的服务器个数是2、磁盘故障的服务器个数是1、网络故障的服务器个数是2;进而得出,cpu故障的服务器在网络数据中心的占比是50%,内存故障的服务器在网络数据中心的占比是20%,磁盘故障的服务器在网络数据中心的占比是10%,网络故障的服务器在网络数据中心的占比是20%;假设第六预设阈值是40%,第七预设阈值是15%,那么可以得出cpu故障的服务器在网络数据中心的占比大于第六预设阈值,可以说明第一网络数据中心的服务质量的瓶颈在于cpu故障,该第一网络数据中心的第三类别故障为cpu故障,因此,从长期来看,如果要改善第一网络中心网络数据中心的服务质量,可以通过提升cpu的性能等实现;且,磁盘故障的服务器在网络数据中心的占比小于第七预设阈值,可以说明磁盘故障的服务器与网络数据中心中大部分的服务器相比,表现异常,该第一网络数据中心的故障服务器为磁盘故障对应的服务器,在短期内,可以对磁盘故障的服务器进行重点分析和改造,排除磁盘故障,以提升第一网络数据中心的服务质量。

本发明实施例中,可以在网络数据中心的层面进行故障定位,并根据故障的具体情况确定对网络数据中心的长期改进方式和短期改进方式,大大降低了运维人员的工作难度。

作为本发明实施例的一种优选方式,还可以通过下述步骤b1至步骤b6,实现对预设网络的故障进行定位。

步骤b1:确定所述至少一个第二网络数据中心对应于所述预设类别的至少一个第四故障类别。

本发明实施例中,所述网络数据中心处于预设网络中,所述预设网络还包括:至少一个第二网络数据中心;本发明实施例中,通过步骤b1和步骤b6可以进一步定位出第一网络数据中心所在的预设网络中可能存在的故障。

本发明实施例中,第一网络数据中心可以为内容分发网络(contentdeliverynetwork,cdn)的节点,预设网络可以是内容分发网络,在内容分发网络中通常布设有多个网络数据中心。以预设网络中布设有第一网络数据中心与至少一个第二网络数据中心为例,可以通过第一网络数据中心的第三故障类别和至少一个第二网络数据中心各自对应的第四故障类别,确定出第三故障类别和第四故障类别在预设网络的全部网络数据中心中占据的比例,进而确定出预设网络中可能存在的故障。

具体应用中,第二网络数据中心中的预设类别与第一网络数据中心的预设类别保持一致,可以为:cpu、内存、磁盘、网络、其他;确定至少一个第二网络数据中心对应于所述预设类别的至少一个第四故障类别的方式,与确定第一网络数据中心对应于预设类别的第三故障类别的方式相似,在此不再赘述。

步骤b2:确定所述第三故障类别对应的网络数据中心的第三个数;

步骤b3:分别确定所述至少一个第四故障类别对应的网络数据中心的至少一个第四个数;

步骤b4:根据所述第三个数、所述至少一个第四个数,分别确定所述第一故障类别在所述预设网络的第三占比,及所述至少一个第二故障类别在所述预设网络的至少一个第四占比;

步骤b5:若所述第三占比,和/或,所述至少一个第四占比,高于第八预设阈值,确定所述预设网络的第五故障类别;

步骤b6:若所述第三占比,和/或,所述至少一个第四占比,低于第九预设阈值,确定所述预设网络的故障网络数据中心。

本发明实施例中,第三故障类别、至少一个第四故障类别可以是预设类别:cpu、内存、磁盘、网络、其他的一种或几种。

举例来说,若预设网络中包括1个第一网络数据中心,9个第二网络数据中心,经计算,第一网络数据中心的第三故障类别为cpu,9个第二网络数据中心中对应的第四故障类别分别为:cpu、内存、磁盘、网络、cpu、内存、cpu、网络、cpu;则可以得出,cpu故障的网络数据中心个数是5、内存故障的网络数据中心个数是2、磁盘故障的网络数据中心个数是1、网络故障的网络数据中心个数是2;进而得出,cpu故障的网络数据中心在预设网络的占比是50%,内存故障的网络数据中心在预设网络的占比是20%,磁盘故障的网络数据中心在预设网络的占比是10%,网络故障的网络数据中心在预设网络的占比是20%;假设第八预设阈值是40%,第九预设阈值是15%,那么可以得出cpu故障的网络数据中心在预设网络的占比大于第八预设阈值,可以说明预设网络的服务质量的瓶颈在于cpu故障,该预设网络的第五类别故障为cpu故障,因此,从长期来看,如果要改善预设网络的服务质量,可以通过提升cpu的性能等实现;且,磁盘故障的网络数据中心在预设网络的占比小于第九预设阈值,可以说明磁盘故障的网络数据中心与预设网络中大部分的网络数据中心相比,表现异常,该预设网络的故障网络数据中心为磁盘故障对应的网络数据中心,在短期内,可以对磁盘故障的网络数据中心进行重点分析,排除磁盘故障,以提升预设网络的服务质量。

本发明实施例中,可以在预设网络的层面进行故障定位,并根据故障的具体情况确定对预设网络的长期改进方式和短期改进方式,大大降低了运维人员的工作难度。

综上所述,本发明实施例可以自动定位服务器的故障类别,大大提升了定位故障的效率和降低了运维人员的工作难度。具体来说,首先获取第一服务器在第一预设时间范围内的多个慢速比,然后根据多个慢速比确定服务器的服务质量等级,在服务质量等级满足预设条件的情况下,确定第一服务器的各预设类别与第一服务器的服务质量的相关系数,根据相关系数即可知道各预设类别对第一服务器服务质量的影响,从而定位到第一服务器的第一故障类别。通过本发明实施例可以自动定位到第一服务器的第一故障类别,运维人员只需要对定位到的故障进行处理,而不需要耗费大量的时间精力发现故障,因此大大提升了定位故障的效率和降低了运维人员的工作难度。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

实施例三

参照图3,示出了一种故障定位装置的框图,该装置具体可以包括:

慢速比获取模块310,用于获取第一服务器在第一预设时间范围内的多个慢速比;

服务质量等级确定模块320,用于根据所述多个慢速比,确定所述第一服务器的服务质量等级;

相关系数确定模块330,用于在所述服务质量等级满足预设条件的情况下,确定所述第一服务器的各预设类别与所述第一服务器的服务质量的相关系数;

第一故障类别定位模块340,用于根据所述相关系数,定位所述第一服务器的第一故障类别。

优选地,参照图4,在图3的基础上,所述慢速比为:

第二预设时间范围内,第二请求数量与第一请求数量的比值;所述第一请求数量包括:所述第一服务器在所述第二预设时间范围内接收到的请求的数量;所述第二请求数量包括,在所述第二预设时间范围内,所述第一服务器响应于所述接收到的请求进行数据传输时,传输速度小于预设阈值的请求的数量。

所述服务质量等级包括第一等级、第二等级、第三等级;所述多个慢速比包括:中位慢速比、高位慢速比;所述中位慢速比为:在所述多个慢速比按数值排序的情况下,位于中间位的慢速比;所述高位慢速比为:在所述多个慢速比按数值排序的情况下,位于预设高位的慢速比;

所述第一等级包括:所述中位慢速比大于第一预设阈值,且,所述高位慢速比与所述中位慢速比的比值大于第二预设阈值;

所述第二等级包括:所述中位慢速比大于所述第一预设阈值;

或,

所述高位慢速比与所述中位慢速比的比值大于所述第二预设阈值;

或,

所述中位慢速比大于第三预设阈值,且,所述高位慢速比与所述中位慢速比的比值大于第四预设阈值;

所述第三等级包括:所述中位慢速比大于所述第三预设阈值,或,所述高位慢速比与所述中位慢速比的比值大于所述第四预设阈值;

所述在所述服务质量等级满足预设条件的情况下,确定所述第一服务器的各预设类别与所述慢速比的相关系数的步骤,包括:

在所述服务质量等级为所述第一等级、所述第二等级及所述第三等级的至少一种的情况下,确定所述第一服务器的各预设类别与所述慢速比的相关系数。

所述第一服务器处于第一网络数据中心中,所述第一网络数据中心还包括:至少一个第二服务器;所述装置还包括:

第二故障类别确定模块350,用于确定所述至少一个第二服务器对应于所述预设类别的至少一个第二故障类别;

第一个数确定模块360,用于确定所述第一故障类别对应的服务器的第一个数;

第二个数确定模块370,用于分别确定所述至少一个第二故障类别对应的服务器的至少一个第二个数;

第一占比确定模块380,用于根据所述第一个数、所述至少一个第二个数,分别确定所述第一故障类别在所述第一网络数据中心的第一占比,及所述至少一个第二故障类别在所述第一网络数据中心的至少一个第二占比;

第三故障类别确定模块390,用于若所述第一占比,和/或,所述至少一个第二占比,高于第六预设阈值,确定所述第一网络数据中心的第三故障类别;

故障服务器确定模块400,用于若所述第一占比,和/或,所述至少一个第二占比,低于第七预设阈值,确定所述第一网络数据中心的故障服务器。

优选地,所述网络数据中心处于预设网络中,所述预设网络还包括:至少一个第二网络数据中心;所述装置还包括:

第四故障类别确定模块410,用于确定所述至少一个第二网络数据中心对应于所述预设类别的至少一个第四故障类别;

第三个数确定模块420,用于确定所述第三故障类别对应的网络数据中心的第三个数;

第四个数确定模块430,用于分别确定所述至少一个第四故障类别对应的网络数据中心的至少一个第四个数;

第二占比确定模块440,用于根据所述第三个数、所述至少一个第四个数,分别确定所述第一故障类别在所述预设网络的第三占比,及所述至少一个第二故障类别在所述预设网络的至少一个第四占比;

第五故障类别确定模块450,用于若所述第三占比,和/或,所述至少一个第四占比,高于第八预设阈值,确定所述预设网络的第五故障类别;

故障网络数据中心确定模块,用于若所述第三占比,和/或,所述至少一个第四占比,低于第九预设阈值,确定所述预设网络的故障网络数据中心。

优选地,所述预设类别包括:cpu、内存、磁盘、网络和其他;所述相关系数确定模块330包括:

获取子模块3301,用于获取与所述第一服务器对应的基础监控数据;

聚合子模块3302,用于将所述基础监控数据按照所述预设类别聚合,得到多个类别指标数据序列;

相关系数确定子模块3303,用于根据所述多个慢速比与所述多个类别指标数据序列,确定所述预设类别与所述第一服务器的服务质量的相关系数。

本发明实施例可以自动定位服务器的故障类别,大大提升了定位故障的效率和降低了运维人员的工作难度。具体来说,首先通过慢速比获取模块310获取第一服务器在第一预设时间范围内的多个慢速比,然后通过服务质量等级确定模块320根据多个慢速比确定服务器的服务质量等级,在服务质量等级满足预设条件的情况下,通过相关系数确定模块330确定第一服务器的各预设类别与第一服务器的服务质量的相关系数,根据相关系数即可知道各预设类别对第一服务器服务质量的影响,从而通过第一故障类别定位模块340定位到第一服务器的第一故障类别。通过本发明实施例可以自动定位到第一服务器的第一故障类别,运维人员只需要对定位到的故障进行处理,而不需要耗费大量的时间精力发现故障,因此大大提升了定位故障的效率和降低了运维人员的工作难度。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中,所述计算机设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitorymedia),如调制的数据信号和载波。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程故障定位终端设备的处理器以产生一个机器,使得通过计算机或其他可编程故障定位终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程故障定位终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程故障定位终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种故障定位方法和一种故障定位装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1