业务系统的健康度获得方法及系统的制作方法

文档序号:7860704阅读:331来源:国知局
专利名称:业务系统的健康度获得方法及系统的制作方法
技术领域
本发明涉及通信技术领域,尤其涉及一种业务系统的健康度获得方法及系统。
背景技术
系统健康度评估是用于对业务系统的健康程度进行评估的技术。对于一个由多台网络设备、多台主机和相关的软件关联起来组成的业务系统,各个设备会对业务系统的整体效果产生一定比例的影响。通过系统健康度评估,能够帮助运维管理人员全面了解业务系统的状态。当前主要采用基于应用的分析。这种分析方法是把一个业务应用看成为一个整体,通过直接关联系统资源与业务,所有的关联资源节点设置一个对应的权重系数,根据获取的各系统资源故障信息的返回值,对系统资源的健康度的值进行分析评定,再以对应的权重与系统资源的健康值进行计算,不断循环,直到所有关联的系统资源计算完成,然后合并为业务系统的健康度。但是,采用这种方法对业务系统的状态评估不够准确和全面。

发明内容
本发明提供一种业务系统的健康度获得方法及系统,以准确和全面的评估业务系统的状态。为实现本发明的目的,一方面,本发明提供了一种业务系统的健康度获得方法,所述业务系统承载至少一个业务应用,所述业务应用对应所述业务系统的至少一个服务设备,所述方法包括根据每个所述服务设备的处理性能信息,获得每个所述服务设备的健康度,所述处理性能信息包括以下信息中的一种或者多种组合CPU平均利用率,CPU平均负载,内存利用率和Ping时延;根据所述至少一个服务设备中部分所述服务设备或全部所述服务设备中每个所述服务设备的健康度和预先设置的每个所述服务设备的权重系数,获得每个所述业务应用的健康度;根据每个所述业务应用的健康度,或者根据每个所述业务应用的健康度和所述至少一个服务设备中除所述部分所述服务设备之外的其他所述服务设备的健康度,获得所述业务系统的健康度。另一方面,本发明还提供了一种业务系统的健康度获得系统,所述业务系统承载至少一个业务应用,所述业务应用对应所述业务系统的至少一个服务设备,所述系统包括第一处理模块,用于根据每个所述服务设备的处理性能信息,获得每个所述服务设备的健康度,所述处理性能信息包括以下信息中的一种或者多种组合CPU平均利用率,CPU平均负载,内存利用率和Ping时延;第二处理模块,用于根据所述至少一个服务设备中部分所述服务设备或全部所述服务设备中每个所述服务设备的健康度和预先设置的每个所述服务设备的权重系数,获得每个所述业务应用的健康度;第三处理模块,用于根据每个所述业务应用的健康度,或者根据每个所述业务应用的健康度和所述至少一个服务设备中除所述部分所述服务设备之外的其他所述服务设备的健康度,获得所述业务系统的健康度。本发明根据业务系统资源层、业务应用层、服务层和客户层的四层结构,以及业务系统中多个业务应用之间的服务设备交叉共享使用的情况,确定服务设备对业务应用、系统服务和客户的影响,以及业务应用对系统服务和客户的影响,根据服务设备的处理性能信息,获得每个服务设备的健康度,再根据服务设备的健康度,获得业务应用的健康度,最后根据业务应用的健康度或者根据业务应用和部分服务设备的健康度获得整个业务系统的健康度,而对整个业务系统的状态进行准确和全面的评估。


为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I为本发明的业务系统的健康度获得方法的实施例的流程图;图2为本发明的业务系统的健康度获得方法的又一实施例的流程图;图3为本发明的业务系统的健康度获得系统的实施例的结构示意图;图4为本发明的业务系统的健康度获得系统的又一实施例的结构示意图。
具体实施例方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。图I为本发明的业务系统的健康度获得方法的实施例的流程图,本实施例具体可适用于业务系统的健康度的获得,该业务系统承载至少一个业务应用,该业务应用对应该业务系统的至少一个服务设备,以软件和/或硬件的形式来实现,如图I所示,本实施例的业务系统的健康度获得方法的具体步骤如下Sll :根据每个服务设备的处理性能信息,获得每个该服务设备的健康度。该处理性能信息包括以下信息中的一种或者多种组合CPU平均利用率,CPU平均负载,内存利用率和Ping时延。本实施例的业务系统承载至少一个业务应用,每个业务应用对应该业务系统的至少一个服务设备。每个服务设备的处理性能信息,可以反映该服务设备的健康状态。该处理性能信息包括以下信息中的一种或者多种组合CPU (Central Processing Unit,中央处理器)平均利用率,CPU平均负载,内存利用率和Ping (Packet Internet Groper,因特网包探索器)时延。例如,一个服务设备的CPU平均负载达到90%以上,则该服务设备单从CPU平均负载这一处理性能信息来看,由于该服务设备平均负载过高,该服务设备将不适合提供新的服务或者是处理新的任务,甚至该服务设备处理当前任务的能力也将下降,那么可以确定该服务设备的健康状态不佳。本实施例则根据每个服务设备的处理性能信息,获得每个该服务设备的健康度,以获得整个业务系统的健康度。作为一种可实施的方式,还可以根据每个服务设备的处理性能信息、平均故障间隔时间(Mean Time Between Failure,以下简称MTBF)和平均故障修复时间(Mean TimeTo Restoration,以下简称MTTR),获得每个该服务设备的健康度。每个服务设备在运行过程中,可能有故障发生,因此在获得服务设备的健康度的过程中,可通过服务设备的处理性能信息、MTBF和MTTR共同衡量服务设备的健康度。MTBF,为设备在两次相邻故障间的平均工作时间,也就是设备在操作使用或测试期间的平均连续无故障时间,是衡量设备可靠性、稳定性的重要指标,属于国际行业标准。MTTR,为修复一次设备故障所需要的时间,即设备由故障状态转为工作状态时修理时间的平均值,是衡量一个设备可靠性的重要指标,它的值越小说明该设备的可靠性越高。可选的,在获取每个服务设备的处理性能信息之前,可以先对该服务设备进行可用性判断,即判断该服务设备是否可用,如果该服务设备可用,则获取该服务设备的处理性 能信息,并据此获得每个该服务设备的健康度;如果该服务设备不可用,则说明该服务设备正处于故障状态,或者由于未接入业务系统或者未上电或者其他原因而不能工作,那么该服务设备的健康度为O。S12:根据至少一个服务设备中部分服务设备或全部服务设备中每个服务设备的健康度和预先设置的每个服务设备的权重系数,获得每个业务应用的健康度。本实施例的每个业务应用对应业务系统的至少一个服务设备,同时,多个业务应用之间的服务设备可能有交叉共享使用的情况,即一个服务设备对应多个业务应用,则一个服务设备可以影响到至少一个业务应用、至少一项系统服务、至少一位使用者。本实施例中,根据每个业务应用对应的至少一个服务设备的健康度和该业务应用对应的服务设备的权重系数,获得每个业务应用的健康度。该权重系数为根据该服务设备对其对应的业务应用、系统服务以及对应业务应用和系统服务的使用者的影响而预先设置的。由于一个服务设备对不同业务应用、不同系统服务以及不同使用者的影响不同,该服务设备对该服务设备对应的业务应用的健康度评估的影响也不同。例如,一个服务设备直接影响业务系统所承载的核心业务应用,也是该业务系统提供的核心系统服务的关键服务设备,该服务设备的使用者主要是某公司的核心部门,那么该服务设备的权重系数将相对其他服务设备较大。S13:根据每个业务应用的健康度,或者根据每个业务应用的健康度和至少一个服务设备中除该部分服务设备之外的其他服务设备的健康度,获得该业务系统的健康度。本实施例的一种可实施场景是,每一个服务设备均有对应的业务应用,则根据前述步骤已经获得的每个业务应用的健康度,获得整个业务系统的健康度。具体的,可以通过累加每个业务应用的健康度与对应业务应用的权重系数的乘积,获得整个业务系统的健康度。业务应用的权重系数则是根据每一个业务应用对该业务系统所提供的至少一项系统服务以及该业务系统的至少一个使用者的影响程度预先设置的。本实施例的另一种可实施场景是,部分服务设备有对应的业务应用,其余部分服务设备虽然没有对应于业务应用,但是却对整个业务系统的健康状态有直接的影响,则根据前述步骤已经获得的每个业务应用的健康度,以及前述的其余部分服务设备的健康度,获得整个业务系统的健康度。具体的,可以通过累加每个业务应用的健康度与对应业务应用的权重系数的乘积和所述其余部分服务设备的健康度与该部分对应服务设备的权重系数的乘积,获得整个业务系统的健康度。业务应用的权重系数则是根据该业务应用对该业务系统所提供的至少一项系统服务以及该业务系统的至少一个使用者的影响程度预先设置的,所述其余部分服务设备的权重系数则是根据该部分服务设备对该业务系统的影响程度预先设置的。本实施例的技术方案,根据服务设备的处理性能信息,获得每个服务设备的健康度,再根据服务设备的健康度,获得业务应用的健康度,最后根据业务应用的健康度或者根据业务应用和部分服务设备的健康度获得整个业务系统的健康度,而对整个业务系统的状态进行准确和全面的评估。
图2为本发明的业务系统的健康度获得方法的又一实施例的流程图,如图2所示,本实施例的业务系统的健康度获得方法的具体步骤如下S21 :根据每个服务设备的处理性能信息,获得每个服务设备的繁忙度。业务系统的每个服务设备的处理性能信息,可以反映该服务设备的运行状态,根据每个服务设备的处理性能信息,即可获得每个服务设备的繁忙度,该繁忙度可用于表示业务系统的每个服务设备运行的繁忙程度或状态。本发明的处理性能信息包括以下信息中的一种或者多种组合=CPU平均利用率,CPU平均负载,内存利用率和Ping时延。例如,一个服务设备的Ping时延达到50ms,根据预设的Ping时延繁忙阈值38ms,则该服务设备为繁忙状态。再如,一个服务设备的内存利用率达到95%,根据预设的内存利用率过载阈值85%,则该服务设备为过载状态。根据每个服务设备的至少一个处理性能信息所示的繁忙状态,获得该每个服务设备的繁忙度。S22 :根据每个服务设备的繁忙度,获得每个服务设备的健康度。业务系统中的服务设备在运行中的繁忙程度或者状态,可反映出该服务设备的健康程度,本实施例中,根据每个服务设备的繁忙度,来获得每个服务设备的健康度。例如,月艮务设备的繁忙状态可以分为正常、繁忙和过载三种状态,可以认为当一个服务设备的繁忙状态为正常时,该服务设备为健康状态,即健康度高,而当该服务设备的繁忙状态为繁忙或者过载时,该服务设备为不健康状态,即健康度低。还可以将服务设备的繁忙状态分为空闲、正常、繁忙和过载四种状态,一个服务设备的繁忙状态为空闲或正常时,该服务设备为健康状态,即健康度高,而当该服务设备的繁忙状态为繁忙或者过载时,该服务设备为不健康状态,即健康度低。即根据每个服务设备的繁忙度,通过预设的规则,获得每个服务设备的健康度。一种可实施的方式,还可以根据每个服务设备的繁忙度、MTBF和MTTR,获得每个服务设备的健康度。每个服务设备在运行过程中,可能有故障发生,因此在获得服务设备的健康度的过程中,还可通过服务设备的繁忙度、MTBF和MTTR共同衡量服务设备的健康度。MTBF,为设备在两次相邻故障间的平均工作时间,也就是设备在操作使用或测试期间的平均连续无故障时间,是衡量设备可靠性、稳定性的重要指标,属于国际行业标准。MTTR,为修复一次设备故障所需要的时间,即设备由故障状态转为工作状态时修理时间的平均值,是衡量一个设备可靠性的重要指标,它的值越小说明该设备的可靠性越高。例如,用h表示业务系统中第i个服务设备的健康度,MTTRi表示业务系统中第i个服务设备的平均故障修复时间,MTBFi表示业务系统中第i个服务设备的平均故障间隔时间,Bi表示业务系统中第i个服务设备的繁忙度,kn、ki2和ki3为业务系统中第i个服务设备的健康度系数,根据MTTRiJTBFi和Bi对该业务系统中第i个服务设备的健康度的影响程度设定,kn+ki2+ki3 =1,则可以根据比=k^MTTRi+kjMTBFi+k^Bi,获得该业务系统中第i个服务设备的健康度。通过服务设备的处理性能信息,获得每个服务设备的繁忙度,再根据服务设备的繁忙度,获得服务设备的健康度,能够准确和全面的对服务设备的状态进行估评估。可选的,在获取每个服务设备的处理性能信息之前,可以先对该服务设备进行可用性判断,即判断该服务设备是否可用,如果该服务设备可用,则获取该服务设备的处理性能信息,并据此获得每个该服务设备的健康度;如果该服务设备不可用,则说明该服务设备正处于故障状态,或者由于未接入业务系统或者未上电或者其他原因而不能工作,那么该服务设备的健康度为O。S23:根据至少一个服务设备中部分服务设备或全部服务设备中每个服务设备的 健康度和预先设置的每个服务设备的权重系数,获得每个业务应用的健康度。本实施例的每个业务应用对应业务系统的至少一个服务设备,同时,多个业务应用之间的服务设备可能有交叉共享使用的情况,即一个服务设备对应多个业务应用,则一个服务设备可以影响到至少一个业务应用、至少一项系统服务、至少一位使用者。本实施例中,根据每个业务应用对应的至少一个服务设备的健康度和该业务应用对应的服务设备的权重系数,获得每个业务应用的健康度。该权重系数为根据该服务设备对其对应的业务应用、系统服务以及对应业务应用和系统服务的使用者的影响而预先设置的。由于一个服务设备对不同业务应用、不同系统服务以及不同使用者的影响不同,该服务设备对该服务设备对应的业务应用的健康度评估的影响也不同。例如,一个服务设备直接影响业务系统所承载的核心业务应用,也是该业务系统提供的核心系统服务的关键服务设备,该服务设备的使用者主要是某公司的核心部门,那么该服务设备的权重系数将相对其他服务设备较大。S24:根据每个业务应用的健康度,或者根据每个业务应用的健康度和所述至少一个服务设备中除该部分服务设备之外的其他服务设备的健康度,获得该业务系统的健康度。本实施例的一种可实施场景是,每一个服务设备均有对应的业务应用,则根据前述步骤已经获得的每个业务应用的健康度,获得整个业务系统的健康度。具体的,可以通过累加每个业务应用的健康度与对应业务应用的权重系数的乘积,获得整个业务系统的健康度。业务应用的权重系数则是根据每一个业务应用对该业务系统所提供的至少一项系统服务以及该业务系统的至少一个使用者的影响程度预先设置的。本实施例的另一种可实施场景是,部分服务设备有对应的业务应用,其余部分服务设备虽然没有对应于业务应用,但是却对整个业务系统的健康状态有直接的影响,则根据前述步骤已经获得的每个业务应用的健康度,以及前述的其余部分服务设备的健康度,获得整个业务系统的健康度。具体的,可以通过累加每个业务应用的健康度与对应业务应用的权重系数的乘积和所述其余部分服务设备的健康度与该部分对应服务设备的权重系数的乘积,获得整个业务系统的健康度。业务应用的权重系数则是根据该业务应用对该业务系统所提供的至少一项系统服务以及该业务系统的至少一个使用者的影响程度预先设置的,所述其余部分服务设备的权重系数则是根据该部分服务设备对该业务系统的影响程度预先设置的。本实施例的技术方案,根据服务设备的处理性能信息,获得每个服务设备的健康度,再根据服务设备的健康度,获得业务应用的健康度,最后根据业务应用的健康度或者根据业务应用和部分服务设备的健康度获得整个业务系统的健康度,而对整个业务系统的状态进行准确和全面的评估。可选的,在上述实施例的基础上,S21根据每个服务设备的处理性能信息,获得每个服务设备的繁忙度,具体包括以下步骤S211 :根据指示每个服务设备的至少两种工作状态中每个工作状态的处理性能信息的数目和每个工作状态对应的权重,获得每个服务设备的繁忙度。 业务系统中的服务设备至少存在两种工作状态不繁忙状态和繁忙状态,而处理信息则指示每个服务设备的工作状态。例如,设定处理信息中的CPU平均利用率阈值大于或等于70%,则指示该服务设备的工作状态为繁忙状态,小于70%,则指示该服务设备的工作状态为不繁忙状态。当然,服务设备的工作状态也可以分为正常、繁忙和过载三种状态,例如,Ping时延小于IOms,则指示该服务设备的工作状态为正常状态,Ping时延大于或者等于IOms并小于50ms,则指示该服务设备的工作状态为繁忙状态,Ping时延大于或者等于50ms,则指示该服务设备的工作状态为过载状态。还可以将服务设备的工作状态分为空闲、正常、繁忙和过载四种状态,例如,服务设备的内存利用率为0,则指示该服务设备的工作状态为空闲状态,内存利用率大于O同时小于或者等于50%,则指示该服务设备的工作状态为正常状态,内存利用率大于50%同时小于或者等于85%,则指示该服务设备的工作状态为繁忙状态,内存利用率大于85%,则指示该服务设备的工作状态为过载状态。而指示服务设备不同工作状态的处理性能信息对应不同的权重,以服务设备的工作状态分为正常、繁忙和过载三种状态为例,可以预设指示正常状态的处理性能信息的权重为50%,指示繁忙状态的处理性能信息的权重为30%,指示过载状态的处理性能信息的权重为20%。本实施例中,根据指示每个服务设备的工作状态中每个工作状态的处理性能信息的数目和每个工作状态对应的权重,获得每个服务设备的繁忙度。例如,服务设备的工作状态分为正常、繁忙和过载三种状态,该服务设备的处理性能信息共有10个,其中指示正常状态的处理性能信息共有5个,对应的权重为50%,指示繁忙状态的处理性能信息共有3个,对应的权重为30%,指示过载状态的处理性能信息共有2个,对应的权重为20%,则该服务设备的繁忙度为50%*5+30%*3+20%*2=3. 8。根据指示每个服务设备的工作状态中每个工作状态的处理性能信息的数目和每个工作状态对应的权重,获得每个服务设备的繁忙度,能够准确和全面的对服务设备的状态进行估评估。优选地,作为一种可实施方式,在上述实施例的基础上,S12根据至少一个服务设备中部分服务设备或全部服务设备中每个服务设备的健康度和预先设置的每个服务设备的权重系数,获得每个业务应用的健康度,具体包括以下步骤
S121 :根据
权利要求
1.一种业务系统的健康度获得方法,所述业务系统承载至少一个业务应用,所述业务应用对应所述业务系统的至少一个服务设备,其特征在于,所述方法包括 根据每个所述服务设备的处理性能信息,获得每个所述服务设备的健康度,所述处理性能信息包括以下信息中的一种或者多种组合CPU平均利用率,CPU平均负载,内存利用率和Ping时延; 根据所述至少一个服务设备中部分所述服务设备或全部所述服务设备中每个所述服务设备的健康度和预先设置的每个所述服务设备的权重系数,获得每个所述业务应用的健康度; 根据每个所述业务应用的健康度,或者根据每个所述业务应用的健康度和所述至少一个服务设备中除所述部分所述服务设备之外的其他所述服务设备的健康度,获得所述业务系统的健康度。
2.根据权利要求I所述的方法,其特征在于,所述根据每个所述服务设备的处理性能信息,获得每个所述服务设备的健康度,具体包括 根据每个所述服务设备的处理性能信息,获得每个所述服务设备的繁忙度; 根据每个所述服务设备的繁忙度,获得每个所述服务设备的健康度。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述服务设备的处理性能信息,获得每个所述服务设备的繁忙度,具体包括 根据指示每个所述服务设备的至少两种工作状态中每个所述工作状态的处理性能信息的数目和每个所述工作状态对应的权重,获得每个所述服务设备的繁忙度。
4.根据权利要求I所述的方法,其特征在于,所述根据所述至少一个服务设备中部分所述服务设备或全部所述服务设备中每个所述服务设备的健康度和预先设置的每个所述服务设备的权重系数,获得每个所述业务应用的健康度,具体包括 根据
5.根据权利要求I所述的方法,其特征在于,所述根据每个所述业务应用的健康度,或者根据每个所述业务应用的健康度和所述至少一个服务设备中除所述部分所述服务设备之外的其他所述服务设备的健康度,获得所述业务系统的健康度,具体包括 根据
6.一种业务系统的健康度获得系统,所述业务系统承载至少一个业务应用,所述业务应用对应所述业务系统的至少一个服务设备,其特征在于,所述系统包括 第一处理模块,用于根据每个所述服务设备的处理性能信息,获得每个所述服务设备的健康度,所述处理性能信息包括以下信息中的一种或者多种组合CPU平均利用率,CPU平均负载,内存利用率和Ping时延; 第二处理模块,用于根据所述至少一个服务设备中部分所述服务设备或全部所述服务设备中每个所述服务设备的健康度和预先设置的每个所述服务设备的权重系数,获得每个所述业务应用的健康度; 第三处理模块,用于根据每个所述业务应用的健康度,或者根据每个所述业务应用的健康度和所述至少一个服务设备中除所述部分所述服务设备之外的其他所述服务设备的健康度,获得所述业务系统的健康度。
7.根据权利要求6所述的系统,其特征在于,所述第一处理模块,包括 服务设备繁忙度处理单元,用于根据每个所述服务设备的处理性能信息,获得每个所述服务设备的繁忙度; 服务设备健康度处理单元,用于根据每个所述服务设备的繁忙度,获得每个所述服务设备的健康度。
8.根据权利要求7所述的系统,其特征在于,所述服务设备繁忙度处理单元具体用于 根据指示每个所述服务设备的至少两种工作状态中每个所述工作状态的处理性能信息的数目和每个所述工作状态对应的权重,获得每个所述服务设备的繁忙度。
9.根据权利要求6所述的系统,其特征在于,所述第二处理模块具体用于η 根据= Σ hi ^ 获取第I个所述业务应用的健康度; ; , 其中,H1表示第I个所述业务应用的健康度,hi表示第I个所述业务应用对应的服务设备中的第i个服务设备的健康度,ki表示所述第i个服务设备的健康权重系数,为根据所述第I个所述业务应用对应的每个所述服务设备中所述第i个服务设备对所述第I个所述业务应用的影响程度设定,η表示第I个所述业务应用对应的服务设备总个数。
10.根据权利要求6所述的系统,其特征在于,所述第三处理模块具体用于根据
全文摘要
本发明提供一种业务系统的健康度获得方法及系统。该方法包括根据每个所述服务设备的处理性能信息,获得每个所述服务设备的健康度;根据所述至少一个服务设备中部分所述服务设备或全部所述服务设备中每个所述服务设备的健康度和预先设置的每个所述服务设备的权重系数,获得每个所述业务应用的健康度;根据每个所述业务应用的健康度,或者根据每个所述业务应用的健康度和所述至少一个服务设备中除所述部分所述服务设备之外的其他所述服务设备的健康度,获得所述业务系统的健康度。该系统包括第一处理模块,第二处理模块和第三处理模块。根据本发明的业务系统的健康度获得方法及系统,能够对整个业务系统的状态进行准确和全面的评估。
文档编号H04L12/24GK102916831SQ20121034797
公开日2013年2月6日 申请日期2012年9月18日 优先权日2012年9月18日
发明者冯晋阳 申请人:冯晋阳
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1