业务故障定位方法、装置、设备及介质与流程

文档序号:17725708发布日期:2019-05-22 02:29阅读:129来源:国知局
业务故障定位方法、装置、设备及介质与流程

本发明涉及网络安全监控管理领域,尤其涉及一种业务故障定位方法、装置、设备及介质。



背景技术:

快速精准定位业务系统中业务故障点对业务连贯性具有重要作用。现有定位方法有两种:一种是基于监控系统对设备的监控分析业务故障点,另一种是基于监控系统对业务组件的监控分析业务故障点,由于两种方法采集的信息较为单一,不能够精准地定位业务故障点,而目前很少有基于监控系统对设备及业务组件的同时监控分析业务故障点,因此提出一种基于设备状态及业务组件状态分析业务故障点的方法很有必要。



技术实现要素:

(一)要解决的技术问题

针对目前存在的技术问题,本发明提出一种业务故障定位方法、装置、设备及介质,用于至少部分解决上述技术问题。

(二)技术方案

本发明提供一种业务故障定位方法,包括:对设备及业务组件进行监控,采集设备的性能信息及业务组件的信息;获取设备的设备告警信息及业务组件的业务告警信息;设置不同维度的告警规则,根据不同维度的告警规则对设备告警信息及业务告警信息进行关联分析,得到关联分析结果;根据设备的性能信息、业务组件的信息及关联分析结果,对业务故障进行定位。

可选地,从时间维度对设备告警信息及业务告警信息进行关联分析,得到关联分析结果,关联分析结果包括设备告警发生时间、业务告警发生时间、产生设备告警的ip地址及产生业务告警的ip地址;若设备告警发生时间早于业务告警发生时间,且产生设备告警的ip地址与产生业务告警的ip地址相同,则根据该ip地址得到业务故障位置。

可选地,采用简单网络层管理协议监控方法、ssh协议监控方法、jdbc监控方法、监控脚本及agent监控方法中的至少一种监控方法对设备及业务组件进行监控。

可选地,采集设备的性能信息及业务组件的信息中,设备的性能信息包括设备cpu利用率信息、内存利用率信息及磁盘io交换信息中的至少一种,业务组件的信息包括中间件连接数信息、redis实例信息、redis的key数量信息及虚拟机年轻代与老年代比例信息中的至少一种。

本发明另一方面提供一种业务故障定位装置,装置包括:监控模块,用于对设备及业务组件进行监控,采集设备的性能信息及业务组件的信息;信息获取模块,用于获取设备的设备告警信息及业务组件的业务告警信息;关联分析模块,用于设置不同维度的告警规则,根据不同维度的告警规则对设备告警信息及业务告警信息进行关联分析,得到关联分析结果;定位模块,用于根据设备的性能信息、业务组件的信息及关联分析结果,对业务故障进行定位。

可选地,关联分析模块从时间维度对设备告警信息及业务告警信息进行关联分析,得到关联分析结果,该关联分析结果包括设备告警发生时间、业务告警发生时间、产生设备告警的ip地址及产生业务告警的ip地址;若设备告警发生时间早于业务告警发生时间,且产生设备告警的ip地址与产生业务告警的ip地址相同,则根据该ip地址得到故障位置。

可选地,监控模块采用简单网络层管理协议监控方法、ssh协议监控方法、jdbc监控方法、监控脚本及agent监控方法中的至少一种监控方法对所述设备及业务组件进行监控。

可选地,监控模块采集设备的性能信息及业务组件的信息中,设备的性能信息包括设备cpu利用率信息、内存利用率信息及磁盘io交换信息中的至少一种,业务组件的信息包括中间件连接数信息、redis实例信息、redis的key数量信息及虚拟机年轻代与老年代比例信息中的至少一种。

本发明另一方面还提供一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行本发明中的业务故障定位方法。

本发明另一方面还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现本发明中的业务故障定位方法。

(三)有益效果

本发明提供的一种业务故障定位方法,通过多种监控手段获取设备性能信息及业务组件信息,并获取设备告警信息及业务告警信息,根据不同维度告警规则对设备告警信息及业务告警信息进行关联分析,结合设备性能信息及业务组件信息,精确定位业务故障点,保障业务的连贯性。

附图说明

为了更完整地理解本发明及其优势,现在将参考结合附图的以下描述,其中:

图1示意性示出了根据本发明实施例的业务故障定位方法流程图。

图2示意性示出了根据本发明实施例的业务故障定位装置的框图。

图3示意性示出了根据本发明实施例的电子设备的框图。

具体实施方式

以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

本发明实施例提出一种业务故障定位方法,由于业务系统出现问题的很大一部分原始来源于承载业务的设备的问题,因此,本发明通过监控设备状态与业务组件状态,关联业务故障点,从而快速定位业务故障点。

图1示意性示出了根据本发明实施例的业务故障定位方法的流程图。

如图1所示,该方法包括:

s1,对设备及业务组件进行监控,采集所述设备的性能信息及所述业务组件的信息;

在上述操作s1中,采用多种监控手段对设备及业务组件进行监控,本发明实施例采用的监控手段为网络层管理协议监控方法(snmp监控)、ssh协议监控方法、jdbc监控方法、监控脚本及agent监控方法等,监控方法可以为其中的一种监控方法,也可以为多种监控方法相互配合进行监控,本发明不加以限制。

采集的设备性能信息为设备cpu利用率信息、内存利用率信息、磁盘io交换信息等,采集的业务组件信息为中间连接数信息、redis实例信息、redis的key的数量信息及虚拟机(javavirtualmachine,jvw)中年轻代与老年代比例信息等,采集的信息可为其中的一种或多种信息的组合,也可以为其他信息。

s2,获取设备的设备告警信息及业务组件的业务告警信息。

一般告警信息包括两种:一种是监控软件产生的服务器设备的性能告警日志,另一种是部署在服务器上的业务系统产生的业务告警日志。为了更加精确地定位故障点,本发明实施例同时获取这两种告警信息的,后续用过对这两种信息进行关联分析定位业务故障点。该两种告警信息的获取可通过操作s1中对设备及业务组件进行监控时获取。

s3,设置不同维度的告警规则,根据不同维度的告警规则对设备告警信息及业务告警信息进行关联分析,得到关联分析结果。

为了能够通过获取的信息对业务故障进行定位,需要分析出设备告警信息与业务告警信息的内在联系。因此,设置不同维度的告警规则,通过该告警规则对设备告警信息与业务告警信息进行关联分析,得到包含告警信息与业务告警信息的内在联系的关联分析结果,然后根据关联分析结果,结合获取的设备性能信息及业务组件信息,对业务故障进行定位,告警规则的维度为时间维度、空间维度或其他维度。其中,关联分析是基于后台分析引擎进行的。

s4,根据设备的性能信息、业务组件的信息及关联分析结果,业务故障进行定位。

根据时间维度告警规则对设备告警信息及业务告警信息进行关联分析时,关联分析结果即为设备告警发生时间与业务告警发生时间之间的关系、产生设备告警的ip地址及产生业务告警的ip地址之间的关系。若设备告警发生时间早于业务告警发生时间,且产生设备告警的ip地址与产生业务告警的ip地址相同,即可根据该相同的ip地址,结合设备状态信息、业务组件信息及告警发生时间等得到业务故障位置。例如:前端web页面卡顿,后端接口数据返回较慢,经常会报一些连接超时等错误信息,此时,从设备性能告警中可以查到tcp连接状态异常,有大量的fin-wait-1状态存在,因此,可以分析出此时服务器受到了分布式拒绝服务攻(distributeddenialofservice,ddos)攻击,造成业务异常告警,其中,fin-wait-1指在server端主动要求关闭tcp连接,并且主动发送fin以后,等待client端回复ack时候的状态。

综上所述,本发明提出一种业务故障定位方法,通过多种监控手段获取设备性能信息及业务组件信息,并获取设备告警信息及业务告警信息,根据不同维度告警规则对设备告警信息及业务告警信息进行关联分析,结合设备性能信息及业务组件信息,精确定位业务故障点,保障业务的连贯性。

图2示意性示出了根据本发明实施例的业务故障定位装置200的框图。

如图2所示,该业务故障定位装置200包括监控模块210、信息获取模块220、关联分析模块230及定位模块240。

监控模块210,用于对设备及业务组件进行监控,采集设备的性能信息及业务组件的信息。具体地,采用多种监控手段对设备及业务组件进行监控,采用的监控手段为snmp监控、ssh监控、jdbc监控、监控脚本及agent监控等,监控方法可以为其中的一种监控方法,也可以为多种监控方法相互配合进行监控。采集的设备性能信息为设备cpu利用率信息、内存利用率信息、磁盘io交换信息等,采集的业务组件信息为中间连接数信息、redis实例信息、redis的key的数量信息及jvw中年轻代与老年代比例信息等,采集的信息可为其中的一种或多种信息的组合,也可以为其他信息。

信息获取模块220,用于获取设备的设备告警信息及业务组件的业务告警信息。一般告警信息包括两种:一种是监控软件产生的服务器设备的性能告警日志,另一种是部署在服务器上的业务系统产生的业务告警日志。

关联分析模块230,用于设置不同维度的告警规则,根据不同维度的告警规则对所述设备告警信息及业务告警信息进行关联分析,得到关联分析结果。其中,告警规则的维度为时间维度、空间维度或其他维度。

定位模块240,用于根据设备的性能信息、业务组件的信息及关联分析结果,对所述业务故障进行定位。具体地,根据时间维度告警规则对设备告警信息及业务告警信息进行关联分析时,关联分析结果即为设备告警发生时间与业务告警发生时间之间的关系、产生设备告警的ip地址及产生业务告警的ip地址之间的关系。若设备告警发生时间早于业务告警发生时间,且产生设备告警的ip地址与产生业务告警的ip地址相同,即可根据该相同的ip地址,结合设备状态信息、业务组件信息及告警发生时间等得到业务故障位置。

应当理解,监控模块210、信息获取模块220、关联分析模块230及定位模块240可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,监控模块210、信息获取模块220、关联分析模块230及定位模块240中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上装置、基板上的装置、封装上的装置、专用集成电路(asic),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,监控模块210、信息获取模块220、关联分析模块230及定位模块240中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。

本发明提供一种电子设备,如图3所示,该电子设备300包括处理器310和存储器320。该电子设备300可以执行根据图1所示的本发明实施例的方法。

具体地,处理器310例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器310还可以包括用于缓存用途的板载存储器。处理器410可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器320,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体装置、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。

存储器320可以包括计算机程序321,该计算机程序321可以包括代码/计算机可执行指令,其在由处理器310执行时使得处理器310执行根据本公开实施例的方法或其任何变形。

计算机程序321可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序321中的代码可以包括至少一个程序模块,例如包括模块321a、模块321b、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器310执行时,使得处理器310可以执行根据本公开实施例的方法或其任何变形。

本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/装置中所包含的;也可以是单独存在,而未装配入该设备/装置/装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。

根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1