一种业务综合监控方法、系统及装置与流程

文档序号:19535606发布日期:2019-12-27 15:51阅读:140来源:国知局
一种业务综合监控方法、系统及装置与流程

本发明涉及业务监控技术领域,尤其是一种业务综合监控方法、系统及装置。



背景技术:

随着互联网技术的飞速发展,信息化办公水平的提高,移动运用商、电力、金融、邮政、税务等大部分企业均采用了基于it技术的业务系统来处理工作任务,与此同时,业务系统涉及的功能环节和相关人员越来越多,其本身的架构也越来越复杂。而业务系统的稳定运行是企业发展的重要保障,所以对业务系统的运行状态进行监控尤为重要,由于业务系统架构的复杂度越来越高,目前对于监控的要求也逐渐变高。

现有的业务监控方法,往往都是从某个单一的数据维度进行监控,只能分析到网络是否异常,或者某台主机、网络设备等网元运行是否正常,但是在大型的分布式系统下,偶尔的局部网络不稳定,某些设备性能的下降,或者极个别的服务器短时间的运行异常,业务系统整体一样正常运行;相对的,业务系统中某个业务办理成功率突然降低,但是此时网络和服务器可能都运行正常,所以从某个单一维度的监控指标上往往看不出问题所在。因此,现有技术中的业务监控方法经常会出现发现的业务系统问题与现象无法对应起来,很难快速、有效地反应出业务系统各业务办理的过程中出现的问题和故障原因,这些不足目前亟待解决。



技术实现要素:

为至少部分地解决上述技术问题,本发明实施例的目的在于:提供一种业务综合监控方法、系统及装置,能够有效对业务问题进行综合关联分析,快速全面地发现业务系统的故障原因,从而实现精准可靠的业务系统故障定位。

本发明实施例所采取的技术方案是:

第一方面,本发明实施例提供了一种业务综合监控方法,包括以下步骤:

获取业务性能指标数据、网络性能指标数据、网元运行指标数据和应用运行日志指标数据;

根据所述业务性能指标数据,分别对网络性能指标数据、网元运行指标数据和应用运行日志指标数据进行关联分析,获取关联分析结果;

根据所述关联分析结果,对业务问题进行故障定位。

进一步,获取业务性能指标数据、网络性能指标数据、网元运行指标数据和应用运行日志指标数据这一步骤,其具体包括:

获取业务性能指标数据,对所述业务性能指标数据进行监控;

当所述业务性能指标数据低于预设阈值时,获取网络性能指标数据、网元运行指标数据和应用运行日志指标数据。

进一步,所述获取业务性能指标数据这一步骤,其具体为:获取网络流量信息,对所述网络流量信息进行应用层协议解析,获取业务性能指标数据。

进一步,所述获取网络性能指标数据、网元运行指标数据和应用运行日志指标数据这一步骤,其具体包括:

获取网络流量信息,对所述网络流量信息进行网络传输协议解析,获取网络性能指标数据;

基于zabbix或snmp协议采集网元运行状态信息,根据所述网元运行状态信息获取网元运行指标数据;

获取应用日志文件,根据所述应用日志文件对与业务相关的应用日志信息进行解析,获取应用运行日志指标数据。

进一步,所述根据所述业务性能指标数据,分别对网络性能指标数据、网元运行指标数据和应用运行日志指标数据进行关联分析,获取关联分析结果这一步骤,其具体包括:

根据请求响应ip端口和网络会话源及目标ip端口信息,对同一时间段的业务性能指标数据和网络性能指标数据进行关联分析,获取第一关联分析结果;

根据响应ip端口和网元ip端口信息,对同一时间段的业务性能指标数据和网元性能指标数据进行关联分析,获取第二关联分析结果;

根据响应ip端口和应用ip端口信息或关键参数信息,对同一时间段的业务性能指标数据和应用运行日志指标数据进行关联分析,获取第三关联分析结果。

进一步,还包括以下步骤:

获取对业务问题进行故障定位得到的故障定位信息;

将所述故障定位信息发送至故障处理人员。

进一步,还包括以下步骤:

根据所述网络性能指标数据、网元运行指标数据和应用运行日志指标数据,生成业务告警信息;

将所述业务告警信息发送至故障处理人员和用户。

第二方面,本发明实施例提供了一种业务综合监控系统,包括:业务综合监控平台和执行单元;

所述业务综合监控平台包括采集层、数据接收层、数据存储层、数据分析及服务层、展示层和用于进行数据集成与交互的通讯接口,所述采集层用于对业务系统的相关数据信息进行采集,并将获取到的数据信息传输至数据接收层;所述数据接收层用于对采集到的数据信息进行预处理,并将数据信息传输至数据存储层;所述数据存储层包括数据库及数据中心,用于存储采集到的数据信息或通过数据分析及服务层得到的监控数据信息及分析诊断结果;所述数据分析及服务层用于提供对采集到的数据信息进行分析服务、监控服务以及系统配置服务;所述展示层用于完成监控平台的监控信息展示和告警、分析、诊断信息展示以及监控平台的配置管理任务;

所述执行单元包括:

获取模块,用于从业务综合监控平台中获取信息及数据;

分析模块,用于根据接收到的信息和数据进行关联分析,并将得到的关联分析结果发送至处理模块;

处理模块,用于根据所述关联分析结果,处理完成业务问题的故障定位。

进一步,所述执行单元还包括:通知模块,用于通过业务综合监控平台的通讯接口将故障定位信息和/或业务告警信息发送给故障处理人员或用户;

所述分析模块还用于根据接收到的信息和数据分析得到故障定位信息和/或业务告警信息。

第三方面,本发明实施例提供了一种业务综合监控装置,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现所述的一种业务综合监控方法。

上述本发明实施例中的一个或多个技术方案具有如下优点:本发明实施例通过对业务性能指标数据和网络性能指标数据、网元运行指标数据、应用运行日志指标数据分别进行关联分析,可实现全方位发现业务系统问题,快速地诊断、定位业务故障原因,有利于快速发现问题、解决问题,提高了业务系统的监控效率;本发明实施例还可根据相关数据对业务系统的短暂异常、波动作出告警,能够真实、有效地反应出业务系统的作业情况,并将具体情况通知到故障处理人员或用户,最大程度上保证了业务系统运行的可靠性和稳定性。

附图说明

图1为本发明实施例的一种业务综合监控方法流程图;

图2为本发明实施例的一种业务综合监控系统的平台架构图;

图3为本发明实施例的一种业务综合监控方法的实施原理示意图;

图4为本发明实施例的一种业务综合监控系统的执行单元结构框图;

图5为本发明实施例的一种业务综合监控装置的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1,本发明实施例提供了一种业务综合监控方法,包括以下步骤:

s1:获取业务性能指标数据、网络性能指标数据、网元运行指标数据和应用运行日志指标数据;

s2:根据所述业务性能指标数据,分别对网络性能指标数据、网元运行指标数据和应用运行日志指标数据进行关联分析,获取关联分析结果;

s3:根据所述关联分析结果,对业务问题进行故障定位。

参照图2,在本发明实施例中,所述的数据、信息均可以通过业务综合监控平台获取,所述业务综合监控平台包括采集层、数据接收层、数据存储层、数据分析及服务层、展示层和用于进行数据集成与交互的通讯接口,所述采集层用于对业务系统的相关数据信息进行采集,并将获取到的数据信息传输至数据接收层;所述数据接收层用于对采集到的数据信息进行预处理,并将数据信息传输至数据存储层;所述数据存储层包括数据库及数据中心,用于存储采集到的数据信息或通过数据分析及服务层得到的监控数据信息及分析诊断结果;所述数据分析及服务层用于提供对采集到的数据信息进行分析服务、监控服务以及系统配置服务;所述展示层用于完成监控平台的监控信息展示和告警、分析、诊断信息展示以及监控平台的配置管理任务。

本发明实施例中,提出了一种多维度、全方位的业务综合监控方法:通过业务性能指标数据来实时地还原业务的办理情况,所述业务性能指标可以用单位时间内处理的客户端请求数量,即业务系统的吞吐量来衡量;也可以通过固定的资源利用率下,请求的响应时间来衡量;以上业务性能指标在分析时还可进一步参考其他数据,例如业务系统的并发用户数和具体业务的复杂度等。为了更清晰、具体地发现导致业务系统出现问题的故障原因,本发明实施例还通过监控平台获取了网络性能指标数据、网元运行指标数据和应用运行日志指标数据,分别对业务系统关联的网络状态、网元设备工作状况和应用程序进行监控,其中所述网络性能指标数据可包括网络速率、带宽、实际数据吞吐量、时延、往返时间和网络利用率等数据;网元运行指标数据可包括主机cpu占用率、内存占用率、设备丢包率和数据库连接数等数据;应用运行日志指标数据主要指由具体业务的日志信息分析得出的数据,可包括应用内部错误率、错误等级和程序的执行环境等数据。通过所述业务性能指标数据分别与其他三类指标数据进行关联分析,根据关联分析结果的相关性上即可得出业务系统在处理某个业务出现问题时,到底是由于网络波动异常,还是某个网元设备故障或者应用程序内部的问题,亦或者是上述至少两个问题叠加导致业务系统产生故障,从而使得业务问题的发现、定位更加完善,有利于故障处理人员快速根据故障定位的结果来处理修复系统,从而尽可能地保证了系统运行的可靠性和稳定性。

进一步作为优选的实施方式,获取业务性能指标数据、网络性能指标数据、网元运行指标数据和应用运行日志指标数据这一步骤,其具体包括:

s11:获取业务性能指标数据,对所述业务性能指标数据进行监控;

s12:当所述业务性能指标数据低于预设阈值时,获取网络性能指标数据、网元运行指标数据和应用运行日志指标数据。

本发明实施例中,为了尽可能地节约业务综合监控平台的系统资源,在实际对业务系统进行监控时,可以不必时时刻刻获取网络性能指标数据、网元运行指标数据和应用运行日志指标数据进行关联分析,只需实时对业务性能指标数据进行必要的监控,当监控结果显示出业务系统的业务性能明显出现降低时,即出现业务问题时再获取网络性能指标数据、网元运行指标数据和应用运行日志指标数据执行关联分析、故障定位工作。具体地,可以对业务性能指标数据预设一指定阈值,当业务性能指标数据低于该阈值时,可认为此时该业务的处理出现了问题,需要进行业务系统的查错和修复工作。所述预设阈值的实际设定中,还应从业务问题预警、相关指标数据的完整程度等方面综合考虑,根据具体的情况也可将所述预设阈值设定的稍稍偏高,以使业务综合监控平台能够获取到业务问题出现、恶化过程中的相关数据,从而方便后续分析及修复工作的展开或者业务问题预警工作的执行。

参照图3,进一步作为优选的实施方式,所述获取业务性能指标数据这一步骤,其具体为:获取网络流量信息,对所述网络流量信息进行应用层协议解析,获取业务性能指标数据。

进一步作为优选的实施方式,所述获取网络性能指标数据、网元运行指标数据和应用运行日志指标数据这一步骤,其具体包括:

s121:获取网络流量信息,对所述网络流量信息进行网络传输协议解析,获取网络性能指标数据;

s122:基于zabbix或snmp协议采集网元运行状态信息,根据所述网元运行状态信息获取网元运行指标数据;

s123:获取应用日志文件,根据所述应用日志文件对与业务相关的应用日志信息进行解析,获取应用运行日志指标数据。

本发明实施例中,具体提出了一种由业务综合监控平台获取业务性能指标数据、网络性能指标数据、网元运行指标数据和应用运行日志指标数据的方法,具体地,可通过网络交换机镜像流量的方式获取到网络流量信息,对所述网络流量信息进行应用层协议解析,例如http协议的解析得出完成一次业务任务的过程中应用请求url、响应耗时和返回状态等相关可以体现业务性能的数据作为业务性能指标数据;同时,对网络流量数据进行网络传输协议的解析,可以得出网络流量大小、网络丢包、网络链接失败率、网络传输耗时等数据作为网络性能指标数据。此外,通过zabbix或snmp协议采集网元运行状态信息,进一步分析得到主机cpu占用率、内存占用率、网络设备丢包率、数据库连接数等网元运行状态相关的数据作为网元运行指标数据。本发明实施例还通过对应用日志文件的采集,并对与所述业务相关的应用日志信息进行解析,分析得出应用内部方法执行耗时,报错信息等数据作为应用运行日志指标数据。

进一步作为优选的实施方式,所述根据所述业务性能指标数据,分别对网络性能指标数据、网元运行指标数据和应用运行日志指标数据进行关联分析,获取关联分析结果这一步骤,其具体包括:

s21:根据请求响应ip端口和网络会话源及目标ip端口信息,对同一时间段的业务性能指标数据和网络性能指标数据进行关联分析,获取第一关联分析结果;

s22:根据响应ip端口和网元ip端口信息,对同一时间段的业务性能指标数据和网元性能指标数据进行关联分析,获取第二关联分析结果;

s23:根据响应ip端口和应用ip端口信息或关键参数信息,对同一时间段的业务性能指标数据和应用运行日志指标数据进行关联分析,获取第三关联分析结果。

本发明实施例中,对通过业务综合监控平台进行多维度关联分析及故障定位时的具体情形做以下说明:对业务性能指标数据与网络性能指标数据进行关联分析,可以得出业务出现问题时,是否存在相关网络问题,以及网络出问题时可能会导致那些业务的办理质量下降。具体地,本发明实施例通过业务办理出现问题的时间范围、请求响应的ip端口和网络会话源及目标ip端口的对应关系,找到对应的网络会话,关联对应的网络性能指标数据,分析是否存在相关的网络传输超时告警、网络丢包率偏高的告警、网络链接失败率偏高的告警等与网络状况相关的问题,从而定位这段时间内是否是由网络问题导致的业务办理出现问题,同时根据这些出现的网络会话告警是在办理什么业务时产生的,即可知道业务系统由网络质量下降所影响的业务范围。

本发明实施例对业务性能指标数据与网元性能指标数据进行关联分析时,通过业务办理出现问题的时间范围和支撑业务办理的应用资源ip端口信息,关联对应的网元性能指标数据,分析这段时间内是否是由于相关主机的cpu和内存占用率过高导致应用资源不够,从而使得业务办理的效率下降,即定位是否是由于网元运行的相关问题导致业务办理出现问题。

本发明实施例对业务性能指标数据与应用运行日志指标数据进行关联分析时,通过业务办理出现问题的时间范围和支撑业务办理的应用程序ip端口信息,以及业务数据中的关键参数和日志数据中的关键参数,精准地关联相关的日志数据,分析这段时间内相关的日志是否出现报错信息或者某些应用内部接口调用超时等问题,或者通过关键参数关联某一次用户业务办理过程中的相关日志,定位某一次业务办理失败时的程序内部执行情况,从而得到精准的关联分析结果,完成故障定位。

进一步作为优选的实施方式,还包括以下步骤:

s4:获取对业务问题进行故障定位得到的故障定位信息;

s5:将所述故障定位信息发送至故障处理人员。

进一步作为优选的实施方式,还包括以下步骤:

s6:根据所述网络性能指标数据、网元运行指标数据和应用运行日志指标数据,生成业务告警信息;

s7:将所述业务告警信息发送至故障处理人员和用户。

本发明实施例中,提出了一种通过业务综合监控平台根据监控到的数据和分析得到相关信息向故障处理人员或者用户发送通知的方法。具体地,首先,针对业务问题故障定位的需求,业务综合监控平台由关联分析结果进一步处理可得出故障定位信息,所述故障定位信息用于显示本次业务问题的具体故障原因,将所述故障定位信息发送给业务系统的故障处理人员,故障处理人员可以根据监控系统得出的故障定位信息快速、有效地对故障原因进行修复,使得业务系统能够尽快恢复到正常运行状态。另外,业务系统还有可能出现虽然业务性能并没有大幅度下降,但是其某个局部网络出现了异常波动或者某个应用程序的性能出现了下降等问题,此时虽然整体的业务系统可能还支持完成一般情况下的正常业务处理,但一旦业务系统的负载、任务量增多可能会出现较为严重的业务问题。为了提早预防、避免上述情况的发生,此时业务综合监控平台将根据网络性能指标数据、网元运行指标数据和应用运行日志指标数据中具体的异常情况,生成业务告警信息发送给故障处理人员,提醒相关人员进行事先排查,防患于未然;另一方面,还将所述业务告警信息发送给用户,以告知业务人员业务系统可能会出现的相关故障及后果,从而帮助业务人员更好地提前做出应对措施。

参照图4,本发明实施例提供了一种业务综合监控系统,包括:业务综合监控平台和执行单元;

所述业务综合监控平台包括采集层、数据接收层、数据存储层、数据分析及服务层、展示层和用于进行数据集成与交互的通讯接口,所述采集层用于对业务系统的相关数据信息进行采集,并将获取到的数据信息传输至数据接收层;所述数据接收层用于对采集到的数据信息进行预处理,并将数据信息传输至数据存储层;所述数据存储层包括数据库及数据中心,用于存储采集到的数据信息或通过数据分析及服务层得到的监控数据信息及分析诊断结果;所述数据分析及服务层用于提供对采集到的数据信息进行分析服务、监控服务以及系统配置服务;所述展示层用于完成监控平台的监控信息展示和告警、分析、诊断信息展示以及监控平台的配置管理任务;

所述执行单元包括:

获取模块101,用于从业务综合监控平台中获取信息及数据,

分析模块102,用于根据接收到的信息和数据进行关联分析,并将得到的关联分析结果发送至处理模块103;

处理模块103,用于根据所述关联分析结果,处理完成业务问题的故障定位。

进一步作为优选的实施方式,所述执行单元还包括:通知模块104,用于通过业务综合监控平台的通讯接口将故障定位信息和/或业务告警信息发送给故障处理人员或用户;

所述分析模块102还用于根据接收到的信息和数据分析得到故障定位信息和/或业务告警信息。

上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图5,本发明实施例提供了一种业务综合监控装置,包括:

至少一个处理器201;

至少一个存储器202,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器201执行时,使得所述至少一个处理器201实现所述的一种业务综合监控方法。

同理,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例中,所述装置中包括至少一个处理器201和至少一个存储器202,所述存储器202用于存储至少一个程序,且所述程序用于被处理器201执行以实现本发明实施例任一种业务综合监控方法。所述处理器201可以由包括单片机、fpga、cpld、dsp、arm等任一或多种处理器芯片及其外围电路和程序所构成。本发明实施例中,所述存储器202所采用的存储介质形式可以是但不限于电、磁、光、红外线、半导体的系统、装置或器件,也可以是任意以上形式所组成的组合。具体地,可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件或者上述任意形式所组成的组合。存储介质可以是任何包含或存储程序的有形介质,所述程序可以被指令执行系统执行。所述存储器202上包含的程序可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。所述程序的代码可以以一种或多种程序设计语言或其组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如java、smalltalk、c++,还包括常规的过程式程序设计语言,诸如c语言或类似的程序设计语言。所述程序可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。

在本说明书的描述中,参考术语“一个实施方式”、“另一实施方式”或“某些实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1