平台监控与告警方法、装置、设备与计算机可读存储介质与流程

文档序号:15998968发布日期:2018-11-20 19:12阅读:140来源:国知局

本发明涉及通信领域,尤其涉及一种平台监控与告警方法、装置、设备与计算机可读存储介质。



背景技术:

随着互联网技术不断发展和进步,基于互联网的应用平台对应用平台的性能及处理能力的要求越来越高,分布式及集群环境使用的也越来越多,由此也带来了新的问题:对于分布式及集群环境中的应用程序和组件的工作状态的监控工作也越来越重要。

现有的监控方法一般都只能监控平台上部署的应用或者组件是否存活,若检测到当前监控的应用或者组件处于未存活状态,则向用户发送告警信息,以使用户对平台及时进行运维。

但是,采用上述方法对平台进行监控往往只能监控应用或者组件是否存活,但无法对应用或者组件的状态进行判断,因此,当应用或者组件当前运行状态发生故障时,无法及时通知用户进行运维,从而影响平台正常运行。举例来说,当平台上部署的应用或者组件当前出现僵尸进程时,现有监控方式认为进程为存活状态,因此,无法及时告警,进而影响平台正常运行。



技术实现要素:

本发明提供一种平台监控与告警方法、装置、设备与计算机可读存储介质,用于解决现有技术中由于平台监控方法无法对应用或者组件的状态进行判断而导致应用或者组件当前运行状态发生故障时,无法及时通知用户进行运维,从而影响平台正常运行的技术问题。

本发明的第一个方面是提供一种平台监控与告警方法,包括:

定期读取监控平台配置文件中的待监控平台的配置信息,确定当前的待监控进程;

定期采用不同的监控方式对不同的所述待监控进程进行监控;

若监控到任一所述待监控进程出现故障,则向运维人员发送运维通知。

本发明的另一个方面是提供一种平台监控与告警装置,包括:

读取模块,用于定期读取监控平台配置文件中的待监控平台的配置信息,确定当前的待监控进程;

监控模块,用于定期采用不同的监控方式对不同的所述待监控进程进行监控;

通知模块,用于若监控到任一所述待监控进程出现故障,则向运维人员发送运维通知。

本发明的又一个方面是提供一种平台监控与告警设备,包括:存储器,处理器;

存储器;用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为:定期读取监控平台配置文件中的待监控平台的配置信息,确定当前的待监控进程;

定期采用不同的监控方式对不同的所述待监控进程进行监控;

若监控到任一所述待监控进程出现故障,则向运维人员发送运维通知。

本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述的平台监控与告警方法。

本发明提供的平台监控与告警方法、装置、设备与计算机可读存储介质,通过定期读取监控平台配置文件中的待监控平台的配置信息,确定当前待监控进程,并采用不同的监控方式对当前确定的全部待监控进程进行监控,并在监控到任一待监控进程出故障的时候,向运维人员发送运维通知,从而能够实现对待监控平台内全部待监控进程的监控,进而能够解决现有技术中由于平台监控方法无法对应用或者组件的状态进行判断而导致应用或者组件当前运行状态发生故障时,无法及时通知用户进行运维,从而影响平台正常运行的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的平台监控与告警方法的流程示意图;

图2为本发明实施例二提供的平台监控与告警方法的流程示意图;

图3为本发明实施例三提供的平台监控与告警装置的结构示意图;

图4为本发明实施例四提供的平台监控与告警装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例一提供的平台监控与告警方法的流程示意图,如图1所示,所述方法包括:

步骤101、定期读取监控平台配置文件中的待监控平台的配置信息,确定当前的待监控进程。

在本实施方式中,为了实现对待监控平台的监控,可以读取监控平台配置文件中的待监控平台的配置信息,从而能够根据该配置文件确定当前待监控的进程。进一步地,由于随着平台的运行,随时都有可能出现故障,因此,为了保障平台的正常运行,可以定期地读取监控平台配置文件中的待监控平台的配置信息,确定当前是否有新增的需要被监控的待监控进程。具体地,定期读取待监控平台的时间可以由用户自行设置,举例来说,可以根据待监控平台的重要程度为不同的待监控平台设置不同的读取配置文件的时间,若待监控平台处理的业务较为重要,则可以为其设置较短的读取配置文件的时间,以保障该待监控平台能够正常运行,若待监控平台处理的业务重要度一般,则可以为其设置较长的读取配置文件的时间,以达到节约资源的效果。此外,读取监控平台配置文件中的待监控平台的配置信息之后,还可以对当前监控模块数据进行初始化,以实现对获取到的待监控进程的监控。

步骤102、定期采用不同的监控方式对不同的所述待监控进程进行监控。

在本实施方式中,定期读取监控平台配置文件中的待监控平台的配置信息,确定当前的待监控进程之后,需要对当前全部待监控进程进行监控,具体地,为了增加监控的准确性,可以对不同的待监控进程采用不同的监控方式,其中待监控进程包括待监控应用进程与待监控组件进程,从而能够实现对待监控平台中所有的组件与应用当前运行进程的监控。需要说明的是,定期对待监控进程进行监控的时间可以由用户自行设置,其可以与定期读取待监控平台配置文件的时间一致,也可以不一致,本发明在此不做限制。

步骤103、若监控到任一所述待监控进程出现故障,则向运维人员发送运维通知。

在本实施方式中,若定期采用不同的监控方式对不同的待监控进程进行监控之后,若监控得出任一个待监控进程出现故障,则可以向运维人员发送运维通知,以使运维人员根据该运维通知对出故障的进程进行及时运维,此外,还可以使运维人员对当前平台的运行状态进行及时了解。

本实施例提供的平台监控与告警方法,通过定期读取监控平台配置文件中的待监控平台的配置信息,确定当前待监控进程,并采用不同的监控方式对当前确定的全部待监控进程进行监控,并在监控到任一待监控进程出故障的时候,向运维人员发送运维通知,从而能够实现对待监控平台内全部待监控进程的监控,进而能够避免现有技术中由于平台监控方法无法对应用或者组件的状态进行判断而导致应用或者组件当前运行状态发生故障时,无法及时通知用户进行运维,从而影响平台正常运行的技术问题。

进一步地,在上述实施例的基础上,步骤102具体包括:

若所述待监控进程为数据库进程,则通过预设的数据库接口向所述数据库中添加一条数据,若能够成功删除所述数据,则判定所述数据库进程当前正常运行,若不能成功删除所述数据,则判定所述数据库进程当前出现故障;

若所述待监控进程为加密机进程,则通过预设的加密机接口调用所述加密机的加密算法,若接收到所述加密机的反馈,则判定所述加密机进程当前正常运行;若未接收到所述加密机的反馈,则判定所述加密机进程当前出现故障;

若所述待监控进程为第一应用进程,则通过预设的第一应用接口调用所述第一应用进程中预设的监控方法并接收所述第一应用进程的反馈信息,将所述反馈信息与预设的标准反馈信息进行比对,若一致,则判定所述第一应用进程当前正常运行,若不一致,则判定所述第一应用进程当前出现故障;

若所述待监控进程为第二应用进程,则通过预设的第二应用进程接口调用所述第二应用进程的当前工作文件与上一工作文件,获取所述当前工作文件与上一工作文件的生成时间,若所述当前工作文件的生成时间在所述上一工作文件的生成时间之后,且接近于当前时间,则判定所述第二应用进程当前正常运行,若所述当前工作文件的生成时间与所述当前时间相差大于预设的阈值,则判定所述第二应用进程当前出现故障;

若所述待监控进程为第三应用进程,则通过预设的第三应用进程接口访问所述第三应用进程返回当前系统时间的页面,若所述页面能够正常返回当前系统时间,则判定所述第三应用进程当前正常运行,若所述页面不能正常返回当前系统时间,则判定所述第三应用进程当前出现故障。

在本实施例中,为了提高对待监控平台中待监控组件监控的准确度,可以对不同的待监控平台采取不同的监控方式。具体地,若待监控进程为数据库进程,则为了确定数据库当前正常运行,可以向数据库中添加一条数据,并对添加的数据进行删除,若能够成功删除该数据,则可以判定数据库进程当前正常运行,若不能成功删除所述数据,则判定数据库进程当前出现故障。其中,数据库包括但不限于MySQL、Redis、MongoDB。以待监控进程为MySQL组件举例来说,可以定期向数据库特定的表中插入一条数据后,再将这条数据删除,从而可以验证数据库是否为可操作状态,如果插入及删除操作成功,则说明当前MySQL为正常工作状态,如果插入或删除任何一个操作失败,则说明当前MySQL出现故障。

若待监控进程为加密机进程,由于加密机内设置有一个随时获取随机数的加密方法,为了判断当前加密机是否正常运行,可以通过预设的接口调用加密机的加密算法,若能够接收到加密机的反馈,则可以判定当前加密机正常运行,若未接到解密机的反馈,则可以判定当前加密机运行出现故障。

若待监控进程为第一应用进程,举例来说,第一应用进程可以为待监控平台中与用户终端进行交互的应用或者与运营商进行订单沟通的应用。由于在第一应用未出现故障情况下,与第一应用进行交互时,第一应用会有一个标准的反馈信息,记录该反馈信息,在对第一应用进程进行测试的时候,可以通过预设的接口调用第一应用进程中预设的监控方法并接收第一应用进程的反馈信息,将反馈信息与预设的标准反馈信息进行比对,若一致,则判定第一应用进程当前正常运行,若不一致,则判定第一应用进程当前出现故障。举例来说,针对与用户终端进行交互的应用来说,定时调用与用户终端进行交互的应用的认证初始化方法,当返回“认证初始化失败”信息时,说明当前与用户终端进行交互的应用工作正常,如没有反馈信息时,则说明当前与用户终端进行交互的应用节点状发生故障。

若待监控进程为第二应用进程,其中,该第二应用进程可以为成卡订单管理应用,可以通过预设的第二应用进程接口调用第二应用进程的当前工作文件与上一工作文件,获取当前工作文件与上一工作文件的生成时间,若当前工作文件的生成时间在上一工作文件的生成时间之后,且接近于当前时间,则判定第二应用进程当前正常运行,若当前工作文件的生成时间与当前时间相差大于预设的阈值,则判定第二应用进程当前出现故障。具体地,可以获取第二应用进程的当前工作文件与上一工作文件,并获取当前工作文件与上一工作文件的生成时间,若第二应用正常运行,则获取的当前工作文件的生成时间应该在上一工作文件的生成时间之后,而且该时间可能应该更接近与当前的时间,因此,可以通过当前工作文件与上一工作文件的生成时间来判断第二应用当前是否正常运行,相应地,若检测到当前工作文件的生成时间与当前时间相差大于预设的阈值,也就是说,第二应用超过预设的时间没有生成新的工作文件,则可以判定第二应用当前运行发生故障。

若待监控进程为第三应用进程,其中,第三应用进程可以为平台管理页面应用,可以通过预设的第三应用进程接口访问第三应用进程返回当前系统时间的页面,若页面能够正常返回当前系统时间,则判定第三应用进程当前正常运行,若页面不能正常返回当前系统时间,则判定第三应用进程当前出现故障。

本实施例提供的平台监控与告警方法,通过采用不同的方式对不同的待监控进程进行监控,从而能够提高带监控进程的准确性,进而为提高平台的监控运维效率提供了基础。

进一步地,在上述任一实施例的基础上,步骤103具体包括:

若监控到任一所述待监控进程出现故障,则确定出现故障的待监控进程的标识与故障时间;

通过短信或者邮件的方式向所述运维人员发送所述运维通知,所述运维通知中包括所述待监控进程的标识故障时间。

在本实施例中,确定了当前运行出现故障的待监控进程之后,可以向运维人员发送通知,具体地,为了使运维人员对当前出现故障的待监控进行进行细致地了解,在监控到任一待监控进程出现故障之后,可以确定出现故障的待监控进程的标识与故障时间,并以邮件或者短信的方式向运维人员发送运维通知,其中,运维通知中包括出现故障的待监控进程的标识与故障时间,从而运维人员可以根据该运维通知定位出现故障的进程并及时进行修复。作为一种可实施的方式,在运维通知中携带出现故障的待监控进程的标识与故障时间,运维人员可以根据待监控进程的标识确定待监控进程的重要程度,并根据不同的重要程度以及出现故障的时间合理安排运维的时间与先后顺序。

本实施例提供的平台监控与告警方法,通过若监控到任一待监控进程出现故障,则确定出现故障的待监控进程的标识与故障时间;通过短信或者邮件的方式向运维人员发送运维通知。从而能够及时对出现故障的待监控节点进行运维,避免待监控系统出现故障,提高待监控系统的运行效率。

图2为本发明实施例二提供的平台监控与告警方法的流程示意图,如图2所示,在上述任一实施例的基础上,所述方法还包括:

步骤201、定期读取监控平台配置文件中的待监控平台的配置信息,确定当前的待监控进程;

步骤202、针对每一所述待监控进程,判断当前是否新增待监控节点,其中,每一所述待监控进程包括至少一个待监控节点;

步骤203、若是,则确定所述待监控节点的节点信息,将所述节点信息添加至当前的待监控进程对应的监控配置文件中,以实现对所述新增待监控节点的监控;

步骤204、定期采用不同的监控方式对不同的所述待监控进程进行监控;

步骤205、若监控到任一所述待监控进程出现故障,则向运维人员发送运维通知。

在本实施例中,为了能够优质地完成待监控平台当前所处理的业务,待监控平台内的进程中的节点可能会根据当前的需求进行增加,例如,在已有3个MySQL节点的情况下,可以新增一个MySQL节点。因此,为了保证全部的节点都能被监控,定期读取监控平台配置文件中的待监控平台的配置信息之后,针对每一个待监控进程,可以判断当前是否新增待监控节点,其中,每一待监控进程包括至少一个待监控节点,若是,则为了实现对新增节点的监控,需要获取新增节点的节点信息,具体地,该节点信息可以为IP地址或者其他可以唯一表征该节点的信息,本发明在此不做限制。获取到节点信息之后,可以将该节点信息添加至当前待监控进程对应的监控配置文件中,从而能够实现对新增节点的监控。

本实施例提供的平台监控与告警方法,通过定期检测待监控进程中是否新增节点,若是,则将新增节点的节点信息添加至当前待监控进程对应的监控配置文件中,从而能够实现对新增节点的监控,提高待监控系统的监控效率。

进一步地,在上述任一实施例的基础上,步骤201之后,所述方法还包括:

确定当前是否新增待监控进程;

若是,则接收运维人员开发的所述新增待监控进程的监控能力源码;

将所述新增待监控进程的监控能力源码添加至当前待监控进程对应的监控能力源码中。

在本实施例中,为了能够优质地完成待监控平台当前所处理的业务,待监控平台内的进程可能会根据当前的需求进行增加,例如,待监控平台可以新增对Elasticsearch组件的监控能力。因此,为了保证待监控平台中全部的进程都能被监控,定期读取监控平台配置文件中的待监控平台的配置信息之后,可以确定当前是够新增待监控进程,若是,则提示运维人员开发关于新增待监控进程的监控能力源码,接收运维人员开发的所述新增待监控进程的监控能力源码,并在现有的待监控进程对应的监控能力源码的基础上,将新增待监控进程的监控能力源码添加进去,从而能够在不改变当前监控能力源码的基础上,实现对新增组件的监控。

本实施例提供的方法,通过定期检测待监控进程中是否新增待监控进程,若是,则接收运维人员开发的新增待监控进程的监控能力源码;将新增待监控进程的监控能力源码添加至当前待监控进程对应的监控能力源码中。从而能够实现对新增待监控进程的监控,提高待监控系统的监控效率。

图3为本发明实施例三提供的平台监控与告警装置的结构示意图,如图3所示,所述装置包括:

读取模块31,用于定期读取监控平台配置文件中的待监控平台的配置信息,确定当前的待监控进程。

监控模块32,用于定期采用不同的监控方式对不同的所述待监控进程进行监控。

通知模块33,用于若监控到任一所述待监控进程出现故障,则向运维人员发送运维通知。

本实施例提供的平台监控与告警装置,通过定期读取监控平台配置文件中的待监控平台的配置信息,确定当前待监控进程,并采用不同的监控方式对当前确定的全部待监控进程进行监控,并在监控到任一待监控进程出故障的时候,向运维人员发送运维通知,从而能够实现对待监控平台内全部待监控进程的监控,进而能够避免现有技术中由于平台监控方法无法对应用或者组件的状态进行判断而导致应用或者组件当前运行状态发生故障时,无法及时通知用户进行运维,从而影响平台正常运行的技术问题。

进一步地,在上述实施例的基础上,监控模块32具体包括:

第一判定单元,用于若所述待监控进程为数据库进程,则通过预设的数据库接口向所述数据库中添加一条数据,若能够成功删除所述数据,则判定所述数据库进程当前正常运行,若不能成功删除所述数据,则判定所述数据库进程当前出现故障;

第二判定单元,用于若所述待监控进程为加密机进程,则通过预设的加密机接口调用所述加密机的加密算法,若接收到所述加密机的反馈,则判定所述加密机进程当前正常运行;若未接收到所述加密机的反馈,则判定所述加密机进程当前出现故障;

第三判定单元,用于若所述待监控进程为第一应用进程,则通过预设的第一应用接口调用所述第一应用进程中预设的监控方法并接收所述第一应用进程的反馈信息,将所述反馈信息与预设的标准反馈信息进行比对,若一致,则判定所述第一应用进程当前正常运行,若不一致,则判定所述第一应用进程当前出现故障;

第四判定单元,用于若所述待监控进程为第二应用进程,则通过预设的第二应用进程接口调用所述第二应用进程的当前工作文件与上一工作文件,获取所述当前工作文件与上一工作文件的生成时间,若所述当前工作文件的生成时间在所述上一工作文件的生成时间之后,且接近于当前时间,则判定所述第二应用进程当前正常运行,若所述当前工作文件的生成时间与所述当前时间相差大于预设的阈值,则判定所述第二应用进程当前出现故障;

第五判定单元,用于若所述待监控进程为第三应用进程,则通过预设的第三应用进程接口访问所述第三应用进程返回当前系统时间的页面,若所述页面能够正常返回当前系统时间,则判定所述第三应用进程当前正常运行,若所述页面不能正常返回当前系统时间,则判定所述第三应用进程当前出现故障。

本实施例提供的平台监控与告警装置,通过采用不同的方式对不同的待监控进程进行监控,从而能够提高带监控进程的准确性,进而为提高平台的监控运维效率提供了基础。

进一步地,在上述任一实施例的基础上,通知模块33具体包括:

确定单元,用于若监控到任一所述待监控进程出现故障,则确定出现故障的待监控进程的标识与故障时间;

发送单元,用于通过短信或者邮件的方式向所述运维人员发送所述运维通知,所述运维通知中包括所述待监控进程的标识故障时间。

本实施例提供的平台监控与告警装置,通过若监控到任一待监控进程出现故障,则确定出现故障的待监控进程的标识与故障时间;通过短信或者邮件的方式向运维人员发送运维通知。从而能够及时对出现故障的待监控节点进行运维,避免待监控系统出现故障,提高待监控系统的运行效率。

图4为本发明实施例四提供的平台监控与告警装置的结构示意图,如图4所示,在上述任一实施例的基础上,所述装置还包括:

读取模块41,用于定期读取监控平台配置文件中的待监控平台的配置信息,确定当前的待监控进程;

判断模块42,用于针对每一所述待监控进程,判断当前是否新增待监控节点,其中,每一所述待监控进程包括至少一个待监控节点;

第一添加模块43,用于若是,则确定所述待监控节点的节点信息,将所述节点信息添加至当前的待监控进程对应的监控配置文件中,以实现对所述新增待监控节点的监控;

监控模块44,用于定期采用不同的监控方式对不同的所述待监控进程进行监控;

通知模块45,用于若监控到任一所述待监控进程出现故障,则向运维人员发送运维通知。

本实施例提供的平台监控与告警装置,通过定期检测待监控进程中是否新增节点,若是,则将新增节点的节点信息添加至当前待监控进程对应的监控配置文件中,从而能够实现对新增节点的监控,提高待监控系统的监控效率。

进一步地,在上述任一实施例的基础上,所述装置还包括:

新增待监控进程确定模块,用于确定当前是否新增待监控进程;

开发模块,用于若是,则接收运维人员开发的所述新增待监控进程的监控能力源码;

第二添加模块,用于将所述新增待监控进程的监控能力源码添加至当前待监控进程对应的监控能力源码中。

本实施例提供的装置,通过定期检测待监控进程中是否新增待监控进程,若是,则接收运维人员开发的新增待监控进程的监控能力源码;将新增待监控进程的监控能力源码添加至当前待监控进程对应的监控能力源码中。从而能够实现对新增待监控进程的监控,提高待监控系统的监控效率。

本发明的另一实施例还提供一种平台监控与告警设备,其特征在于,包括:存储器,处理器;

存储器;用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为:定期读取监控平台配置文件中的待监控平台的配置信息,确定当前的待监控进程;

定期采用不同的监控方式对不同的所述待监控进程进行监控;

若监控到任一所述待监控进程出现故障,则向运维人员发送运维通知。

本发明的另一实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述的平台监控与告警方法。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1