一种云平台监控系统的异常定位方法和装置与流程

文档序号:14879200发布日期:2018-07-07 09:18阅读:176来源:国知局

本发明实施例涉及数据维护技术领域,尤其涉及一种云平台监控系统的异常定位方法和装置。



背景技术:

近年来,云计算技术迅速发展,云服务作为一种比较新的服务提供方式逐渐被接受并广泛应用。支撑云服务的是其云计算系统,云计算系统(或称云平台)又分私有云、公有云和混合云等多种形态。由于云计算技术的复杂性,云计算系统中经常发生各种故障或异常。这些故障或异常会直接影响资源承载的业务,甚至会导致严重的经济损失,因此快速感知和定位异常信息是云计算系统运维面临的一个主要任务。

云平台监控系统是感知异常或告警信息的有效工具。云平台监控系统,一般包含指标采集、指标上报、指标分析和告警处理等多个模块。监控系统通过指标采集模块采集设定的各种指标,通过指标上报模块将采集的数据发送至指标分析模块,指标分析模块根据设定的规则对数据进行检测,当达到某种预先设定的规则时可以通过告警处理模块发出各种告警通知。日志记录了程序或系统的运行历史状态,在软件程序中占有非常重要的地位,通过分析日志中的错误信息或关键日志信息有利于快速排查程序问题。并且,通过实时分析日志也可以达到监控异常并快速定位的目的。

然而,云计算系统规模庞大、业务逻辑复杂,日志数据量大且信息记录分散,虽然有各种日志集中管理系统,但真正通过查找日志信息来分析故障或问题仍然比较困难。首先,一个简单服务故障可能的原因有多种多样,可能要同时分析云计算系统各种服务日志、云计算系统各个物理主机系统日志以及云计算系统各种硬件运行信息相关日志的异常信息等,很难快速确定哪个日志中记录的异常相关的信息。其次,某个服务的故障不一定是由于物理资源或云平台服务的故障导致的,系统资源或服务运行状态的波动或不稳定也可能导致对位服务的异常或故障,并且日志中也可能没有记录下明显的错误日志信息。监控系统的异常或故障警报与具体某个日志文件没有必然的联系,这给通过分析日志定位问题带来很大的困难。



技术实现要素:

本发明提供一种云平台监控系统的异常定位方法和装置,可以提高定位异常问题的效率,方便运维。

第一方面,本发明实施例提供了一种云平台监控系统的异常定位方法,包括:

通过关联检索系统接收指标数据管理系统发送的告警信息;

通过所述关联检索系统向所述指标数据管理系统发送指标信息查询请求,且获取所述指标数据管理系统响应所述指标信息查询请求返回的指标信息;

通过所述关联检索系统向日志管理系统发送日志信息查询请求,且获取所述日志管理系统响应所述日志信息查询请求返回的日志信息;

依据所述指标信息和所述日志信息进行异常定位。

第二方面,本发明实施例还提供了一种云平台监控系统的异常定位装置,该装置包括:

告警接收模块,用于通过关联检索系统接收指标数据管理系统发送的告警信息;

指标信息获取模块,用于通过所述关联检索系统向所述指标数据管理系统发送指标信息查询请求,且获取所述指标数据管理系统响应所述指标信息查询请求返回的指标信息;

日志信息获取模块,用于通过所述关联检索系统向日志管理系统发送日志信息查询请求,且获取所述日志管理系统响应所述日志信息查询请求返回的日志信息;

异常定位模块,用于依据所述指标信息和所述日志信息进行异常定位。

本发明实施例通过关联检索系统接收到告警信息后,向指标数据管理系统和日志管理系统分别发送指标信息和日志信息查询的请求,并获取返回的指标信息和日志信息,从而依据获取到的指标信息和日志信息进行异常定位。本发明实施例提供的技术方案通过关联检索系统可以关联查询并获取到指标信息和日志信息,由于指标信息中包括与异常相关的所有资源信息,将指标信息和日志信息结合分析能快速感知异常并定位异常出现的具体位置,可以提高位异常问题的效率,方便运维。

附图说明

图1为本发明实施例一中的一种云平台监控系统的异常定位方法的流程图;

图2为本发明实施例一中的一种云平台监控系统的示意图;

图3为本发明实施例二中的一种云平台监控系统的异常定位方法的流程图;

图4为本发明实施例三中的一种云平台监控系统的异常定位装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中的一种云平台监控系统的异常定位方法的流程图,本实施例可适用于云平台监控系统的异常定位的情况,该方法可以由云平台监控系统的异常定位装置来执行,该方法具体可以包括:

步骤110、通过关联检索系统接收指标数据管理系统发送的告警信息。

其中,所述关联检索系统和指标数据管理系统可以配置在云平台监控系统中。所述云平台可以提供云服务,云服务是基于互联网的相关服务的增加、使用和交互模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云服务可以包括基础设施服务(infrastructureasaservice,iaas)、平台服务(platformasaservice,paas)和软件服务(softwareasaservice,saas)等等。iaas可以提供计算基础架构,通常是物理机/虚拟机、网络资源和其他资源,如虚拟机镜像库、基于文件的存储、防火墙、负载均衡、ip地址、虚拟局域网等等。paas可以提供计算平台,可以包括操作系统、编程语言的运行环境、数据库和web服务器等。saas可以提供被称为按需支付费用的应用软件,saas服务提供商来完成各种应用程序的安装、设置和运行维护,用户只需支付费用,通过一些可视化的客户端来使用它。

图2为本发明实施例一中的一种云平台监控系统的示意图,云平台监控系统可以嵌入到云平台中,并可以包括指标和日志管理部分和用户界面两个部分。其中指标采集系统和日志采集系统分别可以采集指标数据和日志信息,以记录业务定义的资源信息、业务进程信息、系统服务信息和硬件运行信息等。指标和日志管理部分可以包括指标数据管理系统、日志管理系统和关联检索系统。用户界面可以包括指标查询接口、关联查询接口和日志查询接口,用户界面可以通过调用指标查询接口、关联查询接口和日志查询接口对指标数据管理系统、日志集中管理系统和关联检索系统进行配置或进行交互查询。

其中,所述指标数据管理系统可以包括采集指标配置模块,可以向指标采集系统配置要采集的指标及采集规则;包括告警规则配置模块,可以配置各种故障和问题检测的告警匹配规则;包括告警消失判断及发送模块,可以根据实时上报的数据和告警匹配规则自动向关联检索系统发送告警,告警信息中包含资源标示信息及告警匹配规则信息;包括指标数据检索模块,可以存储指标信息,可以接收关联检索系统发送的请求,根据指定的资源信息,查询相关资源及指标信息。

所述关联检索系统可以包括告警接收模块,可以接收指标数据管理系统发送的告警信息;包括关联判断模块,可以配置关联检索的规则(如关联检索物理主机信息、进程信息),可以基于关联检索系统与指标数据管理系统的交互,查询相关资源信息;包括日志查询模块,可以基于关联检索系统与日志集中管理系统的交互,查询相关日志信息。

具体的,通过关联检索系统的告警接收模块可以接收指标数据管理系统中的告警消息判断及发送模块根据所述指标采集系统发送的实时指标数据和告警匹配规则生成并发送的告警信息。

步骤120、通过所述关联检索系统向所述指标数据管理系统发送指标信息查询请求,且获取所述指标数据管理系统响应所述指标信息查询请求返回的指标信息。

其中,所述指标信息查询请求可以包括资源的id信息和时间信息等。

具体的,通过关联检索系统中的关联判断模块可以向所述指标数据管理系统发送指标信息查询请求,指标数据管理系统中的指标数据检索模块响应所述指标信息查询请求可以进行相关资源及指标信息的查询,并将所述指标信息返回给关联检索系统。通过指标信息的查询,可以查询每一层资源信息,进行深度异常的定位,更加全面和及时。

步骤130、通过所述关联检索系统向日志管理系统发送日志信息查询请求,且获取所述日志管理系统响应所述日志信息查询请求返回的日志信息。

其中,所述日志信息查询请求可以包括时间信息、日志级别和日志上下文信息等。

具体的,通过关联检索系统中的日志查询模块可以向所述日志管理系统发送日志信息查询请求,日志管理系统响应所述日志信息查询请求可以进行相关日志信息的查询,并将所述日志信息返回给关联检索系统。

步骤140、依据所述指标信息和所述日志信息进行异常定位。

具体的,云平台监控系统可以根据获取到的指标信息和日志信息进行逐层分析,从而实现异常定位。

示例性的,当某一异常情况出现时,如一个简单的对外提供的某个软件服务(softwareasaservice,saas)中的客户管理服务不能运行,通过步骤120和步骤130关联查询并获取到与此软件服务相关的指标信息和日志信息,通过对指标信息和日志信息的逐层交叉对比分析,如与此软件服务相关的业务服务实时数据和日志、物理主机系统的实时数据日志以及硬件运行实时数据和日志等。通过相关日志信息进行异常的初步定位,根据正态分布数据统计方法,定义相关各个指标的正常范围,确定相关的指标是否超出正常范围,若某个物理主机的指标超出正常范围,则可以确定该物理主机存在异常。

本实施例通过关联检索系统接收指标数据管理系统发送的告警信息,通过所述关联检索系统向所述指标数据管理系统和日志管理系统发送指标信息查询请求和日志信息查询请求,且获取所述指标数据管理系统和日志管理系统响应所述指标信息查询请求和日志信息查询请求返回的指标信息和日志信息,并依据所述指标信息和所述日志信息进行异常定位。本实施例提供的技术方案通过关联检索系统可以关联查询并获取到指标信息和日志信息,由于指标信息中包括与异常相关的所有资源信息,将指标信息和日志信息结合分析能快速感知异常并定位异常出现的具体位置,可以提高位异常问题的效率,方便运维。

实施例二

图3为本发明实施例二中的一种云平台监控系统的异常定位方法的流程图。本实施例在上述实施例的基础上,进一步优化了上述云平台监控系统的异常定位方法。相应的,本实施例的方法具体可以包括:

步骤210、通过指标采集系统和日志采集系统依据资源标示信息分别采集同一对象的实时指标数据和日志信息,且将采集的实时指标数据和日志信息分别发送给所述指标数据管理系统和所述日志管理系统。

其中,所述资源标示信息可以包括主机表示信息、主机硬件资源信息、服务运行信息、上层业务信息、云平台提供的虚拟机、虚拟机磁盘和虚拟网络信息等,所述同一对象可以为同一主机、同一虚拟机或同一层业务等,例如指标采集系统采集编号为1的主机的实时状态和指标数据,日志采集系统同时采集该编号为1的主机的操作历史记录信息作为日志信息。

具体的,通过指标采集系统和日志采集系统依据资源标示信息分别可以采集同一对象的实时指标数据和日志信息,且将采集的实时指标数据和日志信息分别发送给所述指标数据管理系统和日志管理系统,其中所述指标采集系统的采集项和采集周期等参数可以通过指标数据管理系统进行配置,所述日志采集系统的日志过滤条件和处理规则等参数可以通过日志管理系统进行配置。

步骤220、通过关联检索系统接收指标数据管理系统发送的告警信息。

步骤230、通过所述关联检索系统向所述指标数据管理系统发送指标信息查询请求,且获取所述指标数据管理系统响应所述指标信息查询请求返回的指标信息。

在本实施例中,参见图2,所述指标数据管理系统的指标信息也可以通过用户界面的指标查询接口展示给用户。

步骤240、通过所述关联检索系统向日志管理系统发送日志信息查询请求,且获取所述日志管理系统响应所述日志信息查询请求返回的日志信息。

在本实施例中,参见图2,所述日志管理系统的日志信息也可以通过用户界面的日志查询接口展示给用户。

步骤250、通过关联查询接口将查询到的指标信息和日志信息展示给用户。

在本实施例中,参见图2,所述关联查询接口可以设置在用户界面中,可以与关联检索系统连接,通过关联查询接口可以将查询到的指标信息和日志信息展示给用户。

步骤260、依据所述指标信息和所述日志信息进行异常定位。

具体的,用户通过在用户界面查看所述指标信息和日志信息,将指标信息和日志信息进行对比分析,进行异常定位。

本实施例通过指标采集系统和日志采集系统依据资源标示信息分别采集同一对象的实时指标数据和日志信息且分别发送给所述指标数据管理系统和日志管理系统,通过关联检索系统接收指标数据管理系统发送的告警信息,通过所述关联检索系统向所述指标数据管理系统和日志管理系统发送指标信息查询请求和日志信息查询请求,且获取所述指标数据管理系统和日志管理系统响应所述指标信息查询请求和日志信息查询请求返回的指标信息和日志信息,用户通过在用户界面查看所述指标信息和所述日志信息进行异常定位。本实施例提供的技术方案通过关联检索系统可以关联查询并获取到指标信息和日志信息,由于指标信息中包括与异常相关的所有资源信息,将指标信息和日志信息结合对比分析能快速感知异常并定位异常出现的具体位置,可以提高位异常问题的效率,方便运维。

实施例三

图4为本发明实施例三中的一种云平台监控系统的异常定位装置的结构示意图,所述装置可以包括:

告警接收模块310,用于通过关联检索系统接收指标数据管理系统发送的告警信息;

指标信息获取模块320,用于通过所述关联检索系统向所述指标数据管理系统发送指标信息查询请求,且获取所述指标数据管理系统响应所述指标信息查询请求返回的指标信息;

日志信息获取模块330,用于通过所述关联检索系统向日志管理系统发送日志信息查询请求,且获取所述日志管理系统响应所述日志信息查询请求返回的日志信息;

异常定位模块340,用于依据所述指标信息和所述日志信息进行异常定位。

进一步的,该装置还可以包括:

信息采集模块,用于通过指标采集系统和日志采集系统依据资源标示信息分别采集同一对象的实时指标数据和日志信息,且将采集的实时指标数据和日志信息分别发送给所述指标数据管理系统和所述日志管理系统。

进一步的,所述告警信息是所述指标数据管理系统中的告警消息判断及发送模块根据所述指标采集系统发送的实时指标数据和告警匹配规则生成的。

进一步的,该装置还可以包括:

展示模块,用于通过关联查询接口将查询到的指标信息和日志信息展示给用户。

本实施例所提供的云平台监控系统的异常定位装置可执行本发明任意实施例所提供的云平台监控系统的异常定位方法,具备执行方法相应的功能模块和有益效果。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1