一种CDN设备服务的监控系统及监控方法与流程

文档序号:17937872发布日期:2019-06-18 22:46阅读:133来源:国知局
一种CDN设备服务的监控系统及监控方法与流程

本发明涉及一种网络设备的监控技术,尤其是涉及一种cdn设备服务的监控系统及监控方法。



背景技术:

cdn技术为目前的互联网用户提供了非常便捷的体验,越来越多cdn服务商为了提供更优质和稳定的服务质量,监控是必不可少的。

目前一些常用的监控系统主要包含设备的心跳上报、主动发包请求、服务端口探测、网络ping监控、故障告警等。主要是监控一些机器存活、服务端口的开启、网络是否延时。以上监控只能针对简单的设备或服务进行监听,收到告警后仍然需要人工去排查具体问题。特别是针对服务端口存活的情况下服务假死,或是机器存活的情况下设备负载高磁盘占满,又或是网络良好的情况下用户访问不佳,还有种种情况仅依靠普通监控远远满足不了现阶段的cdn服务厂商的要求。

于上述当发现问题后,在人工去排查问题引发的原因,往往排查问题会占用大部分时间,当故障时间越长影响的服务就越严重。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种cdn设备服务的监控系统及监控方法。

本发明的目的可以通过以下技术方案来实现:

一种cdn设备服务的监控系统,包括:

客户端,用于按设定频率采集被测设备的监测数据,并生成日志数据;

监控服务器,与所述客户端连接,用于接收所述监测数据,并根据监控配置判断是否触发告警,若是,则根据相应的告警配置产生告警信号;

分析服务器,与所述客户端连接,用于接收所述日志数据,并根据日志数据产生日志分析结果;

消息服务器,与所述监控服务器连接,用于响应所述告警信号,根据消息配置发送告警数据。

所述客户端包括用于采集监测数据的插件模块。

进一步地,该系统还包括:

全局管理服务器,分别连接监控服务器、分析服务器和消息服务器,用于对监控服务器、分析服务器和消息服务器进行管理,并实时显示监测数据、日志分析结果和告警数据。

进一步地,所述全局管理服务器包括:

监控状态显示模块,用于实时显示被测设备的状态;

实时告警显示模块,用于实时显示告警列表;

监控配置模块,用于生成监控服务器的监控配置,包括监控元素和监控逻辑的设置;

告警配置模块,用于生成监控服务器的告警配置,包括告警方式、告警内容和告警用户的设置;

消息配置模块,用于生成消息服务器的消息配置,包括消息发送方式的设置。

进一步地,所述全局管理服务器还包括:

故障排查模块,用于调用并显示监测数据和日志分析结果。

进一步地,所述消息服务器包括:

历史告警列表存储模块,用于存储历史告警列表,所述历史告警列表包括告警数据及对应告警次数。

进一步地,该系统还包括:

数据服务器,分别连接监控服务器、分析服务器和消息服务器,用于保存监测数据、日志分析结果和告警数据。

本发明还提供一种利用所述的监控系统实现的cdn设备服务的监控方法,包括以下步骤:

1)客户端按设定频率采集监测数据,上报给监测服务器,同时向分析服务器发送日志数据;

2)监测服务器接收监测数据,根据监测配置判断是否触发告警,若是,则根据相应的告警配置产生告警信号;

3)消息服务器响应所述告警信号,根据消息配置发送告警数据。

进一步地,步骤1)中,每条所述监测数据包括监控元素名称、发送频率值、服务器地址、发送时间和监控元素的值。

进一步地,步骤3)中,消息服务器保存告警数据及其对应的告警次数形成历史告警列表,并停止告警次数达到设定上限的告警数据直至告警解除。

与现有技术相比,本发明具有以下有益效果:

1、客户端和客户端插件的组合搭配方式,可以针对各种监控拓展各自的插件,更易于扩展和定制化。

2、客户端可以灵活定制数据周期,更加合理的控制监控频率。

3、客户端和监控服务器通讯,通过规范的数据格式传输,支持非客户端的监控数据上报,既规范又灵活。

4、监控服务器提供各种监控数据查询接口,可对外提供各种数据查询服务。

5、分析服务器支持扩展日志的分析插件,支持多种上报的错误日志分析,在扩展和分析上更加灵活。

6、分析服务器也支持各种分析数据的查询接口,可对外提供各种数据查询服务。

7、数据服务器采用环形数据存放方式,减少了历史数据存放的维护。

8、全局管理服务器对监控服务器、分析服务器、消息服务器进行管理,让管理更加简单方便。

9、全局管理服务器提供各种数据展示和数据分析,更快捷排查故障原因。

10、消息服务器对于发送告警次数用完后的即不在发送告警信息,有效减少了重复的告警和邮件。

附图说明

图1为本发明的整体监控系统架构示意图;

图2为全局管理服务功能示意图;

图3为实现cdn设备服务监控的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

如图1所示,本实施例提供一种cdn设备服务的监控系统,包括客户端1、监控服务器2、分析服务器3和消息服务器6,其中,客户端1设置一个或多个,用于按设定频率采集被测设备的监测数据,并生成日志数据;监控服务器2与所述客户端1连接,用于接收所述监测数据,并根据监控配置判断是否触发告警,若是,则根据相应的告警配置产生告警信号;分析服务器3与所述客户端1连接,用于接收所述日志数据,并根据日志数据产生日志分析结果;消息服务器6与所述监控服务器2连接,用于响应所述告警信号,根据消息配置发送告警数据。监控配置、告警配置和消息配置均可预先设置。

在某些实施例中,客户端1可包括用于采集监测数据的插件模块,插件为客户端提供服务,客户端也可以没有插件单独运行。客户端1采集的监测数据包括机器的常规或定制的数据。

在某些实施例中,该监测系统还包括全局管理服务器5,分别连接监控服务器2、分析服务器3和消息服务器6,用于对监控服务器2、分析服务器3和消息服务器6进行管理,并实时显示监测数据、日志分析结果和告警数据,用户或监控人员可以登录到全局管理服务器的页面进行查看。监控过程中各个服务都可以单独分离,降低了耦合性,所有服务有全局管理服务器来协调管理。

全局管理服务器通过web管理界面,可以查询到各项报警记录、机器的状态信息、服务的状态信息、质量分析数据、日志分析数据、历史数据统计;也可以通过web管理界面设置监控报警逻辑、报警内容设置、报警方式设置、报警用户设置;也可以通过web管理界面快速排查报警设置的状态、异常日志、服务性能、网络质量等。

具体地,全局管理服务器5包括监控状态显示模块、实时告警显示模块、监控配置模块、告警配置模块和消息配置模块,其中,监控状态显示模块用于实时显示被测设备的状态;实时告警显示模块用于实时显示告警列表;监控配置模块用于生成监控服务器的监控配置,包括监控元素和监控逻辑的设置;告警配置模块用于生成监控服务器的告警配置,包括告警方式、告警内容和告警用户的设置;消息配置模块用于生成消息服务器的消息配置,包括消息发送方式的设置。

如图2所示为全局管理服务器5的功能示意图。监控状态显示模块可显示常规监控信息、业务监控信息和质量监控信息。常规监控主要用于查看客户上报的机器的常规情况的数据展示,其中包含如:机器的负载、cpu、内存、磁盘、io、网卡流量、连接数、心跳等等状态的展示。业务监控主要通过插件定制,如客户使用带宽、流量、访问状态码、访问人数等一些定制数据的监控和展示。质量监控主要是监控加速内容的下载速度、响应时间、域名解析、内容一致性、丢包率等影响服务质量的监控展示。

实时告警显示模块用于展示报警的内容,提供监控人员实时查看当前所有的告警列表,便于监控人员投放在监控大屏设备上进行展示。实时告警包含了所有监控服务器通过消息服务器发送给用的告警信息。

监控配置模块主要为常规、业务、质量进行监控配置,包括监控元素和监控逻辑的设置。其中监控元素即监控的元素项目,是整个监控系统中每个监控项的最小元素,具有唯一性,有有助于数据的存取和分析,便于监控规则判断,例如cpu的使用百分比,带宽是使用的mb等。监控逻辑包括监控规则、监控时间范围、采用数据点等,监控规则包括最大、最小、等于、大于等于、小于等于、环比、增降幅度比例或特定的内容等。

在某些实施例中,全局管理服务器5还包括故障排查模块,用于调用并显示监测数据和日志分析结果。

在某些实施例中,消息服务器6包括:历史告警列表存储模块,用于存储历史告警列表,所述历史告警列表包括告警数据及对应告警次数。可根据告警次数判断是否发送告警数据,减少重复的告警和邮件。

在某些实施例中,该监测系统还包括数据服务器4,分别连接监控服务器2、分析服务器3和消息服务器6,用于保存监测数据、日志分析结果和告警数据。

如图3所示,通过一具体的实例来阐述上述监测系统的监控流程。

客户端默认一次会采集多项常规数据有周期性的上报。如心跳上报、ping监控上报都需要定制一定周期性,有规律是数据更能有效的分析和展示。周期性上报特性有助于数据分析和直观展示。

采集的信息按照监控元素名称、发送频率值、服务器地址、发送时间、监控元素的值,将5个必要数据元素封装后发送到监控服务器。5个必要数据元素为客户端和监控服务端对数据的规范强制约束,规范性有助于客户端的插件扩展和监控服务端数据处理。例如使用插件方式发送定制的数据,只要定制一个监控元素名称,并按5个必要数据元素进行封装后发送到监控服务器即可完成一个定制数据的上报。

监控元素是整个监控系统中每个监控项的最小元素,针对每个机器都是唯一存在的,在多个客户端设备上同时上报同一监控元素的监控数据,在监控服务端将监控元素、服务器地址两者组合成唯一的元素项,便于数据服务器的存放和提取。监控元素的唯一性有助于数据的存取和分析,便于监控规则判断。

在监控服务器在接收客户端发送过来数据后,会检索监控配置,是否有该机器和该元素的监控配置。若有监控配置,此处监控元素的唯一性就能很方便的提取到该机器和元素的历史数据。往往在监控规则过于复杂判断中,唯一性提升更快更高的效率。若监控规则设置近5个时间点的数据都超过某个阀值,那么通过唯一元素可以快速查询到历史数据来比较是否都超过阀值,是否触发报警。

监控配置同时也设置监控时间范围,灵活配置工作日、假期、白天业务的监控规则。假若实例中需要白天邮件报警,晚上短信告警,灵活的监控时间设置就能更方便设置。

根据设置的监控规则进行验证数据是否触发告警。当上报数据的所有条件都满足了监控规则的要求,则该数据既为告警数据。

告警数据会保存到数据服务器,用于全局管理服务器的web页面进行展示和页面告警,告警数据同时也会作为告警和恢复告警的信息发送依据。

告警数据发送给消息服务器后,信息服务器会根据告警数据的级别来判定消息发送方式,是通过邮件还是短信或是组合方式来通知用户和监控人员,监控服务器设置的告警方式优先于消息服务器的消息发送方式。同时,若告警的唯一元素名称已经存在了历史告警列表,则消息服务器根据设置的告警次数发送告警邮件或短信,一旦发送告警次数用完后即不再发送告警信息,直到该告警恢复后,对应监控元素名称会从历史告警列表中剔除同时也会重载告警次数。该特性主要是为了减少重复的告警和邮件。

用户或监控人员收到告警通知或是在全局管理服务器的告警列表页面发现告警事件后,监控人员可以登录到全局的管理页面进行分析和处理。

在全局管理服务的页面,通过告警数据中的ip信息和监控元素名称可以快速的查看该元素数据的历史数据图和明细数据。通过告警数据中的ip可以即时采集到并查看到ip设备的当前cpu、内存、磁盘、io、负载状态,通过这些信息可以基本判定设备的状态。若报警内容非常规告警,而是业务告警或质量告警,若告警内容为业务服务的告警。假设实例中告警为带宽业务告警,首要根据告警数据的监控元素,在业务监控模块查看该告警元素的历史数据图,通过对该告警时间点进行分析。通过分析服务提供的接口提取该时间点的分布数据,来判断是告警是整体情况还是局部特殊情况来缩小范围。逐步根据全局管理服务提供页面工具进行数据分析和排查。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1