基于Apriori算法的IT服务集中监控管理系统的制作方法

文档序号:11918129阅读:来源:国知局

技术特征:

1.基于Apriori算法的IT服务集中监控管理系统,其特征在于,该系统包括有:IT服务集中监控管理单元、IT服务集中监控系统核心流程单元;

IT服务集中监控管理单元包含有:IT设备状态数据采集模块、状态告警触发模块、运维事件处理模块;

IT服务集中监控系统核心流程单元包含有:IT设备状态数据并发采集流程、状态告警规则诊断流程、告警关联事件定位流程;

IT设备状态数据采集模块是IT服务集中监控管理系统的基础功能模块之一,它是系统产生状态数据的基础模块,为数据规则诊断、数据聚合统计等功能提供了前提;

状态告警触发模块是系统获得状态数据或者聚合统计数据后,通过对数据进行分析后,触发状态数据告警的模块,也是状态数据价值产生的所在,通过告警能够使得运维人员更快发现异常情况或未来可能发生的异常情况,并处理;

运维事件处理模块是告警事件发生后运维人员管理告警事件以及运维事件流程的功能模块;

IT设备状态数据并发采集流程主要包含:采集任务定时触发、采集任务执行,进入数据采集模块,系统接收到采集策略后需要根据采集策略新增采集策略任务,首先系统解析采集策略,循环采集策略列表内每个监控项ki,若该监控项ki开启采集,根据监控项采集策略中采集方式,判断需要新增的采集任务类型,根据采集任务类型匹配任务注册器中任务从而生成新任务,新任务添加到任务生成器队列;

状态告警规则诊断流程是系统执行状态数据分析的重要组成部分,主要包含:状态告警数据预处理、状态告警规则诊断、状态告警关联规则诊断;

告警关联事件定位流程在于运维人员处理事件是通过分析关联告警以及关联告警的原始事件定位告警原因。

2.根据权利要求1所述的基于Apriori算法的IT服务集中监控管理系统,其特征在于,所述的IT设备状态数据采集模块分为采集策略管理、数据采集、数据格式化三个部分;

采集策略管理主要由运维管理人员在配置管理模块配置监控项后调用接 口触发,用以将运维人员配置的监控项转化为数据采集模块统一格式化的采集策略,并进行维护,主要功能包括:新增采集策略、更新采集策略、删除采集策略;

采集策略内容包括:监控项基础信息(如监控项ID、名称、IP地址等)、是否开启采集、采集方法、采集时间间隔、采集脚本、采集参数、数据处理脚本、数据格式;

新建一个采集策略,运维人员在配置管理模块选择一个系统提供的监控项模板,模板可以帮助用户快速新增监控项,在新增监控项后,系统通过调用数据采集模块新增采集策略接口新增采集策略;

更新采集策略,运维人员在配置管理模块选择一个监控项,修改监控项内容,在修改监控项后,系统通过调用数据采集模块更新采集策略接口修改采集策略;

删除采集策略的方法是运维人员在配置管理模块选择一个监控项,执行删除操作,在修改监控项后,系统通过调用数据采集模块删除采集策略接口删除采集策略;

数据采集模块的采集策略管理功能保存当前需要进行的采集策略,根据采集时间间隔,任务生成器定时生成当前需要进行采集的采集任务,采集任务根据不同类别采集方式生成,为了适应目前系统需求,即能够采集包括网络设备、服务器、机房基础环境、中间件、应用、数据库、虚拟资源等在内的各项设备,系统目前提供的采集方式包括:jdbc连接、http连接、jmx连接、snmp连接、webservice、remotessh、telnet、email、wmic、jar包执行以及syslog等,采集任务包括主动建立连接采集以及被动监听采集,如jmx、jdbc、snmpget等均属于主动采集,而syslog、snmptrap等类型任务属于被动监听采集类型,对于主动采集任务,任务生成器生成采集任务后,采集任务激活,在采集执行器中执行,同指定设备建立不同类型连接,执行采集脚本等内容,获得原始状态数据,若该采集策略设置有数据处理脚本,系统根据数据处理脚本重新处理数据,得到状态数据,而对于被动监听类型采集,系统根据采集策略开启端口监听,若通过监听的端口收到状态数据,根据数据内容查找对应的采集策略,并进行关联,若未查找到策略,则数据 抛弃;

数据格式化的目的是为了能够将各种类型的状态数据整合,为接下来的数据聚合、数据分析、以及数据入库等做准备,在数据采集后,得到基础状态数据,数据处理模块根据状态数据关联的采集策略组装最终状态数据,最终状态数据首先组合数据关联设备基础信息、采集时间等,对于状态数据具体数值,根据策略中的数据格式定义,系统处理数据格式,组合得到最终的状态数据中,并通过activemq发送状态数据给后续模块。

3.根据权利要求1所述的基于Apriori算法的IT服务集中监控管理系统,其特征在于,所述的状态告警触发模块采用接口触发,系统通过activemq中间件接收状态数据以及聚合统计数据,当数据到达时,则触发数据分析开始,包含有告警规则管理、状态数据或聚合统计数据触发告警、状态告警触发关联告警、生成告警事件及告警通知;

告警规则管理主要由运维管理人员使用,主要功能包括:新增告警规则、更新告警规则、删除告警规则,告警规则内容包括:监控项告警规则基础信息(如监控项ID等)、告警规则ID、告警规则名称、告警规则表达式、告警规则有效时间、告警自动处理操作信息等;

新建一个告警规则,运维人员在配置管理模块选择一个系统提供的监控项模板,模板可以帮助用户快速新增监控项告警规则,在新增监控项后,系统通过调用告警模块新增告警规则接口新增告警规则;

更新告警规则,运维人员在配置管理模块选择一个监控项,修改监控项告警规则内容,在修改监控项后,系统通过调用告警模块更新告警规则接口修改告警规则;

删除告警规则的方法是运维人员在配置管理模块选择一个监控项,删除监控项告警规则,删除后,系统通过调用数据采集模块删除告警规则接口删除告警规则;

状态数据或聚合统计数据触发告警是系统收到新采集的状态数据或刚生成的聚合统计数据后,触发告警规则诊断操作,规则诊断阶段,系统根据接收到状态数据后首先对状态数据进行预处理,预处理的内容是对一条状态数据中多个子项数据扁平化处理,以便对各子项进行分别处理;数据经过预处 理后,系统根据状态数据查找对应的告警规则,根据告警规则中定义的规则表达式,与事件数据进行匹配,目前的告警规则根据匹配次数分为两种:一种为一次匹配,即只要事件数据与表达式匹配则认为该数据异常,触发告警;第二种为多次匹配,则当事件数据与表达式匹配时,查看历史匹配结果,若在告警规则定义的条件内(如有效时间,或采集次数),相同监控项的状态数据与表达式匹配次数达到要求,则认为触发告警,否则储存匹配规则,等待下次诊断;

状态告警触发关联告警在触发告警后,系统根据告警信息,从告警关联规则分析模块获取关联告警规则,若该类型告警不存在关联告警规则,则告警触发操作结束,进入生成告警事件阶段,若该类型告警存在关联告警规则,则根据关联告警规则,获取关联告警信息以及置信度,触发关联告警;

生成告警事件及告警通知:确认触发状态告警后,系统通过调用运维流程管理接口,新增告警事件,同时通知运维人员,目前支持的通知方式包括:短信通知、微信消息推送以及邮件通知,确认触发关联告警后,系统通过调用运维流程管理接口,新增关联告警事件,同时通知运维人员,目前支持的通知方式包括:短信通知、微信消息推送以及邮件通知。

4.根据权利要求1所述的基于Apriori算法的IT服务集中监控管理系统,其特征在于,所述的在运维事件处理流程模块中涉及到普通运维人员以及运维管理人员,包含运维事件处理流程、告警事件分析等主要模块;

运维事件处理流程主要包括事件分配,事件受理,事件处理,事件审核,事件关闭几个步骤,其中事件分配、事件审核由运维管理人员执行,事件受理、事件处理有普通运维人员执行,事件关闭由系统控制执行,在告警触发模块生成告警事件后,同时生成运维事件,告警事件与运维事件关联,运维管理人员收到告警事件通知后,可以为该告警事件分配相关处理人,被分配的运维人员则拥有受理事件的权限,拥有受理事件权限的运维人员,可以受理告警事件,受理告警是处理告警事件的前提,受理后该告警事件不得由他人修改,运维人员处理完设备异常情况,确认设备状态后,在运维管理流程模块处理告警事件,而后提交审核,运维管理人员在接收到告警审核要求后,通过查看设备当前状态,确认设备是否恢复正常,若无异常则审核通过,否 则审核退回,审核通过的告警系统由系统自动关闭,审核退回的告警事件重新回到运维人员受理状态;

告警事件分析是运维人员受理告警事件之后,通过查看告警事件对应原始状态数据以及告警事件关联告警原始数据等,尽快定位及发现设备异常问题原因,从而尽快解决问题的过程,运维人员为了处理告警事件,首先需要尽快确定告警发生原因,多数情况下告警的发生原因能够通过查看告警的原始状态数据以及告警内容发现,某些时候,运维人员无法直观的了解设备异常的根本原因,则需要运维人员通过关联分析来定位可能的告警原因。

5.根据权利要求1所述的基于Apriori算法的IT服务集中监控管理系统,其特征在于,所述的IT设备状态数据并发采集流程在数据管理子系统启动时,自动生成定时任务,每隔1秒钟,采集任务触发线程执行,采集任务触发线程循环任务生成器,获取任务,根据当前时间与任务的最后完成时间间隔,判断时间差是否超过采集周期,若超过采集周期则表示该任务需要立即执行,触发采集任务,将采集任务加入任务执行队列,若不超过采集周期则任务不需触发,若任务从未执行,系统为保证任务随机性,减少大量任务同时采集的可能性,在任务采集周期内随机生成时间间隔,作为该任务最后采集时间;

数据管理子系统启动时创建采集任务执行线程池,用于并发执行采集任务,系统同时创建有任务计划线程,计划线程的作用在于从任务执行队列中获取下一个任务,使用采集任务执行线程池中线程执行采集任务,采集任务执行过程中,首先判断任务是否超时或任务是否为旧任务,若是则任务丢弃记录日志,接着根据采集任务创建用于格式化的采集结果result,result中定义了监控项基本信息、基本采集信息(采集时间等),创建成功后,系统依据采集策略通过建立连接执行采集脚本等方式获取状态数据,采集完成后,若采集策略中存在数据处理脚本,则系统执行脚本处理数据,而后将数据写入result,若不存在数据处理脚本,直接将采集到的数据写入result。

6.根据权利要求1所述的基于Apriori算法的IT服务集中监控管理系统,其特征在于,所述的状态告警规则诊断流程从系统接收到实时状态数据或聚合数据开始,接收到数据后,系统首先对数据进行扁平化预处理,根据 数据子项内容生成一条或多条用于规则诊断的中间数据,数据预处理后,根据数据信息,获取不同类型规则匹配器,并放入规则诊断线程池等待执行匹配,通过规则匹配线程执行初始告警规则诊断操作,告警规则诊断后,判断诊断结果,如果匹配则触发状态告警事件,并通知运维人员,继续执行状态告警关联规则诊断,若不匹配则保存结果,结束规则诊断,关联规则诊断是在匹配告警规则后执行,若关联规则匹配成功,同样生成关联告警事件;

状态告警规则诊断过程是对状态数据与规则表达式是否一致的检验过程,匹配起开始执行匹配任务后,首先构造匹配任务并初始化匹配执行结果,系统的告警规则诊断线程获取到规则匹配任务后,首先根据诊断匹配器信息获取相应的告警规则,同时处理告警规则,转化为可执行的规则,获取规则中所有匹配表达式,逐个使用状态数据替换表达式中变量,并判断表达式是否成立,若表达式成立则与表达式匹配,每次匹配缓存匹配结果,根据所有表达式匹配结果得到最终告警规则匹配结果;

关联规则诊断流程是本次设计新增的主要功能之一,是为了通过分析关联规则,根据当前一直的告警信息了解可能出现的告警,从而尽快处理相关问题,关联规则的诊断流程主要是通过获取已经产生的告警事件关联规则,根据关联规则获取关联告警,从而触发关联告警事件,在进行关联规则诊段过程中,系统首先获取到等待进行关联规则匹配的告警事件,获取告警事件的状态告警规则编号,通过编号向系统的关联规则管理模块获取关联的告警规则,若获取到的关联告警规则为空,表示该告警事件不存在关联事件,若关联规则存在,系统生成关联告警事件,关联告警事件与告警事件不同,关联告警事件不存在告警等级,以关联规则中的置信度作为参考属性保存,对事件处理的时效性要求较低。

7.根据权利要求1所述的基于Apriori算法的IT服务集中监控管理系统,其特征在于,所述的告警关联事件定位流程是对告警原因分析过程中通过对可能造成告警的关联事件进行分析从而确定告警原因的过程,关联分析过程中,系统首先查看告警事件是否存在关联规则,若不存在则停止关联分析,若存在关联规则,首先通过获取关联规则查找关联告警事件,根据关联告警事件信息查找产生告警监控项的关联监控项,为了确认关联事件状态, 系统提供告警事件前后三个周期的关联监控项状态数据展示,从而让运维人员更直观的了解关联监控项状态,定位告警原因,在告警关联分析的过程中,如果通过查看关联监控项状态无法明确,可以进步一查看关联监控项的其他关联项状态,从而纵向分析告警事件,全面分析一个设备系统内的所有监控项状态。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1