监控指标及域值发现方法、域值调整方法及自动监控系统与流程

文档序号:12278287阅读:255来源:国知局
监控指标及域值发现方法、域值调整方法及自动监控系统与流程

本发明涉及系统运维技术领域,尤其涉及一种监控指标及域值发现方法、域值调整方法及自动监控系统。



背景技术:

系统监控是指在信息系统运行过程中,为尽快发现系统故障而采取的一种持续采集系统各项指标,分析并与正常值比对并进行预警的一套方案。

现有的监控系统一般需要人工输入需要监控的指标,并设计对应的域值来进行监控的实现。现有技术条件下的监控系统,可以实现监控的主要功能:采集指标、对比域值、产生警告,但是,对于监控指标的变化,例如监控指标的发现及增加,需要由人工完成。在为大型系统布置监控的过程中,需要增加大量的需要监控的指标,此时由人工完成监控指标的发现及增加,需要消耗大量的时间,降低监控的时效性。



技术实现要素:

基于现有技术的缺陷和不足,本发明提出一种监控指标及域值发现方法、域值调整方法及自动监控系统,能够自动完成监控指标的发现及增加工作,并且能够自动对监控指标的域值范围进行调整。

一种自动监控系统,包括:

自适应模块、采集模块、比较模块、告警模块;

其中,所述自适应模块与所述采集模块及所述比较模块连接,用于发现被监控的系统中的监控指标,计算发现的所述监控指标的域值范围,并将所述监控指标保存到自身的监控指标库,以及将所述监控指标的域值范围保存到自身的域值范围数据库;

所述采集模块与所述比较模块连接,用于在被监控的系统中采集所述自适应模块的监控指标库中保存的监控指标的指标值,并将所述指标值发送给所述比较模块;

所述比较模块与所述告警模块连接,用于将所述采集模块采集到的监控指标的指标值与所述自适应模块的域值范围数据库中保存的所述监控指标的域值范围进行对比,判断所述监控指标的指标值是否超出所述监控指标的域值范围,当所述监控指标的指标值超出所述监控指标的域值范围时,调用所述告警模块发出警告;

所述告警模块,用于在所述比较模块判断监控指标的指标值超出所述监控指标的域值范围时,发出警告。

优选地,所述自适应模块发现被监控的系统中的监控指标,计算发现的所述监控指标的域值范围时,具体用于:

获取对象库,所述对象库包含被监控的系统中的所有对象,以及每一个对象的所有指标;

根据所述对象库中的数据,在设定时间段内对被监控的系统进行扫描,将扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标,设定为监控指标;

根据设定时间段内扫描得到的所述监控指标的指标值,计算得到所述监控指标的域值范围。

优选地,所述自适应模块根据所述对象库中的数据,在设定时间段内对被监控的系统进行扫描,将扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标,设定为监控指标时,具体用于:

根据所述对象库中的数据,按照设定的周期对被监控的系统进行扫描;

连续扫描设定次数后,记录扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标;

分别统计所记录的指标出现的次数,将出现次数与扫描次数相同的指标设定为监控指标。

优选地,所述自适应模块还用于:

根据所述采集模块在设定的时间段内采集的监控指标的指标值,调整所述监控指标的域值范围。

优选地,所述自适应模块根据所述采集模块在设定的时间段内采集的监控指标的指标值,调整所述监控指标的域值范围时,具体用于:

根据所述采集模块在设定的时间段内采集的监控指标的指标值,预测得到所述监控指标在设定的第一时间区间内的域值范围;

根据所述采集模块在所述设定的时间段内的每个设定的第二时间段内采集的所述监控指标的指标值,以及所述监控指标在设定的第一时间区间内的域值范围,进一步预测得到所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围;其中,所述设定的第二时间段小于所述设定的时间段及所述设定的第一时间区间;

将所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围,调整为预测得到的所述监控指标在所述第一时间区间内的每个设定的第二时间段内的域值范围。

优选地,所述自适应模块还用于:

获取监控指标的指标值特殊时期信息,根据所述指标值特殊时期信息,对所述监控指标在特殊时期的域值范围进行调整。

优选地,所述自适应模块获取监控指标的指标值特殊时期信息,根据所述指标值特殊时期信息,对所述监控指标在特殊时期的域值范围进行调整时,具体用于:

获取监控指标的指标值特殊时期信息,并从所述指标值特殊时期信息中识别得到所述监控指标的指标值特殊时期以及指标值变化趋势;

根据所述指标值变化趋势,增大所述监控指标在所述指标值特殊时期的域值范围。

优选地,所述比较模块,还用于:

对于存在联动指标值的监控指标,当判断所述监控指标的指标值超出域值范围时,通过查询与所述监控指标关联的联动指标值的变化,验证所述监控指标是否真正发生异常。

一种监控指标及域值发现方法,包括:

获取对象库,所述对象库包含被监控的系统中的所有对象,以及每一个对象的所有指标;

根据所述对象库中的数据,在设定时间段内对被监控的系统进行扫描,将扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标,设定为监控指标;

根据设定时间段内扫描得到的所述监控指标的指标值,计算得到所述监控指标的域值范围。

优选地,所述根据所述对象库中的数据,在设定时间段内对被监控的系统进行扫描,将扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标,设定为监控指标,包括:

根据所述对象库中的数据,在设定时间段内,按照设定的周期对被监控的系统进行扫描;

连续扫描设定次数后,记录扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标;

分别统计所记录的指标出现的次数,将出现次数与扫描次数相同的指标设定为监控指标。

一种域值调整方法,包括:

根据在设定的时间段内采集的监控指标的指标值,预测得到所述监控指标在设定的第一时间区间内的域值范围;

根据在所述设定的时间段内的每个设定的第二时间段内采集的所述监控指标的指标值,以及所述监控指标在设定的第一时间区间内的域值范围,进一步预测得到所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围;其中,所述设定的第二时间段小于所述设定的时间段及所述设定的第一时间区间;

将所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围,调整为预测得到的所述监控指标在所述第一时间区间内的每个设定的第二时间段内的域值范围。

本发明提出的自动监控系统,包括:自适应模块、采集模块、比较模块及告警模块;其中,自适应模块与采集模块及比较模块连接,用于发现被监控的系统中的监控指标,计算发现的所述监控指标的域值范围,并将所述监控指标保存到自身的监控指标库,以及将所述监控指标的域值范围保存到自身的域值范围数据库;采集模块在被监控的系统中采集所述自适应模块的监控指标库中保存的监控指标的指标值,并将所述指标值发送给比较模块;比较模块将采集模块采集到的监控指标的指标值与自适应模块的域值范围数据库中保存的所述监控指标的域值范围进行对比,判断所述监控指标的指标值是否超出所述监控指标的域值范围,当所述监控指标的指标值超出所述监控指标的域值范围时,调用所述告警模块发出警告。本发明提出的自动监控系统,包含自适应模块,能够自动发现监控指标,计算发现的监控指标的域值范围,便于监控系统实现监控,节省人力成本,提高了系统监控的时效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本发明实施例提供的自动监控系统的组成结构图;

图2是本发明实施例提供的一种监控指标及域值发现方法的流程示意图;

图3是本发明实施例提供的另一种监控指标及域值发现方法的流程示意图;

图4是本发明实施例提供的一种域值调整方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种自动监控系统,参见图1所示,该自动监控系统包括:

自适应模块101、采集模块102、比较模块103、告警模块104;

其中,所述自适应模块101与所述采集模块102及所述比较模块103连接,用于发现被监控的系统中的监控指标,计算发现的所述监控指标的域值范围,并将所述监控指标保存到自身的监控指标库,以及将所述监控指标的域值范围保存到自身的域值范围数据库;

具体的,在本发明实施例提出的自动监控系统中,除包含常用监控系统的采集模块102、比较模块103、告警模块104之外,还增加了自适应模块101。采集模块102、比较模块103、告警模块104能够实现对设定监控指标的监控,现有的监控系统,基本上都是由这三种功能模块实现监控功能。本发明实施例技术方案中的自动监控系统,不但能实现现有监控系统的监控功能,还通过增加自适应模块101实现自动发现监控指标,计算监控指标域值范围的功能,使得整个自动监控系统能够自动完成监控指标的增加,在监控系统监控指标项增加过程中,省去人工操作,并且增加速度快,能提高对系统监控的时效性。

需要说明的是,所述自适应模块101可以被设置为周期性地对监控系统进行扫描,在每个扫描周期内,发现监控系统中新出现的可被监控的指标,将新发现的监控指标保存到自身监控指标库,并且计算出新发现的监控指标的域值范围,保存到自身域值范围数据库。所述自适应模块101还可以被设置为在需要对系统进行扫描的时候才被触发工作,具体可以靠人工触发或事件触发,例如对系统升级时触发自适应模块101工作等。更进一步地,根据被监控的系统需求,所述自适应模块101还可以被设置为持续工作,为整个监控系统增加监控指标。另外,所述监控指标库和域值范围数据库,可以设置在自适应模块101内部,还可以设置在其它模块内部,还可以独立设置,也就是说可以设置在所述自动监控系统中的任意部位。本发明实施例将所述监控指标库和域值范围数据库设置在自适应模块101内部,便于所述自适应模块101进行数据存储,仅限于说明自适应模块101的工作过程,并不对所述监控指标库和域值范围数据库的位置进行严格限定。

综上所述,在本发明实施例提出的自动监控系统中,设置了自适应模块101实现自动发现监控指标并计算监控指标域值范围的功能,从而使整个监控系统更加自动化。本发明实施例技术方案对所述自适应模块101的具体工作模式不做限定,对监控指标库和域值范围数据库的位置也不做限定,所述自适应模块101的任意一种工作模式,以及所述监控指标库和域值范围数据库设置在自动监控系统中的任意位置,都在本发明实施例保护范围内。

所述采集模块102与所述比较模块103连接,用于在被监控的系统中采集所述自适应模块101的监控指标库中保存的监控指标的指标值,并将所述指标值发送给所述比较模块103;

具体的,所述采集模块102完成监控指标的指标值的采集工作。采集模块102按照设定的周期,采集监控系统所监控的系统中各个被监控的指标的指标值,将采集到的指标值发送给比较模块103,由比较模块103判断监控的指标是否异常。

需要说明的是,对于监控指标库中所有的监控指标,采集模块102周期性地采集这些监控指标的指标值,并发送给比较模块103。当自适应模块101在监控指标库中增加了新发现的监控指标时,采集模块102还是周期性地采集监控指标库中所有的监控指标的指标值,因此,对于整个自动监控系统来说,更新了所监控的内容,在整个监控系统中,自动增加了监控指标。

所述比较模块103与所述告警模块104连接,用于将所述采集模块102采集到的监控指标的指标值与所述自适应模块101的域值范围数据库中保存的所述监控指标的域值范围进行对比,判断所述监控指标的指标值是否超出所述监控指标的域值范围,当所述监控指标的指标值超出所述监控指标的域值范围时,调用所述告警模块104发出警告;

具体的,所述比较模块103接收采集模块102采集的监控指标的指标值,根据所述指标值,比较模块103从域值范围数据库中匹配到该监控指标的域值范围,将采集模块102发送的该监控指标的指标值与该监控指标的域值范围进行对比,即可判断该监控指标的指标值是否超出该监控指标的域值范围,如果没有超出该监控指标的域值范围,则说明该监控指标没有发生异常;如果该监控指标的指标值超出该监控指标的域值范围,则说明该监控指标发生了异常,调用所述告警模块104发出警告。

所述告警模块104,用于在所述比较模块103判断监控指标的指标值超出所述监控指标的域值范围时,发出警告。

本发明提出的自动监控系统,包括:自适应模块、采集模块、比较模块及告警模块;其中,自适应模块与采集模块及比较模块连接,用于发现被监控的系统中的监控指标,计算发现的所述监控指标的域值范围,并将所述监控指标保存到自身的监控指标库,以及将所述监控指标的域值范围保存到自身的域值范围数据库;采集模块在被监控的系统中采集所述自适应模块的监控指标库中保存的监控指标的指标值,并将所述指标值发送给比较模块;比较模块将采集模块采集到的监控指标的指标值与自适应模块的域值范围数据库中保存的所述监控指标的域值范围进行对比,判断所述监控指标的指标值是否超出所述监控指标的域值范围,当所述监控指标的指标值超出所述监控指标的域值范围时,调用所述告警模块发出警告。本发明提出的自动监控系统,包含自适应模块,能够自动发现监控指标,计算发现的监控指标的域值范围,便于监控系统实现监控,节省人力成本,提高了系统监控的时效性。

可选的,在本发明的另一个实施例中,所述自适应模块101发现被监控的系统中的监控指标,计算发现的所述监控指标的域值范围时,具体用于:

获取对象库,所述对象库包含被监控的系统中的所有对象,以及每一个对象的所有指标;

具体的,在构建自动监控系统时,由人工向自动监控系统录入被监控的应用系统中所有的对象,例如系统进程、端口、文件、日志等,以及每个对象的所有指标,例如进程的数量、进程占用内存大小、端口连接数目等。这些所有的对象以及所有对象的所有指标,构成对象库。所述对象库中的内容包含了被监控的系统中的所有可能需要监控的指标,并且,对于一个稳定的系统来说,其所有指标的总和是稳定的,也就是说,对于一个被监控的系统来说,其对象库中的内容是稳定不变的,只需在为系统布置监控时,在监控系统中录入一次即可。或者,在被监控的系统发生比较大的改变(例如系统升级)时,在相应的监控系统中录入新的对象库。

需要说明的是,所述对象库录入自动监控系统后,由自动监控系统保存,当所述自动监控系统的自适应模块101需要使用所述对象库中的数据时,直接从自身存储装置中获取所述对象库即可。

根据所述对象库中的数据,在设定时间段内对被监控的系统进行扫描,将扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标,设定为监控指标;

具体的,自适应模块101获取到对象库后,根据对象库对所监控的系统进行扫描,首先扫描被监控系统中的所有对象,包括进程、端口、文件等,当扫描到与对象库中保存的对象相同的对象时,记录该对象,并进一步扫描该对象的所有指标,当扫描到与对象库中该对象的所有指标相同的指标时,记录该指标。这样,就发现了在实际系统中需要监控的某个对象,及该对象需要监控的指标。

在被监控系统工作过程中,自动监控系统的自适应模块101会周期性地扫描系统,以发现新的监控指标,这时,自适应模块101根据对象库扫描系统时,会得到很多指标,在这些指标中,有些指标是已经被设定为监控指标并且正在被监控的。如果将这些扫描得到的指标都作为新的监控指标,会造成重复存储,浪费资源。因此,自适应模块101在扫描得到需要监控的指标时,会判断扫描到的指标是否已经被设置为监控指标并且被监控,也就是判断所述指标是否已存储到监控指标库中,如果已经存储,则自适应模块101不再将该指标设定为监控指标;如果所述指标还没有被监控,则自适应模块101将该指标设定为监控指标。

根据设定时间段内扫描得到的所述监控指标的指标值,计算得到所述监控指标的域值范围。

具体的,当自适应模块101扫描新的监控指标时,会在设定时间段内对系统进行扫描,记录扫描得到的指标及该指标的指标值。对于某一个指标来说,由于自适应模块101会在设定时间段内多次扫描,因此,自适应模块101会记录其多个指标值。根据记录的该指标的多个指标值,自适应模块101计算得到该指标的域值范围。

自适应模块101在计算该指标的域值范围时,首先通过去噪算法,去掉采集到的该指标的指标值中的异常值。具体的,自适应模块101分别统计采集到的该指标的指标值中,每个指标值出现的概率,如果某一指标值出现的概率小于设定的概率域值,则认为该指标值为异常值,将其去掉。对于去掉异常值后的指标值,自适应模块101计算这些指标值的均值,作为该指标的稳定值,该稳定值上下波动设定的百分比所表示的指标值范围,作为该指标的域值范围。

可选的,在本发明的另一个实施例中,所述自适应模块101根据所述对象库中的数据,在设定时间段内对被监控的系统进行扫描,将扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标,设定为监控指标时,具体用于:

根据所述对象库中的数据,按照设定的周期对被监控的系统进行扫描;

连续扫描设定次数后,记录扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标;

分别统计所记录的指标出现的次数,将出现次数与扫描次数相同的指标设定为监控指标。

具体的,为了保证采集质量,避免部分突发因素(比如手工操作调起进程,探测网络端口,短时间进程处理等)导致监测到非常规的对象实例,影响长期对象实例采集,本发明实施例设定自适应模块101按照连续采集的规则来进行确认,将连续采集到设定次数的指标设定为需要监控的指标。例如,自适应模块101每4个小时扫描一次,连续扫描12次,按照扫描到的次数对对象和指标进行分类,比如12次全扫描到并且未被监控的指标归为一类,扫描到8次到12次并且未被监控的指标归为一类,扫描到8次以下并且未被监控的指标归为一类。最后,自适应模块101将12次全扫描到的,并且未被监控的指标设定为需要监控的指标。

需要说明的是,本发明实施例中,自适应模块101按照指标被扫描到的次数决定是否将该指标设定为被监控的指标,具体的,将被扫描到的次数与扫描次数相同的,即每次扫描都被扫描到的指标,设定为需要被监控的指标。事实上,在实际使用中,可以设定一个次数阈值,来决定扫描到的指标是否可以被设定为监控指标。本发明实施例相当于将次数阈值设置为与扫描次数相同。在实际使用中,根据使用需求,可灵活设定上述次数阈值。

可选的,在本发明的另一个实施例中,所述自适应模块101还用于:

根据所述采集模块102在设定的时间段内采集的监控指标的指标值,调整所述监控指标的域值范围。

具体的,在应用系统及其相对应的监控系统正常工作过程中,为了满足系统长期的业务发展需求,自适应模块101能够根据所监控指标的指标值的规律性波动,对监控指标的域值范围进行调整,减少系统报警数量。比如,根据采集模块102长期采集的某一指标的指标值,自适应模块102分析得到该指标值在接下来的一段时间内指标值的变化趋势,则自适应模块102根据该指标值在接下来一段时间的指标值变化趋势,调整该指标值在接下来一段时间的域值范围,使该指标值在接下来一段时间的域值范围更符合该指标值正常的指标值变化趋势。

可选的,在本发明的另一个实施例中,所述自适应模块101根据所述采集模块102在设定的时间段内采集的监控指标的指标值,调整所述监控指标的域值范围时,具体用于:

根据所述采集模块102在设定的时间段内采集的监控指标的指标值,预测得到所述监控指标在设定的第一时间区间内的域值范围;

根据所述采集模块102在所述设定的时间段内的每个设定的第二时间段内采集的所述监控指标的指标值,以及所述监控指标在设定的第一时间区间内的域值范围,进一步预测得到所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围;其中,所述设定的第二时间段小于所述设定的时间段及所述设定的第一时间区间;

将所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围,调整为预测得到的所述监控指标在所述第一时间区间内的每个设定的第二时间段内的域值范围。

具体的,对于一个系统来说,其某个对象的某项指标,在长期使用过程中,其指标值是按照一定趋势变化的,对于这些监控指标,如果其域值范围保持不变,就会导致在监控该指标时,频繁报警,而实际上该对象或该指标是在正常工作的,这就导致监控失灵。

为了满足系统长期业务发展需求,本发明实施例所述监控系统根据设定时间段内对监控指标的监控,自动调整监控指标的域值范围,使监控系统与被监控系统相符合。具体的,在本发明实施例所述的自动监控系统中,自适应模块101根据采集模块102在设定时间段内采集的监控指标的指标值,利用线性回归算法,预测得到在接下来的设定的第一时间区间内,该监控指标的指标值域值范围。例如,自适应模块101根据采集模块102在过去一年内采集的某一监控指标的指标值,预测得到接下来一个月内该监控指标指标值的变化趋势,根据该变化趋势,及该监控指标的稳定值,得到该监控指标在接下来一个月的指标值域值范围。

进一步的,自适应模块101根据采集模块102在所述设定的时间段内的每个设定的第二时间段内采集的所述监控指标的指标值,以及所述监控指标在设定的第一时间区间内的域值范围,进一步预测得到所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围。例如,自适应模块101记录采集模块102在过去一年内的每个月的第一周采集的该监控指标的指标值,根据这些指标值,自适应模块101预测得到该监控指标在接下来的一个月内的第一周的指标值;以此类推,自适应模块101根据采集模块102在过去一年内每个月的第二周、第三周、第四周采集的所述监控指标的指标值,预测得到该监控指标在接下来一个月内的第二周、第三周、第四周的指标值域值范围。

更进一步的,自适应模块101还可以根据采集模块102在设定时间段采集到的监控指标的指标值,预测得到所述监控指标在接下来一个月内每天或者每天每时段的指标值域值范围。理论上,自适应模块101能够根据采集模块102在设定时间段内采集的监控指标的指标值预测得到该监控指标在接下来设定时间区间内任意时间段的域值范围。

自适应模块101预测得到监控指标在接下来设定时间区间内的域值范围后,用预测得到的该监控指标的指标值域值范围,替换该监控指标在接下来设定时间区间内的域值范围。

可选的,在本发明的另一个实施例中,所述自适应模块101还用于:

获取监控指标的指标值特殊时期信息,根据所述指标值特殊时期信息,对所述监控指标在特殊时期的域值范围进行调整。

具体的,被监控系统中的监控指标,可能存在指标值特殊时期,比如在春节、国庆节等特殊节假日,可能导致被监控系统中某个对象的某项指标突然升高。但是这种突然升高是由真实的正常情况导致的,不应该被认为是系统故障而报警。本发明实施例提出的自动监控系统根据获取的监控指标特殊时期信息,调整该监控指标在特殊时期的指标值域值范围,使对该监控指标的监控更符合实际。

可选的,在本发明的另一个实施例中,所述自适应模块101获取监控指标的指标值特殊时期信息,根据所述指标值特殊时期信息,对所述监控指标在特殊时期的域值范围进行调整时,具体用于:

获取监控指标的指标值特殊时期信息,并从所述指标值特殊时期信息中识别得到所述监控指标的指标值特殊时期以及指标值变化趋势;

根据所述指标值变化趋势,增大所述监控指标在所述指标值特殊时期的域值范围。

具体的,由人工向所述自适应模块101输入某一监控指标的特殊时期信息。所述特殊时期信息包括该监控指标的特殊时期时间段,及在所述特殊时期,所述监控指标的变化趋势。自适应模块101根据所述监控指标在特殊时期的变化趋势,调整该监控指标在特殊时期的域值范围。

例如,假设人工向自适应模块101输入某一监控指标的特殊时期信息,该信息表明该监控指标在春节假期期间指标值会急剧增大,则自适应模块101根据该信息,上调该监控指标在春节假期期间的指标值域值范围的上限,整体上增大该监控指标的域值范围。使得在春节假期期间,监控系统能够客观地监控该监控指标。

可选的,在本发明的另一个实施例中,所述比较模块103,还用于:

对于存在联动指标值的监控指标,当判断所述监控指标的指标值超出域值范围时,通过查询与所述监控指标关联的联动指标值的变化,验证所述监控指标是否真正发生异常。

具体的,对于存在指标值特殊时期的监控指标,在增大所述监控指标的域值范围的同时,为了更进一步地保证客观地监控该监控指标,可以人为地为所述监控指标增加联动监控指标。当比较模块103判断所述监控指标的指标值已经超出所述监控指标的域值范围时,进一步将所述联动监控指标的指标值与所述联动监控指标的域值范围进行对比,确认所述联动监控指标的指标值是否伴随所述监控指标值的变化而发生正常的应有的变化,如果所述联动监控指标的指标值发生了应有的变化,则说明所述监控指标的指标值超出域值范围是正常的业务导致,并不是系统故障。否则,则说明所述监控指标真的发生了异常,应当发出警报。

例如,对于CPU占用率来说,当对其监控时,为其增加联动监控指标:处理线程数。当比较模块103判断CPU占用率超出其域值范围时,比较模块103进一步判断处理线程数是否超出域值范围。如果处理线程数也超出域值范围,则说明CPU占用率超出范围是因为处理大量的线程造成的,是正常业务造成的而不是系统故障,不应当发出警报;如果处理线程数在正常域值范围内,则说明CPU占用率高不是因为业务引起的,应当发出警报。基于上述处理,使得本发明实施例提出的自动监控系统在整体上的监控更客观,更准确。

本发明实施例还公开了一种监控指标及域值发现方法,参见图2所示,包括:

S201、获取对象库,所述对象库包含被监控的系统中的所有对象,以及每一个对象的所有指标;

具体的,由人工录入被监控的应用系统中所有的对象,例如系统进程、端口、文件、日志等,以及每个对象的所有指标,例如进程的数量、进程占用内存大小、端口连接数目等。这些所有的对象以及所有对象的所有指标,构成对象库。所述对象库中的内容包含了被监控的系统中的所有可能需要监控的指标,并且,对于一个稳定的系统来说,其所有指标的总和是稳定的,也就是说,对于一个被监控的系统来说,其对象库中的内容是稳定不变的,只需在为系统布置监控时,录入一次即可。或者,在被监控的系统发生比较大的改变(例如系统升级)时,录入新的对象库。

需要说明的是,对于一个监控装置来说,其监控的系统的对象库录入后,由监控装置保存,当所述监控装置需要使用所述对象库中的数据时,直接从自身存储装置中获取所述对象库即可。

S202、根据所述对象库中的数据,在设定时间段内对被监控的系统进行扫描,将扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标,设定为监控指标;

具体的,获取到对象库后,根据对象库对所监控的系统进行扫描,首先扫描被监控系统中的所有对象,包括进程、端口、文件等,当扫描到与对象库中保存的对象相同的对象时,记录该对象,并进一步扫描该对象的所有指标,当扫描到与对象库中该对象的所有指标相同的指标时,记录该指标。这样,就发现了在实际系统中需要监控的某个对象,及该对象需要监控的指标。

在被监控系统工作过程中,周期性地扫描该系统,以发现新的监控指标,这时,会扫描得到很多指标,在这些指标中,有些指标是已经被设定为监控指标并且正在被监控的。如果将这些扫描得到的指标都作为新的监控指标,会造成重复存储,浪费资源。因此,在扫描得到需要监控的指标时,会判断扫描到的指标是否已经被设置为监控指标并且被监控,也就是判断所述指标是否已存储到监控指标库中,如果已经存储,则不再将该指标设定为监控指标;如果所述指标还没有被监控,则将该指标设定为监控指标。

S203、根据设定时间段内扫描得到的所述监控指标的指标值,计算得到所述监控指标的域值范围。

具体的,当扫描寻找新的监控指标时,在设定时间段内对系统进行扫描,记录扫描得到的指标及该指标的指标值。对于某一个指标来说,由于在设定时间段内会被扫描多次,因此,会记录其多个指标值。根据记录的该指标的多个指标值,计算得到该指标的域值范围。

在计算该指标的域值范围时,首先通过去噪算法,去掉采集到的该指标的指标值中的异常值。具体的,分别统计采集到的该指标的指标值中,每个指标值出现的概率,如果某一指标值出现的概率小于设定的概率域值,则认为该指标值为异常值,将其去掉。对于去掉异常值后的指标值,计算这些指标值的均值,作为该指标的稳定值,该稳定值上下波动设定的百分比所表示的指标值范围,作为该指标的域值范围。

本发明实施例提出的监控指标及域值发现方法,首先获取对象库,所述对象库包含被监控的系统中的所有对象,以及每一个对象的所有指标;然后根据所述对象库中的数据,在设定时间段内对被监控的系统进行扫描,将扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标,设定为监控指标;最后根据设定时间段内扫描得到的所述监控指标的指标值,计算得到所述监控指标的域值范围。上述方法能够以系统的对象库为基础,自动扫描得到监控指标,并且计算得到所述监控指标的域值范围,能够代替人工完成查找及发现监控指标的工作,节省劳动力。

可选的,在本发明的另一个实施例中,参见图3所示,所述根据所述对象库中的数据,在设定时间段内对被监控的系统进行扫描,将扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标,设定为监控指标,包括:

S302、根据所述对象库中的数据,在设定时间段内,按照设定的周期对被监控的系统进行扫描;

具体的,为了保证采集质量,避免部分突发因素(比如手工操作调起进程,探测网络端口,短时间进程处理等)导致监测到非常规的对象实例,影响长期对象实例采集,本发明实施例设定按照连续采集的规则来进行确认,将连续采集到设定次数的指标设定为需要监控的指标。

例如,本发明实施例设定每4个小时对被监控的系统进行一次扫描。

S303、连续扫描设定次数后,记录扫描得到的,与所述对象库中所有对象的所有指标中的某一指标相同的,并且未被监控的指标;

具体的,在扫描过程中,如果发现某一指标与对象库中的某一指标相同,则进一步查看该指标是否已保存在监控指标库中,如果该指标没有保存在监控指标库中,则记录该指标;反之,则将该指标丢弃。

S304、分别统计所记录的指标出现的次数,将出现次数与扫描次数相同的指标设定为监控指标。

例如,连续扫描12次,按照扫描到的次数对对象和指标进行分类,比如12次全扫描到并且未被保存到监控指标库的指标归为一类,扫描到8次到12次并且未被保存到监控指标库的指标归为一类,扫描到8次以下并且未被保存到监控指标库的指标归为一类。最后,将12次全扫描到的,并且未被保存到监控指标库的指标设定为需要监控的指标。

需要说明的是,本发明实施例中,按照指标被扫描到的次数决定是否将该指标设定为被监控的指标,具体的,将被扫描到的次数与扫描次数相同的,即每次扫描都被扫描到的指标,设定为需要被监控的指标。事实上,在实际使用中,可以设定一个次数阈值,来决定扫描到的指标是否可以被设定为监控指标。本发明实施例相当于将次数阈值设置为与扫描次数相同。在实际使用中,根据使用需求,可灵活设定上述次数阈值。

本发明实施例中的步骤S301、S305分别对应图2所示的方法的实施例中的步骤S201、S203,其具体内容请参见图2所示的方法实施例的内容,此处不再赘述。

本发明实施例还公开了一种域值调整方法,参见图4所示,包括:

S401、根据在设定的时间段内采集的监控指标的指标值,预测得到所述监控指标在设定的第一时间区间内的域值范围;

具体的,对于一个系统来说,其某个对象的某项指标,在长期使用过程中,其指标值是按照一定趋势变化的,对于这些监控指标,如果其域值范围保持不变,就会导致在监控该指标时,频繁报警,而实际上该对象或该指标是在正常工作的,这就导致监控失灵。

为了满足系统长期业务发展需求,本发明实施例根据设定时间段内对监控指标的监控,自动调整监控指标的域值范围。具体的,在本发明实施例中,根据在设定时间段内采集的监控指标的指标值,利用线性回归算法,预测得到在接下来的设定的第一时间区间内,该监控指标的指标值域值范围。例如,根据在过去一年内采集的某一监控指标的指标值,预测得到接下来一个月内该监控指标指标值的变化趋势,根据该变化趋势,及该监控指标的稳定值,得到该监控指标在接下来一个月的指标值域值范围。

S402、根据在所述设定的时间段内的每个设定的第二时间段内采集的所述监控指标的指标值,以及所述监控指标在设定的第一时间区间内的域值范围,进一步预测得到所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围;其中,所述设定的第二时间段小于所述设定的时间段及所述设定的第一时间区间;

具体的,例如,记录在过去一年内的每个月的第一周采集的该监控指标的指标值,根据这些指标值,预测得到该监控指标在接下来的一个月内的第一周的指标值;以此类推,根据在过去一年内每个月的第二周、第三周、第四周采集的所述监控指标的指标值,预测得到该监控指标在接下来一个月内的第二周、第三周、第四周的指标值域值范围。

更进一步的,还可以根据在设定时间段采集到的监控指标的指标值,预测得到所述监控指标在接下来一个月内每天或者每天每时段的指标值域值范围。理论上,本发明实施例技术方案能够根据在设定时间段内采集的监控指标的指标值预测得到该监控指标在接下来设定时间区间内任意时间段的域值范围。

S403、将所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围,调整为预测得到的所述监控指标在所述第一时间区间内的每个设定的第二时间段内的域值范围。

具体的,用预测得到的该监控指标在设定的第一时间区间内的每个设定的第二时间段内的指标值域值范围,替换该监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围。

本发明实施例提出的域值调整方法,首先根据在设定的时间段内采集的监控指标的指标值,预测得到所述监控指标在设定的第一时间区间内的域值范围;然后根据在所述设定的时间段内的每个设定的第二时间段内采集的所述监控指标的指标值,以及所述监控指标在设定的第一时间区间内的域值范围,进一步预测得到所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围;其中,所述设定的第二时间段小于所述设定的时间段及所述设定的第一时间区间;最后将所述监控指标在设定的第一时间区间内的每个设定的第二时间段内的域值范围,调整为预测得到的所述监控指标在所述第一时间区间内的每个设定的第二时间段内的域值范围。上述技术方案能够根据过去设定时间段内对监控指标的指标值的采集,预测得到今后设定时间段内所述监控指标的指标值范围,根据所述指标值范围调整所述监控指标在今后设定时间段内的域值范围,完成了对域值范围的自动调整,能够代替人工劳动。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1