云数据系统中告警任务的管理方法和装置与流程

文档序号:15929903发布日期:2018-11-14 01:31阅读:160来源:国知局

本发明涉及信息处理领域,尤指一种云数据系统中告警任务的管理方法和装置。

背景技术

随着技术的发展,数据中心的基础设施特别是服务器,规模已经到达万级数量,为了能使用户更直观的查看服务器的健康状态,对于服务器的实时监控,已经成为最必要的需求。

现有技术中,告警监控的监控项可以为cpu利用率、内存利用率、环境温度等,判断的方式通常为阈值分析判断。目前的监控平台中,所有的阈值都取自服务器的出厂设置,基于上述的阈值往往不能匹配当前的应用环境,不能满足网络管理的个性需求,对监控管理带来了巨大的不变。

因此,如何实现对告警任务的管理,能够保证告警任务能够更符合网络和/或用户的需求是亟待解决的问题。



技术实现要素:

为了解决上述技术问题,本发明提供了一种云数据系统中告警任务的管理方法和装置,能够保证告警任务能够更符合网络和/或用户的需求。

为了达到本发明目的,本发明提供了一种云数据系统中告警任务的管理方法,包括:

接收对被监控对象的告警配置请求,其中所述告警配置请求包括所述被监控对象上作为监控项的资源;

提示设置所述监控项的告警条件信息,其中告警条件信息包括监控项对应的数值阈值以及大于该数值阈值所持续的时长阈值;

获取所述监控项的告警条件信息;

根据所述监控项的告警条件信息,对所述被监控对象的监控项进行告警管理。

其中,所述方法还具有如下特点:所述接收对被监控对象的告警配置请求之前,所述方法还包括:

在检测到确定被监控对象后,获取被监控对象的监控项对应的重要性信息,其中所述重要性信息是根据所述监控项的性能数据确定的;

输出被监控对象的监控项对应的重要性信息。

其中,所述方法还具有如下特点:所述根据所述监控项的告警条件信息,对所述被监控对象的监控项进行告警管理,包括:

接收对所述监控项的告警配置的更改请求,其中所述更改请求时根据已采集到的监控项的性能数据确定的;

根据更改后的告警配置信息,对所述监控项进行告警管理。

其中,所述方法还具有如下特点:所述提示设置所述监控项的告警条件信息,包括:

根据所述监控项的历史数据,统计得到所述监控项的运行数据;

根据所述监控项的运行数据,计算得到所述监控项对应的告警条件信息的建议值;

输出所述告警条件信息的推荐值。

其中,所述方法还具有如下特点:所述获取所述监控项的告警条件信息之后,所述方法还包括:

提示设置所述告警条件信息对应的通知策略,其中所述通知策略包括通知的告警内容和/或联系人;

在接收到所述通知策略后,记录所述告警条件信息对应的通知策略。

一种云数据系统中告警任务的管理装置,包括:

第一接收模块,用于接收对被监控对象的告警配置请求,其中所述告警配置请求包括所述被监控对象上作为监控项的资源;

第一提示模块,用于提示设置所述监控项的告警条件信息,其中告警条件信息包括监控项对应的数值阈值以及大于该数值阈值所持续的时长阈值;

第一获取模块,用于获取所述监控项的告警条件信息;

管理模块,用于根据所述监控项的告警条件信息,对所述被监控对象的监控项进行告警管理。

其中,所述装置还具有如下特点:所述装置还包括:

第二获取模块,用于接收对被监控对象的告警配置请求之前,在检测到确定被监控对象后,获取被监控对象的监控项对应的重要性信息,其中所述重要性信息是根据所述监控项的性能数据确定的;

输出模块,用于输出被监控对象的监控项对应的重要性信息。

其中,所述装置还具有如下特点:所述管理模块包括:

接收单元,用于接收对所述监控项的告警配置的更改请求,其中所述更改请求时根据已采集到的监控项的性能数据确定的;

管理单元,用于根据更改后的告警配置信息,对所述监控项进行告警管理。

其中,所述装置还具有如下特点:所述第一提示模块包括:

统计单元,用于根据所述监控项的历史数据,统计得到所述监控项的运行数据;

计算单元,用于根据所述监控项的运行数据,计算得到所述监控项对应的告警条件信息的建议值;

输出单元,用于输出所述告警条件信息的推荐值。

其中,所述装置还具有如下特点:所述装置还包括:

第二提示模块,用于获取所述监控项的告警条件信息之后,提示设置所述告警条件信息对应的通知策略,其中所述通知策略包括通知的告警内容和/或联系人;

记录模块,用于在接收到所述通知策略后,记录所述告警条件信息对应的通知策略。

本发明提供的实施例,接收对被监控对象的告警配置请求,确定所述被监控对象上作为监控项的资源,通过提示设置包括监控项对应的数值阈值以及大于该数值阈值所持续的时长阈值,获知述监控项的告警条件信息,进而实现告警管理,与现有技术中默认阈值作为判断条件相比,通过获知外部输入的数值阈值进行判断,还借助时长阈值提高判断准确率,来实现对告警管理,能够保证告警任务能够更符合网络和/或用户的需求。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1为本发明提供的云数据系统中告警任务的管理方法的流程图;

图2为本发明提供的云数据系统中告警任务的管理装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明提供的云数据系统中告警任务的管理方法的流程图。图1所示方法包括:

步骤101、接收对被监控对象的告警配置请求,其中所述告警配置请求包括所述被监控对象上作为监控项的资源;

步骤102、提示设置所述监控项的告警条件信息,其中告警条件信息包括监控项对应的数值阈值以及大于该数值阈值所持续的时长阈值;

步骤103、获取所述监控项的告警条件信息;

步骤104、根据所述监控项的告警条件信息,对所述被监控对象的监控项进行告警管理。

本发明提供的方法实施例,接收对被监控对象的告警配置请求,确定所述被监控对象上作为监控项的资源,通过提示设置包括监控项对应的数值阈值以及大于该数值阈值所持续的时长阈值,获知述监控项的告警条件信息,进而实现告警管理,与现有技术中默认阈值作为判断条件相比,通过获知外部输入的数值阈值进行判断,还借助时长阈值提高判断准确率,来实现对告警管理,能够保证告警任务能够更符合网络和/或用户的需求。

下面对本发明提供的方法实施例作进一步说明:

为了方便用户自定义设置监控项,在本发明提供的一个方法实施例中,在接收对被监控对象的告警配置请求之前,所述方法还包括:

在检测到确定被监控对象后,获取被监控对象的监控项对应的重要性信息,其中所述重要性信息是根据所述监控项的性能数据确定的;

输出被监控对象的监控项对应的重要性信息。

具体的,在用户选择被监控对象时,提前获取最近预先设置的时长范围内的各项性能数据的数值信息,例如,资源利用率,i/o输出速度等,根据上述性能数据,评估该资源发生故障的概率,按照评估得到的概率的高低,得到被监控项在该被监控项的重要性。其中越是重要性级别高的监控项,越需要进行持久关注,因此,通过将监控项的重要性输出,可以方便用户选择重要性高的监控项进行告警任务的设置,提升管理的效率。

随着告警任务的不断运行,可以根据监控得到的数据,对目前使用的告警任务进行调整,适配当前的网络环境;因此,其中所述根据所述监控项的告警条件信息,对所述被监控对象的监控项进行告警管理,包括:

接收对所述监控项的告警配置的更改请求,其中所述更改请求时根据已采集到的监控项的性能数据确定的;

根据更改后的告警配置信息,对所述监控项进行告警管理。

具体的,当检测到已采集到的监控项的性能数据不满足告警任务的管理需求时,用户可以提出更改请求,例如,设置的资源率的阈值为80%,但实际运行时,采集到的资源率的取值范围为40%至70%之间,我们发现该资源率很难出现告警任务,不能实现对监控项的告警管理,需要适应调整资源率的阈值,再进行告警管理。

为了方便用户设置告警条件,在本发明提供的一个实施例中,所述提示设置所述监控项的告警条件信息,包括:

根据所述监控项的历史数据,统计得到所述监控项的运行数据;

根据所述监控项的运行数据,计算得到所述监控项对应的告警条件信息的建议值;

输出所述告警条件信息的推荐值。

具体的,在用户选择设置条件时,提前最近预先设置的时长内所述监控项的运行数据,根据上述运行数据,评估该监控项的取值范围,按照评估得到的取值范围,得到被监控项的告警阈值条件。相较于用户根据经验设置,通过统计已有的数据进行计算评估后,再进行监控项的阈值设置,可以有效提升告警条件的设置的准确度。

现有技术中,在告警产生之后,也只是把输入录入了系统,只有用户时刻关系监控平台时,才能看到服务器的健康状况以及具体告警。

与现有技术不同的时,:所述获取所述监控项的告警条件信息之后,所述方法还包括:

提示设置所述告警条件信息对应的通知策略,其中所述通知策略包括通知的告警内容和/或联系人;

在接收到所述通知策略后,记录所述告警条件信息对应的通知策略。

在通知策略设置中,用户可设置通知方式、通知用户、通知的具体告警级别或事件。如当年模板设置只有发生严重告警时,才发送通知,则其他轻微告警产生之后只是录入系统,不进行用户通知。

由上可以看出,为了满足用户的特殊需求,我们提供了一种服务器监控平台的模板自定义装置。本装置中可以选择监控项并自定义阈值,就可完美的解决用户的特殊需求。在监控模板中加入通知规则的设置,可以在告警产生时,及时通知用户进行服务器的维护。

综上可以看出,本发明提供的方法包括:

首先,数据库的维护,将所有类型的服务器监控项维护到数据库中。

其次,阈值设置,用户可根据不同的服务器类型自主选择监控项并配置。具体来说,根据用户选择的监控服务器类型过滤出监控项库中符合条件的监控项,然后对监控项配置阈值s、告警界别l、持续时间t

(3)通知规则中,可设置通知告警类型,主要设置通知方式、通知用户,通知的具体告警级别或事件。

本发明提供的方法,可实现监控项的阈值自定义配置,设置通知规则。设置阈值可以减少不必要的告警,增加较为关注的告警。设置通知规则,可实时通知到用户,降低运维成本,提高管理效率,灵活可靠。

图2为本发明提供的云数据系统中告警任务的管理装置的结构图。图2所示装置,包括:

第一接收模块201,用于接收对被监控对象的告警配置请求,其中所述告警配置请求包括所述被监控对象上作为监控项的资源;

第一提示模块202,用于提示设置所述监控项的告警条件信息,其中告警条件信息包括监控项对应的数值阈值以及大于该数值阈值所持续的时长阈值;

第一获取模块203,用于获取所述监控项的告警条件信息;

管理模块204,用于根据所述监控项的告警条件信息,对所述被监控对象的监控项进行告警管理。

在本发明提供的一个实施例,所述装置还包括:

第二获取模块,用于接收对被监控对象的告警配置请求之前,在检测到确定被监控对象后,获取被监控对象的监控项对应的重要性信息,其中所述重要性信息是根据所述监控项的性能数据确定的;

输出模块,用于输出被监控对象的监控项对应的重要性信息。

在本发明提供的一个装置实施例,所述管理模块204包括:

接收单元,用于接收对所述监控项的告警配置的更改请求,其中所述更改请求时根据已采集到的监控项的性能数据确定的;

管理单元,用于根据更改后的告警配置信息,对所述监控项进行告警管理。

在本发明提供的一个装置实施例,所述第一提示模块202包括:

统计单元,用于根据所述监控项的历史数据,统计得到所述监控项的运行数据;

计算单元,用于根据所述监控项的运行数据,计算得到所述监控项对应的告警条件信息的建议值;

输出单元,用于输出所述告警条件信息的推荐值。

在本发明提供的一个装置实施例,所述装置还包括:

第二提示模块,用于获取所述监控项的告警条件信息之后,提示设置所述告警条件信息对应的通知策略,其中所述通知策略包括通知的告警内容和/或联系人;

记录模块,用于在接收到所述通知策略后,记录所述告警条件信息对应的通知策略。

本发明提供的装置实施例,接收对被监控对象的告警配置请求,确定所述被监控对象上作为监控项的资源,通过提示设置包括监控项对应的数值阈值以及大于该数值阈值所持续的时长阈值,获知述监控项的告警条件信息,进而实现告警管理,与现有技术中默认阈值作为判断条件相比,通过获知外部输入的数值阈值进行判断,还借助时长阈值提高判断准确率,来实现对告警管理,能够保证告警任务能够更符合网络和/或用户的需求。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。

可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1