一种确定资源监控阈值的方法及装置与流程

文档序号:12067872阅读:455来源:国知局
一种确定资源监控阈值的方法及装置与流程
本发明涉及资源维护领域,尤其涉及一种确定资源监控阈值的方法及装置。
背景技术
:对数据中心的资源如数据中心服务器、网络设备等设备的CPU利用率、内存利用率、磁盘利用率等进行监控,是数据中心最重要的任务之一。在现有监控技术中,运维人员主要通过个人经验设置资源的各个指标的监控阈值如设置CPU利用率的监控阈值为90%等,那么,当CPU利用率超过90%,将引起数据中心的预警。随着数据中心的不断发展,数据中心的资源和用户越来越多,导致不同时间段,不同资源的使用情况差异性较大,那么,对于不同时间段,不同用户的监控阈值也应该存在一定的差异,但是,在现有这种监控技术中,不同时间,不同资源的设置的阈值都相同,不能及时产生有效告警。所以,综上所述,现有技术中不能提供一种准确的确定服务器系统中每个资源监控阈值的方法。技术实现要素:本发明提供一种确定资源监控阈值的方法及装置,用于解决现有技术中不能提供一种准确的确定服务器系统中每个资源监控阈值的方法的问题。本发明实施例提供一种确定资源监控阈值的方法,所述方法包括:在更新周期达到时,获取服务器中各资源在所述更新周期前第一设定时间内产生的历史数据以及所述各资源的历史监控阈值;针对任意一个资源,根据所述资源在所述更新周期前第一设定时间内产生的历史数据确定所述资源在当前更新周期的第一监控阈值,根据所述资源的历史监控阈值以及所述第一监控阈值更新所述资源的历史监控阈值。本发明实施例中,在每一个更新周期到达时,根据服务器中每个资源在每一个更新周期前设定时间内的历史数据以及资源的历史监控阈值,确定新的监控阈值,并更新该资源的历史监控阈值。也就是说,在本发明实施例中,能够自动化的周期性更新服务器每个资源的监控阈值,不需要经过人工设置的过程,通过历史数据以及历史阈值科学的确定监控阈值,确定的监控阈值准确,并且监控阈值能够周期性更新,适用于不同时间段。进一步地,所述第一监控阈值为小时阈值,所述第一监控阈值包括小时阈值的上限值以及小时阈值的下限值;所述根据所述资源在所述更新周期前第一设定时间内产生的历史数据确定所述资源在当前更新周期的第一监控阈值,包括:针对所述更新周期中的任意一小时,从所述更新周期前第一设定时间内产生的历史数据中确定所述小时对应的历史数据集合,根据所述小时对应的的历史数据集合确定所述小时对应的平均值以及标准差值;根据所述小时对应的平均值以及标准差值确定所述小时阈值的上限值以及小时阈值的下限值。本发明实施例中,为了能够细化监控阈值,在每个小时设置监控阈值,能够更好的与资源的运行相匹配,且通过更新周期前第一设定时间内产生的历史数据中确定所述小时对应的历史数据集合确定小时阈值的上限值以及小时阈值的下限值符合正态分布,更准确的确定了每个小时的监控阈值。进一步地,所述第一监控阈值为天阈值,所述第一监控阈值包括天阈值的上限值以及天阈值的下限值;所述根据所述资源在所述更新周期前第一设定时间内产生的历史数据确定所述资源在当前更新周期的第一监控阈值,包括:将所述小时阈值的上限值中的最大值作为天阈值的上限值;将所述小时阈值的下限值中的最小值作为天阈值的下限值。本发明实施例中,通过小时监控阈值还可以确定天阈值,适用于以天为结算时间的服务器资源中,有效的提高了本发明实施例中的方法的适用性。进一步地,所述根据所述资源的历史监控阈值以及所述第一监控阈值更新所述资源的历史监控阈值之前,还包括:获取历史告警事件数;其中,所述历史告警事件为在所述更新周期前第二设定时间内,所述资源的历史数据超过所述资源的历史监控阈值时产生的;所述根据所述资源的历史监控阈值以及所述第一监控阈值更新所述资源的历史监控阈值,包括:若确定所述历史告警事件数大于预设的调整阈值,则根据所述资源的历史监控阈值、所述第一监控阈值以及所述历史告警事件数更新所述资源的历史监控阈值。本发明实施例中,在更新资源的监控阈值时,还需要考虑告警事件数,以便提高更新后的监控阈值的准确性。进一步地,所述根据所述资源的历史监控阈值、所述第一监控阈值以及所述历史告警事件数更新所述资源的历史监控阈值,包括:确定所述更新周期是否为设定更新周期;若确定所述更新周期为设定更新周期,则获取所述设定更新周期对应的调整参数;根据所述资源的历史监控阈值、所述第一监控阈值、所述历史告警事件数以及所述调整参数更新所述资源的历史监控阈值。本发明实施例中,在确定到达设定的更新周期时,在确定监控阈值时还需要考虑设定更新周期对应的调整参数,也就是说,在设定的某些时间段中,服务器资源可能有使用率增大的情况,更新设定更新周期的监控阈值能够有效减少告警事件。本发明还提供一种确定资源监控阈值的装置,包括:获取单元,用于在更新周期达到时,获取服务器中各资源在所述更新周期前第一设定时间内产生的历史数据以及所述各资源的历史监控阈值;更新单元,用于针对任意一个资源,根据所述资源在所述更新周期前第一设定时间内产生的历史数据确定所述资源在当前更新周期的第一监控阈值,根据所述资源的历史监控阈值以及所述第一监控阈值更新所述资源的历史监控阈值。本发明实施例中,在每一个更新周期到达时,根据服务器中每个资源在每一个更新周期前设定时间内的历史数据以及资源的历史监控阈值,确定新的监控阈值,并更新该资源的历史监控阈值。也就是说,在本发明实施例中,能够自动化的周期性更新服务器每个资源的监控阈值,不需要经过人工设置的过程,通过历史数据以及历史阈值科学的确定监控阈值,确定的监控阈值准确,并且监控阈值能够周期性更新,适用于不同时间段。进一步地,所述第一监控阈值为小时阈值,所述第一监控阈值包括小时阈值的上限值以及小时阈值的下限值;所述更新单元具体用于:针对所述更新周期中的任意一小时,从所述更新周期前第一设定时间内产生的历史数据中确定所述小时对应的历史数据集合,根据所述小时对应的的历史数据集合确定所述小时对应的平均值以及标准差值;根据所述小时对应的平均值以及标准差值确定所述小时阈值的上限值以及小时阈值的下限值。进一步地,所述第一监控阈值为天阈值,所述第一监控阈值包括天阈值的上限值以及天阈值的下限值;所述更新单元具体用于;将所述小时阈值的上限值中的最大值作为天阈值的上限值;将所述小时阈值的下限值中的最小值作为天阈值的下限值。进一步地,所述获取单元还用于:获取历史告警事件数;其中,所述历史告警事件为在所述更新周期前第二设定时间内,所述资源的历史数据超过所述资源的历史监控阈值时产生的;所述更新单元具体用于:若确定所述历史告警事件数大于预设的调整阈值,则根据所述资源的历史监控阈值、所述第一监控阈值以及所述历史告警事件数更新所述资源的历史监控阈值。进一步地,所述更新单元具体用于:确定所述更新周期是否为设定更新周期;若确定所述更新周期为设定更新周期,则获取所述设定更新周期对应的调整参数;根据所述资源的历史监控阈值、所述第一监控阈值、所述历史告警事件数以及所述调整参数更新所述资源的历史监控阈值。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种确定资源监控阈值的方法的流程示意图;图2为本发明实施例提供的另一种确定资源监控阈值的方法的流程示意图;图3为本发明实施例提供的一种确定资源监控阈值的装置的结构示意图。具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。本发明提供一种确定资源监控阈值的方法,如图1所示,包括:步骤101,在更新周期达到时,获取服务器中各资源在所述更新周期前第一设定时间内产生的历史数据以及所述各资源的历史监控阈值;步骤102,针对任意一个资源,根据所述资源在所述更新周期前第一设定时间内产生的历史数据确定所述资源在当前更新周期的第一监控阈值,根据所述资源的历史监控阈值以及所述第一监控阈值更新所述资源的历史监控阈值。在步骤101中,服务器中各资源指的是服务器系统中央处理CPU,内存,磁盘,文件系统,数据库表空间等。更新周期可以是天更新,即24小时,也可以是按周为单位进行更新,更新周期主要根据服务器的性能和使用服务器的用户的需要来确定的。在本发明实施例中,更新周期前第一设定时间指的是在每个更新周期前的一段特定时间,例如,第一设定时间为设定小时或者设定天或者设定周等。若更新周期为24小时,即一天进行更新,设定时间为7天,即需要获取在更新周期前7天产生的历史数据。若以周一为例,周一为更新周期,则历史数据为上周周一至周日的历史数据。本发明实施例中,历史监控阈值指的是在该更新周期前的每一个更新周期的监控阈值。可选的,在本发明实施例中,历史监控阈值可以是该资源在某一天或者某一小时的监控阈值,或者是该资源在某一时间段内的历史监控阈值。在步骤102中,针对服务器中的每一个资源,例如CPU或内存等资源,分别根据每个资源在所述更新周期前第一设定时间内产生的历史数据,确定该资源在当前更新周期的第一监控阈值。在本发明实施例中,历史数据可以是每个资源的使用率数据,则统计更新周期前第一设定时间内产生的使用率数据就可以确定当前设置的第一监控阈值。例如,资源为CPU,第一设定时间为7天,在当前更新周期前7天的CPU的使用率的最高值分别为75%,70%,85%,90%,90%,80%,80%,则可以确定当前周期的第一监控阈值为90%,也就是说,根据历史数据可以确定历史数据中的最大使用率为90%,若当前更新周期的监控阈值设置为90%,则根据历史数据,超过该监控阈值的可能性较小,所以将第一监控阈值设置为90%。可选的,还可以在确定历史数据中的最大值后,则最大值的基础上增加设定数值,以保证当前更新周期的监控阈值的准确性。本发明实施例中,还有其它根据更新周期前第一设定时间内产生的历史数据确定所述资源在当前更新周期的第一监控阈值的方法,例如线性增加或者将历史数据进行拟合确定第一监控阈值的方法,在此不做赘述。在本发明实施例中,在确定了第一监控阈值后,还需要根据该资源的历史监控阈值确定资源当前周期的监控阈值。可选的,在本发明实施例中,由于在服务器运行时不同个时间段内,相同的时间段内的数据相似或者相近,所以需要考虑历史监控阈值对当前更新周期的监控阈值的影响。以服务器为银联系统服务器为例,一周7天,5个工作日,2个周末,人们每天工作、学习、生活、消费等行为与上一周的同一相比较,习惯比较固定,例如,一年中第40周的周一的银联服务器中各资源的使用情况与一年中第41周的周一的各资源的使用情况相似,所以需要参考历史监控阈值。在步骤102中,当确定了当前更新周期的第一监控阈值以及历史监控阈值后,确定当前更新周期的监控阈值。可选的,在本发明实施例中,可以将第一监控阈值以及历史监控阈值中的最大值作为当前更新周期的监控阈值,也可以在最大值中增加设定值作为当前更新周期的监控阈值。可选的,在本发明实施例中,还需要获取历史告警事件数;其中,历史告警事件为在更新周期前第二设定时间内,资源的历史数据超过资源的历史监控阈值时产生的。也就是说,获取的历史告警事件数是统计了在当前更新周期的第二设定时间内超过资源的历史监控阈值时产生的时间,在本发明实施例中,第二设定时间可以是当前更新周期前的一段时间,例如一天,或者一周等。以当前更新周期为一年中第50周的周一为例,更新周期为24小时,第二设定时间内指的是第49周的周一至第50周的周日,也就是说,获取在该时间段内产生的告警事件数,具体如表1所示:时间告警事件数监控阈值49周周一349周周一监控阈值49周周二049周周二监控阈值49周周三149周周三监控阈值49周周四049周周四监控阈值49周周五049周周五监控阈值49周周六149周周六监控阈值49周周日049周周日监控阈值表1:第二设定时间内历史告警事件详情表若确定所述历史告警事件数大于预设的调整阈值,则根据所述资源的历史监控阈值、所述第一监控阈值以及所述历史告警事件数更新所述资源的历史监控阈值。例如,在本发明实施例中,若需要确定更新的是第50周的周一的监控阈值,则根据第50周周一前第一设定时间内产生的历史数据确定了50周周一的第一监控阈值,例如为87%,获取了50周周一前的7天的监控阈值分别92%,75%,85%,90%,90%,80%,80%,并确定了在第50周周一前的第二设定时间内产生的历史告警事件,如表1所示,则第一监控阈值与50周周一前的7天的监控阈值之中的最大的监控阈值为92%,且监控阈值92%对应的历史告警数为3次,则确定当前第50周的周一的监控阈值应该大于92%,以减少告警事件。在本发明实施例中,可选的,对于同一个资源,资源保存了每个更新周期确定监控阈值,这些监控阈值都作为历史阈值,例如如表2所示,表2中表示的是CPU的历史阈值:时间监控阈值49周周一88%49周周二76%49周周三80%49周周四82%49周周五79%49周周六88%49周周日90%表2:资源CPU对应的历史监控阈值在第50周周一的零时,确定的在第50周周一的监控阈值为88%,则更新表2中的CPU对应的历史监控阈值,如表3所示:时间监控阈值49周周一88%49周周二76%49周周三80%49周周四82%49周周五79%49周周六88%49周周日90%50周周一88%表3:资源CPU对应的更新后的监控阈值可选的,在本发明实施例中,由于参与计算的历史监控阈值以及历史数据都需要一段时间的积累后历史数据的参考正确性才能得到保证,若需要计算的更新周期是该服务器在使用前60天内,可以只使用该更新前的第一设定时间内的历史数据确定当前更新周期的第一监控阈值。可选的,在本发明实施例中,除了根据每个资源的使用率的上限确定监控阈值的上限值,还包括根据每个资源的使用率的下限确定监控阈值的下限值。可选的,在本发明实施例中,确定监控阈值的下限值的方法同确定监控阈值的上限值的过程相似,在此不做赘述。可选的,在本发明实施例中,对于不同的服务器,服务器中每个资源的使用时间段不同,例如,资源1的使用频次为1天一次,而资源2的使用频次为1小时一次,所以可以针对资源1与资源2的使用频次的不同,设置不同的监控阈值基线,例如,可以设置资源1的监控阈值为小时阈值,即资源1每个小时的监控阈值都能够细化,而对于资源2,可以设置天阈值,也就是说,即资源2每天的监控阈值都能够细化。可选的,在本发明实施例中,根据资源在更新周期前第一设定时间内产生的历史数据确定资源在当前更新周期的第一监控阈值可以为小时阈值,第一监控阈值包括小时阈值的上限值以及小时阈值的下限值。在本发明实施例中,针对更新周期中的任意一小时,从更新周期前第一设定时间内产生的历史数据中确定小时对应的历史数据集合,根据小时对应的的历史数据集合确定小时对应的平均值以及标准差值;根据小时对应的平均值以及标准差值确定小时阈值的上限值以及小时阈值的下限值。例如,更新周期为一天,则一天中有24个小时,24个小时中的任意一个小时,假设为第3个小时,即凌晨3时,需要确定凌晨3时的小时阈值,则首先从该更新周期前第一设定时间内产生的历史数据中确定每天凌晨3时的历史数据集合,可选的,在本发明实施例中,每天凌晨3时的历史数据集合可以是凌晨3时的小时监控阈值,例如表4所示,第一设定时间为7天,为上一周的周一至周日凌晨3时的小时监控阈值,且每个小时监控阈值包括小时监控阈值的上限值以及下限值。表4:历史数据中每天凌晨3时的监控阈值的上限值以及下限值可选的,在本发明实施例中,在获取了历史数据中每天凌晨3时的监控阈值的上限值以及下限值后,将上限值最大值作为第一监控阈值的上限值,即90%,将下限值的最小值作为第一监控阈值的下上限值,即19%。可选的,在本发明实施例中,还可以确定历史数据中每天凌晨3时的每分钟的使用率情况,例如确定凌晨3时对应的60分钟的每一分钟的使用率,也就是对于一天,凌晨3时对应的每一分钟的使用率有60个,第一设定时间为7天时,历史数据中凌晨3时对应的历史数据集合就有420个,确定420个数据的平均值以及标准差值,根据平均值以及标准差值确定小时阈值的上限值以及小时阈值的下限值。可选的,在本发明实施例中,若确定的平均值为标准差为s,则可以根据公式1确定小时阈值的上限值以及下限值:可选的,在本发明实施例中,当确定的标准差值为0时,则说明该资源的使用率一直比较稳定,则可以设置该资源的监控阈值为特殊阈值,例如可以根据文件系统的分类,如表5所示,文件系统用于存储程序文件,文件系统用于存储日志文件,文件系统用于存储公用类文件等,通常设置默认阈值。在获取当前使用率后获得当前使用率的上限,并通过判断当前使用率的上限是否大于默认阈值,对当前使用率的上限进行调整,并将调整后的上限值作为监控阈值。表5:按照系统文件分类确定的默认阈值以及增加值表在本发明实施例中,当确定当前值加上预设的增加值后大于100%,则可以设置一个固定值来表示当前资源的上限值,例如可以设置98%来表示当前阈值的上限值。可选的,在本发明实施例中,在确定了小时阈值的上限值以及下限值后,还可以确定天阈值的上限值以及下限值,例如以某周的周一为例,周一的天阈值的上限值为天阈值对应的24个小时的小时阈值的上限值中的最大值,而周一的天阈值下限值为天阈值对应的24个小时的小时阈值的下限值中的最小值。可选的,在本发明实施例中,由于服务器系统中在不同的时间段,可能会有突发的使用率过高的问题,或者产生大量告警事件数的问题,例如,若服务器系统为淘宝买卖系统时,在双11、双12等大促时,成交量会激增,服务器中每个资源的使用率也会提高,所以在本发明实施例中,可以在设定时间段内调整该时间段的监控阈值。例如,在本发明实施例中,设定时间为11月11日,则在11月11日到达时,首先判断是否为设定时间段,若确定更新周期为设定时间段,则获取设定时间段对应的调整参数,根据资源的历史监控阈值、第一监控阈值、历史告警事件数以及调整参数更新资源的历史监控阈值。例如,双11的业务量激增,则可以设置与11月11日对应的调整系数为1.5倍,即在根据资源的历史监控阈值、第一监控阈值、历史告警事件数确定的当前更新周期的监控阈值的基础上乘以1.5倍。可选的,在本发明实施例中,还可以设置与11月11日对应的调整量,例如为m,则在根据资源的历史监控阈值、第一监控阈值、历史告警事件数确定的当前更新周期的监控阈值的基础上加上m。为了便于本领域技术人员的理解,在此举例说明,本发明提供一种确定资源监控阈值的方法,新的更新周期为第50周的周一,资源为CPU,具体步骤如图2所示,包括:步骤201,获取在周一前第一设定时间内的历史数据,第一设定时间为7天;步骤202,获取周一前的CPU的历史监控阈值以及第二设定时间内产生的告警事件数,第二设定时间为上一周的周一;步骤203,确定当前更新周期是否为设定更新周期,若确定为设定更新周期,则执行步骤204,否则执行步骤205;步骤204,确定更新周期对应的调整参数,在本发明实施例中,调整参数为线性调整参数,执行步骤206;步骤205,根据CPU的历史监控阈值、第一监控阈值、历史告警事件数确定当前更新周期的CPU的监控阈值,执行步骤207;步骤206,根据CPU的历史监控阈值、第一监控阈值、历史告警事件数以及调整参数确定当前更新周期的CPU的监控阈值;步骤207,更新CPU的历史监控资源。基于同样的构思,本发明实施例还提供一种确定资源监控阈值的装置,如图3所示,包括:获取单元301,用于在更新周期达到时,获取服务器中各资源在所述更新周期前第一设定时间内产生的历史数据以及所述各资源的历史监控阈值;更新单元302,用于针对任意一个资源,根据所述资源在所述更新周期前第一设定时间内产生的历史数据确定所述资源在当前更新周期的第一监控阈值,根据所述资源的历史监控阈值以及所述第一监控阈值更新所述资源的历史监控阈值。进一步地,所述第一监控阈值为小时阈值,所述第一监控阈值包括小时阈值的上限值以及小时阈值的下限值;所述更新单元302具体用于:针对所述更新周期中的任意一小时,从所述更新周期前第一设定时间内产生的历史数据中确定所述小时对应的历史数据集合,根据所述小时对应的的历史数据集合确定所述小时对应的平均值以及标准差值;根据所述小时对应的平均值以及标准差值确定所述小时阈值的上限值以及小时阈值的下限值。进一步地,所述第一监控阈值为小时阈值,所述第一监控阈值包括小时阈值的上限值以及小时阈值的下限值;所述更新单元302具体用于:针对所述更新周期中的任意一小时,从所述更新周期前第一设定时间内产生的历史数据中确定所述小时对应的历史数据集合,根据所述小时对应的的历史数据集合确定所述小时对应的平均值以及标准差值;根据所述小时对应的平均值以及标准差值确定所述小时阈值的上限值以及小时阈值的下限值。进一步地,所述获取单元301还用于:获取历史告警事件数;其中,所述历史告警事件为在所述更新周期前第二设定时间内,所述资源的历史数据超过所述资源的历史监控阈值时产生的;所述更新单元302具体用于:若确定所述历史告警事件数大于预设的调整阈值,则根据所述资源的历史监控阈值、所述第一监控阈值以及所述历史告警事件数更新所述资源的历史监控阈值。进一步地,所述更新单元302具体用于:确定所述更新周期是否为设定更新周期;若确定所述更新周期为设定更新周期,则获取所述设定更新周期对应的调整参数;根据所述资源的历史监控阈值、所述第一监控阈值、所述历史告警事件数以及所述调整参数更新所述资源的历史监控阈值。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1