运维监控处理方法、装置、设备和介质与流程

文档序号:30513691发布日期:2022-06-25 02:38阅读:93来源:国知局
运维监控处理方法、装置、设备和介质与流程

1.本技术涉及运维监控技术领域,特别是涉及一种运维监控处理方法、装置、计算机设备和存储介质。


背景技术:

2.在运维监控中,通常需要将告警策略匹配上对应的实体,以在后续的监控事件上报时确认是否触发告警条件,从而发出告警。运维监控中涉及多种不同的监控实体,运维监控服务器需要在配置告警策略时,确定告警策略对应的具体实体。
3.目前技术中,运维监控服务器通常预先配置告警策略与监控实体的对应关系,监控实体存在动态变化时,影响告警策略对应的监控实体的准确性。


技术实现要素:

4.基于此,有必要针对目前技术中存在的确定告警策略对应的监控实体的准确性低的技术问题,提供一种运维监控处理方法、装置、计算机设备和存储介质。
5.一种运维监控处理方法,应用于运维监控服务器,所述方法包括:
6.获取采集实例被执行时上报的采集数据;所述采集实例为预先下发到实体的、与采集模型对应的脚本文件;所述采集数据中包括实体端点以及采集模型令牌;
7.获取缓存模块中与所述采集模型令牌对应的实体端点列表,若所述实体端点不包含所述实体端点列表中,将所述实体端点添加到所述实体端点列表;
8.获取所述采集模型令牌对应的告警策略,将所述实体添加到所述告警策略对应的实体数据中;所述告警策略通过所述采集模型令牌与所述采集模型关联,所述告警策略用于被所述实体对应的实体事件触发以发出告警。
9.在其中一个实施例中,所述获取采集实例被执行时上报的采集数据之前,所述方法还包括:
10.注册所述采集模型,得到所述采集模型对应的采集模型令牌;
11.将所述采集模型令牌写入到对应的采集实例,下发所述采集实例到对应的实体。
12.在其中一个实施例中,所述方法还包括:
13.若所述实体端点包含在所述实体端点列表,更新所述实体端点列表中,所述实体端点对应的数据过期时间。
14.在其中一个实施例中,所述方法还包括:
15.查询所述缓存模块中,与所述采集模型令牌对应的所述实体端点列表,以及所述实体端点列表中,各个实体端点对应的数据过期时间;
16.若任一实体端点对应的数据过期时间超过预设过期时长,将所述实体端点从所述实体端点列表中删除,以及将所述实体从所述采集模型令牌对应的告警策略对应的实体数据中删除。
17.在其中一个实施例中,所述方法还包括:
18.控制所述实体对应的主机删除所述采集实例。
19.在其中一个实施例中,所述方法还包括:
20.获取目标主机对应的组件-主机配置类型;
21.若所述组件-主机配置类型为部署型服务,获取所述主机对所述实体的服务变动操作,更新所述主机对应的告警策略;
22.若所述组件-主机配置类型为接口型服务,获取目标集群对主机的增加/删除操作,查询所述目标集群的接口服务列表,更新所述集群的所述接口服务列表对应的告警策略。
23.在其中一个实施例中,所述采集数据中还包括采集实例令牌,所述方法还包括:
24.获取所述缓存模块中与采集实例令牌对应的实体端点列表,将所述实体端点添加到所述采集实例令牌对应的实体端点列表;
25.获取所述采集实例令牌对应的告警策略,将所述实体添加到所述告警策略对应的实体数据。
26.一种运维监控处理装置,所述装置包括:
27.应用于运维监控服务器,所述装置包括:
28.采集数据获取模块,用于获取采集实例被执行时上报的采集数据;所述采集实例为预先下发到实体的、与采集模型对应的脚本文件;所述采集数据中包括实体端点以及采集模型令牌;
29.实体端点关联模块,用于获取缓存模块中与所述采集模型令牌对应的实体端点列表,若所述实体端点不包含所述实体端点列表中,将所述实体端点添加到所述实体端点列表;
30.告警策略关联模块,用于获取所述采集模型令牌对应的告警策略,将所述实体添加到所述告警策略对应的实体数据中;所述告警策略通过所述采集模型令牌与所述采集模型关联,所述告警策略用于被所述实体对应的实体事件触发以发出告警。
31.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中运维监控处理方法的步骤。
32.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中运维监控处理方法步骤。
33.上述运维监控处理方法、装置、计算机设备和存储介质,通过获取实体对应的采集实例被执行时上报的采集数据,该采集实例为预先下发到实体的、与采集模型对应的脚本文件,获取缓存模块中与采集模型令牌对应的实体端点列表,若采集数据中包含的实体端点不包含在实体端点列表中,将实体端点添加到该实体端点列表,获取采集模型令牌对应的告警策略,将实体添加到告警策略对应的实体数据中,通过为采集模型配置采集模型令牌,根据采集实例上报的采集数据,针对采集模型令牌对应的实体端点列表进行动态管理,进而建立实体和告警策略的关联关系,提高了确定告警策略对应的实体的准确性和灵活性。
附图说明
34.图1为一个实施例中运维监控处理方法的流程示意图;
35.图2为另一个实施例中运维监控处理方法的流程示意图;
36.图3为另一个实施例中运维监控处理方法的流程示意图;
37.图4为一个实施例中运维监控处理装置的结构框图;
38.图5为一个实施例中计算机设备的内部结构图。
具体实施方式
39.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
40.在一个实施例中,如图1所示,提供了一种运维监控处理方法,本实施例以该方法应用于运维监控服务器进行举例说明。本实施例中,该方法包括以下步骤:
41.步骤s101,获取采集实例被执行时上报的采集数据。
42.其中,采集实例可以为预先下发到实体的、与采集模型对应的脚本文件,采集实例可以被执行以上报采集数据;该采集数据中可以包括实体端点以及采集模型令牌。实体可以是指机器上的某一特定服务或者服务-角色,服务或者服务-角色可以在主机上被部署、扩容、缩容或者卸载,实体端点可以是实体endpoint,可以包含集群名、服务名、服务角色名、主机ip等信息。采集模型令牌可以是运维监控服务器为各个采集模型生成的唯一的token。运维监控服务器可以在将采集实例下发到实体时,可以将采集模型令牌写入到采集实例中。
43.具体实现中,运维监控服务器获取采集实例在实体中被执行时,上报的采集数据,从中获取采集实例对应的实体端点和采集模型令牌。
44.步骤s202,获取缓存模块中与采集模型令牌对应的实体端点列表,若实体端点不包含所述实体端点列表中,将实体端点添加到实体端点列表。
45.其中,采集模型对应的采集实例可以被下发到多个实体,每个实体有对应的实体endpoint,因此同一个采集模型可以对应多个实体endpoint,可以在缓存模块中以实体端点列表的方式进行保存,运维监控服务器可以通过采集模型令牌查询该采集模型对应的实体端点列表。采集模型令牌对应的实体端点可以增加或者删除。
46.具体实现中,运维监控服务器可以根据采集数据中包含的采集模型令牌,查询缓存模块中与该采集模型令牌对应的实体端点列表,若该实体端点不包含在该采集模型令牌对应的实体端点列表中,可以将该实体端点添加到对应的实体端点列表中。
47.步骤s203,获取采集模型令牌对应的告警策略,将实体添加到告警策略对应的实体数据中。
48.其中,告警策略可以通过采集模型令牌与采集模型关联,该告警策略可以用于被实体对应的实体事件触发以发出告警,例如向终端发出短信通知等。运维监控服务器可以为采集模型配置对应的告警策略,该告警策略可以与实体建立关联关系,由此实现对建立关联关系的实体的监控。
49.具体实现中,运维监控服务器可以根据采集模型令牌获取预先配置的告警策略,并将该实体添加到该告警策略对应的实体数据中,建立该实体与告警策略的关联关系,实现对该实体的监控。
50.上述运维监控处理方法中,通过获取实体对应的采集实例被执行时上报的采集数据,该采集实例为预先下发到实体的、与采集模型对应的脚本文件,获取缓存模块中与采集模型令牌对应的实体端点列表,若采集数据中包含的实体端点不包含在实体端点列表中,将实体端点添加到该实体端点列表,获取采集模型令牌对应的告警策略,将实体添加到告警策略对应的实体数据中,通过为采集模型配置采集模型令牌,根据采集实例上报的采集数据,针对采集模型令牌对应的实体端点列表进行动态管理,进而建立实体和告警策略的关联关系,提高了确定告警策略对应的实体的准确性和灵活性。
51.在一个实施例中,步骤s101中确定获取采集实例被执行时上报的采集数据之前的步骤包括:
52.注册采集模型,得到采集模型对应的采集模型令牌;将采集模型令牌写入到对应的采集实例,下发采集实例到对应的实体。
53.本实施例中,运维监控服务器注册采集模型,通过uuid(universally unique identifier,通用唯一识别码)生成该采集模型的唯一令牌。运维监控服务器可以根据该采集模型令牌,建立采集模型与告警策略的关联关系。运维监控服务器可以将采集模型令牌写入到对应的采集实例,并下发采集实例到对应的实体。
54.在一些实施例中,采集模型可以包括公共采集模型、插件采集模型和自主上报模型。其中,针对公共采集模型,运维监控服务器可以下发采集实例到服务集群的主机,该采集实例被执行时上报相应的采集数据。针对插件采集模型,运维监控服务器可以将采集实例下发到具体的机器。自主上报模型对应的采集实例则是按照各自预设的规则自主上报数据。运维监控服务器通过将各个采集模型可以下发采集实例,根据上报的采集数据中包含的采集模型令牌和实体端点,建立采集模型令牌和实体端点的关联关系,进而根据采集模型令牌与告警策略的关联关系,建立告警策略与实体的关联关系,确认告警策略的监控实体。
55.在一些实施例中,运维监控服务器可以根据对实体的监控需求,将对应的采集实例下发到对应的实体。
56.上述实施例的方案,通过配置采集模型对应的采集模型令牌,并写入到采集模型对应的采集实例中,可以通过上报的采集数据,建立采集模型令牌与采集实例的关联关系,提升了确定监控实体的效率。
57.在一个实施例中,上述方法还包括:
58.若实体端点包含在实体端点列表,更新实体端点列表中实体端点对应的数据过期时间。
59.本实施例中,实体端点列表中可以包含实体对应的采集数据的过期时间。运维监控服务器可以配置预设的数据过期时长,在此时间之内上报的采集数据,均可予以保存,例如预设的数据过期时长可以为7天。在过期时间内,实体端点产生上报数据时,运维监控服务器可以更新该实体端点对应的数据过期时间,以提高数据更新的及时性。
60.在一些实施例中,上述方法还包括:
61.查询缓存模块中,与采集模型令牌对应的实体端点列表,以及实体端点列表中,各个实体端点对应的数据过期时间;若任一实体端点对应的数据过期时间超过预设过期时长,将所述实体端点从所述实体端点列表中删除,以及将所述实体从所述采集模型令牌对
应的告警策略对应的实体数据中删除。
62.本实施例中,运维监控服务器可以定期对缓存模块中的实体端点列表进行更新,删除超过过期时长的数据对应的实体端点。具体的,运维监控服务器可以定期查询缓存模块中,实体端点列表中,实体端点对应的数据过期时间,若超过预设过期时长,则将实体端点从对应的实体端点列表中删除。运维监控服务器还可以根据采集模型令牌,查询对应的告警策略对应的实体数据,并将该实体从对应的实体数据中删除。实现告警策略与实体的关联关系的动态更新,确保告警策略所关联的监控实体的准确性。
63.在一个实施例中,上述方法还包括:
64.控制实体对应的主机删除采集实例。
65.本实施例中,运维监控服务器在删除缓存模块中实体端点之后,可以向对应的主机发送蓝图操作,控制该主机停止运行对应的采集实例,并删除采集实例,并删除告警策略与实体的关联关系。
66.在一个实施例中,如图2所示,主机在进行服务缩容、服务-角色卸载或者删除时,运维监控服务器可以控制插件采集模型对应的采集实例停止数据上报,并删除缓存中采集模型令牌对应的该实体端点,根据采集模型id或者采集模型令牌,查询得到告警策略列表,从告警策略列表中对应的实体数据中,删除该实体。
67.在一个实施例中,如图2所示,主机在进行服务卸载时,运维监控服务器可以控制公共采集模型对应的采集实例停止数据上报,并删除服务部署时为该主机的该服务部署的告警策略,从告警策略清单中删除该告警策略。若该服务为导入到集群的服务,运维监控服务器可以从该集群与该告警策略的关联关系中,删除该告警策略。删除告警策略之后,由该告警策略触发的存量告警数据,告警列表可以正常展示,运维监控服务器可以为该告警策略配置相应提示,例如该告警策略已经失效。
68.在一个实施例中,上述方法还包括:
69.获取目标主机对应的组件-主机配置类型;若组件-主机配置类型为部署型服务,获取主机对所述实体的服务变动操作,更新主机对应的告警策略;若组件-主机配置类型为接口型服务,获取目标集群对主机的增加/删除操作,查询目标集群的接口服务列表,更新集群的接口服务列表对应的告警策略。
70.本实施例中,如图2所示,运维监控服务器可以根据目标对应的组件-主机配置类型的不同,确定如何配置以及变更主机或主机集群对应的告警策略。组件-主机配置类型可以包括部署型服务和接口型服务。其中,组件可以是服务的某一个版本,可以安装在主机上。
71.对于部署型服务,运维监控服务器中可以记录各个实体对应的主机数据。服务变动操作可以包括主机部署新的服务、对服务、服务-角色进行扩容/缩容和卸载等,各个服务、服务-角色作为监控实体,可以对应有配置有告警策略,当主机上配置有多个服务、服务-角色时,主机可以与告警策略建立关联关系。因此,当在主机中部署服务,或者将已有的服务纳入监控范围时,运维监控服务器可以根据告警策略模板创建对应的告警策略,并建立该主机和告警策略的关联关系,根据主机监控策略,下发对应的采集实例该服务,进行数据采集。当主机针对其中的某个服务进行扩容操作时,运维监控服务器也可以根据扩容的部分服务,更新主机与告警策略的关联关系。当进行服务缩容或者服务角色的卸载或删除
时,运维监控服务器可以控制主机上的插件采集模型对应的采集实例停止数据上报,并更新该主机与告警策略的关联关系。当进行服务的卸载或删除时,运维监控服务器可以控制主机上的公共采集模型对应的采集实例停止数据上报,并更新该主机与告警策略的关联关系。在更新主机与告警策略的关联关系的同时,运维监控服务器可以更新主机所关联的实体,例如增加所关联的实体,或者删除所关联的实体。
72.对于接口型服务,服务可以通过接口导入到集群,运维监控服务器可以通过该服务所属的集群进行弱关联,当该集群增加/删除主机,运维监控服务器可以查找该集群的所有接口型服务清单,并遍历该所有接口型服务清单,查询其中包含的服务,并更新该集群对应的告警策略。在目标集群中新增主机时,运维监控服务器可以根据对该主机的监控需求,按照告警策略模板创建对应的告警策略,更新该目标集群的接口型服务清单所与告警策略的对应关系;当目标集群中删除主机时,运维监控服务器可以更新该目标集群的接口型服务清单所与告警策略的对应关系。
73.上述实施例的方案,通过获取组件-主机配置类型,确定不同组件-主机配置类型对应的告警策略的更新方法,提升了确认告警策略和主机关联关系的准确性。
74.在一个实施例中,采集数据中还可以包括采集实例令牌,上述方法还包括:
75.获取缓存模块中与采集实例令牌对应的实体端点列表,将实体端点添加到采集实例令牌对应的实体端点列表;获取采集实例令牌对应的告警策略,将实体添加到告警策略对应的实体数据。
76.本实施例中,采集实例令牌可以是运维监控服务器将采集实例下发到实体的过程中,动态生成唯一标识令牌。采集实例被执行时,上报的采集数据中,可以包括采集实例令牌和实体端点,进而在缓存模块中,建立采集实例令牌和实体端点的关联关系,并进一步建立告警策略与采集实例令牌的对应关系,使得告警策略与实体的关联关系更加紧密,可以细化告警策略对应的实体的范围,减少脏数据以及误告警的情况。
77.在一些实施例中,运维监控服务器可以在下采集实例时,将采集实例令牌写入采集实例中,并针对各种采集模型设置更细化的采集实例令牌,以提高实体动态变更的效率。
78.上述实施例的方案,通过建立采集实例令牌和实体端点的关联关系,提升了确认告警策略对应的实体的精确程度。
79.在一个实施例中,如图3所示,提供了一种运维监控处理方法,该方法包括:
80.步骤s301,运维监控服务器定期查询缓存模块中,与采集模型令牌对应的实体端点列表,以及实体端点列表中,各个实体端点对应的数据过期时间。
81.步骤s302,若任一实体端点对应的数据过期时间超过预设过期时长,将实体端点从缓存模块的实体端点列表中删除,以及将实体从采集模型令牌对应的告警策略对应的实体数据中删除。
82.步骤s303,控制实体对应的主机删除采集实例。
83.上述实施例,通过定期查询缓存模块中,各个采集模型令牌对应的实体端点列表以及各个实体端点对应的数据过期时间,对于数据过期时间超过预设过期时长的实体端点,从对应的实体端点列表中删除,并将该实体从采集模型令牌对应的告警策略的实体数据中删除,控制实体对应的主机删除该采集实例,实现对数据过期的采集实例的删除操作,有利于减少脏数据,提高告警策略的有效性。
84.应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
85.在一个实施例中,如图4所示,提供了一种运维监控处理装置,该装置40包括:
86.采集数据获取模块401,用于获取采集实例被执行时上报的采集数据;采集实例为预先下发到实体的、与采集模型对应的脚本文件;采集数据中包括实体端点以及采集模型令牌;
87.实体端点关联模块402,用于获取缓存模块中与采集模型令牌对应的实体端点列表,若实体端点不包含实体端点列表中,将实体端点添加到实体端点列表;
88.告警策略关联模块403,用于获取采集模型令牌对应的告警策略,将实体添加到告警策略对应的实体数据中;告警策略通过采集模型令牌与采集模型关联,告警策略用于被实体对应的实体事件触发以发出告警。
89.在一个实施例中,采集数据获取模块401,包括采集实例下发单元,用于注册采集模型,得到采集模型对应的采集模型令牌;将采集模型令牌写入到对应的采集实例,下发采集实例到对应的实体。
90.在一个实施例中,上述装置400还包括:更新过期时间单元,用于若实体端点包含在实体端点列表,更新实体端点列表中,实体端点对应的数据过期时间。
91.在一个实施例中,上述装置400还包括:删除单元,用于查询缓存模块中,与采集模型令牌对应的实体端点列表,以及实体端点列表中,各个实体端点对应的数据过期时间;若任一实体端点对应的数据过期时间超过预设过期时长,将实体端点从实体端点列表中删除,以及将实体从采集模型令牌对应的告警策略对应的实体数据中删除。
92.在一个实施例中,删除单元进一步用于控制实体对应的主机删除采集实例。
93.在一个实施例中,上述装置400还包括:组件主机单元,用于获取目标主机对应的组件-主机配置类型;若组件-主机配置类型为部署型服务,获取主机对实体的服务变动操作,更新主机对应的告警策略;若组件-主机配置类型为接口型服务,获取目标集群对主机的增加/删除操作,查询目标集群的接口服务列表,更新集群的接口服务列表对应的告警策略。
94.在一个实施例中,采集数据获取模块401,还包括:采集实例令牌单元,用于获取缓存模块中与采集实例令牌对应的实体端点列表,将实体端点添加到采集实例令牌对应的实体端点列表;获取采集实例令牌对应的告警策略,将实体添加到告警策略对应的实体数据。
95.关于运维监控处理装置的具体限定可以参见上文中对于运维监控处理方法的限定,在此不再赘述。上述运维监控处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
96.本技术提供的运维监控处理方法,可以应用于计算机设备,该计算机设备可以是
服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储采集数据、告警策略数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种运维监控处理方法。
97.本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
98.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
99.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
100.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
101.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
102.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1