本发明涉及知识图谱,尤其涉及一种基于监控指标的事件预判方法及装置。
背景技术:
1、随着银行业务快速发展,数据中心it运维的应用系统、服务器、设备等资源对象几何式增长,应用系统架构不断演变,应用与应用之间、应用与基础架构之间的关联关系也越来越错综复杂。监控平台所接入的监控资源对象数量与告警数量与日俱增。由于快速响应全量告警需要大量的运维人员人力成本;并且产生告警的根本原因是发生了异常,因此真正需要关注的是告警背后产生的异常事件、需要定位的是异常事件的故障点。
2、目前主要使用基于交叉熵聚类(1.0版本)、基于grano算法(2.0版本)以及运维知识图谱(3.0版本)对告警进行分析。但是该方法的知识图谱中节点与节点之间的关联度很低,分析效果较差,并且这种方法仅对告警本身进行分析,而不对告警背后的异常事件进行预判,存在告警处理效果差的问题。
技术实现思路
1、有鉴于此,本发明实施例提供一种基于监控指标的事件预判方法及装置,以解决无法对告警背后的异常事件进行预判的问题。
2、为实现上述目的,本发明实施例提供如下技术方案:
3、本发明实施例第一方面公开一种基于监控指标的事件预判方法,所述方法包括:
4、获取监控资源对象ci、监控指标和监控指标的关联信息;
5、根据所述监控资源对象ci、所述监控指标和所述监控指标的关联信息,构建拓扑图模型;
6、遍历所述拓扑图模型,得到节点信息和关系清单;
7、基于所述节点信息和所述关系清单构建知识库;
8、从所述拓扑图模型和所述知识库中提取第一数据集;
9、获取历史事件案例,从所述历史事件案例中提取第二数据集;
10、基于所述第一数据集和所述第二数据集构建基于监控指标的图神经网络模型;
11、获取实时告警数据,输入所述图神经网络模型,得到异常事件预判结果。
12、优选的,所述遍历所述拓扑图模型,得到节点信息和关系清单,包括:
13、遍历所述拓扑图模型的基本元素,得到节点信息;
14、对于每个所述节点信息,查找所述节点信息对应的关系信息,得到关系清单。
15、优选的,所述从所述拓扑图模型和所述知识库中提取第一数据集,包括:
16、从所述拓扑图模型和所述知识库中获取所有主节点集合;
17、根据所述主节点集合中的每个主节点,获取每个所述主节点的邻居节点,得到邻居节点集合;
18、获取所有第一节点对应的边集合,所述第一节点为所述主节点集合中符合预设条件的所述主节点;
19、创建第二节点的特征向量,所述第二节点为所述主节点集合中符合预设要求的所述主节点。
20、优选的,所述获取历史事件案例,从所述历史事件案例中提取第二数据集,包括:
21、获取历史事件案例,查找所述历史时间案例中监控资源对象ci和监控指标所对应的关联信息;
22、基于所述关联信息创建目标特征向量。
23、优选的,所述基于所述第一数据集和所述第二数据集构建基于监控指标的图神经网络模型,包括:
24、根据所述第一数据集和所述第二数据集确定训练数据集;
25、根据所述历史事件案例确定测试数据集;
26、基于所述训练数据集,训练图神经网络模型直至所述图神经网络模型收敛,得到基于监控指标的图神经网络模型;
27、利用所述测试数据集测试所述基于监控指标的图神经网络模型的异常事件预判效果;
28、若所述异常事件预判效果满足预设条件,确定得到最终的基于监控指标的图神经网络模型;
29、若所述异常事件预判效果不满足预设条件,更新所述基于监控指标的图神经网络模型的参数,返回执行利用所述测试数据集测试所述基于监控指标的图神经网络模型的异常事件预判效果这一步骤。
30、本发明实施例第二方面公开一种基于监控指标的事件预判装置,所述装置包括:
31、第一获取单元,用于获取监控资源对象ci、监控指标和监控指标的关联信息;
32、第一构建单元,用于根据所述监控资源对象ci、所述监控指标和所述监控指标的关联信息,构建拓扑图模型;
33、遍历单元,用于遍历所述拓扑图模型,得到节点信息和关系清单;
34、第二构建单元,用于基于所述节点信息和所述关系清单构建知识库;
35、第一提取单元,用于从所述拓扑图模型和所述知识库中提取第一数据集;
36、第二提取单元,用于获取历史事件案例,从所述历史事件案例中提取第二数据集;
37、第三构建单元,用于基于所述第一数据集和所述第二数据集构建基于监控指标的图神经网络模型;
38、第二获取单元,用于获取实时告警数据,输入所述图神经网络模型,得到异常事件预判结果。
39、优选的,所述遍历单元,包括:
40、遍历模块,用于遍历所述拓扑图模型的基本元素,得到节点信息;
41、第一查找模块,用于对于每个所述节点信息,查找所述节点信息对应的关系信息,得到关系清单。
42、优选的,所述第一提取单元,包括:
43、第一获取模块,用于从所述拓扑图模型和所述知识库中获取所有主节点集合;
44、第二获取模块,用于根据所述主节点集合中的每个主节点,获取每个所述主节点的邻居节点,得到邻居节点集合;
45、第三获取模块,用于获取所有第一节点对应的边集合,所述第一节点为所述主节点集合中符合预设条件的所述主节点;
46、第一创建模块,用于创建第二节点的特征向量,所述第二节点为所述主节点集合中符合预设要求的所述主节点。
47、优选的,所述第二提取单元,包括:
48、第二查找模块,用于获取历史事件案例,查找所述历史时间案例中监控资源对象ci和监控指标所对应的关联信息;
49、第二创建模块,用于基于所述关联信息创建目标特征向量。
50、优选的,所述第三构建单元,包括:
51、第一确定模块,用于根据所述第一数据集和所述第二数据集确定训练数据集;
52、第二确定模块,用于根据所述历史事件案例确定测试数据集;
53、训练模块,用于基于所述训练数据集,训练图神经网络模型直至所述图神经网络模型收敛,得到基于监控指标的图神经网络模型;
54、测试模块,用于利用所述测试数据集测试所述基于监控指标的图神经网络模型的事件预判效果;
55、确定模型模块,用于若所述事件预判效果满足预设条件,确定得到最终的基于监控指标的图神经网络模型;
56、更新模块,用于若所述事件预判效果不满足预设条件,更新所述基于监控指标的图神经网络模型的参数,返回执行所述测试模块。
57、基于上述本发明实施例提供的一种基于监控指标的事件预判方法及装置,方法包括:获取监控资源对象ci、监控指标和监控指标的关联信息;根据监控资源对象ci、监控指标和监控指标的关联信息,构建拓扑图模型;遍历拓扑图模型,得到节点信息和关系清单;基于节点信息和关系清单构建知识库;从拓扑图模型和知识库中提取第一数据集;获取历史事件案例,从历史事件案例中提取第二数据集;基于第一数据集和第二数据集构建基于监控指标的图神经网络模型;获取实时告警数据,输入图神经网络模型,得到异常事件预判结果。通过拓扑图模型和知识库构建图神经网络模型,利用图神经网络模型预判告警背后的异常事件,提高了事件根源预判的精确率和召回率;为后续自动化运维系统建设与智能运维分析提供了可行性的参考。