监测系统的故障寻因方法、装置、设备及存储介质与流程

文档序号:35915507发布日期:2023-10-30 06:55阅读:62来源:国知局
监测系统的故障寻因方法、装置、设备及存储介质与流程

本技术涉及人工智能,尤其涉及一种监测系统的故障寻因方法、装置、设备及存储介质。


背景技术:

1、目前,网络云的规模不断扩大,这对相应监测系统的运行可靠性提出了更高的要求。当监测系统出现故障时,对故障及时且准确的诊断,是衡量系统运维能力的因素之一。

2、当监测系统出现故障时,获取时序指标,并对时序指标的全部维度进行遍历搜索根因,且当计算维度较大时,基于欧式距离确定元素的根因潜在得分十分耗时,大量的计算任务降低了根因的搜索速度,且在搜索根因时依赖人工进行调参,对人员的调参经验高度依赖,根因搜索结果的准确度不高,即,现有技术中存在,对监测系统进行故障寻因的效率不高的问题。

3、上述内容仅用于辅助理解本技术的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本发明的主要目的在于提供一种监测系统的故障寻因方法、装置、设备及存储介质,旨在解决现有技术中,对监测系统进行故障寻因的效率不高的问题。

2、为实现上述目的,本技术提供一种监测系统的故障寻因方法,所述方法包括:

3、在检测到监测系统的总故障指标异常时,获取预设的叶子元素的当前值,其中,所述叶子元素和非叶子元素共同组成候选根因元素的数据立方体,所述数据立方体为多层;

4、基于所述当前值,计算所述叶子元素的偏差度,得到偏差度集合;

5、按照所述数据立方体中所述候选根因元素的聚合程度由低到高的顺序,基于所述偏差度集合,计算得到每层候选根因元素对应的根因潜在得分;

6、基于所述根因潜在得分,筛选所述候选根因元素,将筛选得到的根因元素加入至根因集合,并从所述数据立方体中删除所述根因元素的后代叶子元素;

7、判断所述根因集合是否符合预设的集合条件,若是,则将当前的根因集合作为所述监测系统的故障根因。

8、在本技术的一种可能的实施方式中,所述基于所述偏差度集合,计算得到每层候选根因元素对应的根因潜在得分的步骤,包括:

9、基于所述偏差度集合,确定分区阈值;

10、基于所述分区阈值,对所述叶子元素分区,得到正常叶子区与异常叶子区;

11、基于所述分区阈值与所述偏差度,确定所述正常叶子区中每个叶子元素的第一权重,以及确定所述异常叶子区中每个叶子元素的第二权重;

12、基于所述第一权重与所述第二权重,计算得到每层候选根因元素对应的根因潜在得分。

13、在本技术的一种可能的实施方式中,所述基于所述第一权重与所述第二权重,计算得到每层候选根因元素对应的根因潜在得分的步骤,包括:

14、基于所述第一权重与所述第二权重,计算得到第一根因潜在得分;

15、基于后代叶子元素的当前值,以及后代叶子元素的预测值,计算得到第二根因潜在得分,其中,所述后代叶子元素的预测值与所述候选根因元素的预测值对应成比例;

16、基于所述第一根因潜在得分与所述第二根因潜在得分,计算得到所述根因潜在得分,其中,当所述候选根因元素为所述叶子元素时,所述第二根因潜在得分为0。

17、在本技术的一种可能的实施方式中,所述基于所述偏差度集合,确定分区阈值的步骤,包括:

18、确定所述偏差度集合的分布情况,其中,所述分布情况包括期望值;

19、基于所述分布情况,从所述偏差度中剔除第一数量的极大值,以及剔除第二数量的极小值,其中,剔除后的偏差度的分布情况包括左端点与右端点;

20、基于所述期望值在所述左端点与所述右端点之间的偏离情况,确定所述分区阈值;

21、其中,所述左端点的值与所述期望值的绝对值为第一绝对值,所述右端点的值与所述期望值的绝对值为第二绝对值,若所述第一绝对值小于所述第二绝对值,则所述期望值为所述左端点的值与所述分区阈值的平均值,若所述第一绝对值大于所述第二绝对值,则所述期望值为所述右端点的值与所述分区阈值的平均值。

22、在本技术的一种可能的实施方式中,所述基于所述当前值,计算所述叶子元素的偏差度,得到偏差度集合的步骤,包括:

23、基于所述当前值,计算得到非叶子元素的当前值;

24、基于所述当前值,计算得到叶子元素的预测值;

25、基于所述叶子元素的预测值,计算得到非叶子元素的预测值;

26、基于所述非叶子元素的当前值与所述非叶子元素的预测值,计算所述叶子元素的偏差度,得到偏差度集合,其中,相同根因的叶子元素的所述偏差度相等。

27、在本技术的一种可能的实施方式中,所述基于所述根因潜在得分,筛选所述候选根因元素,将筛选得到的根因元素加入至根因集合的步骤,包括:

28、基于所述根因潜在得分,筛选所述候选根因元素,其中,将所述候选根因元素中,所述根因潜在得分大于预设的根因阈值的候选根因元素进行保留;

29、若保留的候选根因元素在同层数据立方体中有多个,则基于所述集合条件,从保留的候选根因元素中筛选出根因元素;

30、将筛选得到的根因元素加入至根因集合。

31、在本技术的一种可能的实施方式中,所述判断所述根因集合是否符合预设的集合条件的步骤,包括:

32、判断所述根因集合是否符合预设的集合条件,其中,判断所述根因集合中元素的解释度是否高于预设的解释度阈值;

33、若否,则返回按照所述数据立方体中所述候选根因元素的聚合程度由低到高的顺序,基于所述偏差度集合,计算得到每层候选根因元素对应的根因潜在得分的步骤,得到所述根因集合,直至所述根因集合中元素的解释度高于所述解释度阈值。

34、此外,为实现上述目的,本技术还提供一种监测系统的故障寻因装置,所述监测系统的故障寻因装置,包括:

35、获取模块,用于在检测到监测系统的总故障指标异常时,获取预设的叶子元素的当前值,其中,所述叶子元素和非叶子元素共同组成候选根因元素的数据立方体,所述数据立方体为多层;

36、第一计算模块,用于基于所述当前值,计算所述叶子元素的偏差度,得到偏差度集合;

37、第二计算模块,用于按照所述数据立方体中所述候选根因元素的聚合程度由低到高的顺序,基于所述偏差度集合,计算得到每层候选根因元素对应的根因潜在得分;

38、筛选模块,用于基于所述根因潜在得分,筛选所述候选根因元素,将筛选得到的根因元素加入至根因集合,并从所述数据立方体中删除所述根因元素关联的叶子元素;

39、判断模块,用于判断所述根因集合是否符合预设的集合条件,若是,则将当前的根因集合作为所述监测系统的故障根因。

40、此外,为实现上述目的,本技术还提供一种监测系统的故障寻因设备,所述监测系统的故障寻因设备为实体节点设备,所述监测系统的故障寻因设备包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的监测系统的故障寻因程序,所述处理器执行所述监测系统的故障寻因程序实现所述监测系统的故障寻因方法的步骤。

41、此外,为实现上述目的,本技术还提供一种存储介质,所述存储介质上存储有实现监测系统的故障寻因方法的程序,所述监测系统的故障寻因程序被处理器执行时实现上述所述的监测系统的故障寻因方法的步骤。

42、本技术提供一种监测系统的故障寻因方法、装置、设备及存储介质,与现有技术中,对监测系统进行故障寻因的效率不高的问题相比,在本技术中,在检测到监测系统的总故障指标异常时,获取预设的叶子元素的当前值,其中,所述叶子元素和非叶子元素共同组成候选根因元素的数据立方体,所述数据立方体为多层;基于所述当前值,计算所述叶子元素的偏差度,得到偏差度集合;按照所述数据立方体中所述候选根因元素的聚合程度由低到高的顺序,基于所述偏差度集合,计算得到每层候选根因元素对应的根因潜在得分;基于所述根因潜在得分,筛选所述候选根因元素,将筛选得到的根因元素加入至根因集合,并从所述数据立方体中删除所述根因元素的后代叶子元素;判断所述根因集合是否符合预设的集合条件,若是,则将当前的根因集合作为所述监测系统的故障根因。在本技术中,计算叶子元素的偏差度时,计算量小,根据聚合程度由低到高的顺序,筛选候选根因元素,筛选后将对应的后代叶子元素删除,降低了对每层候选根因元素的迭代计算量,提高了故障寻因的速度,且判断得到的根因集合是否符合集合条件,提高了寻到的根因的准确度,即提高了对监测系统进行故障寻因的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1