算力网络的监控方法、装置及电子设备与流程

文档序号:37507719发布日期:2024-04-01 14:15阅读:8来源:国知局
算力网络的监控方法、装置及电子设备与流程

本技术涉及网络安全,特别涉及一种算力网络的监控方法、装置及电子设备。


背景技术:

1、

2、目前已有的网络监控和调优方法大多是针对传统网络进行设计的,主要通过以下方式实现监控:(1)采用简单网络管理协议(simple network management protocol,snmp)技术对全网设备进行分钟级监控,通过设置不同采集参数阈值,进行设备状态判断,最后发出告警;(2)直接发出设备端口故障、链路中断等主动告警信息。

3、但是,上述方法无法对高性能算力网络进行实时、全局、有效的监控。


技术实现思路

1、本技术实施方式的目的是提供一种算力网络的监控方法、装置及电子设备,以解决无法实现对高性能算力网络进行实时、全局、有效的监控的问题。

2、为解决上述技术问题,本说明书第一方面提供了一种算力网络的监控方法,应用于电子设备,包括:

3、获取目标算力网络中各算力设备的设备遥测信息;

4、基于所述设备遥测信息,确定所述目标算力网络中各算力设备之间的连通关系;

5、基于各算力设备的设备遥测信息以及预设的监控指标,确定各算力设备的预警值;

6、基于各算力设备的预警值确定所述目标算力网络是否存在故障,并在确定所述目标算力网络存在故障的情况下,基于各算力设备的预警值以及各算力设备之间的连通关系,确定所述目标算力网络的故障位置。

7、在本说明书的一些实施例中,所述设备遥测信息是通过以下方式获取的:

8、所述算力设备获取推送周期以及推送信息类型;

9、所述算力设备基于所述推送信息类型实时采集设备监控信息,并对采集到的设备监控信息进行结构化处理;

10、所述算力设备将同一推送周期内的结构化处理后的设备监控信息作为所述设备遥测信息,并基于所述推送周期对所述设备遥测信息进行推送。

11、在本说明书的一些实施例中,基于所述设备遥测信息,确定所述目标算力网络中各算力设备之间的连通关系,包括:

12、从所述设备遥测信息中获取至少一个链路层协议信息;

13、对所述至少一个链路层协议信息中的任一链路层协议信息,从链路层协议信息中提取出接收所述链路层协议消息的发送端口和接收端口,以及所述发送端口对应的第一算力设备;

14、确定所述第一算力设备的发送端口与所述设备遥测信息对应的第二算力设备的接收端口之间存在连通链路,且确定连通链路对应的连通方向为由所述发送端口至所述接收端口的方向;

15、将由链路层协议信息确定的连通链路和连通方向作为链路层协议信息对应的连通关系;

16、基于各链路层协议信息对应的连通关系,确定各算力设备之间的连通关系。

17、在本说明书的一些实施例中,基于各算力设备的设备遥测信息以及预设的监控指标,确定各算力设备的预警值,包括:

18、基于所述算力设备的设备遥测信息以及多个预设监控指标,确定所述算力设备的多个监控指标值;

19、获取各监控指标对应的多个指标区间,并基于确定的多个监控指标值以及各监控指标对应的多个指标区间,确定与各监控指标值匹配的指标区间;

20、基于各指标区间对应的预警值以及与各监控指标值匹配的指标区间,确定各监控指标对应的预警值;

21、基于所述算力设备的多个监控指标以及各监控指标对应的预警值,确定所述算力设备的预警值。

22、在本说明书的一些实施例中,在确定各预设监控指标的权值之后还包括:

23、基于所述目标算力网络的多个算力设备以及各算力设备之间的连通关系,以各算力设备为设备节点、以各算力设备之间的连通关系为通信拓扑线,生成所述目标算力网络的网络拓扑图;

24、基于算力设备的多个监控指标以及各监控指标对应的预警值,以各监控指标为指标节点,将各算力设备的多个指标节点以有向箭头连接到网络拓扑图中对应的设备节点,并将各监控指标对应的预警值作为有向箭头的权重添加至对应的有向箭头,生成所述目标算力网络的指标拓扑图;

25、将所述指标拓扑图推送至前端,以向用户进行展示。

26、在本说明书的一些实施例中,在将所述指标拓扑图推送至前端,以向用户进行展示之前,还包括:

27、基于所述算力设备的多个监控指标值,确定各预设监控指标对应的指标节点和有向箭头的显示参数;

28、基于所述显示参数,对所述指标拓扑图中的指标节点和有向箭头进行调整。

29、在本说明书的一些实施例中,基于各算力设备的预警值以及各算力设备之间的连通关系,确定所述目标算力网络的故障位置,包括:

30、基于各算力设备之间的连通关系以及预设的权重系数,将与各算力设备具有连通关系的算力设备的预警值进行加权求和,作为对应算力设备的第一权重,并将各算力设备的预警值作为对应算力设备的第二权重;

31、将各算力设备的第一权重和第二权重之和作为各算力设备的目标权重,并确定目标权重最大的算力设备为所述目标算力网络中的故障设备。

32、本说明书第二方面提供了一种算力网络的监控装置,包括:

33、信息获取模块,用于获取目标算力网络中各算力设备的设备遥测信息;

34、关系确定模块,用于基于所述设备遥测信息,确定所述目标算力网络中各算力设备之间的连通关系;

35、预警确定模块,用于基于各算力设备的设备遥测信息以及预设的监控指标,确定各算力设备的预警值;

36、故障定位模块,用于基于各算力设备的预警值确定所述目标算力网络是否存在故障,并在确定所述目标算力网络存在故障的情况下,基于各算力设备的预警值以及各算力设备之间的连通关系,确定所述目标算力网络的故障位置。

37、本说明书第三方面提供了一种电子设备,包括:存储器和处理器,所述处理器和所述存储器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而上述第一方面所述方法的步骤。

38、本说明书第四方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述第一方面所述方法的步骤。

39、本说明书实施例提供的算力网络的监控方法,获取目标算力网络中各算力设备的设备遥测信息;基于所述设备遥测信息,确定所述目标算力网络中各算力设备之间的连通关系;基于各算力设备的设备遥测信息以及预设的监控指标,确定各算力设备的预警值;基于各算力设备的预警值确定所述目标算力网络是否存在故障,并在确定所述目标算力网络存在故障的情况下,基于各算力设备的预警值以及各算力设备之间的连通关系,确定所述目标算力网络的故障位置。通过上述方法,从设备遥测信息中确定算力设备之间的连通关系以及算力设备的多种监控指标,进而基于多种监控指标综合确定各算力设备的预警值,并可以基于各算力设备的预警值以及算力设备之间的连通关系,从可以实现实时、全局、有效地对目标算力网络进行监控,并且可以基于监控结果快速定位目标算力网络的故障位置,保障目标算力网络的正常运行。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1