本技术涉及计算机安全,尤其涉及一种故障检测方法、电子设备及其介质。
背景技术:
1、集群网络(cluster)由于管理控制效率高、灵活度大等优点,是当前最主要的数据网络系统。集群网络是由多个节点(node)组成的网络系统,每个节点是一个独立主机,用于执行特定的任务,例如计算任务、监控任务、数据传输任务等等。
2、在这样的网络系统中,某一个网络设备发生故障,可能会导致网络系统中其他网络设备受到影响,因此需要尽快定位到出现故障的设备、故障类型、故障原因等,以便对网络故障进行快速修复。
3、目前的故障检测方法是根据集群网络的拓扑结构,确定集群网络中各节点之间链路连接,然后按照一定的因特网包探索器(packet internet groper,ping)策略获取集群网络中各节点之间的网络延迟值,也即ping值,再结合ping值与相应的阈值条件确定集群网络各链路是否发生故障,以及故障发生的位置。
4、但是,这种方法目前只能检测出各节点链路的通断状态,无法检测集群网络中设备的其他故障类型。
技术实现思路
1、为了解决上述问题,本技术提供一种故障检测方法、电子设备及其介质。下面对此展开介绍。
2、第一方面,本技术实施例提供了一种故障检测方法,应用于集群网络中的多个节点,包括:获取集群网络中第一节点的实时监控信息,从实时监控信息选择出异常实时监控信息;将第一节点的异常实时监控信息输入至故障检测模型,得到第一节点的第一故障信息,第一故障信息包括第一节点的推测故障类型以及与各推测故障类型对应的故障概率;根据第一节点的推测故障类型以及各推测故障类型对应的故障概率,确定集群网络的真实故障类型。
3、其中,集群网络中的各节点指的是集群网络的各设备。在一些实现方式中,本技术的故障检测方法可应用于集群网络中各个设备。并且本技术的故障检测方法可由集群网络中的某个设备执行,也可由集群网络外的其他设备执行用于检测集群网络的故障,本技术对此不作限制。
4、在一些实现方式中,第一节点可以是集群网络中的任一节点。获取集群网络中第一节点的实时监控信息指的是,获取集群网络中全部或部分的第一节点的实时监控信息。第一节点的实时监控信息包括能够获取到的第一节点的全部监控信息,例如表示各设备之间通信状态的抖动时延信息,比如ping值、ping带宽值,等等,本技术对此不作限制。
5、第一节点的异常实时监控信息指的是根据实时监控信息,确定出来的指标数值异常的监控信息。
6、第一节点的第一故障信息包括根据故障检测模型确定的第一节点的推测故障类型以及各推测故障类型对应的故障概率。其中,推测故障类型指的是根据故障检测模型根据异常实时监控信息得到的,第一节点可能发生的故障类型。
7、并且,在一些实现方式中,故障检测模型是根据集群网络中各节点的历史异常监控信息(即下文的历史故障数据)训练得到的,因此利用故障检测模型分析第一节点的异常实时监控信息,即可确定第一节点的异常实时监控信息对应哪一种故障类型以及该种故障类型的概率。
8、最后根据上述第一节点的推测故障类型以及故障概率,确定集群网络的真实故障类型。
9、通过上述方法,在集群网络发生故障的情况下,可通过故障检测模型检测出集群网络发生故障的故障类型,使研发人员能够采取针对性的措施,排除故障问题,有效维护集群网络的运行。
10、结合第一方面,在第一方面的可能的实现方式中,第一故障信息还包括第一节点为第一类节点时可能发生的故障类型、每种故障类型对应的故障概率以及第一节点为第二类节点时可能发生的故障类型、每种故障类型对应的故障概率,
11、该方法还包括:
12、利用第二节点为第二类节点时对应的各故障类型的故障概率,相应地增加节点在第一类节点的情况下相同故障类型的故障概率,得到第一节点的第二故障信息,其中,第二节点与第一节点互为相邻节点,第二故障信息包括调整后的第一节点为第一类节点时可能发生的故障类型、每种故障类型对应的故障概率以及第一节点为第二类节点时可能发生的故障类型、每种故障类型对应的故障概率。
13、其中,第一类节点指的是根因节点,第二类节点指的是受影响节点。也即为了确定出集群网络发生故障时对应的根因节点,第一故障信息还可以包括第一节点为根因节点时对应的推测故障类型以及每种推测故障类型对应的故障概率。可以理解,对应地,训练故障检测模型的历史异常监控信息也应包括各节点为根因节点时对应的历史异常监控信息和真实故障类型以及各节点为受影响节点时对应的历史异常监控信息和真实故障类型。
14、并且由于相邻节点之间更有可能发生同类型故障,因此可以利用第一节点相邻的第二节点的推测故障类型以及故障概率,调整第一节点在相同推测故障类型下的故障概率,得到调整后的第一节点的推测故障类型以及故障概率。在一些实现方式中,相邻节点包括在物理上连通的节点或处理的业务或数据具有依赖关系节点。
15、具体地,可以利用第二节点为受影响节点时对应的推测故障类型以及故障概率,增加第一节点为根因节点时,在相同推测故障类型下的故障概率,得到上述第二故障信息。
16、然后根据第二故障信息,确定集群网络发生的真实故障类型。
17、结合第一方面,在第一方面的可能的实现方式中,根据第一节点可能的故障类型以及各故障类型对应的故障概率,确定集群网络的故障类型,包括:
18、根据调整后的第一节点为第一类节点时的推测故障类型、每种故障类型对应的故障概率,将故障概率大于第一阈值对应的故障类型作为集群网络的故障类型。
19、也即,在确定第一节点的第二故障信息后,可根据第一节点是根因节点的情况下对应的各推测故障类型以及每种推测故障类型对应的故障概率,将故障概率大于第一阈值(即下文的故障概率阈值)对应的推测故障类型确定为集群网络的真实故障类型。
20、在一些实现方式中,如果故障概率大于第一阈值的推测故障类型有多个,则可以从中任一选择一个作为集群网络的真实故障类型,或者将多个推测故障类型均作为集群网络的故障类型,本技术对此不作限制。
21、结合第一方面,在第一方面的可能的实现方式中,根据实时监控信息,得到第一节点的异常实时监控信息,包括:
22、将实时监控信息与第一预设条件进行比较,删除实时监控信息中满足第一预设条件的监控信息,得到第一节点的异常实时监控信息。
23、也即,在一些实现方式中,可以将实时监控信息与其对应的第一预设条件(即下文中相应的条件),进行比较,将满足第一预设条件的监控信息进行删除,得到第一节点的异常实时监控信息。
24、结合第一方面,在第一方面的可能的实现方式中,故障检测模型是利用各节点的历史异常监控信息训练得到的,各节点的历史异常监控信息包括各节点分别为第一类节点以及第二类节点时,发生的故障类型以及各故障类型对应的监控信息。
25、结合第一方面,在第一方面的可能的实现方式中,各节点的历史异常监控信息通过以下方式确定:
26、获取预设时长内集群网络中各节点的历史监控信息,比较各节点的历史监控信息与第二预设条件,去除历史监控信息中满足第二预设条件的监控信息,得到各节点的历史异常监控信息,其中,各节点的历史监控信息包括各节点分别为第一类节点以及第二类节点时对应的监控信息。其中,第二预设条件与第一预设条件是类似的,均为各监控信息对应的指标数据等正常时应满足的相应的条件。
27、第二方面,本技术实施例提供了一种模型训练方法,应用于电子设备,包括:
28、获取预设时长内集群网络中各节点的历史监控信息,从各节点的历史监控信息中选择出对应各节点的历史异常监控信息;利用各节点的历史异常监控信息和对应各节点的历史异常监控信息的故障类型,训练初始故障检测模型,得到故障检测模型。其中,历史异常监控信息即为下文的历史故障数据。
29、结合第二方面,在第二方面的可能的实现方式中,获取预设时长内集群网络中各节点的历史监控信息,从各节点的历史监控信息中选择出对应各节点的历史异常监控信息;利用各节点的历史异常监控信息和对应各节点的历史异常监控信息的故障类型,训练初始故障检测模型,得到故障检测模型。其中,预设时长为经验值或实验值,例如其取值可以为30天等等,本技术对此不作限制。
30、结合第二方面,在第二方面的可能的实现方式中,各节点的历史异常监控信息包括各节点分别为第一类节点以及第二类节点时,发生过的故障类型以及各故障类型对应的监控信息。也即,各节点的历史异常监控信息包括各节点为根因节点时对应的故障类型和各故障类型对应的监控信息,以及各节点为受影响节点时对应的故障类型和各故障类型对应的监控信息。
31、结合第二方面,在第二方面的可能的实现方式中,方法还包括:获取集群网络中第一节点的实时监控信息,根据实时监控信息,得到第一节点的异常监控信息;将第一节点的异常实时监控信息输入至故障检测模型,得到第一节点的第一故障信息,第一故障信息包括第一节点的推测故障类型以及与各推测故障类型对应的故障概率,以及
32、根据第一节点的推测故障类型以及各故障类型对应的故障概率,确定集群网络的真实故障类型。
33、结合第二方面,在第二方面的可能的实现方式中,初始故障检测模型至少包括以下任一种:卷积神经网络模型、全连接神经网络模型或前馈神经网络模型。在本技术的一些实现方式中,上述故障检测模型还可以是随机森林、决策树等分类模型,本技术对此不作限制。
34、第三方面,本技术实施例还提供了一种电子设备,该电子设备包括存储器,存储有计算机程序指令;处理器,所述处理器和存储器耦合,当所述存储器存储的计算机程序指令被所述处理器执行时使得所述电子设备实现上述第一方面中任一项所述的方法。
35、第四方面,本技术实施例还提供了一种电子设备,该电子设备包括存储器,存储有计算机程序指令;处理器,所述处理器和存储器耦合,当所述存储器存储的计算机程序指令被所述处理器执行时使得所述电子设备实现上述第二方面中任一项所述的方法。
36、第五方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。
37、第六方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第二方面中任一项所述的方法。
38、第七方面,本技术实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项所述的方法。
39、第八方面,本技术实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第二方面中任一项所述的方法。
40、可以理解的是,上述第三方面至第七方面的有益效果可以参见上述第一方面以及第二方面中的相关描述,在此不再赘述。