一种故障检测方法以及计算装置与流程

文档序号:35208668发布日期:2023-08-24 02:09阅读:48来源:国知局
一种故障检测方法以及计算装置与流程

本技术涉及数据安全领域,尤其涉及一种故障检测方法以及计算装置。


背景技术:

1、处理器有一定几率出现计算错误,计算得到的错误数据不能在硬件级别上进行跟踪,这种错误被称为芯片静默故障。在通信过程中芯片静默故障会引起丢包,这种丢包通常不会出现告警或日志,对数据安全的影响很大。

2、目前有一种异常流量的检测方法大致如下:获取链路流量,在检测周期内链路流量的最小值大于检测周期的流量下限,则判定发生了异常流量。

3、在正常通信过程中链路流量会波动,检测周期的动态基线难以与实际链路流量波动情况一致,容易出现误报。


技术实现思路

1、有鉴于此,本技术提供一种故障检测方法,能够获取与进出节点的流量差相关的检验统计值,根据该检验统计值判断流量故障,能够减少误报,提高识别异常流量的准确性。本技术还提供一种能够实现上述故障检测方法的计算装置。

2、第一方面提供一种故障检测方法,该方法包括:获取检验统计值集合后,在多个检测时段获取目标节点的流量速率对;根据每个检测时段的多个流量速率对确定该检测时段的入出差值占比序列和该检测时段的出入差值占比序列,再根据检测时段的入出差值占比序列和检测时段的出入差值占比序列确定检测时段的检验统计值,然后根据检测时段的检验统计值与检验统计值集合计算出检测时段的故障概率值,在多个检测时段的故障概率值中有连续n个检测时段的节点故障概率值小于或等于预设的显著性水平且n大于或等于第一阈值时,确定目标节点存在异常流量。

3、其中,每个流量速率对包括在一个测量时刻采集的入站流量速率和出站流量速率。入出差值占比序列中的入出差值占比与流量速率对一一对应,出入差值占比序列中的出入差值占比与流量速率对一一对应。第一阈值可以是3至10中任意一个整数,具体取值可以根据实际情况进行设置,本技术不作限定。

4、依此实施,检验统计值集合包括的检验统计值是根据正常的入站流量速率和正常的出站流量速率计算得到的,因此检验统计值集合能够反映出检验统计值的正常分布情况。按照第一方面的方法计算出检测时段的检验统计值后,该检测时段的检验统计值与检测时段的入出差值占比分布以及出入差值占比分布相关,能够反映出上述两种分布的最大差值,根据检测时段的检验统计值与正常的检验统计值能够计算出检测时段的故障概率值,从而判断节点的流量是否异常。与现有的链路流量速率的最小值相比,根据该检验统计值识别异常流量能够降低误报率,检测异常流量的准确率更高。

5、在一种可能的实现方式中,流量速率对为单播流量速率对。根据测试数据表明,与多播流量速率对或者广播流量速率对相比,根据单播流量速率对计算得到的检验统计值能够更加准确地识别异常流量。

6、在另一种可能的实现方式中,根据检测时段的入出差值占比序列和检测时段的出入差值占比序列确定检测时段的检验统计值包括:根据检测时段的出入差值占比序列确定检测时段的第一分布函数,以及根据检测时段的入出差值占比序列确定检测时段的第二分布函数,再根据检测时段的第一分布函数和检测时段的第二分布函数确定检测时段的目标函数,确定检测时段的检验统计值等于检测时段的目标函数的上确界。其中,第一分布函数第二分布函数和目标函数f′(z)满足的公式为:z为检测时段的目标函数的自变量。目标函数的自变量区间可以包括第一分布函数的自变量区间和第二分布函数的自变量区间。可选的,第一分布函数的自变量区间的最小值为出入差值占比序列的最小值,第一分布函数的自变量区间的最大值为出入差值占比序列的最大值。第二分布函数的自变量区间的最小值为入出差值占比序列的最小值,第二分布函数的自变量区间的最大值为入出差值占比序列的最大值。该检测时段的检验统计值与检测时段的入出差值占比分布以及检测时段的出入差值占比分布相关,能够反映出上述两种分布的最大差值。这样提供了一种计算检验时段的检验统计值的具体可行方案。

7、在另一种可能的实现方式中,根据检测时段的检验统计值与检验统计值集合计算出检测时段的故障概率值包括:当检验统计值集合中有m个检验统计值大于或等于检测时段的检验统计值时,确定检测时段的故障概率值为m除以检验统计值集合的检验统计值总数。当检测时段的检验统计值超过正常的检验统计值时,可能发生故障,由此提供了一种计算检测时段的故障概率值的方法。

8、在另一种可能的实现方式中,获取检验统计值集合包括步骤a,步骤b、步骤c、步骤d、步骤e和步骤f,其中,步骤a包括在统计时段的流量速率对中抽取流量速率对集合;步骤b包括根据流量速率对集合确定流量速率对集合对应的入出差值占比序列和流量速率对集合对应的出入差值占比序列;步骤c包括根据流量速率对集合对应的出入差值占比序列确定流量速率对集合的第一分布函数;步骤d包括根据流量速率对集合对应的入出差值占比序列确定流量速率对集合的第二分布函数;步骤e包括根据流量速率对集合的第一分布函数和流量速率对集合的第二分布函数确定流量速率对集合的目标函数;步骤f包括确定流量速率对集合的检验统计值等于流量速率对集合的目标函数的上确界;重复执行步骤a至步骤f,直至检验统计值的数量达到检验统计值集合的预设数量为止。预设数量即为检验统计值集合的检验统计值总数,具体取值可以根据实际情况进行设置,本技术不作限定。

9、在另一种可能的实现方式中,本技术的故障检测方法还包括:在ecmp组对应的接口组中确定每个接口在多个测量时刻的输出流量速率占比;根据接口在测量时刻的输出流量速率占比、接口的输出流量速率占比期望值、接口的输出流量速率占比的样本方差、经过接口组的流总数确定测量时刻的卡方检验统计值;根据测量时刻的卡方检验统计值计算出测量时刻的故障概率值;在多个测量时刻的故障概率值中连续l个测量时刻的概率值小于或等于预设的显著性水平且l大于或等于第二阈值时,确定ecmp组的流量异常。l为正整数,第二阈值可以是3至10中任意一个整数,具体取值可以根据实际情况进行设置,本技术不作限定。

10、依此实施,能够根据接口流量速率占比确定卡方检验统计值,该卡方检验统计值够反映出ecmp组中全部接口的输出流量速率占比与输出流量速率占比期望值的偏离程度,偏离程度越大则发生故障的概率越大。因此可以根据该卡方检验统计值计算出每个测量时刻的故障概率值,然后根据多个测量时刻的故障概率值判断ecmp组的流量是否异常。

11、在另一种可能的实现方式中,接口在测量时刻的输出流量速率占比、接口的输出流量速率占比期望值、接口的输出流量速率占比的样本方差、经过接口组的流总数和测量时刻的卡方检验统计值满足以下公式:

12、

13、t为测量时刻的卡方检验统计值,为第i个接口的输出流量速率占比,为第i个接口的输出流量速率占比期望值,为第i个接口的接口流量速率占比的样本方差,d为接口组的接口总数,n为经过接口组的流总数。

14、在另一种可能的实现方式中,测量时刻的卡方检验统计值和测量时刻的故障概率值满足以下公式:

15、

16、p′为测量时刻的故障概率值,为测量时刻的卡方检验统计值。

17、在另一种可能的实现方式中,本技术的故障检测方法还包括:当目标接口的卡方检验统计值大于或等于第三阈值时,确定目标接口的流量异常。这样能够对存在异常流量的接口进行故障定位。

18、第二方面提供一种计算装置,其包括获取模块、测量模块、计算模块和判断模块;获取模块用于获取检验统计值集合;测量模块用于在多个检测时段获取目标节点的流量速率对;计算模块用于对于每个检测时段,根据检测时段的多个流量速率对确定检测时段的入出差值占比序列和出入差值占比序列;根据检测时段的入出差值占比序列和检测时段的出入差值占比序列确定检测时段的检验统计值;根据检测时段的检验统计值与检验统计值集合计算出检测时段的故障概率值;判断模块用于在多个检测时段的故障概率值中有连续n个检测时段的故障概率值小于或等于预设的显著性水平且n大于或等于第一阈值时,确定目标节点存在异常流量。

19、在一种可能的实现方式中,计算模块具体用于根据检测时段的出入差值占比序列确定检测时段的第一分布函数;根据检测时段的入出差值占比序列确定检测时段的第二分布函数;根据检测时段的第一分布函数和检测时段的第二分布函数确定检测时段的目标函数;确定检测时段的检验统计值等于检测时段的目标函数的上确界。

20、在另一种可能的实现方式中,计算模块具体用于当检验统计值集合中有m个检验统计值大于或等于检测时段的检验统计值时,确定检测时段的故障概率值为m除以检验统计值集合的检验统计值总数。

21、在另一种可能的实现方式中,获取模块具体用于重复执行步骤a至步骤f,直至检验统计值的数量达到检验统计值集合的预设数量为止。

22、在另一种可能的实现方式中,测量模块还用于在ecmp组对应的接口组中确定每个接口在多个测量时刻的输出流量速率占比;计算模块还用于对于每个测量时刻,根据接口在测量时刻的输出流量速率占比、接口的输出流量速率占比期望值、接口的输出流量速率占比的样本方差、经过接口组的流总数确定测量时刻的卡方检验统计值;根据测量时刻的卡方检验统计值计算出测量时刻的故障概率值;判断模块还用于在多个测量时刻的故障概率值中连续l个测量时刻的故障概率值小于或等于预设的显著性水平且l大于或等于第二阈值时,确定ecmp组的流量异常。

23、在另一种可能的实现方式中,判断模块还用于当目标接口的卡方检验统计值大于或等于第三阈值时,确定目标接口的流量异常。

24、第二方面的名词解释、各模块执行的步骤和有益效果可参阅第一方面的相应描述。

25、第三方面提供一种计算设备集群,其包括至少一个计算设备,每个计算设备包括处理器和存储器,至少一个计算设备的处理器用于执行至少一个计算设备的存储器中存储的指令,以使得计算设备集群执行如第一方面的方法。

26、第四方面提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,当计算机程序由计算设备执行时,使得计算设备执行第一方面的方法。

27、第五方面提供了一种包含指令的计算机程序产品,当指令被计算设备运行时,使得计算设备执行第一方面的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1