一种故障节点隔离方法及装置与流程

文档序号:25543637发布日期:2021-06-18 20:40阅读:来源:国知局

技术特征:

1.一种故障节点隔离方法,其特征在于,应用于监控节点,所述方法包括:

接收第一节点上报的第二节点故障的目标信息;

统计预设历史时长内上报所述第二节点故障的节点数量;

若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则将所述目标信息添加至所述故障记录表中;

判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息,若判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则隔离所述第一节点和/或所述第二节点。

2.如权利要求1所述的方法,其特征在于,所述方法还包括:

若所述故障记录表中已存在所述第一节点上报的第二节点故障的记录,则丢弃所述目标信息。

3.如权利要求1所述的方法,其特征在于,所述方法还包括:

将所述目标信息添加至所述故障记录表后,若判定连续m个心跳检测周期内有至少一个心跳检测周期未接收到所述第一节点上报的所述第二节点故障的信息,则删除所述故障记录表中记录的所述第一节点上报的第二节点故障的记录。

4.如权利要求1-3任一项所述的方法,其特征在于,

一个节点上报的故障信息至少包括:上报故障的源节点信息,被上报故障的目标节点信息和上报故障时间信息。

5.如权利要求4所述的方法,其特征在于,隔离所述第一节点和/或所述第二节点的步骤包括:

将所述目标信息添加至所述故障记录表后,统计连续n个检测周期内所述第一节点被其他节点上报故障的第一次数和所述第二节点被其他节点上报故障的第二次数;

若所述第一次数大于设定值,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述设定值,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录;或者,

若所述第一次数大于第二次数,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述第一次数,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录。

6.一种故障节点隔离装置,其特征在于,应用于监控节点,所述装置包括:

接收单元,用于接收第一节点上报的第二节点故障的目标信息;

统计单元,用于统计预设历史时长内上报所述第二节点故障的节点数量;

添加单元,若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则所述添加单元将所述目标信息添加至所述故障记录表中;

判断单元,用于判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息;

隔离单元,若所述判断单元判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则所述隔离单元隔离所述第一节点和/或所述第二节点。

7.如权利要求6所述的装置,其特征在于,所述装置还包括丢弃单元:

若所述故障记录表中已存在所述第一节点上报的第二节点故障的记录,则所述丢弃单元丢弃所述目标信息。

8.如权利要求6所述的装置,其特征在于,所述装置还包括删除单元,

所述添加单元将所述目标信息添加至所述故障记录表后,若所述判断单元判定连续m个心跳检测周期内有至少一个心跳检测周期未接收到所述第一节点上报的所述第二节点故障的信息,则所述删除单元删除所述故障记录表中记录的所述第一节点上报的第二节点故障的记录。

9.如权利要求6-8任一项所述的装置,其特征在于,

一个节点上报的故障信息至少包括:上报故障的源节点信息,被上报故障的目标节点信息和上报故障时间信息。

10.如权利要求9所述的装置,其特征在于,隔离所述第一节点和/或所述第二节点时,所述隔离单元具体用于:

将所述目标信息添加至所述故障记录表后,统计连续n个检测周期内所述第一节点被其他节点上报故障的第一次数和所述第二节点被其他节点上报故障的第二次数;

若所述第一次数大于设定值,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述设定值,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录;或者,

若所述第一次数大于第二次数,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述第一次数,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录。


技术总结
本申请涉及分布式存储技术领域,特别涉及一种故障节点隔离方法及装置。该方法应用于监控节点,所述方法包括:接收第一节点上报的第二节点故障的目标信息;统计预设历史时长内上报所述第二节点故障的节点数量;若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则将所述目标信息添加至所述故障记录表中;判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息,若判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则隔离所述第一节点和/或所述第二节点。

技术研发人员:赵弘
受保护的技术使用者:新华三大数据技术有限公司
技术研发日:2021.02.23
技术公布日:2021.06.18
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1