一种检测线卡故障重起的方法及系统的制作方法

文档序号:7783160阅读:104来源:国知局
一种检测线卡故障重起的方法及系统的制作方法
【专利摘要】本发明公开了一种检测线卡故障重起的方法及系统,该方法主要包括:线卡物理插入后,主控卡周期的向线卡发送第一保活报文,所述线卡启动后,能够接收到主控卡向所述线卡发送的第一保活报文后,所述线卡向主控卡发送第二保活报文;所述主控卡接收线卡发送的第二保活报文,并对第二保活报文进行处理,判断线卡是否故障重起;若主控卡判断线卡故障重起,则主控卡对线卡进行重新配置。该方法及系统实现过程简单易于在实际应用中进行操作,而且能够适用于一张主控卡与多张线卡组成的分布式数据通信设备,可以提高分布式设备的可靠性;并且该方法及系统也能够应用于堆叠、集群等计算机系统。
【专利说明】一种检测线卡故障重起的方法及系统
【技术领域】
[0001]本发明属于分布式计算机系统中线卡故障检测【技术领域】,具体是一种检测线卡故障重起的方法及系统设计。
【背景技术】
[0002]分布式计算机系统中,具有相互配合的多个用于线路处理的线卡,它们均由主控卡进行控制,对于数据通信设备而言,线卡就是处理链路层、网络层、路由协议和转发功能的处理单元。在分布式路由交换设备中,如果线卡由于自身软硬件故障重起,而主控卡没有检测到该故障,则线卡重起后由于没有转发表等资源,导致网络通信中断,对于这样的故障,主控卡必须重新加载该线卡才能恢复通信。
[0003]在现有技术中,一般使用保活保文检测线卡故障,其判断线卡故障的方法为:若主控卡接收线卡的保活报文超时,则认为线卡发生故障。在实际使用环境中,如果主控卡和线卡之间的通信通道出现故障,则主控卡接收线卡的保活报文可能超时,此时需要对通信通道进行修复;如果线卡上的CPU —段时间比较忙,以后又恢复正常,则主控卡接收线卡保活报文也可能超时,此类故障不需要修复通信通道,也不需要重新加载线卡。因此,超时的方法检测到的不仅仅是主控卡和线卡之间的通信通道故障,还包括CPU自动重起的故障。另夕卜,如果线卡在主控卡接收保活报文未超时就故障重起完成,则保活报文超时的方法就不能检测到线卡故障重起的这类故障。

【发明内容】

[0004]本发明所要解决的技术问题是为了解决现有技术中检测线卡故障重起不准确的问题而提出一种检测线卡故障重起的方法及系统。
[0005]本发明解决其技术问题采用的技术方案是:一种检测线卡故障重起的方法,包括如下步骤:
[0006]S1、线卡物理插入后,主控卡周期的向线卡发送第一保活报文;
[0007]S2、所述线卡启动后,接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文;
[0008]S3、所述主控卡接收到线卡发送的第二保活报文后,对所述第二保活报文进行处理,以判断所述线卡是否故障重起,若判断所述线卡故障重起,则对所述线卡进行重新配置。
[0009]进一步的,主控卡根据保存的线卡状态参数、第二保活报文的数量以及所述第二保活报文中线卡启动状态参数来判断对应的线卡是否故障重起。
[0010]进一步的,所述主控卡中设置一个线卡状态参数,用于记录线卡的在位状态;当线卡处于不在位状态时,设置线卡状态参数为第一参数值;当线卡处于在位状态时,设置线卡状态参数为第二参数值。
[0011]更进一步的,在步骤S2中,所述线卡启动后,主控卡中设置一个对应的保活报文计数器,用于记录主控卡接收到的该线卡发出的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为O ;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,所述保活报文计数器的值加I。
[0012]更进一步的,所述第二保活报文中包括一个线卡启动状态参数,当所述线卡启动未完成时,设置线卡启动状态参数为第三参数值;当所述线卡启动完成时,设置线卡启动状态参数为第四参数值。
[0013]进一步的,所述步骤S3具体为:所述主控卡接收线卡发送的第二保活报文,提取第二保活报文中的线卡启动状态参数,若提取出的线卡启动状态参数为第三参数值,且主控卡中对应的线卡状态参数为第二参数值,并且保活报文计数器的值大于预设值N,则判断线卡为故障重起。
[0014]进一步的,所述步骤S3中,若主控卡判断线卡故障重起,则主控卡按照其保存的线卡配置对线卡进行重新配置。
[0015]本发明为解决技术问题还提供了一种检测线卡故障重起的系统,具体包括:具体包括主控卡和至少一个线卡,所述主控卡包括第一保活报文收发单元和故障重起判断单元;所述至少一个线卡包括第二保活报文收发单元;
[0016]所述第一保活收发单元,用于在检测到某一线卡物理插入后,周期的向所述线卡发送第一保活报文;并用于接收线卡发送至主控卡的第二保活报文并对接收的第二保活报文进行处理,
[0017]所述第二保活报文收发单元,用于在所述线卡启动后,接收主控卡发送的第一保活报文,并在接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文,
[0018]所述故障重起判断单元,用于判断线卡是否故障重起。
[0019]进一步的,所述故障重起判断单元,还用于通过主控卡中保存的线卡状态参数、保活报文的数量以及所述保活报文中线卡启动状态参数判断线卡是否故障重起。
[0020]进一步的,所述主控卡还包括一个保活报文计数单元,所述保活报文计数单元中设置一个保活报文计数器,用于记录主控卡接收到的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为O ;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,将所述对应的保活报文计数器的值加I。
[0021]本发明的有益效果:本发明提供一种使用保活报文检测线卡故障重起的方法及系统通过发送保活报文,并且在主控卡一端对保活报文发送数量进行记录及提取保活报文中携带的线卡启动状态,从而可以准确判断出线卡是否出现故障重起的问题,其实现过程简单易于在实际应用中进行操作,而且能够适用于一张主控卡与多张线卡组成的分布式数据通信设备,可以提高分布式设备的可靠性;并且该方法及系统也能够应用于堆叠、集群等计算机系统。
【专利附图】

【附图说明】
[0022]图1所示为本发明实施例的一种检测线卡故障重起的方法的流程框图;
[0023]图2所示为本发明实施例的一种检测线卡故障重起的系统的结构框图。
【具体实施方式】[0024]下面结合附图和具体的实施例对本发明作进一步的阐述。
[0025]如图1所示为本发明实施例的一种检测线卡故障重起的方法的流程框图,包括如下步骤:
[0026]S1、线卡物理插入后,主控卡周期的向线卡发送第一保活报文;
[0027]S2、所述线卡启动后,接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文;
[0028]S3、所述主控卡接收到线卡发送的第二保活报文后,对所述第二保活报文进行处理,以判断所述线卡是否故障重起;若判断所述线卡故障重起,则对所述线卡进行重新配置。
[0029]其中,线卡启动后,在能够接收到主控卡的第一保活报文的基础上,所述线卡通过卡间通信通道向主控卡发送第二保活报文,主控卡根据接收的第二保活报文以及其他状态参数来判断线卡是否故障重起,本发明在现有保活报文检测基础上进行改进,可以准确检测出线卡是否故障重起,以保证主控卡能够及时对线卡进行重新配置,提高了分布式设备的可靠性。为了本领域技术人员能够理解并且实施本发明技术方案,下面将对主控卡如何判断线卡是否故障重起的过程进行详细描述。
[0030]为了本领域技术人员能够理解并且实施本发明技术方案,下面将对主控卡如何判断线卡故障重起的过程进行详细阐述:
[0031]所述主控卡根据主控卡中保存的线卡状态参数、第二保活报文的数量以及所述第二保活报文中线卡启动状态参数判断线卡是否故障重起。
[0032]其中,所述主控卡中设置一个线卡状态参数,用于记录线卡处于在位状态或者不在位状态;当线卡处于不在位状态时,设置线卡状态参数为第一参数值,所述线卡处于不在位状态可以是主控卡初始化或者线卡被拔出时;当线卡处于在位状态时,设置线卡状态参数为第二参数值。所述第一参数值和第二参数值在此不作限定,只要可以唯一确定线卡的状态即可。
[0033]所述线卡启动后,主控卡中设置一个保活报文计数器,用于记录主控卡接收到的第二保活报文的数量,该保活报文计数器接收到的保活报文的数量采用一变量表示;当所述线卡处于不在位状态时,设置保活报文计数器的值为O ;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,保活报文计数器的值加I。
[0034]所述保活报文中包括一个线卡启动状态参数的字段,当所述线卡启动未完成时,设置线卡启动状态参数为第三参数值;当所述线卡启动完成时,设置线卡启动状态参数为第四参数值。所述第三参数值和第四参数值在此不作限定,只要可以唯一确定线卡的启动状态即可。
[0035]所述步骤S3的具体过程为:所述主控卡接收线卡发送的第二保活报文,提取第二保活报文中的线卡启动状态参数,当主控卡中线卡状态参数为第二参数值,并且保活报文计数器的值大于预设值N,以及接收到的第二保活报文中线卡启动状态参数为第三参数值时,则判断线卡为故障重起。若主控卡判断线卡为故障重起,则主控卡根据其保存的线卡配置对线卡进行重新配置,以使线卡上的配置和主控卡关于该线卡的配置保持一致。
[0036]同时,基于上述方法,本发明还提供了一种具体包括主控卡和至少一个线卡,所述主控卡包括第一保活报文收发单元和故障重起判断单元;所述至少一个线卡包括第二保活报文收发单元;所述第一保活收发单元,用于在检测到某一线卡物理插入后,周期的向所述线卡发送第一保活报文;并用于接收线卡发送至主控卡的第二保活报文并对接收的第二保活报文进行处理,所述第二保活报文收发单元,用于在所述线卡启动后,接收主控卡发送的第一保活报文,并在接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文,所述故障重起判断单元,用于判断线卡是否故障重起。
[0037]其中,所述故障重起判断单元,还用于通过主控卡中保存的线卡状态参数、保活报文的数量以及所述保活报文中线卡启动状态参数判断线卡是否故障重起。所述主控卡还包括一个保活报文计数单元,所述保活报文计数单元中设置一个保活报文计数器,用于记录主控卡接收到的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为O ;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,将所述对应的保活报文计数器的值加I。
[0038]另外,本发明一种检测线卡故障重起的方法除了能够应用于一张主控卡和一张线卡组成的分布式数据通信设备以外,还能够适用于一张主控卡和多张线卡组成的分布式数据通信设备,能够准确检测出多张线卡中是否有线卡出现了故障重起的问题,其具体过程与上述过程类似,主控卡通过判断接收的保活报文来自哪个对应的保活报文通道,即可判断出对应的线卡是否出现故障重起问题,在本发明方案中不再作详细描述。
[0039]本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
【权利要求】
1.一种检测线卡故障重起的方法,其特征在于,包括如下步骤: 51、线卡物理插入后,主控卡周期的向线卡发送第一保活报文; 52、所述线卡启动后,接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文; 53、所述主控卡接收到线卡发送的第二保活报文后,对所述第二保活报文进行处理,以判断所述线卡是否故障重起;若判断所述线卡故障重起,则对所述线卡进行重新配置。
2.如权利要求1所述的方法,其特征在于,所述步骤S3中,主控卡根据保存的线卡状态参数、第二保活报文的数量以及所述第二保活报文中线卡启动状态参数来判断对应的线卡是否故障重起。
3.如权利要求2所述的方法,其特征在于,所述主控卡中设置一个线卡状态参数,用于记录线卡的在位状态;当线卡处于不在位状态时,设置线卡状态参数为第一参数值;当线卡处于在位状态时,设置线卡状态参数为第二参数值。
4.如权利要求1-3任一项所述的方法,其特征在于,在步骤S2中,所述线卡启动后,主控卡中设置一个对应的保活报文计数器,用于记录主控卡接收到的该线卡发出的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为O ;当所述线卡处于在位状态时,主控卡每接收到线卡发送的一个第二保活报文,所述保活报文计数器的值加I。
5.如权利要求1所述的方法,其特征在于,所述第二保活报文中包括一个线卡启动状态参数,当所述线卡启动未完成时,设置线卡启动状态参数为第三参数值;当所述线卡启动完成时,设置线卡启动状态参数为第四参数值。
6.如权利要求5所述的方法,其特征在于,所述步骤S3具体为:所述主控卡接收线卡发送的第二保活报文,提取第二保活报文中的线卡启动状态参数,若提取出的线卡启动状态参数为第三参数值,且主控卡中对应的线卡状态参数为第二参数值,并且保活报文计数器的值大于预设值N,则判断线卡为故障重起。
7.如权利要求1所述的方法,其特征在于,所述步骤S3中,若主控卡判断线卡故障重起,则主控卡按照其保存的线卡配置对线卡进行重新配置。
8.—种检测线卡故障重起的系统,其特征在于,具体包括主控卡和至少一个线卡,所述主控卡包括第一保活报文收发单元和故障重起判断单元;所述至少一个线卡包括第二保活报文收发单元; 所述第一保活收发单元,用于在检测到某一线卡物理插入后,周期的向所述线卡发送第一保活报文;并用于接收线卡发送至主控卡的第二保活报文并对接收的第二保活报文进行处理, 所述第二保活报文收发单元,用于在所述线卡启动后,接收主控卡发送的第一保活报文,并在接收到主控卡发送的第一保活报文后,向所述主控卡发送第二保活报文, 所述故障重起判断单元,用于判断线卡是否故障重起。
9.如权利要求8所述的系统,其特征在于,所述故障重起判断单元,还用于通过主控卡中保存的线卡状态参数、保活报文的数量以及所述保活报文中线卡启动状态参数判断线卡是否故障重起。
10.如权利要求9所述的系统,其特征在于,所述主控卡还包括一个保活报文计数单元,所述保活报文计数单元中设置一个保活报文计数器,用于记录主控卡接收到的第二保活报文的数量;当所述线卡处于不在位状态时,设置对应的保活报文计数器的值为O ;当所述线卡处于在位状态 时,主控卡每接收到线卡发送的一个第二保活报文,将所述对应的保活报文计数器的值加I。
【文档编号】H04L12/26GK103746842SQ201310750058
【公开日】2014年4月23日 申请日期:2013年12月31日 优先权日:2013年12月31日
【发明者】何三波 申请人:迈普通信技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1