随机存取存储器ram的故障检测方法及装置的制造方法

文档序号:9752252阅读:986来源:国知局
随机存取存储器ram的故障检测方法及装置的制造方法
【技术领域】
[0001]本发明涉及通信领域,更具体地说,涉及一种随机存取存储器(Random-AccessMemory,简称为RAM)的故障检测方法及装置。
【背景技术】
[0002]随着网络技术的飞速发展,越来越多的大型路由器在目前的市场上使用,某些特殊的情况下,由多个单级框通过光纤连接成的集群环境也被大规模使用。在这些路由器上,必不可少一定数量的交换板卡,交换板卡里面的关键交换芯片又使用了大量的RAM,这些RAM分布在芯片的各个部分,对芯片的正常工作起着至关重要的作用。如果某块RAM出现故障,那么它带来的影响也是巨大的,比如存储路由表的RAM出现了故障,就不好判断,一般会从软件入手解决,在花费了大量时间和精力进行排查之后,最后发现有可能是硬件故障,大大浪费了不必要的时间和精力。基于此种情况,如果能在板子使用最初就检测出来某些单板的RAM故障,就能减少一些不必要的故障发生和相关人员在上面耗费的时间和精力。
[0003]RAM检测方法目前有很多种,最基本的方法是通过简单的奇偶校验、ECC校验。相关技术中提出的RAM检测方法,它提出一种应用于CPU/DSP的RAM失效的检测处理方法,主要包括读取所述RAM中的程序内容;将读取的程序内容与正确的程序内容进行比对,当两者不一致时,判断RAM失效并进行数据修复;或者将读取的程序内容采用设定的校验方法进行数据校验,并与正确的校验结果进行比对,当两者不一致时,判断RAM失效并报警。采用上述技术方案,及时的检测CPU/DSP RAM失效的情况,及时采取相应的处理措施,将RAM失效引起的影响降到最低。但是同样的在大型的路由器、尤其在由单级框组成集群的路由器上,这样的RAM太多了,若是采用这种方法,首先是一个个单板一个个芯片上面的RAM重复测试浪费大量时间和精力不说,还有就是要保存这每个RAM空间的正确内容,这对集群系统来讲也是一比不小的开销。
[0004]相关技术中还提到一种技术方案,预先对RAM空间进行分段处理,将RAM空间划分为一个存储重要数据的区域段及其它区域段,在操作系统启动时,对所述存储重要数据的区域段进行RAM检测;在当前操作系统的周期任务为预先设定的低优先级周期任务时,对所述其它区域段进行RAM检测。具体的检测方法是先将其它区域段中不存储数据的空白段进行检测,再对所述其它区域段中存储的数据的非空白段进行检测。然后向所述空白段的起始地址写入第一数据,读出所述起始地址里面的数据,若所读出的数据与所述第一数据不同,则确定所述空白段的地址空间异常,反之,则再次向该地址段写入第二数据,再读出来看是否相同,若相同,就表明此空白段RAM空间正常,否则就上报异常。上述技术方案通过划分RAM空间,再读写数据的过程,来判断RAM空间是否正常,但是它需要对RAM进行细致的划分,然后分片检测,这对于小器件或者说使用RAM空间不太多的产品来讲,还算可以,但是若对于大型的路由器,尤其是对于集群环境的路由器上,上面有很多交换板卡,交换板卡上面又有好几个关键交换芯片,每个芯片上面都有很多RAM使用的产品来说,再用这种测试方法未免就不合适了。
[0005]针对相关技术中在集群环境的路由器上,尚未提出一种简单有效的技术方案来检测RAM是否发生故障的问题,目前尚未提出有效的解决方案。

【发明内容】

[0006]本发明提供了一种RAM的故障检测方法及装置,以至少解决上述问题。
[0007]根据本发明的一个方面,提供了一种随机存取存储器RAM的故障检测方法,包括:测试端设备在待检测RAM所在的链路上发送第一测试信元;所述测试端设备接收在所述第一测试信元流经所述链路后得到的第二测试信元;所述测试端设备比较所述第一测试信元内的第一测试数据和所述第二测试信元内的第二测试数据是否一致;所述测试端设备根据比较结果判断所述链路上的所有所述待检测RAM是否发生故障。
[0008]优选地,所述测试端设备根据比较结果判断所述链路上的所有所述待检测RAM是否发生故障,包括以下至少之一:在所述比较结果指示一致时,判定所述链路上所有所述待检测RAM正常;在所述比较结果指示不一致时,判断所述链路是否存在故障;在所述链路无故障时,判定所述链路上至少一个待检测RAM发生故障。
[0009]优选地,所述测试端设备根据比较结果判断所述链路上的所有所述待检测RAM是否发生故障,包括:在所述链路存在故障时,对所述链路进行分级,其中,分级后得到的各个子链路组成所述链路;对各个所述子链路按照预设优先级进行排查,确定发生故障的所述子链路;在确定发生故障的所述子链路的当前链路状态正常时,则判定所述子链路上的所述待检测RAM发生故障。
[0010]优选地,所述测试端设备包括:线卡;测试端设备在待检测RAM所在的链路上发送第一测试信元之前包括:配置指定线卡作为所述测试信元信号的起点,以及根据所述待检测RAM所在设备的链路连接关系配置所述指定线卡为所述测试信元的终点。
[0011]优选地,所述测试端设备比较所述第一测试信元内的第一测试数据和所述第二测试信元内的第二测试数据是否一致之前还包括:判断所述测试端设备是否在预定时间内接收到所述测试信元,其中,在判断结果为是的情况下,触发比较所述第一测试数据和所述第二测试数据是否一致。
[0012]优选地,所述第一测试信元和/或所述第二测试信元携带有以下信息:发出所述第一测试信元的链路端口号和下一跳链路端口号。
[0013]根据本发明的另一个方面,还提供了一种随机存取存储器RAM的故障检测装置,应用于测试端设备,包括:发送模块,用于在待检测RAM所在的链路上发送第一测试信元;接收模块,用于接收在所述第一测试信元流经所述链路后得到的第二测试信元;比较模块,用于比较所述第一测试信元内的第一测试数据和所述第二测试信元内的第二测试数据是否一致;判断模块,用于根据比较结果判断所述链路上的所有所述待检测RAM是否发生故障。
[0014]优选地,所述判断模块,包括以下至少之一:第一判定单元,用于在所述比较结果指示一致时,判定所述链路上所有所述待检测RAM正常;判断单元,用于在所述比较结果指示不一致时,判断所述链路是否存在故障;第二判定单元,用于在所述链路无故障时,判定所述链路上至少一个待检测RAM发生故障。
[0015]优选地,所述判断模块,包括:分级单元,用于在所述链路存在故障时,对所述链路进行分级,其中,分级后得到的各个子链路组成所述链路;排查单元,用于对各个所述子链路按照预设优先级进行排查;确定单元,用于确定发生故障的所述子链路;第三判定单元,用于在确定发生故障的所述子链路的当前链路状态正常时,则判定所述子链路上的所述待检测RAM发生故障。
[0016]优选地,所述装置还包括:配置模块,用于在所述测试端设备包括线卡时,配置指定线卡作为所述测试信元信号的起点,以及根据所述待检测RAM所在设备的链路连接关系配置所述指定线卡为所述测试信元的终点。
[0017]通过本发明,采用在待检测RAM所在的链路上发送第一测试信元,并比较在第一测试信元流经上述链路循环过来后的第二测试信元和上述第一测试信元内的测试数据是否发生变化来判断待检测RAM是否发生故障的技术方案,解决了相关技术中在集群环境的路由器上,尚未提出一种简单有效的技术方案来检测RAM是否发生故障的问题,可以用发送测试信元的方式对大型路由器上的交换芯片的RAM故障进行批量检测,能很快排查一个单框路由器上交换芯片的RAM故障,还能对集群环境多个框上的交换芯片同时进行测试,大大提高了 RAM故障排查效率。
【附图说明】
[0018]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019]图1为根据本发明实施例的RAM的故障检测方法的流程图;
[0020]图2为根据本发明实施例的RAM基本测试流程图;
[0021]图3为根据本发明实施例的RAM的故障检测装置的结构框图;
[0022]图4为根据本发明实施例的RAM的故障检测装置的又一结构框图;
[0023]图5为根据本发明实施例的单级路由器拓扑展开示意图;
[0024]图6为根据本发明实施例的选择交换接入I做为测试发起模块第一轮发N个测试信元示意图;
[0025]图7为根据本发明实施例的单级框第一轮测试路径示意图;
[0026]图8为根据本发明实施例的单级框第一轮测试结果示意图;
[0027]图9为根据本发明实施例的单级框第二轮测试结果示意图;
[0028]图10为根据本发明实施例的集群环境链路拓扑展开示意图;
[0029]图11为根据本发明实施例的集群环境选择交换接入I作为测试发起模块测试示意图;
[0030]图12为根据本发明实施例的集群环境第一轮测试结果示意图;
[0031]图13为根据本发明实施例的集群环境第一轮又一测试结果示意图;
[0032]图14为根据本发明实施例的集群环境第二轮测试结果示意图;
[0033]图15为根据本发明实施例的集群环境第二轮又一测试结果示意图。
【具体实施方式】
[0034]下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0035]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1