减少业务中断时间的方法和装置的制作方法

文档序号:7658793阅读:185来源:国知局
专利名称:减少业务中断时间的方法和装置的制作方法
技术领域
本发明涉及通信技术领域,尤其涉及一种减少业务中断时间的方法和装置。
背景技术
软失效是基于带RAM (Random Access Memory,随才几存储器)等存储内存 器件特有的失效模式,和硬失效相对应,硬失效是器件的硬件本身发生故障, 除此之外,对于器件不能正常运行的情况都称为软失效。通常,器件的工作 电压越低,工艺线宽越窄,或者器件工作环境所处的位置海拔越高时,器件 的软失效概率越大。例如,采用0. 13微米技术的存储器,其软失效的概率高 达每兆位10000 ~ lOOOOOFITs ( Failures In Time,菲特),相当于平均几个月或 者几个星期就可能会出现一次软失效。
目前,为了减小由于器件的软失效带来的严重性, 一般会在单板等设备 上增加一片或多片存储内存用于检测器件软失效,为了方便说明,本申请将 增加的所述用于4企测器件软失效的内存统称为ECC (Error Checking and Correcting,检错或纠错)内存,所述ECC内存能够检测设备上的一个或多 个器件。单板在每次启动或复位时,所述ECC内存都要对该单板中的器件进 行检测,当所述ECC内存检测出单板故障时,单板会重新启动或复位,然后 重新进行检测,直到4企测正常。
然而,在进行本发明创造过程中,发明人发现现有技术中至少存在如下 问题
由于ECC内存在每次单板启动或重启时,对单板上的RAM器件进行4企 测,当出现故障,则重新启动该单板。现有技术中无论这种故障是单板上的 器件导致还是ECC内存本身出现故障,只要检测不通过,则会重复启动。
因此,如果是由于ECC内存本身出现的故障,而设备单板除ECC内存外
的其他器件完全正常,即能够正常执行业务,那么也会由于该ECC内存故障, 而导致该单板的业务中断。而这时,只能通过更换设备的单板或者通过冗余
系统的倒换等方式,才能使中断的业务恢复正常。因此增大了 MTTR(Mean TimeToR印air,平均故障修复时间),降低了设备的可用度和运行的可靠性。

发明内容
本发明 一个或多个实施例的目的在于提供一种减少业务中断时间的方法 和装置,以达到通过及时检测出ECC内存故障,而减少设备业务中断时间的 目的。
为解决上述问题,本发明实施例^提供了一种减少业务中断时间的方法, 包括
当设备因故障而无法正常启动时,判断所述故障是否是由该设备的ECC 内存引发,若是,则关闭所述ECC内存的运行;
触发设备重新启动,以在启动后恢复业务运行。
基于上述技术方案,本发明实施例还提供了一种对设备ECC内存故障检 测的方法,包4舌
当设备因故障而无法正常启动时,关闭设备中ECC内存的运行;
触发设备重新启动,并
检验该设备是否能够正常启动,若是,则确定该设备的ECC内存发生故障。
基于上述技术方案,本发明实施例还提供了 一种用于减少业务中断时间 的装置,包括
触发单元,用于当获知设备因故障而无法正常启动时,向判断单元发送 触发信号;
判断单元,用于在收到所述触发信号后,判断所述故障是否是由该设备 的ECC内存引发,若是,则判断得到ECC内存故障消息;
ECC内存控制单元,用于在收到所述ECC内存故障消息后,关闭所述
ECC内存的运行,并触发设备重新启动,以在启动后恢复业务运行。
基于上述技术方案,本发明实施例还提供了 一种用于检测设备ECC内存 故障的装置,包括
触发单元,用于当获知设备因故障而无法正常启动时,向ECC内存控制 单元发送触发信号;
所述ECC内存控制单元,用于在收到所述触发信号后,关闭所述ECC
内存的运行,并触发设备重新启动,同时通知冲企验单元进行检验;
检验单元,用于在收到所述通知后,检验该设备是否能够正常启动,若 是,则确定该设备的ECC内存发生故障。
与现有技术相比,本发明实施例具有以下优点
本发明在当设备发生故障时,能够及时将检测到出现故障的ECC内存关 闭,从而使得设备再启动后,能够不运行故障的ECC内存,而正常启动,并 且恢复业务运行。本发明能够在设备出现故障时,排查故障,并尽可能地克 服设备故障,保证设备的正常运行,从而避免了设备业务的长时间中断,减 少了设备的业务中断时间。


图1为本发明减少业务中断时间的一种方法实施例的流程图; 图2为本发明减少业务中断时间的另一种方法实施例的流程图; 图3为本发明减少业务中断时间的另一种方法实施例的流程图; 图4为本发明减少业务中断时间的另 一 种方法实施例的流程图; 图5为本发明用于减少业务中断时间的一种装置实施例的结构框图; 图6为本发明用于减少业务中断时间的另一种装置实施例的结构框图7为本发明用于减少业务中断时间的另 一种装置实施例的结构框图8为本发明用于检测设备ECC内存故障的一种装置实施例的结构框图。
具体实施例方式
本发明实施例提供的 一 种减少业务中断时间的方法为,当设备因故障而 无法正常启动时,例如,设备反复重启,此时判断所述故障是否是由该设备
的ECC内存引发,若是,则关闭所述ECC内存的运行;并在关闭后,触发设 备重新启动,以在启动后恢复业务运行。
其中,所述判断所述故障是否是由该设备的ECC内存引发的具体实现包 括,可通过单独对所述设备的ECC内存进行故障检测,或者通过对设备中除
从而得知ECC内存状态,或者通过其他常用手段来^r测所述ECC内存的工作 状态,其中,采用的任何对所述ECC内存的故障检测方法都不影响对本发明 的实现。
本发明在当设备发生故障时,能够及时将检测到出现故障的ECC内存关 闭,从而使得设备再启动后,能够不运行故障的ECC内存,而正常启动,并 且恢复业务运行。本发明能够在设备出现故障时,排查故障,并尽可能地克 服设备故障,保证设备的正常运行,从而避免了设备业务的长时间中断,减 少了设备的业务中断时间。
基于上述技术方案,本发明提供的一种对设备ECC内存故障检测的方法, 该方法包括以下步骤
当收到设备因故障而无法正常启动的指令后,关闭设备中的RAM存储内 存的运行;
触发i殳备重新启动,并
检验该设备中的ECC内存是否能够正常工作,若不能,则确定该设备的 ECC内存发生故障。
下面结合附图,详细阐述一下采用本发明提供的检测ECC内存故障的方 法,来如何实现减少设备的业务中断时间。
如图1所示,为本发明减少业务中断时间的一种方法实施例,该方法当 设备单板无法正常启动时,首先检查是否ECC内存发生故障,并将出现故障 的ECC内存关闭,以恢复设备的正常业务运行。该方法包括以下步骤
步骤101:设备的单板启动或复位。其中,所述启动或复位可以发生在该 设备的单板上电时,或者是该设备的单板由于在运行中出现了故障,而执行 的重新启动或复位。
步骤102:所述单板中的ECC内存检测该单板中的待检测的所有RAM存 储芯片是否能正常工作(即是否软失效),如果正常,则执行步骤103;否贝'J, 执行步骤104。
步骤103:所述单板在启动后l丸行业务。并结束本流程。
步骤104:关闭所述单板中的所有待检测的RAM存储芯片的运行,并且 重启该单板。其中,所述关闭设置可通过人工手动将单板上的用于控制所述 RAM存储芯片运行的使能开关关闭,或由所述单板在重启时自动关闭所述 RAM存储芯片的运行,或者其他停止所述RAM存储芯片运行的方法都不影 响本发明实施例的实现。
步骤105:所述单板在重启后,检验所述ECC内存是否能正常工作,若 正常,则执行步骤106;否则,执行步骤107。
步骤106:确定为该单板上的除所述ECC内存外的其他RAM存储芯片 发生故障。此时,所述单板会由于该单板上的RAM存储芯片的故障,而无法 正常启动,因此无法正常执行相关业务。此时,则只能通过更换单板来恢复 业务。结束本流程。
步骤107:确定为该单板上的ECC内存发生故障。此时,关闭所述单板 的ECC内存,使得所述ECC内存在每次该板重启后不会运行,同时,开启所 述单板中的所有待检测的RAM存储芯片。之后,再执行步骤108。
步骤108:所述单板重新启动,此时,由于所述单板已经将出现故障的 ECC内存关闭了,即暂时消除了单板的故障,所以在重启时,所述单板可正 常启动,并在启动后恢复相关的业务正常运行。结束本流程。此外,如果所 述单板在重新启动后,仍然不能正常启动,则确定所述单板的RAM存储芯片 也出现了故障,此时,只能通知维护人员更换单板。
本发明能够在设备出现故障时,检测是否是设备的ECC内存出现故障,
并将出现故障的ECC内存关闭,使得设备在重新启动时,能够不运行发生故
障的ECC内存,而正常启动,并且恢复业务运行,避免了设备因ECC内存出 现故障而导致单板的业务中断,减少了业务中断的时间。
此外,如图2所示,在上述实施例的基础上,该方法在所述步骤107和 步骤108之间,还可包括
步骤209:所述单板分析所述ECC内存发生故障的原因,并将故障原因 保存在该单板的存储单元上。其中,所述存储单元包括但不限于FLASH、 BOOTROM。或者,还可直接将所述故障原因写入存储单元的某寄存器中。
并且,在执行完上述实施例中的步骤108之后,还可包括
步骤210:所述单板根据所记录的ECC内存的故障原因,生成故障报告 或者故障日志,并以告警的形式上报。设备维护人员可以通过所述告警及时 得知所述单板的故障状态及原因,进行相应的维护。
上述实施例单板能够在确定ECC内存发生故障后,记录ECC内存的故障 原因,并在单板重启后,将所述故障原因上报。以便维护人员能够及时了解 到所述设备的运行情况,并当发现单板出现故障时,能够及时赶赴现场进行 处理。尤其是对于单板的ECC内存故障,由于已将发生故障的ECC内存关闭, 单板不启动ECC内存,就能够正常执行业务。维护人员可以根据实际的业务 量,选择在夜间或业务量较小的时候,更换单板。从而能够尽大可能地维护 业务的正常运行,减少业务中断的时间,及业务中断带来的不利影响。
与此同时,本发明还提供了另一种对设备ECC内存故障检测的方法,该 方法包括以下步骤
当设备因故障而无法正常启动时,关闭设备中ECC内存的运行;
触发设备重新启动,并
检验该设备的RAM存储芯片能够正常工作,以至于使得所述单板能够正 常启动,若是,则确定该设备的ECC内存发生故障。
其中,判断所述存储芯片能否正常工作的方法可以为设备在启动时,
设备的CPU通过读取所述RAM存储芯片中的数据,来判断所述存储芯片的 状态,当所述RAM存储芯片中的数据能够全部被所述CPU正常读到时,则 认为该存储芯片能正常工作。当然,现有的其他对所述RAM存储芯片是否正 常的检测手段也同样适用于本发明。
下面结合附图,详细阐述一下采用本发明提供的上述检测ECC内存故障 的方法,来如何实现减少设备的业务中断时间。
如图3所示,为本发明减少业务中断时间的另一种方法实施例,与上述 实施例不同的是,本实施例在检查是否ECC内存发生故障时,不是直接对ECC 内存进行检观'J,而是通过对单板上除了 ECC内存外的其他所有待检测的RAM 存储芯片的状态检测,来排查ECC内存状态。该实施例包括以下步骤
步骤301:设备的单板启动或复位。其中,所述启动或复位可以发生在该 设备的单板上电时,或者是该设备的单板由于在运行中出现了故障,而进行 的重新启动或复位。
步骤302:所述单板中的ECC内存检测该单板中的待检测的所有RAM存 储芯片是否能正常工作(即是否软失效),如果正常,则执行步骤303;否则, 执行步骤304。
步骤33:所述单板在启动后执行业务。并结束本流程。
步骤304:关闭所述单板中的ECC内存的运行,使得在重启时不再运行 所述ECC内存。重启该单板。其中,所述关闭设置可通过人工手动将单板上 的用于控制所述RAM存储芯片运行的使能开关关闭,或由所述单板在重启时 自动关闭所述RAM存储芯片的运行,或者其他停止所述RAM存储芯片运行 的方法都不影响本发明实施例的实现。
步骤305:所述单板在重启后,检验所述单板上的所有待检测的RAM存 储芯片是否能正常工作,以至于使得所述单板能够正常启动,并且进行业务 运行,若单板能够正常启动,则执行步骤306;否则,执行步骤307。
步骤306:确定为该单板上的ECC内存发生故障。此时,由于所述单板 已经将出现故障的ECC内存关闭了,即暂时消除了故障,所以在重启时,所述单板上的ECC内存不会再对单板上的RAM存储单元进行检测,使得所述 单板可正常启动,并在启动后执行相关的业务。结束本流程。
步骤307:确定为该单板上的除所述ECC内存外的其他RAM存储芯片 发生故障。此时,所述单板会由于该单板上的RAM存储芯片的故障,而无法 正常启动,因此无法正常执行相关业务。此时,则只能通过更换单板来恢复 业务。结束本流程。
本发明能够通过在单板首次启动失败时,关闭ECC内存的检测功能,并 在之后的单板重新启动中,判断单板是否能够正常启动,从而确定了单板的 故障,同时,由于已将出现故障的ECC内存关闭了,使得单板能够正常启动, 从而避免了设备因ECC内存出现故障而导致单板的业务中断,减少了业务中 断的时间。
此外,如图4所示,在上述实施例的基础上,该方法在所述步骤306之 后,还可包括步骤409和步骤410,其中,
步骤409:所述单板分析所述ECC内存发生故障的原因,并将所述原因 保存在该单板的存储单元上。其中,所述存储单元包括但不限于FLASH、 BOOTROM。或者,还可直接将所述故障原因写入存储单元的某寄存器中。
步骤410:所述单板根据所记录的ECC内存的故障原因,生成故障报告 或者故障日志,并以告警的形式上报。设备维护人员可以通过所述告警及时 得知所述单板的故障状态及原因,进行相应的维护。
上述实施例单板能够在确定是ECC内存发生故障时,生成ECC内存的故 障原因,并将所述故障原因上报,使得维护人员能够及时获知单板故障的原 因,并且能够尽可能地在不影响业务的情况下维修故障,从而能够尽大可能 地维护业务的正常运行,减少业务中断的时间,及业务中断带来的不利影响。
务中断时间的方法并不只针对单板,还同样适用于设备、设备中的功能模块、 或者系统中,其检测的方法雷同,因此不再赘述。
基于上述技术方案,本发明实施例还公开了一种用于减少业务中断时间
的装置,如图5所示,所述装置包括触发单元501、判断单元502、 ECC内 存控制单元503,其中,
所述触发单元501,用于当获知设备因故障而无法正常启动时,向所述判 断单元502发送触发信号;
所述判断单元502,用于在收到所述触发信号后,判断所述故障是否是由 该设备的ECC内存(图中未示出)引发,若是,则判断得到ECC内存故障消 息;
所述ECC内存控制单元503,用于在收到所述判断单元502的ECC内存 故障消息后,关闭所述ECC内存(图中未示出)的运行,并触发设备重新启 动,以在启动后恢复业务运^f亍。
上述实施例所述触发单元501能够当获知设备无法正常启动时,触发所 述判断单元502检测是否是ECC内存(图中未示出)故障导致,所述判断单 元502在判断得知所述设备的故障是有ECC (图中未示出)内存引发时,指 令所述ECC内存控制单元503关闭所述ECC内存(图中未示出)的运行。从 而使得设备在重新启动后,能够不运行发生故障的ECC内存(图中未示出), 而正常启动,并且恢复业务运行。本发明能够在设备出现故障时,排查故障, 并尽可能地克服设备故障,保证设备的正常运行,从而避免了设备业务的长 时间中断,减少了设备的业务中断时间。
此外,如图6所示,其为本发明第二种用于减少业务中断时间的装置实 施例的结构框图,该装置包括触发单元601、判断单元602、 ECC内存控制 单元603,其中,所述判断单元602中具体包括RAM存储内存控制单元6021 、 ECC内存检验单元6022。
所述触发单元601,用于当获知设备因故障而无法正常启动时,发送触发 信号;
所述RAM存储内存控制单元6021,用于在收到所述触发单元601的触 发信号后,关闭设备中的RAM存储内存(图中未示出)的运行,并触发设备 重新启动;所述ECC内存检验单元6022,用于在所述设备启动中检验该设备中的 ECC内存604是否能够正常工作,若否,则向所述RAM存储内存控制单元 6021和所述ECC内存控制单元603输出ECC内存故障消息;
所述RAM存储内存控制单元6021,还用于在收到所述ECC内存故障消 息后,开启设备中的RAM存储内存(图中未示出)的运行,并向所述ECC 内存控制单元603发送触发指令。
所述ECC内存控制单元603,用于在收到所述ECC内存故障消息后,关闭 所述ECC内存604的运行,并在收到所述RAM存^f诸内存控制单元6021的触 发指令后,触发设备重新启动,以在启动后恢复业务运行。
上述实施例能够在设备出现故障时,所述ECC内存检验单元6022检测 是否是设备的ECC内存604出现故障,并在确定ECC内存604出现故障时, 指令所述ECC内存控制单元6021将出现故障的ECC内存604关闭,使设备 能够在重新启动后,能够不运行发生故障的ECC内存,而正常启动,并且恢 复业务运行,避免了设备因ECC内存出现故障而导致单板的业务中断,减少 了业务中断的时间。
与此同时,如图7所示,在上述第二个装置实施例的基础上,所述装置 还可包括告警单元701,用于在所述设备重新正常启动后,生成有关ECC 内存604的故障原因的故障报告,并将所述故障报告以告警的形式通过发送 单元702上报。
此外,所述告警单元701不仅可应用于上述图6所示的第二个装置实施 例中,还可应用于上述图5所示的第一个装置实施例中,以及其他可实现本 发明方法的等同装置实施例中。
上述实施例单板能够在确定是ECC内存发生故障时,生成ECC内存的故 障原因,并将所述故障原因上报,使得维护人员能够及时获知单板故障的原 因,并且能够尽可能地在不影响业务的情况下维修故障,从而能够尽大可能 地维护业务的正常运行,减少业务中断的时间,及业务中断带来的不利影响。
基于上述技术方案,本发明实施例还公开了 一种用于检测设备ECC内存
故障的装置,如图8所示,所述装置包括触发单元801、 ECC内存控制单 元802、判断单元803,其中,
所述触发单元801,用于当获知设备因故障而无法正常启动时,向所述 ECC内存控制单元802发送触发信号;
所述ECC内存控制单元802,用于在收到所述触发信号后,关闭所述ECC
内存的运行,并触发设备重新启动,同时通知所述4全验单元803进行检验;
所述冲全验单元803,用于在收到所述通知后,4企验该设备是否能够正常启 动,若是,则确定该设备的ECC内存发生故障。
上述实施例所述触发单元801能够在设备发生故障时,触发所述ECC内 存控制单元802关闭设备的ECC内存,使得在设备重现启动后,所述检验单 元803能够检验该设备是否能够正常启动,以便进一步判定该设备故障是否 由ECC内存故障引起,方便维护人员及时了解设备的运行状态。同时,由于 已经将发生故障的ECC内存关闭,使所述设备能够在重新启动时,恢复业务 运行,避免了设备因ECC内存出现故障而导致单板的业务中断,减少了业务 中断的时间。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何 在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本 发明的保护范围之内。
权利要求
1、一种减少业务中断时间的方法,其特征在于,包括当设备因故障而无法正常启动时,判断所述故障是否是由该设备的ECC内存引发,若是,则关闭所述ECC内存的运行;触发设备重新启动,以在启动后恢复业务运行。
2、 如权利要求1所述的减少业务中断时间的方法,其特征在于,判断所 述故障是否是由该设备的ECC内存引发具体包括关闭设备中的RAM存储内存的运行;及 触发i殳备重新启动;检验该设备中的ECC内存是否能够正常工作,若不能,则确定该设备的 ECC内存发生故障;在确定该设备的ECC内存发生故障之后,所述方法还包括开启所述设备中的RAM存储内存的运行。
3、 如权利要求1或2所述的减少业务中断时间的方法,其特征在于,在 确定该设备的ECC内存发生故障之后,该方法还包括记录ECC内存的故障原因,并将所述故障原因以告警的形式上l艮。
4、 一种对设备ECC内存故障检测的方法,其特征在于,包括 当设备因故障而无法正常启动时,关闭设备中ECC内存的运行; 触发设备重新启动,并检验该设备是否能够正常启动,若是,则确定该设备的ECC内存发生故障。
5、 一种用于减少业务中断时间的装置,其特征在于,包括触发单元,用于当获知设备因故障而无法正常启动时,向判断单元发送 触发信号;判断单元,用于在收到所述触发信号后,判断所述故障是否是由该设备 的ECC内存引发,若是,则判断得到ECC内存故障消息;ECC内存控制单元,用于在收到所述ECC内存故障消息后,关闭所述 ECC内存的运行,并触发设备重新启动,以在启动后恢复业务运4亍。
6、 如权利要求5所述的用于减少业务中断时间的装置,其特征在于,所 述判断单元包括RAM存储内存控制单元,用于在收到所述触发信号后,关闭设备中的 RAM存储内存的运行,并触发设备重新启动,同时通知ECC内存4全验单元进 行检验;所述ECC内存4全验单元,用于在收到所述通知后,^r-验该设备中的ECC 内存在设备启动时能否正常工作,若否,则输出ECC内存故障消息;所述RAM存储内存控制单元,还用于在收到所述ECC内存故障消息后, 开启设备中的RAM存储内存的运行,并指令所述ECC内存控制单元执行触 发设备重新启动功能。
7、 如权利要求5或6所述的用于减少业务中断时间的装置,其特征在于, 该装置还包括告警单元,用于在所述设备重新正常启动后,生成有关ECC内存故障原 因的故障报告,并将所述故障报告以告警的形式通过发送单元上报。
8、 一种用于检测设备ECC内存故障的装置,其特征在于,包括触发单元,用于当获知设备因故障而无法正常启动时,向ECC内存控制 单元发送触发信号;所述ECC内存控制单元,用于在收到所述触发信号后,关闭所述ECC内存的运行,并触发设备重新启动,同时通知检验单元进行检验;检验单元,用于在收到所述通知后,检验该设备是否能够正常启动,若 是,则确定该设备的ECC内存发生故障。
全文摘要
本发明实施例公开的一种减少业务中断时间的方法为,当设备因故障而无法正常启动时,判断所述故障是否是由该设备的ECC内存引发,若是,则关闭所述ECC内存的运行;触发设备重新启动,以在启动后恢复业务运行。同时,本发明实施例还公开了一种对设备ECC内存故障检测的方法及装置。本发明能够在当设备发生故障时,及时将检测到出现故障的ECC内存关闭,从而使得设备再启动后,能够恢复业务运行。从而避免了设备业务的长时间中断,减少了设备的业务中断时间。
文档编号H04B1/74GK101106441SQ20071013575
公开日2008年1月16日 申请日期2007年8月10日 优先权日2007年8月10日
发明者张志龙 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1