一种fc-san存储系统及提高光纤通道稳定性的方法

文档序号:7784730阅读:495来源:国知局
专利名称:一种fc-san存储系统及提高光纤通道稳定性的方法
技术领域
本发明涉及计算机存储设备领域,尤其涉及一种光纤通道存储局域网络(FC-SAN, Fiber Channel-Storage Area Network)存储系统及提高光纤通道稳定性的方法。
背景技术
存储局域网络(SAN, Storage Area Network)的诞生,使存储空间得到更加充分的利用,以及安装和管理更加有效。SAN是一种将存储设备、连接设备和接口集成在一个高速网络中的技术。SAN本身就是一个存储网络,承担了数据存储任务,SAN网络与LAN业务网络相隔离,存储数据流不会占用业务网络带宽。在SAN网络中,所有的数据传输在高速、高带宽的网络中进行,SAN存储实现的是直接对物理硬件的块级存储访问,提高了存储的性能和升级能力。
早期的SAN采用的是光纤通道(FC,Fiber Channel)技术,所以,以前的SAN多指采用·光纤通道的存储局域网络,到了 Internet小型计算机系统接口(iSCSI, Internet Small Computer System Interface)协议出现以后,为了区分,业界就把SAN分为FC-SAN 和 IP-SAN
FC-SAN存储系统中,作为主机端口的光纤通道通常十分稳定,但是一旦出现异常则可能导致存储系统的控制器崩溃。
引起光纤通道数据异常的可能有很多,例如,信号质量异常,主机端主机总线适配器(HBA,Host Bus Adapter)异常,或者交换机连接异常,这些异常通常导致大量10错误, 如果存储系统地鲁棒性不佳,则可能由于这些错误导致系统崩溃。在现有的技术中,针对光纤通道出现数据异常后并没有一个很好的处理方法,通常需要停止业务对系统进行检查。发明内容
本发明提供了一种FC-SAN存储系统及提高光纤通道稳定性的方法,可以大大降低10错误对FC-SAN存储系统的影响,提高整个系统的稳定性。
本发明实施例提供的一种FC-SAN存储系统,包括FC目标驱动器,所述FC-SAN存储系统还包括错误监测模块、错误恢复模块和错误通知模块;
错误监测模块用于监测FC目标驱动器中是否出现10错误,若是,则记录下10错误的错误类型以及该类错误出现的次数,当某类10错误累计出现次数超出该错误类型对应的预定阈值时,错误监测模块使能错误恢复模块,并将错误类型通知错误恢复模块;
错误恢复模块用于在使能后,根据错误监测模块通知的错误类型执行恢复操作, 如果所述恢复操作后10错误消除,则结束处理;如果10错误继续存在,错误恢复模块将所述10错误对应的FC端口进行隔断,使能错误通知模块并将错误类型和被隔断的FC端口标识通知错误通知模块;
错误通知模块用于在使能后,将错误类型和被隔离的FC端口标识通知用户。
较佳地,所述错误类型包括
第一类错误由于服务器端应用软件/驱动程序引起,或者由于IO压力较大导致存储端处理IO时间过长导致的错误;
第二类错误外部设备引起的硬件错误;以及
第三类错误由本地存储端硬件引起的错误。
较佳地,第一类错误对应的预定阈值大于1,第二类错误和第三类错误对应的预定阈值等于I。
较佳地,所述错误恢复模块包括
重启单元,用于错误恢复模块接收到的来自错误监测模块通知的错误类型为第一类错误时,关闭IO错误对应的FC端口,并对该FC端口进行延时重启。
较佳地,所述错误恢复模块包括
隔离单元,用于错误恢复模块接收到的来自错误监测模块通知的错误类型为第二类错误时,隔离引起IO错误的外部设备,并通知错误通知模块向用户发送更换外部设备的提示信息;
错误通知模块在收到来自隔离单元的通知后,向用户发送更换外部设备的提示信肩、O
较佳地,所述错误恢复模块包括
信号调整单元,用于错误恢复模块接收到的来自错误监测模块通知的错误类型为第三类错误时,获取硬件信号质量信息,对硬件信号质量进行动态调整。
本发明实施例提供了一种提高FC-SAN的光纤通道稳定性的方法,包括如下步骤
A、监测FC-SAN的FC目标驱动器中是否出现IO错误,若是,则记录下IO错误的错误类型以及该类错误出现的次数,当某类IO错误累计出现次数超出该错误类型对应的预定阈值时,执行步骤B ;
B、根据所述错误类型执行恢复操作,如果所述恢复操作后IO错误消除,则结束本流程;如果IO错误继续存在,则执行步骤C ;
C、将所述IO错误对应的FC端口进行隔断,并将错误类型和被隔离的FC端口标识通知用户。
较佳地,所述错误类型包括
第一类错误由于服务器端应用软件/驱动程序引起,或者由于IO压力较大导致存储端处理IO时间过长导致的错误;
第二类错误外部设备引起的硬件错误;以及
第三类错误由本地存储端硬件引起的错误。
较佳地,若所述IO错误的错误类型为第一类错误,步骤B所述根据所述错误类型执行恢复操作包括
关闭IO错误对应的FC端口,并对该FC端口进行延时重启。
较佳地,若所述IO错误的错误类型为第二类错误,步骤B所述根据所述错误类型执行恢复操作包括
隔离引起IO错误的外部设备,并向用户发送更换外部设备的提示信息。
较佳地,若所述IO错误的错误类型为第三类错误,步骤B所述根据所述错误类型执行恢复操作包括
获取硬件信号质量信息,对硬件信号质量进行动态调整。
从以上技术方案可以看出,在FC-SAN存储系统光纤通道发生异常时,对错误类型以及错误数目进行统计,根据统计的结果进行分类处理,将错误的影响降到最低甚至恢复错误,提高整个系统的稳定性。


图1为本发明实施例提供的一种FC-SAN系统示意图。
具体实施方式
本发明方案的基本思想是,在FC-SAN存储系统光纤通道发生异常时,对错误类型以及错误数目进行统计,根据统计的结果进行分类处理,将错误的影响降到最低甚至恢复错误,提高整个系统的稳定性。
为使本发明技术方案的原理、特点以及技术效果更加清楚,以下通过具体实施例对本发明方案进行详细阐述。
本发明实施例提供的一种FC-SAN系统如图1所示。图1中示出的FC目标驱动器 104、缓存105以及磁盘驱动器106为现有的FC-SAN已有模块。
与现有的FC-SAN存储系统相比,该FC-SAN系统中增加三个模块错误监测模块 101、错误恢复模块102和FC系统异常告警模块103。
错误监测模块101用于监测FC目标驱动器104中是否出现IO错误,若是,则记录下IO错误的类型以及该类错误出现的次数。当某类错误累计出现次数超出预定阈值时,错误监测模块101会使能错误恢复模块102,并将错误类型通知错误恢复模块102。
错误恢复模块102用于在使能后,根据错误监测模块101通知的错误类型对出现的IO错误进行恢复,如果错误得到恢复,则系统仍正常运行;如果错误恢复失败,错误恢复模块102将采取隔断措施,将错误相关的FC端口进行隔断,使能错误通知模块103,并将错误类型 和被隔断的FC端口标识通知错误通知模块103。
错误通知模块103用于在使能后,将错误类型和被隔离的FC端口标识通知用户。 较佳地,错误通知模块103还可以将错误的详细情况以及针对此错误做出过的处理和处理的结果反馈给用户,让用户决定如何处理。
对于光纤通道的错误,本专利将其分为三类
第一类错误软件错误,由于服务器端应用软件/驱动程序引起,或者由于IO压力较大导致存储端处理IO时间过长导致的错误。
第二类错误外部设备引起的硬件错误,例如,FC HBA厂家之间的兼容性不佳引起的错误,光纤交换机使用了其他厂家光模块(SFP)引起的错误。
第三类错误由本地存储端硬件引起的错误,如存储端FC卡出现信号质量问题引起的错误。
较佳地,所述错误恢复模块至少包括如下单元之一
重启单元,用于错误恢复模块接收到的来自错误监测模块通知的错误类型为第一类错误时,关闭错误对应的FC端口,并对该FC端口进行延时重启;
隔离单元,用于错误恢复模块接收到的来自错误监测模块通知的错误类型为第二类错误时,隔离发生错误的外部设备,并通知错误通知模块向用户发送更换外部设备的提示信息;
信号调整单元,用于错误恢复模块接收到的来自错误监测模块通知的错误类型为第二类错误时,获取硬件信号质量信息,对硬件信号质量进行动态调整。
针对第一类错误的处理过程如下
错误监测模块101记录出现第一类错误的次数,当该次数超过预定阈值(该域值大于I)时,使能错误恢复模块102,并将错误类型通知错误恢复模块102。
错误恢复模块102得知错误类型为第一类,进行如下恢复处理关闭错误对应的 FC端口,并对该FC端口进行延时重启。
针对第二类错误的处理过程如下
错误监测模块101记录出现第二类错误的次数,当该次数超过预定阈值(该域值可以设置为I)时,使能错误恢复模块102,并将错误类型通知错误恢复模块102。
错误恢复模块102得知错误类型为第二类,进 行如下恢复处理隔离引起IO错误的外部设备(SFP/光纤线缆/开关等),并通知错误通知模块103向用户发送更换外部设备的提示信息;错误恢复模块102判断是否消除错误,若是,则结束处理,否则,将发生错误的FC端口进行隔断,使能错误通知模块103并将错误类型以及被隔断的所述FC端口的标识通知错误通知模块103 ;错误通知模块103将错误类型通知用户,并通知用户所述标识对应的FC端口不可用。
针对第三类错误的处理过程如下
错误监测模块101记录出现第三类错误的次数,当该次数超过预定阈值(该域值可以设置为I)时,使能错误恢复模块102,并将错误类型通知错误恢复模块102。
错误恢复模块102得知错误类型为第三类,进行如下恢复处理获取硬件信号质量信息,对硬件信号质量进行动态调整,错误恢复模块102判断是否消除错误,若是,则结束处理,否则,将发生错误的FC端口进行隔断,,使能错误通知模块103并将错误类型以及被隔断的所述FC端口的标识通知错误通知模块103 ;错误通知模块103将错误类型通知用户,并通知用户所述标识对应的FC端口不可用。
所述对信号质量进行动态调整的主要手段包括
(I)发送端预加重(TX preemphasis);
(2)接收端均衡(RX equalization)。
本发明实施例还提供一种提高FC-SAN的光纤通道稳定性的方法,包括如下步骤
A、监测FC-SAN的FC目标驱动器中是否出现IO错误,若是,则记录下IO错误的错误类型以及该类错误出现的次数,当某类IO错误累计出现次数超出该错误类型对应的预定阈值时,执行步骤B ;
B、根据所述错误类型执行恢复操作,如果所述恢复操作后IO错误消除,则结束本流程;如果IO错误继续存在,则执行步骤C ;
C、将所述IO错误对应的FC端口进行隔断,并将错误类型和被隔离的FC端口标识通知用户。
较佳地,所述错误类型包括
第一类错误由于服务器端应用软件/驱动程序引起,或者由于IO压力较大导致存储端处理IO时间过长导致的错误;
第二类错误外部设备引起的硬件错误;以及
第三类错误由本地存储端硬件引起的错误。
较佳地,若所述IO错误的错误类型为第一类错误,步骤B所述根据所述错误类型执行恢复操作包括
关闭IO错误对应的FC端口,并对该FC端口进行延时重启。
较佳地,若所述IO错误的错误类型为第二类错误,步骤B所述根据所述错误类型执行恢复操作包括
隔离引起IO错误的外部设备,并向用户发送更换外部设备的提示信息。
较佳地,若所述IO错误的错误类型为第三类错误,步骤B所述根据所述错误类型执行恢复操作包括
获取硬件信号质量信息,对硬件信号质量进行动态调整。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种光纤通道存储局域网络FC-SAN存储系统,包括FC目标驱动器,其特征在于,所述FC-SAN存储系统还包括错误监测模块、错误恢复模块和错误通知模块; 错误监测模块用于监测FC目标驱动器中是否出现IO错误,若是,则记录下IO错误的错误类型以及该类错误出现的次数,当某类IO错误累计出现次数超出该错误类型对应的预定阈值时,错误监测模块使能错误恢复模块,并将错误类型通知错误恢复模块; 错误恢复模块用于在使能后,根据错误监测模块通知的错误类型执行恢复操作,如果所述恢复操作后IO错误消除,则结束处理;如果IO错误继续存在,错误恢复模块将所述IO错误对应的FC端口进行隔断,使能错误通知模块并将错误类型和被隔断的FC端口标识通知错误通知|旲块; 错误通知模块用于在使能后,将错误类型和被隔离的FC端口标识通知用户。
2.根据权利要求1所述的FC-SAN存储系统,其特征在于,所述错误类型包括 第一类错误由于服务器端应用软件/驱动程序引起,或者由于IO压力较大导致存储端处理IO时间过长导致的错误; 第二类错误外部设备引起的硬件错误;以及 第三类错误由本地存储端硬件引起的错误。
3.根据权利要求2所述的FC-SAN存储系统,其特征在于,第一类错误对应的预定阈值大于1,第二类错误和第三类错误对应的预定阈值等于I。
4.根据权利要求3所述的FC-SAN存储系统,其特征在于,所述错误恢复模块包括 重启单元,用于错误恢复模块接收到的来自错误监测模块通知的错误类型为第一类错误时,关闭IO错误对应的FC端口,并对该FC端口进行延时重启。
5.根据权利要求3所述的FC-SAN存储系统,其特征在于,所述错误恢复模块包括 隔离单元,用于错误恢复模块接收到的来自错误监测模块通知的错误类型为第二类错误时,隔离引起IO错误的外部设备,并通知错误通知模块向用户发送更换外部设备的提示信息; 错误通知模块在收到来自隔离单元的通知后,向用户发送更换外部设备的提示信息。
6.根据权利要求3所述的FC-SAN存储系统,其特征在于,所述错误恢复模块包括 信号调整单元,用于错误恢复模块接收到的来自错误监测模块通知的错误类型为第三类错误时,获取硬件信号质量信息,对硬件信号质量进行动态调整。
7.一种提高光纤通道存储局域网络FC-SAN的光纤通道稳定性的方法,其特征在于,包括如下步骤 A、监测FC-SAN的FC目标驱动器中是否出现IO错误,若是,则记录下IO错误的错误类型以及该类错误出现的次数,当某类IO错误累计出现次数超出该错误类型对应的预定阈值时,执行步骤B ; B、根据所述错误类型执行恢复操作,如果所述恢复操作后IO错误消除,则结束本流程;如果IO错误继续存在,则执行步骤C ; C、将所述IO错误对应的FC端口进行隔断,并将错误类型和被隔离的FC端口标识通知用户。
8.根据权利要求7所述的方法,其特征在于,所述错误类型包括 第一类错误由于服务器端应用软件/驱动程序引起,或者由于IO压力较大导致存储端处理IO时间过长导致的错误; 第二类错误外部设备引起的硬件错误;以及 第三类错误由本地存储端硬件引起的错误。
9.根据权利要求8所述的方法,其特征在于,若所述IO错误的错误类型为第一类错误,步骤B所述根据所述错误类型执行恢复操作包括 关闭IO错误对应的FC端口,并对该FC端口进行延时重启。
10.根据权利要求8所述的方法,其特征在于,若所述IO错误的错误类型为第二类错误,步骤B所述根据所述错误类型执行恢复操作包括 隔离引起IO错误的外部设备,并向用户发送更换外部设备的提示信息。
11.根据权利要求8所述的方法,其特征在于,若所述IO错误的错误类型为第三类错误,步骤B所述根据所述错误类型执行恢复操作包括 获取硬件信号质量信息,对硬件信号质量进行动态调整。
全文摘要
本发明提供了一种光纤通道存储局域网络(FC-SAN)存储系统及一种提高FC-SAN的光纤通道稳定性的方法,A、监测FC-SAN的FC目标驱动器中是否出现IO错误,若是,则记录下IO错误的错误类型以及该类错误出现的次数,当某类IO错误累计出现次数超出该错误类型对应的预定阈值时,执行步骤B;B、根据所述错误类型执行恢复操作,如果所述恢复操作后IO错误消除,则结束本流程;如果IO错误继续存在,则执行步骤C;C、将所述IO错误对应的FC端口进行隔断,并将错误类型和被隔离的FC端口标识通知用户。
文档编号H04L12/26GK103001998SQ20111042634
公开日2013年3月27日 申请日期2011年12月19日 优先权日2011年12月19日
发明者张旭明 申请人:深圳市安云信息科技有限公司, 云海创想信息技术(天津)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1