一种群集储存系统的报警显示系统及方法

文档序号:7662317阅读:215来源:国知局

专利名称::一种群集储存系统的报警显示系统及方法
技术领域
:本发明涉及一种应用于计算机系统的报警显示系统及方法,尤其涉及一种对群集(Cluster)储存系统中共享设备的异常事件进行报警处理的群集储存系统的报警显示系统及方法。
背景技术
:目前,在个人计算机群集(PCCluster)储存系统中报警系统一般设定为对一些关键的软、硬件对象及相关事件进行监控,当所监控的对象发生状态异常时报警系统会将此异常情况采用特定的方式呈现给用户知悉,比如可采用页面显示,发送E-mail、S丽P(简易网络管理协议,为一种定义网络中各节点(node)管理问题的TCP/IP协议)提示给用户等方式得以实现。群集作为一个整体,其中包含有共享设备(例如磁盘等)和独立的设备(例如CPU、内存(Memory)等),每个节点的报警模块是相同的,当检测到设备异常时现有技术中的做法是每个节点都会单独处理异常事件,对于共享的设备也采用相同的方式,这样造成的结果是当不同节点检测到共享设备发生不同的异常事件时会采取不同的处理方式,最明显问题的是在页面显示时可能会出现针对同一个设备的不同异常显示。这无疑是一种不准确、不适当的报警处理方式,同时也会让用户对报警信息感到非常困惑。特别是在随着群集节点的增加,系统监控的软件和硬件的对象越来越多的情况下,这种现有技术的报警处理方式无疑存在很大的缺陷。
发明内容本发明所要解决的技术问题在于提供一种群集储存系统的报警显示系统及方法,采用合理单一的异常事件处理方式,通过对计算机群集储存系统中共享设备发生的所有异常事件根据其对系统危害的程度进行级别划分与分析处理,进而实现将共享设备的异常事件向用户进行合理、准确地报警提示。为实现上述目的,本发明所提供的一种群集储存系统的报警显示系统,包含一报警信息获取及储存模块,用以通过轮询及中断方式监控共享设备的各节点所检测到的异常事件,并将获取的异常事件的报警信息储存至一报警信息的数据库内,同时将异常事件储存于一报警事件数据库中;一节点负荷分析模块,用以通过对使用发生异常事件的共享设备的各节点的负荷信息进行排序运算,得到各节点中节点负荷最低的节点与节点负荷最高的节点,并指定由节点负荷最低的节点对共享设备的异常事件进行报警分析处理;一报警信息分析处理模块,用以对报警事件数据库中储存的各节点检测到的异常事件以及报警信息的数据库内储存的异常事件所对应的报警信息进行分析处理,并根据报警信息分析结果确定异常事件的报警处理优先级,然后依据此报警处理优先级与节点负荷分析模块所得到的节点负荷最高的节点,将共享设备发生的异常事件及受异常事件影响最大的节点信息提供给各节点,并由各节点向用户进行报警提示;以及一报警模块,用以根据不同的监控对象及报警等级选择调用不同的报警方式向用户进行报警提示。而且,为实现上述目的,本发明所提供的一种群集储存系统的报警显示方法,包含以下步骤通过轮询及中断方式监控共享设备的各节点所检测到的异常事件,并获取各节点的负荷信息;将获取的异常事件及异常事件的报警信息进行储存;通过对使用发生异常事件的共享设备的各节点的负荷进行排序运算,得到各节点中节点负荷最低的节点与节点负荷最高的节点,并指定由节点负荷最低的节点对共享设备的异常事件进行报警分析处理;对所储存的各节点检测到的异常事件以及所储存的异常事件所对应的报警信息进行分析处理,并根据报警信息分析结果确定异常事件的报警处理优先级;以及依据报警处理优先级与所得到的节点负荷最高的节点,将共享设备发生的异常事件及受异常事件影响最大的节点信息提供给各节点,并由各节点向用户进行报警提示。综上所述,本发明的优点在于本发明所提供的一种群集储存系统的报警显示系统及方法,可以根据系统中可能存在的多种影响设备效能的因素来综合考虑共享设备的异常并进行报警提示,进而实现提醒用户合理、准确地处理群集储存系统中共享设备的异常事f^的有益效果。本发明的群集储存系统的报警显示系统及方法中,通过对使用共享设备的不同节点所检测到的异常事件进行报警优先级划分以及对各节点的节点负荷进行分析,即采用负荷较低的节点分析得出针对群集储存系统中所有共享设备的异常事件及受异常事件影响最大的节点,然后提供给各节点,由各节点向用户进行报警提示,进而有效避免了使用共享设备的不同节点各自为政,在相同时段出现对共享设备不同的异常报警处理的问题。此外,本发明的群集储存系统的报警显示系统及方法中,通过利用节点负荷较低的节点处理异常事件的报警,更可以平衡群集储存系统中设备的压力。以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。图1为本发明的群集储存系统的报警显示系统的系统方块图;以及图2为本发明的群集储存系统的报警显示方法的方法流程图。其中,附图标记10:报警信息获取及储存模块20:报警信息的数据库30:报警事件数据库40:节点负荷分析模块50:报警信息分析处理模块60:报警模块具体实施例方式以下,将结合附图部份对本发明的较佳实施方式作详细说明。请参考图1,图中表示了本发明的一种群集储存系统的报警显示系统的系统方块图,此报警显示系统用以对群集(Cluster)储存系统中共享设备的异常事件进行报警处理。如图所示,本发明的一种群集储存系统的报警显示系统,包含.-报警信息获取及储存模块10,用以通过轮询及中断方式监控共享设备的各节点所检测到的异常事件,并将获取的异常事件的报警信息储存至报警信息的数据库20内,同时将异常事件储存于报警事件数据库30中;节点负荷分析模块40,用以通过对使用发生异常事件的共享设备的各节点的负荷信息迸行排序运算,得到各节点中节点负荷最低的节点与节点负荷最高的节点,并指定由节点负荷最低的节点对共享设备的异常事件进行报警分析处理,由于群集储存系统中用户的使用压力不同所以各节点的节点负载也会不同,进而导致各节点的数据流量有很大差异,当共享设备出现异常时,其中节点负载最大、数据流量最大(即节点负荷最高)的节点受到异常事件的影响将会最大,因此可综合上述两点因素统计出各个节点的负荷信息,并以此得出使用发生异常事件的共享设备将受影响最大的节点;报警信息分析处理模块50,用以对报警事件数据库30中储存的各节点检测到的异常事件以及报警信息的数据库20内储存的异常事件所对应的报警信息进行具体地分析处理,并根据报警信息分析结果确定异常事件的报警处理优先级,然后依据此报警处理优先级与节点负荷分析模块40所得到的节点负荷最高的节点,将共享设备发生的异常事件及受异常事件影响最大的节点信息提供给各节点,并由各节点向用户进行报警提示;以及报警模块60,用以根据不同的监控对象及报警等级选择调用不同的报警方式向用户进行报警提示,其中不同的监控对象指不同的异常事件及受到异常事件影响最大的节点,根据用户的指定,可以对不同的监控对象及报警等级采取不同的报警动作。不同的监控对象及报警等级根据其类别及严重等级程度或重要度,对应着不同的报警方式,例如可通过页面显示、发光二极管(LED)警示、蜂鸣警示、发送S丽PTrap(S丽P,英文全称SimpleNetworkManagementProtocol,中文全称简易网络管理协议,为一系列协议组和规范,其提供了一种从网络上的设备中收集网络管理信息的方法。S丽P也为设备向网络管理工作站报告问题和错误提供了一种方法。被管理设备中的代理程序可以在任何时候向网络管理工作站报告错误情况,例如预制定阈值越界程度等等。代理程序并不需要等到管理工作站为获得这些错误情况而执行轮询的时候才会报告。这些错误情况就被称为S丽PTrap)提示、发送电子邮件(E-mail)提示、记录曰志等方式向用户进行报警提示。用户为不同类型或等级程度的报警选择指定的相应报警方式,系统即据此为不同监控对象及报警等级选择对应的报警方式。此报警方式的选择还将会在系统运行中,根据各项目的历史数据进行动态地调整,进而得到最满足用户期望且最实用的报警方式。其中,上述异常事件的报警信息包含异常事件的等级与异常事件的历史发生频率的信息,此异常事件的等级可根据异常事件对系统中共享设备的影响程度划分为低、中、高三个等级,其中可能影响共享设备的正常使用的异常事件可设定为低等级,例如设备的空间不足等异常事件;可能导致共享的软件设备损坏或无法使用的异常事件设定为中等级,例如廉价磁盘冗余阵列(RedundantArraysofInexpensiveDisks,简称RAID)设备的损坏轻则可能导致数据的读写出现错误进而影响数据的完整性,重则会导致设备根本无法使用;以及可能导致共享的硬设备损坏或无法使用的异常事件设定为高等级,此类异常事件需要立即进行处理,如及时从系统中自动移除损坏的设备,或者提醒用户手动拔出损坏的设备后及时更换完好的设备,借以不影响用户的数据。而上述异常事件的历史发生频率是指在一预先设定的时间段内(例如At时间内)异常事件所发生的次数,此预先设定的时间段可根据需要优选为20现在请参考图2,此图为本发明的一种群集储存系统的报警显示方法的方法流程图,此报警显示方法用以对群集(Cluster)储存系统中共享设备的异常事件进行报警处理。如图所示,本发明的一种群集储存系统的报警显示方法,包含以下步骤通过轮询及中断方式监控共享设备的各节点所检测到的异常事件,并获取各节点的负荷信息(步骤IOO);将获取的异常事件及异常事件的报警信息进行储存(步骤200);通过对使用发生异常事件的共享设备的各节点的负荷进行排序运算,得到各节点中节点负荷最低的节点与节点负荷最高的节点,并指定由节点负荷最低的节点对共享设备的异常事件进行报警分析处理(步骤300),由于群集储存系统中用户的使用压力不同所以各节点的节点负载也会不同,进而导致各节点的数据流量有很大差异,当共享设备出现异常时,其中节点负载最大、数据流量最大(即节点负荷最高)的节点受到异常事件的影响将会最大,因此可综合上述两点因素统计出各个节点的负荷信息,并以此得出使用发生异常事件的共享设备将受影响最大的节点;9对所储存的各节点检测到的异常事件以及所储存的异常事件所对应的报警信息进行分析处理,并根据报警信息分析结果确定异常事件的报警处理优先级(步骤400);以及依据报警处理优先级与所得到的节点负荷最高的节点,将共享设备发生的异常事件及受异常事件影响最大的节点信息提供给各节点,并由各节点向用户进行报警提示(步骤500)。此外,上述本发明的一种群集储存系统的报警显示方法中还可进一步包含根据不同的监控对象及报警等级选择调用不同的报警方式向用户进行报警提示的步骤(附图中未示出),其中,不同的监控对象是指不同的异常事件及受到异常事件影响最大的节点,根据用户的指定,可以对不同的监控对象及报警等级采取不同的报警动作。不同的监控对象及报警等级根据其类别及严重等级程度或重要度,对应着不同的报警方式,例如可通过页面显示、发光二极管(LED)警示、蜂鸣警示、发送S丽PTrap(S丽P,英文全称SimpleNetworkManagementProtocol,中文全称简易网络管理协议,为一系列协议组和规范,其提供了一种从网络上的设备中收集网络管理信息的方法。S丽P也为设备向网络管理工作站报告问题和错误提供了一种方法。被管理设备中的代理程序可以在任何时候向网络管理工作站报告错误情况,例如预制定阈值越界程度等等。代理程序并不需要等到管理工作站为获得这些错误情况而执行轮询的时候才会报告。这些错误情况就被称为S丽PTr即)提示、发送电子邮件(E-mail)提示、记录日志等方式向用户进行报警提示。用户为不同类型或等级程度的报警选择指定的相应报警方式后,即可据此为不同监控对象及报警等级选择对应的报警方式。此报警方式的选择还可根据各项目的历史数据进行动态地调整,进而得到最满足用户期望且最实用的报警方式。其中,上述异常事件的报警信息包含异常事件的等级与异常事件的历史发生频率的信息,此异常事件的等级可根据异常事件对系统中共享设备的影响程度划分为低、中、高三个等级,其中可能影响共享设备的正常使用的异常事件可设定为低等级,例如设备的空间不足等异常事件;可能导致共享的软件设备损坏或无法使用的异常事件设定为中等级,例如廉f介磁盘冗余阵列(RedundantArraysofInexpensiveDisks,简称RAID)设10备的损坏轻则可能导致数据的读写出现错误进而影响数据的完整性,重则会导致设备根本无法使用;以及可能导致共享的硬设备损坏或无法使用的异常事件设定为高等级,此类异常事件需要立即进行处理,如及时从系统中自动移除损坏的设备,或者提醒用户手动拔出损坏的设备后及时更换完好的设备,借以不影响用户的数据。而上述异常事件的历史发生频率是指在一预先设定的时间段内(例如At时间内)异常事件所发生的次数,此预先设定的时间段可根据需要优选为20秒。下面,将结合表1及表2对本发明的技术方案中的一些细部技术特征进行描述当群集中的一个节点检测到共享设备存在异常时,发现异常事件的节点会同时向使用该共享设备的节点(例如表2中所示的使用共享设备Devicel的节点Nodel、Node2……)发送报警信息及本节点的节点负荷的信息,其中所发送的报警信息,如表l中所示,包含异常事件(Errorl、Error2……)的等级与历史发生频率的信息。使用此共享设备的节点通过分析运算裁决出负荷最低的节点来处理报警事件,此负荷最低的节点会根据异常事件的等级高低,并考虑此异常事件的历史发生频率来决定如何处理此异常事件,尤其当同时检测到不同异常事件时,也会依据上述的报警信息来裁决应当优先处理哪个异常事件。同时,如表2中所示,此负荷最低的节点还会依据不同的异常事件来最后权衡哪个节点所受的影响会最大(当共享设备出现异常时那个负载最大、数据流量最大的节点受到的影响通常会最大),进而将受到异常事件影响最大的节点的合理异常信息呈现给用户,使得用户可以根据系统的实际情况来进行相应的调整和处理,例如可以对此受影响最大的节点的负载情况进行适当地调整。表l:异常事件异常等级历史发生频率Errorl、Error2根据异常事件对系记录在过去At统影响程度可以分时间内异常事件为低、中、高三个等发生的次数级11<table>tableseeoriginaldocumentpage12</column></row><table>表2:<table>tableseeoriginaldocumentpage12</column></row><table>下面将通过两个实施例对本发明的技术方案的具体实施进行描述在tl时刻群集中Nodel节点检测到共享设备Devicel发生低等级异常事件E1和E2,节点Nodel立即向使用设备Devicel的节点发送检测到的异常事件信息及本节点的节点负荷信息,同时其余节点也检测到相同的异常事件El和E2,并把异常事件信息和该节点的负荷信息发送到使用共享设备Devicel的群集各节点。由节点负荷最低的节点NodeL分析处理异常信息,考虑到节点Node5的负荷最高,而异常事件E2的历史发生频率高于异常事件E1,于是节点NodeL优先先对异常事件E2进行报警处理,而后再对异常事件El进行报警处理,同时会在页面显示节点Node5所受异常事件影响最大,借以提醒用户。实施例二在t2时刻群集中Nodel节点检测到共享设备Devicel发生低等级异常事件E1和高等级异常事件E2,节点Nodel立即向使用设备Devicel的节点发送检测到的异常事件信息及本节点的节点负荷信息,同时其余节点也检测到相同的异常事件El和E2,并把异常事件信息和该节点的负荷信息发送到使用共享设备Devicel的群集各节点。由节点负荷最低的节点NodeL分析处理异常信息,考虑到节点Node5的负荷最高,于是节点NodeL优先先对异常事件E2进行报警处理,而后再对异常事件El进行报警处理,同时会在页面显示节点Node5所受异常事件影响最大,借以提醒用户。当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。权利要求1、一种群集储存系统的报警显示系统,用以对群集储存系统中共享设备的异常事件进行报警处理,其特征在于,该系统包含一报警信息获取及储存模块,用以通过轮询及中断方式监控该共享设备的各节点所检测到的异常事件,并将获取的异常事件的报警信息储存至一报警信息的数据库内,同时将异常事件储存于一报警事件数据库中;一节点负荷分析模块,用以通过对使用发生异常事件的共享设备的各节点的负荷信息进行排序运算,得到所述各节点中节点负荷最低的节点与节点负荷最高的节点,并指定由该节点负荷最低的节点对该共享设备的异常事件进行报警分析处理;一报警信息分析处理模块,用以对该报警事件数据库中储存的各节点检测到的异常事件以及该报警信息的数据库内储存的异常事件所对应的报警信息进行分析处理,并根据该报警信息分析结果确定异常事件的报警处理优先级,然后依据该报警处理优先级与该节点负荷分析模块所得到的节点负荷最高的节点,将该共享设备发生的异常事件及受异常事件影响最大的节点信息提供给所述各节点,并由所述各节点向用户进行报警提示;以及一报警模块,用以根据不同的监控对象及报警等级选择调用不同的报警方式向用户进行报警提示。2、根据权利要求1所述的群集储存系统的报警显示系统,其特征在于,该异常事件的报警信息包含该异常事件的等级与该异常事件的历史发生频率的〈言息。3、根据权利要求2所述的群集储存系统的报警显示系统,其特征在于,该异常事件的等级分为低、中、高三个等级,其中影响共享设备的正常使用的异常事件设定为低等级;导致共享的软件设备损坏或无法使用的异常事件设定为中等级;以及导致共享的硬设备损坏或无法使用的异常事件设定为高等级。4、根据权利要求2所述的群集储存系统的报警显示系统,其特征在于,该异常事件的历史发生频率指在一预先设定的时间段内该异常事件所发生的次数。5、根据权利要求1所述的群集储存系统的报警显示系统,其特征在于,该报警方式包含页面显示、发光二极管警示、蜂鸣警示、简易网络管理协议陷阱提示、电子邮件提示及记录日志。6、一种群集储存系统的报警显示方法,用以对群集储存系统中共享设备的异常事件进行报警处理,其特征在于,该方法包含以下步骤通过轮询及中断方式监控该共享设备的各节点所检测到的异常事件,并获取所述各节点的负荷信息;将获取的异常事件及异常事件的报警信息进行储存;通过对使用发生异常事件的共享设备的各节点的负荷进行排序运算,得到所述各节点中节点负荷最低的节点与节点负荷最高的节点,并指定由该节点负荷最低的节点对该共享设备的异常事件进行报警分析处理;对所储存的各节点检测到的异常事件以及所储存的异常事件所对应的报警信息进行分析处理,并根据该报警信息分析结果确定异常事件的报警处理优先级;以及依据该报警处理优先级与所得到的节点负荷最高的节点,将该共享设备发生的异常事件及受异常事件影响最大的节点信息提供给所述各节点,并由所述各节点向用户进行报警提示。7、根据权利要求6所述的群集储存系统的报警显示方法,其特征在于,该异常事件的报警信息包含该异常事件的等级与该异常事件的历史发生频率的信息。8、根据权利要求7所述的群集储存系统的报警显示方法,其特征在于,该异常事件的等级分为低、中、高三个等级,其中影响共享设备的正常使用的异常事件设定为低等级;导致共享的软件设备损坏或无法使用的异常事件设定为中等级;以及导致共享的硬设备损坏或无法使用的异常事件设定为高等级。9、根据权利要求7所述的群集储存系统的报警显示方法,其特征在于,该异常事件的历史发生频率是指在一预先设定的时间段内该异常事件所发生的次数。10、根据权利要求6所述的群集储存系统的报警显示方法,其特征在于,还包含根据不同的监控对象及报警等级选择调用不同的报警方式向用户进行报警提示的步骤,其中,该报警方式包含页面显示、发光二极管警示、蜂鸣警示、简易网络管理协议陷阱提示、电子邮件提示及记录日志。全文摘要本发明公开了一种群集储存系统的报警显示系统及方法,采用合理单一的异常事件处理方式,通过对群集储存系统中使用共享设备的不同节点所检测到的异常事件进行报警优先级划分以及对各节点的节点负荷进行分析,即采用负荷较低的节点分析得出针对集群储存系统中所有共享设备的异常事件及受异常事件影响最大的节点,然后提供给各节点,由各节点向用户进行报警提示,进而实现将共享设备的异常事件及其对节点的影响向用户进行合理、准确地报警提示。文档编号H04L12/24GK101471808SQ20071016107公开日2009年7月1日申请日期2007年12月26日优先权日2007年12月26日发明者刘文涵,杜启飞,陈玄同申请人:英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1