故障管理系统和故障管理方法

文档序号:8006210阅读:570来源:国知局
故障管理系统和故障管理方法
【专利摘要】本发明提供了一种故障管理系统,包括:故障监测模块,用于在与分布式系统中的多个分布式子机建立连接后,对所述多个分布式子机进行监测,并在监测到所述多个分布式子机中的任一分布式子机出现故障时,记录所述任一分布式子机的故障信息;故障处理模块,获取所述故障信息,并根据所述故障信息的故障类型对所述任一分布式子机执行对应的预设故障处理操作。相应地,本发明还提供了一种故障管理方法。通过本发明的技术方案,能够有效管理在分布式计算过程中发生的故障,提供维护人员的工作效率。
【专利说明】故障管理系统和故障管理方法
【技术领域】
[0001]本发明涉及分布式系统管理领域,具体而言,涉及一种故障管理系统和故障管理方法。
【背景技术】
[0002]随着科技的进步,大规模分布式计算成为了现实,动辄使用上百甚至上千台服务器搭建集群。单台服务器的硬盘故障率是4%,但是当一个集群有5000台服务器的时候,硬盘故障率就是99.6% 了。而且在这种集群环境下,服务器之间网络通信,任务调度也会产生更多问题,这些问题和故障的处理大多都要求快速和准确,但是维护人员手工定位、排查和解决故障一般都需要很长时间,这带给了维护人员前所未有的巨大压力。
[0003]因此,需要一种新的故障管理技术,能够有效管理在分布式计算过程中发生的大多数故障,从而达到快速反应并处理故障,提高维护人员的工作效率,节约时间和成本,同时使分布式计算过程更加稳定的目的。

【发明内容】

[0004]本发明正是基于上述问题,提出了一种新的故障管理技术,能够有效管理在分布式计算过程中发生的大多数故障,从而达到快速反应并处理故障,提高维护人员的工作效率,节约时间和成本,同时使分布式计算过程更加稳定的目的。
[0005]有鉴于此,本发明提出了一种故障管理系统,用于管理分布式系统,包括:故障监测模块,用于在与分布式系统中的多个分布式子机建立连接后,对所述多个分布式子机进行监测,并在监测到所述多个分布式子机中的任一分布式子机出现故障时,记录所述任一分布式子机的故障信息;故障处理模块,获取所述故障信息,并根据所述故障信息的故障类型对所述任一分布式子机执行对应的预设故障处理操作。
[0006]在该技术方案中,通过故障检测模块实时检测出影响分布式系统运行的故障的详细信息,并马上执行应对故障的措施,达到了前所未有的反应速度,大大的提高了分布式系统维护的工作效率。
[0007]其中,该故障管理系统可以设置在独立的服务器上运行,这样保证可以不受到分布式系统故障的影响,从而保证故障管理系统的可靠性。
[0008]在上述技术方案中,优选地,所述故障处理模块还用于,检测所述故障监测模块和所述多个分布式子机的连接状态,并在所述故障监测模块和所述多个分布式子机的连接状态为断开时,发出连接故障通知。
[0009]在该技术方案中,一旦故障监测模块和分布式系统的连接断开,即不能通过故障监测模块监测分布式系统,此时,系统可以发出连接故障通知或者是采取其他的监控方式继续监控分布式系统,从而保证能够实时的监控到分布式系统的状态。
[0010]在上述技术方案中,优选地,所述故障监测模块还包括:设置子模块,用于根据接收到的设置指令,对所述故障类型和所述预设故障处理操作之间的关联关系进行设置。[0011]在该技术方案中,用户或厂商可以根据个人的需要设置监控模块对分布式系统的哪些故障进行检测,比如设置故障类型包括:硬件顺势故障、硬件间歇故障、硬件永久故障、数值错误、非法请求、栈溢出、存储器错误等等,以及设置每种故障类型对应的故障处理操作,这样,保证在检测到分布式系统故障时,能采取对应的故障处理操作自动对故障进行处理。
[0012]在上述技术方案中,优选地,所述故障处理模块还包括:报警子模块,在所述故障类型为预设故障类型时,发出报警提示。
[0013]在该技术方案中,当分布式系统中的故障类型是无法通过自动采取故障处理操作进行处理的故障时,可以发出报警提示,从而提醒工作人员及时对该故障进行人工处理。当然,提示的方式不仅包括报警提示,也可以是预设的其他的通知方式。
[0014]在上述技术方案中,优选地,还包括:故障信息模块,用于对所述故障信息进行显
/Jn o
[0015]在该技术方案中,用户可以通过故障信息模块查看到故障信息,其中,故障信息可以以故障日志的方式进行显示,优选地,用户还可以根据自定义的条件查询故障信息(即故障曰志)。
[0016]根据本发明的另一方面,还提供了一种故障管理方法,用于管理分布式系统,包括:步骤202,在与分布式系统中的多个分布式子机建立连接后,对所述多个分布式子机进行监测,并在监测到所述多个分布式子机中的任一分布式子机出现故障时,记录所述任一分布式子机的故障信息;步骤204,获取所述故障信息,并根据所述故障信息的故障类型对所述任一分布式子机执行对应的预设故障处理操作。
[0017]在该技术方案中,通过故障检测模块实时检测出影响分布式系统运行的故障的详细信息,并马上执行应对故障的措施,达到了前所未有的反应速度,大大的提高了分布式系统维护的工作效率。
[0018]其中,该故障管理系统可以设置在独立的服务器上运行,这样保证可以不受到分布式系统故障的影响,从而保证故障管理系统的可靠性。
[0019]在上述技术方案中,优选地,所述步骤204还包括,检测所述故障监测模块和所述多个分布式子机的连接状态,并在所述故障监测模块和所述多个分布式子机的连接状态为断开时,发出连接故障通知。
[0020]在该技术方案中,一旦故障监测模块和分布式系统的连接断开,即不能通过故障监测模块监测分布式系统,此时,系统可以发出连接故障通知或者是采取其他的监控方式继续监控分布式系统,从而保证能够实时的监控到分布式系统的状态。
[0021]在所述步骤202之前还包括:根据接收到的设置指令,对所述故障类型和所述预设故障处理操作之间的关联关系进行设置。
[0022]在该技术方案中,用户或厂商可以根据个人的需要设置监控模块对分布式系统的哪些故障进行检测,比如设置故障类型包括:硬件顺势故障、硬件间歇故障、硬件永久故障、数值错误、非法请求、栈溢出、存储器错误等等,以及设置每种故障类型对应的故障处理操作,这样,保证在检测到分布式系统故障时,能采取对应的故障处理操作自动对故障进行处理。
[0023]在上述技术方案中,优选地,所述步骤204还包括:在所述故障类型为预设故障类型时,发出报警提示。
[0024]在该技术方案中,当分布式系统中的故障类型是无法通过自动采取故障处理操作进行处理的故障时,可以发出报警提示,从而提醒工作人员及时对该故障进行人工处理。当然,提示的方式不仅包括报警提示,也可以是预设的其他的通知方式。
[0025]在上述技术方案中,优选地,还包括:步骤206,对所述故障信息进行显示。
[0026]在该技术方案中,用户可以通过故障信息模块查看到故障信息,其中,故障信息可以以故障日志的方式进行显示,优选地,用户还可以根据自定义的条件查询故障信息(即故障曰志)。
[0027]通过以上技术方案,能够有效管理在分布式计算过程中发生的大多数故障,从而达到快速反应并处理故障,提高维护人员的工作效率,节约时间和成本,同时使分布式计算过程更加稳定的目的。
【专利附图】

【附图说明】
[0028]图1示出了根据本发明的实施例的故障管理系统的框图;
[0029]图2示出了根据本发明的实施例的故障管理方法的流程图;
[0030]图3示出了根据本发明的实施例的故障管理系统的结构示意图。
【具体实施方式】
[0031]为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和【具体实施方式】对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0032]在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
[0033]图1示出了根据本发明的实施例的故障管理系统的框图。
[0034]如图1所示,根据本发明的实施例的故障管理系统100,包括:故障监测模块102,用于在与分布式系统中的多个分布式子机建立连接后,对所述多个分布式子机进行监测,并在监测到所述多个分布式子机中的任一分布式子机出现故障时,记录所述任一分布式子机的故障信息;故障处理模块104,获取所述故障信息,并根据所述故障信息的故障类型对所述任一分布式子机执行对应的预设故障处理操作。
[0035]在该技术方案中,通过故障检测模块实时检测出影响分布式系统运行的故障的详细信息,并马上执行应对故障的措施,达到了前所未有的反应速度,大大的提高了分布式系统维护的工作效率。
[0036]其中,该故障管理系统可以设置在独立的服务器上运行,这样保证可以不受到分布式系统故障的影响,从而保证故障管理系统的可靠性。
[0037]在上述技术方案中,优选地,所述故障处理模块104还用于,检测所述故障监测模块和所述多个分布式子机的连接状态,并在所述故障监测模块和所述多个分布式子机的连接状态为断开时,发出连接故障通知。
[0038]在该技术方案中,一旦故障监测模块和分布式系统的连接断开,即不能通过故障监测模块监测分布式系统,此时,系统可以发出连接故障通知或者是采取其他的监控方式继续监控分布式系统,从而保证能够实时的监控到分布式系统的状态。
[0039]在上述技术方案中,优选地,所述故障监测模块102还包括:设置子模块1022,用于根据接收到的设置指令,对所述故障类型和所述预设故障处理操作之间的关联关系进行设置。
[0040]在该技术方案中,用户或厂商可以根据个人的需要设置监控模块对分布式系统的哪些故障进行检测,比如设置故障类型包括:硬件顺势故障、硬件间歇故障、硬件永久故障、数值错误、非法请求、栈溢出、存储器错误等等,以及设置每种故障类型对应的故障处理操作,这样,保证在检测到分布式系统故障时,能采取对应的故障处理操作自动对故障进行处理。
[0041]在上述技术方案中,优选地,所述故障处理模块104还包括:报警子模块1042,在所述故障类型为预设故障类型时,发出报警提示。
[0042]在该技术方案中,当分布式系统中的故障类型是无法通过自动采取故障处理操作进行处理的故障时,可以发出报警提示,从而提醒工作人员及时对该故障进行人工处理。当然,提示的方式不仅包括报警提示,也可以是预设的其他的通知方式。
[0043]在上述技术方案中,优选地,还包括:故障信息模块106,用于对所述故障信息进行显示。
[0044]在该技术方案中,用户可以通过故障信息模块查看到故障信息,其中,故障信息可以以故障日志的方式进行显示,优选地,用户还可以根据自定义的条件查询故障信息(即故障曰志)。
[0045]图2示出了根据本发明的实施例的故障管理方法的流程图。
[0046]如图2所示,根据本发明的实施例的故障管理方法,包括:步骤202,在与分布式系统中的多个分布式子机建立连接后,对所述多个分布式子机进行监测,并在监测到所述多个分布式子机中的任一分布式子机出现故障时,记录所述任一分布式子机的故障信息;步骤204,获取所述故障信息,并根据所述故障信息的故障类型对所述任一分布式子机执行对应的预设故障处理操作。
[0047]在该技术方案中,通过故障检测模块实时检测出影响分布式系统运行的故障的详细信息,并马上执行应对故障的措施,达到了前所未有的反应速度,大大的提高了分布式系统维护的工作效率。
[0048]其中,该故障管理系统可以设置在独立的服务器上运行,这样保证可以不受到分布式系统故障的影响,从而保证故障管理系统的可靠性。
[0049]在上述技术方案中,优选地,所述步骤204还包括,检测所述故障监测模块和所述多个分布式子机的连接状态,并在所述故障监测模块和所述多个分布式子机的连接状态为断开时,发出连接故障通知。
[0050]在该技术方案中,一旦故障监测模块和分布式系统的连接断开,即不能通过故障监测模块监测分布式系统,此时,系统可以发出连接故障通知或者是采取其他的监控方式继续监控分布式系统,从而保证能够实时的监控到分布式系统的状态。
[0051]在所述步骤202之前还包括:根据接收到的设置指令,对所述故障类型和所述预设故障处理操作之间的关联关系进行设置。[0052]在该技术方案中,用户或厂商可以根据个人的需要设置监控模块对分布式系统的哪些故障进行检测,比如设置故障类型包括:硬件顺势故障、硬件间歇故障、硬件永久故障、数值错误、非法请求、栈溢出、存储器错误等等,以及设置每种故障类型对应的故障处理操作,这样,保证在检测到分布式系统故障时,能采取对应的故障处理操作自动对故障进行处理。
[0053]在上述技术方案中,优选地,所述步骤204还包括:在所述故障类型为预设故障类型时,发出报警提示。
[0054]在该技术方案中,当分布式系统中的故障类型是无法通过自动采取故障处理操作进行处理的故障时,可以发出报警提示,从而提醒工作人员及时对该故障进行人工处理。当然,提示的方式不仅包括报警提示,也可以是预设的其他的通知方式。
[0055]在上述技术方案中,优选地,还包括:步骤206,对所述故障信息进行显示。
[0056]在该技术方案中,用户可以通过故障信息模块查看到故障信息,其中,故障信息可以以故障日志的方式进行显示,优选地,用户还可以根据自定义的条件查询故障信息(即故障曰志)。
[0057]图3示出了根据本发明的实施例的故障管理系统的结构示意图。
[0058]如图3所示,根据本发明的实施例的故障管理系统300包括:故障监测模块302,其与分布式系统的子机连接,并在每个子机安装寄宿程序,用来监测故障和传送故障信息。故障监测模块302的工作流程如下:首先,预先定义一些故障类型,如:硬件瞬时故障、硬件间歇故障,硬件永久故障,数值错误,非法请求,栈溢出,存储器错误等等。同时,故障监测模块302中还预先定义一些监测程序,这些监测程序分为两种,一种是在寄宿程序中执行的,一种是在故障管理服务器执行的。然后,设定监测到的故障日志的格式,以及通知方式等信息。一旦发生故障,立即可以通过预先安装在被监测机器中的寄宿程序监测并把监测结果发送到故障管理服务器保存为故障日志;如果寄宿程序出现异常,这也是一种故障,故障管理系统会把该异常记入故障日志并交给故障处理模块,同时由故障管理系统发起监测程序,从外部监测机器故障。当某些故障需要工作人员处理时,则按预设的通知方式发出通知。
[0059]故障信息模块306,其与所述的故障监测模块302连接,为故障监测模块302提供故障日志写入的接口。同时,提供对故障日志查询的视图,用户可以根据自定义的条件查询故障日志。
[0060]故障处理模块304,其与所述的故障信息模块306连接,获取故障日志。当故障发生时,接收故障日志,并根据故障日志中记录的故障详细信息,执行相应的故障处理程序。
[0061]以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,能够有效管理在分布式计算过程中发生的大多数故障,从而达到快速反应并处理故障,提高维护人员的工作效率,节约时间和成本,同时使分布式计算过程更加稳定的目的。
[0062]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种故障管理系统,其特征在于,包括: 故障监测模块,用于在与分布式系统中的多个分布式子机建立连接后,对所述多个分布式子机进行监测,并在监测到所述多个分布式子机中的任一分布式子机出现故障时,记录所述任一分布式子机的故障信息; 故障处理模块,获取所述故障信息,并根据所述故障信息的故障类型对所述任一分布式子机执行对应的预设故障处理操作。
2.根据权利要求1所述的故障管理系统,其特征在于,所述故障处理模块还用于, 检测所述故障监测模块和所述多个分布式子机的连接状态,并在所述故障监测模块和所述多个分布式子机的连接状态为断开时,发出连接故障通知。
3.根据权利要求1所述的故障管理系统,其特征在于,所述故障监测模块还包括: 设置子模块,用于根据接收到的设置指令,对所述故障类型和所述预设故障处理操作之间的关联关系进行设置。
4.根据权利要求1所述的故障管理系统,其特征在于,所述故障处理模块还包括: 报警子模块,在所述故障类型为预设故障类型时,发出报警提示。
5.根据权利要求1至4中任一项所述的故障管理系统,其特征在于,还包括: 故障信息模块,用于对所述故障信息进行显示。
6.一种故障管理方法,其特征在于,包括: 步骤202,在与分布式系统中的多个分布式子机建立连接后,对所述多个分布式子机进行监测,并在监测到所述多个分布式子机中的任一分布式子机出现故障时,记录所述任一分布式子机的故障信息; 步骤204,获取所述故障信息,并根据所述故障信息的故障类型对所述任一分布式子机执行对应的预设故障处理操作。
7.根据权利要求6所述的故障管理方法,其特征在于,所述步骤204还包括, 检测所述故障监测模块和所述多个分布式子机的连接状态,并在所述故障监测模块和所述多个分布式子机的连接状态为断开时,发出连接故障通知。
8.根据权利要求6所述的故障管理方法,其特征在于,在所述步骤202之前还包括: 根据接收到的设置指令,对所述故障类型和所述预设故障处理操作之间的关联关系进行设置。
9.根据权利要求6所述的故障管理方法,其特征在于,所述步骤204还包括: 在所述故障类型为预设故障类型时,发出报警提示。
10.根据权利要求6至9中任一项所述的故障管理方法,其特征在于,还包括: 步骤206,对所述故障信息进行显示。
【文档编号】H04L12/24GK103490919SQ201310392087
【公开日】2014年1月1日 申请日期:2013年9月2日 优先权日:2013年9月2日
【发明者】王洪吉 申请人:用友软件股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1