云计算集群服务器状态监控系统和方法

文档序号:8005147阅读:239来源:国知局
云计算集群服务器状态监控系统和方法
【专利摘要】本发明提供一种云计算集群服务器状态监控系统和方法。所述系统包括多个云计算服务器(1,2,3)组成的集群服务器(10);连接到集群服务器(10)的多个云计算服务器的备份服务器(11),用于对该多个云计算服务器的数据进行备份;连接到所述集群服务器(10)和备份服务器(11)的设备感知服务器(12),用于感知集群服务器(10)和备份服务器(11)的异常情况。根据本发明的监控系统和方法,可以感知云计算服务器的异常,判断服务器设备是否有流量,是否在正常处理报文,评估异常风险并做出相应动作,保证服务器设备在异常后快速恢复业务。
【专利说明】云计算集群服务器状态监控系统和方法【技术领域】
[0001]本发明涉及云计算集群服务器【技术领域】,具体涉及一种云计算集群服务器状态监控系统和方法。
【背景技术】
[0002]云计算是一种全新的计算模式,其核心思想是企业或个人不再需要在电脑中安装大量应用软件,而是通过Web浏览器接入到一种大范围的、按需定制的服务中,即“云服务”。云计算技术将使用户体验发生根本性的变化。相比传统服务器架构,云计算服务器大大提高了其利用率,同时也在系统中省去了很多重复的硬件,将计算、存储、交换、管理等集成到标准系统中,并且与外界的网络设备、存储设备间的接口和通用架构保待一致。
[0003]集群服务器,简而言之,就是一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。一组集群服务器包含多台拥有共享数据存储空间的服务器,各服务器之间通过内部局域网进行相互通信;当其中一台服务器发生故障时,它所运行的应用程序将由其他的服务器自动接管;在大多数情况下,集群中所有的计算机都拥有一个共同的名称,集群系统内任意一台服务器都可被所有的网络用户所使用。
[0004]在云计算集群服务器系统中,由多个服务器组成的集群服务器做用户负载和服务器备份,用户登录服务器时,会根据云计算服务器负载到指定服务器上处理用户数据。其中服务器之间都有至少一个备份服务器,对大规模集群方式的云计算服务器组来说,感知其中一台服务器设备的指定业务模块异常非常重要,其中云计算服务器通常由网页处理模块,用户交互管理模块,用户数据存储模块组成,当其中一个业务模块出现异常时,其他模块无法感知。
[0005]现有技术存在的问题:
[0006]现有技术是服务器设备异常后,等待管理员重启;服务器设备异常后,等待服务器设备进程异常调度超时,服务器设备重启。
[0007]因此,急需提出一种云计算集群服务器状态监控系统和方法,帮助我们解决上述的问题。

【发明内容】

[0008]本发明的一种云计算集群服务器状态监控系统和方法,使用一个感知服务器,能够快速感知服务器设备异常,快速做出服务器设备异常判断并快速通过判断提供正确的处理方式恢复服务器设备工作,当一个服务器出现一个模块异常时,由第三方监控设备对其进行感知,评估异常风险并做出相应动作,保证服务器设备在异常后快速恢复业务。
[0009]根据本发明的一个方面,提供了一种云计算集群服务器状态监控系统,包括:集群服务器10,包括多个云计算服务器1,2,3 ;备份服务器11,连接到集群服务器10的多个云计算服务器,用于对该多个云计算服务器的数据进行备份;设备感知服务器12,连接到所述集群服务器10和备份服务器11,用于感知集群服务器10和备份服务器11的异常情况。
[0010]其中,所述设备感知服务器12感知集群服务器10中某台云计算服务器的业务模
块异常,当该云计算服务器的某个业务模块异常时,所述感知服务器12评估异常风险并报
m
目O
[0011]其中,所述设备感知服务器12感知的业务模块包括网页处理模块、用户交互管理模块及用户数据存储模块。
[0012]进一步,所述设备感知服务器12对感知的异常情况报文进行判断,并根据异常服务器的功能及异常模块的类型做出相应的异常情况恢复和操作处理。
[0013]根据本发明的另一方面,提供了一种云计算集群服务器状态监控方法,包括如下步骤:
[0014]流量检查步骤,所述设备感知服务器对每个服务器的发报文和收报文进行统计,当在一定时间内只有发送报文或者接收报文时,或者没有报文时,所述感知服务器发送状态请求报文;
[0015]异常检测步骤,当集群服务器接收到所述设备感知服务器的状态请求报文后,根据状态请求报文的类型对本服务器的指定业务模块进行检查,并返回业务模块状态;
[0016]异常处理步骤,所述设备感知服务器判断此所述服务器设备是否异常,再根据服务器设备所处的功能是主服务器还是备份服务器来做出相应的判断处理。
[0017]更进一步地,所述异常处理步骤中,在所述设备感知服务器判断主服务器模块异常的情况下,如果异常的模块为非数据模块,则通知异常服务器设备重启异常模块。
[0018]更进一步地,所述异常处理步骤中,在所述设备感知服务器判断主服务器模块异常的情况下,如果异常的模块为数据模块,说明数据损坏,需要快速进行数据恢复,则发送重启消息给异常服务器设备,并激活备份服务器设备。
[0019]更进一步地,所述异常处理步骤中,在所述设备感知服务器判断备份服务器异常的情况下,则只对备份数据发送重启消息。
[0020]本发明具有以下的优点:
[0021]根据本发明的云计算集群服务器状态监控系统和方法,其中的每个集群服务器主动且定时向状态监控系统进行状态信息报文发送,设备感知服务器根据未定时接收到相应的状态信息来判断需要对异常服务器执行恢复动作,重启指定服务器,缩短业务恢复时间。
[0022]采用本发明的云计算集群服务器状态监控系统和方法,根据异常的具体情况具体分析,可避免通过系统自动超时唤醒异常中断来重启设备,或人为地去重启设备,达到了通过第三方实时监测来快速恢复集群服务器设备的工作能力,缩短服务器设备异常后的恢复时间能够更快地恢复服务器设备以及网络运营,节约了人力和物力成本,使快速恢复集群服务器网络设备的异常情况的技术迈上了一个新台阶,成为新时代的网络监控产品,对于企业的运营、生产和生活都会带来了一定意义的好处。
[0023]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
【专利附图】

【附图说明】
[0024]图1显示了本发明的云计算集群服务器状态监控系统的结构示意图;[0025]图2显示了本发明的云计算集群服务器状态监控方法的流程示意图;
[0026]图3显示了本发明的状态监控方法中的异常处理流程示意图。
【具体实施方式】
[0027]为使本发明的目的、技术方案和优点更加清楚明了,下面结合【具体实施方式】并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
[0028]图1显示了本发明的云计算集群服务器状态监控系统的结构示意图。
[0029]如图1所示,本发明的云计算集群服务器状态监控系统包含下述部分:包含多个云计算服务器的集群服务器10、备份服务器11以及设备感知服务器12。
[0030]集群服务器10由多个云计算服务器组成,例如图1中所示的服务器1、服务器2、服务器3等多个服务器组成的集群,用于用户数据处理和服务器备份。用户登录某一个云计算服务器时,会根据云计算服务器的数据吞吐负载转到合适的服务器上处理用户数据。
[0031]备份服务器11连接到集群服务器10的多个云计算服务器,用于对该多个云计算服务器的数据进行备份。备份服务器可以根据集群服务器的数量设置一个或多个,保证各个云计算服务器都至少配置到一个备份服务器即可。
[0032]设备感知服务器12,连接到所述集群服务器和备份服务器,用于感知集群服务器和备份服务器的异常情况。
[0033]具体来说,设备感知服务器12感知集群服务器中某台云计算服务器设备的指定业务模块异常,包括网页处理模块、用户交互管理模块及用户数据存储模块的异常情况。并且,当一个服务器业务模块异常时,所述感知服务器评估异常风险并报警,使得云计算服务器设备在异常后快速恢复业务,减少对网络造成的影响。
[0034]进一步,设备感知服务器12对感知的异常情况报文进行判断,并分别根据异常服务器的功能及异常模块的类型做出相应的异常情况恢复和操作处理。同时解决了现有技术中当服务器模块中的一个业务模块出现异常时,其他模块无法感知的问题。
[0035]对大规模集群方式的云计算服务器组来说,感知其中一台服务器设备的指定业务模块异常非常重要。通常,云计算服务器包括网页处理模块、用户交互管理模块以及用户数据存储模块。当其中一个业务模块出现异常时,其他模块无法感知。本发明中,通过设置第三方的设备感知服务器12,当一个服务器出现一个模块异常时,由第三方监控设备设备感知服务器对其进行感知,评估异常风险并报警,使得云计算服务器设备在异常后快速恢复业务。当服务器设备异常时,通常是无法快速感知的,都是通过系统自动超时唤醒异常中断来重启设备,此时间较长,本发明通过第三方实时监测来快速恢复集群设备的工作能力。
[0036]优选的,设备感知服务器12通过TCP/IP网络和集群服务器或备份服务器相连接,该设备感知服务器除具有一般服务器的功能外,主要作用是对集群服务器状态进行监测。
[0037]图2显示了本发明的云计算集群服务器状态监控方法的流程示意图。
[0038]如图2所示,本发明的云计算集群服务器状态监控方法包括下述步骤:
[0039]流量检查步骤SI,所述设备感知服务器定时比如每20秒统计每个服务器的发送报文和接收报文的数量都正常时,继续定时统计;当所述设备感知服务器在一定时间内比如5-10秒,优选5秒统计到只有发送报文或者只有接收报文时,或者没有报文发送和接收时,所述设备感知服务器根据报文格式发送查询状态请求报文给集群服务器;
[0040]异常检测步骤S2,当集群服务器接收到所述设备感知服务器的查询状态请求报文后,对报文进行解析,根据查询状态请求报文的类型对本服务器的指定业务模块进行检查,并应答设备感知服务器的查询状态请求报文,应答内容为本服务器的业务模块状态信息;
[0041]异常处理步骤S3,所述设备感知服务器对收到的业务模块状态信息报文进行解析,并依此报文判断此服务器设备是否异常,再根据此服务器设备所处的功能是主服务器还是备份服务器来做出相应的判断处理。
[0042]图3显示了本发明的状态监控方法中的异常处理流程示意图。
[0043]参考图3,如图3所示,在异常处理步骤中,在所述设备感知服务器根据收到的业务模块状态信息报文判断主服务器模块异常的情况下,如果异常的模块为非数据模块,则发送报文通知异常服务器设备重启异常模块。
[0044]在异常处理步骤中,在所述设备感知服务器根据收到的业务模块状态信息报文判断主服务器模块异常的情况下,如果异常模块为数据模块,说明数据损坏,需要快速进行数据恢复,则发送重启消息报文给异常服务器设备,并激活备份服务器设备。
[0045]在异常处理步骤中,在所述设备感知服务器根据收到的业务模块状态信息报文判断备份服务器模块异常的情况下,则只对备份数据发送重启消息。
[0046]在上述步骤S1-S3的操作均完成后,则返回步骤SI中。
[0047]本发明的云计算集群服务器状态监控系统和方法,包括一个设备感知服务器,此设备感知服务器用来做集群服务器和备份服务器的异常感知设备,当一个服务器业务模块异常时,所述设备感知服务器通过判断服务器设备是否有流量,是否在正常处理报文,评估异常风险并做出相应动作,保证服务器设备在异常后快速恢复业务。
[0048]通过上述操作,由于设备感知服务器定时监测集群服务器的状态信息,从而设备感知服务器只需根据状态信息报文的有无及统计情况便可判断各个服务器有无异常,因此在服务器设备异常后,能够快速检测出异常,具有快速检测服务器设备中指定的业务模块异常的功能,因此减少了异常检测时间。
[0049]另外,在服务器设备异常后,根据判断出现异常的具体情况来决定具体的异常处理及恢复办法。例如,在所述设备感知服务器根据收到的业务模块状态信息报文判断主服务器模块异常的情况下,如果异常的模块为非数据模块,则发送报文通知异常服务器设备重启异常模块;在所述设备感知服务器根据收到的业务模块状态信息报文判断主服务器模块异常的情况下,如果异常模块为数据模块,说明数据损坏,需要快速进行数据恢复,则发送重启消息报文给异常服务器设备,并激活备份服务器设备。服务器的异常对于网络用户而言,就是掉线,因此监测服务器的状态并快速处理异常情况对于用户而言,不会因为等待时间长而造成困扰。缩短业务恢复时间,不会因重启时间长或需要人为重启导致用户断网时间长,设备异常后能迅速恢复正常。总而言之,本发明中,根据异常的具体情况具体分析,缩短设备异常后的恢复时间。对于云计算服务器的使用带来了很多便利。
[0050]应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
【权利要求】
1.一种云计算集群服务器状态监控系统,包括: 集群服务器(10),包括多个云计算服务器(1,2,3); 备份服务器(11),连接到集群服务器(10)的多个云计算服务器,用于对该多个云计算服务器的数据进行备份; 设备感知服务器(12),连接到所述集群服务器(10)和备份服务器(11 ),用于感知集群服务器(10)和备份服务器(11)的异常情况。
2.根据权利要求1所述的云计算集群服务器状态监控系统,所述设备感知服务器(12)感知集群服务器(10)中某台云计算服务器的业务模块异常,当该云计算服务器的某个业务模块异常时,所述感知服务器(12)评估异常风险并报警。
3.根据权利要求2所述的云计算集群服务器状态监控系统,所述设备感知服务器(12)感知的业务模块包括网页处理模块、用户交互管理模块及用户数据存储模块。
4.根据权利要求2所述的云计算集群服务器状态监控系统,所述设备感知服务器(12)对感知的异常情况报文进行判断,并根据异常服务器的功能及异常模块的类型做出相应的异常情况恢复和操作处理。
5.一种云计算集群服务器状态监控方法,包括如下步骤: 流量检查步骤,所述设备感知服务器对每个服务器的发报文和收报文进行统计,当在一定时间内只有发送报文或者接收报文时,或者没有报文时,所述感知服务器发送状态请求报文; 异常检测步骤,当集群服务器接收到所述设备感知服务器的状态请求报文后,根据状态请求报文的类型对本服务器的指定业务模块进行检查,并返回业务模块状态; 异常处理步骤,所述设备感知服务器判断此所述服务器设备是否异常,再根据服务器设备所处的功能是主服务器还是备份服务器来做出相应的判断处理。
6.根据权利要求5所述的云计算集群服务器状态监控方法,其中所述异常处理步骤中,在所述设备感知服务器判断主服务器模块异常的情况下,如果异常的模块为非数据模块,则通知异常服务器设备重启异常模块。
7.根据权利要求5所述的云计算集群服务器状态监控方法,其中所述异常处理步骤中,在所述设备感知服务器判断主服务器模块异常的情况下,如果异常的模块为数据模块,说明数据损坏,需要快速进行数据恢复,则发送重启消息给异常服务器设备,并激活备份服务器设备。
8.根据权利要求5所述的云计算集群服务器状态监控方法,其中所述异常处理步骤中,在所述设备感知服务器判断备份服务器异常的情况下,则只对备份数据发送重启消息。
【文档编号】H04L12/24GK103475696SQ201310372875
【公开日】2013年12月25日 申请日期:2013年8月23日 优先权日:2013年8月23日
【发明者】康暖 申请人:汉柏科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1