机群操作系统高可用内核系统及其构造方法

文档序号:6420954阅读:154来源:国知局
专利名称:机群操作系统高可用内核系统及其构造方法
技术领域
本发明涉及计算机系统技术领域,特别涉及机群操作系统高可用内核系统及其构造方法。
背景技术
机群自问世以来,以其良好的可扩展性和富有竞争力的性能/价格比迅速成为高性能计算的主流体系结构,其应用也遍布因特网服务、数据库服务等商业领域。
机群操作系统建立在结点操作系统基础之上,为普通用户、软件开发者和系统管理员提供单一系统映像支撑,是机群最基本的系统软件集。早期研制的机群操作系统软件基本上是独立、分离的,各软件只实现一个或有限的几个功能,如作业管理软件、系统监控软件等。当用这些软件构造机群服务器时,会导致如下问题的出现●功能冗余,系统庞杂,效率低●各软件难以实现彼此的互操作●缺少一致的系统概念,各软件间有不一致情况出现●缺少通用性上述问题在Beowulf系统(通过网络把计算机连接起来,形成机群,它的性能可比大型计算机,但是花费只有大型计算机的一小部分。美国宇航局的科学家于1994年最先创造了这样一个系统,他们把它命名为Beowulf。)上表现得最为明显。Beowulf就是商品化组件加上开发源代码的机群功能软件,它是多个独立的机群功能软件的简单“收集”和“堆砌”,彼此间难以互操作,不是一个集成的、一体化的机群操作系统软件。
这种通过多个子系统堆集的机群功能软件的引导、运行和维护依赖于系统管理员的大量时间的观察、需要长时间的经验积累,方可使系统高效而不出错的运行。尤其在大规模机群操作系统引导过程中,因为多个子系统建立在成百上千个节点操作系统的基础上。系统成功地引导基本上依赖于系统管理员的经验,这使得系统管理员不仅要记住很多复杂的命令,而且要保证系统引导的正确性,而这种正确性只能通过试错法得到保障。
在系统运行过程中,需要系统管理员不断介入,了解机群各个节点的运行状态、网络状态以及分散在各个节点上的子系统精灵程序(Daemon)的状态。系统程序员只有不断了解各种状态,采取正确的措施,整个机群系统才能正确的运行。如实时的监测节点的状态,在节点死亡后,重起节点以及节点上的精灵程序。因此高可用性是机群系统的一个重要要求。
一个高可用的机群操作系统要求自身是高可靠的同时,必需能在机群系统失效时及时探测和修复失效。机群系统的失效主要包括应用失效、节点失效和网络失效。应用的失效需要应用本身提供失效的处理,而如果机群操作系统能够及时提供节点失效和网络失效信息,应用从而能对失效情况做一个完整的判断。因此,在机群操作系统中实现及时的节点运行状态和节点网络状态的探测,可以为上层模块提供可靠而及时的失效信息,从而保证机群操作系统是高可靠的。当系统出现故障时,系统管理员能够及时的获取故障信息,并分析故障原因,有利于及时排除故障。位于机群操作系统之上的应用程序可以及时的得知失效信息,并利用自己的失效处理机制,进行必要的处理,保证应用的正常执行。
无论是从系统实现还是从系统管理的角度来说,机群操作系统都需要有一个高可用内核系统,它覆盖了机群操作系统核心的最小功能子集,并且提供统一而标准的接口给上层子系统使用。现有的机群操作系统缺少一个高可用的内核,而停留在多个子系统的堆积和叠加上,结果导致功能冗余、效率较低,缺少一种有效的容错(fault-tolerant)机制保证机群系统长时间的运行,而过多地依赖于系统管理员的工作。而系统管理员可能因为失误或者判断错误,而在系统中引入新的错误。这限制了机群系统在对可靠性要求较高的商业环境中的应用。

发明内容
本发明的目的是设计机群操作系统高可用内核系统及其构造方法,实现机群操作系统高可用内核的自主引导,为机群操作系统提供一种容错的运行机制,从而降低系统管理的复杂性,减轻系统管理员的负担。本发明的具体方案如下机群操作系统内核是机群操作系统的核心部分,本方法构造的机群操作系统高可用内核包括侦测服务装置、组服务装置、事件管理装置、高可用服务装置、配置服务装置五个装置组成。
本发明提出了机群操作系统高可用内核系统及其构造方法,高可用内核系统包括侦测、组服务、事件管理、高可用服务、配置服务这五个服务装置。侦测服务装置提供了机群范围内一致的结点死活、网络连通度以及应用状态信息;组服务装置本身形成组,它基于侦测服务装置提供的信息,进行自身的日常性的高可用管理,并且向上层应用组提供创建服务组、备份以及相应的通信支持。事件管理服务装置基于组服务装置创建,它提供了事件产生者和消费者的注册、事件的过滤、事件的发送。高可用服务装置负责特定服务的探测,并且在服务失效后重起它。在机群引导过程中,组服务装置和侦测服务装置依次通过配置服务装置提供的接口获取基本信息后启动,启动成功后向配置服务装置发送成功启动的消息。此后,在组服务装置基础上创建的事件管理服务装置启动。在事件管理服务装置成功启动后,高可用服务装置完成自身的启动。配置服务装置在获得事件管理服务装置成功启动的消息后,开始向高可用服务装置发送注册请求,直到注册成功,自身变为高可用服务,自此机群高可用内核完成了自动引导。
本发明的效果体现在机群操作系统高可用内核结构清晰,功能划分明确,易于实现和保证正确性;该方法构造的机群操作系统高可用内核具有高可靠性;该方法实现了内核的自动引导,提高了机群操作系统的自主性和灵活性,较轻了系统管理员的负担。


图1是本发明的机群操作系统高可用内核系统结构图。
图2是本发明的事件管理服务装置的工作机制图。
图3是本发明的配置服务装置的工作机制示意图。
图4是本发明的组服务装置和侦测服务装置的启动过程示意图。
图5是本发明的侦测服务装置和组服务装置启动成功后的示意图。
图6是本发明的事件管理服务装置的启动过程示意图。
图7是本发明的事件管理服务装置启动成功后的示意图。
图8是本发明的配置服务装置向高可用服务装置注册,完成角色转换过程的示意图。
图9是本发明的机群高可用内核的引导过程示意图。
具体实施例方式
图1中,机群操作系统内核是机群操作系统的核心部分,机群操作系统高可用内核系统包括侦测服务装置1、组服务装置2、事件管理服务装置3、高可用服务服务装置4以及配置服务装置5五个部分。侦测服务装置1提供了机群范围内一致的结点死活、网络连通度以及进程状态信息,是机群操作系统的基础,这个装置能够准确的探测失效,并针对失效区分节点失效、网络不通、进程死亡三种情况,为机群高可用内核和高可用应用的开发提供基础。组服务装置2本身形成组,它基于一致的结点死活和网络连通度信息,进行自身的日常性的高可用管理,并且向上层应用组提供创建服务组、备份以及相应的通信支持。事件管理服务装置3基于组服务装置创建,它提供了事件产生者和消费者的注册、事件的过滤、事件的发送,通过事件管理服务装置3可以及时把失效事件通知上层模块。高可用服务装置4负责特定服务(如配置服务装置5)的探测,并且在服务失效后重起它。
图2中,带箭头的虚线表示事件类型注册,对于事件提供者来说,就是产生的事件类型的注册,对于事件消费者来说,就是感兴趣的事件类型。带箭头的实线表示推送事件,对于事件提供者来说,是将事件推送到事件管理服务装置3,对于事件管理服务装置来说,是将事件推送到事件消费者。
事件管理服务装置3基于组服务装置创建,它提供了事件产生者和消费者的注册、事件的过滤、事件的发送,通过事件管理服务装置3,组服务装置2可以及时把失效事件通知上层模块。
图3中,配置服务装置5在机群操作系统引导成功后,通过向高可用服务装置注册,变成高可用服务后,长时间地向其他子系统提供机群配置信息。但是在机群启动之初,配置服务装置5有特殊的作用,本方法通过配置服务装置实现机群高可用内核的引导。
机群启动时,配置服务装置5通过数据库6读取相关的数据库文件,将物理分区信息存入内存7。
图4中,机群高可用内核的组服务装置2以及侦测服务装置1通过配置服务装置5提供的接口获取信息而启动,启动成功后给配置服务装置5发送成功消息。
图5中,是组服务装置2和侦测服务装置1启动成功后的示意图。D(Detector的简称)是侦测服务装置1,gsd(group service daemon的简称)是组服务装置2。侦测服务装置1定期(每5秒钟一次)通过所有的网络向组服务装置2发送消息包,组服务装置2检查所收到的消息包的时间标记来判断侦测服务装置1所在节点和各套网络的状态。图6中,此后,在组服务装置2基础上创建的事件管理服务装置3启动,事件管理服务装置3启动成功后,向配置服务装置5发送成功启动的消息。
图7中,gsd是组服务装置2,ES是事件管理服务装置3。图7是在组服务装置2的基础上创建事件管理服务装置3应用组成功后的物理部署图。组服务装置2将它管理的节点状态和网络状态传送给事件管理服务装置3,而事件管理服务装置3也定期(每5秒钟一次)向组服务装置2发送消息包,组服务管理装置2通过检查事件管理服务装置3发送的时间标记来判断事件管理服务装置3的状态,如果它失效,则在该节点上重起。
图8中,配置服务装置5在获得事件管理服务装置3成功启动的消息之后,即向高可用服务装置4发送注册为高可用服务的请求,如果收到注册成功的返回信息,则整个机群操作系统的高可用内核引导成功。如果收到的是注册出错的返回信息,配置服务装置5认为高可用服务装置4尚未就绪,间隔一段时间重发请求,直到返回注册成功为止。至此,机群高可用内核完成了自动引导,在此基础上的机群系统软件和充分利用机群特性的商业应用软件得到了稳定的高可用支持。同时,配置服务装置5本身也实现了从启动引导角色到高可用服务角色的自动转换。
图9中,描述了机群高可用内核由不稳定状态变为稳定状态的引导过程的流程图步骤1启动配置服务装置5,系统管理员创建配置信息;步骤2启动组服务装置2,获取基本配置信息,成功后向配置服务装置报告;步骤3在组服务装置2的基础上,启动侦测服务装置1,获取基本配置信息,成功后向配置服务装置报告;步骤4在组服务装置2的基础上,创建事件管理服务装置3组,获取基本配置信息,成功后向配置服务装置报告;步骤5在事件管理服务装置的基础上,启动高可用服务装置4,获取基本配置信息,成功后向配置服务装置报告;步骤6高可用服务装置4启动成功后,配置服务装置5向高可用服务装置4注册为高可用服务;步骤7配置服务装置5向高可用服务装置4成功注册为高可用服务后,机群高可用内核变为稳定状态。
权利要求
1.一种构造机群操作系统高可用内核的方法,将高可用内核分为侦测、组服务、事件管理、高可用服务、配置服务这五个服务装置,其特征在于,在高可用内核引导过程中,高可用内核根据组服务、侦测、事件管理以及高可用服务的先后次序,依次通过配置服务装置提供的接口获取基本信息,完成启动;在四个服务装置完成引导后,配置管理服务装置向高可用服务装置注册,注册成功后配置服务装置完成角色转换,机群高可用内核从不稳定状态变为稳定状态。
2.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于,定义了机群操作系统高可用内核的概念。
3.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于,定义了机群操作系统高可用内核的层次结构。
4.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于将高可用内核分为侦测、组服务、事件管理、高可用服务、配置服务这五个服务装置。
5.如权利要求1所述的构造机群操作系统高可用内核引导方法,其特征在于定义了机群操作系统高可用内核的服务装置之间的相互关系。
6.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于,侦测服务装置提供了机群范围内一致的结点死活和网络连通度以及应用状态信息;
7.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于,组服务装置本身形成组。
8.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于,组服务装置基于侦测服务装置提供的信息,进行自身的日常性的高可用管理
9.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于,组服务装置向上层应用组提供创建服务组、备份以及相应的通信支持。
10.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于事件管理服务装置基于组服务装置创建。
11.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于,事件管理服务装置提供了事件产生者和消费者的注册、事件的过滤、事件的发送。
12.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于高可用服务装置基于事件管理服务装置创建。
13.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于,高可用服务装置负责特定服务的探测,并且在服务失效后重起它。
14.如权利要求1所述的机群操作系统高可用内核引导方法,其特征在于配置服务装置为整个机群提供了主动智能的信息服务。
15.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于配置服务装置在机群操作系统高可用内核中的特殊地位,即机群启动过程中的引导地位和机群稳定运行时的高可用服务提供者地位。
16.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于定义了高可用内核的引导次序依次为组服务、侦测、事件管理以及高可用服务。
17.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于在高可用内核引导过程中,定义了每个引导过程的前提条件,如事件管理服务装置引导的前提条件是组服务装置的引导成功。
18.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于组服务、侦测、事件管理以及高可用服务装置完成引导后,配置管理服务装置向高可用服务装置注册申请成为高可用服务。
19.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于定义了机群引导过程成功的临界点。
20.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于配置管理服务装置注册成功为高可用服务之后,机群成功完成引导,可用内核从不稳定状态变为稳定状态。
21.如权利要求1所述的构造机群操作系统高可用内核的方法,其特征在于机群引导过程成功的临界点是配置管理服务完成高可用服务注册。
22.如权利要求1所述的机群操作系统高可用内核引导方法,其特征在于配置服务装置在机群运行的过程中扮演不同的角色。
23.如权利要求1所述的机群操作系统高可用内核引导方法,其特征在于配置服务装置本身在高可用内核引导成功前后的角色自动转换。
24.如权利要求1所述的机群操作系统高可用内核引导方法,其特征在于配置服务装置在高可用内核引导成功前扮演引导角色。
25.如权利要求1所述的机群操作系统高可用内核引导方法,其特征在于配置服务装置在高可用内核引导成功后扮演高可用服务提供者角色。
26.一种构造机群操作系统高可用内核系统,机群操作系统由高可用内核的侦测服务装置、组服务装置、事件管理服务装置、高可用服务装置装置、配置服务装置组成,其中,侦测服务装置用于提供了机群范围内一致的结点死活、网络连通度以及应用状态信息; 组服务装置,基于侦测服务装置提供的信息,进行自身的日常性的高可用管理,并且向上层应用组提供创建服务组、备份以及相应的通信支持;事件管理服务装置,用于组服务装置创建,提供事件产生者和消费者的注册、事件的过滤、事件的发送;高可用服务装置,用于负责特定服务的探测,并且在服务失效后重起,配置服务装置,用于通过数据库读取相关的数据库文件,将物理分区信息存入内存,其特征在于,配置服务装置连接于高可用服务装置,而侦测服务装置连接于组服务装置和配置服务装置,组服务装置连接于事件管理服务装置和配置服务装置,事件管理服务装置连接于高可用服务装置装置。
27.一种构造机群操作系统高可用内核系统的方法,其步骤如下步骤1启动配置服务装置5,系统管理员创建配置信息;步骤2启动组服务装置2,获取基本配置信息,成功后向配置服务装置报告;步骤3在组服务装置2的基础上,启动侦测服务装置1,获取基本配置信息,成功后向配置服务装置报告;步骤4在组服务装置2的基础上,创建事件管理服务装置3组,获取基本配置信息,成功后向配置服务装置报告;步骤5在事件管理服务装置的基础上,启动高可用服务装置4,获取基本配置信息,成功后向配置服务装置报告;步骤6高可用服务装置4启动成功后,配置服务装置5向高可用服务装置4注册为高可用服务;步骤7配置服务装置5向高可用服务装置4成功注册为高可用服务后,机群高可用内核变为稳定状态。
全文摘要
一种构造机群操作系统高可用内核的方法,将高可用内核分为侦测、组服务、事件管理、高可用服务这四个服务装置。在高可用内核引导过程中,高可用内核根据组服务、侦测、事件管理以及高可用服务的先后次序,依次通过配置服务装置提供的接口获取基本信息,完成引导;在四个服务装置完成引导后,配置管理服务装置向高可用服务装置注册,注册成功后配置服务装置完成角色转换,机群高可用内核从不稳定状态变为稳定状态。采用该方法构造的机群操作系统内核具有高可靠性,由于实现了内核的自动引导,提高了机群操作系统的自主性和灵活性,减轻了系统管理员的负担。
文档编号G06F9/445GK1545027SQ20031011838
公开日2004年11月10日 申请日期2003年11月25日 优先权日2003年11月25日
发明者詹剑锋, 韦华颖, 陈熠, 刘建华, 孟丹 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1