一种执行环境的管理方法、装置及系统的制作方法

文档序号:7925716阅读:118来源:国知局
专利名称:一种执行环境的管理方法、装置及系统的制作方法
技术领域
本发明涉及通信技术领域,尤其涉及一种执行环境的管理方法、集群系统 平台管理子系统和执行环境管理实体。
背景技术
当今电信系统多采用计算集群(Computer Cluster)的方式作为核心控制 设备,如CPCI、 ATCA等刀片式服务架构。通常计算集群环境中采用分布式的 方式进行业务的部署,如图l所示,为计算集群的逻辑模块示意图, 一般包含 网络管理Agent (Network Management Agent)、 高可用性(HA , High Availability)管理子系统,软件管理(Software Management)子系统,平 台管理(PLM, Platform Management)子系统,业务模块(Application), 其中,网络管理Agent负责接收或者返回网络管理者发出的命令,并返回设备 的故障信息,用以故障定位和修复;HA管理子系统负责集群环境中的冗余和 业务倒换等管理,保证业务能不受软硬件故障而停止;软件管理子系统负责集 群中的软件版本和软件包管理,控制软件升级过程;PLM负责实时监控和发现 硬件资源的状态和故障,以及执行硬件的修复、重启等管理操作,例如,PLM 发现硬件故障后通知HA管理中间件处理;且PLM平台管理子系统通过外部连 接硬件管理hardware Management子系统来实现不同平台的石更件资源管理。目 前的PLM通常包含两种资源,即执行环境(EE, Execution Environment)资 源、硬件实体(HE, Hardware Entity)资源(如单板,传感器,看门狗等), 其中执行环境EE对应集群环境中一个成员(即业务模块所在的单板)的操作 系统,硬件实体HE对应HPI中的硬件资源实体;
发明人在实现本发明的过程中,发现随着技术的发展,尽管电信操作系统由过去以嵌入式操作系统为主逐渐转化成以服务器式操作系统为主,但是目
前的PLM仍然无法有效管理执行环境EE资源,例如现有的PLM无法感知所 管理的EE的状态变化。

发明内容
本发明实施例提供一种执行环境的管理方法、平台管理子系统、执行环境 管理实体和集群系统,以实现能感知执行环境EE的状态变化。
本发明实施例提供如下技术方案
一种集群系统,包括平台管理子系统和至少一个l丸行环境管理实体,
所述执行环境管理实体,用于根据维护的计算资源CR对象信息,监控对 应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化 时,向所述平台管理子系统上报相应的状态变化事件报文;
所述平台管理子系统,用于根据该状态变化事件报文中的状态变化信息以 及预设的第一处理策略,向对应的执行环境管理实体发送相应的管理命令。
以及, 一种平台管理PLM子系统,包括
第一通信模块,用于接收执行环境管理EEM实体上报的状态变化事件报 文,所述状态变化事件报文包含状态变化信息,以及向对应的执行环境管理实 体发送相应的管理命令;
第一处理才莫块,用于根据预设的第一处理策略和所述状态变化信息确定待 发的管理命令,通过所述第一通信模块向对应的执行环境管理实体下发所述管 理命令。
以及, 一种执行环境管理EEM实体,包括
监控模块,用于根据维护的计算资源CR对象信息,监控与当前EEM实 体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生 变化时,通过第二通信模块发送相应的状态变化事件报文;第二通信模块,用于向平台管理PLM子系统上报相应的状态变化事件报 文,所述状态变化事件报文包含状态变化信息。
以及, 一种执行环境的管理方法,所述方法包括
根据维护的计算资源CR对象信息,监控当前执行环境所关联的计算资源 CR对象;
当监控到CR对象的状态发生变化时,向平台管理子系统PLM上报相应 的状态变化事件报文,使得所述平台管理PLM子系统根据预设的第一处理策 略和所述状态变化事件报文下发相应的管理命令。
以及, 一种执行环境的管理方法,所述方法包括
接收执行环境管理EEM实体上报的状态变化事件报文,该状态变化事件 报文包含状态变化信息;
根据该状态变化事件报文中的状态变化信息和预设的第一处理策略,向该 EEM实体下发相应的管理命令。
本发明实施例的集群系统、PLM子系统、EEM实体,以及执行环境的管 理方法中,PLM通过EEM实体监控与当前执行环境EE所关联的计算资源CR, 实现监控执行环境EE (即实现对执行环境EE细粒度的监控),当EEM实体 监控到CR对象的状态发生变化时,向PLM上报相应的事件报文,以实现PLM 能及时感知当前执行环境EE的状态变化。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术的一种集群系统的组网示意图2为本发明实施例涉及的对象模型依赖关系示意图3为本发明实施例提供的CR类示意图4为本发明实施例提供的一种集群系统的逻辑示意图;图5为本发明实施例提供的另一种集群系统的逻辑示意图; 图6为本发明实施例提供的一种集群系统的部署示意图; 图7为本发明提供的平台管理PLM子系统实施例一的结构示意图; 图8为本发明提供的平台管理PLM子系统实施例二的结构示意图; 图9为本发明提供的执行环境管理实体实施例一的结构示意图; 图10为本发明提供的执行环境管理实体实施例二的结构示意图; 图11为本发明提供的执行环境管理实体实施例三的结构示意图; 图12为本发明提供的执行环境管理实体实施例四的结构示意图; 图13为本发明提供的执行环境的管理方法实施例一的流程示意图; 图14为为本发明提供的执行环境的管理方法实施例二的流程示意图; 图15为本发明提供的执行环境的管理方法实施例三的流程示意图; 图16为本发明提供的执行环境的管理方法实施例四的交互示意图; 图17为本发明提供的执行环境的管理方法实施例五的交互示意图; 图18为本发明提供的执行环境的管理方法实施例六的交互示意图; 图19为本发明提供的执行环境的管理方法实施例七的流程示意图; 图20为本发明提供的执行环境的管理方法实施例八的流程示意图; 图21为本发明提供的执行环境的管理方法实施例九的交互示意图; 图22为本发明提供的执行环境的启动方法实施例一的流程示意图。
具体实施例方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有的平台管理(Platform Management、 PLM)子系统与执行环境 (Execution Environment, EE)之间由于其异构性不能直接进行管理的现状, 本发明实施例提供一种4丸行环境管理(Execution Environment Managements EEM)实体,平台管理(Platform Management, PLM)子系统,以及一种在集
9群系统中管理执行环境的方法,来统一对不同的执行环境EE进行管理,这里 不同的执行环境EE可以包括不同构架的操作系统(如Linux与Vxworks ), 不同版本的搡作系统(如Linux2.4、 Linux2.6 ),操作系统和虚拟化系统之间等, 应当理解的是:执行环境EE指能够为中间件和应用程序提供执行环境的实体, 如操作系统OS,或者虚拟机等;相应的,本发明实施例还提供一种集群系统;
需要说明的是为了便于后续描述,将平台管理PLM子系统简称为PLM, 将执行环境管理EEM实体简称为EEM,将执行环境EE简称为EE;
本发明实施例中,通过引入执行环境管理EEM实体与平台管理PLM子 系统通信以实现感知执行环境EE的状态变化;EEM实体通过监控与当前执行 环境EE所关联的计算资源(Computing Resource, CR),实现监控执行环境 EE (即实现对执行环境EE细粒度的监控),当监控到CR对象的状态发生变 化时,向PLM上报相应的事件报文,以实现PLM能及时感知当前执行环境 EE的状态变化。
本发明实施例中,在PLM中引入计算资源(Computing Resource、 CR) 的概念。CR概念的层次在EE之下,从对象角度,EE依赖CR的状态,CR 故障则EE故障,CR是EE的自对象;EE依赖于特定的CR来为上层的组件 环境和应用程序提供必要的执行资源。CR在不同的硬件环境下包含CPU、 内存、存储资源、网络适配器、其他IO资源等。在一种实现下,计算资源CR 可以包括
基本计算资源CPU占用率,磁盘占用率,内存占用率,网口使用率等; 在另一种实现下,计算资源CR可以包括
本地计算资源其包括虚拟的计算资源,如内核模块,进程;以及,物理 计算资源,如网络适配器;
计算资源的使用状态如CPU占用率,磁盘占用率,内存占用率。应当 理解的是前述为例,计算资源CR的划分不限于此。
请参阅图2,为本发明实施例涉及的对象模型依赖关系示意图,如图2所
示,HPI Domain是指HPI模块范畴的,HPI Entity是HPI范畴内的管理对象
类;
Cluster Domain是指集群管理模块的范畴,而Cluster Member集群成员则 是其管理的对象类。
中间较为详细的部分都是平台管理范畴的管理对象类;
PLMEntity是所有CR、 HE和EE对象的父类,主要用于集中管理所有对 象,简化存储和查询过程,没有实际的意义,主要功能都是子类来提供;
HE类是硬件资源抽象,例如单板等,是映射硬件管理的对象,与HPI 的HPI Entity--对应。
EE类是执行环境的抽象类,例如Linux OS,虚拟机等,它依赖于一个 或多个HE。 EE类因存在Host方式的虚拟化环境,可能存在EE与EE的依赖 关系。
CR是EEM领域的对象,可以理解的是EEM可以是PLM外部扩展模块, CR类是EE类的细化抽象类,主要代表系统资源下的其他小资源,例如内 核模块,系统服务,CR是用来细化EE的管理粒度而抽象的对象,EE类依赖 CR类。CR类支持自己再细化,所以存在CR与CR方式的依赖关系。
请参阅图3,为本发明实施例涉及的CR类示意图,其中,CR资源的状
态和信息就抽象成CR对象的属性,CR资源操作就抽象成CR对象的方法;
如图3所示,在一种实现下,CR对象属性包括
CR的名字,CR的唯一标识;
CR的类型,标志此CR属于何种类型;
CR的就绪状态,标志CR是否能正常工作;
CR的在位状态,标注CR是不是己经启动,与CRReadinessState 的区别为检査是否存在而不是能不能正常工作; CR出现故障后的默认修复策略,可以配置成复位、修复、重新实 例化等。
CR通知级别,关键、重要、 一般、较低等,关键故障在修复上一 般采取隔离EE重新启动;
CRN柳e: CRType:
CRReadinessState: CRPresenceState:
CRDefaultPolicy:
CRNotificationLevel:
11在一种实现下,CR对象方法包括:
CR—INSTANTIATION: CR—UNINSTANTIATION: CR_HEALTHCHECK:
CR—REPAIRE: CR RESET:
实例化该CR管理对象;
销毁该CR的管理对象;
CR的健康状态检査; 一般有EEM定时执行,校验失败将产生故障
Notification上报。 CR出现故障的修复方法; CR的复位方法;
请参见图4为本发明实施例提供的一种集群系统的示意图,如图4所示, 本发明实施例的集群系统包括平台管理PLM子系统200和执行环境管理 EEM实体300 ( EEM实体可以理解为EEM模块),集群系统中一般包括至少 两个集群成员,每个集群成员 一般包含至少一个执行环境EE(如OS ),而EEM 与执行环境EE对应,应当理解的是本发明实施例集群系统可以包括一个或 多个EEM实体300,每个EEM实体300对应一个EE400,这里的EE400包 括操作系统0S、虚拟才几等;PLM200通过EEM300对相应的执行环境、计算资源 CR进行管理,这里的管理可以包括升级、故障检测、故障修复或重启等; 应当理解的是从对象角度,EEM实体300管理的对象是计算资源CR,而执 行环境EE依赖CR;
其中,EEM300,用于根据维护的计算资源CR对象信息,监控对应的执 行环境EE所关联的计算资源CR对象,在监控到CR对象的状态发生变化, 向PLM200上报相应的事件报文,所述事件报文包含状态变化信息;
其中,这里的计算资源CR对象信息,在一种实现下,可以是CR对象表, 该CR对象表可以包含从当前EEM300对应的EE抽象出的每个CR对象的属 性信息和方法信息;以及,这里的状态变化信息,例如EE故障类型信息、EE 故障级别信息和/或故障附加信息;
在一种实现下,可以将CR类型(CRType)与EE故障类型进行映射,如 关键进程或关键模块故障映射成EE核心部件故障;CPU占用率超过阈值事件, 内存占用率超过阈值事件,或网口流量超过阈值事件映射成EE基本部件故障;
以及,可以将CR通知级别(CRNotificationLevel)与EE故障级别进行映射,如EE故障级别信息表示关键故障、重要故障、 一般故障等。
在一种实现下,EEM300为第一EEM,用于根据维护的计算资源CR对象 信息,监控对应的执行环境EE所关联的计算资源CR对象,在监控到CR对 象的状态发生变化,获得与所述CR对象状态变化对应的EE状态变化信息, 向所述平台管理子系统上报相应的状态变化事件报文,所述报文中包含EE状 态变化信息。
以及,PLM200,用于根据该事件报文中的状态变化信息以及预设的第一 处理策略,向对应的EEM300下发相应的管理命令;在一种实现下,这里的 第一处理策略可以理解为EE故障恢复策略,PLM中保存有EE故障恢复策略; 这里的管理命令包括但不限于锁定Lock、解锁Unlock、关闭Shutdown、启 动start、重启Restart和修复Repair等。其中,Lock命令用于使EE停止提供 服务,停止应用程序的运行,但可以运行EEM程序;Unlock命令用于使EE 重新开始提供服务;Shutdown命令用于关机,比如,在检测到设备温度过高 时,PLM下发关机命令)Restart命令用于使EE重新启动;在重启过程中, 可进行启动配置校-睑。Repair命令用于指EE已经准备好重新进入服务态,在 此之前要重新评估原先造成EE失效的状态。
以及,本发明实施例集群系统中,EEM300进一步用于接收并执行PLM200 下发的管理命令,从而实现相应的操作,如重启操作系统、锁定操作系统、或 修复故障等。这里的管理命令包括与所述上报的事件报文对应的管理命令, 或由平台管理PLM用户触发PLM200所发出的管理命令。
以及,为了实现通过PLM直接管理EE,本发明实施例集群系统中, PLM200,进一步用于根据PLM用户发出的操作信息,向该操作信息关联的 EE所对应的EEM实体下发相应的管理命令,并接收该EEM实体返回的处理 结果信息。这里的操作信息,如脚本,其中描述了被操作的对象,表示进行 何种操作的信息等。
请参见图5为本发明实施例提供的另一种集群系统的示意图,如图5所示, 与图4的区别在于,本发明实施例的集群系统进一步可以包括硬件资源管理 HPI400,用于管理集群系统中的硬件资源HE Entity,例如单板资源,单板
13上的传感器,单板上的子卡资源等;应当理解的是从对象角度,EEM实体 300管理的对象是计算资源CR,而执行环境EE依赖CR;
可见,本发明实施例的集群系统中通过PLM接收到EEM实体在监控到 CR对象的状态发生变化时所上报的事件报文,以实现PLM能及时感知当前 执行环境EE的状态变化;
以及,通过PLM接收事件报文后,向对应的EEM300下发相应的管理命 令,由EEM300执行管理命令完成相应的操作(如修复故障,或重新加载某 个故障的内核模块),以克服现有嵌入式操作系统中, 一旦应用程序和操作系 统本身两者中一个出现问题,都必须重启系统的问题;
进一步的,本发明实施例的集群系统中通过PLM在收到PLM用户发出 的操作命令后,向该操作命令关联的EE对应的EEM下发管理命令,以及接 收事件报文后,向对应的EEM300下发管理命令,克服了现有的平台管理 (Platform Management、 PLM)子系统与执行环境(Execution Environment EE)之间由于其异构性不能直接进行管理的缺陷,从而通过PLM与EEM实 体的通信实现了统一、集中的对不同执行环境EE进行管理,使PLM拥有跨 OS类型、OS版本、不区分OS还是虚拟机环境等关键特性。
请参见图6为本发明实施例提供的一种计算集群系统的部署示意图,如图 4所示,机框500包括单板501、单板502和单板503;其中,单板503上部 署有平台管理PLM子系统200以及操作系统OS 401;单板501上部署有执行 环境管理EEM实体300以及操作系统OS 402,这里的EEM300与OS 402相 关联;单板502上部署有执行环境管理EEM实体300以及操作系统OS 403, 这里的EEM300与OS 403相关联;并且,单板501、 502上部署的EEM300 与部署在单板503上的PLM200通信以实现管理OS。应当理解的是单板503 为管理单板,单板501、 502为业务单板。
请参见图7为本发明提供的平台管理PLM子系统实施例一的结构示意图, 本发明实施例PLM通过EEM可以管理执行环境EE、计算资源CR,用于根 据所接收的EEM上报的事件报文中的状态变化信息以及预设的第一处理策
14略,向对应的EEM下发相应的管理命令;如图5所示,本发明实施例平台管 理PLM子系统包括
第一通信模块203,用于接收来自EEM实体上报的状态变化事件报文, 所述事件报文包含状态变化信息,以及向对应的EEM下发相应的管理命令;
第一处理模块202,用于根据预设的第一处理策略和所述状态变化信息确 定待发的管理命令,通过第一通信模块203向对应的EEM下发相应的管理命 令。
本发明实施例的PLM中,可以进一步包括对象管理模块201,用于根 据所述状态变化事件报文中的状态变化信息,维护上报所述状态变化事件报文 的EEM实体所对应的执行环境EE对象。应当理解的是对象管理模块201 查找并维护所有管理对象的状态,这里的管理对象包括EE对象、HE对象、 PLM Entity对象等;并且,EEM实体可以通过注册/注销等影响PLM中EE对 象的状态。
以及,本发明实施例的PLM中,可以进一步包括转发模块204,用于 根据来自PLM用户发出的操作信息,从对象管理模块201中找到与所述操作 信息关联的EE对象,通过第一通信模块203将相应的管理命令发送给与所述 EE对象对应的EEM实体;
可见,本发明实施例的PLM子系统通过接收到EEM实体上报的事件报 文,以实现PLM能及时感知当前执行环境EE的状态变化;
以及,通过PLM接收事件报文后,向对应的EEM下发相应的管理命令, 由EEM执行管理命令完成相应的操作(如修复故障,或重新加载某个故障的 内核模块),以克服现有嵌入式搡作系统中, 一旦应用程序和操作系统本身两 者中一个出现问题,都必须重启系统的问题;
进一步的,通过PLM在收到PLM用户发出的操作命令后,向该操作命 令关联的EE对应的EEM下发管理命令,以及接收事件报文后,向对应的 EEM300下发管理命令,克服了现有的平台管理PLM子系统与执行环境EE 之间由于其异构性不能直接进行管理的缺陷,从而使PLM拥有跨OS类型、 OS版本、不区分OS还是虚拟机环境等关键特性。请参见图8为本发明提供的平台管理PLM子系统实施例二的结构示意图, 如图8所示,本发明实施例平台管理PLM子系统包括
第一通信模块213,用于接收来自EEM实体上报的事件报文,所述事件 报文包含状态变化信息,并向对应的EEM下发相应的管理命令,以及接收来 自EEM的校验请求,所述校验请求包含当前EEM对应的EE本地实际配置信 息,并向相应的EEM返回校验结果信息;在一种实现下,这里校验请求为EE 系统启动时,由EEM发送的。
第一处理模块212,用于根据预设的第一处理策略和所述状态变化信息确 定待发的管理命令,通过第一通信模块213向对应的EEM下发相应的管理命
令;
对象管理模块211,用于根据所述状态变化信息,维护上才艮所述状态变化 事件报文的EEM实体所对应的执行环境EE对象;
转发模块214,用于根据来自PLM用户发出的操作信息,从对象管理模 块211中找到与所述操作信息关联的EE对象,通过第一通信模块213将相应 的管理命令(如锁定、重启、解锁命令)发送给与所述EE对象对应的EEM 实体; 以及,配置校验模块215,用于根据所述校验请求,校验EE的实际配置 信息和参照配置信息是否一致,并通过第一通信才莫块213返回校验结果信息。
可见,本发明实施例的PLM子系统通过接收到EEM实体上报的事件报 文,以实现PLM能及时感知当前执行环境EE的状态变化;
以及,通过PLM接收事件报文后,向对应的EEM下发相应的管理命令, 由EEM执行管理命令完成相应的操作(如修复故障,或重新加载某个故障的 内核模块),以克服现有嵌入式操作系统中, 一旦应用程序和操作系统本身两 者中一个出现问题,都必须重启系统的问题;
以及,通过PLM在收到PLM用户发出的操作命令后,向该操作命令关 联的EE对应的EEM下发管理命令,以及接收事件报文后,向对应的EEM300 下发管理命令,克服了现有的平台管理PLM子系统与执行环境EE之间由于 其异构性不能直接进行管理的缺陷,从而使PLM拥有跨OS类型、OS版本、 不区分OS还是虚拟机环境等关键特性;进一步的,通过在EE系统启动时,进行EE配置数据的校验,完善了 EE (操作系统)的启动认证,避免了因出现版本不匹配所造成的业务程序不能正 常运行,对系统的可靠性造成的冲击。
请参见图9为本发明提供的执行环境管理EEM实体实施例一的结构示意 图,本发明实施例EEM实体用于向PLM提供CR资源监控和查询的能力,将 状态变化事件(用于故障通知或区间变化)上报给PLM,并执行PLM下发的 管理命令;如图9所示,包括
监控模块302,用于根据维护的计算资源CR对象信息,监控与当前EEM 实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发 生变化,通过第二通信模块301发送相应的状态变化事件报文;其中,这里的 CR对象的状态发生变化,如CPU占用率区间变化、内存占用率区间变化或 磁盘占用率区间变化,网口丢包率或者错包率的区间变化;关键进程或关键内 核模块发生故障,以及用户自定义资源发生变化等。
在一种实现下,可以将CR类型(CRType)与EE故障类型进行映射,如 关键进程或关4建才莫块故障映射成EE核心部件故障;再如CPU占用率超过阈 值事件,内存占用率超过阈值事件,或网口流量超过阈值事件映射成EE基本 部件故障;
以及,可以将CR通知级别(CRNotificationLevel)与EE故障级别进行映 射,如EE故障级别信息表示关键故障、重要故障、 一般故障等。
相应的,在一种实现下,监控模块302,具体用于根据维护的计算资源 CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对 象,在监控到CR对象的状态发生变化时,获得与所述CR对象状态变化对应 的EE状态变化信息(如EE故障类型信息、EE故障级别信息等),通过第二 通信模块301发送相应的状态变化事件报文,所述状态变化事件报文包含EE 状态变化信息。
以及,第二通信模块301,用于向平台管理子系统PLM上报相应的状态 变化事件报文,所述事件报文包含状态变化信息,该状态变化信息例如EE故 障类型信息、EE故障级别信息和/或故障附加信息。需要说明的是在实际应用中,本发明实施例EEM实体可以作为对应的执行环境的后台进程,如Daemon进程。
可见,本发明实施例中,通过EEM实体在监控到CR对象的状态发生变化时向PLM上报事件报文,以实现PLM能及时感知当前执行环境EE的状态变化。
请参见图10为本发明提供的执行环境管理EEM实体实施例二的结构示意图,如图IO所示,本发明实施例EEM包括策略模块313,用于保存有第二处理策略;
监控模块312,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化时,根据所述策略模块313中与该CR对象状态变化所匹配的第二处理策略通过第二通信模块311发送相应的状态变化事件报文,所述匹配的第二处理策略为上报的处理方式;
第二通信模块311,用于向平台管理子系统PLM上报相应的状态变化事件报文,所述事件报文包含状态变化信息;
本发明实施例EEM,进一步包括本地修复才莫块314,用于进行本地修复或复位处理;
相应的,监控模块312,进一步用于根据所述策略模块313中与该CR对象状态变化所匹配的第二处理策略由本地修复^f莫块314进4亍修复处理,所述匹配的第二处理策略为本地^修复处理方式;/人而实现在EEM实体中也可以针对小故障进行一些简单的修复,以减少上报PLM的事件。
请参见图11为本发明提供的执行环境管理EEM实体实施例三的结构示意图,如图11所示,本发明实施例EEM包括
监控模块323,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化,通过第二通信模块321发送相应的状态变化事件报文;
第二通信模块321,用于向平台管理子系统PLM上报相应的状态变化事
18件报文,所述事件报文包含状态变化信息;具体的是第二通信模块321与PLM接口;
在PLM感知到EE (如OS)发生变化后,如EE核心部件故障,确定进行的锁定或修复或重启时,PLM下发相应管理命令;或者由PLM用户触发PLM下发相应管理命令,相应的,第二通信模块321,进一步用于接收PLM下发的管理命令;
则,本发明实施例EEM,进一步包括命令解析模块322,用于解释并执行PLM下发的管理命令,通过第二通信模块将命令执行结果返回给PLM;这里执行管理命令,有些管理命令,可以是命令解析模块322直接执行相应的命令;也可以是解释命令之后调用其他模块执行命令,例如当管理命令为Restart命令时,由命令解析模块322调用启动管理冲莫块324重启相应的EE(OS )。
以及,启动管理模块324,用于进行执行环境(操作系统)启动管理以及在启动过程中与PLM通信完成当前执行环境配置信息的校验,包括通过第二通信模块321向PLM发送校验请求及接收PLM返回的校验结果信息,并根据校验结果信息继续进行处理(挂起或继续启动);从而完善了操作系统的启动认证。
如当业务单板上部署有多个执行环境时,本发明实施例EEM,进一步包括EE适配模块325,用于适配不同的执行环境,例如屏蔽不同操作系统、或操作系统的不同版本等。应当理解的是如果操作系统相同,本发明实施例的EEM可以不包括EE适配才莫块325。
请参见图12为本发明提供的执行环境管理EEM实体实施例四的结构示意图,如图12所示,本发明实施例四的EEM与实施例三的EEM的区别在于进一步包括策略;f莫块334,用于保存有第二处理策略,这里的第二处理策略为EEM实体本地的处理策略;
监控模块333,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化时,根据所述策略模块334中与该CR对象状态变化所匹配的第二处理
19策略通过第二通信模块331发送相应的事件报文,所述匹配的第二处理策略为故障上报的处理方式;
本发明实施例EEM,进一步包括本地修复模块335,用于进行本地修复或复位处理;
相应的,监控模块333,进一步用于根据所述策略模块334中与该CR对象状态变化所匹配的第二处理策略由本地修复模块335进行修复处理,所述匹配的第二处理策略为本地修复处理方式。由于其他模块的功能与实施例三的EEM实体相同,故不赘述!
请参见图13为本发明提供的执行环境的管理方法实施例一的流程示意
图,如图13所示, 一种执行环境的管理方法,应用于本发明实施例的集群系
统中的EEM实体,包括如下步骤
步骤S601、才艮据维护的计算资源CR对象信息,监控当前执行环境所关
联的计算资源CR对象;
具体可以为才艮据维护的计算资源CR对象表,监控当前EEM实体对应
的执行环境所关联的计算资源CR对象;
在一种实现下,这里的计算资源CR对象可以包括两部分基本计算资源CPU占用率,磁盘占用率,内存占用率,网口使用率等;扩展计算资源关键进程,关键内核模块,用户自定义资源。在另一种实现下,这里的计算资源CR对象可以包括两部分本地计算资源又可以分成两部分虚拟的计算资源,如内核模块,进程;
物理计算资源,如网络适配器;
计算资源的使用状态,如CPU占用率,磁盘占用率,内存占用率。步骤S602、当监控到CR对象的状态发生变化时,向平台管理子系统PLM
上报相应的状态变化事件报文,使得所述平台管理PLM子系统根据预设第一
处理策略和所述状态变化事件报文下发相应的管理命令。
以及,步骤S602中,向平台管理子系统PLM上报相应的状态变化事件报文包括
获得与所述CR对象状态变化对应的EE状态变化信息,向所述平台管理
20子系统上报相应的状态变化事件报文,所述状态变化事件报文包含EE状态变化信息,如故障级别信息、故障类型信息和/或故障附加信息。
可见,本发明实施例中,通过EEM实体在监控到CR对象的状态发生变化时向PLM上报事件才艮文,以实现PLM能及时感知当前执行环境EE的状态变化。
请参见图14为本发明提供的执行环境的管理方法实施例二的流程示意图,如图14所示, 一种执行环境的管理方法,应用于本发明实施例的集群系统中的EEM实体,包括如下步骤
步骤S701、才艮据维护的计算资源CR对象信息,监控当前执行环境所关联的计算资源CR对象;
步骤S702、当监控到CR对象的状态发生变化时,确定与该CR对象状态变化所匹配的第二处理策略;
步骤S703、当匹配的第二处理策略为故障上^^方式时,向平台管理PLM子系统上报相应的状态变化事件报文,并执行步骤S704;
步骤S704、接收所述平台管理PLM子系统下发的管理命令,所述管理命令包括与该状态变化事件报文对应的管理命令;例如锁定Lock、解锁Unlock、重启Restart、关闭Shutdown或修复Repair等。
步骤S705、解释和执行所述PLM下发的管理命令,并返回所述管理命令的执行结果。
步骤S706、当匹配的第二处理策略为本地修复时,进行本地的修复或复位处理。
其中,当所述状态变化事件报文用于表示EE核心部件发生故障(故障通知报文)时,所述平台管理PLM子系统根据预设的第 一处理策略(即故障恢复策略)和所述状态变化事件报文向对应的EEM实体下发相应的管理命令,如用于重启执行环境EE的Restart命令。
请参见图15为本发明提供的执行环境的管理方法实施例三的流程示意图,如图15所示, 一种执行环境的管理方法,应用于本发明实施例的集群系统中的EEM实体,包括如下步骤
步骤S801 、 EEM启动EE健康检查;
具体可以是系统定时器定时触发EEM启动EE健康4企查(周期进行EE健康检查),或者是PLM强制触发EE监控检查。
步骤S802、从EEM自身维护的CR对象表中获取第一个CR对象;
步骤S803 - S804、检查该CR对象的当前状态,当检查结果是CR健康时,执行步骤S808;当检查结果是CR故障时,执行步骤S805;
这里的CR对象,例如CPU占用率,》兹盘占用率,Mem占用率,网口使用率(流量、速率、丢包率、错包率),关键进程,关键内核模块,用户自定义资源;
这里的CR故障,例如CPU占用率超过阈值,内存占用率超过阈值,网口流量超过阈值,或关键进程故障等;
步骤S805、确定与所述CR故障匹配的第二处理策略;当与所述CR故障匹配的第二处理策略为本地修复或复位时,执行步骤S806;当与所述CR故障匹配的第二处理策略为故障上报方式时,执行步骤S807;
在一种实现下,步骤S805前,可以进一步包括出现健康检查失败后,对检查失败计数器作加1处理,(应当理解的是恢复健康情况下对检查失败计数器作清零处理);;险查失败计数器超过阈值进行故障后处理,即执行步骤S805;以及,在一种实现下,可以预先设置上报故障事件报文的故障级别,对于一般故障或较低故障,可以采用在本地修复或复位处理,以避免向PLM上报相应的事件报文,增加告警信息;对于关键、重要级别的故障,可以采用向PLM上报状态变化事件报文(故障事件报文);
或者,在另一种实现下,本地修复或者复位超过设定阈值时,也可以采用向PLM上报故障事件报文。
步骤S806、对所述故障进行^修复或复位处理;并转步骤S810;
步骤S807、向PLM上报相应的状态变化事件报文;并转步骤S810;
在一种实现下,所述状态变化事件报文包含状态变化信息,如故障类型信息、故障级别信息等,故障类型信息表示当前EE发生的故障类型(核心部件故障、基本部件故障),故障级别信息表示故障的严重程度(致命、关键、重要、一般、较低)。
步骤S808 -S809、从EEM自身维护的CR对象表中获取下一个CR对象,并检查该CR对象的当前状态;当检查结果是CR健康时,执行步骤S810;当检查结果是CR故障时,返回执行步骤S805;
步骤S810 、判断当前CR对象是否为所述CR对象表中的最后 一个CR对象,如果当前CR对象是最后一个CR对象,执行步骤S811;如果当前CR对象不是最后一个对象,返回执行步骤S808;
步骤S811、结束本次EE健康检查。
在一种实现下,实现的代码如下EEM—Do—Health—Check()
{—— —
RC—Item = Get—First—RC—Item—From—Table();〃从RC对象表获取第一个RC对象While(RC—Item != NULL)
Switch(RC—Item.Status)〃根据当前CR的状态分别处理
case HEALTH:〃处于健康状态的CR对象
〃出现健康检查失败后对检査失败计数器加1,恢复健康情况下做清零if(RC—Item.CR—HEALTHCHECK() != HEALTH)
{—
RC一Item.FaultCount ++;
} 一else
RC—Item.FaultCount = 0;
} 一
〃检査失败计数器超过阈值进行故障后处理
if (RC—Item.FaultCount >= RC_Item.MAX_FAULTTIME)
{ _ _ _
〃根据本地修复策略进行switch(RC—Item.CRRepairePolicy) {case REPAIRE:〃进行修复处理
RC—Item,CR—REPAIRE();
RC—Item.RepaireCount++;
break;
case RESET:Z/进行复位处理RC Item.CR—RESET();RC—Item.ResetCount++;break;case REPORT—FAULT—EVENT:〃上报PLM故障事件 EEM—Report—CR—Fault—EVENT(RC Item); break;
RC—Item. Status = FAULT;〃置此CR为故障状态 break;
case 八111^://处于故障状态的01对象 〃恢复健康则转换回健康状态 if (RC—Item.CR一HEALTHCHECK() == HEALTH)
RC—Item. Status = HEALTH; RC一Item.RepaireCount = 0; RC—Item.ResetCount = 0;
} —
〃修复或者复位超过设定阈值,需要上报PLM故障事件
if (RC一Item.R印aireCount >= RC—Item.MAX—REP AIRE—TIME ||
RC—Item.ResetCount >= RC—Item.MAX—RESET—TIME)
^ _ 一 —
EEM—Report—CR—Fault—EVENT(RC—Item);
} —— 一
〃继续修复或者复位
switch(RC—Item.CRRepairePolicy) {
C3S6 :
RC—Item.CR—REPAIRE(); RC—Item.RepaireCount++; break; case :
RC一Item.CR—RESET(); RC—Item.ResetCount++; break;
break;
RC—Item = Get—Next—RC—Item—From—Table();〃获取表中下一个RC对象
本发明实施例中,当EE的CR对象状态发生变化时,与该EE对应EEM 可以向PLM上报相应的状态变化事件报文,由PLM才艮据保存的第一处理策 略向对应的EEM下发相应的管理命令。为了更好的理解,请参见图16为本发明提供的执行环境的管理方法实施例四的交互示意图,如图16所示, 一种
执行环境的管理方法,应用于本发明实施例的集群系统,包括如下步骤
步骤901、 EEM监控对应的EE,这里的EE可以理解为正在处理业务(处
于服务状态)的操作系统OS;
步骤902、 EE (操作系统)发生关键故障,比如内存泄漏,硬件设备锁
死,文件系统被破坏等。
步骤903、 EEM实体监控到关键故障发生,具体可以采用实施例三的具
体方法进行监控;
在一种实现下,EEM通过监控关键进程发现EE (操作系统)故障; 步骤904、 EEM实体确定与当前关键故障匹配的第二处理策略;这里的
第二处理策略可以为关键故障则上报;
步骤905、 EEM根据所述第二处理策略,向PLM上报关键故障事件; 步骤906、 PLM根据关键故障事件确定与所述事件匹配的第一处理策略;
这里的第一处理策略可以为关^T建故障则重启EE;
步骤907、 PLM向EEM下发用于重启EE ( OS )的管理命令;这里的管
理命令为Restart命令;
步骤908、 EEM根据所述管理命令(Restart命令),重启相应的EE (操
作系统)。
请参见图17为本发明提供的执行环境的管理方法实施例五的交互示意 图,如图17所示, 一种执行环境的管理方法,应用于本发明实施例的集群系 统,包括如下步骤
步骤911、 EEM监控对应的EE,这里的EE可以理解为正在处理业务(处 于服务状态)的操作系统OS;
步骤912、 EE (操作系统)发生故障。
步骤913、 EEM实体监控到故障发生,具体可以采用实施例三的具体方 法进行监控;
步骤914、 EEM实体确定与当前故障匹配的第二处理策略;这里的第二 处理策略可以为普通故障则本地^修复;
25步骤915、 EEM对发生故障的EE执行本地修复处理; 步骤916、 EEM接收EE返回的修复成功信息。
请参见图18为本发明提供的执行环境的管理方法实施例六的交互示意 图,如图18所示, 一种执行环境的管理方法,应用于本发明实施例的集群系 统,包括如下步骤
步骤921、 EEM监控对应的EE,这里的EE可以理解为正在处理业务(处 于服务状态)的操作系统OS;
步骤922 、 EE操作系统发生关键故障;
步骤923、 EEM实体监控到关键故障发生,具体可以采用实施例三的具 体方法进行监控;
步骤924、 EEM向PLM上报故障事件;本发明实施例中,是EEM监控 到发生故障后,即时通知PLM;步骤925、 PLM #4居该故障事件确定与所述 事件匹配的第一处理策略;这里的第一故障策略可以为关键故障则重启;步 骤926、 PLM向EEM下发用于重启EE ( OS )的管理命令;这里的管理命令 为restart命令;
步骤927、 EEM重启该EE ( OS );
步骤928、 EEM接收该EE (OS)重启成功信息;
步骤929、 EEM向PLM上报EE重启成功信息。
针对传统的PLM无法有效管理执行环境资源的问题,本发明实施例的 PLM能实现有效管理EE,其中,本发明实施例的PLM能向对应的EEM实体 下发管理命令,使得该EEM实体执行收到的管理命令,以进行相应的锁定或 修复或重启等操作,从而实现使得状态变化的CR对象状态恢复。
本发明实施例PLM向对应的EEM实体下发管理命令,包括如下情况
a. EEM上报状态变迁事件给PLM后,PLM根据(第一处理策略)恢复 策略,向对应的EEM实体下发相应的管理指令;
b. PLM接收PLM用户发出的操作命令,向对应的EEM实体下发相应的 管理命令。请参见图19为本发明提供的执行环境的管理方法实施例七的流程示意 图,如图19所示, 一种执行环境的管理方法,应用于本发明实施例的集群系 统中的PLM,包括如下步骤
步骤S930、接收执行环境管理EEM实体上报的状态变化事件报文,该状 态变化事件报文包含状态变化信息;
具体可以是接收执行环境管理EEM实体上报的状态变化事件报文,该 状态变化事件报文包含故障类型信息、故障级别信息,表示EE发生关键故障;
步骤S931、根据该状态变化事件报文中的状态变化信息和预设的第一处 理策略,向该EEM实体下发相应的管理命令。
其中,步骤S931具体可以包括根据该状态变化事件报文中的状态变化 信息,确定与所述事件匹配的第一处理策略;
根据所述匹配的第 一处理策略下发对应的管理命令。
在一种实现下,状态变化信息包含故障类型信息,如EE核心部件故障、 EE基本部件故障等,和/或故障级别信息,如致命故障、关键故障、重要故障、 一般故障、较低故障等;
当状态变化事件报文中包含"关键故障"的级别信息时,确定的与所述事 件匹配的第一处理策略为"关键故障"采取隔离EE重新启动;则相应的, 下发用于重启EE操作系统的重启命令;
当状态变化事件"^艮文中包含"一般故障"的级别信息时,确定的与所述事 件匹配的第一处理策略为针对发生故障的CR对象,"一般故障,,采取重新 加载CR对象进行修复;则相应的,下发用于修复执行环境EE的修复命令。
当状态变化事件报文中包含"EE核心部件故障"的故障类型信息、"关键 故障,,的级别信息时,确定的与所述事件匹配的第一处理策略为"EE核心部 件发生关键故障"采取隔离EE重新启动;则相应的,下发用于重启EE操作 系统的重启命令;
可见,本发明实施例中通过PLM接收到EEM实体在监控到CR对象的状 态发生变化时所上报的事件报文,以实现PLM能及时感知当前执行环境EE 的状态变化;
27以及,通过PLM接收事件4艮文后,向对应的EEM下发相应的管理命令, 使得EEM执行管理命令完成相应的操作,以克服现有嵌入式操作系统中,一 旦应用程序和操作系统本身两者中 一个出现问题,都必须重启系统的问题。
以及,本发明实施例中,通过PLM在收到事件报文后,向对应的EEM下 发管理命令,克服了现有的平台管理PLM子系统与执行环境EE之间由于其 异构性不能直接进行管理的缺陷,从而通过PLM与EEM实体的通信实现了 统一、集中的对不同执行环境EE进行管理,使PLM拥有跨OS类型、OS版 本、不区分OS还是虚拟机环境等关键特性。
请参见图20为本发明提供的执行环境的管理方法实施例八的流程示意 图,如图20所示, 一种执行环境的管理方法,应用于本发明实施例的集群系 统中的PLM,包括如下步骤
步骤S940、接收平台管理用户发出的操作信息;
例如当集群系统启动且集群成员的操作系统需要升级更新时,平台管理 用户下发用于升级该集群成员的操作系统的操作信息,如软件升级脚本;
步骤S941、根据该操作信息,向与该操作信息关联的执行环境EE对应的 EEM实体下发相应的管理命令;
例如当操作信息是软件升级脚本时,首先下发锁定命令,该锁定命令用 于使EE停止提供服务,停止应用程序的运行,但可以运行EEM程序;然后 等锁定成功后,下发Restart命令,该Restart命令用于使EE ( OS )重启;最 后下发解锁命令。
步骤S942、接收该EEM实体返回的处理结果信息,并向平台管理用户返 回相应的操作结果信息。
例如当操作信息是软件升级脚本时,这里的处理结果可以是锁定命令执 行结果,或重启命令执行结果,或解锁命令执行结果;这里的操作结果信息可 以是软件升级成功信息。
可见,本发明实施例中,通过PLM在收到PLM用户发出的操作信息后, 向该操作信息关联的EE对应的EEM下发管理命令,克服了现有的平台管理 PLM子系统与执行环境EE之间由于其异构性不能直接进行管理的缺陷,从而
28通过PLM与EEM实体的通信实现了统一、集中的对不同净丸行环境EE进行管 理,使PLM拥有跨OS类型、OS版本、不区分OS还是虚拟机环境等关键特 性。
传统的PLM无法有效管理执行环境(为了便于理解,下面以EE为操作 系统来进行描述),只能通过复位操作系统依赖的硬件来实现操作系统的升级、 或重启,这种粗粒度的管理造成了系统无法运用当前先进的快速重启机制,而 硬件级别的重启耗费的时间是很长的, 一旦出现升级失败,想回退为原来的操 作系统将更加费时和困难。针对这种现状,本发明实施例的集群系统能够快速 启动操作系统,无需通过硬件级别的重启来升级操作系统,大大减少重新启动 时间,提高了系统的可用性。
请参见图21为本发明提供执行环境的管理方法实施例九的流程示意图, 这里的管理具体为升级,应当理解的是PLM通过EEM可以对执行环境进行 管理,这里的管理包括但不限于升级、故障检测、故障修复、重启等,为了 方便理解,如下以OS为EE的例子进行描述;如图21所示, 一种执行环境的 管理方法,应用于本发明实施例的集群系统,包括如下步骤
步骤SlOOl、维护人员通过网管系统下发软件升级脚本;
步骤S1002、 PLM根据该软件升级脚本,向对应的EEM下发锁定命令, 使得OS停止提供服务,停止应用程序的运行;
步骤S1003、 EEM返回锁定成功信息;
步骤S1004、操作系统退出集群,停止提供服务;
步骤S1005、 PLM下发Restart命令给EEM;
步骤S1006、 EEM从镜像文件服务器中获取新的镜像文件(Boot Image 文件);
步骤S1007、 EEM对该操作系统部署新的镜像文件;
具体可以是EEM下发新的Boot Image文件,将Boot Image存放到该操 作系统的启动目录,同时修改该操作系统的启动配置,将启动选项指向新的 Boot Image。
步骤S1008、 EEM重启该操作系统;步骤S1009、该操作系统启动进程向EEM请求自身的配置数据; 步骤SIOIO、 EEM向PLM请求该梯:作系统的配置数据; 步骤SlOll、 PLM向EEM下发相应的配置数据; 步骤S1012、 EEM对该配置数据进行校验;
步骤S1013、在对该配置数据校验成功后,EEM将配置数据传递给操作 系统的启动进程;
步骤S1014、操作系统启动成功; 步骤S1015、 EEM监控到操作系统启动成功; 步骤S1016、 EEM向PLM返回启动成功信息;
步骤S1017、 PLM下发解锁命令给EEM,使得EEM重新开始对操作系统 进行CR对象监控和事件上报;
步骤S1018、 EEM返回解锁成功信息; 步骤S1019、操作系统进入集群,开始提供服务; 步骤S1020、 PLM向网管返回软件升级成功信息。
需要说明的是在升级之前执行软件升级脚本,主要用于将系统备份,备 份旧的版本镜像文件(如果在本地),释放相关资源(内存),如果系统升级失 败回退版本用。
而镜像文件(Boot Image)是完整的OS版本,是用于引导启动操作系统, Boot Image的版本就是操作系统的版本。
进一步的,在集群系统中,某个集群成员是否为合法成员是通过此成员向 集群服务器注册来进行认证的,认证通过的成员才允许正常的执行应用程序, 以及接纳业务,这是对集群系统业务安全性的考虑。目前认证一般包含两个方 面,硬件配置属性的认证和应用软件模块版本的认证。对于配置信息的认证而 言,由于电信系统多采用服务器式(Linux、 Sorilars等)操作系统中,应用程 序除了对硬件配置信息很敏感,对于操作系统的内核版本、配置,内核模块版 本等配置信息也十分敏感,如果出现配置信息不匹配将造成业务程序不能正常 运行,对系统的可靠性造成极大的冲击。针对这种现状,本发明实施例在执行 环境的启动过程中,提供对执行环境(操作系统)的配置信息的验证,以进一步完善执行环境(操作系统)的启动认证;
请参阅图22,为本发明实施例的执行环境的启动方法的流程图,如图22 所示,包括如下步骤
开始操作系统启动;
步骤S1100、操作系统初始进程启动;
步骤S1101、 EEM进程启动;
步骤S1102、 EEM获取本地操作系统实际配置信息,例如操作系统的 内核版本、内核模块版本等;
步骤S1103、 EEM向PLM发送校验请求,其中所述校-睑请求包含所述实 际配置信息;
步骤S1104、 EEM接收PLM返回的实际配置信息和参照配置信息的匹配 是否一致的结果;当两者不一致时,执行步骤S1105;当两者一致时,执行步 骤S1109;
步骤S1105、 EEM请求PLM确认操作,当返回的确认结果是等待时,则 执行步骤S1106;当返回的确认结果是重启操作系统时,则执行步骤S1107;
步骤S1106、判断等待超时次数是否达到阀值N,如果等待超时次数〈N, 则继续等待;反之,则执行步骤S1109;
步骤S1107、判断是否重新加载,当确定是重新加载时,执行步骤S1108; 反之,执行步骤S1100;
步骤S1108、加载指定镜像文件;
步骤S1109、继续启动其他系统进程,等其他系统进程都启动完成,则操 作系统启动完成。
可见,在操:作系统启动过程中,在获得正确的配置信息前,初始进程挂起 等待。在PLM对配置信息进行校验成功的情况下,EEM将配置信息传递给操 作系统,启动过程继续进行;通it^f操作系统的配置信息的验证,以进一步完 善操作系统的启动认证;从而避免了 一旦出现配置信息不匹配所造成的业务程 序不能正常运行的后果。
应当理解的是也可以通过EEM在系统引导过程中尝试与PLM通信发 送启动事件,获取操作系统配置校验信息(参照值),并校验本地保存配置信息和配置校验信息(参照值)是否一致,当校验成功时,EEM向操作系统初 始化进程传递校验通过的配置数据,启动过程继续进行。
综上所述,本发明实施例的集群系统、PLM子系统、EEM实体,以及执 行环境的管理方法中通过PLM接收到EEM实体在监控到CR对象的状态发生 变化时所向上报的事件报文,以实现PLM能及时感知当前执行环境EE的状 态变化;
以及,通过PLM接收事件报文后,向对应的EEM下发相应的管理命令, 由EEM执行管理命令完成相应的操作(如修复故障,或重新加载某个故障的 内核模块),以克服现有嵌入式操作系统中, 一旦应用程序和操作系统本身两 者中一个出现问题,都必须重启系统的问题;
以及,本发明实施例的集群系统中通过PLM在收到PLM用户发出的操 作命令后,向该操作命令关联的EE对应的EEM下发管理命令,以及接收事 件报文后,向对应的EEM下发管理命令,克服了现有的平台管理PLM子系 统与执行环境EE之间由于其异构性不能直接进行管理的缺陷,从而通过PLM 与EEM实体的通信实现了统一、集中的对不同执行环境EE进行管理,使PLM 拥有跨OS类型、OS版本、不区分OS还是虚拟机环境等关键特性。
以及,本发明实施例中,当需要升级EE (OS)时,PLM接收到网管下发 的升级脚本后,通过向对应的EEM下发锁定、重启、和解锁命令,EEM解析 并执行该命令后,升级或重启相应的操作系统,从而实现快速启动操作系统, 无需通过硬件级别的重启来升级操作系统,大大减少重新启动时间,提高了系 统的可用性。
进一步的,本发明实施例在执行环境的启动过程中,提供对执行环境(操 作系统)的配置信息的验证,以进一步完善执行环境(操作系统)的启动认证; 从而避免了一旦出现配置信息不匹配所造成的业务程序不能正常运行的后果。
是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算 机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。 其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory, RAM)等。
32以上所述仅为本发明的几个实施例,本领域的技术人员依据申请文件公开 的可以对本发明进行各种改动或变型而不脱离本发明的精神和范围。
权利要求
1、一种集群系统,其特征在于,包括平台管理子系统和至少一个执行环境管理实体,其中,所述执行环境管理实体,用于根据维护的计算资源CR对象信息,监控对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化,向所述平台管理子系统上报相应的状态变化事件报文;所述平台管理子系统,用于根据该状态变化事件报文中的状态变化信息以及预设的第一处理策略,向对应的执行环境管理实体发送相应的管理命令。
2、 如权利要求l所述的系统,其特征在于,所述平台管理子系统,进一 步用于根据平台管理用户发出的操作信息,向该操作信息关联的执行环境所对 应的执行环境管理实体发送相应的管理命令,并接收该执行环境管理实体返回 的处理结果信息。
3、 如权利要求1或2所述的系统,其特征在于,所述执行环境管理实体, 进一步用于执行所述平台管理子系统发送的管理命令。
4、 一种平台管理PLM子系统,其特征在于,包括 第一通信模块,用于接收执行环境管理EEM实体上报的状态变化事件报文,所述状态变化事件报文包含状态变化信息,以及向对应的执行环境管理实 体发送相应的管理命令;第一处理模块,用于根据预设的第一处理策略和所述状态变化信息确定待 发的管理命令,通过所述第一通信模块向对应的执行环境管理实体下发所述管 理命令。
5、 如权利要求4所述的平台管理PLM子系统,其特征在于,所述平台管 理PLM子系统进一步包括对象管理模块,用于根据所述状态变化信息,维护上报所述状态变化事件 报文的EEM实体所对应的执行环境EE对象。
6、 如权利要求5所述的平台管理PLM子系统,其特征在于,所述平台管理PLM子系统进一步包括转发模块,用于根据来自平台管理用户发出的操作信息,从所述对象管理 模块中找到与所述操作信息关联的EE对象,通过所述第一通信模块将相应的 管理命令发送给与所述EE对象对应的EEM实体。
7、 如权利要求4所述的平台管理PLM子系统,其特征在于,所述第一通 信模块,进一步用于接收来自EEM实体的校验请求,所述校验请求包含所述 EEM实体对应的EE的实际配置信息,并向所述EEM实体返回校验结果信息;所述平台管理PLM子系统进一步包括配置校验模块,用于根据所述校 验请求,校验EE的实际配置信息和参照配置信息是否一致,并通过所述第一 通信模块返回校验结果信息。
8、 一种执行环境管理EEM实体,其特征在于,包括监控模块,用于根据维护的计算资源CR对象信息,监控与当前EEM实 体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生 变化时,通过第二通信模块发送相应的状态变化事件报文;第二通信模块,用于向平台管理PLM子系统上报相应的状态变化事件报 文,所述状态变化事件报文包含状态变化信息。
9、 如权利要求8所述的执行环境管理EEM实体,其特征在于,所述第 二通信模块,进一步用于接收平台管理PLM子系统下发的管理命令;所述执行环境管理EEM实体,进一步包括命令解析模块,用于解释并执行或调用其他模块执行所述管理命令,通过 所述第二通信模块向所述PLM子系统返回相应的命令执行结果。
10、 如权利要求9所述的执行环境管理EEM实体,其特征在于,进一步 包括启动管理模块,用于进行执行环境启动管理以及在启动过程中通过所述第 二通信模块向所述PLM子系统发送校-险请求及接收所述PLM子系统返回的 校验结果信息,并根据校验结果信息进行处理。
11、 如权利要求10所述的执行环境管理EEM实体,其特征在于,进一步包括EE适配模块,用于适配不同的执行环境。
12、 如权利要求8至11任一项所述的执行环境管理EEM实体,其特征在 于,所述监控模块为第一监控模块,用于根据维护的计算资源CR对象信息, 监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到 CR对象的状态发生变化时,根据与该CR对象状态变化所匹配的第二处理策 略通过所述第二通信模块发送相应的状态变化事件报文,所述匹配的第二处理 策略为上报处理方式。
13、 如权利要求12所述的执行环境管理EEM实体,其特征在于,进一 步包括本地修复模块,用于进行本地修复或复位处理;所述第一监控模块,进一步用于根据与该CR对象状态变化所匹配的第一 处理策略通过所述本地^修复;f莫块进行^"复处理,所述匹配的第 一处理策略为本 地》务复处理方式。
14、 一种执行环境的管理方法,其特征在于,所述方法包括根据维护的计算资源CR对象信息,监控当前执行环境所关联的计算资源 CR对象;当监控到CR对象的状态发生变化时,向平台管理子系统PLM上报相应 的状态变化事件报文,使得所述平台管理PLM子系统根据预设的第一处理策 略和所述状态变化事件报文下发相应的管理命令。
15、 如权利要求14所述的方法,其特征在于,所述向平台管理子系统PLM 上报相应的状态变化事件报文包括获得与所述CR对象的状态变化对应的EE状态变化信息,向所述平台管 理子系统上报相应的状态变化事件报文,所述状态变化事件报文包含EE状态 变化信息。
16、 如权利要求14所述的方法,其特征在于,所述向平台管理子系统PLM 上报相应的状态变化事件报文的步骤前,进一步包括根据监控到的CR对象的状态变化,确定与该CR对象状态变化所匹配的 第二处理策略,所述匹配的第二处理策略为上^l艮处理方式;则,所述向平台管理子系统PLM上报相应的状态变化事件报文为根据 所述匹配的上^^处理方式的第二处理策略向平台管理子系统PLM上报相应的 状态变化事件报文。
17、 如权利要求14所述的方法,其特征在于,所述方法进一步包括 执行所述平台管理PLM子系统下发的管理命令,并返回所述管理命令的执行结果,所述管理命令包括与该状态变化事件报文对应的管理命令,或由 平台管理PLM用户触发所述平台管理PLM子系统所发出的管理命令。
18、 一种执行环境的管理方法,其特征在于,所述方法包括 接收执行环境管理EEM实体上报的状态变化事件报文,该状态变化事件报文包含状态变化信息;根据该状态变化事件报文中的状态变化信息和预设的第一处理策略,向该 EEM实体下发相应的管理命令。
19、 如权利要求18所述的方法,其特征在于,所述根据该状态变化事件 报文中的状态变化信息和预设的第一处理策略,向该EEM实体下发相应的管 理命令包括根据该状态变化事件报文中的状态变化信息,确定与所述状态变化事件匹 配的第一处理策略;才艮据所述匹配的第 一处理策略下发对应的管理命令。
20、 如权利要求18或19所述的方法,其特征在于,所述管理命令至少包 括锁定命令、解锁命令、关闭命令、启动命令、重启命令或修复命令。
21、 如权利要求18或19所述的方法,其特征在于,所述方法进一步包括 接收平台管理用户发出的操作信息;根据该操作信息,向与该操作信息关联的执行环境EE对应的EEM实体 下发相应的管理命令。
全文摘要
本发明实施例公开了一种集群系统,包括平台管理子系统和至少一个执行环境管理实体,其中,所述执行环境管理实体,用于根据维护的计算资源CR对象信息,监控对应的执行环境EE所关联的计算资源CR对象,在监控到CR对象的状态发生变化,向所述平台管理子系统上报相应的状态变化事件报文;所述平台管理子系统,用于接收所述执行环境管理实体上报的状态变化事件报文,根据该状态变化事件报文中的状态变化信息以及预设的第一处理策略,向对应的执行环境管理实体下发相应的管理命令;从而实现PLM能感知当前执行环境EE的状态变化。
文档编号H04L12/26GK101677276SQ20081021627
公开日2010年3月24日 申请日期2008年9月16日 优先权日2008年9月16日
发明者唐冠军, 真 巢, 鑫 张, 金雪锋 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1