一种基于MDC的综合管理方法与流程

文档序号:11523992阅读:561来源:国知局
一种基于MDC的综合管理方法与流程

本发明涉及计算机技术领域,具体地说是一种基于mdc的综合管理方法。



背景技术:

模块化数据中心(moduledatacenter,mdc)是基于云计算的新一代数据中心部署形式,为了应对云计算、虚拟化、集中化、高密化等服务器发展的趋势,其采用模块化设计理念,最大程度的降低基础设施对机房环境的耦合。集成了供配电、制冷、机柜、气流遏制、综合布线、动环监控等子系统,提高数据中心的整体运营效率,实现快速部署、弹性扩展和绿色节能。

随着大数据信息行业的飞速发展,mdc的发展也进入到一个新的阶段。管理系统是数据中心内部配置的重要组成部分。传统的管理系统主要已动环监控为主,具备多种数据接口,可接入ups、配电柜、精密空调、门禁、温湿度传感器、烟雾探测器、温感探测器、漏水传感器、翻转天窗及网络摄像机等多种监控对象,主要涉及数据中心l1层内容。但是传统的数据中心监控系统通常忽略了对it设备的管理,主要涉及l2,造成了统一管理系统的人为分离。

通常,一个数据中心可分为4个层级,数据中心4个层级分别表示:

l1层则是场地基础设施层,囊括了支持it运转环境的各种场地设施。

l2层是信息设备硬件层,包括数据处理、数据传输和网络通信等多种it设备。

l3层是操作系统层,主要由各种软件、数据库等操作系统构成。

l4层是应用层,包括各种信息服务、如私有云、公有云等。

传统的动环监控管理系统,并没有对it设备也就是分层中的l2-l4,进行深层次的监控与管理,在数据分析上也是割裂的。在数据中心由静态走向动态的过程中,该架构的劣势已趋于明显,例如数据中心基础设施异常往往不能对it业务的异常进行跟踪处理分析。

数据中心基础设施异常造成无法自动评估基础设施异常对it业务的影响,故障情况下不能自动通知调度业务,减少后备时间。低电力时,控制基础设施按业务重要等级无法进行业务下线或跨空间迁移在数据中心运维管理上。比如某个列头柜开关故障的情况下,在当前情况下,很难做到自动通知业务迁移,或者上层业务知道机柜里面放了什么服务器,却又不知道这个机柜关联到了哪一个列头柜这些系统往往牵一发而动全身,盲目操作,可能会造成意向不到的故障和混乱。

割裂的系统带来了资源的供给与消耗不匹配,浪费大量机架u位,资产和资源得不到充分利用。使用过程中基础设施做不到根据it需求来进行动态供给。是否可在it业务负载较低的时候,关掉一部分空调末端甚至冷机,或把一些优先级不高的it业务,放在电费较低或者制冷效率更高的时段。

所以需要寻求一种思路,统筹设计数据中心场地基础设施的控制管理,迫切需要各个系统步调一致,协同作战,共同提高运营管理水平,基于此,本发明提供一种基于mdc的综合管理方法。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种基于mdc的综合管理方法。

一种基于mdc的综合管理方法,其实现过程为,首先对硬件设备及it设备均进行监控,然后将监控数据通过南向接口传输给信息处理模块,信息处理模块将监控数据通过协议封装后,通过北向接口发送到mdc管理平台中,所述信息处理模块配置有协议解析层、设备id规则、复杂事件处理模块,其中协议解析层、设备id规则解析监控硬件设备及it设备信息传输采用的协议及id采用的数字排列方式,这里解析的协议包括ipmi协议、redfish协议、snmp协议、smi-s协议,然后将包括信号信息、告警信息、控制信息、配置信息的监控信息发送到复杂事件处理模块,由复杂事件处理模块则通过告警信息确定告警源,所述信号信息为设备监控信息,告警信息为设备发出的告警信息,控制信息为控制设备的信息,配置信息为设备管理配置信息。

对硬件设备及it设备均进行监控通过以下方式获取:

snmp轮询监控和trap主动上报方式;

ipmi带外监控风扇、电源、电压和温度、远程开关机服务方式;

syslog方式监控设备日志,通过syslog协议接收和储存被监控的设备的日志,提供查询和管理、设置指定关键字日志监控的高级功能;

ping方式监控设备时延及可用性。

所述硬件设备监控是指对动力配电、场地安全、场地环境进行监控,其中动力配电包括高低压配电、开关电源、ups、ats、蓄电池、发电机、照明信息监控;场地安全包括温湿度、漏水、空调、新风机、空气质量信息监控;场地环境包括门禁、闭路监控、防盗报警、消防、防雷器信息监控。

所述被监控的it设备包括it硬件类、it软件类,其中,

it硬件类包括:存储硬件监控、服务器硬件监控、网络设备硬件监控三类硬件监控,监控的内容包括:前置面板的状态、fan状态、电池状态、电源状态、硬盘状态、raid卡状态、cmos电池状态、主板状态、内存状态、cpu状态、温度、fan转速、io模块状态;

it软件类包括:数据库,监控包括cpu使用率、内存大小、表空间利用率、sga命中率、session状态的信息,其中session状态包括系统用户数、系统占用率;中间体,监控包括服务状态、服务器进程状态、ejb缓存命中率、当前执行队列吞吐量、当前执行队列长度、tcp服务状态、最大堆空间、对空间利用率的信息;业务进程监控,监控包括进程运行状态、进程cpu利用率、进程内存利用率、服务端口状态及连接的业务系统进程参数,包括模块运行状态、模型性能参数、接口运行状态、接口性能参数、事件的业务系统内部参数;网络拓扑,监控包括网络拓扑的呈现于分析信息;iis服务,监控包括iis服务运行状态、web服务器的可用性、weburl的相应时间、iishttp最大并发连接数、输出字节流量和输入字节流量、平均请求数、平均http423错误数、平均http424错误数的信息。

所述存储硬件监控是指在现有的存储系统中,通过snmptrap实现告警转发功能,将系统中出现的各种类型的告警通过trap的方式向外转发;在服务器硬件监控中,以errlog日志记录系统所检测到的软硬件故障和错误;网络设备硬件的监控管理包括两种模式:syslog和trap模式;硬件监控时通过监控数据的采集、监控阀值、告警动作设定、报表展现步骤实现,

所述it硬件类中的网络设备包括交换机、路由器,且该it硬件类监控的具体内容为:服务器,监控包括cpu、虚拟内存、磁盘分区、进程信息、网络信息、错误日志的信息;交换机,监控包括系统名称、运行时间、cpu、内存使用率、端口名称、端口状态、端口流量的信息;路由器,监控包括cpu、内存使用率、端口状态、端口流量的信息;存储,监控包括运行状态、网络驱动器使用率、错误日志信息。

所述信息处理模块具体完成以下功能:

数据采集功能:即通过协议解析层和设备id规则,对各种被监控对象的采集数据,适配器采用的通信协议及通信接口,这里的通信接口包括rs232/422/485、rj45接口;

数据传输功能:通过轮询、主动上报两种数据传输方式,来支持上述南向接口、北向接口;

数据处理功能:即通过上述复杂事件处理模块,对数据采集上传的各种设备数据进行加工、分析和处理。

所述复杂事件处理模块还实现以下功能:数据存储、系统组态、系统告警分析和发送、记录系统日志、设置权限进行管理、提供系统报表、进行系统维护,所述系统组态功能包括设备组态,即设备模板、页面组态,即页面模板、策略组态。

所述被监控的it设备通过ipmi接口,由基板管理控制器bmc获取被监控信息,该bmc实现以下功能:通过系统的串行端口进行访问被监控对象;故障日志记录和snmp警报发送;访问系统事件日志和传感器状况;控制it设备,包括开机和关机。

所述被监控的it设备还提供api接口,实现以下功能,

动态功耗监控:测量it设备的实际功耗,从pmbus电源处收集信息,从而提供实时的功耗数据并通过ipmi接口进行报告;

功耗设限:将it设备功耗设置为限定目标功率,通过ipmi接口获取功耗管理策略,并动态调整cpu运行主频。

本发明的一种基于mdc的综合管理方法和现有技术相比,具有以下有益效果:

本发明的一种基于mdc的综合管理方法,综合监控管理平台可以灵活的定义业务服务指标的状态,让用户实时观测该指标状态,及时监控、了解业务服务指标的状态,得到业务状态的第一手资料,确保业务正常运行。可以对各类网络设备、主机、应用、数据库的各个性能指标、可用性指标、信息指标灵活定义及检测,方便网络管理员了解自己最关注的各种关键设备信息,实用性强,适用范围广泛,具有很好的推广应用价值。

附图说明

附图1为现有技术中数据中心分层示意图。

附图2为本发明中it设备与硬件设备联动监控示意图。

附图3为本发明的整体实现示意图。

附图4为本发明硬件设备监控对象图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步说明。

本发明基于mdc的综合管理系统实现,囊括了数据中心l1与l2的统一设计,在mdc范畴里,采用融合架构,打造统一有机的生态圈,使动力、环境基础设施与it基础设施动态关联,做到数据中心完整的端到端动态管理,打破常规应用,降低pue。

mdc综合管理系统通过实时监控、收集和分析来自于数据中心设备的精确的信息及数据,使得管理者能够快速的行动或者设计来使得数据中心工作在平衡效率和可用性之间的最佳状态,从而满足当代动态数据中心的管理需要。

mdc综合管理系统横跨了传统的ups、空调等基础架构管理以及服务器、网络等it设施管理,并且和it运维紧密的结合。目前的数据中心通常使用多种不同的工具,采用静态而不是实时的数据来计划和预测,并且这些数据通常还是存储在不同的系统当中。在这种情况下,数据中心管理人员的工作是效率低下的,也不可能对物理设施需求的进行预测,更不可能让这些设施工作在最佳状态。

比如由于高密度计算的引入,可能在一个机架内2组刀片服务器已经消耗完了这个机架规划配给的电量和制冷,但是却会在这个机架遗留下空余的u空间以及pdu插座,而如果数据中心管理人员不能准确对该机架的电量消耗和制冷需求进行把握,发现还有u位就盲目上架新的服务器,就会造成事故。

mdc综合管理系统提供了实时、精确和完整的信息,从而为数据中心管理者提供了运营所需要的真实容量和设备运行状态,使得数据中心能够在提升效率的同时而不降低可用性。

当前单纯的it设备管理系统技术相对比较成熟,针对it设备往往采取只监不控的状态,如果与动力与环境监控系统进行融合,要有专门的技术人员针对策略进行设计,因为it设备有可能与动环设备告警直接关联,如当现场温度过高时,动环系统会出发响应的告警信息,而同时可能引起的it设备宕机也会进行报警,所以如何有效的将这两条报警进行优化合并,对单纯的it设备管理系统开发人员而言是个很大的挑战。

同时it运维人员也要具备资产管理知识,合理安排机架u位,充分利用资产和资源,及时根据it需求来对基础设备进行动态的调整,如图2所示,虚线表示流程不够完善。

数据中心基础设施l1层种类繁多,协议复杂,从而使it网管厂家难以掌握,通常it网管厂家仅仅是把数据进行采集并监控,而将建设重点放在对it服务的流程和资产管理上,可能会忽略对数据中心的全局分析与把握。

此外,还可以进行告警联动的全局分析,比如市电停了,可能会引起ups报警,配电柜也报警,it设备也报警,应用程序服务也报警,通过复杂事件处理分析,可以找到根本原因,避免大量告警刷屏,给运维人员和用户带来不变,不利于问题定位与解决,便于快速进行相应的处理。

一种基于mdc的综合管理方法,其实现过程为,首先对硬件设备及it设备均进行监控,然后将监控数据通过南向接口传输给信息处理模块,信息处理模块将监控数据通过协议封装后,通过北向接口发送到mdc管理平台中,所述信息处理模块配置有协议解析层、设备id规则、复杂事件处理模块,其中协议解析层、设备id规则解析监控硬件设备及it设备信息传输采用的协议及id采用的数字排列方式,这里解析的协议包括ipmi协议、redfish协议、snmp协议、smi-s协议,然后将包括信号信息、告警信息、控制信息、配置信息的监控信息发送到复杂事件处理模块,由复杂事件处理模块则通过告警信息确定告警源,所述信号信息为设备监控信息,告警信息为设备发出的告警信息,控制信息为控制设备的信息,配置信息为设备管理配置信息。

针对mdc业务,对于it设备的管理,仅限于it设备硬件底层管理,不涉及it设备的业务层面管理,以区别业界专业it管理工具。对硬件设备及it设备均进行监控通过以下方式获取:

snmp轮询监控和trap主动上报方式;

ipmi带外监控风扇、电源、电压和温度、远程开关机服务等;

syslog方式监控设备日志,通过syslog协议接收和储存被监控的网络设备、服务器的日志,提供查询和管理、设置指定关键字日志监控等高级功能;

ping方式监控网络设备时延及可用性。

硬件监控技术实现方案共三种,智能平台管理接口ipmi协议、redfish协议、snmp协议。智能平台管理接口是一种开放标准的硬件管理接口规范,它有两个好处,首先允许进行带外管理,硬件监控不依赖于其上的操作系统,其次,操作系统不负担传输系统状态数据的任务,mdc综合管理系统基于ipmi2.0协议获取硬件设备的fru、chasis、sdr、sensor等信息并对其进行筛选、处理得到cpu、内存、硬盘、风扇等硬件相关信息,并实时监测硬件健康状态。通过协议封装(ipmi,snmp等),将服务器、交换设备、存储设备等进行融合,如图3。

所述硬件设备监控是指对动力配电、场地安全、场地环境进行监控,其中动力配电包括高低压配电、开关电源、ups、ats、蓄电池、发电机、照明信息监控;场地安全包括温湿度、漏水、空调、新风机、空气质量信息监控;场地环境包括门禁、闭路监控、防盗报警、消防、防雷器信息监控,更为具体的信息如图4。

所述被监控的it设备包括it硬件类、it软件类,其中,

it硬件类包括:存储硬件监控、服务器硬件监控、网络设备硬件监控三类硬件监控,监控的内容包括:前置面板的状态、fan状态、电池状态、电源状态、硬盘状态、raid卡状态、cmos电池状态、主板状态、内存状态、cpu状态、温度、fan转速、io模块状态;

it软件类包括:数据库,监控包括cpu使用率、内存大小、表空间利用率、sga命中率、session状态的信息,其中session状态包括系统用户数、系统占用率;中间体,监控包括服务状态、服务器进程状态、ejb缓存命中率、当前执行队列吞吐量、当前执行队列长度、tcp服务状态、最大堆空间、对空间利用率的信息;业务进程监控,监控包括进程运行状态、进程cpu利用率、进程内存利用率、服务端口状态及连接的业务系统进程参数,包括模块运行状态、模型性能参数、接口运行状态、接口性能参数、事件的业务系统内部参数;网络拓扑,监控包括网络拓扑的呈现于分析信息;iis服务,监控包括iis服务运行状态、web服务器的可用性、weburl的相应时间、iishttp最大并发连接数、输出字节流量和输入字节流量、平均请求数、平均http423错误数、平均http424错误数的信息。

所述存储硬件监控是指在现有的存储系统中,通过snmptrap实现告警转发功能,将系统中出现的各种类型的告警通过trap的方式向外转发,光纤交换机除了进行snmptrap监控方式以外,还可通过监控其syslog的方式,实现对设备告警信息的采集;在服务器硬件监控中,以errlog日志记录系统所检测到的软硬件故障和错误;网络设备硬件的监控管理包括两种模式:syslog和trap模式;硬件监控时通过监控数据的采集、监控阀值、告警动作设定、报表展现步骤实现,

所述it硬件类中的网络设备包括交换机、路由器,且该it硬件类监控的具体内容为:服务器,监控包括cpu、虚拟内存、磁盘分区、进程信息、网络信息、错误日志的信息;交换机,监控包括系统名称、运行时间、cpu、内存使用率、端口名称、端口状态、端口流量的信息;路由器,监控包括cpu、内存使用率、端口状态、端口流量的信息;存储,监控包括运行状态、网络驱动器使用率、错误日志信息。

所述信息处理模块具体完成以下功能:

数据采集功能:即通过协议解析层和设备id规则,对各种被监控对象的采集数据,适配器采用的通信协议及通信接口,这里的通信接口包括rs232/422/485、rj45接口;

数据传输功能:通过轮询、主动上报两种数据传输方式,来支持上述南向接口、北向接口;

数据处理功能:即通过上述复杂事件处理模块,对数据采集上传的各种设备数据进行加工、分析和处理。

所述复杂事件处理模块还实现以下功能:数据存储、系统组态、系统告警分析和发送、记录系统日志、设置权限进行管理、提供系统报表、进行系统维护,所述系统组态功能包括设备组态,即设备模板、页面组态,即页面模板、策略组态。

所述被监控的it设备通过ipmi接口,由基板管理控制器bmc获取被监控信息,智能平台管理接口ipmi是一种开放标准的硬件管理接口规格,定义了嵌入式管理子系统进行通信的特定方法。ipmi信息通过基板管理控制器bmc(位于ipmi规格的硬件组件上)进行交流。使用低级硬件智能管理而不使用操作系统进行管理,具有两个主要优点:首先,此配置允许进行带外服务器管理;其次,操作系统不必负担传输系统状态数据的任务。

跨硬件平台管理各厂商服务器及it设备功耗和温度等,提供统一集成接口的中间件,以及基于webserviceapi接口,如英特尔。

一般来说,bmc具有以下功能:

通过系统的串行端口进行访问;

故障日志记录和snmp警报发送;

访问系统事件日志(systemeventlog,sel)和传感器状况;

控制包括开机和关机;

独立于系统电源或工作状态的支持;

用于系统设置、基于文本公用程序和操作系统控制台的文本控制台重定向。

通过ipmi,用户可以主动监测组件的状况,以确保不超出预置阈值,例如服务器温度。这样,通过避免不定期的断电,协助维护了it资源的运行时间。ipmi的预告故障能力也有助于it周期的管理。通过检查系统事件日志(sel),可以更轻松的预先判定故障组件。

所述被监控的it设备还提供api接口,实现以下功能,

动态功耗监控:测量服务器平台的实际功耗,从pmbus电源处收集信息,从而提供实时的功耗数据并通过ipmi接口进行报告。

平台功耗设限:将平台功耗设置为限定目标功率,同时保持在该功耗限额下的最佳性能。通过ipmi接口从一个外部管理控制台接收功耗管理策略,并通过动态调整cpu运行主频,达到提高性能功耗比的目的。

在本发明中,还使用intelnodemanager技术,intelnodemanager是一个内嵌于intel服务器芯片组的功率管理技术。通过数据中心管理软件配合,能够实时监控服务器功耗,并在数据中心层面进行动态调整,从而实现提高数据中心机架密度,降低运维成本的目的。

通过使用intelnodemanager,it管理者可以从嵌入在芯片中的指令监测服务器的实际功耗和温度,从而不需要根据标称值得出估计值来做决定。

intelnodemanager可为服务器功耗设置上限值,使it管理者能够获取最大的机架密度,同时还能确保总功耗不会超过机架功耗容量。当功耗或温度发生紧急情况是,intelnodemanager能够自动限制服务器功耗,延长使用电池正常工作的时间,或为服务的及时迁移争取更多时间。

具体实例:

数据中心综合管理系统采用跨平台技术,可部署在windowsserver2008/centoslinux两种操作系统上。web服务采用apache软件提供。本系统数据库包含实时数据库和历史数据库,历史数据库采用mysql软件提供服务。系统内部使用南向接口采集微模块监控主机的数据,有数据分发模块将数据分发给各种用户端,北向接口提供第三方集成服务,告警服务模块负责告警信息的发送。

mdc综合管理系统融合了传统的ups、空调等基础架构管理以及服务器、网络、存储等it设施管理,并且和it运维紧密的结合,并且能够提供实时的数据支持,还能对未来的需求和变更进行预测。

实时管理和监控关键的基础架构设备,通过让设备运行在最佳状态,设置合适的阈值,可以改善能耗效率达30%。

利用实时的、统一的、信息共享的管理平台升级传统的excel管理模式,取代离散的管理工具,可以提高管理效率达70%。

通过监控关键基础架构设备的利用率,以及它们支撑的负载,充分利用设计余量来减少和延缓后续投资,提高设备利用率的同时不降低可靠性。

建立虚拟机和物理架构之间的对应关系,实时的阈值预警及告警管理,有利于用户快速定位故障,减少宕机机率。

通过单一的、安全的管理平台取代过去多方的、不同安全等级的离散系统,减少非授权的系统操作,提高安全性。

一体化的产品设计,减少部署、维护和管理成本,降低用户tco。

本发明通过大量且实时的收集来自it和基础架构设备的数据,并通过分析聚合成简单、有效的功能模块呈现给用户,从而弥补传统it和基础架构之间的鸿沟,帮助管理人员评估和管理数据中心,做出正确的决策,使得数据中心能够在保持低tco的同时,仍具有很高的可用性,用低成本实现高价值。

采用融合架构设计,mdc综合管理平台融合mdc动力与环境监控、机房动力与环境监控及安防等系统,服务器及存储设备、网络设备、链路管理,实现链路等通信线路监控,结构清晰,支持syslog日志分析。

综合管理系统也是一个数据采集、加工处理、统计分析的数据管理平台。系统监测的数据,一方面用来实时反映基础设施当前的运行状态指标,以便数据中心机房维护管理人员第一时间发现问题,及时消除,避免对数据中心所支撑的各个业务应用的影响;另一方面,按照一定的原则和要求,保存历史监控数据,用于日后事故追踪、查询统计和趋势分析。

在提供可靠的、易用的监控管理平台的前提下,系统采用模块化、开放性的设计架构,系统的软硬件设计采用模块化可扩充结构及标准化模块接口,便于系统适应不同规模和功能要求的监控网络系统,支持监控平台在技术应用和管理方面的持续发展,成为数据中心中基础设施与环境精细化管理的有效支撑平台。

本发明中,采用机房网管+动力环境一体机设计方案,通过高效和安全的linux操作系统、模块化设计的软件进行优化整合,形成的一体化产品具有更高的稳定性和性能,并且易于部署和维护。系统依赖linux上高效安全的防火墙能力,得到可靠的安全保护,不用担心会受到外来攻击和感染病毒而引发系统崩溃所带来的风险。

系统以对带宽占用低、目标网络设备、服务器等性能占用接近零为设计原则,数据采集程序进行特别优化。在满足监控所需数据的情况下,不占用任何额外的带宽,以及对目标的访问。

c语言实现业内最优的网络拓扑发现算法,最快发现网络拓扑、更新网络资源信息,占用带宽资源更小,影响更低。拓扑算法支持icmp、cdp、fdb、stp、lldp等最全面的算法,更适应复杂的网络环境。

最全面和深入支持ibmimm管理卡、dellidrac卡、hpilo2卡,以及所有国内外厂家服务器的ipmi协议,对服务器进行硬件、操作系统、软件的多层立体监控。

模块化和可扩展性的优势不难理解,即要支持“边成长边支付”的扩容模式、具有更强大的容错能力以及更短的平均故障恢复时间等。

灵活性的重要性在于,即使数据中心在未来发生演进和变化,软件套件仍能继续保持其效用。如果软件的扩展或升级非常困难且/或成本高昂,那么随着兼容问题的出现或功能的丧失,软件极有可能被淘汰。

模块化设计意味着系统的构建是基于以前的实践经验和经过实地检验和认可的最佳实践。模块化设计则意味着大部分旨在支持软件与电力、制冷和it系统通信并解读这些系统的输出数据的复杂编程工作已经全部完成。简言之,我们应当避免使用基于“一次性专用”设计的高度定制化管理系统和软件。但是,标准化和预制化并不意味着系统不可以定制。事实上,一个设计精良的模块化系统应当能够在不影响整体系统完整性的前提下通过改造工具包来适应特定的需求

创新的互联网云运维平台接入,接入互联网云运维平台,可对接微信,享受更便捷和更前沿的服务。通过授权,系统可对外提供标准接口。第三方系统通过接口可获得监控系统的所有实时监控数据、实时故障通知、各种统计数据以及历史监控数据等。

通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

除说明书所述的技术特征外,均为本专业技术人员的已知技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1