一种基于数据中心的事件统一管理方法与系统与流程

文档序号:16061073发布日期:2018-11-24 12:11阅读:337来源:国知局

本发明涉及模块化数据中心技术领域,特别是一种基于数据中心的事件统一管理方法与系统。

背景技术

当前,随着云计算、大数据和互联网的快速发展,信息化的基础设施发生了根本转变,监控管理的需求从一些单独的系统要求转化为整体平台化、统一平台、统一管理的系统要求。各项应用服务器不再是单独的计算模块,而是通过云计算、大数据等平台将计算、存储资源统一起来,跨越数据中心范围形成规模庞大、统一监控与管理的资源池,因此需要能够监控大规模、分布式、跨地域的虚拟资源与物理资源的统一监控系统。

数据中心基础设施是云计算架构的核心,它提供给用户对包括cpu、内存、存储、网络等计算资源的使用,有效减轻了it运维的成本和复杂性。云计算架构具有分布式、跨网络、资源种类多的特点,随之而来为资源管理方面带来了前所未有的挑战,相比于传统服务器集群架构,除了对web服务器、应用服务器等物理资源的管理,还需要对cpu、内存、存储、网络、虚拟机等虚拟资源的统一管理。

对资源和服务的有效管理是云计算交付过程中的一个核心要求。根据云计算架构层次划分可以分为硬件平台管理、虚拟化平台管理、中间件管理、应用管理等,根据功能对象的不同可以分为用户管理、存储管理、网络管理、计算管理等。数据中心运维管理体系不是一蹴而就的,而是一个由多个管理平台组成的一个整体,各个系统之间松散耦合,同时又提供各类集成接口,实现一体化管理。“统一管理、统一监控、统一运维“是运维监控系统的精髓所在,因此数据中心综合管理系统事件统一管理的建设需要进行严谨细致的设计的工作,如果不能够做到科学规划,各个系统和产品之间没有沟通、独立实施的话,各种信息无法在统一的界面进行集中的呈现,各种信息也无法做到有效的关联分析,导致各类有用的信息形成信息孤岛,而不能帮助运维人员迅速找到系统故障的根源,同时给我们带来的后果就是需要在多个系统中来回切换查看各类分散的数据,给工作造成了极大的不便。

但目前缺少统一集中的监控工具,各种监控信息无法在统一的界面进行集中的呈现,同时各种信息也无法做到有效的关联,导致无法找到故障的根源,造成了人力的极大浪费。我们认为系统产生的各类数据都应将之转换为不同角色人员需要的信息,这样才能充分发挥集中监控平台的作用。例如将事件数据、性能数据、资源资产数据等核心指标进行统计分析形成相应报表,在统一的界面上反映系统的运行状况、性能和故障状况,为不同角色的人员呈现他们需要了解的各类数据,为系统将来的扩容或优化提供基础依据,同时也能帮助运维人员快速定位到故障的根源。



技术实现要素:

本发明的目的是提供一种基于数据中心的事件统一管理方法与系统,旨在解决现有技术中数据中心性能不佳以及难于管理的问题,实现对系统事件进行统一管理,实现高可用性以及高可靠性。

为达到上述技术目的,本发明提供了一种基于数据中心的事件统一管理方法,包括:

s1、收集事件;

s2、处理事件;

s3、设置事件指标基线;

s4、定义事件升级规则;

s5、设置事件台;

s6、传送事件信息。

优选地,所述收集事件以agentles事件收集方式进行。

优选地,所述agentles事件收集方式获取的数据包括:网络设备数据、主机数据、数据库数据、j2ee平台数据、ldap数据、web服务器数据和存储数据。

优选地,所述处理事件包括根本原因分析、事件关联分析、自动压缩资源可用性事件和自动屏蔽重复故障事件。

优选地,所述传送事件信息的方式包括邮件事件、短信事件和微信事件。

本发明还提供了一种基于数据中心的事件统一管理系统,包括:

事件收集模块,用于收集事件;

事件处理模块,用于处理事件;

基线设置模块,用于设置事件指标基线;

规则定义模块,用于定义事件升级规则;

事件台设置模块,用于设置事件台;

事件传送模块,用于传送事件信息。

优选地,所述收集事件的方式为agentles事件收集方式。

优选地,所述agentles事件收集方式获取的数据包括:网络设备数据、主机数据、数据库数据、j2ee平台数据、ldap数据、web服务器数据和存储数据。

优选地,所述事件处理模块包括:

根本原因分析单元,用于根本原因分析;

关联事件单元,用于事件关联分析;

可用性事件压缩单元,用于自动压缩资源可用性事件;

重复事件屏蔽单元,用于自动屏蔽重复故障事件。

优选地,所述传送事件信息的方式包括邮件事件、短信事件和微信事件。

发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:

与现有技术相比,本发明设计合理的数据中心系统事件统一管理方法,通过设计的基于高可用事件的统一管理平台的框架接口,使数据中心统一纳入所设计的综合服务框架之下,构建一个高效、稳定的数据中心综合管理系统,解决了现有技术中数据中心性能不佳以及难于管理的问题,对系统事件进行统一管理,尤其在设计物理资源与虚拟资源同时需要监控的场景,将管理系统搭建在事件统一管理架构上,对于研究类似高可用性管理、统一管理等系统具有重要的参考意义。

附图说明

图1为本发明实施例中所提供的一种基于数据中心的事件统一管理方法流程图;

图2为本发明实施例中所提供的一种基于数据中心的事件统一管理系统结构框图。

具体实施方式

为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种基于数据中心的事件统一管理方法与系统进行详细说明。

如图1所示,本发明实施例公开了一种基于数据中心的事件统一管理方法,包括以下步骤:

s1、收集事件;

数据中心支持agentles事件收集方式,agentles无代理监控技术不需要在被管理的主机或者应用上安装任何软件,采用多种采集方式达到对主机、应用和数据库的监控。

通过agentles事件收集方式可以获取的数据包括:

网络设备数据,所述网络设备包括交换机、防火墙、路由器、安全设备等;

主机数据,所述主机操作系统包括solaris、raspx、windows、linux等;

数据库数据,所述数据库包括sqlserver、mysql、oracle等;

j2ee平台数据,所述j2ee平台包括websphere、weblogic、tomcat、jboss等;

ldap数据,所述ldap包括ibmtivolidirectoryserver、sunjesdirectoryserver等;

web服务器数据,所述web服务器包括apache、iis等;

存储数据,所述存储平台包括浪潮,emc存储平台等。

s2、处理事件;

数据中心对收集到的各类系统事件和应用事件进行压缩、关联、过滤等分析处理,并可统一进行展现。在事件发生时,通过事件过滤、压缩和事件根本原因分析等方式帮助管理人员准确定位故障,及时处理问题,提高工作效率。

所述事件处理包括提供根本原因分析、事件关联分析、自动压缩资源可用性事件和自动屏蔽重复故障事件。

当电源等设备出现故障后,将会引发连锁反应,导致其他的应用或者主机全部都不可访问,而这个时候,管理人员看到的将是大量的故障事件。管理人员很难迅速从这样大量的事件中,发现真正的故障根源。而通过根据原因分析,可快速发现故障根源,缩短恢复事件,最大挽救经济损失。

通过事件关系分析,可将相关的事件组织在一起,达到一条事件一条报警,一个列表展现的精简运维方式。

所述自动压缩资源可用性事件可对资源可用性事件进行压缩,从而减轻管理人员的工作量。

所述自动屏蔽重复故障事件,可减少事件的不必要可用性报警事件。例如,设备宕机了10个小时,it管理员只会收到一条事件,数据中心综合管理系统的事件压缩功能把数十条重复性事件压缩至一条。从而有效提高管理人员效率。

s3、设置事件指标基线;

对于某些特定的设备可能会存在个性化的监控设置,比如某台服务器,在周一至周三期间的早高峰使用比较频繁,报警阈值需要调的比较高,而周四周五两台该服务器使用频率不高,报警阈值需要调低,数据中心综合管理系统产品提供了事件指标基线设定的功能来满足这一要求,同时提供天基线、周基线、自定义事件基线三种不同的设置方式供选择。

比如,cpu利用率这个指标,如果设置天基线在9点至10点之间,则表示该时间段内的cpu利用率阈值与其他时间段不同;如果设置周基线在周一至周三早10点至11点,则表示该时间段内的cpu利用率阈值与其他时间段不同;如果设置自定义基线,则选定日期内的cpu利用率与其他时间段内的指标阈值不同,指标阈值不同也就意味着事件产生也将不同,实现更加灵活的事件控制。

s4、定义事件升级规则;

对于持续时间较长,如未确认(开始处理)或未清除(未解决)的事件,或者事件重复发生次数较多的事件,所述方法能够提供事件升级规则定义功能,其包含满足何种条件触发事件升级处理流程,如持续时长或重复次数等内容。

s5、设置事件台;

由于监控的种类包括基础架构、服务器、应用、业务、脚本等多种内容,各自监控后产生的报警信息则需要一个统一的实时事件平台可以直观的将所有监控内容的事件信息囊括进来,因此所述方法进行事件台的设置,通过对事件台事件的分析,得出数据中心信息化运维效果的持续改进过程。

s6、传送事件信息。

数据中心在系统产生事件时,可通过以下几种方式进行事件信息传送:

邮件事件,数据中心可以通过任意邮件服务器来实现邮件事件,既可以通过企业内部的邮件服务器,也可以通过外网的公用服务器,并提供了灵活的定制策略来配置事件内容。

短信事件,数据中心提供短信事件功能,可通过安装短信modem轻松实现短信手机事件。

微信事件,数据中心提供微信事件功能通知,可通过申请企业微信账号,利用微信应用配置实现手机微信事件通知。

所述方法提供事件过滤功能,针对单位时间内发生大量事件的情况,按维护要求、管理部门要求及实际管理情况,从底层提取的事件信息中滤掉不重要的信息,减少轻微事件的干扰,以提高监控与处理的效率。提供灵活的过滤规则,可按事件发生网元、事件级别等设置过滤规则。对过滤后的事件进行事件信息传送。

本发明实施例设计合理的数据中心系统事件统一管理方法,通过设计的基于高可用事件的统一管理平台的框架接口,使数据中心统一纳入所设计的综合服务框架之下,构建一个高效、稳定的数据中心综合管理系统,解决了现有技术中数据中心性能不佳以及难于管理的问题,对系统事件进行统一管理,尤其在设计物理资源与虚拟资源同时需要监控的场景,将管理系统搭建在事件统一管理架构上,对于研究类似高可用性管理、统一管理等系统具有重要的参考意义。

如图2所示,本发明实施例还公开了一种基于数据中心的事件统一管理系统,包括:

事件收集模块,用于收集事件;

事件处理模块,用于处理事件;

基线设置模块,用于设置事件指标基线;

规则定义模块,用于定义事件升级规则;

事件台设置模块,用于设置事件台;

事件传送模块,用于传送事件信息。

所述事件处理模块包括:

根本原因分析单元,用于根本原因分析;

关联事件单元,用于事件关联分析;

可用性事件压缩单元,用于自动压缩资源可用性事件;

重复事件屏蔽单元,用于自动屏蔽重复故障事件。

所述收集事件的方式为agentles事件收集方式,以agentles事件收集方式获取的数据包括:网络设备数据、主机数据、数据库数据、j2ee平台数据、ldap数据、web服务器数据和存储数据。

所述传送事件信息的方式包括邮件事件、短信事件和微信事件。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1