一种基于单向网闸环境的跨域运维系统的制作方法

文档序号:19495477发布日期:2019-12-24 14:52阅读:391来源:国知局
一种基于单向网闸环境的跨域运维系统的制作方法

本发明属于跨域运维管理技术领域,尤其涉及一种基于单向网闸环境的跨域运维系统。



背景技术:

信息化是当今世界发展的重要趋势,信息技术的高速发展,以前所未有的速度推动着世界技术革命向前迈进,信息已成为当今社会军事、金融、交通、教育、电力等各个行业领域最活跃的因素。新形势下,国家也确立了信息化战争的战略目标,加速走出一条机械化和信息化建设的复合发展道路。在此背景下,信息化在各行各业硬件建设中所占的数量在逐步增加,所起到的作用也越来越大,在信息化系统规模不断增大的同时,随着各类新兴技术的不断投入使用,信息系统的架构也越来越复杂。

信息化不但要做好前期的建设工作,后续的运维管理也很重要。只有做好日常的运维管理,才能够更好的发挥信息系统应有的功能,确保信息系统能够长期稳定地运行,能够及时发现甚至预测系统中所出现的故障,并能够及时地予以处理或提出相应的预防措施和手段。通过建设专业的、功能全面的运维管理系统,为日常的运维管理在技术方面提供有力的支持,提高故障发现的精准度,缩短故障解决的周期,提升运维保障的效率。

然而,随着业务的扩展和技术的提高,对运维管理系统的要求也越来越高,当某个数据中心采用分布式部署在多个物理位置时,缺少高密级核心网端与各个低密级子网端的跨域运维监控。



技术实现要素:

本发明的目的是提供一种基于单向网闸环境的跨域运维系统设计,以解决企业大型数据中心综合运维过程中不同密级网端间资源态势监控的问题。

实现本发明目的的技术解决方案为:一种基于单向网闸环境的跨域运维系统,包括n个子网运维管理系统(n为自然数)、单向网闸和核心网运维管理系统;

所述子网运维管理系统用于,通过单向网闸对外发送运维数据;

所述子网运维管理系统还用于,监控当前数据中心设备的运维状态,同时接收归属当前数据中心但地理位置在异地的数据汇聚中心(可将数据汇聚中心理解为机房)的运维监控数据;

所述核心网运维管理系统用于,监控当前数据中心设备的运维状态,同时通过单向网闸接收其他数据中心的运维监控数据;

在核心网运维管理系统中能够查看其他子网端监控的数据中心的运维数据,在子网运维管理系统中只能查看本网端监控的数据中心的运维数据;

所述单向网闸是单向通讯的,负责接收各个子网运维管理系统各类资源的运维监控数据,并上送核心网运维管理系统。

所述系统能够在单个服务器上运行,也能够在m个服务器上运行,m为大于等于2的自然数;

在一台服务器上部署所述系统时,监控单个数据中心的运维状态;

在m个服务器上部署对应的m套系统时,监控两个以上的独立数据中心的运维状态。

数据中心即大型it资源(计算设备、存储设备、网络设备等)的集合,可理解为多个机房的集合。

所述子网运维管理系统的密级低于核心网运维管理系统的密级。

每个子网运维管理系统均包括子网运维管理系统数据采集模块和告警管理模块;

所述子网运维管理系统按照区域自治的方式进行自我管理,子网运维管理系统数据采集模块接收本网络范围内各个数据汇聚中心的各种资源设备的基本信息、状态信息和运维数据,将接收到的数据进行归并和统一格式化后,将资源的状态信息抽取出来,形成本网络的综合运维态势并进行图形化展示,并将数据对内和对外推送;

所述告警管理模块用于定义告警阈值,并发出告警信息。

所述各种资源设备包括硬件服务器、虚拟机、存储器、交换机、路由器、中间件、容器、软件、应用程序;

所述基本信息包括资源的设备型号信息、配置信息、采购使用信息、投产使用信息、位置信息;

所述状态信息包括资源的运行状态(正常/异常)、告警状态(是否告警/告警等级);

所述运维数据包括cpu使用率、磁盘使用率、内存使用率、端口流量。

所述将数据对内推送是指子网运维管理系统数据采集模块将处理后的运维数据推送到告警管理模块,与告警管理模块定义的告警阈值进行比对,对于超出阈值范围的数据,自动发出告警信息,并对告警源进行定位,即具体定位到故障设备所在位置,协助本网络范围内的资源统一规划。

所述告警阈值是指,给资源的监控指标项定义一个值域范围,若监测采集到的实际值在定义的值域范围内,系统判断资源状态正常,若监测采集到的实际值在定义的值域范围之外,系统判断资源状态出现异常,即发出告警。

所述将数据对外推送是指子网运维管理系统将处理后的运维数据向单向网闸推送,最终通过单向网闸到达核心网运维管理系统。

所述核心网运维管理系统收集各个子网运维管理系统向上报送的已经格式化的各种资源设备的状态信息和运维数据,将资源的状态信息抽取出来,在核心网运维管理系统形成全网综合运维态势并进行图形化展示,此外还提供告警功能。

所述核心网运维管理系统包括核心网运维管理系统数据采集模块和告警管理中心模块;

所述核心网运维管理系统数据采集模块将运维数据推送到告警管理中心模块,再与告警管理中心模块定义的告警阈值进行比对,对于超出阈值范围的数据,自动发出告警信息,并对告警源进行定位,即具体定位到网络下面的数据汇聚中心,协助全网范围内的资源统一规划。

所述系统通过执行如下步骤完成跨域运维:

步骤1,分别在高密级的核心网端和低密级的子网端安装部署跨域运维系统,核心网运维管理系统开放运维态势数据接收接口,子网运维管理系统开放运维态势推送接口,两者通过单项网闸链接;

步骤2,系统部署完毕后,根据监控的资源类型配置监控项和告警阈值;如计算资源配置的监控项为:cpu使用率、内存使用率、磁盘使用率等;告警阈值设置为cpu使用率85%、内存使用率80%、磁盘使用率90%。当系统实际监测采集到的监控项指标值cpu使用率>85%或者内存使用率>80%或者磁盘使用率>90%,即产生告警。

步骤3,系统投入运行后,子网运维管理系统收集所辖范围内各个数据汇聚中心的资源状态信息,将资源状态信息与告警管理模块定义的告警阈值进行比对,对于超出阈值范围的数据,自动发出告警信息,并对告警源进行定位,即具体定位到故障设备所在位置,同时按照数据汇聚中心的点形成各个点的资源态势,并进行图形化展示;

步骤4,子网运维管理系统将所监控资源设备的基本信息及其状态信息抽取出来,向单向网闸发送,单向网闸接收到子网运维管理系统发送过来的数据后,写入子网运维信息文件,并将文件加密后存储;

步骤5,核心网运维管理系统通过单向网闸指定的位置访问子网运维信息文件,对子网运维信息文件解密和分析处理后将所有数据进行图形化展示,最终形成全网综合运维态势图;同时对各个子网端的运维故障进行协同定位,即具体定位到网络下面的数据汇聚中心,并在全网综合运维态势图上进行异常提示。

针对现有技术的问题,本发明考虑地处不同地理位置、密级不同的数据中心数据不能直接访问,不能在同一个网端进行全网资源监控的情况,设计了一种基于单向网闸环境的跨域运维系统。通过在不同密级的网络间设置单向网闸限制数据流转,低密级网端通过单向网闸向高密级网端传输数据;高密级网端再对数据进行解析和展示,将对子网的故障处置方案以及资源综合规划方案发送到子网运维管理系统,交由子网端的运维人员执行操作。该系统实现了跨密级跨域资源的综合监控,具有监控资源覆盖范围更广,故障解决更精准高效、资源分配更合理等特点,可推动企业数据中心运维智能化、无人化的发展。

有益效果:本发明与现有技术相比,其显著优点为:扩大了资源监控的网域范围,将综合运维管理系统原先只能监控本网络资源的功能扩展到可监控不同区域不同密级网络的资源,提升了故障定位的精准性、资源分配的合理性,可推动运维管理智能化发展。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。

图1为本发明基于单向网闸环境的跨域运维系统的系统组成图。

实施例

如图1所示,为本发明基于单向网闸环境的跨域运维系统的系统组成图。

某云化数据中心想要引入本发明所述运维系统,在引入本系统时,数据中心各网端的数量和设备的运行状态并不确定,本例假设有3个网端(核心网端、子网端a、子网端b),取4个典型情况来说明。

将3个网端间的通信打通,在高密级的核心网端和低密级的子网端分别部署跨域运维系统,其中核心网端开放全网综合运维态势功能,也即开放了运维态势数据接收接口。分别在各个网端配置对计算、存储、网络、安全等资源设备的监控。

情况1:数据中心投入使用一段时间后,核心网端监控的设备发生故障,如某个计算资源服务器发生宕机无法自启动时,核心网端运维管理系统发出详细告警信息,包括该计算资源的基本信息、故障发生时间、故障类型、故障持续时间、故障状态等信息。同时全网综合运维态势监控界面发出告警,提示核心网端有一个计算资源服务器发生故障。直到核心网端的运维人员确认故障解决后,告警才解除。

情况2:数据中心投入使用一段时间后,子网端a监控的设备发生故障,如某个交换机服务器发生宕机无法使用时,子网端a的运维管理系统发出详细告警信息,包括该交换机服务器的基本信息、故障发生时间、故障类型、故障影响范围、故障持续时间、故障状态等信息。同时核心网端的全网综合运维态势监控界面发出告警,提示子网端a有一台交换机发生故障,核心网端的运维人员可在拓扑图上查看故障的具体位置及影响范围。当子网端a的故障解决了并且运维人员在系统上进行确认后,子网端a和核心网端的告警都会解除;如若告警超过一定时间阈值范围还未解除,核心网端的运维管理系统就向子网端a的运维管理系统发出业务通知,子网端a的运维管理系统向责任运维人员发出业务提醒通知。

情况3:数据中心投入使用一段时间后,子网端a监控的设备发生故障,如某个虚拟机发生宕机无法继续使用,但只需重启即可解决问题时,子网端a的运维管理系统发出详细告警信息,包括该虚拟机的基本信息、故障发生时间、故障类型、故障影响范围、故障持续时间、故障状态等信息。子网端a的运维管理系统根据故障类型自动选择故障解决方案,将指令发送给相应的业务管理系统,业务管理系统根据接收到的指令自动执行相应的脚本。核心网端也会对这一故障从发生到解决的过程有所体现和记录。

情况4:数据中心投入使用一段时间后,子网端b监控的设备资源使用率过高发生告紧,如某存储设备c的磁盘使用率达到90%,子网端b的运维管理系统发出预警信息,包括该存储设备的基本信息、资源使用率、影响范围等信息。同时核心网端的全网综合运维态势监控界面发出预警,提示子网端b的存储设备c的磁盘空间告紧。当子网端b的告紧解决后,子网端b和核心网端的预警都会解除;如若预警超过了一定时间阈值范围还未解除,核心网端的运维管理系统就向子网端b的运维管理系统发出业务通知,并给出规划建议,子网端b的运维管理系统向责任运维人员发出业务提醒通知。

本发明提供了一种基于单向网闸环境的跨域运维系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1