一种数据中心集中预警监测的方法和系统与流程

文档序号:16390289发布日期:2018-12-22 11:21阅读:335来源:国知局
一种数据中心集中预警监测的方法和系统与流程

本发明专利涉及一种对数据中心机房进行预警监测的方法和系统,特别是对智能数据中心机房的动力系统、环境系统、安防系统、主机运行情况进行集中预警和监测。

背景技术

我国机房监控工作始于上世纪90年代末,国家邮电部在1996年发布的机房电源系统总体技术要求中明确要求机房电源系统实行集中监控。

数据中心机房监控系统基本都是针对单一监控领域逐步发展起来的,主要包括动力系统监控、环境系统监控、安防系统监控、主机运行监控等。目前国内数据机房监控系统主要还是采取单一监控系统。

动力系统监控主要是监控机房供电系统,包括交流配电柜中电压、电流、温度及开关状态参数,以及ups电源电压、电流、温度、运行状态等参数,目的是保证基础供配电系统正常并在被监测参数指标超过预设的阈值时发出告警信号。

环境系统监控主要是监控机房的环境,包括空调运行状态,环境的温度、湿度,烟雾检测,漏水检测等,目的是保证机房能够提供适合电源、服务器、网络设备等正常工作的温湿度环境。

安防系统监控主要是监控机房重要区域的非法入侵,包括门禁系统,周界安防等,并通过视频监控进行分析录像取证,目的是保证机房的人员运行安全。

主机运行监控主要是对数据机房内重要的服务器主机和网络设备进行运行状态监控,包括主机cpu、内存占用率、带宽占用率等,目的是保证主机服务器和网络设备等正常工作。

当前大多数据中心机房各监控子系统独立运行。

目前存在的主要问题是:

1、系统分散,维护不便

当前各监测子系统各自独立运行,不利于进行系统的统一监管和统筹规划,同时,每个监控子系统都有各自独立的登录密码,增加了运维人员管理的难度。

2、系统分散,资源浪费

目前几乎每个监测子系统都占有单独的服务器,各自独立运作的方式对资源的占用就比较庞大,造成了的资源浪费。

3、监测手段较局限

目前机房监测系统都是使用的传统监测技术进行监测,尚存在监测不到位甚至监测空白的情况。特别是有源检测的方式不可避免的引入了一些安全隐患。

4、预警能力有限,决策支持力度不足

目前安装的各监测子系统,无论监测的是温度、湿度、电压、电流还是安防信息,基本都只是根据设定的报警阈值进行一个简单的预警。阈值设定过低会造成很多误报,阈值设置过高则可能漏报。阈值告警方式可信度较差,如果处理措施不及时或不适当,则可能造成更大的损失。

5、监控数据缺乏关联分析

目前各监测子系统分散独立,采集的监测数据各成体系,完全没有办法进行数据融合,进行数据的关联分析。

6、巡检能力有待提高

目前对于机房服务器、网络等设备和机柜机架的物理监控,如设备指示灯状态、设备开关状态、机柜门的开关状态、网线的连接状态、机架机柜的姿态等物理状态的检查采取的还是人工巡检的方式。这种方式做不到不间断巡检。



技术实现要素:

本发明专利是为了克服现有监控系统的不足,建立将单级或多级数据中心动力、环境、安防、主机运行各个监测量进行采集、汇聚并集中到统一的监测,然后进行集中展示、分析和预警的系统。本发明专利实现对数据中心进行“集中维护、集中监控、集中管理,集中预测”。

本发明专利由硬件系统和软件系统组成:硬件系统由现场设备、本地监控管理站、上级监控管理中心组成,如图二所示。本地监控管理站与上级监控管理中心通过计算机网络进行连接。系统可根据需要,扩展上级监控中心,最终按照“县——市——省——总中心”由低到高分为四级,实现统一上报和监管。

现场设备包括采集模块、控制模块、协议转换器、智能设备、传感器等。采集模块用于快速采集各传感器以及各设备输出信号;控制模块执行监控中心及现场采集中心发出的控制命令;协议转换器将设备接口转换为监控系统所需的rs485/rs232接口协议,从而进行对智能设备的监控,传感器等将现场检测信号转换为模拟量采集模块、数字量采集模块等设备所需的信号,实现设备的监控;采集的各类数据最终进入数据采集机,并由数据采集机发送给本地监控服务器进行存储和数据分析。

软件系统由三部分组成:服务端软件(server)、客户端软件(client)、web远程浏览器。

服务端软件(server)主要进行数据收集、处理及设备控制及数据存储,监控中心软件实现对所有机房的统一管理,将采集到的原始数据进行分析处理,并将原始数据及处理结果提交数据库进行存储,同时提供监控管理中心、客户端软件(client)、web端软件的数据。并接受客户端软件(client)发出的设备控制命令,并将命令准确无误的发送到监控设备,从而实现对监控设备的控制。当有设备故障报警时,监控中心软件(server)可通过电话语音、手机短信及email等报警方式,通知相关人员进行及时的报警处理。

客户端软件(client)为用户提供直观、友好的管理界面、实时数据显示界面、设备控制界面及报警界面等人机交互界面。通过客户端软件(client)可实时查看各机房的实时数据,可在客户端软件(client)中进行对各种设备的控制;当有设备报警时,客户端软件(client)可弹出报警设备画面,并播放多媒体报警语音提醒值班人员进行及时的报警处理。同时系统提供专家诊断系统,可帮助用户分析设备故障原因及故障处理方案。

本发明专利采用多级模式。本地管理站主要包括本地监控服务器,汇聚来自各采集机的数据并对本地数据进行分析和存储,同时上报监测数据给上级监控服务器。如果产生告警信息,则根据预定的多媒体声光、邮件、短信等方式进行告警输出。

上级管理中心主要包括上级监控服务器。上级监控服务器汇聚来自下级监控服务器的监测数据,对辖区内的监测数据进行备份存储和集中的数据分析,并进行相应的告警输出。在上级管理中心,可以通过pc或者智能手机对辖区内的监测数据进行远程浏览。

本发明专利数据采集采用对象分析方式。

被监控对象按功能可分为动力、环境和安防三大类。动力类监控对象主要包括低压配电、ups、电池组等,环境类监控对象主要包括精密空调、漏水检测、温湿度检测等,安防类监控主要包括视频监控、门禁等。

动力类监控对象中,低压配电设备需采集的参数主要包括三相电压、三相电流、有功功率、无功功率、有功电度、无功电度、功率因数、频率等电量、空气开关状态;不间断电源及电池组需采集参数主要包括三相输入电压、直流输入电压、三相输出电压、三相输出电流、输出频率、蓄电池电压、蓄电池温度、同步/不同步状态、ups/旁路供电、蓄电池放电电压低、市电故障、整流器故障、逆变器故障、旁路故障。

环境类监控对象中,精密空调设备需采集参数主要包括空调主机工作电压、工作电流、送风温度、回风温度,送风湿度、回风湿度、压缩机吸气压力、压缩机排气压力、开/关机、电压、电流过高/过低、回风温度过高/过低、回风湿度过高/过低、过滤器正常/堵塞、风机正常/故障、压缩机正常/故障;漏水检测系统需采集参数主要包括漏水信号、漏水位置、控制器故障;温湿度检测系统需采集参数主要包括温度、湿度、传感器故障信息。

安防类监控对象中,视频监控系统需采集参数主要包括视频图像信息、云台远程控制、设备故障报警;门禁系统需采集参数主要包括门的开关状态、进出人员的基本信息、历史信息查询、设备故障报警。

采集参数由输入参数和输出参数组成。输入参数主要有两种:离散参数和连续参数。离散参数主要包括空调的启动和停止信号,电力柜电源状态指示灯的颜色状态等;连续参数主要包括温度、湿度、电压、电流值等,其中视频图像信号作为一种特殊的连续信号被处理。输出信号为开关量信号,如对空调的启动和停止信号。

本发明专利数据采集接口适配。

对于机房监控系统,需要采集的数据包括动力、环境和安防三大类数据,数据从采集终端到采集机的物理传输方式,集中在串口和以太网口上,如图三所示。比如对于电压、电流、功率、开关状态等电力参数的检测,通过智能电量仪进行检测,从智能电量仪的通讯接口上采集设备实时参数和报警信息,采用rs-485标准进行通信。对于漏水控制器和温湿度控制器,分别从控制器上采集数据,并通过rs-485标准进行通信。对于光纤测温系统,由于光纤解调仪自带rj45接口,所以可通过该接口通过tcp/ip协议进行数据上传,对于数字摄像机输出的数字视频信号可以通过网络传输。

通过接口适配以后,数据采集机采集了来自前端采集终端的各个具体物理参数,然后还需要将这些不同的参数按照统一设计的格式进行数据采集和存储,并提供给上级监控平台进行分析和展示。

本发明专利数据采集采用统一数据采集格式。如图四所示:采集时间表示监测系统获取监测对象参数的时间,系统类型表示数据源系统的类型,系统编号指的是对于来自不同位置的同一类型系统所赋予的不同编号。监测对象类型表示对同一监测系统所监测的不同参数,监测对象数目指某一监测对象的监测对象数目,监测对象单位长度是指对象编号和该对象值的长度之和。对象编号指对于某一给定监测类型的监测点位数。

通过对系统类型,系统编号,对象类型的规范定义,集中预警监测平台实现了采集数据的统一编码和存储,实现了前段采集与后端平台处理相分离。

本发明专利采用的神经网络的健康预测模型,对数据中心整体健康监测,能随时对机房整体的健康状况进行在线跟踪,实现故障发生前进行预警。

本发明专利可以将数据中心的动力、环境、安防和主机的各个监测量进行采集、汇集到统一的监测系统,对数据采集和数据处理进行分离,对监测结果进行展示、分析,为数据中心运行提供更高的质量保障,如图二所示。

附图说明

图1为本发明专利的系统功能架构图。按照数据从下到上的传输,分为:数据感知层、数据汇集层、数据分析层和数据服务层。本地和远程浏览和控制通过数据服务层实现。

图2为本发明专利的系统结构图。系统由现场设备、本地监控管理站、上级监控管理中心组成,如图二所示。本地监控管理站与上级监控管理中心通过网络进行连接。

图3为本发明专利的数据采集方式示意图。采集的数据包括动力、环境和安防三大类,数据从采集终端到采集机的物理传输方式,集中在串口和以太网口上。

图4为本发明专利的数据采集格式图。采集时间表示监测系统获取监测对象参数的时间,系统类型表示数据源系统的类型,系统编号指的是对于来自不同位置的同一类型系统所赋予的不同编号。监测对象类型表示对同一监测系统所监测的不同参数,监测对象数目指某一监测对象的监测对象数目,监测对象单位长度是指对象编号和该对象值的长度之和。对象编号指对于某一给定监测类型的监测点位数。

具体实施方式

下面结合附图一,对本发明专利进行进一步描述,本发明专利保护范围不局限于以下所述。数据感知层对动力系统、环境系统、安防系统、主机运行等运行数据进行采集。采集设备不限于以下所述:电量仪、漏水检测器、温湿度传感器、光纤传感器,可以根据实际监控要求进行添加。

采集数据通过rs232、rs485或标准的tcp/ip网络进行数据的传输,进入数据数据汇聚层。数据存储层则将来自各监测子系统的数据按照统一的格式存储到数据库中。通过数据汇聚层,来自不同监测子系统的多源数据进行汇聚,并统一存储以供数据分析层进行分析。

数据进入数据分析层,系统一方面会对各监测数据进行基本的描述性统计分析,如监测量的一段时间内的均值、方差、趋势等,另一方面会对多源数据进行关联分析、风险分析等,比如根据ups的温度、内阻、电压等检测量的统计数据和变化趋势推测其健康状况并进行相应的告警输出。

分析后的数据,进入数据服务层。数据服务主要包括两方面内容,一方面是根据数据监测需要,从数据分析层获得数据分析结果,并生成定制数据报表供管理人员查阅;另一方面,是根据系统的运行状况,及时检测出异常并输出报警信息。

数据报表通过b/s方式进行浏览,既可以通过本地工作站进行管理,也可以通过远程的pc或者智能手机进行浏览。告警信息可以通过以下多种方式进行输出:(1)屏幕报警。(2)声音报警。(3)手机短信报警。(4)email邮件。告警信息包括设备的地点、名称、报警监测量、报警等级、报警日期、报警时间、报警值、报警原因等内容。

数据服务层对数据分析后,实现数据中心整体健康监测,能随时对机房整体的健康状况进行在线跟踪和预警。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1