数据中心智能故障检测报警系统的制作方法

文档序号:16220374发布日期:2018-12-11 19:45阅读:195来源:国知局
数据中心智能故障检测报警系统的制作方法

本发明涉及一种数据中心智能故障检测报警系统,属于计算机及电子设备维修技术领域。



背景技术:

长期以来,无论是大型还是小型计算机机房的管理都是基于安防和网管。安防系统包括供电、照明、防火、防震、防盗、防雷、防静电、温湿度、综合布线、视频监控等,设备以及非常智能化了,并可以远程遥控;网管系统一般由各厂家提供,有些第三方也可集成不同厂家的网管,也可做到部分远程监控,但都是基于硬件启动完好后,通过网线来实现管理,发现问题也都是应用层面或系统层面。这些技术都已日趋成熟,且有大量的厂家去生产推销。

而计算机设备的硬件诊断维护一直全靠机房技术人员手工键盘敲打指令判断或拆机逐个部件排查解决,便是借助一些技术手段或仪器,也只局限于手工拆机插入检测卡、拔插电缆或更换插座来测量差值等非智能方式,费时费力,效率极低,而且修复的概率也相对较低。这些技术人员或是单位职工,或是设备提供商员工,或是第三方服务商员工,他们都需要高超的技术水平,丰富的维修经验,很高的学历和文化素养,不断学习新技术的能力,才能掌握和使用日新月异的计算机维修使用技术。

一般的硬件故障报修流程是:应用出现问题,报领导派技术人员来查,技术人员初查后,能修就修(通常不会),修不了就报领导通知厂家或外包商,厂家或外包商根据用户初查描述,带尽量多的备件上门维修,如果判断错误或备件不对,还要重新检测,重返公司去取备件再来更换,所浪费的时间及备件都需要双方承担。所以技术人员的好坏,是决定修复成本的重要因素,带来一定的偶然性和盲目性。

另外,一般计算机机房的计算机或服务器数量从几台到几万台,品牌杂乱,技术不同,布线等前期安装设备更是不计其数,用户又不想大动干戈地去改造机房,花很多人力物力使其实现智能化、自动化,或不想减少已有的编制,加上封闭的安保因素,所以硬件的故障分析仍然是传统的工程师亲手来做,即机房管理一直都是半智能半手工的状态。

因此,上述问题有待人们进一步去开发解决,实现机房计算机或服务器的智能检测报警。



技术实现要素:

本发明的目的在于,提供一种数据中心智能故障检测报警系统,它可以通过对现有机房布置不做大的调整的情况下,实现远程监控机房所有计算机或服务器及辅助设备,将硬件错误信息报告给相关人员,由其第一时间准确的判断故障,并携带唯一备件精准解决问题,改变现有完全人工的、无统一标准的维修状况,提高数据中心管理智能化水平。

为解决上述技术问题,本发明采用如下的技术方案:一种数据中心智能故障检测报警系统,包括:单独机顶盒、汇总机顶盒、终端设备和A报警器;所述的单独机顶盒包括:多线识别模块、数据存储模块、A控制单元和A网络输出模块;汇总机顶盒包括:A网络输入模块、显示输出模块和B控制单元;其中,A控制单元(包含故障检测的所有相关指令做成的脚本程序)定时自动运行多线识别模块采集的各台计算机或服务器的自检及被检数据进行故障检测,并过滤掉(无用的)正常运行信息;当检测出错误信息时,则保留信息且将该错误信息与数据存储模块中的配件信息库进行比较,并通过A网络输出模块控制输出相应计算机或服务器的编号信息与故障配件型号的合成信号至汇总机顶盒;B控制单元通过A网络输入模块采集各个单独机顶盒输出的合成信号(还包括单独机顶盒的编号信息),并通过显示输出模块发送至终端设备进行显示(可通过USB、VGA、LVDS、HDMI、网络、蓝牙、红外等端口),同时触发A报警器进行报警。

上述的自检及被检数据包括:字符信号(如COM、网口的)、模拟信号(如VGA、USB口的)、图像信号(如指示灯、液晶屏的)等。

优选的,所述的单独机顶盒还包括:数据转换模块,所述的数据转换模块将自检及/或被检数据中的图像信号或模拟信号(可采用图像识别、光电传感、模数转换、OCR、CCD、OTG等技术)转换为字符信号(具体实施时,可采用光电传感器或微型照相机来定时捕捉指示灯的排列组合;采用微型摄像头来移动侦测记录液晶屏的错误代码;或在可外置的的检测模块中外接专线,将其数据信号转到单独机顶盒中;再通过以上技术或直接通过获得厂家自检代码转换成数字信号),供A控制单元采集运行进行故障检测,从而可以实现对各种品牌各种型号的计算机或服务器统一进行故障检测,提高了故障检测的范围。

前述的数据中心智能故障检测报警系统中,还包括:集联机顶盒(当计算机或服务器数量较大时选用),所述的集联机顶盒包括:B网络输入模块、数据缓存模块、B网络输出模块和C控制单元,所述的C控制单元通过B网络输入模块采集各个单独机顶盒输出的合成信号,存入数据缓存模块进行缓存(只保留错误信息,从而可以大大节省内存空间);数据采集完毕后,将所缓存的各个单独机顶盒输出的合成信号(包括单独机顶盒的编号信息)以及集联机顶盒的放大信号(包括集联机顶盒的编号信息),通过B网络输出模块发送至汇总机顶盒的A网络输入模块,从而可以有效缓解网络带宽的问题,提高数据传输效率。

优选的,所述的集联机顶盒包括k级,其中,第j+1级集联机顶盒与第j级集联机顶盒进行一对一或一对多连接,第1级集联机顶盒与单独机顶盒进行一对一或一对多连接,第k级集联机顶盒分别与汇总机顶盒连接;一台单独机顶盒分别与m台计算机或服务器连接;其中,1≤m≤15,1≤k,0≤j≤k-1,从而可以实现高效统一的对多台计算机或服务器同时进行故障检测,同时提高了数据传输的效率,大大减少了布线数量。

更优选的,一台集联机顶盒与n台单独机顶盒连接,其中,1≤n≤20;一台汇总机顶盒与z台集联机顶盒连接,其中,1≤z≤48,从而可以进一步保证数据的交换效率,进行及时的远程报警提示。

前述的数据中心智能故障检测报警系统中,还包括:电源,所述的电源与集联机顶盒连接;集联机顶盒通过网线分别与单独机顶盒和汇总机顶盒连接,并给单独机顶盒和汇总机顶盒供电,从而可以实现不改变原有机房的电源负荷,只要将集联机顶盒放在靠近电源的地方接通电源,即可给单独机顶盒和汇总机顶盒供电,简单方便。

本发明中,所述的集联机顶盒还包括:信号放大电路,所述的C控制单元通过B网络输入模块采集各个单独机顶盒输出的合成信号(包括单独机顶盒的编号信息),再通过信号放大电路增强信号强度后存入数据缓存模块进行缓存,从而可以使得故障信息能够经过多级集联机顶盒最终准确的传输至汇总机顶盒(安放于机房外监控室),进行远程报警。

前述的数据中心智能故障检测报警系统中,所述的单独机顶盒还包括:B报警器,当检测出错误信息时,A控制单元触发B报警器进行报警,从而可以方便维修人员快速的查找故障设备。

本发明中,所述的终端设备包括:笔记本、显示器、手机、IPAD、多屏幕墙,从而可以满足不同的显示需求。

本发明中,所述的汇总机顶盒还包括:移动3G/4G模块和GPS模块,B控制单元通过GPS模块定位维修地点及维修人员,并通过移动3G/4G模块将各个单独机顶盒输出的合成信号(包括单独机顶盒的编号信息)与集联机顶盒的放大信号(包括集联机顶盒的编号信息)发送至附近维修人员的手机上,从而实现将故障信息准确、安全的传输至附近维修人员的手机上或技术提供商、备件提供商的相关人员的手机上,实现快速、准确的维修,提高了维修效率。

与现有技术相比,本发明具有以下有益效果:

1.通过利用本发明的故障检测系统,当数据中心管理者接到报警信号时(如灯光闪烁、警铃蜂鸣),即可自动准确获得故障计算机或服务器的故障点(包括计算机或服务器所有最小可换单元,如CPU、内存、硬盘或风扇等)及各故障部件的型号信息,第一时间将此信息传送到指定工程师的移动终端上,从而提高了计算机或服务器维修的准确率和效率;另外,如计算机或服务器能启动且加密得当,维修工程师也可通过显示设备或移动终端登录该故障设备输入命令再次诊断并确认故障点,在线重启或直接远程修复;如计算机或服务器无法启动,维修工程师也可凭现有信息,带少量备件快速到现场进行精确维修;本发明的故障检测系统实现了计算机或服务器故障检测的自动化和智能化;

2.本发明通过利用集联机顶盒,可以实现分级链接、远程管控,而且有效缓解了带宽不足、电源衰减和明线过多的问题;当计算机或服务器数量庞大时,提高了数据传输效率;

3.本发明的故障检测报警系统的安装,无需改变机房的现有状况,也无需添加大的用电负荷及机房空间,不拆卸任何整机设备的零部件,不需要专门的、深入的技术培训,不影响现有的安防保密措施;如果现有机房的计算机或服务器均分层摆设在19英寸标准机柜(通常高度为22U-42U,1U=44.45毫米)上,那么本发明中的单独机顶盒即可设置在19英寸标准机柜的顶上或缝隙里(所述单独机顶盒小于1U高),通过COM线与各台计算机或服务器的串口连接即可接收字符信号;或者通过视频线接收计算机或服务器指示灯(液晶屏)的图像信息,或通过VGA、USB线接收计算机或服务器的模拟信号,经过处理都转换成可被机顶盒识别的字符信号;而集联机顶盒可以设置在机房内的任何方便的地方,只要集联机顶盒与单独机顶盒及汇总机顶盒通过光纤、双绞线或无线网连接即可;另外,本发明利用闲置的串口或其他端口即可智能的获取计算机或服务器所有部件的自检及被检数据,无需占用运行端口,不需要经常插拔切换物理端口,因而不会影响计算机或服务器的正常运行和工作;

4.通过利用本发明的故障检测报警系统,可以大大缩减机房管理人员的劳动强度,减少设备故障带来的各种风险,同时大大提高了维护效率,避免了人员诊断维修的失误及掺假,节约了大量时间、资金和人员成本;本发明的智能故障检测报警系统可量身定制,也适合量产大面积推广应用,耗电量小,占用资源少,是一种自我掌控的安全、准确、高效的智能产品;

5.通过利用本发明的故障检测报警系统,可在汇总机顶盒进一步集成安防和网管软硬件,统一管理平台,彻底改变机房管理的半手工模式,升级换代到互联网+的维修模式,实现智能机房的无人值守、远程监控、异地办公的现代管理方式,甚至实现公开、透明的诚信维修;另外,本发明将对传统的计算机或服务器维修模式产生巨大影响,如同互联网+对店商的冲击或自动检票对人工检票的冲击一样,并且可以推广到数据中心以外的领域,如家电、机车、生产线等有输出自检功能的设施,是硬件设备诊断维护领域全新的发明创造,具有广泛的市场需求和极好的发展前景;

6.发明人根据大量的数据统计发现,当一台单独机顶盒分别与1~15台计算机或服务器连接,一台集联机顶盒与1~20台单独机顶盒连接,一台汇总机顶盒与1~48台集联机顶盒连接时,相对于一台单独机顶盒分别与16台以上的计算机或服务器连接、一台集联机顶盒与21台以上的单独机顶盒连接、一台汇总机顶盒与49台以上的集联机顶盒连接,不仅可以自动识别机房多台计算机或服务器的错误信息并对任何故障部位进行精确报警,而且数据传输的效率可提高70%,数据传输的准确率达99%。

发明人经过大量的研究发现,一般数据中心机房的绝大多数计算机或服务器(包括大型机、小型机、微机)上都有一个供启动和检测的端口(即控制台接口),有串口(如COM口-6、8、9、25芯)、VGA口(如15芯)、USB口(如4芯)或液晶屏等(如1-40芯),通常为闲置的、非运行所需端口。端口提供的数据基本上能反映启动的进程、日志,硬件和系统软件状况,发送问题的部位和原因;故障指示灯的排列组合,也可以反映硬件设备的具体状态。只要在通电的情况下(即使整个计算机或服务器因为故障无法正常启动)本发明即可通过所述的串口或指示灯等获取该计算机或服务器所有部件的自检及被检数据,通过(植入的故障检测的所有相关指令做成的脚本程序)定时自动运行所述的被检数据也可实现故障检测报警。

附图说明

图1是本发明的一种实施例的方框连接示意图;

图2是本发明的另一种实施例的方框连接示意图;

图3是本发明中包含两台计算机或服务器的故障检测报警系统的示意图;

图4是本发明中包含多台不同类型的计算机或服务器的故障检测报警系统的示意图;

图5是本发明的另一实施例的工作流程图。

附图标记:1-单独机顶盒,2-汇总机顶盒,3-终端设备,4-A报警器,5-多线识别模块,6-数据存储模块,7-A控制单元,8-A网络输出模块,9-A网络输入模块,10-显示输出模块,11-B控制单元,12-数据转换模块,13-集联机顶盒,14-B网络输入模块,15-数据缓存模块,16-B网络输出模块,17-C控制单元,18-电源,19-信号放大电路,20-B报警器,21-移动3G/4G模块,22-GPS模块。

下面结合附图和具体实施方式对本发明作进一步的说明。

具体实施方式

本发明的实施例1:一种数据中心智能故障检测报警系统,如图1、图5所示,包括:单独机顶盒1、汇总机顶盒2、终端设备3和A报警器4;所述的单独机顶盒1包括:多线识别模块5、数据存储模块6、A控制单元7和A网络输出模块8;汇总机顶盒2包括:A网络输入模块9、显示输出模块10和B控制单元11;其中,A控制单元7(包含故障检测的所有相关指令做成的脚本程序)定时自动运行多线识别模块5采集的各台计算机或服务器的自检及被检数据进行故障检测,并过滤掉(无用的)正常运行信息;当检测出错误信息时(即读取错误日志或相关信息发现错误时),则保留信息且将该错误信息与数据存储模块6中的配件信息库进行比较,并通过A网络输出模块8控制输出相应计算机或服务器的编号信息与故障配件型号的合成信号至汇总机顶盒2;所述的自检及被检数据包括:字符信号(如COM、网口的)、模拟信号(如VGA、USB口的)、图像信号(如指示灯、液晶屏的)等;B控制单元11通过A网络输入模块9采集各个单独机顶盒1输出的合成信号(还包括单独机顶盒1的编号信息),并通过显示输出模块10发送至终端设备3进行显示(可通过USB、VGA、LVDS、HDMI、网络、蓝牙、红外等端口),同时触发A报警器4进行报警。所述的单独机顶盒1还包括:数据转换模块12,所述的数据转换模块12将自检及被检数据中的图像信号或模拟信号(可采用图像识别、光电传感、模数转换、OCR、CCD、OTG等技术)转换为字符信号(具体实施时,可采用光电传感器或微型照相机来定时捕捉指示灯的排列组合;采用微型摄像头来移动侦测记录液晶屏的错误代码;或在可外拔的检测模块中外接输入排线,将其数据信号转到单独机顶盒中;再通过以上技术或直接通过获得厂家自检代码转换成数字信号),供A控制单元7采集运行进行故障检测。所述的单独机顶盒1还包括:B报警器20,当检测出错误信息时,A控制单元7触发B报警器20进行报警。所述的终端设备3包括:笔记本、显示器、手机、IPAD、多屏幕墙。所述的汇总机顶盒2还包括:移动3G/4G模块21和GPS模块22,B控制单元11通过GPS模块22定位维修地点及维修人员,并通过移动3G/4G模块21将各个单独机顶盒1输出的合成信号(包括单独机顶盒1的编号信息)及集联机顶盒的放大信号(包括集联机顶盒的编号信息)发送至附近维修人员的手机上。一台单独机顶盒1可分别与m台计算机或服务器连接;其中,1≤m≤15;一台汇总机顶盒2可与z台集联机顶盒13连接,其中,1≤z≤48。

实施例2:一种数据中心智能故障检测报警系统,如图1~图5所示(具体的,图3是包含两台计算机或服务器的故障检测报警系统的示意图;图4是包含多台不同类型的计算机或服务器的故障检测报警系统的示意图;图3中,①为端口(COM等),②为端口线(COM线等),④为光纤或网线或无线,⑥为光纤或网线或无线,⑧为信号输出线或无线,⑨为显示设备,⑩为移动设备;⑨和⑩相当于本发明中的终端设备3;虚框电脑示意图中“原检测程序1、N”为没有本发明时,显示器直接连接主机的效果;图3、图4中,中间点划线代表数据中心机房与主管监控室的分界线,可为隔壁,也可为远程),包括:单独机顶盒1、汇总机顶盒2、终端设备3和A报警器4;所述的单独机顶盒1包括:多线识别模块5、数据存储模块6、A控制单元7和A网络输出模块8;汇总机顶盒2包括:A网络输入模块9、显示输出模块10和B控制单元11;其中,A控制单元7(包含故障检测的所有相关指令做成的脚本程序)定时自动运行多线识别模块5采集的各台计算机或服务器的自检及被检数据进行故障检测,并过滤掉(无用的)正常运行信息(只保留错误信息可大大节省内存空间);当检测出错误信息时(即读取错误日志或相关信息发现错误时),则保留信息且将该错误信息与数据存储模块6中的配件信息库进行比较,并通过A网络输出模块8控制输出相应计算机或服务器的编号信息与故障配件型号的合成信号至汇总机顶盒2;所述的自检及被检数据包括:字符信号(如COM、网口的)、模拟信号(如VGA、USB口的)、图像信号(如指示灯、液晶屏的)等;B控制单元11通过A网络输入模块9采集各个单独机顶盒1输出的合成信号(还包括单独机顶盒1的编号信息),并通过显示输出模块10发送至终端设备3进行显示,同时触发A报警器4进行报警。所述的单独机顶盒1还包括:数据转换模块12,所述的数据转换模块12将自检及被检数据中的图像信号或模拟信号(可采用图像识别、光电传感、模数转换、OCR、CCD、OTG等技术)转换为字符信号,供A控制单元7运行进行故障检测。还包括:集联机顶盒13,所述的集联机顶盒13包括:B网络输入模块14、数据缓存模块15、B网络输出模块16和C控制单元17,所述的C控制单元17通过B网络输入模块14采集各个单独机顶盒1输出的合成信号(包括单独机顶盒1的编号信息),存入数据缓存模块15进行缓存;数据采集完毕后,将所缓存的各个单独机顶盒1输出的合成信号(包括单独机顶盒1的编号信息)以及集联机顶盒13的编号信息,通过B网络输出模块16发送至汇总机顶盒2的A网络输入模块9。所述的集联机顶盒13包括k级,其中,第j+1级集联机顶盒13与第j级集联机顶盒13进行一对一或一对多连接,第1级集联机顶盒13与单独机顶盒1进行一对一或一对多连接,第k级集联机顶盒13分别与汇总机顶盒2连接;一台单独机顶盒1分别与m台计算机或服务器连接;其中,1≤m≤15,1≤k,0≤j≤k-1。一台集联机顶盒13与n台单独机顶盒1连接,其中,1≤n≤20;一台汇总机顶盒2与z台集联机顶盒13连接,其中,1≤z≤48。还包括:电源18,所述的电源18与集联机顶盒13连接;集联机顶盒13通过网线分别与单独机顶盒1和汇总机顶盒2连接,并给单独机顶盒1和汇总机顶盒2供电。所述的集联机顶盒13还包括:信号放大电路19,所述的C控制单元17通过B网络输入模块14采集各个单独机顶盒1输出的合成信号(包括单独机顶盒1的编号信息),再通过信号放大电路19增强信号强度后存入数据缓存模块15进行缓存。所述的单独机顶盒1还包括:B报警器20,当检测出错误信息时,A控制单元7触发B报警器20进行报警。所述的终端设备3包括:笔记本、显示器、手机、IPAD、多屏幕墙。所述的汇总机顶盒2还包括:移动3G/4G模块21和GPS模块22,B控制单元11通过GPS模块22定位维修地点及维修人员,并通过移动3G/4G模块21将各个单独机顶盒1输出的合成信号(包括单独机顶盒1的编号信息)及集联机顶盒的放大信号(包括集联机顶盒的编号信息)发送至附近维修人员的手机上。

本领域的技术人员根据本发明的记载即可实施。

另外,以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。

本发明的一种实施例的工作原理:

通过计算机或服务器的COM口或网口获取字符信号、通过VGA口或USB口获取模拟信号、通过指示灯或液晶屏获取图像信号,然后将上述的自检及被检数据输入单独机顶盒1,经过各模块运行(其中的图像信号或模拟信号(可采用图像识别、光电传感、模数转换、OCR、CCD、OTG等技术)转换为字符信号;具体实施时,可采用光电传感器或微型照相机来定时捕捉指示灯的排列组合;采用微型摄像头来移动侦测记录液晶屏的错误代码;或在可外拔的的检测模块中外接输入排线,将其数据信号转到单独机顶盒中;再通过以上技术或直接通过获得厂家自检代码转换成数字信号),输出到下一级的集联机顶盒13,再经过其各模块的运行,最终通过一根光纤/双绞线/无线网等连接到数据中心机房外面的“汇总机顶盒2”;由“汇总机顶盒2”再接入要显示的终端设备3(如大频幕、显示器、笔记本、iPad、手机等)。当数据中心管理者接到报警信号时(可为灯光闪烁、警铃鸣响),显示页面可自动跳转到该异常设备上,页面显示故障点(如CPU、内存、硬盘或风扇等)。此时如果为了安全也可不通过无线网,直接发短信到技术提供商或备件提供商相关人员的手机上。这样工程师可根据所报型号,拿到相应备件到用户现场做更换维修,提高了修复准确率。如果系统带电且加密得当,工程师也可通过显示器或移动终端登陆该报警设备输入命令再次诊断确认,或直接远程修复(此时系统并未启动)。

所述的单独机顶盒可设计制作成ARM嵌入式印刷集成电路,内置处理器、内存、电源、无线模块等,并固定在小方盒内,也可做成标准机架上1U高的机柜,小方盒或1U机柜前方为输入端口及指示灯,后方为输出端口及指示灯(也可前方为灯后方为口)。各种机顶盒对应接口包括电源、以太网、光纤,COM、USB、VGA、HDMI、音频、视频、打印等。电源可就地变压取用,也可通过网线远端取用。

具体的说,本发明中的单独机顶盒1可以为一种基于ARM架构的嵌入式工控机。单独机顶盒1的前端可多串口输入,内置芯片可存储和运算,将高级工程师应该输入的所有相关命令,做成“脚本”程序,植入“单独机顶盒1”去分时自动运行(如每3分钟运行1次),当该机器读取错误日志或相关信息发现错误时,激发报警装置,并与所存储的配件信息库(由于用户购买机器时,厂家已将部件型号规格都给到用户,用户可将其输入到数据库)作比较,通过其后端三网口(双绞线、光纤、无线WiFi),根据需要输出给集联机顶盒13(其输入端为多网口,输出端为单网口)或直接输出给汇总机顶盒2(其输入端为多网口,输出端为多显示口,如USB、VGA、LVDS、HDMI等),再通过视频线输出给终端设备3,如显示器、大屏幕、笔记本等,或传输到移动端,与iPad、手机等互动,以信号灯或短信或图示的方式显示配件号,并伴有报警声,让使用者随时管控设备。

其中,可将1~15台同一机架上的服务器连入同一“单独机顶盒1”,将此1U机柜装入机架机器的缝隙中或顶上,连接各机器COM口到“单独机顶盒1”的端口。每1~20台不同机架上的“单独机顶盒1”可再通过网线连到“集联机顶盒13”。如机架数量很多,可连接多个“集联机顶盒13”,形成金字塔状交换连接。本发明的整个故障检测报警系统可控制的机器数量可以无限增多,理论上可从1台至几万台。

对于不同的电子仪器设备,都可采用本发明中的原理来连接检测故障,如存储设备、网络设备、单控设备等。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1