一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法

文档序号:6307804阅读:265来源:国知局
一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法
【专利摘要】本发明涉及一种基于视频图像判别的超级计算机房断电预警与自动管理方法,该方法基于捕获的视频监控图像,通过对图片进行综合分析,获取电源状态信息,从而对机房断电事故进行预警,并自动执行超级计算集群的关机,避免供电突然中断对机房高性能服务器的损坏,当供电恢复正常后,执行高性能计算集群开机功能,第一时间恢复计算运行,提供超级计算服务。本发明应用便捷、成本低廉,实现机房供电状态的预警与集群断电后的自动开关机,有效地保证了超级计算机房硬件设备与软件环境的安全运行,为更好地做好机房的运行维护工作提供了新的技术手段,可推广应用于科研院所、企事业单位、大型商业体等各类核心机房的供电状态监控与管理。
【专利说明】-种基于视频图像判别的超级计算机房断电预警与自动开 启的管理方法

【技术领域】
[0001] 本发明涉及机房环境监控与管理领域,具体地说一种基于视频图像判别的超级计 算机房断电预警与自动管理方法。

【背景技术】
[0002] 超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,多 用于国家高科技领域和尖端技术研究,是一个国家科研实力的体现,它对国家安全,经济和 社会发展具有举足轻重的意义,是国家科技发展水平和综合国力的重要标志。当今社会正 处于大数据与计算时代,随着各企事业单位超级计算环境建设的推进,超级计算集群规模 越来越大,对其运行环境的保障和维护要求愈来愈严格,如果机房供电突然中断,轻则影响 超级计算环境系统的运行,重则造成集群环境的硬件损坏和服务的瘫痪,后果不堪设想,因 此,对中心机房的断电预警与自动管理尤为重要。
[0003] 目前技术中,大多数的机房具有视频监控系统,可以观测到机房的动态变化,理论 上,通过人工查看视频可以保证机房环境的安全,但管理员不可能时时刻刻守候在监控器 前,而且发生断电的情况下,还需人工干预,费时费力,不能保证超级计算集群的持续健康 运行。另外,机房目前所用的配电箱、UPS以及监控设备,仅有少部分产品具有断电预警 功能,但价格昂贵,系统封闭,难以开发扩展,不具备通用性,在功能上仅仅提供断电报警信 息,需人为操作管理,不具备对断电情况下的高性能计算服务器等设备的自动管理功能。


【发明内容】

[0004] 针对上述,本发明旨在充分利用现有基础设施,提供一种基于视频图像判别的超 级计算机房断电预警与自动管理方法,实现对机房断电情况下的自动预警与操作管理。
[0005] 1. -种基于视频图像判别的超级计算机房断电预警与自动管理方法,其特征在 于,包括以下步骤: 步骤1 :机房监控设备部署在机房与配电室具有供电设备的区域,对供电设备状态指 示灯区域进行静态定位监控,监控系统由UPS供电,并可被管理服务器访问; 步骤2 :管理服务器自动获取视频监控画面,设定捕获照片时间间隔为 ,并自动把获得的视频监控图片,存放于管理服务器上,其取值范围为:

【权利要求】
1. 一种基于视频图像判别的超级计算机房断电预警与自动管理方法,其特征在于,包 括以下步骤: 步骤1 :方法载体部署在由UPS(UninterruptedPowerSystem,不间断电源)供电的一 台计算机上,该计算机为集群的管理服务器,拥有控制超级计算集群每台服务器的最高管 理权限; 步骤1 :机房监控设备部署在机房与配电室具有供电设备的区域,对供电设备状态指 示灯区域进行静态定位监控,监控系统由UPS供电,并可被管理服务器访问; 步骤2 :管理服务器自动获取视频监控画面,设定捕获照片时间间隔为 ,并自动把获得的视频监控图片,存放于管理服务器上,其取值范围为: 0T^:mnKTups^^m^ ~ ; 步骤3:自动读取已获取的图片文件进行信息分析,分析图片中供电设备指示灯的状 态,从而判断机房的供电情况,其中指示灯状态亮灭状态包括四种情况:断电状态、正常状 态、遮挡状态与监控设备故障,记录分析结果,并把结果传递给智能决策部分; 步骤4 :智能决策功能模块通过预定义的策略执行策略:断电预警,自动关机,来电重 启与状态报告管理操作,同时对操作进行通告与记录; 步骤5:当断电事件发生后,管理服务器立即发出警报声音,并发送手机短信与邮件附 带图片通知机房管理人员; 步骤6 :若管理人员在 内,做出回应或者供电恢复正常, 则关闭预警信息,恢复正常监控,否贝u,按照超级计算机房关机操作规范, 管理服务器执行关机操作,并对本次断电与关机事件分别进行记录,其中 7"管理昃sscfl:SS!Trajjfia贪电甿同一Tt严算务!!关f黃捉另呤; 步骤7 :恢复正常供电后,则按照超级计算机房管理规范,管理服务器自动执行来电重 启操作,加载超级计算软件环境,提供计算服务,对本次事件进行记录,并发状态信息告知 管理员。
【文档编号】G05B19/418GK104267689SQ201410485174
【公开日】2015年1月7日 申请日期:2014年9月22日 优先权日:2014年9月22日
【发明者】赵国辉, 张耀南 申请人:中国科学院寒区旱区环境与工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1