一种自动化监测诊断的双活式刀片服务器管理系统的制作方法

文档序号:8472866阅读:435来源:国知局
一种自动化监测诊断的双活式刀片服务器管理系统的制作方法
【技术领域】
[0001]本发明涉及服务器管理架构技术,尤其涉及一种自动化监测诊断的双活式刀片服务器管理系统。
【背景技术】
[0002]目前随着数据量的爆炸式增长,单一的服务器单元已经无法满足海量数据的处理需要,大规模并行化的计算机系统架构,由其具有扩展性强,计算能力高、支持统一管理等特点,越来越迎合大数据时代对服务器产品的需求,这使得目前的服务器系统物理体积逐渐庞大、模块组成逐渐复杂、集成度逐渐增加,同时对系统的冗余度要求也越来越高。监控管理系统是计算机系统的重要组成部分,是系统可靠性和可维修性的核心保障,在管理技术中目前业界有I2C硬件状态监测、JTAG边界扫描和RS232串口调试技术,如何合成多个层次上的多个监测通道,实现综合诊断,是监控诊断子系统中的一个关键性技术。
[0003]监控诊断子系对于提高计算机系统的整体可靠性和可维护性起到核心保障的作用,但目前服务器的管理架构多采用单一的管理通道,管理通道单一,无法实现有效的综合故障监测、诊断、调试功能;另一方面业界计算机系统中同一时间均采用I个管理控制器,造成管理系统资源的闲置与浪费。

【发明内容】

[0004]为了解决该问题,本文提出了一种自动化监测诊断的双活式刀片服务器管理系统架构。
[0005]一种自动化监测诊断的双活式刀片服务器管理系统,主要由冗余的系统管理控制器、模块级监控诊断代理和多重监控诊断网络组成;系统管理控制器负责全系统的监控、管理与诊断测试;监控诊断代理集成于各个模块中,负责模块级的故障监测、诊断、隔离与恢复;多重监控诊断网络主要由I2C监控网络、JTAG边界扫描网络和串口调试网络组成;采用了双管理控制器冗余设计的技术,双控制器与各个功能模块中的监控代理之间形成两套冗余的监测控制网络。
[0006]在新的管理架构中,嵌入式系统管理控制器SMC通过I2C通道对系统各模块中关键设备的电压、温度、逻辑状态进行实时监测,并对过压、过温等紧急故障采取应急措施,避免引起系统损坏;通过边界扫描通道对系统中的处理模块、交换模块和I/o模块进行诊断测试,实时监测硬件逻辑错误信息,并与操作系统进行交互,实现对各个模块的实时在线诊断;通过串口通道实现各处理模块的串口重定向操作,为系统调试及用户提供直接的管理控制台接口。新的管理架构不但能提高系统的诊断效率,而且大幅提升系统管理的冗余度,减少计算机系统停机维修次数。系统管理控制器具有事件记录功能。
[0007]模块级监控诊断代理分别设置在各个子系统模块中,利用I2C总线,完成局部的监测任务;其主要功能是对模块内各部件进行监控,包括电压、温度、风扇转速、错误状态,同时还可以读取结点内芯片相关信息,在紧急情况时实施保护措施。
[0008]模块级监控诊断代理与处理模块内的传统I/O控制器相连接,构成模块内调试诊断网络,并对外提供RS232串行接口,既可用于调试诊断目的,也可用于实现单结点终端控制台功能;监控诊断子系统与系统I/O控制器通过I/O总线相连,并可通过异步中断方式向系统传递故障检测诊断信息,与操作系统故障处理机制协同,实现软硬件相结合的故障监控、诊断、隔离和恢复功能。
[0009]系统管理控制器作为整个系统上的核心单元,负责整个模块上管理功能的实现;系统管理控制器会通过两组SMC_SEL信号连接到系统中背板,当系统中的管理模块要访问融合交换模块时,系统管理模块会通过SMC_SEL通知系统管理控制器,由系统管理控制器分配访问的权限。
[0010]1、新的架构采用了双管理控制器冗余设计的技术,双控制器与各个功能模块中的监控代理之间形成两套冗余的监测控制网络,使得新的管理架构具备更高的冗余度;
2、在新的管理架构中首次采用双控制器同时并存工作设计的技术,完全实现故障的隔离,增强系统管理资源的利用率,提高系统并行化工作的效率。
[0011]本发明的有益效果:
采用了双管理控制器冗余设计的技术,双控制器与各个功能模块中的监控代理之间形成两套冗余的监测控制网络,使得新的管理架构具备更高的冗余度。同时在新的管理架构中首次采用双控制器同时并存工作设计的技术,完全实现故障的隔离,增强系统管理资源的利用率,提高系统并行化工作的效率。
【附图说明】
[0012]附图1是本发明的管理系统架构框图。
[0013]附图2是系统管理控制器SMC结构图。
[0014]附图3是模块级监控制器MMA设计原理框图。
[0015]附图4是系统模块级管理原理框图。
【具体实施方式】
[0016]下面对本发明的内容进行更加详细的阐述:
图1为支持双冗余度的可实现多通道综合自动化监测诊断的双活式刀片服务器管理系统架构框图,其中监控诊断子系统由冗余的系统管理控制器(System ManagementController,简称SMC)、模块级监控诊断代理(Modular Monitor Agent,简称MMA)和多重监控诊断网络组成。系统管理控制器负责全系统的监控、管理与诊断测试。监控诊断代理集成于各个模块中,负责模块级的故障监测、诊断、隔离与恢复。多重监控诊断网络由I2C监控网络、JTAG边界扫描网络和串口调试网络组成。
[0017]图2为系统管理控制器SMC结构图,系统管理控制器SMC由嵌入式处理器、I2C总线控制器、RS232串行通信接口、JTAG边界扫描控制器、以太网、面板控制逻辑等部分组成,运行支持多任务的实时嵌入式操作系统。其中SMC通过I2C总线收集电压、电流和温度等传感数据,实现硬件环境监控。通过边界扫描链采集硬件模块内各芯片的状态,实现故障定位;通过边界扫描链向各芯片发送控制码,实现导通测试、硬件配置、模块复位、故障隔离等功能。通过串口网络收集运行状态回显,发送指令,实现硬件逻辑和系统软件的功能调试,同时还为用户提供串口终端控制台服务和基于Web方式的以太网远程维护诊断界面。此夕卜,系统管理控制器SMC具有事件记录功能。
[0018]图3为模块级监控制器设计原理框图,模块级监控诊断代理分别设置在各个子系统模块中,利用I2C总线,完成局部的监测任务。其主要功能是对模块内各部件进行监控,包括电压、温度、风扇转速、错误状态等,同时还可以读取结点内芯片相关信息,在紧急情况时实施保护措施。监控诊断代理与处理模块内的传
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1