服务器的硬件状态监控方法和系统的制作方法

文档序号:7555127阅读:238来源:国知局
专利名称:服务器的硬件状态监控方法和系统的制作方法
技术领域
本发明涉及计算机技术领域,特别涉及一种服务器的硬件状态监控方法和系统。
背景技术
服务器管理资源并为用户提供服务,是互联网中非常重要的一环。相对于普通计算机来说,服务器在稳定性、安全性、性能等方面都要求更高。当服务器上线后,为了确保服务器正常安全的工作,一般每日由特定的驻场工作人员进行早晚各一次的服务器硬件巡检任务。主要对于服务器硬盘状态指示灯、内存状态灯、电源状态灯、内部状态灯和外部状态灯的异常状况进行手工记录,并在下一个工作日进行数据汇总、上传。然后再由人工确认故障配件对服务器运行影响范围,并进行优先级设定后向事务处理平台数据推送数据。现有技术主要有如下缺点:(一)、服务器运行状态由人工进行监控,当大批量服务器线上运行时,至少需要分配2至3人进行早,晚各一次例行巡检,耗费人力、执行效率低且精度不高。并且人工现场查看设备运行状态,在接触设备的同时易造成网络中断或其它异常,无法避免因人为疏忽导致故障漏报或响应不及时。(二)、对日常故障诊断效率低。当线上设备有异常时,无法第一时间获取足够的有效信息,排查效率不高,且发生故障的时候,已经对线上服务造成影响,无法做到线上设备异常预报警。在大批量服务器的状态下,集群可运维效率低。

发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种服务器的硬件状态监控方法。本方法自动化进行状态监控,更加方便、精确、高效,并为日常运维提供准确的故障预警,在节约人工成本的同时,完善了服务器的自动化运维标准。本发明的第二个目的在于提出一种服务器的硬件状态监控系统。为达到上述目的,本发明第一方面的实施例提出了一种服务器的硬件状态监控方法,包括如下步骤、:对多个服务器进行智能型平台管理接口 ipmi带外硬件巡检以获取每个所述服务器的硬件状态;根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级;对所述故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。根据本发明实施例的服务器的硬件状态监控方法自动化对大批量服务器硬件运行状态进行监控,解决了当前大批量服务器人工巡检的故障遗漏以及响应不及时的问题,在节省了人力巡检成本的支出的同时,避免了人为造成设备异常中断的影响,且大大提高了日常运维效率及故障预判.同时增强业务监控部署变更的灵活性及可操控性。
当日常故障发生时,可以调用监控数据库,实时查询服务器硬件运行状态,及时发现目常异常服务器报警信息,从而方便快速进行配件报修及更换响应,为新设备集中到货提供运维保障及技术支持,同时数据库的信息储备便于新服务器到货质量统计。在技术要求降低的同时,带来更多的可操控性,同时批量监控的预判给集中正常运行提高必要的数据参考及技术保证。在本发明的一个实施例中,所述对多个服务器进行ipmi带外硬件,包括如下步骤:启动对服务器的定时监控任务;嵌入ipmitool工具;检测是否介入ilo网络;如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录故障信息。在本发明的一个实施例中,所述利用ipmitool工具对服务器进行硬件状态监控,包括如下步骤:通过API接口汇总各IDC的内网IP地址列表,定时并发对所述多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。在本发明的一个实施例中,所述根据硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤采用自动或手动方式执行。在本发明的一个实施例中,所述对所述故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。本发明第二方面的实施例提出了一种服务器的硬件状态监控系统,包括:带外巡检模块、故障等级划分模块、故障分析模块和推送模块。其中,带外巡检模块用于对多个服务器进行智能型平台管理接口 ipmi带外硬件巡检以获取每个所述服务器的硬件状态;故障等级划分模块用于根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级;故障分析模块用于对所述故障等级和故障信息进行分析;推送模块用于根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。根据本发明实施例的服务器的硬件状态监控系统自动化对大批量服务器硬件运行状态进行监控,解决了当前大批量服务器人工巡检的故障遗漏以及响应不及时的问题,在节省了人力巡检成本的支出的同时,避免了人为造成设备异常中断的影响,且大大提高了日常运维效率及故障预判.同时增强业务监控部署变更的灵活性及可操控性。当日常故障发生时,可以调用监控数据库,实时查询服务器硬件运行状态,及时发现目常异常服务器报警信息,从而方便快速进行配件报修及更换响应,为新设备集中到货提供运维保障及技术支持,同时数据库的信息储备便于新服务器到货质量统计。在技术要求降低的同时,带来更多的可操控性,同时批量监控的预判给集中正常运行提高必要的数据参考及技术保证。在本发明的一个实施例中,所述带外巡检模块用于启动对服务器的定时监控任务,嵌入ipmitool工具,并检测是否介入ilo网络,如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录故障信息。在本发明的一个实施例中,所述带外巡检模块通过API接口汇总各IDC的内网IP地址列表,定时并发对所述多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。在本发明的一个实施例中,所述故障等级划分模块根据硬件状态和预设故障知识库采用自动或手动方式对每个所述服务器进行故障等级过滤。在本发明的一个实施例中,所述故障分析模块对所述故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。


本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本发明一个实施例的服务器的硬件状态监控方法的流程图;图2是根据本发明另一个实施例的服务器的硬件状态监控方法的流程图;和图3是根据本发明实施例的服务器的硬件状态监控系统的结构示意图。
具体实施例方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。下面参考图1描述根据本发明实施例的服务器的硬件状态监控方法,包括如下步骤:步骤SllO:对多个服务器进行智能型平台管理接口 ipmi (智能平台管理接口)带外硬件巡检以获取每个服务器的硬件状态。对多个服务器进行ipmi带外硬件,包括如下步骤:步骤Slll:启动对服务器的定时监控任务。步骤SI 12:嵌入 ipmitool 工具。步骤S113:检测是否介入ilo网络。步骤S114:如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录
故障信息。在本发明的一个实施例中,利用ipmitool工具对服务器进行硬件状态监控,包括如下步骤:通过API接口汇总各IDC的内网IP地址列表,定时并发对多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。步骤S120:根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤并获取每个服务器的故障信息和故障等级。其中,根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤采用自动或手动方式执行。步骤S130:对故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由事务处理平台对故障进行排除。其中,对故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。下面参考图2通过本发明的一个实施例对根据本方法进行说明,可以理解的是,下述说明仅出于示例目的,根据本发明的实施例不限于此。步骤S201,部署服务器集群,启动对服务器的定时监控任务,根据各厂商对ipmi的支持情况。具体地,每日凌晨监控服务器的crontab,即启动对服务器的定时监控任务。

步骤S202,嵌入ipmitool工具,通过进行ipmitool编译嵌入ipmitool工具 HWMonitor.py,使之最大限度支持所有均衡型服务器的传感器信息监控范围。ipmitool是 一种Iinux系统下的命令行方式的IPMI平台管理工具。

步骤S203,检测是否介入ilo网络,如果不是,则执行步骤S206,否则执行步骤 S204。

步骤S204,通过API接口汇总各IDC的内网IP地址列表,定时并发对多个服务器 进行ipmi带外硬件巡检以实现对服务器的带外监控,并发多个tcp连接。例如,设置每天 凌晨并发对所有设备进行ipmi带外硬件巡检,并发150个tcp连接,2小时之内完成至少 6w台设备的硬件状态巡检任务。每天自动巡

检数据库录入信息如表I所示。
权利要求
1.一种服务器的硬件状态监控方法,其特征在于,包括如下步骤、: 对多个服务器进行智能型平台管理接口 ipmi带外硬件巡检以获取每个所述服务器的硬件状态; 根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级;以及 对所述故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。
2.如权利要求1所述方法,其特征在于,所述对多个服务器进行ipmi带外硬件,包括如下步骤: 启动对服务器的定时监控任务; 嵌入ipmitool工具; 检测是否介入ilo网络; 如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录故障信息。
3.如权利要求2所述方法,其特征在于,所述利用ipmitool工具对服务器进行硬件状态监控,包括如下步骤:通过API接口汇总各IDC的内网IP地址列表,定时并发对所述多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。
4.如权利要求1所述方法,其特征在于,所述根据硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤采用自动或手动方式执行。
5.如权利要求1所述方法,其特征在于,所述对所述故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。
6.一种服务器的硬件状态监控系统,其特征在于,包括: 带外巡检模块,用于对多个服务器进行智能型平台管理接口 ipmi带外硬件巡检以获取每个所述服务器的硬件状态; 故障等级划分模块,用于根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级; 故障分析模块,用于对所述故障等级和故障信息进行分析;以及 推送模块,用于根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。
7.如权利要求6所述系统,其特征在于,所述带外巡检模块用于启动对服务器的定时监控任务,嵌入ipmitool工具,并检测是否介入ilo网络,如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录故障信息。
8.如权利要求7所述系统,其特征在于,所述带外巡检模块通过API接口汇总各IDC的内网IP地址列表,定时并发对所述多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。
9.如权利要求6所述系统,其特征在于,所述故障等级划分模块根据硬件状态和预设故障知识库采用自动或手动方式对每个所述服务器进行故障等级过滤。
10.如权利要求6所述系统,其特征在于,所述故障分析模块对所述故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。
全文摘要
本发明提出一种服务器的硬件状态监控方法,包括如下步骤对多个服务器进行智能型平台管理接口ipmi带外硬件巡检以获取每个服务器的硬件状态;根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤并获取每个服务器的故障信息和故障等级;对故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由事务处理平台对故障进行排除。本发明自动化进行状态监控,更加方便、精确、高效,并为日常运维提供准确的故障预警,在节约人工成本的同时,完善了服务器的自动化运维标准.本发明还公开了一种服务器的硬件状态监控系统。
文档编号H04L12/24GK103200050SQ20131012812
公开日2013年7月10日 申请日期2013年4月12日 优先权日2013年4月12日
发明者刘凯, 莫林林, 孙墨 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1