一种告警信息记录方法及计算设备与流程

文档序号:33277419发布日期:2023-02-24 20:03阅读:40来源:国知局
一种告警信息记录方法及计算设备与流程

1.本技术涉及计算设备测试领域,尤其涉及一种告警信息记录方法及计算设备。


背景技术:

2.计算设备(例如服务器)在开发过程中,需要经过专业的实验对其进行测试(例如温度、湿度等环境气候适应性测试)。其中,环境气候适应性测试,是需要将计算设备放在专业的实验环境中,对其各个部件的功能进行测试,测试完成后,需要收集计算设备的告警信息,如果有告警信息,需要定位告警信息生成的原因,以此来完善计算设备各项功能。
3.传统技术中,在对计算设备进行环境气候适应性测试时,如果计算设备生成告警信息,该告警信息中只包含告警类型和告警生成的时间,此时需要根据告警时刻的环境气候,重新设置环境气候对计算设备再次进行测试,以定位出在告警信息生成时的环境气候下,计算设备生成告警信息的原因。这将耗费实验资源和人力资源,导致计算设备开发成本上升。


技术实现要素:

4.本技术提供了一种告警信息记录方法及计算设备,能够让计算设备在测试场景中自动记录告警信息相关的检测单元的检测信息,避免重复测试,节约测试和人力成本。
5.为实现上述技术目的,本技术采用如下技术方案:
6.第一方面,本技术实施例提供了一种告警信息记录方法,应用于计算设备中的管理模块,管理模块与计算设备内的系统主板连接,系统主板包含或者连接至少一个检测单元,检测单元用于检测系统主板上电子器件的工作状态;方法应用于测试场景,计算设备被配置为运行的业务量大于等于预设值,方法包括:当确定系统主板生成告警信息时,在测试过程中,查询至少一个检测单元中与告警信息相关的检测单元的检测信息;记录与告警信息相关的检测单元的检测信息。
7.可以理解的是,管理模块能够自动查询并记录告警信息的相关检测单元的信息,工作人员可以通过记录来确定告警生成的原因,避免再次设置实验环境来重复测试计算设备,降低实验成本和人力成本。
8.在一种可能的实现方式中,在确定系统主板包括告警信息前,方法还包括:
9.查询系统主板的告警日志;确定系统主板生成告警信息,包括:确定告警日志包括告警信息。
10.可以理解的是,告警信息由系统主板记录在告警日志中,因此,查询系统主板的告警日志可以确定该系统主板是否包括告警信息。该方法可以快速确定系统主板是否生成告警信息,提高工作效率。
11.在另一种可能的实现方式中,当告警信息是温度告警时,与告警信息相关的至少一个检测单元的检测信息包括:风扇转速、电源的电压值、cpu温度、进风口温度或出风口温度。
12.可以理解的是,当告警信息是温度告警时,引起温度告警的原因可能是风扇转速过低、电压值过高、cpu温度过高、进风口或出风口温度过高等。
13.在另一种可能的实现方式中,系统主板包括或者连接多个电子器件,查询至少一个检测单元中与告警信息相关的检测单元的检测信息,包括:确定告警信息的告警类型;读取多个电子器件中告警类型对应的电子器件的检测单元的检测信息;告警类型对应的电子器件为目标电子器件。
14.可以理解的是,由于计算设备中可能包括多个系统主板,系统主板中包括多种器件,因此基于不同告警类型预先确定目标器件,读取目标器件中的检测单元的检测信息,可以节约系统资源,提高读取效率。
15.在另一种可能的实现方式中,当测试场景包括环境气候适应性测试时,告警信息用于对系统主板的健康情况进行告警,在确定系统主板包括告警信息前,方法还包括:将计算设备的时钟与环境气候适应性测试所使用的时钟对齐;其中,告警信息生成的时间为告警信息生成时计算设备的时间。
16.可以理解的是,管理模块将计算设备的时间与实验环境的时间对齐,避免计算设备生成的告警日志的时间,对应错误的实验环境值,导致计算设备测试实验失败。
17.在另一种可能的实现方式中,查询系统主板的告警日志前,方法还包括:
18.删除系统主板所生成的历史告警信息;其中,历史告警信息是系统主板历史时间中生成的告警信息。
19.可以理解的是,管理模块删除系统主板所包括的历史告警信息,可以有效避免历史告警信息对后续查询告警信息所带来的干扰。
20.在另一种可能的实现方式中,方法还包括:周期性确认系统主板是否生成告警信息。
21.可以理解的是,每隔预设时间段确认系统主板是否生成告警信息,可以及时监控系统主板,避免错过告警信息生成时机。
22.在另一种可能的实现方式中,方法还包括:
23.统计在预设时间段内各类告警信息出现的次数;当第一类告警信息出现的次数超过第一预设次数时,在预设时间段之后,周期性查询至少一个检测单元中与告警信息相关的检测单元的检测信息;其中,第一类告警信息为各类告警信息中的任意一种;记录与告警信息相关的检测单元的检测信息。
24.可以理解的是,在测试过程中,当系统主板中某一类型的告警信息出现的次数较多时,可以在后续测试时间段中增加读取与该类型的告警信息相关的检测单元的检测信息的频率,有助于提高解决该类型问题的效率。
25.在另一种可能的实现方式中,方法还包括:在测试结束后,将与告警信息相关的检测单元的检测信息和告警信息生成的时间对应输出。
26.可以理解的是,在实验环境下对计算设备进行测试时,若计算设备中的系统主板生成告警信息后,管理模块可以及时记录并输出该时间下与该告警信息相关的检测单元的检测信息,有助于工作人员查看该告警信息在具体实验环境下的生成原因,针对生成原因采取相关解决措施,避免再次设置实验环境,节约实验资源和人力资源。
27.在另一种可能的实现方式中,计算设备包括刀片服务器,刀片服务器包括多块系
统主板,方法还包括:统计在预设时间段内各块系统主板出现告警信息的次数;当第一系统主板出现告警信息的次数超过第二预设次数时,在预设时间段之后,周期性查询第一系统主板上所有检测单元的检测信息;其中,第一系统主板为多块系统主板中的任意一个。
28.可以理解的是,在测试过程中,当刀片服务器中的多块系统主板中某些系统主板出现告警信息的次数较多时,表明该系统主板可能存在的问题较多,因此,在后续测试时间段中,增加对出现告警信息的次数较多的系统主板的所有检测单元的读取频率,有助于定位该系统主板出现告警信息的原因。
29.第二方面,本技术实施例提供一种计算设备,包括管理模块和系统主板;管理模块与系统主板连接,系统主板包括至少一个检测单元,检测单元用于检测系统主板上电子器件的工作状态;计算设备应用于测试场景,计算设备被配置为运行的业务量大于等于预设值;管理模块,用于当确定系统主板生成告警信息时,在测试过程中,查询至少一个检测单元中与告警信息相关的检测单元的检测信息;记录与告警信息相关的检测单元的检测信息。
30.第三方面,本技术实施例提供一种告警信息记录装置,例如:管理模块,其中,告警信息记录装置应用于第一方面或第一方面中任一种可能的实现方式的告警信息记录方法的各个模块。
31.第四方面,本技术实施例提供一种告警信息记录装置,包括存储器和处理器。存储器和处理器耦合;存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。当处理器执行该计算机指令时,使得该告警信息记录装置执行如第一方面及其任一种可能的实现方式的告警信息记录方法。
32.第五方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令。其中,当计算机指令在告警信息记录装置上运行时,使得该告警信息记录装置执行如第一方面及其任一种可能的实现方式的告警信息记录方法。
33.第六方面,本技术提供一种计算机程序产品,该计算机程序产品包括计算机指令。其中,当计算机指令在告警信息记录装置上运行时,使得该告警信息记录装置执行如第一方面及其任一种可能的实现方式的告警信息记录方法。
34.本技术中第二方面到第六方面及其各种实现方式的具体描述,可以参考第一方面及其各种实现方式中的详细描述;并且,第二方面到第六方面及其各种实现方式的有益效果,可以参考第一方面及其各种实现方式中的有益效果分析,此处不再赘述。
35.本技术的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
36.图1为申请实施例提出的一种计算设备架构图;
37.图2为本技术实施例提供的一种告警信息记录方法的流程图;
38.图3为本技术实施例提供的另一种告警信息记录方法的流程图;
39.图4为本技术实施例提供的另一种告警信息记录方法的流程图;
40.图5为本技术实施例提供的一种告警信息记录装置的结构示意图;
41.图6为本技术实施例提供的另一种告警信息记录装置的结构示意图。
具体实施方式
42.以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
43.基于背景技术可知,在传统技术中,对计算设备进行测试(如温度、湿度等环境气候适应性测试)时,如果计算设备生成告警信息,需要根据生成告警信息时的环境气候,重新设置实验环境以对计算设备再次进行实验测试。这将耗费实验资源和人力资源,导致计算设备开发成本上升。
44.在一个示例中,在对刀片服务器进行开发过程中,每开发一个刀片节点(系统主板),均需要对其进行专业的环境气候适应性测试,验证刀片节点在高温、低温、温变、高湿度等环境的表现是否正常。在上述过程中存在一些问题:
45.1、由于测试周期较长,有些告警出现后又会消失,告警日志只能记录发生告警时告警的类型和时间,不会记录发生告警时该刀片节点的各个部件的状态信息(例如风扇转速、中央处理器(central processing unit,cpu)温度、进风口和出风口温度)。例如:告警信息:8:00,内存温度40℃,内存温度阈值35℃,内存温度超过温度阈值,此时,该告警信息中只有内存温度超过阈值的信息,没有内存温度超过阈值的原因。内存温度超过阈值的原因可能包括:风扇转速不够,或者,电源的电压值过高等。
46.2、专业的环境气候适应性测试时间较长(超过48小时),人工无法实时监控。
47.基于此,本技术实施例提出一种告警信息记录方法。当查询到计算设备生成告警信息时,自动记录下生成告警信息的时间和该时间下相关检测单元的检测信息。可以理解的是,自动查询并记录告警信息的相关检测单元的检测信息,工作人员可以通过记录来确定告警生成的原因,避免再次设置实验环境来重复测试计算设备,降低实验成本和人力成本。
48.下面将结合附图对本技术实施例的实施方式进行详细描述。
49.请参考图1,其示出本技术实施例提供的告警信息记录方法所涉及的一种计算设备100。如图1所示,该计算设备100可以包括:系统主板110,管理模块120,交换板模块130(可选的),电源模块140,风扇模块150。
50.该计算设备100可以是一种融合型服务器,例如融合架构刀片服务器、机架服务器、高密服务器等。也可以是普通服务器、平板电脑、桌面型、膝上型、笔记本电脑和上网本等计算设备。
51.系统主板110是计算设备100中的核心板卡,其拥有独立的计算、存储等功能,也可以是一种独立的设备,例如融合架构刀片服务器中的一个刀片服务器。计算设备100中可以有一个或多个系统主板110。每个系统主板110包含或者连接至少一个检测单元111。
52.一般的,系统主板110的告警日志由系统主板中的管理单元生成,例如:基板管理控制器(baseboard management controller,bmc)。
53.管理模块120用于对系统主板110的状态进行实时监控和信息上报。管理模块120可以由一个或多个管理设备或管理单元组成。本技术中,管理模块120用于查询系统主板110中的告警信息,并记录与告警信息相关的检测单元的检测信息。可选的,管理模块120包括存储器121,例如:非易失性存储设备(non-volatile memory device,nand)。管理模块
120将与告警信息相关的检测单元的检测信息保存在存储器121中。
54.示例性的,当计算设备100是融合型服务器时,管理模块120可以是融合型服务器中独立的管理设备,当计算设备100是普通服务器时,管理模块120也可以是计算设备100中的管理单元,例如bmc。
55.交换板模块130用于将计算设备100中各个部件相互连接起来,实现计算设备100内部信息交换与传送。交换板模块130可以由多个交换板组成。
56.电源模块140用于为计算设备100及其中的各个部件提供稳定的电压。电源模块140可以由一个或多个电源组成。
57.风扇模块150用于加快计算设备100的散热片表面空气的流动速度,以提高散热片和空气的热交换速度。风扇模块150可以由一个或多个风扇组成。
58.上述系统主板110与交换板130连接,管理模块120与交换板模块130连接。管理模块120通过交换板模块130与系统主板110通信。电源模块140分别与系统主板110、管理模块120、交换板模块130和风扇模块150连接。风扇模块150分别与系统主板110、管理模块120、交换板模块130和电源模块140连接。
59.本技术中,管理模块120用于监控系统主板110中生成的告警信息,若生成告警信息,则记录系统主板中检测单元的检测信息,例如:风扇转速,电源的电压值、cpu温度、进风口温度或出风口温度。
60.在一种可能的实现方式中,当计算设备100用于环境气候适应性测试时,需要将该计算设备100的部件配置齐全,同时业务量提升到最大。例如,当计算设备100是e9000刀片服务器,针对e9000刀片服务器,机框中配置16个刀片节点(系统主板110),2块10ge交换板130,6个电源模块140,14个风扇模块150,2个管理模块120,其中,2个管理模块120作为主备管理模块使用。将e9000刀片服务器放置在温箱,温箱温度曲线设置0℃~40℃,在该e9000刀片服务器中拉满业务。
61.下文对本技术实施例提供的告警信息记录方法进行说明:
62.请参考图2,为本技术实施例提供的一种告警信息记录方法的流程图。如图2所示,该方法可以包括s101-s108。
63.该方法应用于上述计算设备中的管理模块,管理模块与计算设备内的系统主板连接,系统主板包含或者连接至少一个检测单元,检测单元用于检测系统主板上电子器件的工作状态;该方法应用于测试场景,计算设备被配置为运行的业务量大于等于预设值,该预设值可以是计算设备在一段时间内所能完成的最大平均工作量。管理模块与系统主板分别包括时钟芯片。
64.(可选的)s101:管理模块将计算设备的时钟与环境气候适应性测试所使用的时钟对齐。
65.当测试包括环境气候适应性测试时,管理模块将计算设备的时钟与测试所使用的时钟对齐,能够保证计算设备生成的告警日志与环境气候适应性测试的环境值例如温度、湿度等相对应。
66.在一种可能的实现方式中,管理模块调用计算设备的系统时间,并弹窗询问工作人员是否需要修改计算设备的系统时间。如果计算设备的系统时间与环境气候适应性测试的时间一致,则说明计算设备的时钟与环境气候适应性测试所使用的时钟已经对齐,可以
不用修改。如果计算设备的系统时间与环境气候适应性测试的时间不一致,则说明计算设备的时钟与环境气候适应性测试所使用的时钟还未对齐,此时工作人员可以在弹窗中确认需要修改计算设备的系统时间,以使得计算设备的时钟与环境气候适应性测试所使用的时钟对齐。
67.在一个示例中,如表1所示,表1示出计算设备生成的告警日志、计算设备生成告警日志的时间、该时间下对应的实验环境的环境值,表1包括“告警日志名称”、“生成告警日志的时间”、“温度”和“湿度”,“温度”和“湿度”分别为在表1的“生成告警日志的时间”下,对应的实验环境的温度和湿度。
68.表1
69.告警日志名称生成告警日志的时间温度湿度告警日志18:0035℃20告警日志29:0040℃25
70.该步骤中,管理模块将计算设备的时间与实验环境的时间对齐,避免计算设备生成的告警日志的时间,对应错误的实验环境值,导致计算设备测试实验失败。
71.(可选的)s102:管理模块删除系统主板所包括的历史告警信息。
72.历史告警信息是系统主板在本次测试之前生成的告警信息。
73.在一种可能的实现方式中,管理模块通过管理系统命令清除系统主板中所有历史告警信息。
74.管理模块删除系统主板所包括的历史告警信息,可以有效避免历史告警信息对本次测试中查询告警信息带来干扰。
75.s103:管理模块查询系统主板的告警日志。
76.可选的,管理模块每隔预设时间段查询系统主板的告警日志。
77.预设时间段为预先在管理模块中设置好的一个时间段,例如:10秒。通过设置预设时间段,使得管理模块可以自动周期性查询系统主板的告警日志,减少人工干预,提高查询效率。
78.告警日志,例如:bmc中记录的告警日志、设备状态监控日志等。
79.一般的,告警信息由系统主板记录在告警日志中,因此,查询系统主板的告警日志可以确定该系统主板是否生成告警信息。
80.在一种可能的实现方式中,管理模块中设置脚本程序,例如:bash脚本,当该脚本程序启动后,该程序每个预设时间段自动查询系统主板的告警日志。
81.s104:管理模块确定告警日志是否包括告警信息。
82.若是,执行s105;
83.若否,执行s107。
84.其中,告警信息生成的时间为告警信息生成时计算设备的时间。
85.当测试场景包括环境气候适应性测试时,告警信息用于对系统主板的健康情况进行告警,例如:电压告警信息,网卡丢包状态告警信息等。
86.在一种可能的实现方式中,由于在s102中管理模块已经删除系统主板所包括的历史告警信息,因此,管理模块确定告警日志是否包括告警信息的方式为判断告警日志中告警信息的行数是否有新增。如果有新增,表明告警日志中包括告警信息;如果没有新增,表
明告警日志中不包括告警信息。
87.s105:管理模块查询至少一个检测单元中与告警信息相关的检测单元的检测信息。
88.告警信息用于对系统主板的健康情况进行告警。
89.在一种可能的实现方式中,管理模块在确定告警日志包括告警信息后,查询系统主板中所有检测单元的检测信息。
90.在另一种可能的实现方式中,管理模块在确定告警日志包括告警信息后,确定告警信息的告警类型,读取多个电子器件中与告警类型对应的电子器件的检测单元的检测信息。
91.上述与告警类型对应的电子器件为目标电子器件。一般,该目标电子器件是预设器件。
92.示例性的,当告警信息是温度告警,与温度告警对应的电子器件包括风扇、电源、cpu、进风口和出风口,与温度告警对应的电子器件的检测单元的检测信息包括:风扇转速,电源的电压值、cpu温度、进风口温度或出风口温度。
93.由于计算设备中可能包括多个系统主板,系统主板中包括多种器件,因此基于不同告警类型预先确定目标器件,读取目标器件中的检测单元的检测信息,可以节约系统资源,提高读取效率。
94.s105中,管理模块可以在确定告警日志包括告警信息后,立刻查询检测单元的检测信息,也可以在一段时间(例如一分钟)内查询检测单元的检测信息,或者,周期性查询检测单元的检测信息。本技术实施例对管理模块在确定系统主板生成告警信息后,具体何时查询检测单元的检测信息的方式不做限定。
95.s106:管理模块记录与告警信息相关的检测单元的检测信息和告警信息生成的时间。
96.可选的,管理模块将记录保存在存储器中。
97.s107:管理模块判断测试是否结束。
98.若是,执行s108;
99.若否,选择下一块系统主板,执行s102。
100.(可选的)s108:在测试结束后,管理模块将与告警信息相关的检测单元的检测信息和告警信息生成的时间对应输出。
101.可选的,管理模块将系统主板中所有检测单元的检测信息和告警信息生成的时间对应输出。
102.在一个示例中,如表2所示,若告警信息为内存温度过高告警,表2示出管理模块输出的与内存温度过高相关的检测单元的检测信息和对应的告警信息生成的时间。表2包括“告警信息生成时间”、“风扇转速”、“电源的电压值”、“cpu温度”、“进风口温度”和“出风口温度”,其中,“告警信息生成时间”为告警信息生成的时间,“风扇转速”、“电源的电压值”、“cpu温度”、“进风口温度”和“出风口温度”分别为与告警信息相关的检测单元的检测信息。
103.表2
[0104][0105]
上述表2中,若电压正常值在-12v~12v,风扇转速预设值为2000r/min,若风扇转速在+100~-100之间为正常值,各部件温度正常值在20℃-30℃。从表2所示的内容可以看出,风扇转速为1500r/min,低于风扇转速正常值。其余电源的电压值、cpu温度、进风口温度和出风口温度的值都在正常范围内,因此可以推测内存温度过高可能是因为风扇转速较低引起的。
[0106]
可以理解的是,在实验环境下对计算设备进行测试时,若计算设备中的系统主板生成告警信息后,管理模块可以及时记录并输出该时间下与该告警信息相关的检测单元的检测信息,有助于工作人员查看该告警信息在具体实验环境下的生成原因,针对生成原因采取相关解决措施,避免再次设置实验环境,节约实验资源和人力资源。
[0107]
如图3所示,本技术实施例还提出另一种告警信息记录方法流程图,方法包括s201-s204。
[0108]
s201:管理模块统计在预设时间段内系统主板上各类告警信息出现的次数。
[0109]
预设时间段是任意选取的,或基于测试需要预先在管理模块中设定的一个时间段,该时间段是测试过程中的一个时间段。
[0110]
在一个示例中,测试时间为0:00-24:00,预先设置其中10:00-11:00为预设时间段,管理模块统计2:00-3:00之间系统主板上温度类告警出现5次,网络数据传输类告警出现1次,电压类告警2次。
[0111]
s202:管理模块判断第一类告警信息出现的次数是否超过第一预设次数。
[0112]
是,执行s203;
[0113]
否,本流程结束。
[0114]
第一类告警信息是系统主板上各类告警信息中任意一种。
[0115]
在一个示例中,若第一预设次数设置为3次。当温度类告警出现5次,5次大于3次,则该温度类告警出现的次数超过第一预设次数。
[0116]
s203:在预设时间段之后,管理模块周期性查询至少一个检测单元中与第一类告警信息相关的检测单元的检测信息。
[0117]
管理模块可以在预设时间段之后、测试结束前,周期性查询至少一个检测单元中与告警信息相关的检测单元的检测信息,或者,在预设时间段之后、测试结束前,再设置一个周期性查询至少一个检测单元中与第一类告警信息相关的检测单元的检测信息的时间段。本技术对管理模块具体如何选取该周期性查询的时间段不做限定。
[0118]
在一个示例中,测试时间为0:00-24:00,预先设置其中10:00-11:00为预设时间段,则11:00-24:00为预设时间段之后的时间。若第一类告警信息为温度类告警,周期设置为0.5小时,则管理模块在11:00-24:00之间,每隔0.5小时查询一次至少一个检测单元中与温度类告警相关的检测单元的检测信息。
[0119]
s204:管理模块记录与第一类告警信息相关的检测单元的检测信息。
[0120]
可以理解的是,当系统主板中某一类型的告警信息出现的次数较多时,可以在后
续测试时间段中增加读取与该类型的告警信息相关的检测单元的检测信息的频率,有助于提高解决该类型问题的效率。
[0121]
如图4所示,本技术实施例还提出另一种告警信息记录方法流程图,其中,计算设备包括刀片服务器,刀片服务器中包括多个系统主板,方法包括s301-s304。
[0122]
s301:管理模块统计在预设时间段内各块系统主板出现告警信息的次数。
[0123]
预设时间段是任意选取的,或基于测试需要预先在管理模块中设定的一个时间段,该时间段是测试过程中的一个时间段。s301中的预设时间段与s201中的预设时间段可以是相同的时间段,也可以是不同的时间段。
[0124]
在一个示例中,刀片服务器中包括5块系统主板,测试时间为0:00-24:00,预先设置其中13:00-14:00为预设时间段,管理模块统计13:00-14:00之间,刀片服务器中各块系统主板出现告警信息的次数分别为25次、30次、15次、10次和5次。
[0125]
s302:管理模块判断第一系统主板出现告警信息的次数是否超过第二预设次数。
[0126]
若是,执行s303;
[0127]
若否,本流程结束。
[0128]
第一系统主板为多块系统主板中的任意一个。
[0129]
在一个示例中,若第二预设次数为20次。当刀片服务器中各块系统主板出现告警信息的次数分别为25次、30次、15次、10次和5次,25次超过20次,30次超过20次,则出现告警信息的次数为25次的系统主板和出现告警次数为30次的系统主板的告警信息出现次数超过第二预设次数。
[0130]
s303:在预设时间段之后,管理模块周期性查询第一系统主板上所有检测单元的检测信息。
[0131]
管理模块可以在预设时间段之后、测试结束前,周期性查询第一系统主板上所有检测单元的检测信息,或者,在预设时间段之后、测试结束前,再设置一个周期性查询第一系统主板上所有检测单元的检测信息的时间段。本技术对管理模块具体如何选取该周期性查询的时间段不做限定。
[0132]
在一个示例中,测试时间为0:00-24:00,预先设置其中13:00-14:00为预设时间段,则14:00-24:00为预设时间段之后的时间。若刀片服务器中包含的5块系统主板中的系统主板1和系统主板3出现告警信息的次数超过第二预设次数,周期设置为1小时,则管理模块在14:00-24:00之间,每隔1小时查询一次系统主板1和系统主板3上所有检测单元的检测信息。
[0133]
s304:管理模块记录第一系统主板上所有检测单元的检测信息。
[0134]
可以理解的是,在测试过程中,当刀片服务器中的多块系统主板中某些系统主板出现告警信息的次数较多时,表明该系统主板可能存在的问题较多,因此,在测试后续时间段中,增加对出现告警信息的次数较多的系统主板的所有检测单元的读取频率,有助于定位该系统主板出现告警信息的原因。
[0135]
本技术中,上述图2、图3和图4所示出的实施例在不冲突的情况下,可以结合为新的实施例。
[0136]
上述主要从方法的角度对本技术实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术目标应该很容易意
识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术目标可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0137]
本技术实施例还提供一种告警信息记录装置200,例如上述实施例中的管理模块。如图5所示,为本技术实施例提供的一种告警信息记录装置200的结构示意图。
[0138]
其中,告警信息记录装置200包括:查询单元201,用于当确定系统主板生成告警信息时,在测试过程中,查询至少一个检测单元中与告警信息相关的检测单元的检测信息;告警信息用于对系统主板的健康情况进行告警;记录单元202,用于记录与告警信息相关的检测单元的检测信息。例如,结合图2,查询单元201用于方法实施例中的s105,记录单元202用于方法实施例中的s106。
[0139]
可选的,查询单元201还用于,在确定系统主板包括告警信息前,查询系统主板的告警日志;告警信息记录装置200还包括确定单元203,用于确定告警日志包括告警信息。例如,结合图2,查询单元201用于方法实施例中的s103,确定单元203用于方法实施例中的s104。
[0140]
可选的,当告警信息是温度告警时,与告警信息相关的检测单元的检测信息包括:风扇转速、电源的电压值、cpu温度、进风口温度或出风口温度。
[0141]
可选的,系统主板包括或连接多个电子器件,查询单元201具体用于,确定所述告警信息的告警类型;读取所述多个电子器件中与所述告警类型对应的电子器件的检测单元的检测信息;所述告警类型对应的电子器件为目标电子器件。例如,查询单元201用于方法实施例中的s105。
[0142]
可选的,告警信息记录装置200还包括时钟对齐单元204,用于当测试场景包括环境气候适应性测试时,告警信息用于对系统主板的健康情况进行告警,在确定系统主板包括告警信息前,将计算设备的时钟与环境气候适应性测试所使用的时钟对齐;其中,告警信息生成的时间为告警信息生成时计算设备的时间。例如,结合图2,时钟对齐单元204用于方法实施例中的s101。
[0143]
可选的,告警信息记录装置200还包括删除单元205,用于查询系统主板的告警日志前,删除系统主板所生成的历史告警信息;其中,历史告警信息是系统主板历史时间中生成的告警信息。例如,结合图2,删除单元205用于方法实施例中的s102。
[0144]
可选的,确认单元203还用于,周期性确认系统主板是否生成告警信息。例如,确认单元203用于方法实施例中的s104。
[0145]
可选的,告警信息记录装置200还包括统计单元206,用于统计在预设时间段内系统主板上各类告警信息出现的次数;查询单元201还用于,当第一类告警信息出现的次数超过第一预设次数时,在预设时间段之后,周期性查询至少一个检测单元中与第一类告警信息相关的检测单元的检测信息;其中,第一类告警信息为各类告警信息中的任意一种;记录单元202还用于,记录与第一类告警信息相关的检测单元的检测信息。例如,结合图3,统计单元206用于方法实施例中的s201,查询单元201用于方法实施例中的s203,记录单元202用于方法实施例中的s204。
[0146]
可选的,告警信息记录装置200还包括输出单元207,在测试结束后,用于将与告警
信息相关的检测单元的检测信息和告警信息生成的时间对应输出。例如,输出单元207用于方法实施例中的s107。
[0147]
可选的,计算设备包括刀片服务器,刀片服务器包括多块系统主板,统计单元206还用于,统计在预设时间段内各块系统主板出现告警信息的次数;查询单元201还用于,当第一系统主板出现告警信息的次数超过第二预设次数时,在预设时间段之后,周期性查询第一系统主板上所有检测单元的检测信息;其中,第一系统主板为多块系统主板中的任意一个;记录单元202还用于,记录第一系统主板上所有检测单元的检测信息。例如,结合图4,统计单元206用于方法实施例中的s301,查询单元201用于方法实施例中的s303,记录单元202用于方法实施例中的s304。
[0148]
当然,本技术实施例提供的告警信息记录装置200包括但不限于上述模块。
[0149]
图6是本技术实施例提供的告警信息记录装置300的结构示意图。如图6所示,该告警信息记录装置300包括处理器301、存储器302和网络接口303。
[0150]
其中,处理器301包括一个或多个cpu。该cpu可以为单核cpu(single-cpu)或多核cpu(multi-cpu)。
[0151]
存储器302包括但不限于是随机存取存储器(random access memory,ram)、只读存储器(read-only memory,rom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、快闪存储器、或光存储器等。
[0152]
可选地,处理器301通过读取存储器302中保存的指令实现本技术实施例提供的告警信息记录方法,或者,处理器301通过内部存储的指令实现本技术实施例提供的告警信息记录方法。在处理器301通过读取存储器302中保存的指令实现上述实施例中的方法的情况下,存储器302中保存实现本技术实施例提供的告警信息记录方法的指令。
[0153]
网络接口303,包含发送器和接收器的一类装置,用于与其他设备或通信网络通信,可以是有线接口(端口),例如光纤分布式数据接口(fiber distributed data interface,fddi)、千兆以太网接口(gigabit ethernet,ge)。或者,网络接口303是无线接口。应理解,网络接口303包括多个物理端口,网络接口303用于通信等。
[0154]
可选地,告警信息记录装置300还包括总线304,上述处理器301、存储器302、网络接口303通常通过总线304相互连接,或采用其他方式相互连接。
[0155]
在实际实现时,告警信息记录装置200中的查询单元201、记录单元202、确定单元203、时钟对齐单元204、删除单元205、统计单元206和输出单元207可以由处理器调用存储器中的计算机程序代码来实现。其具体的执行过程可参考上述方法部分的描述,这里不再赘述。
[0156]
本技术另一实施例还提供一种告警信息记录装置,包括存储器和处理器。存储器和处理器耦合;存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。其中,当处理器执行该计算机指令时,使得该告警信息记录装置执行上述方法实施例所示的告警信息记录方法的各个步骤。
[0157]
本技术另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当计算机指令在告警信息记录装置上运行时,使得告警信息记录装置执行上述方法实施例所示的告警信息记录方法流程中告警信息记录装置执行的各个步骤。
[0158]
本技术另一实施例还提供一种芯片系统,该芯片系统应用于告警信息记录装置。
该芯片系统包括一个或多个接口电路,以及一个或多个处理器。接口电路和处理器通过线路互联。接口电路用于从告警信息记录装置的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令。当告警信息记录装置处理器执行计算机指令时,告警信息记录装置执行上述方法实施例所示的告警信息记录处理方法流程中告警信息记录装置执行的各个步骤。
[0159]
在本技术另一实施例中还提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在告警信息记录装置上运行时,使得告警信息记录装置执行上述方法实施例所示的告警信息记录方法流程中告警信息记录装置执行的各个步骤。
[0160]
上述实施例可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,上述实施例可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本技术实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、服务器或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
[0161]
以上所述,仅为本技术的具体实施方式。熟悉本技术领域的技术人员根据本技术提供的具体实施方式,可想到变化或替换,都应涵盖在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1