一种服务器内存故障预警方法、装置、设备及存储介质与流程

文档序号:36266577发布日期:2023-12-06 11:47阅读:38来源:国知局
本技术涉及计算机,特别涉及一种服务器内存故障预警方法、装置、设备及存储介质。
背景技术
::1、随着服务器技术的蓬勃发展,服务器在各个领域得到了广泛的应用,而作为服务器的主要部件之一,内存已经成为了影响系统稳定性的故障高发部件,因此,如何在内存发生严重故障之前,提前识别出故障并对故障进行处理是本领域需要解决的技术问题。2、目前,为了保证服务器系统的稳定性和可靠性,服务器通常通过内存漏斗机制来处理内存中的可纠正错误,如通过ecc(error correction code,纠错码)机制对发生在内存系统中可以被纠正的错误(即correctable error,ce错误)进行识别,并对其进行纠正。例如,当内存系统中的数据出现位翻转或其他硬件故障时,使用ecc机制检测到这些错误并对其进行纠正。具体的,内存漏斗机制的工作原理是通过漏斗计数器来记录每条内存发生的可纠正错误的次数,并定时轮询漏斗计数器,当监测到可纠正错误的次数达到预设阈值时,则触发故障预警,从而提示相关服务器管理人员进行故障处理。3、然而,某些服务器,如海光平台的服务器由于寄存器的硬件限制,最高只能支持4095个的内存可纠正错误计数,由于该阈值较低,因此会导致内存故障预警的准确性不高。另一方面,某些内存故障属于软故障(如宇宙射线导致的比特翻转、突发的电磁干扰等),这类故障会在一定时间内自动恢复正常,并非不可纠正错误,此时如果依然采用纯计数的方式进行故障预警,则很容易造成预警误报,导致内存的误更换,进而造成服务器的运行及维护效率低下。技术实现思路1、有鉴于此,本技术的目的在于提供一种服务器内存故障预警方法、装置、设备及存储介质,能够提升服务器内存故障预警的准确性,避免内存的误更换,降低服务器的维护成本。其具体方案如下:2、第一方面,本技术公开了一种服务器内存故障预警方法,包括:3、获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;4、监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中;5、基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;6、判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件;7、统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数;8、判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。9、可选的,所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,包括:10、从服务器的基本输入输出系统中获取目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;所述可纠正错误漏斗参数配置信息中包括可纠正错误漏斗周期、可纠正错误漏斗频率和所述可纠正错误漏斗阈值。11、可选的,所述监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中,包括:12、通过所述基本输入输出系统监测所述目标内存触发的可纠正错误,并将监测到的所述可纠正错误的数量记录至位于所述基本输入输出系统的目标漏斗计数器中。13、可选的,所述基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,包括:14、通过所述目标漏斗计数器统计单个所述可纠正错误漏斗周期内所述可纠正错误的数量,得到统计结果;15、计算所述可纠正错误漏斗周期与所述可纠正错误漏斗频率的乘积,得到目标乘积结果;16、计算所述统计结果与所述目标乘积结果的差值,得到单个所述可纠正错误漏斗周期内所述目标漏斗计数器的当前实际计数值。17、可选的,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件,包括:18、判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;19、如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件,并获取所述可纠正错误风暴事件的记录时间;20、将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器;21、相应的,所述判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警,包括:22、通过所述基板管理控制器判断所述目标风暴事件次数是否大于预设次数阈值;23、如果所述目标风暴事件次数大于所述预设次数阈值,则判定所述目标内存存在发生故障的可能,并生成相应的内存故障预警信息,以对所述目标内存进行故障预警。24、可选的,所述将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器之后,还包括:25、通过所述基板管理控制器将所述可纠正错误风暴事件、所述记录时间和对应的所述目标内存进行绑定。26、可选的,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值之后,还包括:27、如果所述当前实际计数值不大于所述可纠正错误漏斗阈值,则将所述目标漏斗计数器的当前实际计数值清零,并重新执行所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息的步骤。28、第二方面,本技术公开了一种服务器内存故障预警装置,包括:29、信息获取模块,用于获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;30、监测模块,用于监测所述目标内存触发的可纠正错误;31、数量记录模块,用于将所述可纠正错误的数量记录至目标漏斗计数器中;32、计算模块,用于基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;33、第一判断模块,用于判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;34、事件记录模块,用于如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件;35、事件统计模块,用于统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数;36、第二判断模块,用于判断所述目标风暴事件次数是否大于预设次数阈值;37、信息生成模块,用于如果所述目标风暴事件次数大于所述预设次数阈值,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。38、第三方面,本技术公开了一种电子设备,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现前述的服务器内存故障预警方法。39、第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述的服务器内存故障预警方法。40、可见,本技术先获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,并监测所述目标内存触发的可纠正错误,然后将所述可纠正错误的数量记录至目标漏斗计数器中,接着基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,并判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件,再统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数,最后判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警。本技术综合考虑了时间因素和可纠正错误风暴事件的数量,延长了故障预警的时间,相当于提高了内存可纠正错误计数的阈值,能够提升服务器内存故障预警的准确性,避免内存的误更换,降低服务器的维护成本。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1