一种内存故障处理方法、处理设备以及运维平台与流程

文档序号:37186459发布日期:2024-03-01 12:50阅读:15来源:国知局
一种内存故障处理方法、处理设备以及运维平台与流程

本技术涉及内存,具体涉及一种内存故障处理方法、处理设备以及运维平台。


背景技术:

1、内存是计算机设备中必不可少的一个部件,在使用过程中有一定概率会出现内存故障。内存故障包括可修复故障(corrected error,ce)和不可修复(uncorrectederror,uce)故障。其中,ce可以自动修复,uce无法自动修复,且uce很可能会导致计算机设备的系统宕机。

2、为了能降低计算机设备的系统宕机的概率,可以通过内存日志信息中的故障来预测故障物理区域,从而进行物理区域的整体隔离。这样虽然实现可以减小计算机设备的系统宕机的概率,但内存的利用率也变低了。因此,如何在减小计算机设备的系统宕机的概率上,提高内存的利用率成为亟待解决的技术问题。


技术实现思路

1、本技术实施例提供了一种内存故障处理方法、处理设备以及运维平台,可以实现对内存的局部隔离,提高内存的利用率。

2、第一方面,本技术实施例公开了一种内存故障处理方法,该方法包括:根据内存的内存故障信息确定多个故障存储单元中每个故障存储单元的故障信息;若目标存储阵列包括的故障存储单元的数量达到预设阈值,则确定所述目标存储阵列的目标物理区域,其中,所述目标存储阵列为根据多个所述故障存储单元的位置信息确定的一个或多个存储阵列中的任一个存储阵列,所述目标物理区域包括多个第一故障存储单元,所述多个第一故障存储单元为所述多个故障存储单元中的至少部分故障存储单元,所述多个第一故障存储单元位于同行或同列;根据每个第一故障存储单元的故障信息,对所述目标物理区域内的每个所述第一故障存储单元进行聚类处理,得到故障聚类结果,所述故障聚类结果包括多个第二故障存储单元,所述多个第二存储单元为所述多个第一故障存储单元中的至少部分第一故障存储单元,所述多个第二故障存储单元满足预设条件;根据所述故障聚类结果确定故障隔离区域,所述故障隔离区域为所述多个第二故障存储单元的地址形成的区域。

3、在该技术方案中,根据每个第一故障存储单元的故障信息,对目标物理区域内的每个第一故障存储单元进行聚类处理,得到故障聚类结果;最后根据所述故障聚类结果确定故障隔离区域,以这样的方式可以实现故障存储单元的局部隔离,减少一些可用的存储单元被隔离,避免了存储单元的浪费,进而可以提高内存的利用率。

4、在一个实施例中,所述每个故障存储单元的故障信息包括位置信息,所述确定所述目标存储阵列的目标物理区域,包括:根据所述目标存储阵列包括的第一故障存储单元的位置信息确定各第一故障存储单元的内存故障类型,所述内存故障类型包括行故障类型和列故障类型;根据所述各第一故障存储单元的内存故障类型确定目标物理区域,所述目标物理区域包括:所述行故障类型对应的目标行物理区域、或所述列故障类型对应的目标列物理区域,所述目标行物理区域包括的多个第一故障存储单元位于同一行,所述目标列物理区域包括的多个第一故障存储单元位于同一列。

5、在该技术方案中,通过故障存储单元的位置信息确定内存故障类型,然后根据内存故障类型确定目标物理区域,目标物理区域是目标存储阵列的一行或者一列,确定出目标物理区域后再进行聚类,可以提高确定故障隔离区域的效率。

6、在一个实施例中,所述每个故障存储单元的故障信息还包括时间信息,所述根据每个第一故障存储单元的故障信息,对所述目标物理区域内的每个所述第一故障存储单元进行聚类处理,得到故障聚类结果,包括:基于聚类参数、所述每个第一故障存储单元的位置信息以及所述每个第一故障存储单元的时间信息对所述目标物理区域内的第一故障存储单元进行聚类处理,得到所述目标物理区域的故障聚类结果。

7、在该技术方案中,通过设定的聚类参数对目标物理区域内的第一故障存储单元进行聚类处理,可以得到目标物理区域中的故障聚类结果,聚类处理是为了获取需要隔离的局部区域,以便于对故障隔离区域进行局部隔离。

8、在一个实施例中,所述基于聚类参数、所述每个第一故障存储单元的位置信息以及所述每个第一故障存储单元的时间信息对所述目标物理区域内的第一故障存储单元进行聚类处理,得到所述目标物理区域的故障聚类结果,包括:针对所述目标物理区域中的任意目标第一故障存储单元,根据所述目标第一故障存储单元的时间信息,确定所述目标第一故障存储单元与所述目标区物理区域中其他第一故障存储单元的时间差;所述目标第一故障存储单元为所述目标物理区域中的任意一个第一故障存储单元;根据所述目标第一故障存储单元的位置信息确定所述目标第一故障存储单元与所述目标区物理区域中其他第一故障存储单元的距离差;基于所述聚类参数、所述时间差以及所述距离差确定所述目标物理区域包括的每个第一故障存储单元对应的故障存储单元集合;根据所述每个第一故障存储单元对应的故障存储单元集合确定所述目标物理区域的故障聚类结果,所述故障聚类结果包括多个第二故障存储单元,所述多个第二故障存储单元满足预设条件。

9、在该技术方案中,阐述聚类时是根据故障存储单元的时间信息、位置信息以及聚类参数确定的,通过故障存储单元的故障信息可以更为准确的确定故障聚类结果。

10、在一个实施例中,所述多个第二故障存储单元满足预设条件包括:所述多个第二故障存储单元对应的数量满足所述聚类参数中设置的聚类密度,所述多个第二故障存储单元中任意两个第二故障存储单元之间的时间差小于所述聚类参数中设置的时间阈值,所述故障聚类结果的聚类中心到所述多个第二故障存储单元中任意一个第二故障存储之间的距离差小于所述聚类参数中设置的距离阈值。

11、在该技术方案中,主要阐述的聚类结果满足的条件,通过这些条件,可以更为精确地确定故障隔离区域。

12、在一个实施例中,所述根据所述故障聚类结果确定故障隔离区,包括:若所述故障聚类结果包括的第二故障存储单元的故障类型为所述行故障类型,则根据各个第二故障存储单元的列地址中的最小值和最大值,确定故障隔离区域;若所述故障聚类结果包括的第二故障存储单元的故障类型为所述列故障类型,则根据各个第二故障存储单元的行地址中的最小值和最大值,确定故障隔离区域。

13、在该技术方案中,主要阐述的是在故障隔离区域是根据行地址或者列地址确定的,这样可以准确地确定每个故障隔离区域的具体位置信息。

14、在一个实施例中,若所述故障隔离区域包括的存储单元的数量与所述目标物理区域包括的第一存储单元的总量之间的比值大于比值阈值,则将所述目标物理区域作为故障隔离区域,所述目标物理区域为所述目标存储阵列中的整行或者整列的区域。

15、在该技术方案中,主要阐述的是在进行规章隔离时,可以根据隔离区域的范围来扩大隔离范围,扩大对内存的保护,以此来提升内存的健康程度。

16、在一个实施例中,所述内存故障信息是从中央处理器中获取的;所述方法还包括:将所述故障隔离区域发送给中央处理器,所述故障隔离区域用于触发所述中央处理器对所述故障隔离区域进行隔离。

17、在该技术方案中,主要是将内存故障隔离方法应用于基板管理控制器,也就是计算机设备本身中,实现对计算机设备的内存的保护。

18、在一个实施例中,所述内存故障信息是从运维平台获取的;所述方法还包括:将所述故障隔离区域发送给所述运维平台,以使得所述运维平台通知中央处理器对所述故障隔离区域进行隔离。

19、在该技术方案中,主要是将内存故障隔离方法应用于运维平台中,通过第三方对内存的故障进行分析,从而实现对内存的保护。

20、第二方面,本技术实施例公开了一种内存故障处理装置,该装置包括:

21、确定单元,用于根据内存的内存故障信息确定多个故障存储单元中每个故障存储单元的故障信息;

22、确定单元,还用于若目标存储阵列包括的故障存储单元的数量达到预设阈值,则确定所述目标存储阵列的目标物理区域,其中,所述目标存储阵列为根据多个所述故障存储单元的位置信息确定的一个或多个存储阵列中的任一个存储阵列,所述目标物理区域包括多个第一故障存储单元,所述多个第一故障存储单元为所述多个故障存储单元中的至少部分故障存储单元,所述多个第一故障存储单元位于同行或同列;

23、处理单元,用于根据每个第一故障存储单元的故障信息,对所述目标物理区域内的每个所述第一故障存储单元进行聚类处理,得到故障聚类结果,所述故障聚类结果包括多个第二故障存储单元,所述多个第二存储单元为所述多个第一故障存储单元中的至少部分第一故障存储单元,所述多个第二故障存储单元满足预设条件;

24、确定单元,还用于根据所述故障聚类结果确定故障隔离区域,所述故障隔离区域为所述多个第二故障存储单元的地址形成的区域。

25、第三方面,本技术实施例公开了一种计算机设备,该计算机设备包括处理器,适于实现一条或多条计算机程序;以及,计算机可读存储介质,所述计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行以上述第一方面的内存故障处理方法。

26、第四方面,本技术实施例公开了一种运维平台,该运维平台包括处理器,适于实现一条或多条计算机程序;以及,计算机可读存储介质,所述计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行以上述第一方面的内存故障处理方法。

27、第五方面,本技术实施公开了一种计算机可读存储介质,该计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行上述第一方面的资源管理方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1