内存状态检测方法、装置、通信设备及存储介质与流程

文档序号:35335750发布日期:2023-09-06 20:51阅读:31来源:国知局
本技术涉及数据处理,特别是一种内存状态检测方法、装置、通信设备及存储介质。
背景技术
::1、在现代大型数据中心中,通常有数百万台服务器协同工作,用以提供高性能计算和大数据存储服务。由于这些服务器上运行着大量任务,硬件故障可能会对服务器的可靠性、可用性和可服务性(reliability availability serviceability,ras)造成巨大影响。在服务器系统中,内存也被称为内存储器,其作用是用于暂时存放cpu中的运算数据,以及与硬盘等外部存储器交换的数据。计算机中所有程序的运行都是在内存中进行的,因此内存异常对计算机的影响非常大。同时,内存故障也是对硬件最常见的威胁之一。为了防止内存出错,服务器通常会为内存配备先进的(error correction code,ecc)机制,如sec-ded和chipkill。然而,仅仅依靠ecc来保证内存的可靠性是远远不够的。在现代数据中心中,内存故障已被证明是服务器宕机或系统故障的主要原因。随着计算密度和内存容量的不断增加,带来了更高的内存故障风险。2、相关技术中,相关技术人员依据检测到的内存可纠正错误(correctable error,ce)数量、出现频率、运行温度、插拔次数、功耗等因素,拟通过某种内存人工智能算法建立一个模型,计算得到内存健康度,例如,基于机器学习和深度学习的人工智能算法,然而上述方案中存在将内存相关信息均作为同一维度的输入至人工智能算法,因此,会导致模型训练计算量的增加、模型建立不稳定的问题,无法准确反馈当前内存状态。技术实现思路1、本技术实施例的目的在于提供一种内存状态检测方法、装置、通信设备及存储介质,以解决现有技术中无法准确反馈当前内存状态的技术问题。具体技术方案如下:2、在本技术实施的第一方面,首先提供了一种内存状态检测方法,所述内存状态检测方法包括:3、获取内存数据;4、根据所述内存数据的类型将所述内存数据划分为第一内存数据和第二内存数据;5、根据预设内存健康度评估模型和所述第一内存数据确定初步内存健康度分数,以及,将所述第二内存数据通过输入输出模型进行处理,确定健康度影响因子,其中,所述预设内存健康度评估模型是基于第一历史内存数据确定的,所述输入输出模型是基于第二历史内存数据对预设初始模型进行训练生成的;6、根据所述初步内存健康度分数和所述健康度影响因子确定当前内存状态。7、可选地,所述第二内存数据中包括实际输入数据和实际输出数据,所述实际输入数据和所述实际输出数据一一对应;所述将所述第二内存数据通过输入输出模型进行处理,确定健康度影响因子包括:8、将实际输入数据输入至输入输出模型,得到所述实际输入数据对应的预测输出数据;9、将所述预测输出数据和实际输出数据进行比对,得到误差值;10、根据所述误差值确定健康度影响因子。11、可选地,所述实际输入数据包括以下至少一种平均电压、运行时平均频率以及平均擦写速度数据,所述实际输出数据包括内存平均温度数据,在所述将实际输入数据输入至输入输出模型,得到所述实际输入数据对应的预测输出数据的步骤之前,所述方法包括:12、将多个预设时间段内采集的实际输入数据进行预处理,生成多个预设时间段内对应的数据集;13、在所述多个预设时间段内对应的数据集中筛选当前时刻对应的三个预设时间段内所述内存状态处于正常状态的目标数据集;14、将所述目标数据集进行归一化处理,得到训练样本。15、可选地,在所述将所述目标数据集进行归一化处理,得到训练样本的步骤之后,所述方法包括:16、根据所述训练样本对预设初始模型进行训练,得到输入输出模型。17、可选地,所述根据所述误差值确定健康度影响因子包括:18、在检测到所述误差值小于目标误差阈值的情况下,将所述健康度影响因子设置为1;19、在检测到所述误差值大于所述目标误差阈值的情况下,获取预先设置的内存健康度策略,根据所述内存健康度策略确定所述健康度影响因子。20、可选地,所述目标误差阈值是根据所述预测输出数据和所述实际输出数据之间的目标均方误差向量对应的均方根误差确定的。21、可选地,所述根据所述初步内存健康度分数和所述健康度影响因子确定当前内存状态包括:22、根据所述初步内存健康度分数、当前时刻的所述健康度影响因子以及所述当前时刻对应的上一个预设时间周期内的所述健康度影响因子确定当前时刻内存对应的目标内存健康度分数。23、可选地,所述目标内存健康度分数通过以下公式生成:24、25、其中,上述公式中,用于表示所述目标内存健康度分数,用于表示所述初步内存健康度分数,用于表示当前时刻的所述健康度影响因子,用于表示所述当前时刻对应的上一个预设时间周期内的所述健康度影响因子,用于表示多个所述预测输出数据和实际输出数据之间的误差值对应的平均值,用于表示目标误差阈值。26、可选地,在所述根据所述初步内存健康度分数、当前时刻的所述健康度影响因子以及所述当前时刻对应的上一个预设时间周期内的所述健康度影响因子确定当前时刻内存对应的目标内存健康度分数的步骤之后,所述方法包括:27、在检测到所述目标内存健康度分数小于目标健康度阈值,或者,所述健康度影响因子小于或者大于1的情况下,向用户发送预警信息,以使所述用户通过预设显示界面查看当前时刻的内存状态。28、可选地,所述第一内存数据是通过寄存器日志获取的,所述第一内存数据包括以下至少一种:内存硬故障、内存错误数量、内存错误类型以及使能错误修复操作。29、可选地,所述预设内存健康度评估模型包括:30、在检测到预设数量的所述内存硬故障的情况下,扣除第一预设分值;31、在检测到预设时间内所述内存错误数量大于预设阈值的情况下,扣除第二预设分值;32、根据所述内存错误类型确定所述内存错误类型对应的第三预设分值;33、根据所述使能错误修复操作确定所述使能错误修复操作对应的第四预设分值。34、可选地,所述内存错误类型包括以下至少一种:内存硬错误、内存软错误、srao错误、ucna错误、srar错误以及突发致命错误。35、可选地,所述根据所述内存错误类型确定所述内存错误类型对应的第三预设分值包括:36、在检测到所述内存错误类型为内存硬错误、内存软错误、srao错误、ucna错误、srar错误其中一种的情况下,扣除所述第三预设分值;37、在检测到所述内存错误类型为突发致命错误的情况下,所述初步内存健康度分数为0。38、可选地,所述使能错误修复操作包括以下至少一种:消耗pcls、使能bank级别adddc功能、使能rank级别adddc功能以及使能风暴抑制功能。39、可选地,所述使能错误修复操作对应的分数排序从小到大为:消耗pcls、使能bank级别adddc功能、使能rank级别adddc功能以及使能风暴抑制功能。40、可选地,所述输入输出模型对应的数据集包括四列向量数据,所述输入输出模型包括三个输入数据对应一个输出数据。41、可选地,所述三个输入数据包括内存对应的平均电压、运行时平均频率以及平均擦写速度数据,所述输出数据包括内存对应的平均温度数据。42、在本技术实施的又一方面,还提供了一种内存状态检测装置,所述装置包括:43、获取模块,用于获取内存数据;44、划分模块,用于根据所述内存数据的类型将所述内存数据划分为第一内存数据和第二内存数据;45、第一确定模块,用于根据预设内存健康度评估模型和所述第一内存数据确定初步内存健康度分数,以及,将所述第二内存数据通过输入输出模型进行处理,确定健康度影响因子,其中,所述输入输出模型是基于第二历史内存数据对预设初始模型进行训练生成的;46、第二确定模块,用于根据所述初步内存健康度分数和所述健康度影响因子确定当前内存状态。47、在本技术实施的又一方面,还提供了一种通信设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;48、存储器,用于存放计算机程序;49、处理器,用于执行存储器上所存放的程序时,实现上述任一所述的内存状态检测方法。50、在本技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的内存状态检测方法。51、在本技术实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的内存状态检测方法。52、本技术实施例提供的内存状态检测方法,通过获取内存数据;根据所述内存数据的类型将所述内存数据划分为第一内存数据和第二内存数据;根据预设内存健康度评估模型和所述第一内存数据确定初步内存健康度分数,以及,将所述第二内存数据通过输入输出模型进行处理,确定健康度影响因子,其中,所述预设内存健康度评估模型是基于第一历史内存数据确定的,所述输入输出模型是基于第二历史内存数据对预设初始模型进行训练生成的;根据所述初步内存健康度分数和所述健康度影响因子确定当前内存状态。即本技术实施例通过分析影响服务器内存健康运行的各种因素,将不同影响因素对应的内存数据分为两类,即第一内存数据和第二内存数据,其中,第一存储数据对应的第一历史存储数据可以生成预设内存健康度评估模型,第一存储数据可以根据预设内存健康度评估模型确定内存对应的初步内存健康度分数;其次,可以通过对第二历史内存数据进行处理,对预设初始模型进行训练,从而生成输入输出模型,通过将第二内存数据输入至训练好的输入输出模型后,可以确定内存的健康度影响因子,进而根据初步内存健康度分数和健康度影响因子可以确定当前内存状态,本技术通过根据内存数据对内存的影响将内存数据划分为两类,通过健康度影响因子调节内存健康度分数,可以有效且准确的对内存健康情况进行检测。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1