一种板卡监控结合算力的网络设备健康评估方法与流程

文档序号:34299515发布日期:2023-05-31 14:25阅读:49来源:国知局
一种板卡监控结合算力的网络设备健康评估方法与流程

本发明属于绿色机房,具体地,涉及一种板卡监控结合算力的网络设备健康评估方法。


背景技术:

1、数据中心机房监控系统(datacenter computer room monitoring systen,dcrms)是网络设备运行基础环境,基础环境是否正常,直接影响机房内网络设备的正常运行,网络设备主要由多板卡组成,每个板卡包括独立的cpu、内存等,目前主要通过cpu、内存、风扇使用率和温度等进行dcrms的评估,没有考虑网络设备的老旧、算力不足等情况。

2、网络设备的年限、算力等健康度指标,是评估网络设备健康重要度指标,网络设备使用时间比较长和高算力长时间运转,直接影响网络设备的整体性能。


技术实现思路

1、针对现有技术中存在的问题,本发明提供了一种板卡监控结合算力的网络设备健康评估方法,对dcrms中的网络设备通过板卡算力指标监测结合板卡寿命指标,预测网络设备的健康程度。

2、为实现上述技术目的,本发明采用如下技术方案:一种板卡监控结合算力的网络设备健康评估方法,具体包括如下步骤:

3、步骤1、根据dcrms中网络设备的板卡,设置监测指标,并将监测指标关系映射生成监控标记;

4、步骤2、根据生成监控标记中的板卡ip解析监控标记,并通过故障预测模型分别对监测指标进行故障预测,得到监控指标预测结果;

5、步骤3、根据监控指标预测结果,分别计算各项监控指标预测结果的得分,并将得分汇总,得到综合健康评估得分;当综合健康评估得分为1-3分时,所述网络设备为不健康状态;当综合健康评估得分为3-6分时,所述网络设备为亚健康状态;当综合健康评估得分为6-9分时,所述网络设备为健康状态。

6、进一步地,所述监控指标包括:板卡基础指标、板卡算力指标、板卡寿命指标;所述板卡基础指标包括:cpu、内存、硬盘三个维度。

7、进一步地,所述板卡算力指标中算力的计算过程为:

8、

9、其中,cbr为分布式组网内各地方边缘点的算力节点的总算力需求,n为逻辑运算芯片数量,i为n的索引,f(ai)为逻辑运算的映射函数,αi为第i个逻辑运算芯片的映射比例系数,q1(tops)为逻辑运算的冗余算力;m为并行计算芯片数量,j为m的索引,f(bj)为并行计算的映射函数,βj为第j个并行计算芯片的映射比例系数,q2(flops)为并行计算的冗余算力;p为神经网络加速芯片的数量,k为p的索引,f(ck)为神经网络加速的映射函数,γk为第k个神经网络加速芯片的映射比例系数,q3(flops)为神经网络加速的冗余算力。

10、进一步地,所述监控标记格式为:板卡ip###板卡板卡基础指标###板卡寿命指标###板卡算力指标###关联板卡。

11、进一步地,所述故障预测模型为:

12、y(t)=f(u(t),a(t))

13、其中,y(t)为监控指标预测结果,u(t)为监测指标,a(t)为各种不明因素,t为时间,f()为故障预测的变化函数。

14、进一步地,所述监控指标预测结果中若板卡基础指标预测结果的三个维度均正常,则板卡基础指标预测结果得3分;若板卡基础指标预测结果的三个维度中的任意1个或2个出现异常,则板卡基础指标预测结果得分2分;若板卡基础指标预测结果的三个维度均异常,则板卡基础指标预测结果得分1分。

15、进一步地,所述监控指标预测结果中若板卡寿命指标预测结果在一年内,则板卡寿命指标预测结果得分为2分;若板卡寿命指标预测结果在一年到两年之间,则板卡寿命指标预测结果得分为3分;若板卡寿命指标预测结果在两年到三年之间,则板卡寿命指标预测结果得分为1分。

16、进一步地,所述监控指标预测结果中若板卡算力指标预测结果显示本次多块板卡预测的算力均比上一次多块板卡预测的算力增加50%以上,且板卡基础指标预测结果中出现异常的超过1个,或本次多块板卡预测的算力均与上一次多块板卡预测的算力之差不超过50%,则板卡算力指标预测结果得分为1分;若板卡算力指标预测结果显示本次多块板卡预测的算力均比上一次多块板卡预测的算力增加50%以上,且板卡基础指标预测结果中未出现异常,则板卡算力指标预测结果得分为3分;若板卡算力指标预测结果显示本次多块板卡预测的算力均比上一次多块板卡预测的算力增加50%以上,且板卡基础指标预测结果中只有1个异常,则板卡算力指标预测结果得分为2分。

17、进一步地,本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行所述的板卡监控结合算力的网络设备健康评估方法。

18、进一步地,本发明还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现所述的板卡监控结合算力的网络设备健康评估方法。

19、与现有技术相比,本发明具有如下有益效果:本发明网络设备健康评估方法通过根据dcrms中网络设备的板卡,设置监测指标,并生成监控标记,通过监控标记可以快速了解各监控指标评分情况;本发明通过板卡算力指标预测结果代替传统软件监控和硬件关注质保设置不同阈值避免误报部分对设备进行监控预警,从而避免了现有技术过多关注网络,业务应用软件健康程度,而忽略硬件健康的情况。



技术特征:

1.一种板卡监控结合算力的网络设备健康评估方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种板卡监控结合算力的网络设备健康评估方法,其特征在于,所述监控指标包括:板卡基础指标、板卡算力指标、板卡寿命指标;所述板卡基础指标包括:cpu、内存、硬盘三个维度。

3.根据权利要求2所述的一种板卡监控结合算力的网络设备健康评估方法,其特征在于,所述板卡算力指标中算力的计算过程为:

4.根据权利要求1所述的一种板卡监控结合算力的网络设备健康评估方法,其特征在于,所述监控标记格式为:板卡ip###板卡板卡基础指标###板卡寿命指标###板卡算力指标###关联板卡。

5.根据权利要求1所述的一种板卡监控结合算力的网络设备健康评估方法,其特征在于,所述故障预测模型为:

6.根据权利要求1所述的一种板卡监控结合算力的网络设备健康评估方法,其特征在于,所述监控指标预测结果中若板卡基础指标预测结果的三个维度均正常,则板卡基础指标预测结果得3分;若板卡基础指标预测结果的三个维度中的任意1个或2个出现异常,则板卡基础指标预测结果得分2分;若板卡基础指标预测结果的三个维度均异常,则板卡基础指标预测结果得分1分。

7.根据权利要求1所述的一种板卡监控结合算力的网络设备健康评估方法,其特征在于,所述监控指标预测结果中若板卡寿命指标预测结果在一年内,则板卡寿命指标预测结果得分为2分;若板卡寿命指标预测结果在一年到两年之间,则板卡寿命指标预测结果得分为3分;若板卡寿命指标预测结果在两年到三年之间,则板卡寿命指标预测结果得分为1分。

8.根据权利要求1所述的一种板卡监控结合算力的网络设备健康评估方法,其特征在于,所述监控指标预测结果中若板卡算力指标预测结果显示本次多块板卡预测的算力均比上一次多块板卡预测的算力增加50%以上,且板卡基础指标预测结果中出现异常的超过1个,或本次多块板卡预测的算力均与上一次多块板卡预测的算力之差不超过50%,则板卡算力指标预测结果得分为1分;若板卡算力指标预测结果显示本次多块板卡预测的算力均比上一次多块板卡预测的算力增加50%以上,且板卡基础指标预测结果中未出现异常,则板卡算力指标预测结果得分为3分;若板卡算力指标预测结果显示本次多块板卡预测的算力均比上一次多块板卡预测的算力增加50%以上,且板卡基础指标预测结果中只有1个异常,则板卡算力指标预测结果得分为2分。

9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如权利要求1-8任一项所述的板卡监控结合算力的网络设备健康评估方法。

10.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如权利要求1-8任一项所述的板卡监控结合算力的网络设备健康评估方法。


技术总结
本发明公开了一种板卡监控结合算力的网络设备健康评估方法,包括:根据DCRMS中网络设备的板卡,设置监测指标,并将监测指标关系映射生成监控标记;根据生成监控标记中的板卡IP解析监控标记,并通过故障预测模型分别对监测指标进行故障预测,得到监控指标预测结果;根据监控指标预测结果,分别计算各项监控指标预测结果的得分,并将得分汇总,得到网络设备的综合健康评估得分;当综合健康评估得分为1‑3分时,网络设备为不健康状态;当综合健康评估得分为3‑6分时,网络设备为亚健康状态;当综合健康评估得分为6‑9分时,网络设备为健康状态。本发明对DCRMS中的网络设备通过板卡算力指标监测结合板卡寿命指标,预测网络设备的健康程度。

技术研发人员:王健,沈丽萍,许春来,罗俊,陈昊,庞鹤
受保护的技术使用者:中通服网盈科技有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1