一种多芯粒芯片的故障检测方法和装置与流程

文档序号:34655260发布日期:2023-06-29 23:32阅读:27来源:国知局
一种多芯粒芯片的故障检测方法和装置与流程

本发明涉及计算机芯片,特别涉及一种多芯粒芯片的故障检测方法和装置。


背景技术:

1、目前的高性能计算芯片架构,由于考虑成本和扩展性而广泛使用了芯粒架构方式。根据不同芯片的性能需求,将多个裸芯片(即芯粒)封装到一起,再通过高速总线链接和扩展,组成性能不同的芯片。然而在基于芯粒架构得到的芯片封装后,其内会因芯粒间连接故障或运输中发生碰撞甚至长期运行损耗而导致一个或多个芯粒故障。同时现有故障检测方法在发现多芯粒芯片故障后,常将封装后的该芯片进行整体废弃,难以真正解决具体位置的故障修复问题,不仅提高了多芯粒芯片的制造成本,也降低了芯粒的利用率。


技术实现思路

1、本发明提供了一种多芯粒芯片的故障检测方法和装置,该方法能有效实现多芯粒芯片的故障检测,精确定位故障芯粒。

2、第一方面,本发明实施例提供了一种多芯粒芯片的故障检测方法,包括:

3、获取目标多芯粒芯片的运行数据;

4、对所述运行数据进行解析,确定所述目标多芯粒芯片中各芯粒之间的关联关系;其中,所述关联关系用于表征芯粒之间的通信连接关系;

5、根据每个所述关联关系,确定包括位于芯粒上的待检测位点;

6、基于预先训练的故障检测模型,根据所述运行数据对每个所述待检测位点进行故障检测,得到故障检测结果。

7、可选地,所述根据每个所述关联关系,确定包括位于芯粒上的待检测位点,包括:

8、针对每个所述关联关系,将所述待检测位点设置在该关联关系所包括的芯粒上以及该关联关系的通信连接上。

9、可选地,所述预先训练的故障检测模型通过如下方法训练得到:

10、获取所述目标多芯粒芯片的历史运行数据集;其中,所述历史运行数据集包括历史运行数据以及故障位点;

11、采用粒子群优化算法对深度信念网络进行优化,建立优化深度信念网络;

12、利用所述历史运行数据对所述优化深度信念网络进行训练,得到所述故障检测模型。

13、可选地,所述采用粒子群优化算法对深度信念网络进行优化,建立优化深度信念网络,包括:

14、s1:确定粒子群的规模、维数、预设迭代次数、初始化粒子群的位置、速度;

15、s2:构建深度信念网络,根据所述粒子群对所述深度信念网络的权值和网络隐藏节点数值进行初始化,得到初始化深度信念网络,将所述初始化深度信念网络作为当前的深度信念网络执行步骤s3;

16、s3:根据当前的深度信念网络,利用所述粒子群优化算法进行迭代,得到当前最优解;

17、s4:将所述当前最优解作为初始点,获取所述当前最优解的位置和速度;

18、s5:根据所述当前最优解的位置和速度,利用共轭梯度更新所述当前最优解的速度,得到全局最优解;

19、s6:根据所述全局最优解更新所述粒子群的位置、速度、所述深度信念网络的权值和网络隐藏节点数值,得到新的深度信念网络;判断当前迭代次数是否小于所述预设迭代次数;若是,将该新的深度信念网络作为当前的深度信念网络返回步骤s3;否则,将该新的深度信念网络输出为优化深度信念网络。

20、可选地,所述利用共轭梯度更新所述当前最优解的速度,包括:

21、所述速度的计算公式如下:

22、

23、其中,用于表示第n次内部迭代后更新的粒子i在第j维的速度;用于表示第n次内部迭代前粒子i在第j维的位置;r1用于表示随机数;pg用于表示所述当前最优解;ε用于表示调整系数。

24、可选地,在所述得到故障检测结果之后,还包括:

25、在所述故障检测结果所包括的故障位点分别位于不同芯粒上时,针对每个故障芯粒,获取与该故障芯粒相同的正常芯粒;

26、利用该故障芯粒和所述正常芯粒分别运行目标硬件事件,得到由该故障芯粒输出的第一响应信号和由所述正常芯粒输出的第二响应信号;

27、对所述第一响应信号和所述第二响应信号进行相似度计算,得到对应该故障芯粒的相似度值;

28、对各故障芯粒的相似度值进行由大至小的排序,得到故障芯粒序列;

29、对所述故障芯粒序列中各故障芯粒标记由大至小的故障等级;其中,相似度值与故障等级呈正相关。

30、可选地,在所述得到故障检测结果之后,还包括:

31、获取所述故障检测结果所包括的故障位点;

32、根据所述故障位点确定故障芯粒的故障接口;

33、将所述故障接口对应的关联关系转移到该故障芯粒的其他可行接口上,实现对该故障芯粒的修复。

34、第二方面,本发明实施例还提供了一种多芯粒芯片的故障检测装置,包括:

35、获取模块,用于获取目标多芯粒芯片的运行数据;

36、预处理模块,用于对所述运行数据进行解析,确定所述目标多芯粒芯片中各芯粒之间的关联关系;其中,所述关联关系用于表征芯粒之间的通信连接关系;

37、位点确定模块,用于根据每个所述关联关系,确定包括位于芯粒上的待检测位点;

38、检测模块,用于基于预先训练的故障检测模型,根据所述运行数据对每个所述待检测位点进行故障检测,得到故障检测结果。

39、可选地,该装置还包括:模型训练模块;所述模型训练模块用于执行如下操作:

40、获取所述目标多芯粒芯片的历史运行数据集;其中,所述历史运行数据集包括历史运行数据以及故障位点;

41、采用粒子群优化算法对深度信念网络进行优化,建立优化深度信念网络;

42、利用所述历史运行数据对所述优化深度信念网络进行训练,得到所述故障检测模型。

43、第三方面,本发明实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的多芯粒芯片的故障检测方法。

44、第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项所述的多芯粒芯片的故障检测方法。

45、本发明实施例提供了一种多芯粒芯片的故障检测方法和装置,该方法针对包含多芯粒的芯片,首先获取目标多芯粒芯片的运行数据,通过对运行数据进行解析,确定其中表征各芯粒之间通信连接关系的关联关系,然后通过基于该关联关系确定位于芯粒上的待检测位点,使用预先训练的故障检测模型对每个待检测位点进行故障检测,得到故障检测结果,如此能有效实现多芯粒芯片的故障检测,精确定位故障芯粒,从而对该故障芯粒进行修复或替换,提高芯粒利用率的同时,也提高了该多芯粒芯片的利用率,减少了不必要的整体废弃。



技术特征:

1.一种多芯粒芯片的故障检测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据每个所述关联关系,确定包括位于芯粒上的待检测位点,包括:

3.根据权利要求1所述的方法,其特征在于,所述预先训练的故障检测模型通过如下方法训练得到:

4.根据权利要求3所述的方法,其特征在于,所述采用粒子群优化算法对深度信念网络进行优化,建立优化深度信念网络,包括:

5.根据权利要求4所述的方法,其特征在于,所述利用共轭梯度更新所述当前最优解的速度,包括:

6.根据权利要求1至5中任一所述的方法,其特征在于,在所述得到故障检测结果之后,还包括:

7.一种多芯粒芯片的故障检测装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,还包括:模型训练模块;所述模型训练模块用于执行如下操作:

9.一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-6中任一项所述的方法。


技术总结
本发明提供了一种多芯粒芯片的故障检测方法和装置,涉及计算机芯片技术领域。该方法包括:获取目标多芯粒芯片的运行数据;对运行数据进行解析,确定目标多芯粒芯片中各芯粒之间的关联关系;其中,关联关系用于表征芯粒之间的通信连接关系;根据每个关联关系,确定包括位于芯粒上的待检测位点;基于预先训练的故障检测模型,根据运行数据对每个待检测位点进行故障检测,得到故障检测结果。本方案能有效实现多芯粒芯片的故障检测,精确定位故障芯粒。

技术研发人员:王嘉诚,张少仲,张栩
受保护的技术使用者:中诚华隆计算机技术有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1