一种多芯片互连系统及方法与流程

文档序号:36868958发布日期:2024-02-02 20:49阅读:20来源:国知局
一种多芯片互连系统及方法与流程

本发明涉及芯片,具体涉及一种多芯片互连系统及方法。


背景技术:

1、多芯片互连是指多个芯片通过总线互连协同工作,对外表现为一个完整的系统,随着科学、工程、商业和日常生活中的应用场景越来越复杂,涉及到的计算、存储和通信需求也不断增长,在面对复杂应用、单片芯片性能限制以及追求更高效能、更低成本等多重因素推动下,多芯片互连模式被逐渐发展及应用在各个领域行业中。

2、目前多芯片系统中不同芯片并发操作,一个芯片出现故障可能影响整个系统的稳定,使得整个系统的数据传输存在安全隐患,因此,如何对多芯片互连系统中芯片的故障问题进行风险等级的预测评估并分级管理控制,是亟需解决的问题,为此,提出一种多芯片互连系统及方法。


技术实现思路

1、本发明目的在于提供一种多芯片互连系统及方法,以解决上述背景技术中提出的问题。

2、为解决上述技术问题,本发明所采用的技术方案是:

3、第一方面,一种多芯片互连系统,包括芯片故障历史数据收集模块、芯片故障评估模块、芯片故障监测模块、数据储存模块以及任务调度模块,所述芯片故障评估模块包括有芯片故障分级模块、芯片故障判断模块以及芯片故障预警处理模块,其中,各个模块之间电性连接;

4、所述芯片故障历史数据收集模块,用于预先收集芯片运行过程中的历史故障数据,并将历史故障数据发送至芯片故障分级模块;

5、所述芯片故障分级模块,用于根据芯片故障严重性和影响程度进行风险等级划分,获取故障风险分类表和芯片故障等级;

6、所述芯片故障判断模块,基于故障风险评估表及相关历史故障数据,获取故障判断指数并评估芯片故障的对应风险等级,将评估结果发送至芯片故障预警理模块;

7、所述芯片故障监测模块,用于对多芯片互连系统的各个芯片进行监控,收集芯片的故障数据;

8、所述芯片故障预警处理模块,用于根据故障评估结果与芯片故障监测模块收集的芯片故障数据的影响程度指数比对,基于芯片故障风险等级,采取措施处理故障,包括重新分配任务、绕过故障芯片、限制故障影响范围;

9、所述数据储存模块,用于储存芯片故障历史数据以及故障风险评估表;

10、所述任务调度模块,用于基于芯片故障预警处理模块的处理措施,安排芯片的任务分配,避免使用故障芯片或减少其使用频率。

11、本发明技术方案的进一步改进在于:所述芯片运行的历史故障数据收集过程为,

12、步骤101,建立芯片故障数据库,获取芯片运行过程中的历史故障类型,芯片故障数据库数据来源为互联网、行业报告、芯片行业网站和论坛;

13、步骤102,对于获取的芯片历史故障类型,采集芯片发生的错误类型、故障影响范围、持续时间以及修复难度数据,并基于故障事件日志提取故障的描述、诊断结果以及处理措施数据;

14、步骤103,对提取的芯片运行历史故障数据,进行数据处理后并采用数据储存模块储存相关数据。

15、本发明技术方案的进一步改进在于:所述故障风险分类表和芯片故障等级的获取过程为,

16、步骤201,基于芯片运行的历史故障数据,根据芯片故障严重性和影响程度划分风险等级;

17、步骤202,设定三级故障等级标准,一级风险,低风险,对系统无危害影响,不需要采取任何措施,由于芯片出现了一些轻微的异常情况,但对系统运行没有任何影响,对于这种风险,可以暂时忽略不计,但需要定期进行监测和观察,以确保不会对系统造成潜在的危害;二级风险,中度风险,对系统存在轻微影响,由于芯片出现轻微故障或对系统运行产生一定影响导致的,可以采取一些修复或维护措施来解决问题,或者暂时采取一些替代措施以保证系统的正常运行;三级风险,高风险,需立刻整改,无法继续作业,该风险通常是由于芯片出现致命故障或严重影响系统运行的情况导致的,当出现这种风险时,需要立即采取措施进行修复或替换芯片,以避免对系统造成更大的损失;

18、步骤203,对芯片故障数据进行标记,并获取故障风险分类表;

19、步骤204,将故障风险分类表储存到数据储存模块中。

20、本发明技术方案的进一步改进在于:所述故障判断指数的获取过程为

21、步骤301,根据芯片历史故障数据总量,获取故障的发生频率、影响程度指数以及不同风险等级的故障数量;

22、步骤302,基于影响范围权重、持续时间权重以及修复难度权重决定获取影响程度指数;

23、步骤303,根据芯片历史故障数据总量、故障的发生频率、影响程度指数以及不同风险等级的故障数量,获取故障判断指数并评估芯片故障的对应风险等级;

24、步骤304,设定芯片故障风险等级的预设阈值,判断故障等级。

25、本发明技术方案的进一步改进在于:所述故障判断指数的计算公式为:

26、;

27、其中,表示故障判断指数,表示故障的发生次数,表示该风险等级的故障数量,表示故障发生次数的历史平均值,表示该风险等级故障数量的历史平均值,表示历史数据的总量,为故障时间间隔,表示影响范围权重,表示持续时间权重,表示修复难度权重。

28、本发明技术方案的进一步改进在于:所述影响范围权重,基于故障影响的芯片数量决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值;

29、持续时间权重,基于故障持续时间的长短决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值;

30、修复难度权重,基于修复难易程度决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值。

31、本发明技术方案的进一步改进在于:所述故障等级的判断过程为,

32、步骤401,基于故障判断指数,设定故障等级阈值;

33、步骤402,设定一级风险阈值范围、二级风险阈值范围以及三级风险阈值范围;

34、步骤403,根据风险等级判断故障等级,采取措施处理故障。

35、本发明技术方案的进一步改进在于:所述一级风险阈值范围为;

36、所述二级风险阈值范围为;

37、所述三级风险阈值范围为。

38、本发明技术方案的进一步改进在于:所述处理措施为,

39、对于一级风险的故障,记录故障状态,定期进行监测和观察;

40、对于二级风险的故障,均衡芯片负载,减少故障芯片的任务执行量,限制故障影响范围,将任务分配至其他芯片;

41、对于三级风险的故障,采取紧急处理措施及优先处理措施,停止故障芯片的使用,绕过故障芯片,根据芯片的工作状态和任务的重要性,设定不同的任务优先级,当多个任务需要执行时,优先执行优先级高的任务,延迟执行或使用其他正常芯片执行优先级低的任务。

42、一种多芯片互连方法,包括以下步骤:

43、步骤1,收集并处理芯片运行过程中的历史故障数据;

44、步骤2,根据芯片故障严重性和影响程度进行风险等级划分,获取故障风险分类表和芯片故障等级;

45、步骤3,基于故障风险评估表及相关历史故障数据,获取故障判断指数并评估芯片故障的对应风险等级;

46、步骤4,对多芯片互连系统的各个芯片进行监控,收集芯片的故障数据,并根据故障评估结果与收集的芯片故障数据的影响程度指数比对,基于芯片故障风险等级,采取措施处理故障。

47、由于采用了上述技术方案,本发明相对现有技术来说,取得的技术进步是:

48、1、本发明提供一种多芯片互连系统及方法,根据故障的严重性和影响程度进行划分,将芯片故障分为不同的级别,并针对不同级别的故障采取不同的控制和修复措施,检测到芯片故障时,可根据芯片故障严重状况,重新分配任务和资源,降低故障芯片对整体系统的影响程度。

49、2、本发明提供一种多芯片互连系统及方法,通过各个模块的协同工作,多芯片互连系统能够有效地监测和管理芯片故障,并根据故障的严重性和影响程度采取适当的控制和修复措施,降低故障对整体系统的影响程度,有效地安排芯片的任务分配,避免使用故障芯片或减少其使用频率,从而提高系统的可靠性和稳定性。

50、3、本发明提供一种多芯片互连系统及方法,根据故障判断指数评估芯片故障的对应风险等级,基于芯片故障风险等级采取措施处理故障,并进行芯片的任务分配,从而提高多芯片互连系统的运行安全及稳定性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1