用于抗AI芯片权重单粒子翻转的应用加固方法和系统

文档序号:37505427发布日期:2024-04-01 14:12阅读:13来源:国知局
用于抗AI芯片权重单粒子翻转的应用加固方法和系统

本发明涉及计算机领域,尤其涉及用于抗ai芯片权重单粒子翻转的应用加固方法和系统。


背景技术:

1、人工智能(artificial intelligent,ai)芯片广泛应用于航天器中,然而空间辐射粒子入射ai芯片会导致权重值因单粒子翻转(single event upset,seu)而变化,进而影响ai芯片推理准确度。为了保障ai芯片在轨可靠运行,需要对其权重参数进行抗seu应用加固。

2、由于ai芯片搭载的神经网络运算量大、权重参数多等特点,传统的系统级存储单元抗seu方法难以适应ai芯片需求。一方面神经网络大量的权重参数占用了星载硬件加速器大部分存储资源,完全三模冗余(triple modular redundancy,tmr)方法会加剧本就紧张的硬件资源;另外,存储权重参数的存储单元一般不支持应用周期性擦除方法;而纠错编码方法会降低神经网络运算速度,同时无法纠正多位seu错误。


技术实现思路

1、为了克服上述技术缺陷,本发明的目的在于提供用于抗ai芯片权重单粒子翻转的应用加固方法和系统。

2、为此,本发明的一个方面提供用于抗ai芯片权重单粒子翻转的应用加固方法,包括以下步骤:

3、步骤s1,根据训练后ai芯片搭载的神经网络权重分布的特点,固化权重参数值;

4、步骤s2,对权重值进行分布分析;

5、步骤s3,优化设置权重限幅范围,完成权重限幅加固;

6、步骤s4,分别对ai芯片不同神经网络层权重进行tmr;

7、步骤s5,将seu故障随机注入所有层的权重;

8、步骤s6,获得ai芯片推理准确度和神经网络层关系;

9、步骤s7,进行数据分析,定位关键层和关键位,完成关键层-关键位tmr。

10、进一步的,步骤s2中分布分析原理如下式所示:

11、

12、式中wmax[i]和wmin[i]是第i层权重限幅之后的值,w_cache表示距离计算单元最近的缓存中的权重,w_mem表示w_cache上一级存储的权重,nan和inf用于判断当前权重是否非法,uplimit[i]和lowlimit[i]分别是第i层权重的上下限。

13、进一步的,wmax[i]和wmin[i]的最优取值通过对网络层每层限幅最大值以及每层限幅最小值穷举来获得;每次对限幅范围修改后,对网络进行相同seu数随机注入,获得其推理准确度分布,然后取所有穷举结果中的最优值;结合o(lr+r-/s+/s-)复杂度的迭代次数获得最终结果,其中l是网络层数,r+是限幅最大值的取值范围,r-是限幅最小值的取值范围,s+是限幅最大值的迭代步长,s-是限幅最小值的迭代步长。

14、进一步的,所述步骤s7中确定关键层和关键位的方法为:

15、步骤s701,结合不同层的权重数量,对不同层以单位权重加固效果这一指标进行排序;

16、步骤s702,分别对不同的权重位进行加固,获得不同权重位的加固效果,并对其排序;

17、步骤s703,对两个排序中的加固方法进行交叉组合,获得不同组合加固后的抗seu能力;

18、步骤s704,结合可额外消耗存储资源大小的要求,选取加固效果最好的组合。

19、本发明的另一个方面提供用于抗ai芯片权重单粒子翻转的应用加固系统,包括权重限幅模块和关键层关键位tmr模块,其中:

20、权重限幅模块,用于权重限幅方法根据训练后ai芯片搭载的神经网络权重分布的特点,优化设置权重限幅范围,包括以下组件:

21、固化组件,用于根据训练后ai芯片搭载的神经网络权重分布的特点,固化权重参数值;

22、分析组件,用于对权重值进行分布分析;

23、优化组件,用于优化设置权重限幅范围,完成权重限幅加固;

24、关键层关键位tmr模块,用于比较针对神经网络不同层和权重位tmr后对ai芯片推理准确度带来的变化,结合神经网络各层特点,确定关键层和关键位,包括以下组件:

25、tmr组件,分别对ai芯片不同神经网络层权重进行tmr;

26、注入组件,用于将seu故障随机注入所有层的权重;

27、推理组件,用于获得ai芯片推理准确度和神经网络层关系;

28、定位组件,用于进行数据分析,定位关键层和关键位,完成关键层-关键位tmr。

29、进一步的,所述分析组件中分布分析的原理如下式所示:

30、

31、式中wmax[i]和wmin[i]是第i层权重限幅之后的值,w_cache表示距离计算单元最近的缓存中的权重,w_mem表示w_cache上一级存储的权重,nan和inf用于判断当前权重是否非法,uplimit[i]和lowlimit[i]分别是第i层权重的上下限。

32、进一步的,wmax[i]和wmin[i]的最优取值通过对网络层每层限幅最大值以及每层限幅最小值穷举来获得;每次对限幅范围修改后,对网络进行相同seu数随机注入,获得其推理准确度分布,然后取所有穷举结果中的最优值;结合o(lr+r-/s+/s-)复杂度的迭代次数获得最终结果,其中l是网络层数,r+是限幅最大值的取值范围,r-是限幅最小值的取值范围,s+是限幅最大值的迭代步长,s-是限幅最小值的迭代步长。

33、进一步的,所述定位组件包括以下组件:

34、层排序组件,用于结合不同层的权重数量,对不同层以单位权重加固效果这一指标进行排序;

35、位排序组件,用于对不同的权重位进行加固,获得不同权重位的加固效果,并对其排序;

36、交叉组合组件,用于对两个排序中的加固方法进行交叉组合,获得不同组合加固后的抗seu能力;

37、选择组件,用于结合可额外消耗存储资源大小的要求,选取加固效果最好的组合。

38、采用了上述技术方案后,与现有技术相比,具有以下有益效果:

39、1.当权重seu发生次数小于分界值(由具体任务确定),提出的权重限幅加固方法可以在几乎不消耗ai硬件资源的情况下,提高ai芯片推理准确度满足航天任务要求的情况出现概率到98%;

40、2.当权重seu发生次数大于分界值,提出的权重限幅结合关键层-关键位tmr的方法可以在减少99.3资源消耗条件下(相比完全tmr),将ai芯片推理准确度满足航天任务要求的情况提高约10%-50%(相比只有限幅加固)。



技术特征:

1.用于抗ai芯片权重单粒子翻转的应用加固方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的用于抗ai芯片权重单粒子翻转的应用加固方法,其特征在于,步骤s2中分布分析原理如下式所示:

3.根据权利要求2所述的用于抗ai芯片权重单粒子翻转的应用加固方法,其特征在于,wmax[i]和wmin[i]的最优取值通过对网络层每层限幅最大值以及每层限幅最小值穷举来获得;每次对限幅范围修改后,对网络进行相同seu数随机注入,获得其推理准确度分布,然后取所有穷举结果中的最优值;结合o(lr+r-/s+/s-)复杂度的迭代次数获得最终结果,其中l是网络层数,r+是限幅最大值的取值范围,r-是限幅最小值的取值范围,s+是限幅最大值的迭代步长,s-是限幅最小值的迭代步长。

4.根据权利要求1所述的用于抗ai芯片权重单粒子翻转的应用加固方法,其特征在于,所述步骤s7中确定关键层和关键位的方法为:

5.用于抗ai芯片权重单粒子翻转的应用加固系统,其特征在于,包括权重限幅模块和关键层关键位tmr模块,其中:

6.根据权利要求5所述的用于抗ai芯片权重单粒子翻转的应用加固系统,其特征在于,所述分析组件中分布分析的原理如下式所示:

7.根据权利要求5所述的用于抗ai芯片权重单粒子翻转的应用加固系统,其特征在于,wmax[i]和wmin[i]的最优取值通过对网络层每层限幅最大值以及每层限幅最小值穷举来获得;每次对限幅范围修改后,对网络进行相同seu数随机注入,获得其推理准确度分布,然后取所有穷举结果中的最优值;结合o(lr+r-/s+/s-)复杂度的迭代次数获得最终结果,其中l是网络层数,r+是限幅最大值的取值范围,r-是限幅最小值的取值范围,s+是限幅最大值的迭代步长,s-是限幅最小值的迭代步长。

8.根据权利要求5所述的用于抗ai芯片权重单粒子翻转的应用加固系统,其特征在于,所述定位组件包括以下组件:


技术总结
本发明公开用于抗AI芯片权重单粒子翻转的应用加固方法和系统,包括以下步骤:步骤S1,根据训练后AI芯片搭载的神经网络权重分布的特点,固化权重参数值;步骤S2,对权重值进行分布分析;步骤S3,优化设置权重限幅范围,完成权重限幅加固;步骤S4,分别对AI芯片不同神经网络层权重进行TMR;步骤S5,将SEU故障随机注入所有层的权重;步骤S6,获得AI芯片推理准确度和神经网络层关系;步骤S7,进行数据分析,定位关键层和关键位,完成关键层‑关键位TMR。采用本方法,可以大大提高AI芯片推理准确度,满足航天任务要求。

技术研发人员:蔡毓龙,崔帅,张冬冬,卞泽宇,衡婷
受保护的技术使用者:中国科学院微小卫星创新研究院
技术研发日:
技术公布日:2024/3/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1