跨CPU内核的伪锁步执行的制作方法

文档序号:37313279发布日期:2024-03-13 21:04阅读:31来源:国知局
跨CPU内核的伪锁步执行的制作方法


背景技术:

1、随着中央处理器(cpu)的发展,静默数据损坏(sdc)显著增加。这可能是技术节点缩小、晶体管不可靠、设计裕度和防护带减小的结果。sdc也可能是老化测试不充分、晶体管数量呈指数增长等的结果。

2、许多不同类型的故障可能发生在cpu或包括cpu的更大的系统中。这种错误的例子包括机器检查异常(mce)、sdc等。存储器和缓存子系统通常具有大量的故障检测和缓解机制,例如奇偶校验、纠错码(ecc)、多级冗余、存储器清理、存储器镜像、独立存储器冗余阵列(raim)、缓存行(cache line)删除、集删除(set delete)、备用数据通道、循环冗余检查(crc)等。cpu内核还内置了许多检测和缓解机制,例如各种结构寄存器、缓存和其他结构的奇偶校验和ecc保护、处理器指令重试、抗辐射触发器的使用、浮点和定点流水线的剩余检查等。

3、如果将检查器放入逻辑路径或存储结构中以检查错误,并且检查器触发,则触发可能导致检测到不可恢复错误(due)或mce。如果检查器没有检测到错误,并且该错误改变了最终结果,则该错误导致sdc。现有cpu内核中的错误检查机制不够健全,不足以检测sdc错误。


技术实现思路

1、本公开提供了在多核计算环境中自动检测错误,例如sdc。例如,内核可以在错误检测模式下运行,在该模式下,多个内核重复相同的指令执行,并且比较结果。基于该结果,可以确定内核中的一个是否有故障。在生产环境中,通过运行生产代码,内核可以在错误检测模式下运行。该内核可以在相同的运行时间环境中,在相同的条件或参数(例如电压、频率、温度、海拔等)下执行相同的工作负载。在部署期间,内核也可以在错误检测模式下运行一段时间,以检测发生故障的内核。部署后,内核可以定期在错误检测模式下运行,以检测随时间推移开始故障的内核。



技术特征:

1.一种方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,进一步包括:

3.根据权利要求2所述的方法,其特征在于,进一步包括,协调从所述第一缓存和所述第二缓存中驱逐对应的缓存行。

4.根据权利要求3所述的方法,其特征在于,协调对应的缓存行的驱逐包括协调计数。

5.根据权利要求4所述的方法,其特征在于,所述计数是已提交指令的计数,并且其中,协调对应的缓存行的驱逐包括:

6.根据权利要求5所述的方法,其特征在于,进一步包括:

7.根据权利要求4所述的方法,其特征在于,所述计数包括加载或存储中的至少一个的计数。

8.根据权利要求1所述的方法,其特征在于,进一步包括,当来自所述第一内核的所述结果与来自所述第二内核的所述结果匹配时,确定两个内核都正常运行。

9.根据权利要求1所述的方法,其特征在于,还包括,由所述第一内核和所述第二内核执行第二指令段。

10.根据权利要求9所述的方法,其特征在于,所述第一内核和所述第二内核在错误检查模式下运行,在所述错误检查模式下,当部署所述第一内核和所述第二内核时,在有限的时间段内比较来自每个内核的所述结果。

11.根据权利要求9所述的方法,其特征在于,所述第一内核和所述第二内核在错误检查模式下运行,在所述错误检查模式下,当所述第一内核和所述第二内核处于测试阶段时,在延长的时间段内比较来自每个内核的所述结果。

12.一种系统,其特征在于,包括:

13.根据权利要求12所述的系统,其特征在于:

14.根据权利要求13所述的系统,其特征在于,所述一个或多个处理器进一步被配置为协调从所述第一缓存和所述第二缓存中驱逐对应的缓存行。

15.根据权利要求14所述的系统,其特征在于,协调对应的缓存行的驱逐包括协调已提交指令的计数,并且其中,协调对应的缓存行的驱逐包括:

16.根据权利要求15所述的系统,其特征在于:

17.根据权利要求14所述的系统,其特征在于,协调对应的缓存行的驱逐包括,协调加载或存储中的至少一个的计数。

18.根据权利要求12所述的系统,其特征在于,所述第一内核和所述第二内核在错误检查模式下运行,在所述错误检查模式下,当部署所述第一内核和所述第二内核时,在有限的时间段内比较来自每个内核的所述结果。

19.根据权利要求12所述的系统,其特征在于,所述第一内核和所述第二内核在错误检查模式下运行,在所述错误检查模式下,当所述第一内核和所述第二内核处于测试阶段时,在延长的时间段内比较来自每个内核的所述结果。

20.一种存储可由一个或多个处理器执行的指令的非暂态计算机可读介质,其特征在于,用于进行检测静默数据损坏的方法,所述方法包括:


技术总结
本公开提供了在多核计算环境中自动检测错误,例如SDC。例如,内核可以在错误检测模式下运行,在该模式下,多个内核重复相同的指令执行,并且比较结果。基于该结果,可以确定内核中的一个是否有故障。

技术研发人员:巴拉拉姆·辛哈洛伊,彼得·霍克希尔德
受保护的技术使用者:谷歌有限责任公司
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1