背景技术:
1、人工智能(artificial intelligence,ai)能力的进步最近已通过扩展底层深度学习(deep learning,dl)模型的大小而被实现。然而,此种缩放导致传输和部署此类模型所需的计算能力和存储容量显著增加。因此,有很大的动机使用较低的精度来节省存储器带宽和计算资源。过去几年中,已经引入了许多新的数据类型来降低dl模型的计算和存储成本。最近引入的数据类型是微缩放(microscaling,mx)数据格式或mx格式(例如mxfp),如图27所示的块数据类型,该块数据类型的基本数据单元可称为“mx块”。
2、mx数据格式是专门设计成用于ai和机器学习工作负载的块浮点数据格式的类型。以mx数据格式表示的块浮点数在以下方面不同于经典ieee 754定义的浮点数:它们具有跨各个短宽度浮点数/有符号整数(尾数)共享的次/主指数。因此,它们允许比定点表示更高的精度/准确度,并且具有比经典浮点数的简单列表/数组更高的存储效率,因为经典浮点数的简单列表/数组可能存储冗余信息。
技术实现思路
1.一种图形处理单元gpu,包括:
2.如权利要求1所述的gpu,其中,所述共享缩放的值被包含在所述块数据类型的共享缩放元素内。
3.如权利要求2所述的gpu,其中,所述变体选择符包括所述共享缩放元素的预定义或可配置的部分。
4.如权利要求2所述的gpu,其中,所述变体选择符是所述块数据类型的组成部分,并且与所述共享缩放元素分开。
5.如权利要求1所述的gpu,其中,所述块数据类型符合微缩放浮点mxfp数据格式。
6.如权利要求1-5中任一项所述的gpu,其中,所述元素数据类型包括具有x个比特的x比特浮点,并且其中所述变体指示所述x个比特中的、用于表示所述x比特浮点的符号、指数和尾数中的一者或多者的数量。
7.如权利要求6所述的gpu,其中,x为4、6、8、10或16。
8.一种方法,包括:
9.如权利要求8所述的方法,其中,所述共享缩放的值被包含在所述块数据类型的共享缩放元素内。
10.如权利要求9所述的方法,其中,所述变体选择符包括所述共享缩放元素的预定义或可配置的部分。
11.如权利要求9所述的方法,其中,所述变体选择符是所述块数据类型的组成部分,并且与所述共享缩放元素分开。
12.如权利要求8所述的方法,其中,所述块数据类型符合微缩放浮点mxfp数据格式。
13.如权利要求8-12中任一项所述的方法,其中,所述元素数据类型包括具有x个比特的x比特浮点,并且其中所述变体指示所述x个比特中的、用于表示所述x比特浮点的符号、指数和尾数中的一者或多者的数量。
14.如权利要求13所述的方法,其中,x为4、6、8、10或16。
15.一种系统,包括:
16.如权利要求15所述的系统,其中,所述共享缩放的值被包含在所述块数据类型的共享缩放元素内。
17.如权利要求16所述的系统,其中,所述变体选择符包括所述共享缩放元素的预定义或可配置的部分。
18.如权利要求16所述的系统,其中,所述变体选择符是所述块数据类型的组成部分,并且与所述共享缩放元素分开。
19.如权利要求15所述的系统,其中,所述块数据类型符合微缩放浮点mxfp数据格式。
20.如权利要求15-19中任一项所述的系统,其中,所述元素数据类型包括具有x个比特的x比特浮点,并且其中所述变体指示所述x个比特中的、用于表示所述x比特浮点的符号、指数和尾数中的一者或多者的数量。
21.如权利要求20所述的系统,其中,x为4、6、8、10或16。