本公开总体上涉及计算机处理器体系结构,并且更具体地涉及用于矩阵操作的系统和方法。在诸如机器学习和其他批量数据处理之类的许多计算任务中,矩阵正变得日益重要。深度学习是一类机器学习算法。诸如深度神经网络之类的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。用于深度学习的两种工具——推理和训练正趋向于低精度算术。使深度学习算法和计算的吞吐量最大化可以辅助满足深度学习处理器的需求,深度学习处理器例如在数据中心中执行深度学习的那些处理器。矩阵-矩阵乘法(即,gemm或通用矩阵乘法)是现代处理器上的常见的重度计算操作。用于矩阵乘法(例如,gemm)的专门的硬件是改善某些应用(诸如,深度学习)的峰值计算(和能效)的良好选项。只要输出数据结构具有足够的比特(即,多于输入),这些应用中的一些应用(包括深度学习)就可以在不损失准确性的情况下对具有相对少的比特的输入数据元素操作。
背景技术:
技术实现思路
1.一种装置,包括:
2.如权利要求1所述的装置,其中,经下转换的数据元素是要从单精度浮点被下转换至半精度浮点的。
3.如权利要求1所述的装置,其中,经下转换的数据元素是要从单精度浮点被下转换至bfloat16浮点的。
4.如权利要求1所述的装置,其中,所标识的第一源操作对象是矩阵操作对象。
5.如权利要求4所述的装置,其中,所述矩阵操作对象包括多个物理寄存器的叠加。
6.如权利要求1所述的装置,其中,所述索引值是通过立即数指定的。
7.如权利要求1所述的装置,其中,所述索引值是通过所标识的寄存器中存储的值指定的。
8.一种装置,包括:
9.如权利要求8所述的装置,其中,经下转换的数据元素是要从单精度浮点被下转换至半精度浮点的。
10.如权利要求8所述的装置,其中,经下转换的数据元素是要从单精度浮点被下转换至bfloat16浮点的。
11.如权利要求8所述的装置,其中,所标识的源/目的地操作对象是矩阵操作对象。
12.如权利要求11所述的装置,其中,所述矩阵操作对象包括多个物理寄存器的叠加。
13.如权利要求8所述的装置,其中,所述索引值是通过立即数指定的。
14.如权利要求8所述的装置,其中,所述索引值是通过所标识的寄存器中存储的值指定的。