背景技术:
1、各种计算机架构(例如冯·诺依曼架构)常规上使用数据的共享存储器、用于存取共享存储器的总线、算术单元及程序控制单元。然而,在处理器与存储器之间移动数据可能需要大量的时间及能量,这又可能约束计算机系统的性能及容量。鉴于这些限制,期望新的计算架构及装置以使计算性能超越晶体管微缩(即,摩尔定律)的实践。
技术实现思路
1.一种方法,其包括:
2.根据权利要求1所述的方法,其进一步包括跨所述并行处理通道的至少一部分对对应于第二输入矩阵行的所述多个部分累加值的一部分求和以产生第二输出向量行值。
3.根据权利要求1所述的方法,其进一步包括:
4.根据权利要求1所述的方法,其进一步包括:
5.根据权利要求1所述的方法,所述第一组输入向量值包括具有非连续输入向量行号的多个输入向量值。
6.根据权利要求1所述的方法,其中所述多个部分累加值的所述更新包括执行写入操作,所述写入操作将所述多个部分累加值中的第一经更新部分累加值写入到第一存储器位置且将所述多个部分累加值中的第二经更新部分累加值写入到不与所述第一存储器位置连续的第二存储器位置。
7.根据权利要求1所述的方法,所述第一组输入向量值的所述加载是从计算元件存储器处的非连续存储器位置进行的聚集加载。
8.根据权利要求1所述的方法,所述多个部分累加值的所述更新包括:
9.根据权利要求8所述的方法,所述多个部分累加值的所述更新包括:
10.一种设备,其包括:
11.根据权利要求10所述的设备,所述操作进一步包括跨所述并行处理通道的至少一部分对对应于第二输入矩阵行的所述多个部分累加值的一部分求和以产生第二输出向量行值。
12.根据权利要求10所述的设备,所述操作进一步包括:
13.根据权利要求10所述的设备,所述操作进一步包括:
14.根据权利要求10所述的设备,所述第一组输入向量值包括具有非连续输入向量行号的多个输入向量值。
15.根据权利要求10所述的设备,其中所述多个部分累加值的所述更新包括执行写入操作,所述写入操作将所述多个部分累加值中的第一经更新部分累加值写入到第一存储器位置且将所述多个部分累加值中的第二经更新部分累加值写入到不与所述第一存储器位置连续的第二存储器位置。
16.根据权利要求10所述的设备,所述第一组输入向量值的所述加载是从计算元件存储器处的非连续存储器位置进行的聚集加载。
17.根据权利要求10所述的设备,所述多个部分累加值的所述更新包括:
18.根据权利要求17所述的设备,所述多个部分累加值的所述更新包括:
19.一种其上包括指令的机器可读媒体,所述指令在由计算机架构执行时致使所述计算机架构执行包括以下者的操作:
20.根据权利要求19所述的机器可读媒体,所述操作进一步包括跨所述并行处理通道的至少一部分对对应于第二输入矩阵行的所述多个部分累加值的一部分求和以产生第二输出向量行值。