板卡和神经网络运算方法与流程

文档序号：17938527发布日期：2019-06-18 22:50阅读：246来源：国知局

本发明涉及神经网络领域，尤其涉及一种板卡和神经网络运算方法。

背景技术：

人工神经网络(artificialneuralnetworks,anns)简称为神经网络(neuralnetworks,nns)。它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间的相互连接关系，从而达到处理信息的目的。

神经网络是一个高计算量和高访存的算法，权值越多，计算量和访存量。都会增大。为了减小计算量和权值数量，从而降低访存量，因此提出了稀疏神经网络。稀疏神经网络的定义为：在神经网络中，值为0的权值的数目很多，并且值为非0的权值分布没有规律，则称该神经网络为稀疏神经网络。定义权值为0的元素数量与神经网络所有权值元素数量的比值为神经网络的稀疏度，如图1a所示。

现有技术中，gpu在执行图形图像运算以及科学计算时会涉及稀疏神经网络的计算，但是由于gpu是专门用来执行图形图像运算以及科学计算的设备，没有对稀疏的卷积神经网络运算的专门支持，仍然需要大量的前端译码工作才能执行稀疏的人工神经网络运算，带来了大量的额外开销。另外gpu只有较小的片上缓存，多层人工神经网络的模型数据(权值)需要反复从片外搬运，片外带宽成为了主要性能瓶颈，同时带来了巨大的功耗开销。

技术实现要素：

本发明实施例提供一种板卡及方法，通过对神经网络数据进行处理，减小了在进行人工神经网络运算之前译码的工作量，进而减小了额外的开销，并且提高了运算速率。

第一方面，本发明实施例提供了一种板卡，所述板卡包括：

神经网络芯片封装结构、第一电气及非电气连接装置和通过所述第一电气及非电气连接装置与所述神经网络芯片封装结构连接的第一基板；

所述第一基板，用于承载所述芯片封装结构；

其中，所述神经网络芯片封装结构包括：

神经网络芯片、第二电气及非电气连接装置和通过所述第二电气及非电气连接装置与所述神经网络芯片连接的第二基板；

所述第二基板，用于承载所述神经网络芯片；

所述神经网络芯片包括所述神经网络芯片包括用于进行神经网络运算的神经网络运算模块；

其中，所述神经网络运算模块包括：

存储单元，用于存储第一输入数据及所述第一输入数据的连接关系数据、处理后的第二输入数据、神经网络指令和运算结果，所述第一输入数据为输入神经元权值，所述第一输入数据的连接关系数据为输入神经元的连接关系数据或者权值的连接关系数据，所述处理后的第二输入数据为处理后的输入神经元或者处理后的权值；

映射单元，用于通过直接存储访问单元获取所述第一输入数据和所述第一输入数据的连接关系数据后，根据所述第一输入数据的连接关系数据对所述第一输入数据进行处理，以得到处理后的第一输入数据，并将所述处理后的第一输入数据存储到第一输入缓存单元中，所述处理后的第一输入数据为处理后的输入神经元或者处理后的权值；

指令控制单元，用于从指令缓存单元中获取所述神经网络指令，并将所述神经网络指令译码成运算单元执行的微指令；

所述运算单元，用于从所述第一输入缓存单元和第二输入缓存单元中获取所述处理后的第一输入数据和所述处理后的第二输入数据后，根据所述微指令对所述处理后的第一输入数据和所述处理后的第二输入数据进行人工神经网络运算，以得到所述运算结果；

所述输出缓存单元，用于缓存所述运算结果。

第二方面，本发明实施例提供了一种神经网络运算方法，包括：

对输入数据进行处理，以得到处理后的输入数据；

获取神经运算指令，将所述神经运算指令译码成微指令；

根据所述微指令对所述处理后的输入数据进行人工神经网络运算，以得到运算结果。

第三方面，本发明实施例提供了一种电子装置，该电子装置包括上述第一方面所述的板卡。

可以看出，在本发明实施例的方案中，上述板卡的映射单元对输入神经元和权值进行处理，以得到处理后的输入神经元和处理后的权值，该板卡的运算单元根据指令控制单元对神经网络指令进行译码得到的微指令对处理后的输入神经元和处理后的权值进行人工神经网络运算。与现有技术相比，采用本发明实施例减小了在进行人工神经网络运算之前译码的工作量，进而减小了额外的开销，并且提高了运算速率。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的一种稀疏神经网络结构示意图；

图1b为本发明实施例提供的一种板卡的结构示意图；

图1c为本发明实施例提供的一种神经网络芯片封装结构的示意图；

图2a为本发明实施例提供的另一种神经网络芯片封装结构的示意图；

图2b为本发明实施例提供的另一种神经网络芯片封装结构的示意图；

图3a为本发明实施例提供的一种组合处理装置的结构示意图；

图3b为本发明实施例提供的另一种组合处理装置的结构示意图；

图4为本发明实施例提供的一种神经网络运算模块的结构示意图；

图5为本发明实施例提供的一种神经网络运算模块的局部结构示意图；

图6为本发明实施例提供的一种神经网络结构示意图；

图7为本发明实施例提供的另一种神经网络运算模块的局部结构示意图；

图8为本发明实施例提供的另一种神经网络运算模块的局部结构示意图；

图9为本发明实施例提供的另一种神经网络运算模块的局部结构示意图；

图10为本发明实施例提供的另一种神经网络运算模块的局部结构示意图；

图11为本发明实施例提供的另一种神经网络结构示意图；

图12为本发明实施例提供的另一种神经网络结构示意图；

图13为本发明实施例提供的另一种神经网络结构示意图；

图14为本发明实施例提供的另一种神经网络结构示意图；

图15为本发明实施例提供的一种神经网络运算方法的流程示意图。

具体实施方式

以下分别进行详细说明。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参见图1b，图1b为本发明实施例提供的一种板卡的结构示意图。该板卡用于加速稀疏神经网络的运算。如图1b所示，上述板卡10包括神经网络芯片封装结构11、第一电气及非电气连接装置12和第一基板(substrate)13。

对于神经网络芯片封装结构11的具体结构不作限定，可选的，如图1c所示，上述神经网络芯片封装结构11包括：神经网络芯片111、第二电气及非电气连接装置112、第二基板113。

本发明所涉及的神经网络芯片111的具体形式不作限定，上述的神经网络芯片111包含但不限于将神经网络处理器集成的神经网络晶片上，上述晶片可以由硅材料、锗材料、量子材料或分子材料等制成。根据实际情况(例如：较严苛的环境)和不同的应用需求可将上述神经网络晶片进行封装，以使神经网络晶片的大部分被包裹住，而将神经网络晶片上的引脚通过金线等导体连到封装结构的外边，用于和更外层进行电路连接。

本发明对于第一基板13和第二基板113的类型不做限定，可以是印制电路板(printedcircuitboard，pcb)或(printedwiringboard，pwb)，还可能为其它电路板。对pcb的制作材料也不做限定。

本发明所涉及的第二基板113用于承载上述神经网络芯片111，通过第二电气及非电气连接装置112将上述的神经网络芯片111和第二基板113进行连接得到的神经网络芯片封装结构11，用于保护神经网络芯片111，便于将神经网络芯片封装结构11与第一基板13进行进一步封装。

对于上述具体的第二电气及非电气连接装置112的封装方式和封装方式对应的结构不作限定，可根据实际情况和不同的应用需求选择合适的封装方式并进行简单地改进，例如：倒装芯片球栅阵列封装(flipchipballgridarraypackage，fcbgap)，薄型四方扁平式封装(low-profilequadflatpackage，lqfp)、带散热器的四方扁平封装(quadflatpackagewithheatsink，hqfp)、无引脚四方扁平封装(quadflatnon-leadpackage，qfn)或小间距四方扁平式封装(fine-pitchballgridpackage，fbga)等封装方式。

倒装芯片(flipchip)，适用于对封装后的面积要求高或对导线的电感、信号的传输时间敏感的情况下。除此之外可以用引线键合(wirebonding)的封装方式，减少成本，提高封装结构的灵活性。

球栅阵列(ballgridarray)，能够提供更多引脚，且引脚的平均导线长度短，具备高速传递信号的作用，其中，封装可以用引脚网格阵列封装(pingridarray，pga)、零插拔力(zeroinsertionforce，zif)、单边接触连接(singleedgecontactconnection，secc)、触点阵列(landgridarray，lga)等来代替。

可选的，采用倒装芯片球栅阵列(flipchipballgridarray)的封装方式对神经网络芯片111和第二基板113进行封装，具体的神经网络芯片封装结构11的示意图可参照图2a。如图2a所示，上述神经网络芯片封装结构包括：神经网络芯片21、焊盘22、焊球23、第二基板24、第二基板24上的连接点25、引脚26。

其中，焊盘22与神经网络芯片21相连，通过在焊盘22和第二基板24上的连接点25之间焊接形成焊球23，将神经网络芯片21和第二基板24连接，即实现了神经网络芯片21的封装。

引脚26用于与封装结构的外部电路(例如，神经网络处理器板卡10上的第一基板13)相连，可实现外部数据和内部数据的传输，便于神经网络芯片21或神经网络芯片21对应的神经网络处理器对数据进行处理。对于引脚的类型和数量本发明也不作限定，根据不同的封装技术可选用不同的引脚形式，并遵从一定规则进行排列。

可选的，上述神经网络芯片封装结构还包括绝缘填充物，置于焊盘22、焊球23和连接点25之间的空隙中，用于防止焊球与焊球之间产生干扰。

其中，绝缘填充物的材料可以是氮化硅、氧化硅或氧氮化硅；干扰包含电磁干扰、电感干扰等。

可选的，上述神经网络芯片封装结构还包括散热装置，用于散发神经网络芯片21运行时的热量。其中，散热装置可以是一块导热性良好的金属片、散热片或散热器，例如，风扇。

举例来说，如图2b所示，上述神经网络芯片封装结构11包括：神经网络芯片21、焊盘22、焊球23、第二基板24、第二基板24上的连接点25、引脚26、绝缘填充物27、散热膏28和金属外壳散热片29。其中，散热膏28和金属外壳散热片29用于散发神经网络芯片21运行时的热量。

可选的，上述神经网络芯片封装结构11还包括补强结构，与焊盘22连接，且内埋于焊球23中，以增强焊球23与焊盘22之间的连接强度。

其中，补强结构可以是金属线结构或柱状结构，在此不做限定。

本发明对于第一电气及非电气装置12的具体形式也不作限定，可参照第二电气及非电气装置112的描述，即通过焊接的方式将神经网络芯片封装结构11进行封装，也可以采用连接线连接或插拔方式连接第二基板113和第一基板13的方式，便于后续更换第一基板13或神经网络芯片封装结构11。

可选的，第一基板13包括用于扩展存储容量的内存单元的接口等，例如：同步动态随机存储器(synchronousdynamicrandomaccessmemory，sdram)、双倍速率同步动态随机存储器(doubledateratesdram，ddr)等，通过扩展内存提高了神经网络处理器的处理能力。

第一基板13上还可包括快速外部设备互连总线(peripheralcomponentinterconnect-express，pci-e或pcie)接口、小封装可热插拔(smallform-factorpluggable，sfp)接口、以太网接口、控制器局域网总线(controllerareanetwork，can)接口等等，用于封装结构和外部电路之间的数据传输，可提高运算速度和操作的便利性。

将神经网络芯片111封装为神经网络芯片封装结构11，将神经网络芯片封装结构11封装为板卡10，可填补目前神经网络的空缺，通过板卡上的接口(插槽或插芯)与外部电路(例如：计算机主板)进行数据交互，即直接通过使用板卡10实现神经网络处理器的功能，并保护神经网络芯片111。且板卡10上还可添加其他模块，提高了神经网络处理器的应用范围和运算效率。

该板卡10可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、智能家居、家电、多处理器系统、基于微处理器的系统、机器人、可编程的消费电子设备、网络个人计算机(personalcomputer，pc)、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

在一种可行的实施例中，上述神经网络芯片11包括组合处理装置，该组合装置包括如上述神经网络运算装置，通用互联接口和其他处理装置。

上述神经网络运算装置与上述其他处理装置进行交互，共同完成用户指定的操作。

参见图3a，图3a为本发明实施例提供的一种组合处理装置的结构示意图。如图3a所示，该组合处理装置包括上述神经网络运算装置301、通用互联接口302和其他处理装置303。

其中，上述其他处理装置303包括中央处理器(centralprocessingunit)、图形处理器(graphicsprocessingunit，gpu)、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置303所包括的处理器数量不做限制。其他处理装置303作为神经网络运算装置301与外部数据和控制的接口，包括数据搬运，完成对本神经网络运算装置的开启、停止等基本控制；其他处理装置303也可以和神经网络运算装置301协作共同完成运算任务。

上述通用互联接口302，用于在所述神经网络运算装置301与其他处理装置303间传输数据和控制指令。该神经网络运算装置301从其他处理装置303中获取所需的输入数据，写入神经网络运算装置301片上的存储装置；可以从其他处理装置303中获取控制指令，写入神经网络运算装置301片上的控制缓存；也可以读取神经网络运算装置301的存储模块中的数据并传输给其他处理装置303。

其中，上述神经网络运算装置301，该神经网络运算装置301包括一个或多个神经网络运算模块，用于从其他处理装置中获取待运算数据和控制信息，并执行指定的神经网络运算，将执行结果通过i/o接口传递给其他处理装置；

当所述神经网络运算装置301包含多个所述神经网络运算模块时，所述多个所述神经网络运算模块间可以通过特定的结构进行连接并传输数据；

其中，多个所述神经网络运算模块通过pcie总线进行互联并传输数据，以支持更大规模的神经网络的运算；多个所述神经网络运算模块共享同一控制系统或拥有各自的控制系统；多个所述神经网络运算模块共享内存或者拥有各自的内存；多个所述神经网络运算模块的互联方式是任意互联拓扑。

该神经网络运算装置301具有较高的兼容性，可通过pcie接口与各种类型的服务器相连接。

可选的，如图3b所示，上述组合处理装置还包括存储装置304，用于保存在本运算单元/运算装置或其他运算单元所需要的数据，尤其适用于所需要运算的数据在本神经网络运算装置301或其他处理装置303的内部存储中无法全部保存的数据。

上述组合装置可以作为手机、机器人、无人机等智能设备的片上系统，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。

在一种可行的实施例中，如图4所示，上述该神经网络运算模块包括存储单元402、直接存储访问单元403、映射单元401、指令缓存单元404、第一输入缓存单元405、第二输入缓存单元406、指令控制单元407、运算单元408和输出缓存单元409。

其中，上述存储单元402，用于存储第一输入数据及所述第一输入数据的连接关系数据、处理后的第二输入数据、神经网络指令和运算结果，所述第一输入数据为输入神经元权值，所述第一输入数据的连接关系数据为输入神经元的连接关系数据或者权值的连接关系数据，所述处理后的第二输入数据为处理后的输入神经元或者处理后的权值。

上述直接存储访问单元403，用于在上述存储单元402与上述指令缓存单元404、上述映射单元401、上述第一输入缓存单元405和上述输出缓存单元409之间进行数据读写。

具体地，上述直接存储访问单元403从上述存储单元402中读取上述神经网络指令，并将该神经网络指令写入上述指令缓存单元404中；

从上述存储单元402中读取上述输入神经元及该输入神经元的连接关系数据，并将该输入神经元及其连接关系数据写入上述映射单元401中；从上述存储单元402中读取处理后的权值，并将该权值写入上述第二输入缓存单元406，或者；

从上述存储单元402中读取上述权值和该权值的连接关系数据，并将该权值及其连接关系数据写入上述映射单元401中；从上述存储单元402中读取处理后的输入神经元，并将该处理后的输入神经元写入上述第二输入缓存单元406；

从上述输出缓存单元409中读取所述运算结果，并将该运算结果写入上述存储单元402中。

其中，如图5所示，上述映射单元401包括：

输入数据缓存单元4011，用于缓存第一输入数据，该第一输入数据包括至少一个输入神经元或者至少一个权值。

连接关系缓存单元4012，用于缓存上述第一输入数据的连接关系数据，即上述输入神经元的连接关系数据或者上述权值的连接关系数据。

其中，上述输入神经元的连接关系数据为用于表示该输入神经元中绝对值大于第一阈值的输入神经元的位置信息的字符串，上述权值的连接关系数据为表示该权值中绝对值大于第二阈值的权值的位置信息的字符串，或者为表示该权值对应的输入神经元和输出神经元之间是否有连接的字符串。该输入神经元的连接关系数据和权值的连接关系数据可以直接索引或者步长索引的形式表示。

具体地，以直接索引形式表示的权值的连接关系数据为由0和1组成的字符串，其中，0表示该权值的绝对值小于或者等于上述第二阈值，即该权值对应的输入神经元与输出神经元之间没有连接，1表示该权值的绝对值大于上述第二阈值，即该权值对应的输入神经元与输出神经元之间有连接。以直接索引形式表示的连接关系数据有两种表示顺序：以每个输出神经元与所有输入神经元的连接状态组成一个0和1的字符串来表示权值的连接关系；或者每个输入神经元与所有输出神经元的连接状态组成一个0和1的字符串来表示权值的连接关系。以直接索引形式表示的输入神经元的连接关系数据为由0和1组成的字符串，其中，，0表示该输入神经元的绝对值小于或者等于上述第一阈值，1表示该输入神经元的绝对值大于上述第一阈值。

以步长索引形式表示的权值的连接关系数据为与输出神经元有连接的输入神经元与上一个与该输出神经元有连接的输入神经元之间的距离值组成的字符串；以步长索引表示的输入神经元的连接关系数据以当前绝对值大于上述第一阈值的输入神经元与上一个绝对值大于上述第一阈值的输入神经元之间的距离值组成的字符串表示。

可选地，上述第一阈值可为0.1、0.08、0.05、0.02、0.01、0或者其他值。

可选地，上述第二阈值可为0.1、0.08、0.06、0.05、0.02、0.01、0或者其他值。

需要指出的是，上述第一阈值和上述第二阈值可以一致，也可以不一致。

其中，上述第一连接关系数据、第二连接关系数据和第三连接关系数据均可以步长索引或者直接索引的形式表示。

具体地，以直接索引形式表示的连接关系数据为由0和1组成的字符串。当上述连接关系数据为权值的连接关系数据时，0表示该权值的绝对值小于或者等于上述第一阈值，即该权值对应的输入神经元与输出神经元之间没有连接，1表示该权值的绝对值大于上述第一阈值，即该权值对应的输入神经元与输出神经元之间有连接。以直接索引形式表示的连接关系数据有两种表示顺序：以每个输出神经元与所有输入神经元的连接状态组成一个0和1的字符串来表示权值的连接关系；或者每个输入神经元与所有输出神经元的连接状态组成一个0和1的字符串来表示权值的连接关系。当上述连接关系数据为输入神经元的连接关系数据时，0表示该输入神经元的绝对值小于或者等于上述第一阈值，1表示该输入神经元的绝对值大于上述第一阈值。

举例说明，假设上述第一阈值为0.01，参见图6，图6为本发明实施例提供的一种稀疏神经网络的示意图。如图6中的a图所示，上述第一输入数据为输入神经元，包括输入神经元i1、i2、i3和i4，上述第二输入数据为权值。对于输出神经元o1，权值为w11，w21，w31和w41；对于输出神经元o2，权值w12，w22，w32和w42，其中权值w21，w12和w42的值为0，其绝对值均小于上述第一阈值0.01，稀疏处理单元(即第一稀疏处理单元4011或第二稀疏处理单元4012)确定上述输入神经元i2和输出神经元o1没有连接，上述输入神经元i1和i4与输出神经元o2没有连接，上述输入神经元i1、i3和i4与上述输出神经元o1有连接，上述输入神经元i2和i3与输出神经元o2有连接。以每个输出神经元与所有输入神经元的连接状态表示上述连接关系数据，则上述输出神经元o1的连接关系数据为“1011”，输出神经元o2的连接关系数据为“0110”(即上述连接关系数据为“10110110”)；以每个输入神经元与所有输出神经元的连接关系，则输入神经元i1的连接关系数据为“10”，输入神经元i2的连接关系数据为“01”，输入神经元i3的连接关系数据为“11”，输入神经元i4的连接关系数据为“10”(即上述连接关系数据为“10011110”)。

对于上述输出神经元o1，上述映射单元401将上述i1、i3与i4，w11、w31和w41分别存储到上述第一输入缓存单元405和第二输入缓存单元406，或者分别存储到上述第二输入缓存单元406和第一输入缓存单元405中；对于输出神经元o2，上述映射单元401将上述i2与i3，和w22与w32，分别存储到上述第一输入缓存单元405和第二输入缓存单元406，或者分别存储到上述第二输入缓存单元406和第一输入缓存单元405中。

针对上述输出神经元o1，上述第二输出数据为w11，w31和w41；针对上述输出神经元o2，上述第二输出数据为w22和w32。

当输入神经元i1、i2、i3和i4的值分别为1，0，3，5则上述输入神经元的连接关系数据为“1011”，上述输出的神经元为i1(1)，i3(3)，i4(5)。

如图6中的b图所示，上述第一输入数据为输入神经元，包括输入神经元i1、i2、i3和i4，上述第二输入数据为权值。对于输出神经元o1，权值为w11，w21，w31和w41；对于输出神经元o2，权值w12，w22，w32和w42，其中权值w21，w12和w42的值为0，稀疏处理单元(即第一稀疏处理单元4011或第二稀疏处理单元4012)确定上述输入神经元i1、i3和i4与上述输出神经元o1有连接，上述输入神经元i2和i3与输出神经元o2有连接。上述输出神经元o1与输入神经元之间的连接关系数据为“021”。其中，该连接关系数据中第一个数字“0”表示第一个与输出神经元o1有连接的输入神经元与第一个输入神经元之间的距离为0，即第一个与输出神经元o1有连接的输入神经元为输入神经元i1；上述连接关系数据中第二个数字“2”表示第二个与输出神经元o1有连接的输入神经元与第一个与输出神经元o1有连接的输入神经元(即输入神经元i1)之间的距离为2，即第二个与输出神经元o1有连接的输入神经元为输入神经元i3；上述连接关系数据中第三个数字“1”表示第三个与输出神经元o1有连接的输入神经元与第二个与该输出神经元o1有连接的输入神经元之间的距离为1，即第三个与输出神经元o1有连接的输入神经元为输入神经元i4。

上述输出神经元o2与输入神经元之间的连接关系数据为“11”。其中，该连接关系数据中的第一数字“1”表示第一个与输出神经元o2有连接的输入神经元与第一个输入神经元(即输入神经元i1)之间的距离为，即该第一个与输出神经元o2有连接关系的输入神经元为输出神经元i2；上述连接关系数据中的第二数字“1”表示第二个与输出神经元o2有连接的输入神经元与第一个与输出神经元o2有连接的输入神经元的距离为1，即第二个与输出神经元o2有连接的输入神经元为输入神经元i3。

稀疏处理单元4013，用于根据所述第一输入数据的连接关系数据对所述第一输入数据进行处理，以得到处理后的第一输入数据，并将该处理后的第一输入数据存储到上述第一输入缓存单元中105。

举例说明，假设上述第一输入数据包括输入神经元为i1，i2，i3和i4，当上述第一输入数据的连接关系数据(即输入神经元的连接关系数据)以直接索引形式表示为“1011”时，上述稀疏处理单元4013根据确定输入神经元i1、i3和i4的绝对值大于上述第一阈值，输入神经元i2的绝对值小于或者等于上述第一阈值。上述稀疏处理单元4013将上述输入神经元i2剔除，将输入神经元i1，i3和i4作为处理后的第一输入数据(即处理后的输入神经元)输出。

当上述第一输入数据的连接关系数据(即输入神经元的连接关系数据)以步长索引形式表示为“12”时，上述稀疏处理单元4013确定输入神经元的绝对值i2和i4的绝对值大于上述第一阈值，输入神经元i1和i3的绝对值小于或者等于上述第一阈值。上述稀疏处理单元4013将上述输入神经元i1和i3剔除，将上述稀疏处理单元将上述输入神经元i2和i4作为处理后的第一输入数据(即处理后的输入神经元)输出。

再举例说明，假设上述第一输入数据包括权值w11，w21，w31，w41，当上述第一输入数据的连接关系数据(即权值的连接关系数据)以直接索引形式表示为“0101”时，上述稀疏处理单元4013确定权值w11和w31的绝对值小于或等于上述第二阈值，确定权值w21和w41的绝对值大于上述第一阈值。上述稀疏处理单元4013进而确定上述输入神经元i1和i3均与输出神经元o1之间没有连接，确定上述输入神经元i2和i4均与输出神经元o1之间有连接。上述稀疏处理单元4013将权值w11和w31剔除，将权值w21和w41作为处理后的第一输入数据(即处理后的权值)输出。

当上述第一输入数据的连接关系数据(即权值的连接关系数据)以步长索引形式的表示为“11”时，上述稀疏处理单元4013确定权值w11和w41的绝对值小于或等于上述第二阈值，确定权值w21和w31的绝对值大于上述第一阈值。上述稀疏处理单元4013进而确定上述输入神经元i1和i4均与输出神经元o1之间没有连接，确定上述输入神经元i2和i3均与输出神经元o1之间有连接。上述稀疏处理单元4013将权值w11和w41剔除，将权值w21和w31作为处理后的第一输入数据(即处理后的权值)输出。

在一种可行的实施例中，当上述第一输入数据为至少一个输入神经元时，上述稀疏处理单元4013在一个时钟周期处理一个输入神经元和一个连接关系，即在一个时钟周期从s1个输入神经元中选择一个有效的输入神经元，s1为大于1的整数。

在一种可行的实施例中，上述稀疏处理单元4013在一个时钟周期处理多个输入神经元和多个连接关系数据，即一个时钟周期从s1个输入神经元中选出有效的s2个输入数据，上述s2为大于0且小于或者等于该s1的整数。

举例说明，如图7所示，上述输入神经元为i1，i2，i3和i4，以直接索引的形式表示的连接关系数据为“1011”，并且上述稀疏处理单元4013在一个时钟周期可从4个输入神经元选择1个有连接(即有效)的输入神经元。上述稀疏处理单元4013从上述输入数据缓存单元4011和上述连接关系缓存单元4012中分别获取上述输入神经元i1，i2，i3和i4和上述连接关系数据“1011”后，上述稀疏处理单元4013根据该连接关系数据“1011”从上述输入神经元i1，i2，i3和i4选取有连接的输入神经元i1，i3和i4。由于上述稀疏处理单元4013在一个时钟周期可从4个输入神经元选择1个有连接(即有效)的输入神经元，该稀疏处理单元4013在三个时钟周期内依次输出输入神经元i1，i3和i4，如图7所示。上述稀疏处理单元4013将上述输入神经元i1，i3和i4存储到上述第一输入缓存单元405中。

再举例说明，如图8所示，输入神经元为i1，i2，i3和i4，以直接索引的形式表示的连接关系数据有两组，分别为“1011”和“0101”，上述稀疏处理单元4013在一个时钟周期可从4个输入神经元中选择2个有连接(即有效)的输入神经元。上述稀疏处理单元4013根据上述连接关系数据“1011”从上述输入神经元i1，i2，i3和i4中选择有连接的输入神经元i1，i3和i4；根据上述连接关系数据“0101”从上述输入神经元i1，i2，i3和i4中选择有连接的输入神经元i2和i4。由于上述稀疏处理单元4013在一个时钟周期可从4个输入神经元选择2个有连接(即有效)的输入神经元，对于连接关系数据“1011”，该稀疏处理单元4013在第一个时钟周期从选择输入神经元i1和i3，并将该输入神经元i1和i3存储到上述第一输入缓存单元406中，在第二个时钟周期从选择输入神经元i4，并将该输入神经元i4存储到上述第一输入缓存单元406中；对于连接关系数据“0101”，该稀疏处理单元4013在一个时钟周期从选择输入神经元i2和i4，如图8所示。上述稀疏处理单元4013将上述输出神经元i2和i4和存储到上述第一输入缓存单元405中。

举例说明，如图9所示，输入神经元为i1，i2，i3和i4，以步长索引的形式表示的连接关系数据为“021”，并且上述稀疏处理单元4013在一个时钟周期可从4个输入神经元选择1个有连接(即有效)的输入神经元。上述稀疏处理单元4013从上述输入数据缓存单元4011和上述连接关系缓存单元4012中分别获取上述输入神经元i1，i2，i3和i4和上述连接关系数据“021”后，上述稀疏处理单元4013根据该连接关系数据“1011”从上述输入神经元i1，i2，i3和i4选取有连接的输入神经元i1，i3和i4。由于上述稀疏处理单元4013在一个时钟周期可从4个输入神经元选择1个有连接(即有效)的输入神经元，该稀疏处理单元4013在三个时钟周期内依次输出输入神经元i1，i3和i4，如图9所示。上述稀疏处理单元4013将上述输入神经元i1，i3和i4存储到上述第一输入缓存单元405中。

再举例说明，如图10所示，输入神经元为i1，i2，i3和i4，以步长索引的形式表示的连接关系数据有两组，分别为“021”和“22”，上述稀疏处理单元4013在一个时钟周期可从4个输入神经元中选择2个有连接(即有效)的输入神经元。上述稀疏处理单元4013根据上述连接关系数据“021”从上述输入神经元i1，i2，i3和i4中选择有连接的输入神经元i1，i3和i4；根据上述连接关系数据“22”从上述输入神经元i1，i2，i3和i4中选择有连接的输入神经元i2和i4。由于上述稀疏处理单元4013在一个时钟周期可从4个输入神经元选择2个有连接(即有效)的输入神经元，对于连接关系数据“021”，该稀疏处理单元4013在第一个时钟周期从选择输入神经元i1和i3，并将该输入神经元i1和i3存储到上述第一输入缓存单元406中。在第二个时钟周期从选择输入神经元i4并将该输入神经元i4存储到上述第一输入缓存单元406中；对于连接关系数据“22”，该稀疏处理单元4013在一个时钟周期从选择输入神经元i2和i4并输出，如图10所示。上述稀疏处理单元4013将上述输入神经元i2和i4存储到上述第一输入缓存单元405中。

在一种可行的实施例中，上述输入数据缓存单元4011用于缓存的第一输入数据包括至少一个权值，上述连接关系缓存单元4012缓存的第二输入数据为上述权值的连接关系数据，且上述至少一个权值的绝对值均大于第一阈值时，上述稀疏处理单元4013根据上述权值的连接关系数据，将没有连接关系的输入神经元和输出神经元之间的权值的值置为0，并将该权值和上述至少一个权值存储到上述第以输入缓存单元405中。

举例说明，权值的形式为wij，表示第i个输入神经元与第j个输出神经元之间的权值。假设输入神经元包括i1，i2，i3和i4，输出神经元包括o1，上述第一输入数据(权值)为w11，w31，w41，上述第二输入数据(权值的连接关系数据)以直接索引的形式表示，为1011，上述稀疏处理单元4013根据上述第二输入数据确定上述输入神经元i2与上述输出神经元o1之间没有连接，上述稀疏处理单元4013将该上述输入神经元i2与上述输出神经元o1之间的权值w21的值置为0，并将w11，w21(0)，w31，w41存储到上述第一输入缓存单元405中。

在一种可行的实施例中，当上述第一输入数据为至少一个权值时，上述稀疏处理单元4013在一个时钟周期处理一个权值和一个连接关系，即在一个时钟周期从s3个权值中选择一个有效的权值，该s3为大于1的整数。

可选地，上述稀疏处理单元4013在一个时钟周期处理多个权值和多个连接关系数据，即一个时钟周期从s3个权值中选出有效的s4个权值，上述s4为大于0且小于或者等于该s3的整数。

需要说明的是，上述相关描述可参见图7-图10所示的相关描述，在此不再叙述。

可选地，所述映射单元401对所述输入数据进行处理之前，所述映射单元401还用于：

对所述至少一个输入神经元进行分组，以得到m组输入神经元，所述m为大于或者等于1的整数；

判断所述m组输入神经元的每一组输入神经元是否满足第一预设条件，所述第一预设条件包括一组输入神经元中绝对值小于或者等于第三阈值的输入神经元的个数小于或者等于第四阈值；

当所述m组输入神经元任意一组输入神经元不满足所述第一预设条件时，将该组输入神经元删除；

对所述至少一个权值进行分组，以得到n组权值，所述n为大于或者等于1的整数；

判断所述n组权值的每一组权值是否满足第二预设条件，所述第二预设条件包括一组权值中绝对值小于或者等于第五阈值的权值的个数小于或者等于第六阈值；

当所述n组权值任意一组权值不满足所述第二预设条件时，将该组权值删除。

可选地，上述第三阈值可为0.5，0.2，0.1，0.05，0.025，0.01，0或者其他值。

其中，上述第四阈值与上述一组输入神经元中输入神经元的个数相关。可选地，该第四阈值＝一组输入神经元中的输入神经元个数-1或者该第四阈值为其他值。

可选地，上述第五阈值可为0.5，0.2，0.1，0.05，0.025，0.01，0或者其他值。

其中，上述第六阈值与上述一组权值中的权值个数相关。可选地，该第六阈值＝一组权值中的权值个数-1或者该第六阈值为其他值。

需要说明的是，上述第六阈值和上述第四阈值可相同或者不同，上述第三阈值和上述第五阈值可相同或者不同。

上述指令缓存单元404，用于缓存上述直接存储访问单元403读取的神经网络指令。

上述第一输入缓存单元405，用于缓存上述处理后的第一输入数据。

上述第二输入缓存单元406，用于缓存上述直接存储访问单元403读取的处理后的第二输入数据。

需要说明的是，当上述第一输入缓存单元405用于缓存处理后的输入神经元时，则上述第二输入缓存单元406用于缓存处理后的权值；当上述第一输入缓存单元405用于缓存处理后的权值时，则上述第二输入缓存单元406用于缓存处理后的输入神经元。

需要说明的是，第一阈值、第二阈值、第三阈值、第四阈值、第五阈值和第六阈值可均存储在上述存储单元402或者第一输出缓存单元405中；上述第一阈值、第二阈值、第三阈值、第四阈值、第五阈值和第六阈值中部分阈值存储在上述存储单元402、部分阈值存储在上述第一输出缓存单元405中。

上述指令控制单元407，用于从上述指令缓存单元404中获取神经网络指令后，将该神经网路指令译码成运算单元408执行的微指令。

上述运算单元408，用于从上述第一输入缓存105和上述第二输入缓存106中获取上述处理后的输入神经元和处理后的权值后，根据从上述微指令对上述处理后的权值和处理后的输入神经元进行人工神经网络运算，并将运算结果存储到上述输出缓存单元409中。

上述输出缓存单元409，用于缓存上述运算单元408进行人工神经网络运算得到的运算结果。

需要指出的是，上述指令缓存单元404、上述第一输入缓存单元405、上述第二输入缓存单元406和上述输出缓存单元409均可为片上缓存。

其中，片上缓存是位于神经网络运算模块和内存之间的临时存储器，它的容量比内存小，但是交换速度快。片上缓存中的数据是内存中数据的一小部分，这一小部分数据是神经网络运算模块即将要访问的数据，当神经网络运算模块需要读写数据时，就可以直接访问片上缓存，从而加快读写数据的速度。

进一步地，上述运算单元408包括但不限定于三个部分，分别为乘法器、一个或多个加法器(可选地，多个加法器组成加法树)和激活函数单元/激活函数运算器。上述乘法器将第一输入数据(in1)和第二输入数据(in2)相乘得到第一输出数据(out1)，过程为：out1＝in1*in2；上述加法树将第一输入数据(in3)通过加法树逐级相加得到第二输出数据(out2)，其中in3是一个长度为n的向量，n大于1，过称为：out2＝in3[1]+in3[2]+...+in3[n]，和/或将第一输入数据(in3)通过加法树累加之后得到的结果和第二输入数据(in4)相加得到第二输出数据(out2)，过程为：out2＝in3[1]+in3[2]+...+in3[n]+in4，或者将第一输入数据(in3)和第二输入数据(in4)相加得到第二输出数据(out2)，过称为：out2＝in3+in4；上述激活函数单元将第五输入数据(in5)通过激活函数(active)运算得到第三输出数据(out3)，过程为：out3＝active(in5)，激活函数active可以是sigmoid、tanh、relu、softmax等函数，除了做激活操作，激活函数单元可以实现其他的非线性函数运算，可将输入数据(in)通过函数(f)运算得到输出数据(out)，过程为：out＝f(in)。

上述运算单元408还可以包括池化单元，池化单元将输入数据(in)通过池化运算得到池化操作之后的输出数据(out)，过程为out＝pool(in)，其中pool为池化操作，池化操作包括但不限于：平均值池化，最大值池化，中值池化，输入数据in是和输出out相关的一个池化核中的数据。

需要说明的是，图1b所示的实施例中相关的连接关系数据(包括权值的连接关系数据和输入神经元的连接关系数据)可以采用高维动态数组，可以用链表等等表示。

可以看出，在本发明实施例的方案中，上述板卡的映射单元中的稀疏处理单元根据权值的连接关系数据或者输入神经元的连接关系数据分别对权值和输入神经元进行处理，剔除不满足条件的权值和输入神经元，减少了输入神经元和权值的数量，减少了额外的开销，上述板卡的运算单元根据处理后的输入神经元和权值进行人工神经网络运算，提高了运算的效率。

需要说明的是，上述神经网络运算模块不仅可以进行稀疏神经网络运算，还可以进行稠密神经网络运算。上述神经网络运算模块特别适用于稀疏神经网络的运算，是因为稀疏神经网络里0值数据或者绝对值很小的数据非常多。通过映射单元可以提出这些数据，在保证运算精度的情况下，可提高运算的效率。

需要说明的是，上述图1b所示的实施例中的权值的连接关系数据的表示方式除了直接索引和步长索引之外，还可为以下几种情况：

方式一：列表的列表(listoflists，lil)

以lil的形式表示具体是将上述权值矩阵的每一行的非零权值的信息存储在一个列表中，该列表中的每个记录包括非零权值的列索引及该非零权值的值。

举例说明，假设上述权值矩阵为则该权值矩阵的连接关系数据用lil的形式表示为((1,x1),(2,x4),((1,x2),(2,x5)),(1,x3))。该连接关系数据中有4个列表，表示该权值矩阵对应的输入神经元的数量为4个，分别为i1，i2，i3和i4。上述lil中列表中最多有两个记录，由此可知该权值矩阵对应的输出神经元个数为2，分别为o1和o2。上述第一个列表中的记录(1,x1)表示输入神经元i1与输出神经元o1之间的权值为x1，上述第二个列表中的记录(2，x4)表示输入神经元i2与输出神经元o2之间的权值为x4，上述第三个列表中的记录(1，x2)表示输入神经元i3与输出神经元o1之间的权值为x2，记录(2，x5)表示输入神经元i3与输出神经元o1之间的权值为x5，上述第四个列表中的记录(1，x3)表示输入神经元i4与输出神经元o1之间的权值为x3。因此由上述lil可得到如图11所示的神经网络结构。

对于上述输出神经元o1，上述映射单元401输出权值x1，x2和x3，该权值x1，x2和x3分别对应输入神经元i1，i3和i4；对于上述输出神经元o2，上述映射单元401输出权值x4和x5，该权值x4和x5分别对应输入神经元i2和i3。上述映射单元401将上述权值x1，x2和x3与x4和x5存储到上述第一输入缓存单元中。

上述以lil的形式表示上述权值的连接关系数据的优点在于简单，可快速构造矩阵，方便修改(按照列索引的大小顺序存储记录时)，支持灵活的切片操作。

方式二：坐标列表(coordinatelist，coo)

该坐标列表为由至少一个元组组成的列表，该元组包括非零权值在上述权值矩阵中的行号，列号和该非零权值的值组成的。每个元组表示序号为行号的输入神经元与序号为列号的输出神经元之间的权值为该元组对应的非零权值。并且坐标列表的元组中的最大行号值为权值矩阵对应的输入神经元的个数，最大列号值为权值矩阵对应的输出神经元的个数。

换句话说，上述坐标列表中每个元组表示非零权值在权值矩阵的位置信息。

举例说明，假设上述权值矩阵为则该权值矩阵的连接关系数据以coo的形式表示为(1,1,x1),(2,2,x4),(3,1,x2),(3,2,x5),(4,1,x3)，该coo的元组中最大行号值为4和最大的列号值为2，该权值矩阵对应的输入神经元个数为4和输出神经元的个数为2，分别为输入神经元i1，i2，i3、i4和输出神经元o1，o2，由元组(1,1,x1)可知输入神经元i1与输出神经元o1之间的权值为x1，由元组(2,2,x4)可知输入神经元i2与输出神经元o2之间的权值为x4，由元组(3,1,x2)可知输入神经元i3与输出神经元o1之间的权值为x2，由元组(3,2,x5)可知输入神经元i3与输出神经元o2之间的权值为x5，由元组(4,1,x3)可知输入神经元i4与输出神经元o1之间的权值为x3。由上述坐标列表可得到如图11所示的神经网络结构。

对于上述输出神经元o1，上述映射单元401输出权值x1，x2和x3，该权值x1，x2和x3分别对应输入神经元i1，i3和i4；对于上述输出神经元o2，上述映射单元401输出权值x4和x5，该权值x4和x5分别对应输入神经元i2和i3。上述映射单元401将上述权值x1，x2和x3、x4和x5存储到上述第一输入缓存单元中。

上述以coo的形式表示上述权值的连接关系数据的优点在于简单，可以快速构建矩阵，方便修改。这种方法在矩阵特别稀疏的时候最适用，不管一个矩阵有多么巨大，若它只有一个非零元素，使用coo只需要3个数字，配合原矩阵的大小即可重建原矩阵，支持快速地与其他格式互相转化。

方式三：压缩稀疏行(compressedsparserow，csr)

采用csr的形式是把上述权值矩阵行的信息压缩存储了，只显式保留每行第一个非零权值的位置。将上述权值矩阵通过三个数组表示：

上述第一数组存储上述权值矩阵中的所有非零权值的值，其顺序按照从左至右、从上到下的行遍历方式排列元素，该第一数组记作a。该第一数组的长度即权值矩阵中非零权值的个数；

上述第二数组存储上述第一数组a中的每个元素分别在权值矩阵中的列索引(即列号)，因而第二数组的长度与数组a的长度相同，记此数组为ja。

上述第三数组记作ia，该数组ia的长度为权值矩阵的行数加1。该数组ia中的元素累加存储上述权值矩阵中每一行非零权值的个数，具体可通过如下递归方法获取，并在该数组ia中的最后一个元素中保存整个权值矩阵中非零权值的个数

若上述三个数组的序号与权值矩阵的序号从0开始，可以用如下的递归方法定义数组ia：

ia[0]＝0

ia[i]＝ia[i-1]+权值矩阵中第i-1行的非零权值个数(i>0)

举例说明，假设上述权值矩阵为由于上述第一数组a存储权值矩阵的所有非零权值的值，其顺序按照从左到右，从上到下的行遍历方式排列元素，故该第一数组a＝[5,8,3,6]；第二数组ja存储上述数组a中每个元素分别在上述权值矩阵中的列索引(即列号)，则该数组ja＝[0,1,2,1]。在第三数组ia中累加存储上述权值矩阵中每一行的非零权值的个数，根据上述递归方式确定该数组ia＝[0,0,2,3,4]。

由上述第一数组a可知上述权值矩阵包括4个非零权值，分别为5,3,8,6。由上述第二数组ja可知上述4个非零权值在上述权值矩阵中的列索引，即权值5在上述权值矩阵中的第一列，权值8在上述权值矩阵中的第二列，权值3在上述权值矩阵中的第三列，权值6在上述权值矩阵中的第二列，由上述第三数组ia及其定义可知上述权值矩阵的第一行没有非零权值，第二行有2个非零权值，第三行和第四行各有1个非零权值；由上述信息可得到上述权值矩阵以坐标列表的形式表示为：(1,0,5),(1,1,8),(2,2,3),(3,1,6)，进一步可确定上述权值矩阵。由该权值矩阵的形式可知，该矩阵的第一行和第四列的元素的值均为0，因此可确定该矩阵对应的输入神经元为3个，分别为i2，i3和i4；该权值矩阵对应的输出神经元分别为o1，o2和o3。最终可确定上述输入神经元i2与输出神经元o1之间的权值为5，上述输入神经元i2与输出神经元o2之间的权值为8，上述输入神经元i3与输出神经元o3之间的权值为3，上述输入神经元i4与输出神经元o2之间的权值为6，最终可得到如图12所示的神经网络结构。

对于上述输出神经元o1，上述映射单元401输出权值5，其对应输入神经元i2；对于上述输出神经元o2，上述映射单元401输出权值8和6，其分别对应输入神经元i2和i4；对于上述输出神经元o3，上述映射单元401输出权值3，其对应输入神经元i3。上述映射单元401将上述权值5、8、6和3存储到上述第一输入缓存单元中。

上述以csr的形式表示上述权值的连接关系数据与coo的形式表示相比压缩了行索引的信息，并且采用csr形式在存储稀疏矩阵时非零元素平均使用的字节数最为稳定。

方式四：压缩稀疏列(compressedsparsecolumn，csc)

采用csc的形式是把上述权值矩阵列的信息压缩存储了，只显式保留每列第一个非零权值的位置。将上述权值矩阵用三个数组表示：

上述第四数组存储上述权值矩阵中的所有非零权值的值，其顺序按照从上至下、从左到右的列遍历方式排列元素，该第四数组记作a’，其长度即权值矩阵中非零权值的个数；

上述第五数组存储上述第一数组a’中的每个元素分别在权值矩阵中的行索引(即行号)，因而其长度与第一数组a’相同，记此数组为ja’。

上述第六数组记作ia’，该数组的长度为上述权值矩阵的列数加1。该数组ia’中的元素累加存储上述权值矩阵中每一列非零权值的个数，具体可通过如下递归方法获取，并且在该数组ia’累加整个权值矩阵中每一列中非零权值的个数。

若上述三个数组的序号与权值矩阵的序号从0开始，可以用如下的递归方法定义数组ia’：

ia’[0]＝0

ia’[j]＝ia’[j-1]+权值矩阵中第j-1列的非零权值个数(j>0)

举例说明，假设上述权值矩阵为由于上述第四数组a’存储权值矩阵的所有非零权值的数，其顺序按照从左到右，从上到下的行遍历方式排列元素，故该数组a’＝[4,6,1,3,5,2,7,8]；上述第五数组ja’存储上述数组a’中每个元素分别在上述权值矩阵中的行索引(即行号)，则该数组ja’＝[0,3,1,3,2,0,2,3]；根据上述递归方式确定数组ia’＝[0,2,4,5,8]。

由上述数组a’可知上述权值矩阵包括8个非零权值，分别为4,6,1,3,5,2,7,8。由上述数组ja’可知上述8个非零权值在上述权值矩阵中的行索引，即权值4在上述权值矩阵中的第一列，权值6在上述权值矩阵中的第4列，权值1在上述权值矩阵中的第二列，权值3在上述权值矩阵中的第四列，权值5在上述权值矩阵中的第三列，权值2在上述权值矩阵中的第一列，权值7在上述权值矩阵中的第三列，权值8在上述权值矩阵中的第四列，由上述数组ia’及其定义可知上述权值矩阵的第一列和第二列各有2个非零权值，第三列有1个非零权值，第四行有3个非零权值；由上述信息可得到上述权值矩阵以坐标列表的形式表示为：(0,0,4),(3,0,6),(1,1,1),(3,1,3),(2,2,5),(0,3,2),(2,3,7),(3,3,8)，进一步可确定上述权值矩阵。由该权值矩阵的形式可知，该矩阵的每一行和每一列均有非零权值，因此可确定该矩阵对应的输入神经元为4个，分别为i1，i2，i3和i4；该权值矩阵对应的输出神经元分别为o1，o2，o3和o4。最终可确定上述输入神经元i1与输出神经元o1之间的权值为4，上述输入神经元i1与输出神经元o4之间的权值为2，上述输入神经元i2与输出神经元o2之间的权值为1，上述输入神经元i3与输出神经元o3之间的权值为5，上述输入神经元i3与输出神经元o4之间的权值为7，上述输入神经元i4与输出神经元o1之间的权值为6，上述输入神经元i4与输出神经元o2之间的权值为3，上述输入神经元i4与输出神经元o4之间的权值为8，最终可得到如图13所示的神经网络结构。

对于上述输出神经元o1，上述映射单元401输出权值5和4，其分别对应输入神经元i1和i4；对于上述输出神经元o2，上述映射单元401输出权值1和3，其分别对应输入神经元i2和i4；对于上述输出神经元o3，上述映射单元401输出权值5，其对应输入神经元i3；对于上述输出神经元o3，上述映射单元401输出权值2,7和8，其对应输入神经元i1，i3和i4。上述映射单元401将上述权值4,6,1,3,5,2,7和8存储到上述第一输入缓存单元中。

上述以csc的形式表示上述权值的连接关系数据与coo的形式表示相比压缩了列索引的信息，对于算术运算、列切片、矩阵与向量的点乘都很有效。

方式五：(ellpack，ell)

该方式采用两个与权值矩阵的行数相同矩阵存储该权值矩阵中非零权值的信息。上述第一矩阵存储上述权值矩阵中非零权值的列号，上述第二矩阵存储上述权值矩阵中非零权值的值，行号就不存了，用自身所在的行来表示；这两个矩阵每一行都是从头开始放，如果没有元素了就用个结束标志(比如*)结束。

举例说明，假设上述权值矩阵为则该权值矩阵的连接关系数据用ell的形式表示为：

第一矩阵为：第二矩阵为

由上述第一矩阵和第二矩阵的行数可知，上述权值矩阵对应的输入神经元的个数为4，分别为输入神经元i1，i2，i3和i4；由上述第一矩阵和第二矩阵的列数可知，上述权值矩阵对应的输出神经元的个数为2，分别为输出神经元o1和o2。根据上述第一矩阵和第二矩阵可知，上述输入神经元i1与输出神经元o1之间的权值为x1，输入神经元i2与输出神经元o2之间的权值为x4，输入神经元i3与输出神经元o1之间的权值为x2，输入神经元i3与输出神经元o2之间的权值为x5，输入神经元i4与输出神经元o1之间的权值为x3。由上述ell表示的连接关系数据可得到如图11所示的神经网络结构。

对于通过ell方式表示的连接关系数据，当权值矩阵的某一行的非零元素多余其他行时，在第一矩阵中的结尾处会存在多个结束标志，浪费缓存资源。为了解决该问题，可采用方式六所示的方式表示上述连接关系数据。

方式六：混合(hybird，hyb)

该方式可以看成上述ell和coo方式的组合。采用coo的方式存储权值矩阵中某一行相对于其他行多出来的非零权值。采用ell的方式存储权值矩阵中每一行最大相同数量的非零权值。

假设上述权值矩阵为：则上述ell中的第三矩阵为第四矩阵为上述coo形式的元组为(2,3,9)。由上述第三矩阵和第四矩阵的行数可知，上述权值矩阵对应的输入神经元的个数为4，分别为

输入神经元i1，i2，i3和i4；根据上述坐标列表中的列号(3)可知上述权值矩阵对应的输出神经元的个数为4，分别为输出神经元o1，o2，o3和o4。由上述第一矩阵，第二矩阵和坐标列表可知：输入神经元i1与输出神经元o1之间的权值为1，输入神经元i1与输出神经元o2之间的权值为7，输入神经元i2与输出神经元o2之间的权值为2，输入神经元i2与输出神经元o3之间的权值为8，输入神经元i3与输出神经元o1之间的权值为5，输入神经元i3与输出神经元o3之间的权值为3，输入神经元i3与输出神经元o4之间的权值为9，输入神经元i4与输出神经元o2之间的权值为6，输入神经元i4与输出神经元o4之间的权值为4，可以得到如图14所示的神经网络结构。

对于上述输出神经元o1，上述映射单元401输出权值1和5，分别对应输入神经元i1和i3；对于上述输出神经元o2，上述映射单元401输出权值7和2，分别对应输入神经元i1和i2；对于上述输出神经元o3，上述映射单元401输出权值8和3，分别对应输入神经元i2和i3；对于上述输出神经元o4，上述映射单元401输出权值9和4，分别对应输入神经元i3和i4。上述映射单元401将上述权值1,5,7,2,8,3,9和4存储到上述第一输入缓存单元中。

总而言之，这六种形式(lil、coo、csc、csr、ell、hyb)在稀疏度越高的情况下越能占用更少的存储空间。lil根据具体实现结构的不同，占用稍多于2*nnz个存储单元，空间代价优于其他方法。如果非零元素数量小于行数\列数，那么使用coo比使用csr/csc更加经济，反之则使用csr/csc更加经济。如果每行的非零元素数目比较均匀，即矩阵中的每一行的非零元素个数差别不大，这样非零元素最多的行中的非零元素数目，与不均匀的矩阵中相应非零元素最多行相比，显然会更少，那么可以考虑使用ell。在极端均匀的情况下，即每一行的非零元素个数都一样，ell所占存储单元个数是2*nnz，比coo和csr、csc都要少。但是稀疏神经网络并不能保证有这样的特性。也许有某些特定的稀疏神经网络模型会有这样的特性，那么使用ell比较好。对于矩阵中每一行稀疏元素个数较统一的情况，采用ell形式的表示最佳，其次是hyb(ell+coo)。

在并行方面，coo是可以并行生成的，csr与csc的3个数组中的2个也是可以并行生成的。在做运算时，coo、lil、ell均可按行并行计算，而csc、csr、hyb则需要更多的预处理。

csr擅长稀疏矩阵左乘向量，而csc擅长于稀疏矩阵右乘向量转置。这两种表示形式可以通过转置互相转换。在神经网络的传播过程中可以使用这两种方法以及coo。ell格式在进行稀疏矩阵-矢量乘积(sparsematrix-vectorproducts)时效率最高。

需要说明的是，上述非零权值还可以替换为大于第一预设阈值的权值。

可选地，上述第一预设阈值可为0.5、1、1.2、1.5、2或者其他值。

需要说明的是，上述图1b所示的实施例中的输入神经元的连接关系数据的表示方式除了直接索引和步长索引之外，还以以上述六种方式(lil、coo、csr、csc、ell、hyb)进行表示。

当以上述六种方式表示上述输入神经元的连接关系数据时，上述非零权值可替换为非零输入神经元，上述权值矩阵可替换为输入神经元矩阵。

进一步的，上述非零输入神经元可替换为大于第二预设阈值的输入神经元。

可选地，上述第二预设阈值可为0.5、1、1.2、1.5、2或者其他值。上述第一预设阈值和上述第二预设阈值可以相同或者不同。

需要说明的是，上述神经网络运算模块不仅可以进行稀疏神经网络运算，还可以进行稠密神经网络运算。

需要指出的是，本发明实施例中提到的输入神经元和输出神经元并非是指整个神经网络的输入层中的神经元和输出层中的神经元，而是对于神经网络中任意相邻的两层神经元，处于网络前馈运算下层中的神经元即为输入神经元，处于网络前馈运算上层中的神经元即为输出神经元。以卷积神经网络为例，假设一个卷积神经网络有l层，k＝1,2,3…l-1，对于第k层和第k+1层来说，第k层被称为输入层，该层中的神经元为上述输入神经元，第k+1层被称为输入层，该层中的神经元为上述输出神经元，即除了顶层之外，每一层都可以作为输入层，其下一层为对应的输出层。

上述各单元可以是硬件电路包括数字电路，模拟电路等等。硬件电路的物理实现包括但不局限于物理器件，物理器件包括但不局限于晶体管，忆阻器等等。上述神经网络运算模块中的运算单元可以是任何适当的硬件处理器，比如cpu、gpu、fpga、dsp和asic等等。上述存储单元、指令缓存单元，第一输入缓存单元、第二输入缓存单元和输出缓存单元均可以是任何适当的磁存储介质或者磁光存储介质，比如rram，dram，sram，edram,hbm,hmc等等。

在一种可行的实施例中，上述神经网络芯片包括上述神经网络运算模块、上述神经网络运算装置或者上述组合处理装置。

在一种可行的实施例中，本发明实施例提供了一种电子装置，该电子装置包括上述板卡或者神经网络芯片。

其中，该电子装置包括：数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备交通工具、家用电器、和/或医疗设备。

上述交通工具包括飞机、轮船和/或车辆；上述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、b超仪和/或心电图仪。

参见图15，图15为本发明实施例提供的一种神经网络运算方法的流程示意图。如图15所示，该方法包括：

s1501、板卡对输入数据进行处理，以得到处理后的输入数据。

其中，所述输入数据包括至少一个输入神经元和/或至少一个权值，所述对输入数据进行处理之前，所述方法还包括：

对所述至少一个输入神经元进行分组，以得到m组输入神经元，所述m为大于或者等于1的整数；

当所述m组输入神经元任意一组输入神经元不满足所述第一预设条件时，将该组输入神经元删除；

对所述至少一个权值进行分组，以得到n组权值，所述n为大于或者等于1的整数；

当所述n组权值任意一组权值不满足所述第二预设条件时，将该组权值删除。

可选地，所述对输入数据进行处理，以得到处理后的输入数据，包括：

当所述输入数据包括输入神经元和所述输入神经元的连接关系数据时，根据所述输入神经元的连接关系数据对所述输入神经元进行处理，以得到处理后的输入神经元；

当所述输入数据包括权值和所述权值的连接关系数据时，根据所述权值的连接关系数据对所述权值进行处理，以得到处理后的权值。

其中，所述输入神经元的连接关系数据和所述权值的连接关系数据以直接索引或者步长索引的形式表示；

当所述输入神经元的连接关系数据以直接索引的形式表示时，该连接关系数据为由0和1组成的字符串，0表示所述输入神经元的绝对值小于或者等于第一阈值，1表示所述输入神经元的绝对值大于所述第一阈值；

当所述输入神经元的连接关系数据以步长索引形式表示时，该连接关系数据为绝对值大于所述第一阈值的输入神经元与上一个绝对值大于所述第一阈值的输入神经元之间的距离值组成的字符串；

当所述权值的连接关系数据以直接索引的形式表示时，该连接关系数据为由0和1组成的字符串，0表示该权值的绝对值小于或者等于第二阈值，即该权值对应的输入神经元与输出神经元之间没有连接，1表示该权值的绝对值大于所述第二阈值，即该权值对应的输入神经元与输出神经元之间有连接；以直接索引形式表示权值的连接关系数据有两种表示顺序：以每个输出神经元与所有输入神经元的连接状态组成一个0和1的字符串来表示所述权值的连接关系数据；或者每个输入神经元与所有输出神经元的连接状态组成一个0和1的字符串来表示所述权值的连接关系数据；

当所述权值的连接关系数据以步长索引的形式表示时，该连接关系数据为与输出神经元有连接的输入神经元的与上一个与该输出神经元有连接的输入神经元之间的距离值组成的字符串。

s1502、板卡获取神经运算指令，将所述神经运算指令译码成微指令。

s1503、板卡根据所述微指令对所述处理后的输入数据进行人工神经网络运算，以得到运算结果。

需要说明的是，上述步骤s1501-s1503的描述可参见上述神经网络运算模块的相关描述，在此不再叙述。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任何一种神经网络运算方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：read-onlymemory，简称：rom)、随机存取器(英文：randomaccessmemory，简称：ram)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上上述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人
技术所有人：北京中科寒武纪科技有限公司
我是此专利的发明人

上一篇：可控冷渣机的制作方法
上一篇：一种验证客户端可信的方法及相关装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。