数据位宽可调适的处理器的制作方法

文档序号:14872328发布日期:2018-07-07 01:19阅读:282来源:国知局
本发明涉及处理器,特别涉及实现类神经网络算法的神经网络处理器或加速器。
背景技术
:人工智能技术常使用类神经网络建立机器学习架构。类神经网络涉及复杂且大量的运算,尤其涉及大量的张量(tensor)乘法和乘加运算。如何根据神经网络算法的特殊性,设计适用于神经网络算法的处理器架构,为本
技术领域
一项重要课题。技术实现要素:根据本申请一种实施方式所实现的一种微处理器,数据位宽动态可调,且包括一数据位宽寄存器、一数据路径、一统计用寄存器以及一数据位宽调整器。该数据位宽寄存器存储至少一数据位宽。根据该数据位宽寄存器所存储的该数据位宽,该数据路径自该数据路径所接收的数据取得输入运算元并进行运算。该统计用寄存器收集该数据路径的运算结果。根据该统计用寄存器,该数据位宽调整器,更新该数据位宽寄存器。本发明的上述实施方式的微处理器在硬件实现上考虑类神经网络演算中数据位宽(wl,fl)需动态可变的需求,数据位宽可调适显著加速类神经网络的运算。一种实施方式中,该数据位宽包括一字长。该数据包括一整数部分和一小数部分。该字长为该整数部分与该小数部分的总位宽。一种实施方式中,该数据位宽包括一小数位宽。该数据包括一整数部分和一小数部分。该小数位宽为该小数部分的位宽。下文特举实施例,并配合所附图示,详细说明本
发明内容。附图说明图1根据本申请一种实施方式图解一微处理器100为类神经网络演算所提供的硬件架构;图2图解该数据位宽调整器108的一种实施方式;图3为流程图,根据本申请一种实施方式说明差值监控模块216以及小数位宽fl调整模块204的运作逻辑;图4为流程图,根据本申请一种实施方式说明判断模块224以及字长wl调整208的运作逻辑;图5根据本申请一种实施方式图解一微指令(μop)的格式;图6为方块图,根据本申请一种实施方式图解一微处理器600,其中聚焦于宏指令转换为微指令的技术;图7根据本申请一种实施方式图解微码解码有限状态机612如何解码一宏指令以及所对应的多个微指令如何执行的流程图;图8特别图解一二阶张量(即矩阵)相乘所对应的多个微指令如何执行;图9图解图5微指令(μop)字段a与b所指示的各32位数据的各种数据位宽(wl);图10根据本申请一种实施方式图解乘加运算的一数据路径1000;图11以字长wl为8位为例,说明乘加运算所获得的数据m以及s;图12a-1、图12a-2、图12b-1以及图12b-2因应字长wl不定,图解32位数据b的各种三位内容bn+1bnbn-1;图13根据本申请一种实施方式图解乘法器1002的硬件架构;且图14根据本申请一种实施方式图解数据路径1000执行的一微指令(可为simd微指令)1400。【符号说明】100~处理器;102~数据路径;104~数据位宽(wl,fl)寄存器;106~统计用寄存器;108~数据位宽(wl,fl)调整器;110~数据,提供输入运算元;202~溢位监控模块;204~小数位宽fl调整模块;206~数值分布分析模块;208~字长wl调整模块;212~最高位(msb)溢位计数器;214~次高位(msb-1)溢位计数器;216~差值监控模块;222~直方图数据建立模块;224~判断模块;600~微处理器;602~指令抓取模块;604~初解码器;606~队列;608~映射表;610~微码存储器;612~微码解码有限状态机;614~寄存器;1002~乘法器;1004~加法器树;1302、1304~寄存器;1306~移位加法器;1400~微指令;a与b~源操作数/包含一或多个输入运算元的数据;a0…a7、b0…b7~输入运算元;b0_4bit…b7_4bit、b0_8bit…b3_8bit、b0_16bit、b1_16bit、b0_32bit~乘数;b_pp0…b_pp23_2~数据b的三位bn+1bnbn-1取值;c~目的操作数/包含输出运算元的数据;cs~控制信号;dst~目的操作数;fl~小数位宽;m~数据,载有乘积m0…mm;m0…mm~乘积;mux2、mux3、mux5~多工器;of_1~最高位msb溢位发生次数;of_2~次高位msb-1溢位发生次数;opcode~字段,填写操作码;operation~有/无符号的乘法或乘加运算;pp0…pp23_2~部分乘积/部分乘积候选;s~数据,乘积m0…mm加总;signed/unsigned~有/无符号;size1~simd位宽;size2~字长wl;s302…s312、s402…s410、s701、s702…s708、s801、s802…s814~步骤;subopcode~字段,填写副操作码;wl~字长;wlflin~字段,填写该数据路径102使用的数据位宽(wl,fl)来源;以及wlflout~字段,填写该数据位宽(wl,fl)调整器108所调适出的字长wl以及小数位宽fl暂存目标。具体实施方式以下叙述列举本发明的多种实施例。以下叙述介绍本发明的基本概念,且并非意图限制本
发明内容。实际发明范围应依照权利要求书界定。人工智能为科技领域重大发展,其中常使用类神经网络(neuralnetwork)作为机器学习架构。类神经网络包括多层运算,其中,在每层的运算中,需要进行大量的卷积(convolution)运算,因此乘累加(multiply-accumulate)和乘法(multiply)运算占据了大部分运算量。本发明设计的神经网络微处理器架构特别为了适配海量的乘累加和乘法运算进行了硬件优化。此外,其中运算的定点数(fixedpointnumber)包括一整数部分和一小数部分,该整数部分与该小数部分的总位宽为字长(wordwidth,以wl代号),该小数部分的位宽为小数位宽(fractionlength,以fl代号),后面将字长和小数位宽统称为数据位宽(bitlength)。通常处理器的定点数的数据位宽在算法编程完毕后就是固定的,而在本发明中,数据位宽,包括小数位宽(fractionlength,以fl代号)以及字长(wordwidth,以wl代号),并不固定。本申请在硬件实现上考虑如此数据位宽(wl,fl)调适需求,以逼近类神经网络演算。图1根据本申请一种实施方式图解一微处理器100为类神经网络演算所提供的硬件架构,包括一数据路径(datapath)102、一数据位宽(wl,fl)寄存器104、一统计用寄存器106、以及一数据位宽(wl,fl)调整器108。数据路径102为算术逻辑运算单元的组合,可用来实现类神经网络常使用的乘加运算或乘法运算,也可以实现最大池化(maxpool)、平均(average)运算。数据路径102所接收的数据110是根据一微指令(μop)自寄存器或是存储器(未显示在图中)获得,内含输入运算元。特别是,数据路径102是根据该数据位宽寄存器104存储的数据位宽(bitlength),包括一字长(wordwidth)wl以及一小数位宽(fractionlength)fl,来对数据110进行运算。以乘加运算为例,数据路径102内的乘法器是以字长wl决定乘加运算微指令的运算元长度,而乘加过程中,小数点位置则是由小数位宽fl决定。一种实施方式中,数据位宽寄存器104是为该数据路径102提供控制参数的特殊功能寄存器(specialpurposeregister,spr)。前述微指令将设定该数据路径102根据该数据位宽寄存器104所存储的字长wl以及小数位宽fl操作。统计用寄存器106以及数据位宽调整器108即是用来调适该数据位宽寄存器104所存储的该字长wl以及该小数位宽fl。统计用寄存器106收集数据路径102的运算结果。根据统计用寄存器106内容,数据位宽调整器108更新该字长wl以及该小数位宽fl。前述微指令(μop)可指示更新后的字长wl以及小数位宽fl的存储目标,以待之后随另一笔微指令填入该数据位宽寄存器104进行该另一笔微指令所要求的运算。一种实施方式中,数据位宽wl以及fl在数据位宽寄存器104中有两组内容,一组为wl0以及fl0,一组为wl1以及fl1。两组内容以乒乓方式切换使用。当wl0以及fl0实际为数据路径102采用时,wl1以及fl1则用于逐步更新(在数据位宽调整器108)。待wl1以及fl1实际为数据路径102采用时,wl0以及fl0则用于逐步更新。前述微指令(μop)可以一字段指示数据位宽来源以及数据位宽更新暂存目标。一微指令(μop)指示该数据路径102以wl0以及fl0为数据位宽来源时,更指示该数据位宽调整器108以wl1以及fl1为更新暂存目标。后续微指令(μop)可切换为指示该数据路径102以wl1以及fl1为数据位宽来源时,更指示该数据位宽调整器108以wl0以及fl0为更新暂存目标。一种实施方式中,以上乒乓切换是在单层类神经网络演算完毕时进行。第一层类神经网络演算采用wl0以及fl0,且更新wl1以及fl1。第二层类神经网络演算采用wl1以及fl1,且更新wl0以及fl0。第三层类神经网络演算采用wl0以及fl0,且更新wl1以及fl1。后面依次类推。另一种实施方式中,前述实施例中的每组wl、fl还包括存储wl/fl及运算wl/fl,其中存储wl是指数据在系统存储器中存储的字长,存储fl是运算指数据在系统存储器中小数部分的长度,运算wl是指在数据路径102内部运算时所用的字长,运算fl是指在数据路径102内部运算时小数部分的长度。如此一来,数据位宽寄存器104需存储四组数据位宽wl、fl,包括存储wl0/fl0、运算wl0/fl0、存储wl1/fl1及运算wl1/fl1。神经网络运算中,越靠前面的层,字长wl越长,越靠后面的层,字长wl越短,即,随着运算过程,字长wl通常是不断减小的,其典型值为16bit到4bit,小数位宽fl决定了每层数据的动态范围,在字长wl固定的情形下,小数位宽fl越长,整数部分越短,则动态范围越小,运算的精度越高。数据位宽wl、fl的具体变化方式与网络的输入数据有关,因此在运算过程中动态调整数据位宽wl、fl有利于获得更好的精度。在本实施例中,具体调整过程如下:首先对wl0/fl0赋值,存储wl与运算wl相等,为神经网络第一层格式对应的wl(例如为16bit),存储fl与运算fl相等,为软件事先计算出的一初始固定值。运算第n层时,输入数据格式为wl0、fl0,数据输出格式为wl1、fl1。第n层运算过程中,数据路径102按照存储wl0、fl0(第一组数据位宽)从系统存储器读取输入运算元,并按照运算wl0、fl0(第二组数据位宽)来进行运算;数据路径102按照存储wl1、fl1(第三组数据位宽)输出运算结果,在运算和输出的同时,数据位宽调整器108对运算wl1、fl1(第四组数据位宽)不断更新。第n层的运算完成后,运算wl1、fl1(第四组数据位宽)优化为对于第n层数据的最佳值(如8bit),但存储wl1、fl1(第三组数据位宽)数值不变(16bit)。运算n+1层时,输入数据格式为wl1、fl1,输出数据格式为wl0、fl0。第n+1层运算过程中,数据路径102按照存储wl1、fl1(第三组数据位宽)从系统存储器读取输入运算元(例如还是16bit不变),并按照运算wl1、fl1(第四组数据位宽,在第n层运算后更新为例如8bit)来进行运算,在运算时需要对数据做移位。数据路径102按照存储wl0、fl0(第一组数据位宽)输出运算结果,在运算和输出的同时,数据位宽调整器108按照类似第n层的方式更新运算wl0、fl0(第一组数据位宽),即,将运算wl0、fl0(第二组数据位宽)的值更新为对于第n+1层数据的最佳值(如4bit)。值得注意的是,存储wl0、fl0(第一组数据位宽)在第n层运算结束后用运算wl1、fl1(第四组数据位宽,在第n层运算后更新为例如8bit)更新过,注意运算wl1、fl1(第四组数据位宽)的最终值需要第n层最后一笔运算完成后才能确定,所以第n层还是按照存储wl1、fl1(第三组数据位宽)输出,而在第n层运算全部结束以后,用更新后的运算wl1、fl1(第四组数据位宽)更新存储wl0、fl0(第一组数据位宽),供数据路径102输出第n+1层的运算结果使用,例如数据路径102按照8bit的数据宽度输出第n+1层的运算结果。循环上述2个步骤,直到神经网络所有层运算完成。在本实施例中,在第n层运算进行时,数据路径102是根据存储wl1、fl1(第三组数据位宽)输出第n层的运算结果;在第n层运算结束时,数据位宽调整器108根据更新后的运算wl1、fl1(第四组数据位宽)更新存储wl0、fl0(第一组数据位宽)。在第n+1层运算进行时,数据路径102是根据更新后的存储wl0、fl0(第一组数据位宽)输出第n+1层的运算结果;在第n+1层运算结束时,数据位宽调整器108根据更新后的运算wl0、fl0(第二组数据位宽)更新存储wl1、fl1(第三组数据位宽)。一种实施方式中,统计用寄存器106是为该数据路径102存储运算元的一般功能寄存器(generalpurposeregister,gpr)。以乘加运算为例,类神经网络单一层可能就会产生数万笔乘加运算结果。如此大量的乘加运算结果可由该统计用寄存器106分段收集,供该数据位宽调整器108据以进行数据位宽(wl,fl)更新。一种实施方式中,统计用寄存器106位宽为40位,应付在32、16、8、4、2以及1位宽变动的运算。图2图解该数据位宽调整器108的一种实施方式,其中溢位监控模块202对该统计用寄存器106进行溢位监控,据以调整数据位宽(wl,fl),在一实施例中,当统计用寄存器106所收集的运算结果的最高位msb发生溢位的次数超过一阈值时,小数位宽fl调整模块204减小小数位宽fl;当统计用寄存器106所收集的运算结果的次高位(msb-1)发生溢位的次数超过另一阈值时,小数位宽fl调整模块204增加小数位宽fl。在另一实施例中,溢位监控模块202也可仅对最高位msb发生溢位的次数进行溢位监控,据以调整数据位宽(wl,fl)。值得注意的是,在一实施例中,调整小数位宽fl时,字长wl保持不变。此外,数值分布分析模块206对统计用寄存器106进行数值分布分析,据以调整数据位宽(wl,fl),在一实施例中,当统计用寄存器106所收集的运算结果的稀疏度较高,字长wl调整208模块减小字长wl,反之若稀疏度较低,则增加字长wl,值得注意的是,在一实施例中,调整字长wl时,小数位宽fl保持不变。图2所示的实施例的溢位监控模块202包括一最高位(msb)溢位计数器212、一次高位(msb-1)溢位计数器214以及一差值监控模块216。一种实施方式中,统计用寄存器106所统计的多笔运算结果包括由该最高位msb溢位计数器212计数得一最高位msb溢位发生次数of_1,并由该次高位msb-1溢位计数器214计数得一次高位msb-1溢位发生次数of_2。差值监控模块216监控该最高位msb溢位发生次数of_1以及次高位msb-1溢位发生次数of_2之间的差值,小数位宽fl调整模块204根据该差值调整小数位宽fl。具体而言在一实施例中,倘若最高位溢位发生次数of_1大于次高位溢位发生次数of_2一阈值或者次高位溢位发生次数of_2大于最高位溢位发生次数of_1另一阈值时,则小数位宽fl调整模块204启动,视该最高位msb溢位发生次数of_1、以及该次高位msb-1溢位发生次数of_2调整该小数位宽fl。图例数值分布分析模块206包括直方图(histogram)数据建立模块222以及判断模块224。一种实施方式中,统计用寄存器106所统计的多笔运算结果经直方图数据建立模块222统计出数据分布,其中,横轴为运算结果(以数据位宽8为例,运算结果包括0~(28-1)),纵轴为各运算结果落入各统计范围内的个数。判断模块224可识别出各运算结果分布的稀疏度,如果稀疏度高于一定阈值或低于一定阈值时,字长wl调整模块208启动,适应性更新字长wl。神经网络运算的特点是,越靠前级的层,数据的稀疏度越弱,需要的字长wl较大;越靠后级的层,数据的稀疏度越强,需要的字长wl越小。根据神经网络的这一特点,本发明通过统计监测运算结果分布的稀疏度,当数据分布的稀疏度强时,字长wl调整模块208减小字长wl;当数据分布的稀疏度较低时,字长wl调整模块208增加字长wl。数据分布的稀疏度是通过运算结果分别落入直方图数据建立模块222的各统计范围内的数量是否均匀来判断,例如字长wl=8bit,则运算结果的数值范围为0~28(256),统计2000次运算结果的统计直方图可如下表:统计范围0-1516-3132-4748-63…241~256落入数量15002030150100可见,运算结果落入范围[0-15]数量最大,落入范围[48-63]和[241~256]的数量较大,其它范围的数量都相对较小,由于运算结果的数值分布不均匀且在0附近的分布概率高,则认为稀疏性较强,则字长wl调整208模块将调小wl,比如缩减到4bit。缩减的程度要保证神经网络后级的推测(inference)的精度可基本保持不变。图3为流程图,根据本申请一种实施方式说明差值监控模块216以及小数位宽fl调整模块204的运作逻辑,可以软、硬件方式实现在微处理器100中。针对统计用寄存器106所统计的内容,步骤s302接收计数器212的计数值of_1以及计数器214的计数值of_2。步骤s304判断计数差值(of_1-of_2)是否大于阈值th1,即判断最高位msb溢位发生次数是否比次高位msb-1溢位发生次数多阈值th1。若步骤s304判断为否,流程进入步骤s306判断计数差值(of_2-of_1)是否大于阈值th2,即判断次高位msb-1溢位发生次数是否比最高位msb溢位发生次数多阈值th2。若步骤s306的判断结果也为否,流程结束,尚不更新小数位宽fl。反之,流程进入步骤s310,增加小数位宽fl,从而增加运算的精度。若步骤s304判断为是,流程进行步骤s308,减小小数位宽fl,字长wl不变的情形下,整数位宽因而拉长,以增加数的动态范围从而抑制最高位mbs溢位发生。图4为流程图,根据本申请一种实施方式说明判断模块224以及字长wl调整208的运作逻辑,可以软、硬件方式实现在微处理器100中。针对统计用寄存器106所统计的内容,步骤s402自直方图数据建立模块222接收直方图数据。步骤s404以阈值thuneven比对直方图数据的数值在各个数值范围的分布,判断数值分布的稀疏性。若运算结果稀疏性较强,类神经网络演算可能进行到后面层,流程进行步骤s406,可减小字长wl,同时保证推测的精度保持不变。反之,流程进入步骤s408,以阈值theven(低于阈值thuneven)比对直方图数据的数值在各个数值范围的分布,判断数值分布是否均匀。若是,代表运算结果均匀出现,类神经网络演算可能是在进行前面层,流程进行步骤s410,可增加字长wl,以提高运算精度,增加运算结果的分辨率。反之,流程结束,尚不更新字长wl。通常,类神经网络前层涉及密集矩阵的运算,需要较长字长wl,后层所需的字长wl较短。本申请微处理器100可完全贴近类神经网络演算。在某些实施例中,图3对小数位宽fl的调整时,字长wl保持不变,因此其调整与小数点定位相关,同时也决定整数位宽。图4对字长wl调整时,小数位宽fl保持不变。本申请数据位宽调整又可视为小数点定位/整数位宽调整。图5根据本申请一种实施方式图解一微指令(μop)的格式。该微指令(μop)可为一种单指令多数据流(singleinstructionmultipledata,缩写:simd)指令,可驱动数据路径102直接执行。字段opcode填写操作码。例如,指示为乘加运算或乘法运算。字段subopcode填写副操作码。例如,指示清除该统计用寄存器106、或饱和取整(saturationandround)该统计用寄存器106。字段wlflin填写该数据路径102运算所使用的数据位宽(wl,fl)来源。字段wlflout填写该数据位宽(wl,fl)调整器108所调适出的字长wl以及小数位宽fl的暂存目标。一种实施方式中,有的微指令填写wlflin为(wl0,fl0)且wlflout为(wl1,fl1),有的微指令填写wlflin为(wl1,fl1)且wlflout为(wl0,fl0),如此达成数据位宽(wl,fl)训练与更新的乒乓切换。在另一实施例中,(wl0,fl0)又包括两组(存储wl0,存储fl0)及(运算wl0,运算fl0),(wl1,fl1)又包括两组(存储wl1,存储fl1)及(运算wl1,运算fl1),其中数据路径102根据(存储wl0,存储fl0)取得输入运算元、并根据(运算wl0,运算fl0)进行运算的过程中,数据路径102根据(存储wl1,存储fl1)输出该层的多个运算结果,且数据位宽调整器108对(运算wl1,运算fl1)进行更新,当该层的运算全部结束后,数据位宽调整器108用更新后的(运算wl1,运算fl1)更新(存储wl0,存储fl0)。在一下层的运算中,数据路径102根据(存储wl1,存储fl1)取得输入运算元、并根据更新的(运算wl1,运算fl1)进行运算的过程中,数据路径102根据更新的(存储wl0,存储fl0)输出该层的多个运算结果,且数据位宽调整器108对(运算wl0,运算fl0)进行更新,当该层的运算全部结束后,数据位宽调整器108用更新后的(计算wl0,计算fl0)更新(存储wl1,存储fl1)。字段c填写目的操作数,可为一般功能寄存器gpr或一存储器位置,用以存储该数据路径102当次运算的结果(输出运算元)。字段a与b则对应源操作数,可为一般功能寄存器gpr或一存储器位置,据以取得输入数据交由该数据路径102运算。此外,本申请更涉及一种微指令,用于初始化数据位宽寄存器104的内容wl0、fl0、wl1以及fl1。微指令(μop)可更有其他格式,或是视该数据路径102的硬件设计更改而有微调。为了增强各代产品之间的相容性,本申请为适用各产品的宏指令(macroinstruction)提供一种转换为微指令(μop)的技术。图6为方块图,根据本申请一种实施方式图解一微处理器600,其中聚焦于宏指令转换为微指令的技术。指令抓取模块602取得的指令需经由一初解码器604判断是否需要自宏指令转换为微指令。简单(simple)指令将直接由初解码器604解码并送入队列(issuequeue)606排队等待被执行。复杂(complex)指令则需进行宏指令至微指令转换。藉由查询映射表608,复杂指令将对应微码存储器(microcoderom)610的地址。该微码存储器610该地址的内容经一微码解码有限状态机(microcodedecodingfsm)612解码为多个微指令后,送入队列606排队等待被执行。多个微指令包括至少一微指令循环(loop),该微指令循环反复操作上述数据路径102而实现一宏指令。如图所示,队列606输出包括用于寄存器614填写。寄存器614包括数据路径102所参考的多个寄存器,以存储该宏指令的来源操作数长度,存储上述多个微指令的运算元尺寸(例如图1的数据位宽寄存器104存储的(wl,fl)),以及暂存该宏指令的中间运算结果。本发明的微处理器600为适配神经网络的运算特点所进行的另一方面的优化在于,藉由查询映射表608、微码存储器610及微码解码有限状态机612,一条宏指令可以实现颗粒度更高的运算而不受限于数据路径102的物理位宽(例如128bit),该宏指令的操作数可以达到向量或矩阵级别,例如两个256*256个元素的矩阵(每个元素的大小为16bit)乘法可以直接以一条宏指令实现,且当大大简化神经网络算法编程的复杂度,当数据路径102的硬件设计更改,宏指令也无需改动,更新微码存储器610中对应的微指令即可。图7根据本申请一种实施方式图解微码解码有限状态机612如何解码一宏指令以及所对应的多个微指令如何执行的流程图。微码解码有限状态机612执行步骤s701,经由该映射表608将宏指令映射至微码存储器610中对应地址,并更解码出该宏指令的多个信息,这些信息包括暂存该宏指令的来源操作数的尺寸以及该宏指令的运算元尺寸的寄存器614的地址,这些寄存器614可以是微处理器600的架构寄存器(architectureregister)。在一实施例中,该来源操作数为一三阶张量(tensor),也可以叫做三维矩阵,则该来源操作数的尺寸包括该三维矩阵的长度(length)、宽度(width)及深度(depth),该运算元尺寸为该三维矩阵的元素大小,供微码解码有限状态机612将来源操作数划分为多个运算元,其中运算元尺寸由数据路径102的数据位宽决定,数据位宽例如为图1的数据位宽寄存器104存储的(wl,fl),但本发明并不限这种动态可调的方式,该数据位宽也可由宏指令指定并在编程时确定。微码存储器610中对应地址开始的部分微指令执行步骤s702,根据步骤s701解码出的寄存器地址取得宏指令信息。微码存储器610中对应地址开始的部分微指令以循环方式多次进行,基于步骤s702取得的宏指令信息在执行步骤s704~s708的微指令循环时使用。s704藉由至少一载入微指令载入运算元至寄存器(或其他存储空间)。步骤s706藉由至少一运算微指令驱动数据路径102执行运算,其中可还包括串联前一次数据路径102运算所需的微指令。步骤s708检查循环是否结束。一宏指令因而由反复操作数据路径102达成。以张量相加为例,一宏指令所指示的较大颗粒度的张量相加可切分由多次加法微指令相加实现。数据路径102提供算术逻辑运算单元执行加法微指令,上述加法微指令以该算术逻辑运算单元的宽度(simdwidth)确定运算元尺寸,不足整数个simd宽度则补零。步骤s702取得的宏指令所指示的张量尺寸(例如,通过架构寄存器(architectureregister))、以及操作数来源地址。藉步骤s704~s708,数据路径102对应的加法微指令组合成张量相加运算。以张量相乘为例,一宏指令所指示的张量相乘可切分由多个乘累加运算微指令(形如图5)实现。数据路径102提供算术逻辑运算单元执行这些乘累加运算微指令。步骤s702用于取得张量相乘宏指令所指示的张量尺寸、操作数来源地址以及运算元大小,以张量为三维矩阵为例,该张量尺寸包括该三维矩阵的长度(length)、宽度(width)及深度(depth),该运算元尺寸为该三维矩阵的最大元素的大小,例如为16bit。藉由执行循环步骤s704~s708,数据路径102反复执行乘累加运算微指令以完成张量相乘运算。图8特别图解一二阶张量(即矩阵)相乘所对应的多个微指令如何执行。微码解码有限状态机612执行步骤s801,经由该映射表608将矩阵相乘宏指令映射至微码存储器610中对应地址,并更解码出该矩阵相乘宏指令的多个信息,这些信息包括暂存来源矩阵的宽度(width)、深度(depth)以及来源矩阵元素的最大尺寸的寄存器614的地址,这些寄存器614可以是微处理器600的架构寄存器(architectureregister)。微码存储器610中对应地址开始的部分微指令执行步骤s802,根据步骤s801解码出的寄存器地址取得矩阵相乘宏指令所指示的矩阵尺寸以及矩阵元素尺寸。微码存储器610中对应地址开始的部分微指令以循环方式多次进行,执行步骤s804至s814,以多个乘加运算实现矩阵相乘。步骤s804载入乘加运算所需的运算元至寄存器。步骤s806操作数据路径102进行乘加运算。步骤s808累加运算结果。步骤s810检查矩阵宽度是否满足。若未满足,则再次进行步骤s804以及s808。若满足,步骤s812存储累加结果,为乘积矩阵其一元素。步骤s814则检查矩阵尺寸是否满足。若未满足,则反复进行步骤s804~s812,直到乘积矩阵所有元素都求出。矩阵尺寸满足则宏指令所要求的矩阵相乘完成。以实现两个256*256个元素的矩阵a和b相乘结果为矩阵c的宏指令为例,假设矩阵a和b的矩阵元素的大小为16bit,数据路径102的物理位宽为128bit,则数据路径102的乘加运算单元可以同时执行8个矩阵元素的相乘后再累加的运算,则步骤s806系数据路径102执行1条形如图5的乘加微指令:maccwlfl0,wlfl1,c[i][j],a[i][k++],b[j][k++],完成8个矩阵元素的乘加;步骤s808将步骤s806执行乘加微指令所得的结果与前次乘加微指令所得的结果累加,步骤s810判断是否256个元素均乘加完毕,如果是则进入步骤s812(注意本实施例中,内循环s804~s808将执行32次),将s808的累加结果作为矩阵c的一矩阵元素输出,步骤s814再判断矩阵a和b的宽度256和长度256是否满足,若否则反复执行步骤s804~s812,直到乘积矩阵c的所有256*256个元素都求出。本申请所提出的宏指令(macroinstruction)至微指令(μop)转换架构无须复杂编译程序。特别是,每一产品世代都可采用同样简洁的宏指令,相当节省指令存储器空间,另外可维持每代产品的相容性,有利于建立并保持神经网络微处理器的软件发展生态环境。以下介绍数据路径102的算术逻辑运算电路的硬件设计,以适配动态可调的数据字长wl。值得注意的是,神经网络算法中存在大量的较短数据位宽wl的数据需要进行乘法或点积运算,例如神经网络算法中的权重(weight)等数据常常为1~2bit位宽,本发明的数据路径102的乘法执行电路经过特别设计,可通用于不同数据字长wl的乘法运算,乘法微指令的乘数与被乘数的数据字长wl可低至4bit,甚至更可低至1~2bit。图9图解图5微指令(μop)字段a与b所指示的各32位数据的各种数据位宽(wl)。数据位宽(wl)32位时,字段a指示一笔32位数据a0作为被乘数,字段b指示一笔32位数据b0作为乘数。数据位宽(wl)16位时,字段a指示两笔16位被乘数(a1、a0),字段b指示两笔16位乘数(b1、b0)。数据位宽(wl)8位时,字段a指示四笔8位被乘数(a3、a2、a1、a0),字段b指示四笔8位乘数(b3、b2、b1、b0)。数据位宽(wl)4位时,字段a指示8笔4位被乘数a7…a0,字段b指示8笔4位乘数b7…b0。数据位宽(wl)2位时,字段a以及b各指示16笔2位被乘数。数据位宽(wl)1位时,字段a以及b各指示32笔1位乘数。本申请提供的数据路径102可对a以及b所指示的数据(以下同样标号为a与b)做多种位宽的运算。图10根据本申请一种实施方式图解乘加运算的一数据路径1000,其中包括一乘法器1002以及一加法器树1004。控制信号cs指示字长wl、以及是否为有符号运算(signed/unsigned)。字长wl可根据图1的数据位宽寄存器104而设定,或是指示于微指令中。符号运算与否(signed/unsigned)可参考数据位宽寄存器104,另以寄存器管理,或是指示于微指令中。乘法器1002以及加法器树1004会根据控制信号cs动作。乘法器1002输出为数据m,其包括多个乘积。加法器树1004将数据m包括的多个乘积累加,输出为数据s。图11以字长wl为8位为例,说明乘加运算所获得的数据m以及s。数据m包括4个乘积m0…m3。数据s为4个乘积m0…m3相累加。本申请特别公开乘法器1002的一种实施方式,其中采用布斯(booth)乘法。特别是对乘数bi(载于数据b的乘数b0…bm其一)做三位bn+1bnbn-1一组的取值。三位bn+1bnbn-1的位bn+1与更高位三位bn+3bn+2bn+1有一个位(位bn+1)的重叠。凑不足三位的部分则补零。布斯(booth)乘法的运算如下:ai为载于数据a的被乘数a0…am其一。bn+1bnbn-1移动取自乘数bi,用以决定对被乘数ai进行何种运算,以求出部分乘积pp。所有部分乘积pp移位相加后得到一个乘法ai*bi的运算结果,也就是乘积mi,将用于数据m的累加。因应字长wl不定,图12a-1、图12a-2、图12b-1以及图12b-2图解32位数据b的各种三位内容bn+1bnbn-1。数据b包括图示编号31…0的位b0~b31。墨色底表示填数值”0”。非墨色底表示操作数b的编号位n的数值复制,其中的数字n对应位编号。本段落讨论字长wl为4位的例子。数据b位3…0的四位乘数b0_4bit(可称之为第一乘数,包括b0~b3)对应的三位内容bn+1bnbn-1分别为b_pp0、b_pp1、以及b_pp2_1(无符号)/b_pp2_2(有符号)。数据b位7…4的四位乘数b1_4bit(可称之为第二乘数,包括b4~b7)对应的三位内容bn+1bnbn-1分别为b_pp3_1、b_pp4、以及b_pp5_1(无符号)/b_pp5_2(有符号)。数据b位11…8的四位乘数b2_4bit(可称之为第五乘数,包括b8~b11)对应的三位内容bn+1bnbn-1分别为b_pp6_1、b_pp7、以及b_pp8_1(无符号)/b_pp8_2(有符号)。数据b位15…12的四位乘数b3_4bit(可称之为第七乘数,包括b12~b15)对应的三位内容bn+1bnbn-1分别为b_pp9_1、b_pp10、以及b_pp11_1(无符号)/b_pp11_2(有符号)。后续的四位乘数b4_4bit(包括b16~b19)、四位乘数b5_4bit(包括b20~b23)、四位乘数b6_4bit(包括b24~b27)及四位乘数b7_4bit(包括b28~b31)依次类推。b_pp0、b_pp3_1、b_pp6_1、以及b_pp9_1分别为乘数b0_4bit、b1_4bit、b2_4bit、以及b3_4bit的起始取数。b_pp1、b_pp4、b_pp7、以及b_pp10分别为乘数b0_4bit、b1_4bit、b2_4bit、以及b3_4bit的中段取数。b_pp2_1、b_pp5_1、b_pp8_1、以及b_pp11_1分别为乘数b0_4bit、b1_4bit、b2_4bit、以及b3_4bit无符号的尾端取数。b_pp2_2、b_pp5_2、b_pp8_2、以及b_pp11_2分别为乘数b0_4bit、b1_4bit、b2_4bit、以及b3_4bit有符号的尾端取数。本段落讨论字长wl为8位的例子。数据b位7…0的八位乘数b0_8bit(可称之为第三乘数,包括b0~b7)对应的三位内容bn+1bnbn-1分别为b_pp0、b_pp1、b_pp3_2、b_pp4以及b_pp5_1(无符号)/b_pp5_2(有符号)。数据b位15…8的八位乘数b1_8bit(可称之为第六乘数,包括b8~b15)对应的三位内容bn+1bnbn-1分别为b_pp6_1、b_pp7、b_pp9_2、b_pp10以及b_pp11_1(无符号)/b_pp11_2(有符号)。后续八位乘数b2_8bit(包括b16~b23)及八位乘数b3_8bit(包括b24~b31)依次类推。b_pp0以及b_pp6_1分别为乘数b0_8bit以及b1_8bit的起始取数。b_pp1、b_pp3_2、以及b_pp4为乘数b0_8bit的中段取数。b_pp7、b_pp9_2、以及b_pp10为乘数b1_8bit的中段取数。b_pp5_1以及b_pp11_1分别为乘数b0_8bit以及b1_8bit无符号的尾端取数。b_pp5_2以及b_pp11_2分别为乘数b0_8bit以及b1_8bit有符号的尾端取数。本段落讨论字长wl为16位的例子。数据b位15…0的十六位乘数b0_16bit(可称之为第四乘数,包括b0~b15)对应的三位内容bn+1bnbn-1分别为b_pp0、b_pp1、b_pp3_2、b_pp4、b_pp6_2、b_pp7、b_pp9_2、b_pp10以及b_pp11_1(无符号)/b_pp11_2(有符号)。后续数据b位16…31的十六位乘数b1_16bit(包括b16~b31)对应的三位内容bn+1bnbn-1依次类推。b_pp0为乘数b0_16bit的起始取数。b_pp1、b_pp3_2、b_pp4、b_pp6_2、b_pp7、b_pp9_2、以及b_pp10为乘数b0_16bit的中段取数。b_pp11_1为乘数b0_16bit无符号的尾端取数。b_pp11_2为乘数b0_16bit有符号的尾端取数。至于字长wl为32位的例子,如图所示,数据b位31…0的三十二位乘数b0_32bit(包括b0~b31)对应的三位内容bn+1bnbn-1分别为b_pp0、b_pp1、b_pp3_2、b_pp4、b_pp6_2、b_pp7、b_pp9_2、b_pp10、b_pp12_2、b_pp13、b_pp15_2、b_pp16、b_pp18_2、b_pp19、b_pp21_2、b_pp22以及b_pp23_1(无符号)/b_pp23_2(有符号)。b_pp0为乘数b0_32bit的起始取数。b_pp1、b_pp3_2、b_pp4、b_pp6_2、b_pp7、b_pp9_2、b_pp10、b_pp12_2、b_pp13、b_pp15_2、b_pp16、b_pp18_2、b_pp19、b_pp21_2、b_pp22为乘数b0_32bit的中段取数。b_pp23_1为乘数b0_32bit无符号的尾端取数。b_pp23_2为乘数b0_32bit有符号的尾端取数。值得注意的是,因应字长wl不定,第一数据宽度(例如4bit)的第二个乘数(如b1_4bit)的起始取数(如b_pp3_1为4bit的第二个乘数b1_4bit的起始取数)需与第二数据宽度(例如8或16或32bit)的第一个乘数(如b0_8bit或b0_16bit或b0_32bit)的中段取数之一(如b_pp3_2为8bit乘数b0_8bit、16bit乘数b0_16bit及16bit乘数b0_16bit的中段取数之一)以多工选择方式进行考虑。第二数据宽度中段取数之一b_pp3_2与第一数据宽度起始取数b_pp3_1对齐取数。特别是,图中全填零值的三位内容bn+1bnbn-1,包括b_pp2_2、b_pp5_2、b_pp8_2、b_pp11_2…等,除了提供乘数与下一乘数边界处的有符号的尾端取数选择(例如b_pp2_2供4bit乘数b0_4bit与下一乘数b1_4bit边界处的三位取值,b_pp5_2供4bit乘数b1_4bit与下一乘数b2_4bit边界处及8bit乘数b0_8bit与下一乘数b1_8bit边界处的三位取值),也用于其它非边界数据位宽的补零取数(例如b_pp2_2还供8bit、16bit及32bit数据位宽乘数b0_8bit、b0_16bit及b0_32bit的补零取数,b_pp5_2还供16bit及32bit数据位宽乘数b0_16bit及b0_32bit的补零取数)。如此的全零三位数(如b_pp2_2)与第一数据位宽(例如为4bit)的乘数(如b0_4bit)无符号的尾端取数(如b_pp2_1)呈多工选择。全零三位数b_pp2_2与第一数据宽度无符号的尾端取数b_pp2_1对齐取数。图12a-1、12a-2、12b-1以及12b-2对数据b(乘数供应数据)的三位取数bn+1bnbn-1可以各自以寄存器暂存,待进行布斯乘法时使用。本申请所公开的乘法器1002对数据b取所有可能三位bn+1bnbn-1,与相应的被乘数a0…am依布斯乘法产生部分乘积(pp),再据以移位相加获得乘积m0…mm,组合成数据m。值得注意的是,数据路径1000的输出取决于数据路径1000的类型,如果数据路径1000为乘法运算单元,即仅执行乘法ai*bi,则获得的乘积m0…mm组合成的数据m直接作为输出;如果数据路径1000为乘加运算单元,即执行乘法ai*bi=mi后,则还要经加法器树1004将各个mi累加产生累加和s作为输出。图13根据本申请一种实施方式图解乘法器1002的硬件架构。数据b的三位bn+1bnbn-1取数分别暂存于对应的寄存器中,与数据同标号。图中仅显示局部,包括b_pp0、b_pp1、b_pp2_1、b_pp2_2、b_pp3_1、b_pp3_2、b_pp4、b_pp5_1、b_pp5_2。数据a则根据字长wl切分输入寄存器(图中仅显示局部,包括1302、1304)。例如当字长wl为4时,数据a位31…0切分为8个乘数a0_4bit、a1_4bit….a7_4bit,分别存入寄存器1302、1304….等寄存器;当字长wl为8时,数据a位31…0切分为4个乘数a0_8bit、a1_8bit、a2_4bit及a3_8bit,分别存入寄存器1302、1304….等寄存器;当字长wl为16时,数据a位31…0切分为2个乘数a0_16bit及a1_16bit,分别存入寄存器1302、1304….等寄存器;当字长wl为32时,数据a位31…0作为个乘数a0_32bit,分别存入寄存器1302、1304….等寄存器。乘法器1002还包括一部分乘积选择电路1301,其包括多个多工器,以乘数供应数据b和被乘数供应数据a均为32bit为例,部分乘积选择电路1301包括mux2、mux3、mux5…mux23(图未绘示)等15个多工器。字长wl为4时,暂存内容1302为a0_4bit,且暂存内容1304为a1_4bit。a0_4bit与b_pp0、b_pp1、b_pp2_1、b_pp2_2进行布斯乘法后,得数值pp0、pp1、pp2_1以及pp2_2。控制信号cs若指示字长wl为4且为无符号运算,则多工器mux2输出pp2_1为部分乘积pp2。控制信号cs若指示字长wl为4且为有符号运算,则多工器mux2输出pp2_2为部分乘积pp2。部分乘积pp0、pp1以及pp2移位相加得乘积m0。a1_4bit与b_pp3_1、b_pp3_2、b_pp4、b_pp5_1以及b_pp5_2进行布斯乘法后,得数值pp3_1、pp3_2、pp4、pp5_1以及pp5_2。控制信号cs若指示字长wl为4且为无符号运算,则多工器mux3输出pp3_1为部分乘积pp3,多工器mux5输出pp5_1为部分乘积pp5。控制信号cs若指示字长wl为4且为有符号运算,则多工器mux3仍输出pp3_1为部分乘积pp3,多工器mux5则输出pp5_2为部分乘积pp5。部分乘积pp3、pp4以及pp5移位相加得乘积m1。后续类似架构可求出乘积m2…m7,其中m0=a0_4bit*b0_4bit,m1=a1_4bit*b1_4bit,m2=a2_4bit*b2_4bit…m7=a7_4bit*b7_4bit。乘积m0…m7可组成数据m为乘法器1002输出。移位加法器1306即负责部分乘积pp的移位相加以得到乘积m0…m7。字长wl为8时,暂存内容1302为a0_8bit,且暂存内容1304也为a0_8bit。a0_8bit与b_pp0、b_pp1、b_pp2_1、b_pp2_2、b_pp3_1、b_pp3_2、b_pp4、b_pp5_1以及b_pp5_2进行布斯乘法后,得数值pp0、pp1、pp2_1、pp2_2、pp3_1、pp3_2、pp4、pp5_1以及pp5_2。控制信号cs显示字长wl为8(无论是无符号还是有符号运算),多工器mux2输出pp2_2为部分乘积pp2,多工器mux3输出pp3_2为部分乘积pp3。控制信号cs若指示字长wl为8且为无符号运算,则多工器mux5输出pp5_1为部分乘积pp5。控制信号cs若指示字长wl为8且为有符号运算,则多工器mux5输出pp5_2为部分乘积pp2。部分乘积pp0、pp1、pp2(字长wl为8/16/32时一定为0)、pp3、pp4以及pp5移位相加得乘积m0。值得注意的是,其中pp2(字长wl为8/16/32时一定为0)和pp3对齐相加。后续类似架构可求出乘积m1…m3,其中m0=a0_8bit*b0_8bit,m1=a1_8bit*b1_8bit,m2=a2_8bit*b2_8bit,m3=a3_8bit*b3_8bit。乘积m0…m3可组成数据m为乘法器1002输出。移位加法器1306即负责部分乘积pp的移位相加以得到乘积m0…m3。其他更长字长wl(如,16、32位)的操作,也可根据以上架构实现。由于上述布斯乘法编码要求乘数数据b至少有一个3位数据,因此对于字长wl更小(如2或1位)的乘法,乘法器1002更可另外提供查表机制,供字长wl更小(如2或1位)的乘法运算可以直接查表获得。如此一来,乘法器1002将支持32/16/8/4/2/1位宽的可调适字长wl。当图1的数据位宽调整器108根据前述实施例方式动态调节字长wl时,图10的数据路径1000提供的乘法器1002对不同字长wl的乘法运算均能适用。整理之,微处理器,如微处理器所包含的图13的乘法器1002,包括至少三个取数寄存器、以及一部分乘积选择电路。在第一数据位宽(例如4bit)下,一第一取数寄存器暂存一乘数供应数据(例如乘数供应数据b)所载的一第一乘数(例如乘数b0_4bit)的一无符号尾端取数(例如取数b_pp2_1,包括2位的0值及位b3)。在该第一数据位宽下,一第三取数寄存器暂存该乘数供应数据所载的一第二乘数(例如乘数b1_4bit)的起始取数(例如取数b_pp3_1,包括位b5b4及1位的0值)。在长于该第一数据位宽的一第二数据位宽(例如8bit)下,一第四取数寄存器暂存该乘数供应数据所载的一第三乘数(例如乘数b0_8bit)的中段取数(例如取数b_pp3_2,包括位b5b4b3)。该第三乘数的上述中段取数(例如位b5b4b3)由上述第一乘数的上述无符号尾端取数(例如00b3)及上述第二乘数的上述起始取数(例如b5b40)组合而成。在该第一数据位宽下,该部分乘积选择电路选择该第三取数寄存器内容(例如取数b_pp3_1)与该第二乘数对应的被乘数(例如被乘数a1_4bit)进行布斯乘法产生的结果(例如pp3_1)作为一第三部分乘积(例如部分乘积pp3)。在该第二数据位宽下,该部分乘积选择电路选择该第四取数寄存器内容(例如取数b_pp3_2)与该第三乘数对应的被乘数(例如被乘数a0_8bit)进行布斯乘法产生的结果(例如pp3_2)作为该第三部分乘积(例如部分乘积pp3)。图14根据本申请一种实施方式图解数据路径1000执行的一微指令(可为simd微指令)1400。字段dst为目的操作数,指示存储运算结果的空间(寄存器或存储器)。字段a和b为源操作数,标示被乘数供应数据a以及乘数供应数据b的来源,如,自寄存器或存储器取得数据a以及b。字段size1为数据路径1000的物理位宽(即simd位宽,例如128bit),该物理位宽决定数据a和b的长度。字段size2为数据位宽wl(例如32/16/8/4/2/1位),为数据a和b中单个输入运算元(被乘数、乘数)的尺寸。字段operation用于设定是否有符号。字段operation可更设定由数据路径1000执行的是乘法还是乘加操作,以决定是否使用加法器树1004处理乘法器1002输出m。当然,当数据位宽wl如图1所示的实施例由数据位宽调整器108动态可调时,字段size2的数据位宽wl对应的寄存器地址行如图5的wlflin及wlflout。数据路径1000对乘数供应数据b进行取数获得多个布斯乘法取数。数据路径1000更依据数据位宽wl将被乘数供应数据a划分为多个被乘数ai,依据数据位宽wl将乘数供应数据b划分为多个乘数bi,并对各被乘数ai与前述布斯乘法取数进行布斯乘法以产生多个部分乘积pp0、pp1、pp2_1、pp2_2、pp3_1、pp3_2……等,数据路径1000更根据数据位宽wl从前述部分乘积pp0、pp1、pp2_1、pp2_2、pp3_1、pp3_2……等中选择一部分部分乘积进行移位相加以产生该等被乘数ai与该该等乘数bi的多个乘积mi:例如当数据位宽为4bit且为无符号操作时,选择pp0、pp1和pp2_1移位相加得乘积m0_4bit=a0_4bit*b0_4bit,选择pp3_1、pp4和pp5_1移位相加得乘积m1_4bit=a1_4bit*b1_4bit,选择pp6_1、pp7和pp8_1移位相加得乘积m2_4bit=a2_4bit*b2_4bit…依次类推;而当数据位宽为8bit且为无符号操作时,选择pp0、pp1、pp2_2、pp3_2、pp4和pp5_1移位相加得乘积m0_8bit=a0_8bit*b0_8bit,选择pp6_1、pp7、pp8_2、pp9_2、pp10和pp11_1移位相加得乘积m1_8bit=a1_8bit*b1_8bit…依次类推。如果字段operation指示为乘法操作,多个乘积mi可组成数据m作为数据路径1000的输出,如果字段operation指示为乘加操作,累加多个乘积mi得到s作为数据路径1000的输出。根据本申请技术实现的微处理器可应用来实现人工智能技术,特别适用类神经网络运算中不同的数据位宽的运算(可能低至1~2bit)、且涉及大尺寸张量运算的应用。虽然本发明已以优选实施例公开如上,然其并非用以限定本发明,本领域技术人员在不脱离本发明的精神和范围内,当可做些许更动与润饰,因此本发明的保护范围当视所附权利要求书界定范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1