用于具有指数按比例缩放的浮点融合乘法加法的微架构的制作方法_4

文档序号:8207696阅读:来源:国知局
涉及数种情况的表4,其中满足条件Ex-Em < 3 (或Ex-Em = 3且FMA定义待从Rm中减去的Rx)。在情况602中,其中N为正的(即,按比例放大),可见:运算实质上对应于关于图3描述的FMA运算的运算。另外,可如先前所描述重新使用块222的LZA,代替依赖于块230的LZC。参考点将位于Rm的二进制点处。
[0063]在涉及N为负(BP,按比例缩小)的子情况604a中,当Em > Ex时或当满足条件Em彡Ex及Em+N < -1两者时,将相加部分右移位达等于1-(Em+N)的量。在也涉及N为负的子情况604b中,当满足条件Em彡Ex且Em+N = 0/-1时,按等于(Em+N)的量将相加部分左移位及设置上限。
[0064]示例性实施例可经设计以保持所需的最少位数以便满足IEEE 754中针对单精度的用于舍入的要求。在上文所描述的满足以下条件的情形中:Em > Ex-3且FM涉及从Rm进行的加数Rx的加法或减法;或Em = Ex-3且FMA涉及从Rm进行的加数Rx的减法,按比例缩放之前的最高有效位可保持在相加部分中,此情形允许在归一化及舍入运算期间用于进行按比例放大及按比例缩小两者的指数或在按比例缩小的情况下的尾数的容易操纵。因此,用于双重路径FMA的框架可足够用于在这些情况下实施FMASc。
[0065]现在将针对示例性实施例描述上述等式及条件以及相关移位及归一化硬件的详细实施方案。首先通过用于增量部分及相加部分的涵盖所有上述情况的以下简化等式来概述图3到6中所说明的上述情况的条件。
[0066]参看图7,说明用于增量或HMx部分的移位逻辑的示例性实施方案。对于增量/HMx部分,如果满足条件Ex-Em > 3 (或如果满足Ex-Em = 3且FMA涉及加数Rx到Rm的加法),那么可通过min(LZC(Rx),N)的值确定用于增量的左移位量,且可通过l_(Ex+N)的值确定右移位量。如所展示,可实施块702 (或图2的块230)以计算LZC(Rx)。块704可测试条件Ex+N > 0,而块706可计算1- (Ex+N)的值。在块708中存储从FMASc指令导出的N的值。可使用min(LZC(Rx),N)及1-(Ex+N)的值来确定如上文所描述的对Mx的移位/遮蔽。为了加快计算,实施例可实施块716及718中所说明的两个移位器,而不是等待LZC(Rx)的结果变得可从块702获得。块716中的移位器可基于LZC(Rx)的值执行左移位,而块718中的移位器可实施为通过多路复用器块714的输出控制的双向移位器,其可将Mx左移位达量N或将Mx右移位达量1- (Ex+N)。在其中FMA涉及加数Rx的加法或减法中的一者的情况下,进行左移位还是进行右移位的决策可基于条件Ex-Em > 3或Ex-Em = 3。此决策可在多路复用器控制块712中实施且可通过多路复用器块720来选择经适当移位的值。并行地,块722中的多路复用器的输出可供亚正常标记块724使用以便确定最终结果是否将为亚正常的,且标记此情况,使得可对移位量设置上限。可接着在逻辑块726中合并亚正常标记块724及多路复用器块720的输出以获得HMx的最终值。
[0067]关于相加部分,将条件分解成三种主要情况。参看图8,说明用于相加部分或LMx的示例性实施方案。在其中满足条件Ex-Em > 3且FMA涉及加数Rx到Rm的加法或减法(或如果满足Ex-Em = 3且FMA涉及加数Rx到Rm的加法)的第一种情况下,可通过Ex-Em-min (LZC (Rx), N)的值确定用于相加部分的右移位量。此值等于1-Em-LZC (Rx),或等于1-(Em+N),其基于min (LZC (Rx),N)的值。块802到810、814及820可用以评估如所说明的上述条件。在此情况下,多路复用器块826结合块832及834中的限定及Rx遮蔽逻辑分别可接着计算用于LMx的最终值。
[0068]在第二种情况下,其中满足条件26彡Ex-Em > 3,或如果满足Ex-Em = 3且FMA涉及加数Rx到Rm的加法,那么可通过(Em+N)的值确定用于相加部分的左移位量,可如上文所描述基于亚正常旗标对所述左移位量设置上限。除用于第一种情况的逻辑块中的一些逻辑块之外,还可使用额外块812、818及816来实施第二种情况,所述额外块可确定Rx是否为亚正常的,且块822中的限定逻辑结合亚正常旗标产生块828可接着将结果标记为亚正常。
[0069]在最终情况下,其中满足条件Ex-Em < 3且FMA涉及加数Rx到Rm的加法或减法(或如果满足Ex-Em = 3且FMA涉及加数Rx到Rm的减法),可通过1-(Ex+N)的值来确定用于相加部分的右移位量且可通过(Em+N)的值来再次确定左移位量,可如上文所描述基于亚正常旗标对左移位量设置上限。块824中的移位器逻辑、块830中的限定逻辑及块836中的3: 2压缩器可用以确定块838中的LMx的最终结果。
[0070]作为前述章节的概述,示例性实施例可通过基于各种指数值Ex及Em确定其中对于FMA运算可出现溢出/下溢的情况及预先对准Rx来将按比例缩放运算集成在双重路径FMA管线内。可通过考虑Rx的前导零及考虑比例因子2N来确定LMx及HMx,使得在针对FMASc运算计算出最终值Rd之前,LMx及HMx已经包含应用于其的比例因子。通过使用
3: 2压缩将低部分LMx连同乘积Rm( = Rs*Rt) —起相加,之后求解最终乘积Rm。使用来自加法的结果的进位/借位来递增/递减HMx。基于LMx及其中的前导零数目执行归一化。延迟符合IEEE的舍入,直到获得结果Rd之后的最后阶段为止,使得在中间阶段中不存在位/精度的损失。
[0071]应了解,实施例包含用于执行本文揭示的过程、功能及/或算法的各种方法。举例来说,如图9中所说明,实施例可包含一种实施浮点按比例缩放的融合乘法及加法(FMA)运算(参见例如图2)的方法,所述方法包括:将浮点乘数操作数(例如,Rs)与浮点被乘数操作数(例如,Rt)的尾数相乘以获得乘积的尾数-框902;确定浮点加数操作数(例如,Rx)的尾数的前导零数目计数(LZC)(例如,图2的块230)-框904;基于所述LZC、比例因子操作数(例如,N)及加数操作数的指数(例如,Ex)、乘数操作数的指数(例如,Et)及被乘数操作数的指数(例如,Es)确定加数操作数的预先对准移位值(例如,在图2的块234中)_框906 ;将加数操作数的尾数移位所述预先对准移位值以获得经预先对准的加数(例如,图2的用于LMx及HMx计算的块214及218)-框908,将乘积的尾数与所述经预先对准的加数累加(相加/相减)(例如,在图2的加法器220中)以获得中间结果-框910 ;确定中间结果的前导零数目(例如,在图2的块222中)-框912 ;基于预先对准移位值及中间结果的前导零数目确定归一化移位值-框914;及基于所述归一化移位值将中间结果归一化(例如,在图2的块224中)以获得按比例缩放的FM指令的经归一化的输出-框916。
[0072]所属领域的技术人员将了解,可使用多种不同技术及技法中的任一者来表示信息及信号。举例来说,可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示可能贯穿上述描述提及的数据、指令、命令、信息、信号、位、符号及码片。
[0073]另外,所属领域的技术人员将了解,结合本文所揭示的实施例而描述的各种说明性逻辑块、模块、电路及算法步骤可实施为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件与软件的此可互换性,上文已大体上关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。此类功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式来实施所描述的功能性,但此类实施方案决策不应被解释为会导致脱离本发明的范围。
[0074]结合本文所揭示的实施例而描述的方法、序列及/或算法可直接以硬件、以由处理器执行的软件模块或以两者的组合来体现。软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可卸除式磁盘、CD-ROM,或所属领域中已知的任何其它形式的存储媒体中。示例性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代例中,储存媒体可与处理器成一体式。
[0075]参看图10,描绘包含根据示例性实施例配置的多核心处理器的无线装置的特定说明性实施例的框图且一般将其描绘为1000。装置1000包含数字信号处理器(DSP) 1064,其可包含如上文关于示例性实施例所论述的浮点单元200。DSP 1064可耦合到存储器1032。图10还展示耦合到DSP 1064及显示器1028的显示器控制器1026。译码器/解码器(编码解码器)1034 (例如,音频及/或话音编码解码器)可耦合到DSP 1064。还说明例如无线控制器1040 (其可包含调制解调器)等其它组件。扬声器1036及麦克风1038可耦合到编码解码器1034。图10还指示无线控制器1040可耦合到无线天线1042。在特定实施例中,DSP 1064、显示器控制器1026、存储器1032、编码解码器1034及无线控制器1040包含在系统级封装或系统单芯片装置1022中。
[0076]在特定实施例中,输入装置1030及电力供应器1044耦合到系统单芯片装置1022。此外,在特定实施例中,如图10中所说明,显示器1028、输入装置1030、扬声器1036、麦克风1038、无线天线1042及电力供应器1044在系统单芯片装置1022外部。然而,显示器1028、输入装置1030、扬声器1036、麦克风1038、无线天线1042及电力供应器1044中的每一者可耦合到系统单芯片装置1022的组件,例如接口或控制器。
[0077]应注意,尽管图10描绘了无线通
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1