用于低能加速器处理器架构的设备的制造方法

文档序号:10686815阅读:306来源:国知局
用于低能加速器处理器架构的设备的制造方法
【专利摘要】本发明揭示用于低能加速器处理器架构的设备。实例性布置为一种集成电路,其包含:系统总线,其具有数据宽度N,其中N为正整数;中央处理器单元,其耦合到所述系统总线且经配置以执行从存储器检索的指令;低能加速器处理器(745),其经配置以执行指令字、耦合到所述系统总线且具有包含加载存储单元(771)、加载系数单元(773)、乘法单元(775)及蝶式/加法器ALU单元(779)的多个执行单元,所述执行单元中的每一者经配置以响应于所检索指令字(783)而执行运算;及非正交数据寄存器堆(759),其包括耦合到所述多个执行单元的一组数据寄存器,所述寄存器耦合到所述多个执行单元中的选定者。还揭示额外方法及设备。
【专利说明】用于低能加速器处理器架构的设备
[0001 ] 相关申请案的交叉参考
[0002]本申请案涉及标题为“具有短并行指令字的低能加速器处理器架构(LOWENERGYACCELERATOR PROCESSOR ARCHITECTURE WITH SHORT PARALLEL INSTRUCT1N WORD)”的第14/678,939号美国专利申请案(代理人档案号T1-75434),所述美国专利申请案与本申请案同时申请且特此以全文引用方式并入本文中。
技术领域
[0003]本申请案涉及微处理器(例如用于控制系统及用于处理来自传感器的数据的应用),且特定来说涉及在其中较低电力消耗特别重要的控制应用中(例如在便携式电池供电装置中)的微处理器单元(MPU)的使用。移动电信、工业控制、汽车及蜂窝应用为对这些微处理器单元的实例性应用,当用于控制应用中时,所述微处理器单元被称为“微控制器”或“MCU”。特定来说,本申请案涉及包含低能加速器处理器的微控制器的使用,所述低能加速器处理器用于以较低电力消耗来加速通常执行的向量运算。
【背景技术】
[0004]微控制器单元(MCU)不断地用于系统中以用于提供自动化控制且用于感测应用。MCU的实例性应用包含工业控制、计量(例如公用事业及网络计量)、医疗仪器及医疗技术、汽车应用、电信(包含蜂窝基站)及多种便携计算平台(包含平板计算机、智能手表、智能电话及类似物)上的使用。额外应用包含远程感测及装备监控、RF标签感测,例如用于收费系统、零售安全及资产位置中及用于实现“物联网”或“1T”应用中。对MCU的便携及电池供电实施方案的需求日益增加。由于这些应用通常需要从感测装置接收模拟信号作为输入,因此也已引入混合信号处理器(MSP)。先前已知的MSP装置通常包含嵌入式模/数转换器及连同微处理器单元的模拟比较功能。模拟电路用于接收模拟输入信号且将这些模拟输入信号转换成用于在执行计算时使用的数字表示。额外实例性模拟传感器包含压力传感器、温度传感器、速度传感器及转动传感器,陀螺仪,加速计,光学传感器及类似物。
[0005]虽然目前在M⑶及MSP中使用嵌入式微处理器来执行各种功能,但这些装置越来越多地用于其中备用装置及作用装置两者电力消耗均非常重要的应用中。虽然始终期望添加功能性以增加计算性能,且对这些所添加计算特征的需求始终在增加,但对减少的电力消耗的需要也在增加。举例来说,减少电力消耗产生更长的电池寿命(从而延长电池充电之间的或电池替换之间的时间)且增加远程感测装备的所需要服务之间的时间。对于便携式消费者装置,在非常频繁使用时至少一天的电池寿命为尤其合意的,使得消费者不必(举例来说)在远离家或办公位置使用装置时寻找充电位置。
[0006]通常由此类混合信号控制及感测装置执行的数据处理任务通常包含向量运算。向量运算通常用于信号处理应用中。使用向量计算的典型运算包含傅里叶变换(例如快速傅里叶变换(FFT))、有限脉冲响应滤波(FIR)、无限脉冲响应(IIR)、密码分析计算及类似向量函数。虽然嵌入于微控制器装置内的微处理器需要能够执行一般的处理计算功能,例如控制存储器存取、数据输入及输出功能、显示及用户输入、通信、数据发射及类似物,但对执行这些向量算术函数的需要对最通用微处理器中的高效计算形成挑战。为实现对这些向量运算的高计算性能,已使用多种先前已知的方法。在一种方法中,可将数字信号处理器(DSP)添加到集成电路MCU或者添加到包含微处理器单元的集成电路或模块。虽然所添加DSP可比可通过使用在MPU上运行指令的软件所实现而更加快地高效执行特定信号处理功能(例如向量运算),但所添加DSP也基本增加用以实施微控制器装置的晶体管(门计数)的数目及硅面积,且用于装置产生的对应成本也上升。此外将DSP添加到微控制器装置添加额外功能性且增加用于DSP的特定特征的硅面积,所述特定特征未必仅用于执行向量运算。另外,由于对于目前正在使用的CMOS半导体技术来说,在CMOS集成电路装置中所消耗的电力与装置上的晶体管(或门)的数目大致成正比,因此当使用此方法时,作用装置电力消耗往往与装置性能大致成正比而增加。此对于任何集成电路设计均为成问题的且对于此处所考虑的应用(其事实上需要电力消耗的大量降低)尤其不合意。
[0007]额外的先前已知的方法包含专用硬件加速器的使用,所述专用硬件加速器经特别设计以执行特定向量运算。虽然使用这些专用硬件加速器将增加待计算的每一向量运算的性能,但由于针对待加速的每一类型的向量计算添加单独的硬件功能所致,此方法也往往增加硅面积。此外,当使用专用硬件解决方案时,上市时间及集成电路设计过程可为相当漫长的,这是因为需要改变专用硬件来解决不同应用。虽然在使用专用硬件块来执行特定向量计算时将增加计算性能,但非灵活性及不能修改计算的缺点超过潜在益处。此外,除正执行特定专用功能以外,专用硬件加速器并不用于其它操作,使得具有专用硬件加速器的集成电路设计可为硅面积的低效使用(取决于特定功能多久执行一次)。
[0008]因此存在对与目前及未来CMOS集成电路技术兼容的加速器处理器架构的持续及日益增加需要,所述加速器处理器架构针对常用的向量算术运算而优化且以减少的硅面积及减少的门计数提供优越的计算性能,且对应地当与先前已知的解决方案相比时展现减少的电力消耗。

【发明内容】

[0009]在形成本申请案的各种方面的布置中,提供一种具有非正交数据寄存器堆、非正交地址寄存器组及经优化指令集的加速器处理器架构,所述加速器处理器架构克服先前已知方法的缺陷及缺点。新颖微处理器使用具有经优化指令集的短并行指令字架构以实现高计算性能,且非正交数据寄存器堆及非正交地址寄存器的使用提供具有减少的电力消耗的加速器处理器。
[0010]在形成本申请案的方面的说明性布置中,一种集成电路包含:系统总线,其用于在存储器装置、处理器及外围装置之间传送数据,所述系统总线具有数据宽度N,其中N为正整数;中央处理器单元,其耦合到所述系统总线且经配置以执行从耦合到所述系统总线的存储器检索的指令;低能加速器处理器,其耦合到所述系统总线且经配置以执行从耦合到所述系统总线的低能加速器代码存储器检索的指令字,所述低能加速器处理器具有包含加载存储单元、加载系数单元、乘法单元及蝶式/加法器ALU单元的多个执行单元,所述执行单元中的每一者经配置以响应于从所述所检索指令字解码的操作码而执行运算,其中所述指令字的宽度等于所述系统总线的所述数据宽度N;及非正交数据寄存器堆,其包括耦合到所述多个执行单元的一组数据寄存器,耦合到所述多个执行单元中的选定者的所述寄存器少于所述数据寄存器堆中的所有所述数据寄存器。
[0011]在额外布置中,上文所描述的所述集成电路包含:其中所述低能加速器处理器的所述蝶式/加法器ALU单元经配置以使用所述数据寄存器堆中的所述寄存器中的任一者作为进行所述ALU的运算的源寄存器,且所述蝶式/加法器ALU单元进一步经配置以使用所述数据寄存器堆中的所述寄存器中的任一者作为进行所述运算的目的地寄存器。
[0012]在再一布置中,在上文所描述的所述集成电路中,其中所述低能加速器处理器的所述加载系数单元经配置以使用所述数据寄存器堆的所述寄存器中的仅一者作为目的地寄存器。
[0013]在又一布置中,上文所描述的所述集成电路经提供,其中所述低能加速器处理器的所述乘法单元经配置以使用所述数据寄存器堆的所述寄存器中的两者作为进行乘法运算的源寄存器。
[0014]在替代布置中,上文所描述的所述集成电路经提供,其中所述低能加速器处理器的所述乘法单元进一步经配置以使用所述数据寄存器的所述寄存器中的至少两者作为目的地寄存器。
[0015]在形成本申请案的额外方面的另外一布置中,在上文所描述的所述集成电路中,所述低能加速器处理器的所述加载存储单元进一步经配置以使用所述数据寄存器堆的所述寄存器中的至少两者作为源寄存器。
[0016]在再一布置中,在所述上文所描述集成电路中,所述低能加速器处理器的所述加载存储单元进一步经配置以使用所述数据寄存器堆中的至少四者作为目的地寄存器。
[0017]在再一布置中,在所述上文所描述集成电路中,其中所述低能加速器处理器的所述数据寄存器堆包括八个寄存器,所述八个寄存器具有等于所述系统总线的所述数据宽度N的宽度。
[0018]在又一布置中,在所述上文所描述集成电路中,其中所述八个寄存器具有等于32位的数据宽度N。
[0019]在另外一布置中,在所述上文所描述集成电路中,其中所述数据宽度N为32位。
[0020]在又一替代布置中,在所述上文所描述集成电路中,其中所述数据宽度N为16位。
[0021]在另外一布置中,在所述上文所描述集成电路中,所述数据寄存器堆以非正交架构耦合到所述多个执行单元中的每一者,使得所述执行单元中的每一者与所述数据寄存器堆中的所述寄存器之间的源寄存器连接及目的地寄存器连接针对所述执行单元中的每一者为不同的。
[0022]在形成本申请案的额外方面的另一布置中,一种数据处理器包含:系统总线,其耦合到至少一个存储器且具有数据宽度N,其中N为正整数;中央处理器单元,其耦合到所述系统总线;及低能加速器处理器,其耦合到所述系统总线且经配置以响应于来自程序控制器的存储器地址而执行从所述存储器检索的并行指令字,所述并行指令字具有小于或等于所述系统总线的所述数据宽度N的长度,且所述低能加速器处理器进一步包含:加载存储执行单元,其经配置以从存储器位置加载数据且将所述加载数据存储到所述低能加速器处理器中的寄存器;加载系数执行单元,其经配置以从寄存器加载系数;乘法执行单元,其经配置以对来自寄存器的数据执行乘法运算且将结果存储于目的地寄存器中;及ALU执行单元,其经配置以对来自寄存器的数据执行蝶式及ADD运算且将结果存储于目的地寄存器中;数据寄存器堆,其包括具有宽度N的多个数据寄存器,所述数据寄存器堆耦合到所述加载存储执行单元、所述加载系数执行单元、所述乘法执行单元及所述ALU执行单元;其中所述数据寄存器堆中的所述多个数据寄存器与所述加载存储执行单元、所述加载系数执行单元、所述乘法执行单元及所述ALU执行单元之间的连接形成非正交架构。
[0023]在再一布置中,上文所描述的所述数据处理器,其中所述低能加速器处理器的所述蝶式/加法器ALU单元经配置以使用所述数据寄存器堆中的所述寄存器中的任一者作为进行所述ALU的运算的源寄存器,且所述蝶式/加法器ALU单元进一步经配置以使用所述数据寄存器堆中的所述寄存器中的任一者作为进行所述运算的目的地寄存器。
[0024]在替代布置中,上文所描述的所述数据处理器,其中所述低能加速器处理器的所述加载系数单元经配置以使用所述数据寄存器堆的所述寄存器中的仅一者作为目的地寄存器。
[0025]在另外一替代布置中,上文所描述的所述数据处理器,其中所述低能加速器处理器的所述乘法单元经配置以使用所述数据寄存器堆的所述寄存器中的两者作为进行乘法运算的源寄存器,且所述低能加速器处理器的所述乘法单元进一步经配置以使用所述数据寄存器的所述寄存器中的至少两者作为目的地寄存器。
[0026]在再一布置中,在上文所描述的所述数据处理器中,其中所述低能加速器处理器的所述加载存储单元进一步经配置以使用所述数据寄存器堆的所述寄存器中的至少两者作为源寄存器,且所述低能加速器处理器的所述加载存储单元进一步经配置以使用所述数据寄存器堆中的至少四者作为目的地寄存器。
[0027]在另外一布置中,上文所描述的所述数据处理器,其中所述低能加速器处理器的所述数据寄存器堆包括八个寄存器,所述八个寄存器具有等于所述系统总线的所述数据宽度N的宽度。
[0028]在再一替代布置中,在上文的所述数据处理器中,其中所述数据宽度N为32位。
[0029]在再一替代布置中,在上文的所述数据处理器中,其中所述加载存储单元具有连接到其的一组地址寄存器,且所述加载系数单元具有连接到其的单独地址寄存器。
[0030]在再一替代布置中,在上文的所述数据处理器中,其中所述加载存储单元具有连接到其的一组地址寄存器及连接到其的一组步进寄存器,且所述加载系数单元具有连接到其的单独地址寄存器及单独步进寄存器。
[0031]在形成本申请案的额外方面的又一布置中,一种微控制器单元包含:系统总线,其具有数据宽度32;中央处理单元,其耦合到所述系统总线;低能加速器处理器,其耦合到所述系统总线且经配置以执行短并行指令字,且所述低能加速器处理器进一步包括:加载存储执行单元;加载系数执行单元;乘法执行单元;及蝶式/ADD ALU执行单元;及非正交数据寄存器堆,其包括親合到所述加载存储执行单元、加载系数执行单元、乘法执行单元及蝶式/ADD ALU执行单元的多个数据寄存器,其中所述数据寄存器堆以非正交架构耦合到所述执行单元中的每一者,使得所述加载存储执行单元、加载系数执行单元、乘法执行单元及蝶式/ADD ALU执行单元中的每一者与所述数据寄存器堆中的所述数据寄存器之间的源数据寄存器连接及目的地数据寄存器连接针对每一执行单元为不同的。
[0032]形成本申请案的额外方面的各种替代布置也在下文描述,所述替代布置被
【发明人】预期且归属于所附权利要求书的范围内。
【附图说明】
[0033]为更全面地理解本文中所描述的本申请案的方面的说明性实例及其优点,现在结合附图来参考以下说明,附图中:
[0034]图1在框图中描绘包含本申请案的实例性低能加速器处理器的处理系统的布置;
[0035]图2在框图中描绘图1的系统的低能加速器的额外细节;
[0036]图3在又一框图中描绘图2的处理器的低能加速器核心的细节;
[0037]图4在另一框图中描绘本申请案的数据寄存器堆布置的细节;
[0038]图5在程序执行图中描绘针对本申请案的实例性布置的指令执行阶段;
[0039]图6在另一程序执行图中描绘针对本申请案的替代实例性布置的指令执行阶段;
[0040]图7在又一框图中描绘本申请案的替代低能加速器核心布置;
[0041]图8在表中描绘本申请案的指令集架构布置的概述;
[0042]图9在另一表中描绘本申请案的指令集架构布置的进一步细节;
[0043]图10在另一表中描绘本申请案的指令集架构布置的进一步细节;
[0044]图11在另一表中描绘本申请案的指令集架构布置的进一步细节;
[0045]图12在另一表中描绘本申请案的指令集架构布置的进一步细节;
[0046]图13在另一表中描绘本申请案的指令集架构布置的进一步细节;
[0047]图14在又一表中描绘本申请案的指令集架构布置的进一步细节;
[0048]图15在又一表中描绘本申请案的指令集架构布置的进一步细节;
[0049]图16在又一表中描绘本申请案的指令集架构布置的额外细节;且
[0050]图17在又一表中描绘本申请案的指令集架构布置的额外细节。
[0051 ]除非另有指示,否则不同图中的对应编号及符号通常是指对应部件。图经绘制以清楚地图解说明说明性实例性布置的相关方面且未必按比例绘制。
【具体实施方式】
[0052]下文详细讨论并入有本申请案的方面的各种实例性说明性布置的标记及使用。然而,应了解,所揭示的说明性实例提供可在广泛多种特定上下文中体现的许多适用发明性概念。所讨论的特定实例及布置仅说明做出及使用各种布置的特定方式,且所描述的实例并不限制说明书的范围,其也不限制所附权利要求书的范围。
[0053]举例来说,当术语“耦合”在本文中用于描述元件之间的关系时,如在说明书及所附权利要求书中所使用的所述术语将被广泛解释,且虽然术语“耦合”包含“连接”,但所述术语“耦合”不应被限于“连接”或“直接连接”而是替代地所述术语“耦合”可包含与介入元件及额外元件形成的连接,且可在任何元件之间使用各种连接,所述连接均被描述为“耦口 O
[0054]在本申请案的方面中,提供呈低能加速器处理器(LEA处理器)形式的专用集成处理器(ASIP)架构。LEA处理器经优化用于向量计算且经布置以需要比先前已知的处理器加速器方法低的门计数,且经优化以提供较低作用电力消耗。加速器处理器的布置包含经优化指令集及经优化用于选定向量计算的架构。在实例性布置中,LEA指令集及经优化架构包含短并行指令字(SPIW),所述短并行指令字具有匹配存储器系统数据总线宽度的指令字长度,借此增加系统总线性能且减少用以为了在每一时钟周期上执行而提供新指令字所需要的总线驱动器装置的数目。在形成本申请案的额外方面的替代布置中,系统总线宽度可小于短并行指令字的长度且可为短并行指令字的长度的一半,使得经由系统总线的指令字提取将需要两次存储器存取。另外,本申请案的布置并入有LEA处理器的指令集架构(ISA),所述指令集架构经优化用于选定面向向量的计算(例如用于FFT、FIR及IIR计算中),用于密码学及类似运算。在LEA中,地址寄存器及数据寄存器经单独提供。地址寄存器以减少所需要的连接的方式布置,即,可进入地址寄存器的执行单元少于全部执行单元,且所述连接经优化以使门计数及硅面积最小化。在实例性布置中,加载存储单元具有连接到其的单独地址寄存器、步进寄存器及地址掩码寄存器,且加载系数单元具有连接到其的单个地址寄存器,而其余执行单元并不连接到地址寄存器。数据寄存器以结合经优化指令集架构为向量运算提供支持的方式进一步布置于非正交数据寄存器堆中,当与先前已知的处理器架构中所使用的完全正交数据寄存器堆相比时,非正交数据寄存器堆仍以进一步减少的门计数及减少的硅面积实施。
[0055]图1在简化框图中图解说明并入有本申请案的特征的微控制器系统。在系统100(其可作为“集成电路上系统”(SOIC)布置于单个集成电路上或者其可作为多芯片模块或电路板布置于进一步替代方法中)中,总线矩阵115将各种功能块耦合到彼此。在此实例性布置中,LEA处理器105耦合到总线矩阵115且并入有本申请案的新颖特征。另外,各种额外嵌入式功能单元经提供为系统100的部分。嵌入式中央处理器单元(eCPU)lll经提供以执行一般计算任务且支持各种输入及输出功能、存储器存取、数据存储及检索操作及与外部装置的通信。嵌入式直接存储器存取(eDMA)功能100耦合到总线矩阵115且提供存取外部存储器(例如系统100外部的DRAM或FLASH存储装置)的方式。软件调试模块(eDebug) 113可经提供且耦合到总线矩阵115。以供由LEA 105使用的存储器(举例来说,例如静态RAM(SRAM)或动态RAM(DRAM)的嵌入式RAM)经提供且经标记为低能加速器RAM 1170LEA 105可使用此存储器用于数据存储且用于存储中间结果。外围桥接器单元119经布置以将各种额外外围单元(为简单起见,图1中未全部展示)耦合到总线矩阵115且因此耦合到eCPU 111及/或耦合到LEA 105。在图1中,实例性模/数转换器ADC 120经展示为耦合到外围桥接器单元119的外围单元。额外外围单元(例如用于测试总线、扫描总线、USB的总线接口单元及其它总线接口)可耦合到外围桥接器119。另外,举例来说,各种专用外围单元(例如如在图1中的模/数转换器(ADC) 120、数/模转换器(DAC)、例如陀螺仪、加速计及位置传感器等嵌入式或外部传感器)可耦合到外围桥接器119。无线电及无线通信功能(例如WiF1、蓝牙、NFC及RF)及蜂窝功能可作为额外外围单元嵌入且耦合到外围桥接器119。
[0056]另外,系统100还可包含非易失性程序存储装置,例如用于将用于LEA的代码存储于FRAM/快闪存储器LEA代码块121中的FRAM或FLASH存储器,如所展示,所述FRAM/FLASHLEA代码块还可包含只读存储器(ROM)的一部分,所述只读存储器含有用于启动(boot-up)或起动(start-up)程序存储的代码。最后,额外板上存储器(其可为例如SRAM或DRAM等嵌入式RAM)经展示为RAM 123。如上文所描述,在实例性布置中,系统总线具有等于由LEA使用的短并行指令字的长度的数据宽度N,举例来说32位。在另一实例性布置中,系统总线具有为LEA的短并行指令字的长度的一半的数据宽度N,举例来说所述数据宽度N可为16位。
[0057]系统或集成电路100包含对于微处理器或微控制器系统为典型的许多元件。另外,系统100包含LEA处理器105。如下文进一步描述,LEA 105提供低电力、高性能的可编程向量处理单元,所述可编程向量处理单元可独立于eCPU 111执行各种向量计算,使得当LEA 105执行用于特定应用所需要的向量计算时,eCPU 111可同时执行其它典型计算任务,借此为系统100提供高性能向量加速器。系统100可被视为微控制器单元(MCU)或在包含模/数转换器外围装置时被视为混合信号处理器(MSP)。系统100中的各种功能块可(举例来说)提供为在单个集成电路内实施的嵌入式功能。然而,本申请案的布置并不限于单个集成电路实施方案,且各种替代方案包含使用多个芯片将系统100实施于以下各项中:单个封装、堆叠式封装模块、封装模块上的封装、多芯片模块及包含存储器芯片、CPU及LEA 105的电路板(其可被制作为独立专用集成电路或专用集成电路(ASIC))。在一个实例性布置中,LEA 105可经提供为用于与其它已知及完整功能核心(例如DSP、ARM、CPU、RISC)以及用于在ASIC装置中使用的类似核心嵌入的完全参数化ASIP装置核心。也并入有形成本申请案的方面的新颖特征的实例性说明性及非限制布置的这些及其它明显变化被
【发明人】预期为归属于所附权利要求书的范围内的额外布置。
[0058]图2在另一框图中描绘用以实施LEA(例如图1中的LEA105)的功能块的细节的实例。在图2中,展示LEA 2051ΕΑ命令与切换控制块233耦合到本地总线。本地总线还耦合到AI3B从属功能225,所述APB从属功能进一步实施为一组功能寄存器227、测试功能229及描述符寄存器231 JPB从属器225提供通向先进外围总线(APB)上的额外外围装置的接口。LEAVBUS主控器221提供通向系统总线(例如(举例来说)通向图1的总线矩阵115)的接口。一组LEA命令寄存器238耦合到LEA-ASIP核心2451ΕΑ-Α3ΙΡ核心245(ASIP为专用集成处理器的缩写)为LEA 205提供计算核心。协处理器从属接口 235将LEA耦合到CPU且允许LEA充当协处理器。块237 (测试接口)、239 (调试接口)、241 (FFT旋转(Twiddle)系数)为LEA 205提供额外接口及系数数据存储。块251提供代码ROM 253、单端口 SRAM 255、仲裁器257及循环冗余检查CRC/DfT 261,所述循环冗余检查CRC/DfT为用于测试或DFT模块的设计。LEA 205可检索存储于代码ROM 253及SRAM 255中的指令字;S卩,用于LEA的指令字可存储于LEA 205内以实现较高性能,或可存储于经由如图1中所展示的系统总线存取的存储器中。
[0059]在形成本申请案的方面的一个实例性布置中,LEA205可作为核心功能嵌入于集成电路(形成例如图1中的100的系统)中。或者,LEA 205可经提供为独立集成电路装置,或可与其它装置一起封装于多芯片模块中,或可与其它组件一起安装于电路板上。
[0060]在操作中,LEA205形成经特别布置以用于执行向量计算的可编程加速器,所述向量计算通常用于具有微控制器及混合信号处理器的应用中。LEA 205经布置以在与先前已知的解决方案相比时具有小的硅面积(低门计数)且消耗低电力。如下文进一步描述,LEA205可使用经修整以适应向量运算(例如用于FFT、FIR、IIR、滤波、向量信号处理及类似物)的指令集执行程序。
[0061]本申请案的LEAASIP-核心布置提供具有四个主要执行单元或功能单元的处理器以及用以执行呈并行指令字形式的指令的程序控制器。如下文进一步描述,使用短并行指令字(SPIW)布置。在一个布置中,不宽于(举例来说)系统100中所使用的存储器总线的宽度的短并行指令字的使用有利地减少其中存储有指令的存储器与LEA ASIP-核心之间所需要的驱动器装置,因此减少用于系统总线所消耗的电力且允许每一周期提取新的指令字而不需要加宽存储器数据路径。在另一替代布置中,系统总线数据宽度可为甚至更少位,且宽度N可为(举例来说)16位,但LEA ASIP核心的短并行指令字的长度可为2N(举例来说32位)。在此实例性布置中,虽然较小系统总线数据宽度需要两次存储器存取以在系统总线上从存储器提取指令字,但较小宽度系统数据总线的使用节省硅中的额外路由及门面积。然而,如上文所描述,指令字还可本地存储于LEA 205内的代码ROM或SRAM存储器中,在此实例性布置中,不需要系统总线存取来提取用于LEA处理器的指令字。
[0062]由于对于每一周期存在布置有SPIW的4个功能单元来执行操作,因此LEA可被称为“4问题(i ssue ),,或“4插槽”架构。针对向量计算效率及低能两者优化LEA的ISA,且所述ISA经布置使得切换用于特定操作的门的数目经控制以减少LEA的作用电力消耗。即,装置架构及ISA经优化以减少电力消耗。如下文进一步描述,四个功能单元经布置以存取数据寄存器堆中的一组寄存器。然而,作为经优化LEA处理器架构的部分,四个功能单元各自经分配对数据寄存器堆中的数据寄存器的特定数据寄存器而非全部数据寄存器的存取。即,数据寄存器堆经布置为非正交寄存器堆。由于例如用于先前已知的装置的针对完全正交数据寄存器堆的互连需要大量门且对应地硅面积,因此经优化、非正交数据寄存器堆的使用基本减少所使用的门的数目及所需要的硅面积。由于用于所述布置中所使用的新颖数据寄存器堆的减少的门计数,因此LEA处理器的作用电力消耗也进一步减少。
[0063]此外,作为用以优化门计数且减少由LEAASIP核心消耗的电力的额外特征,提供单独地址寄存器,所述单独地址寄存器仅连接到执行单元中的一些而非全部执行单元。举例来说,在一个布置中,加载存储单元具有一组地址寄存器、一组步进寄存器及地址掩码寄存器,但加载系数单元具有单独地址寄存器。执行单元与这些单独地址寄存器之间的连接经挑选以支持各种向量运算,但使所述连接最小化以减少门计数及硅面积。
[0064]图3在另一框图中图解说明用以提供例如图2中的245的LEA ASIP核心的实例性ASIP核心实施方案的额外细节。在图3中,以简化框图形式展示LEA ASIP核心345。
[0065]在图3中,LEA ASIP-核心345包含程序控制器单元347。在图3中所展示的实例性LEA ASIP-核心345中,两个同步执行循环(例如内do循环及外do循环)由一对循环计数寄存器349、两个循环开始寄存器351及两个循环结束寄存器353支持。程序控制器单元347的状态及控制寄存器(分别为355、357)提供用于程序控制器的额外资源。LEA ASIP核心345可从本地存储器(LEA本地程序存储器383)提取指令字,且循环执行进一步由指令循环缓冲器381支持。
[0066]四个执行单元为加载存储单元371、加载系数单元373、乘法单元375及蝶式/加法器单元379,所述蝶式/加法器单元为经布置以高效地计算向量运算(例如(举例来说)用于FFT、FIR、IIR及DCT向量运算中的蝶式计算)的算术逻辑单元(ALU)。
[0067]实例性LEAASIP-核心345中所提供的额外资源包含耦合到加载存储单元371的四个单独地址寄存器363、三个步进寄存器365及地址掩码寄存器361,所述地址掩码寄存器耦合到加载存储单元371。另外,加载系数单元373耦合到单独地址寄存器367、步进寄存器369及本地ROM(本地旋转ROM 341)以供在提供用于特定计算的常数时使用。注意,其余执行单元(乘法单元及蝶式/ADD ALU单元)并不连接到这些地址寄存器及步进寄存器。数据寄存器堆359为LEA ASIP-核心345的重要特征。在LEA ASIP-核心的布置中,四个功能单元-加载存储单元371、加载系数单元373、乘法单元375及蝶式/加法器单元377各自耦合到数据寄存器堆中的一组数据寄存器中的特定数据寄存器,但所述四个功能单元并不各自耦合到数据寄存器堆359中的全部寄存器。替代地且与先前已知的方法形成鲜明对比,使用数据寄存器堆359的经优化设计来修整各种执行单元与数据寄存器堆中的寄存器之间所需要的物理连接以便以高度减少的门计数支持待用LEA ASIP-核心345执行的向量运算。通过减少四个功能单元与数据寄存器堆359中的寄存器之间所需要的物理连接(通常实施为多路复用器及多路分用器,有时被称为“端口”),用以制作LEA ASIP-核心345所需要的门计数及硅面积大大减少。
[0068]减少的硅面积及电力节省的折衷为当与先前已知的方法的编程相比时,LEAASIP-核心345的编程灵活性受限制,然而通过提供经布置以针对LEA ASIP-核心345的这些硬件限制优化的新颖指令集架构(ISA),LEA甚至在提供具有大大减少的门计数且具有对应地较低电力要求的处理器时仍可高效地执行许多应用中所需要的向量计算。
[0069]图4在电路框图中图解说明例如图3中的359的数据寄存器堆的实例性布置的细节。在图4中,以非正交架构图解说明数据寄存器堆459。寄存器481经布置为寄存器RcO到Rc7;在实例性布置中,数据寄存器的宽度与实例性系统总线宽度相同或为32位。如上文所描述,在另一实例中,系统总线可为指令字的长度的一半或16位。在另一实例性布置中,数据寄存器可布置于各自为16位的16个寄存器中。在图4的实例性布置中,LEA处理器核心的加载存储单元471可存取数据寄存器堆459中的八个寄存器中的仅两者作为加载存储操作的源寄存器,而加载存储单元471可存取八个寄存器中的四者作为目的地寄存器。在此实例性布置中,多路复用器485为2:1多路复用器,其将寄存器Rc4、Rc5耦合到加载存储单元471。在图4中,LEA处理器核心的加载系数功能单元(图4中的加载系数单元473)可仅存取数据寄存器堆459中的寄存器(图4的实例中的Rc7)中的一者。在图4中,乘法执行单元(图4中的乘法单元475)可使用2:1多路复用器487仅存取寄存器Rc6、Rc7作为源寄存器,且乘法单元475使寄存器Rc2、Rc3作为目的地寄存器。LEA的其余功能单元(ALU单元479)经配置以执行蝶式/ADD运算及其它ALU运算,且通过8:1多路复用器483耦合到寄存器RcO到Rc7中的全部八个寄存器,且如图4中所展示,ALU 479耦合到寄存器堆459中的寄存器中的全部八个寄存器作为目的地寄存器。因此,ALU 479可存取寄存器堆459中的寄存器中的任一者。
[0070]虽然在此实例中特定寄存器连接到特定执行单元,但在各种替代布置中,可连接一组不同的寄存器或可使用不同寄存器编号,这些各种替代布置也被
【发明人】预期为形成本申请案的额外方面。所述布置的优点由以下方面产生:数据寄存器堆以非正交架构布置,使得数据寄存器与执行单元之间的连接就门计数及硅面积来说比完全正交数据寄存器堆架构减少,但用以耦合到执行单元的特定编号的寄存器的选择可变化,但其仍形成为本申请案的方面且归属于所附权利要求书的范围内的布置。
[0071]图5图解说明形成本申请案的方面的各种布置的低能加速器处理器的实例性程序执行管线图。在图5中所展示的非限制性执行管线实例中,执行管线500以指令提取操作501开始,所述提取操作受如此实例中的503所展示的程序控制器单元控制。提取操作后续接着指令字解码阶段505。在解码阶段505期间,由对应于低能加速器核心的各种执行单元的解码单元来将在先前指令提取阶段501处由程序控制器单元503检索的指令字进行解码。举例来说,标记为“ldst解码器”523的加载存储解码器将提供用于加载存储单元的操作码的指令字的一部分进行解码。类似地,标记为“ldc解码器”531的加载系数解码器在解码阶段505处将提供用于加载系数单元的操作码的指令字的一部分进行解码。标记为“mpy解码器”533的解码器在解码阶段505处将提供用于乘法器执行单元的操作码的指令字的一部分进行解码。标记为“bf Iy解码器” 535的解码器还在解码阶段505处将提供用于蝶式/ADD执行单元(其为ALU)的操作码的指令字的另一部分进行解码。标记为“单问题解码器”529的额外解码器在解码阶段505处将指令字的对应于由程序控制单元503支持的循环及程序计数器功能的部分进行解码。
[0072]可由例如ADDRReg的单元使用这些解码来设置将在执行阶段507处由LEA执行的操作。单元511、外围端口寄存器单元512、数据路径寄存器单元513及循环寄存器单元521经展示耦合到解码器。
[0073]图5的程序执行图中的执行阶段507图解说明在解码阶段505之后由LEA的执行单元先前解码的指令字的执行。在执行阶段507期间,LEA的执行单元根据在解码阶段505处从指令字解码的操作码并行执行所指示操作。
[0074]由于LEA指令执行经管线化,因此可每一周期执行新指令字。提取阶段501、解码阶段505及执行阶段507每一机器周期各自操作,使得LEA执行对应于在每一机器周期期间的新指令字的新操作。在一些布置中,机器周期可对应于单个系统时钟周期。在其它布置中,机器周期可对应于下分时钟周期。如所属领域的技术人员所已知,对于其中电力消耗与切换速度大致成正比的CMOS技术集成电路来说,可在一些非关键操作中使用减少的时钟速度以进一步减少电力消耗。对于最高计算性能,将对执行管线进行时控使得针对每一时钟周期提取新指令字。
[0075]在执行阶段507处,经解码指令字操作码可控制由LEA功能单元及其它硬件资源(包含图5的实例中标记为“ADDR.Reg.单元”539的地址寄存器、标记为541的外围端口寄存器“P-端口Regs”、乘法器543、编号为545的DATA-PATH Reg.单元及ALU 547)执行的操作。
[0076]在提供本申请案的额外方面的额外布置中,操作数过载寄存器经提供以支持浮点运算。在此布置中,可重新使用来自定点布置的指令集架构(ISA)及指令字长度。针对上文所描述的定点LEA处理器开发的许多指令可在不需要修改的情况下与此额外布置一起使用。在形成本申请案的额外方面的另一布置中,浮点操作数过载旗标用于指示何时将执行浮点运算,而非浮点运算。操作数过载旗标耦合到可执行浮点或定点计算的功能单元(乘法器及蝶式/ADD ALU功能单元)。此操作数过载方法有利地允许针对定点计算开发的LEA代码中的大多数LEA代码的重新使用,从而减少用以实施额外浮点指令所需要的代码开发的量。
[0077]图6图解说明实例性浮点LEA处理器核心的指令执行管线图。在大多数方面中,对于定点计算,图6的执行管线图与图5的执行管线图相同。在图6中,管线600包含用于从存储器提取新指令字的提取阶段601,PC控制器603确定待提取的指令。接着将指令字移动到解码阶段605。与功能单元相关联的解码器在解码阶段605处将指令字进行解码以提供用于四个功能单元的操作码。在图6中标记为“ldst解码器”且编号为623的加载存储解码器将指令字中对应于加载存储单元的位进行解码。标记为“ldc解码器”且编号为631的加载系数解码器将用于加载系数单元的位(在本文中的ISA实例中,指令字的单个位提供Idc操作码)进行解码。标记为“mpy解码器”且编号为633的乘法解码器将指令字中对应于用于乘法器功能单元的操作码的位进行解码。另外,在LEA的此布置中,乘法器从标记为“浮点操作数过载”的旗标610接收浮点操作数过载且此旗标指示何时将执行浮点或定点计算。ALU解码器635将指令字的对应于蝶式/加法器ALU的部分进行解码,且另外ALU解码器从标记为“浮点操作数过载”的旗标610接收浮点操作数且此旗标指示何时将执行浮点或定点计算。同样,单问题解码器629将指令字中对应于程序控制运算(例如循环计数、返回等)的位进行解码,且使用循环寄存器单元621处的所述信息更新循环功能。
[0078]图7在另一框图中图解说明用以提供LEAAS IP核心且包含浮点能力的实例性AS IP核心实施方案的额外细节。在图7中,所述框图类似于图3的LEA ASIP核心345,但其包含浮点能力。在图7中,以简化框图形式展示LEA ASIP核心745。
[0079]在图7中,LEA ASIP-核心745包含程序控制器单元747。在图7中所展示的实例性LEA ASIP-核心745中,两个同步执行循环(例如内do循环及外do循环)由一对循环计数寄存器749、两个循环开始寄存器751及两个循环结束寄存器753支持。程序控制器单元的状态及控制寄存器(分别为755、757)提供用于程序控制器的额外资源。如上文关于图3的实例性LEA所描述,LEA 745可从本地存储器(LEA本地程序存储器783)提取指令字,且循环执行进一步由指令循环缓冲器781支持。
[0080]四个执行单元为加载存储单元771、加载系数单元773、乘法单元775及蝶式/加法器单元779,所述蝶式/加法器单元为经布置以高效地计算向量运算(例如(举例来说)用于FFT、FIR、IIR及DCT向量运算中的蝶式计算)的算术逻辑单元(ALU)。
[0081 ] LEA ASIP-核心745包含耦合到加载存储单元771的四个单独地址寄存器763、三个步进寄存器765及地址掩码寄存器761,所述地址掩码寄存器耦合到加载存储单元771。另夕卜,加载系数单元773耦合到单独地址寄存器767、步进寄存器769及本地ROM(本地旋转ROM741)以供在提供用于特定计算的常数时使用。数据寄存器堆759为LEA ASIP-核心745的重要特征。如上文所描述,在LEA ASIP-核心的布置中,四个功能单元-加载存储单元771、加载系数单元773、乘法单元775及蝶式/加法器单元779各自耦合到数据寄存器堆759中的一组数据寄存器中的特定数据寄存器。在实例性布置中,数据寄存器堆经布置为8个32位宽寄存器RcO到Rc7。在也预期为形成本申请案的额外方面的替代布置中,数据寄存器堆可经布置为(举例来说)16个16位宽寄存器。如上文所描述,LEA ASIP核心的重要特征为数据寄存器堆经优化以实现减少的门计数及因此较低电力消耗。
[0082]减少的硅面积及对应电力节省的折衷为LEAASIP-核心的编程灵活性受限制(当与先前已知的方法相比时,编程较不灵活),然而通过提供经布置以针对LEA ASIP浮点核心745的这些硬件限制优化的新颖指令集架构(ISA),LEA甚至在提供具有大大减少的门计数且具有对应地较低电力要求的处理器时仍可高效地执行许多应用中所需要的向量计算。
[0083]在使用LEA核心时,通过开发用于广泛多种向量运算的预写代码(可重新使用且可供应已存储于LEA代码存储器中的所述预写代码)而容易地解决由于经优化数据寄存器堆设计及短并行指令字所致而发生的减少的编程灵活性。在布置的此特征中,LEA处理器的用户并不受关于LEA核心的编程的额外约束的影响,这是因为用户可依赖于先前开发且验证的代码程序用于常见向量运算。因此,LEA核心可迅速地应用于特定客户应用而不需要重写代码或开发新代码。
[0084]尽管在形成本申请案的各种方面的布置中,LEA指令字为相对短的,但在所述布置的另一特征中,指令集架构及本申请案的LEA的硬件块仍经布置以高效地执行通常由混合信号处理器或微控制器单元需要的向量运算。通过针对LEA核心的特定特征优化指令集架构,可实现高效向量计算加速器处理器。与先前已知方法的专用硬件加速器相比来说,本申请案的LEA核心处理器布置可编程且可执行多种向量运算。使用编译器及代码宏库,可提供多种向量计算程序(例如FFT、DFT、DCT、FIR及类似物),所述向量计算程序已完成以供与LEA一起使用来实现应用程序代码的迅速开发。此外,且与已知的先前解决方案的专用硬件加速器不同,在本申请案的新颖布置中,用以致使LEA核心处理器执行这些向量运算的代码为灵活的且可在包含LEA核心处理器的集成电路装置制成之后被更改,因此所述装置为“未来校对的(future proofed)”,且所述装置的操作可在现场或在生产之后进行更改,从而减少稍后可能需要的改进或修改的成本。
[0085]图8在组合式图表中描绘形成本申请案的额外方面的LEA处理器布置的实例性指令集架构(ISA)的概述。在图8中,在图表800中使用实例性32位指令字宽度展示指令集架构。由于32位处的指令字宽度相对短,因此可使用系统数据总线宽度且不需要更宽总线而从本地存储器存储器件(例如代码ROM或RAM或FLASH位置)发射指令字,且因此不需要额外驱动器装置及用以供应用于更宽指令字的驱动器的电力。与先前已知方法的非常长指令字(VLIW)架构(其可使用64位、128位或甚至256位宽的指令字)相比来说,在此实例中,低能加速器的布置仅使用32位。短并行指令字宽度与存储器总线宽度匹配导致所需要的硅面积的大量减少及电力消耗的对应减少。由于可每一存储器周期提取新指令字,因此其还增加性會K。
[0086]在本申请案的布置中,LEA处理器核心包含四个功能单元且使用单问题指令字。此方法可被称为“4插槽”或“4问题”架构。在每一指令字中,除用于四个功能单元的操作码以夕卜,在指令字中还提供程序控制器信息,例如循环计数、返回、do-循环指令信息。单个指令字提供用于每一机器周期所需要的全部操作码信息,因此所述架构为单问题架构。
[0087]如通过检查图8可见,指令字具有对应于如上文所描述的LEA的执行单元的字段。在图8中所展示的实例性ISA中,第一位(位O)确定指令是否为“I问题”或“4任务”指令。32位指令字的位I到11用于将操作码提供到加载-存储执行单元(在标记为“Is:1dstA”的列中),对加载存储单元的一些运算的概述通过其编码展示。在使用位12的此非限制性实例性布置中,单个位提供用于加载系数执行单元(在标记为“Id: ld_R”的列中)的控制字段,此位展示为通过编码进行特定运算。在此实例中用于乘法器的操作码字段由位13到18提供,且在标记为的列中,通过一些实例性编码展示用于此功能单元的选定运算。此实例性布置中的指令字的其余位(位19到31)提供用于控制蝶式/加法ALU执行单元的运算的操作码。在标记为“b: bfly”的列中,用于此执行单元的一些选定运算通过其编码展示。
[0088]当位O为“I”时,额外“I插槽”运算在表800中展示为经编码。这些指令包含例如寄存器初始化等运算,例如加载即时或指令。举例来说,额外“I插槽”指令(例如“lshift”、“rshift”、“pass”、“cmpr”、“doloop”、及“return”在表800中经编码。LEA指令集经修整以在提供四插槽、单问题指令字时适合32位字长度,使得每一执行单元、加载存储单元、加载系数单元、乘法器及蝶式/ADD ALU单元可针对每一LEA机器周期执行运算。
[0089 ]尽管在图8中图解说明实例性ISA布置,但应理解,可对所述实例做出明显变化,所述变化仍在本申请案的范围内且这些变化被
【发明人】预期为形成在本申请案的范围内且由所附权利要求书涵盖的额外布置。举例来说,尽管在图8中所展示的ISA中挑选位I到11用于加载存储单元的的操作码,但在不背离本申请案的范围的情况下,可替代地使用具有类似长度的另一组位,例如21到31。可将较多或较少位用于执行单元操作码中的任一者。并行指令字的总体相对短长度为布置的重要方面,但指派给执行单元的特定位可经修改以形成本申请案的额外替代布置。
[0090]图9在额外表900中描绘针对加载存储单元编码的额外操作码。在图9中,详述其中编码位I到11的额外运算,将针对加载存储单元的运算提供为短并行指令字的部分。在图9中,操作码包含加载、存储及存储溢出运算。
[0091]图10在额外表1000中描绘用于加载存储执行单元的一些额外操作码。在图10中,再次展示具有加载存储单元执行的额外运算的位I到U。
[0092]图11在额外表1100中描绘用于加载系数执行单元的操作码,在本申请案的额外方面中,所述操作码仅需要单个指令字位(在实例性ISA中为位12)。
[0093]图12在又一表1200中描绘用于实例性ISA中的乘法执行单元的操作码的额外细节。在图12中,使用指令字中的位13到18展示例如各种乘法运算及空运算(no operat1n)的运算。
[0094]图13在又一表1300中描绘用以确定蝶式/ADDALU执行单元将执行的运算的操作码的一部分。在表1300中展示第一组运算。图14、15及16分别在表1400、1500及1600中各自描绘用于蝶式/ADD ALU单元的额外操作码。在此处所描述的实例性ISA中,指令字的位19到31用于蝶式/ADD ALU执行单元。然而,可通过变化用于蝶式/ADD ALU执行单元的指令字的特定部分或用于其它执行单元的位而形成的替代布置被
【发明人】预期为形成额外布置,所述额外布置形成本申请案的进一步方面且在所附权利要求书的范围内。一些布置的重要特征为短并行指令字的长度小于或等于系统总线的宽度。在替代布置中,系统总线可为甚至更小宽度(例如16位),且短并行指令字可为32位或两个系统总线宽度。在此实例中,两个存储器周期将用于经由系统总线提取指令字。然而如上文所描述,LEA可包含本地程序存储器件(例如如图2中所展示的代码ROM或单端口 SRAM)且接着可在不使用系统总线的情况下检索指令字,从而为系统提供额外性能。
[0095]图17在另一表1700中描绘用以确定“I插槽”运算的操作码的一部分。在图17中及上文的图8中的用于ISA的实例性编码中,当第一位(位O)为“I”时,指示“I插槽”运算。如表1700中所展示,这些运算包含表1700中所展示的特定移位运算、加载即时或“ld_imm”运算、具有即时操作数的加载或存储运算(例如“ls_sp_off”)、堆叠指针更新运算(例如“add_imm_SP” )及程序控制器(PC)运算(例如“pc_dcnt”运算)。
[0096]在上文所描述的LEA处理器的布置中,四个执行单元接收新操作码,所述新操作码可与每一新指令字一起执行。针对ISA选定且如上文所展示而布置的操作码经优化用于向量运算且用于低电力消耗。用于四个执行单元的地址寄存器经优化用于向量运算且仅提供用于加载存储单元及加载系数执行单元的地址寄存器。数据寄存器堆也提供为非正交数据寄存器架构,所述非正交数据寄存器架构具有到经选择以支持向量运算的执行单元的连接,同时使数据寄存器堆的门计数及硅面积最小化。
[0097]也可在步骤顺序方面及步骤数目方面做出各种修改以形成并入有本申请案的方面的额外新颖布置,且这些修改将形成被
【发明人】预期为本申请案的部分且归属于所附权利要求书的范围内的额外替代布置。
[0098]尽管已详细描述实例性说明性布置,但应理解,可在不背离如由所附权利要求书定义的本申请案的精神及范围的情况下在本文中做出各种改变、替代及更改。此外,本申请案的范围并不打算限于本说明书中所描述的过程、机器、制品、物质组成、方式、方法及步骤的特定说明性实例性布置。如所属领域的技术人员依据本发明将易于了解,可根据所呈现的说明性布置及所描述、所建议或所揭示的替代布置来利用当前存在或稍后将开发的执行与本文中所描述的对应实例性布置基本相同的功能或实现基本相同的结果的过程、机器、制品、物质组成、方式、方法或步骤。因此,所附权利要求书打算在其范围内包含此类过程、机器、制品、物质组成、方式、方法或步骤。
【主权项】
1.一种集成电路,其包括: 系统总线,其用于在存储器装置、处理器及外围装置之间传送数据,所述系统总线具有数据宽度N,其中N为正整数; 中央处理器单元,其耦合到所述系统总线且经配置以执行从耦合到所述系统总线的存储器检索的指令; 低能加速器处理器,其耦合到所述系统总线且经配置以执行从耦合到所述系统总线的低能加速器代码存储器检索的指令字,所述低能加速器处理器具有包含加载存储单元、加载系数单元、乘法单元及蝶式/加法器ALU单元的多个执行单元,所述执行单元中的每一者经配置以响应于从所述所检索指令字解码的操作码而执行运算,其中所述指令字的宽度等于所述系统总线的所述数据宽度N及所述系统总线的所述数据宽度N的两倍中的选定一者;及 非正交数据寄存器堆,其包括耦合到所述多个执行单元的一组数据寄存器,耦合到所述多个执行单元中的选定者的所述数据寄存器少于所述数据寄存器堆中的所有所述数据寄存器。2.根据权利要求1所述的集成电路,其中所述低能加速器处理器的所述蝶式/加法器ALU单元经配置以使用所述数据寄存器堆中的所述寄存器中的任一者作为进行所述ALU的运算的源寄存器,且所述蝶式/加法器ALU单元进一步经配置以使用所述数据寄存器堆中的所述寄存器中的任一者作为进行所述运算的目的地寄存器。3.根据权利要求1所述的集成电路,其中所述低能加速器处理器的所述加载系数单元经配置以使用所述数据寄存器堆的所述寄存器中的仅一者作为目的地寄存器。4.根据权利要求1所述的集成电路,其中所述低能加速器处理器的所述乘法单元经配置以使用所述数据寄存器堆的所述寄存器中的两者作为进行乘法运算的源寄存器。5.根据权利要求4所述的集成电路,其中所述低能加速器处理器的所述乘法单元进一步经配置以使用所述数据寄存器堆的所述寄存器中的至少两者作为目的地寄存器。6.根据权利要求1所述的集成电路,其中所述低能加速器处理器的所述加载存储单元进一步经配置以使用所述数据寄存器堆的所述寄存器中的至少两者作为源寄存器。7.根据权利要求6所述的集成电路,其中所述低能加速器处理器的所述加载存储单元进一步经配置以使用所述数据寄存器堆的所述寄存器中的至少四者作为目的地寄存器。8.根据权利要求1所述的集成电路,其中所述低能加速器处理器的所述数据寄存器堆包括八个寄存器,所述八个寄存器具有等于所述系统总线的所述数据宽度N的宽度。9.根据权利要求8所述的集成电路,其中所述数据宽度N为32位。10.根据权利要求1所述的集成电路,其中所述数据宽度N为32位。11.根据权利要求1所述的集成电路,其中所述数据宽度N为16位。12.根据权利要求1所述的集成电路,其中所述数据寄存器堆以非正交架构耦合到所述多个执行单元中的每一者,使得所述执行单元中的每一者与所述数据寄存器堆中的所述寄存器之间的源寄存器连接及目的地寄存器连接针对所述执行单元中的每一者为不同的。13.—种数据处理器,其包括: 系统总线,其耦合到至少一个存储器且具有数据宽度N,其中N为正整数; 中央处理器单元,其耦合到所述系统总线;及 低能加速器处理器,其耦合到所述系统总线且经配置以响应于来自程序控制器的存储器地址而执行从所述存储器检索的并行指令字,所述并行指令字具有小于或等于所述系统总线的所述数据宽度N的长度,且所述低能加速器处理器进一步包括: 加载存储执行单元,其经配置以从存储器位置加载数据且将所述加载数据存储到所述低能加速器处理器中的寄存器; 加载系数执行单元,其经配置以从寄存器加载系数; 乘法执行单元,其经配置以对来自寄存器的数据执行乘法运算且将结果存储于目的地寄存器中; ALU执行单元,其经配置以对来自寄存器的数据执行蝶式及ADD运算且将结果存储于目的地寄存器中;及 数据寄存器堆,其包括具有宽度N的多个数据寄存器,所述数据寄存器堆耦合到所述加载存储执行单元、所述加载系数执行单元、所述乘法执行单元及所述ALU执行单元; 其中所述数据寄存器堆中的所述多个数据寄存器与所述加载存储执行单元、所述加载系数执行单元、所述乘法执行单元及所述ALU执行单元之间的连接形成非正交数据寄存器堆架构。14.根据权利要求13所述的数据处理器,其中: 所述低能加速器处理器的所述ALU单元经配置以使用所述数据寄存器堆中的所述寄存器中的任一者作为进行所述ALU单元的运算的源寄存器,且所述ALU单元进一步经配置以使用所述数据寄存器堆中的所述寄存器中的任一者作为进行所述运算的目的地寄存器。15.根据权利要求13所述的数据处理器,其中: 所述低能加速器处理器的所述加载系数单元经配置以使用所述数据寄存器堆的所述寄存器中的仅一者作为目的地寄存器。16.根据权利要求13所述的数据处理器,其中所述低能加速器处理器的所述乘法单元经配置以使用所述数据寄存器堆的所述寄存器中的两者作为进行乘法运算的源寄存器,且所述低能加速器处理器的所述乘法单元进一步经配置以使用所述数据寄存器堆的所述寄存器中的至少两者作为目的地寄存器。17.根据权利要求13所述的数据处理器,其中所述低能加速器处理器的所述加载存储单元进一步经配置以使用所述数据寄存器堆的所述寄存器中的至少两者作为源寄存器,且所述低能加速器处理器的所述加载存储单元进一步经配置以使用所述数据寄存器堆的所述寄存器中的至少四者作为目的地寄存器。18.根据权利要求13所述的数据处理器,其中所述加载存储单元具有连接到其的一组地址寄存器,且所述加载系数单元具有连接到其的单独地址寄存器。19.根据权利要求13所述的数据处理器,其中所述加载存储单元具有连接到其的一组地址寄存器及连接到其的一组步进寄存器,且所述加载系数单元具有连接到其的单独地址寄存器及单独步进寄存器。20.一种微控制器单元,其包括: 系统总线,其具有数据宽度32; 中央处理单元,其耦合到所述系统总线; 低能加速器处理器,其耦合到所述系统总线且经配置以执行短并行指令字,且所述低能加速器处理器进一步包括: 加载存储执行单元; 加载系数执行单元; 乘法执行单元;及 蝶式/ADD ALU执行单元;及 非正交数据寄存器堆,其包括耦合到所述加载存储执行单元、加载系数执行单元、乘法执行单元及蝶式/ADD ALU执行单元的多个数据寄存器,其中所述数据寄存器堆以非正交架构親合到所述执行单元中的每一者,使得所述加载存储执行单元、加载系数执行单元、乘法执行单元及蝶式/ADD ALU执行单元中的每一者与所述数据寄存器堆中的所述数据寄存器之间的源数据寄存器连接及目的地数据寄存器连接针对每一执行单元为不同的。
【文档编号】G06F9/30GK106055308SQ201610204401
【公开日】2016年10月26日
【申请日】2016年4月1日 公开号201610204401.8, CN 106055308 A, CN 106055308A, CN 201610204401, CN-A-106055308, CN106055308 A, CN106055308A, CN201610204401, CN201610204401.8
【发明人】斯里尼瓦斯·林加姆, 李硕俊, 约翰·齐佩雷尔, 马尼什·戈埃尔
【申请人】德州仪器公司, 德州仪器德国股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1