移动数据的方法和装置的制作方法

文档序号:6362310阅读:200来源:国知局
专利名称:移动数据的方法和装置的制作方法
技术领域
本公开总体涉及处理器,并更具体地涉及处理集群。
背景技术
图1是描绘多内核系统(范围从2个到16个内核)的执行速率的加速比与并行开销的关系的图示,其中加速比是单个处理器执行时间除以并行处理器执行时间。可以看出,并行开销必须接近于零,以从大量内核获得显著益处。但是,由于如果并行程序之间存在任何交互,则开销往往非常高,因此通常难以高效使用多于一个或两个处理器来进行任何事情,除了完全分离的程序。因此,有必要改进处理集群。

发明内容
因此,本发明的实施例提供了一种方法。该方法的特征在于:改变数据移动引线(risc_is_mtvvr)上的信号状态,以指示从计算单元(4308-1到4308-M,7607-1到7607-P)中的第一寄存器文件(4358-1到4358-8,7902)到处理器(4322,7614)中的第二寄存器文件(5206)的数据移动指令;经由第一地址引线(risC_is_Ua)将通道地址从处理器(4322,7614)提供到计算单元(4308-1到4308-M,7607-1到7607-P);经由第二地址引线(risc_is_ra)将读取地址从处理器(4322,7614)提供到计算单元(4308-1到4308-M,7607-1到7607-P);和经由数据接口引线(node_regf_rd)将数据从计算单元(4308-1到4308-M,7607-1到7607-P)中的第一寄存器文件(4358-1到4358-8,7902)传递到处理器(4322,7614)中的第二寄存器文件(5206)。


图1示出了多内核加速比参数的图示;图2示出了根据本公开实施例的系统的图示;图3示出了根据本公开实施例的SOC的图示;图4示出了根据本公开实施例的并行处理集群的图示;图5和图6示出了该处理集群中节点或计算元件的一部分的图示;图7示出了共享功能存储器的方框图;图8示出了该共享功能存储器的SIMD数据路径的图示;图9示出了一个SMD数据路径的一部分的图示;图10示出了节点处理器或RISC处理器更详细的图示;和图11和图12示出了节点处理器或RISC处理器的流水线的一部分的示例的图示。
具体实施例方式图2中示出了执行并行处理的SOC的应用的示例。在该示例中,示出了成像设备1250,并且该成像器件1250 (其可以例如是移动电话或摄像机)一般包括图像传感器1252、S0C1300、动态随机存取存储器(DRAM)1254、闪存1256、显示器1526以及电源管理集成电路(PMIC)1260。在操作中,图像传感器1252能够捕获图像信息(其可以是静止图像或视频),该图像信息可以由S0C1300和DRAM1254处理,并且存储在非易失性存储器中(即闪存1256)。此外,存储在闪存1256中的图像信息也可以通过使用S0C1300和DRAM1254显示在显示器1258上给用户。同样,成像设备1250常常是便携式的,并且包括电池作为电源;PMIC1260(其可以由S0C1300控制)可以帮助调节电源使用,从而延长电池寿命。在图3中,根据本公开实施例描绘了片上系统或S0C1300的示例。该S0C1300(其通常是集成电路或1C,例如0ΜΑΡ )—般包括处理集群1400 (其一般执行上述并行处理)和提供宿主环境(在上面描述和引用)的主处理器1316。主处理器1316可以是宽的(即32位,64位等)RISC处理器(例如ARM Cortex_A9),并且与总线仲裁器1310、缓冲器1306、总线桥1320(其允许主处理器1316经由接口总线或Ibusl330访问外围接口 1324)、硬件应用编程接口(API) 1308以及中断控制器1322经由主处理器总线或HP总线1328进行通信。处理集群1400通常与功能电路1302(其可以例如是电荷耦合器件或CCD接口,并且可以与片外设备进行通信)、缓冲器1306、总线仲裁器1310以及外围接口 1324经由处理集群总线或PC总线1326进行通信。借助该配置,主处理器1316能够通过API1308提供信息(即将处理集群1400配置为符合期望的并行实现),同时处理集群1400和主处理器1316两者都可以直接访问闪存1256 (通过闪存接口 1312)和DRAM1254 (通过存储器控制器1304)。此外,通过联合测试行动组(JTAG)接口 1318可以执行测试和边界扫描。转到图4,根据·本公开实施例描绘了并行处理集群1400的示例。通常,处理集群1400对应于硬件722。处理集群1400 —般包括分区1402-1至1402-R,它们可以包括节点808-1 至 808-N、节点包装器(node wrapper)810-1 至 810-N、指令存储器(MEM) 1404-1 至1404-R以及总线接口单元或(BIU)4710-1至4710-R (其在下面详细讨论)。节点808-1至808-N各自耦合到数据互连814(分别通过BIU4710-1至4710-R以及数据总线1422),并且分区1402-1至1402-R的控制或消息可以通过消息1420从控制节点1406提供。全局加载/存储(GLS)单元1408和共享功能存储器1410也提供用于数据移动的额外功能(如下描述)。此外,三级或L3高速缓存1412、外围设备1414 (其一般不包括在IC内)、存储器1416(其通常是闪存1256和/或DRAM1254以及不包括在S0C1300内的其它存储器)以及硬件加速器(HWA)单元1418与处理集群1400 —起使用。还可以提供接口 1405,以便将数据和地址传递到控制节点1406。处理集群1400 —般使用“推”模型(“puSh”m0del)用于数据传递。传递一般表现为缓冲写入(posted write),而不是请求-响应型的访问。与请求-响应的访问相比,这有利于将全局互连(即数据互连814)的占用减小一半,因为数据传递是单向的。一般不期望将请求路由通过互连814,接着将响应路由到请求器,这导致在互连814上有两个转换。推模型产生单个传递。这对于可扩展性是很重要的,因为随着网络大小增加,网络延迟增加,这必然降低请求-响应事务处理的性能。推模型以及数据流协议(即812-1至812-N)—般将全局数据流量最小化到用于正确性的全局数据流量,同时也一般最小化全局数据流对本地节点利用的影响。通常对节点(即808-1)性能影响很少或没有影响,即使在大量全局流量的情况下。源将数据写入到全局输出缓冲器(下面讨论),并且继续而不需要确认传递成功。数据流协议(即812-1至812-N)一般确保在第一次尝试将数据移动到目的地时传递成功,从而在互连814进行单个传递。全局输出缓冲器(其在下面讨论)可以容纳高达16个输出(例如),从而使节点(即808-1)不太可能由于用于输出的瞬时全局带宽不足而拖延/停止(stall)。此外,瞬时带宽不被请求-响应事务处理或失败传递的重试影响。最后,推模型更紧密地匹配编程模型,即程序不“摄取”它们自己的数据。相反,它们的输入变量和/或参数在被调用之前被写入。在编程环境中,输入变量的初始化表现为由源程序对存储器进行写入。在处理集群1400中,这些写入被转换成缓冲写入,其将变量值填充(populate)在节点上下文中。全局输入缓冲器(其在下面讨论)用于接收来自源节点的数据。由于用于各节点808-1至808-N的数据存储器(DMEM)是单端口的,因此输入数据的写入可能与本地单输入多数据(SIMD)的读取相冲突。通过将输入数据接受到全局输入缓冲器中来避免这个竞争,其中全局输入缓冲器可以等待开放的数据存储器周期(即,与SIMD访问没有存储体(bank)冲突)。数据存储器可以具有32个存储体(例如),所以缓冲器很可能被快速释放。然而,节点(即808-1)应该具有空闲缓冲器条目,因为没有握手来确认传递。如果期望,全局输入缓冲器可以停止本地节点(即808-1)并且对数据存储器进行强制写入,从而释放缓冲器位置,但该事件应该极其罕见。通常,全局输入缓冲器被实现为两个独立的随机存取存储器(RAM),使得一个存储器可以处于对全局数据进行写入的状态,而另一个存储器处于被读取到数据存储器中的状态。消息传送互连与全局数据互连分开,但也采用了推模型。在系统级,节点808-1至808-N在处理集群1400中是复制的,类似于SMP或对称多处理,其中节点数量被缩放到期望的吞吐量。处理集群1400可以缩放到很大数量的节点。节点808-1至808-N可以被分组到分区1402-1至1402-R,其中每个分区具有一个或多个节点。分区1402-1至1402-R通过增加节点之间的本地通信并且允许较大的程序计算较大量的输出数据来帮助可扩展性,从而使其更可能满足期望的吞吐量要求。在分区(即1402-1)内,节点使用本地互连进行通信,并且不需要全局资源。分区(即1404-1)内的节点也可以以任何粒度共享指令存储器(即1404-1):从每个节点使用专用指令存储器到所有节点使用公共指令存储器。例如,三个节点可以共享指令存储器中的三个存储体,第四个节点具有指令存储器中的专用存储体。当节点共享指令存储器(即1404-1)时,节点一般同步执行相同的程序。处理集群1400也可以支持很大数量的节点(即808-1)和分区(即1402_i)。然而,每个分区的节点数量通常限制在4个,因为每个分区具有4个以上节点一般类似于非均匀存储器访问(NUMA)架构。在该情形中,通过具有大致恒定的截面带宽的一个(或多个)交叉互连(crossbar)(其在下面针对互连814进行描述)连接分区。处理集群1400目前被构建为每个周期传递一个节点宽度的数据(例如,64个16位像素),被分割成在4个周期上每个周期16像素的4个传递。处理集群1400 —般容许延迟,并且节点缓冲一般防止了即使在互连814接近饱和时的节点停止(应该注意,除了合成程序之外,该条件难以实现)。通常,处理集群1400包括在分区之间共享的全局资源:(I)控制节点1406,其实现整个系统的消息传送互连(经由消息总线1420)、事件处理和调度以及到主处理器和调试器的接口(所有这些都在下面详细描述)。(2)GLS单元1408,其包含可编程精简指令集(RISC)处理器,从而使系统数据移动可以由C++程序来描述,C++程序可以被直接编译为GLS数据移动线程。这使得系统代码能够在交叉宿主环境中执行,而不需要修改源代码,并且比直接存储器访问更加通用,因为它可以从系统或SMD数据存储器(下面描述)中的任何一组地址(变量)移动到任何另一组地址(变量)。它是多线程的,在(例如)0周期上下文切换的情况下,支持例如多达16个线程。(3)共享功能存储器1410,其是大的共享存储器,所述共享存储器提供了通用的查找表(LUT)和统计收集设施(直方图)。它也可以支持使用大的共享存储器进行的像素处理,例如重采样和失真校正,这种像素处理不被节点SMD很好地支持(出于成本原因)。该处理使用(例如)六发射(six-1ssue) RISC处理器(即SFM处理器7614,其在下面详细描述),从而实现标量、向量以及2D阵列作为原生类型。(4)硬件加速器1418,其可以被包括而用于不需要可编程性的功能,或者用于优化电力和/或面积。加速器表现为子系统,作为系统中的其它节点,参与控制和数据流,可以创建事件和被调度,并且对调试器可见。(在适用情况下,硬件加速器可以具有专用的LUT和统计收集)。(5)数据互连814和系统开放内核协议(OCP) L3连接1412。这些管理节点分区、硬件加速器以及系统存储器和外围设备之间在数据总线1422上的数据移动(硬件加速器还可以具有到L3的专用连接)。(6)调试接口。这些在示意图上未示出,但在本文件中有描述。转到图5,可以更详细地看出节点808-1的示例。节点808-1是处理集群1400中的计算元件,而用于寻址和程序流控制的基本元件是RISC处理器或节点处理器4322。通常,该节点处理器4322可以具有32位的数据路径,其中具有20位指令(在40位指令中可能有20位立即字段)。像素操作例如以如下方式执行:在一组32像素功能单元中,在SMD组织中,与从SMD数据存储器到SMD寄存器的四个加载(例如)和从SMD寄存器到SMD数据存储器的两个存储(例如)并行(节点处理器4322的指令集架构在下面的第7节中描述)。指令包描述(例如)一个RISC处理器内核指令、四个SMD加载和两个SMD存储,与由所有SMD功能单元4308-1至4308-M执行的3发射SMD指令并行。通常,加载和存储(从加载存储单元4318-1)在SMD数据存储器位置和SMD本地寄存器之间移动数据,这些数据可以例如代表多达64个16位像素。虽然SMD加载和存储使用共享的寄存器4320-1来进行间接寻址(也支持直接寻址),但是SMD寻址操作读取这些寄存器:寻址上下文由内核4320管理。内核4320具有用于寄存器溢出/填充、寻址上下文以及输入参数的本地存储器4328。为每个节点提供分区指令存储器1404-1,其中多个节点可以共享分区指令存储器1404-1,从而对跨越多个节点的数据集执行较大程序。节点808-1也包括支持并行的若干特征。全局输入缓冲器4316-1和全局输出缓冲器4310-1 (其结合Lf缓冲器4314-1和Rt缓冲器4312-1,一般包括用于节点808-1的输入/输出(10)电路)将节点808-1输入和输出与指令执行去耦合,从而使节点不太可能由于系统IO而停止。输入通常在处理之前很好地被接收(通过SMD数据存储器4306-1至4306-M,和功能单元4308-1至4308-M),并且使用备用周期(spare cycle)存储在SMD数据存储器4306-1至4306-M中(这很常见)。SIMD输出数据被写入全局输出缓冲器4210_i,并且从那里被路由通过处理集群1400,从而使节点(即808-1)即使在系统带宽接近其极限(这也是不可能的)时也不太可能停止。SMD数据存储器4306-1至4306-M和对应的SMD功能单元4306-1至4306-M的各自统称为“SMD单元”。SIMD数据存储器4306-1至4306-M被组织成具有可变大小的、被分配到相关或不相关任务的互不重叠的上下文。上下文在水平和垂直两个方向上都是完全共享的。在水平方向上进行共享使用只读存储器4330-1和4332-1,它们对于程序是只读的,但可通过写入缓冲器4302-1和4304-1、加载/存储(LS)单元4318_i或其它硬件进行写入。这些存储器4330-1和4332-1也可以是约512x2位大小。一般地,这些存储器4330_i和4332_i对应于相对于被操作的中央像素位置而言在左边和右边的像素位置。这些存储器4330-1和4332-1使用写缓冲机制(即写入缓冲器4302-1和4304_i)来调度写入,其中侧上下文写入通常不与本地访问同步。缓冲器4302-1 —般与当前操作的邻近像素(例如)上下文保持一致性。在垂直方向上进行共享使用SMD数据存储器4306-1至4306-M内的循环缓冲器;循环寻址是LS单元4318-1所施加的加载和存储指令支持的一种模式。通常使用上面描述的系统级依赖性协议保持共享数据一致性。上下文分配和共享由SMD数据存储器4306-1至4306-M上下文描述符在与节点处理器4322相关联的上下文状态存储器4326中指定。该存储器4326可以例如是16x16x32位或2x16x256位的RAM。这些描述符也指定了数据如何在上下文之间以完全通用的方式共享,并且保留信息以处理上下文之间的数据依赖性。上下文保存/恢复存储器4324通过允许寄存器4320-1并行保存和恢复,以此用于支持O周期任务切换(如上描述)。针对每个任务使用独立的上下文区域来保持SMD数据存储器4306-1至4306-M和处理器数据存储器4328上下文。SIMD数据存储器4306-1至4306-M和处理器数据存储器4328被划分成具有可变大小的可变数量的上下文。垂直帧方向的数据被保留并且在上下文本身内再使用。通过将上下文链接在一起成为水平组来共享水平帧方向的数据。重要的是要注意,上下文组织方式与计算中所涉及的节点数量以及它们如何彼此交互是基本上无关的。上下文的主要目的是保留、共享以及再使用图像数据,而不管操作该数据的节点的组织方式。通常,SIMD数据存储器4306-1至4306-M包含(例如)由功能单元4308-1至4308-M操作的像素和中间上下文。SMD数据存储器4306-1至4306-M —般划分成(例如)多达16个不相交的上下文区域,其各自具有可编程的基地址,其中从所有的上下文可访问公共区域,公共区域由编译器用于寄存器溢出/填充。处理器数据存储器4328包含输入参数、寻址上下文以及用于寄存器4320-1的溢出/填充区域。处理器数据存储器4328可以具有(例如)高达16个不相交的本地上下文区域,它们对应于SMD数据存储器4306-1至4306-M上下文,并且各自具有可编程的基地址。通常,节点(即节点808-1)例如具有三种配置:8个SMD寄存器(第一配置);32个SIMD寄存器(第二配置);以及32个SMD寄存器加上在每个较小的功能单元中有三个额外的执行单元(第三配置)。作为示例,图6更详细地示出了 SMD单元卿,SMD数据存储器4306-1和SMD功能单元4308-1)、节点处理器4322和LS单元4318-1的示例。如该示例中所示,SIMD功能单元4308-1通常由八个较小的功能单元4338-1到4338-8组成,使用第三配置。首先看处理器内核,节点处理器4332通常执行所有控制相关的指令并且保持在寄存器文件4340和4342 (分别)示出的所有地址寄存器值和SMD单元的专用寄存器值。至多六个(例如)存储器指令可以在一个周期中计算。对于地址寄存器值,地址源操作数从所示的SMD单元发送至节点处理器4332,并且节点处理器4332发送回寄存器值,其接着由SMD单元使用于地址计算。类似地,对于专用寄存器值,专用寄存器源操作数从所示的SIMD单元发送至节点处理器4322,并且节点处理器4322发送回寄存器值。节点处理器4322可以具有(例如)用于SMD的15个读取端口和6个写入端口。通常,15个读取端口包括(例如)容纳用于6个存储器指令中的每一个存储器指令的两个操作数(即Issrc和lssrc2)的12个读取端口,和用于专用寄存器文件4312的3个端口。通常,专用寄存器文件4342包括两个名为RCLIPMIN和RCLIPMAX的寄存器,其应该被提供在一起并且通常限制于16条目寄存器文件4342中的低四个寄存器。接着,在指令中直接指定RCLIPMAX和RCLIPMIN寄存器。其他专用寄存器RND和SCL由4位寄存器标识符指定并且可以位于16条目寄存器文件4342中的任意位置。此外,节点处理器4322包括程序计数器执行单元(PC EXE) 4344,其可以更新指令存储器1404-1。现在转到LS单元4318-1和SMD单元,图6示出了各自的通用结构。如所示,LS单元4318-1通常包括LS解码器4334、LS执行单元4336、逻辑单元4346、乘法单元4348、右执行单元4350和LS数据存储器4339 ;然而,下面提供关于LS单元4318-1的数据路径的细节。较小的功能单元4338-1至4338-8中的每一个通常(且分别)包括SMD寄存器文件4358-1到4358-8(例如,其可以分别包括32个寄存器)、左逻辑单元(LU)4352_1到4352-8、乘法单元(MU) 4354-1到4354-8和右逻辑单元(RU) 4356-1到4356-8。这些左逻辑单元4352-1到4352-8、乘法单元4354-1到4354-8和右逻辑单元4356-1到4356-8通常分别是是左单元4346、中单元4348和右单元4350的复制。此外,类似于LS单元4318_i,下面说明每个功能单元4338-1到4338-8的数据路径。此外,对于节点(即节点808-1)的三种示例配置,某些部件(即逻辑单元4352-1)的大小或对应的指令可以变化,而其他部件可以保持相同。LS数据存储器4339、查找表和直方图相对地保持相同。优选地,LS数据存储器4339可以是约512*32位,其中前16个位置保持上下文基地址,其余的位置可以由上下文访问。查找表或LUT (其通常在PC执行单元4344内)可以具有多达12个存储大小为16Kb的表,其中四个位可以用于选择表,十四个位可以用于寻址。直方图(其通常也位于PC执行单元4344中)可以具有4个表,其中直方图与LUT共享4位ID以选择表,并且使用8位用于寻址。下面的表I中,可以看出三种示
例配置中的每一种的指令大小,其可以对应各种部件的大小。
权利要求
1.一种装置,其特征在于: 计算单元(4308-1到4308-M,7607-1到7607-P),所述计算单元具有第一寄存器文件(4358-1 到 4358-8,7902);和 处理器(4322,7614),所述处理器耦合到所述计算单元(4308-1到4308-M,7607-1到7607-P),其中所述处理器(4322,7614)包括指令集,所述指令集具有自所述第一寄存器文件(4358-1到4358-8,7902)并且压缩的数据移动指令(MFVRC),其中所述处理器包括: 第二寄存器文件(5206); 地址引线(riSC_iS_ra),所述地址引线用于指示所述第一寄存器文件(4358-1到4358-8,7902)的写入地址; 数据接口引线(node_regf_rd),所述数据接口弓I线用于传递数据;和 数据移动引线(risc_is_mtvre),所述数据移动引线用于指示当所述数据移动引线上的信号状态改变时自所述第一寄存器文件(4358-1到4358-8,7902)并且压缩到所述第二寄存器文件(5206)中的数据移动指令(MFVRC)。
2.根据权利要求1所述的装置,其中所述地址引线(riSC_iS_ra)的特征进一步在于多个地址引线(risc_is_ra)。
3.根据权利要求2所述的装置,其中所述多个第二地址引线(riSC_iS_ra)为5位宽。
4.根据权利要求1、2或3所述的装置,其中所述处理器包括半字引线(riSC_iS_hwZ),其用于指示执行上半字写入、下半字写入、全字写入或是读取。
5.根据权利要求1、2、3或4所述的装置,其中所述半字引线(riSC_iS_hwZ)的特征进一步在于多个半字引线(risc_is_hwz)。
6.根据权利要求5所述的装置,其中所述多个半字引线(risC_is_hWZ)是2位宽。
7.根据权利要求1、2、3、4、5或6所述的装置,其中所述数据接口引线(node_regf_rd)的特征进一步在于多个数据接口引线(node_regf_rd)。
8.根据权利要求1、2、3、4、5、6或7所述的装置,其中所述计算单元(4308-1到4308-M,7607-1到7607-P)的特征进一步在于多个单输入多数据(SMD)功能单元(4308-1到4308-M)。
9.根据权利要求1、2、3、4、5、6或7所述的装置,其中所述计算单元(4308-1到4308-M,7607-1到7607-P)的特征进一步在于多个向量单元(7607-1到7607-P)。
10.一种方法,其特征在于: 改变数据移动引线(risc_is_mtvre)上的信号状态,以指示自计算单元(4308-1到4308-M, 7607-1到7607-P)中的第一寄存器文件(4358-1到4358-8,7902)并且压缩到处理器(4322,7614)中的第二寄存器文件(5206)中的数据移动指令(MFVRC); 经由地址引线(risc_is_ra)将写入地址从所述处理器(4322,7614)提供到所述计算单元(4308-1 到 4308-M, 7607-1 到 7607-P);和 经由数据接口引线(node_regf_rd)将数据从所述计算单元(4308-1到4308-M, 7607-1到7607-P)中的所述第一寄存器文件(4358-1到4358-8,7902)传递到所述处理器(4322,7614)中的所述第二寄存器文件(5206)。
11.根据权利要求10所述的方法,其中所述地址引线(risc_is_ra)的特征进一步在于多个第二地址引线(risc_is_ra)。
12.根据权利要求10或11所述的方法,其中所述方法的特征进一步在于指示经由半字引线(riSC_iS_hwZ)执行上半字写入、下半字写入、全字写入或是读取。
13.根据权利要求10、11或12所述的方法,其中所述半字引线(risc_is_hwz)的特征进一步在于多个半字引线(risc_is_hwz)。
14.根据权利要求10、11、12或13所述的方法,其中所述数据接口引线(node_regf_rd)的特征进一步在于多个数据接口引线(node_regf_rd)。
15.—种系统,其特征在于: 用于改变数据移动引线(risc_is_mtvre)上的信号状态,以指示自计算单元(4308-1到4308-M,7607-1到7607-P)中的第一寄存器文件(4358-1到4358-8,7902)并且压缩到处理器(4322,7614)中的第二寄存器文件(5206)中的数据移动指令(MFVRC)的装置; 用于经由地址引线(risc_is_ra)将写入地址从所述处理器(4322,7614)提供到所述计算单元(4308-1到4308-M, 7607-1到7607-P)的装置;和 用于经由数据接口引线(node_regf_rd)将数据从所述计算单元(4308-1到4308-M,7607-1到7607-P)中的所述第一寄存器文件(4358-1到4358-8,7902)传递到处理器(4322,7614)中的所述第二寄存器文件(5206)的装置。
16.根据权利要求15所述的系统,其中所述地址引线(risc_is_ra)的特征进一步在于多个第二地址引线(risc_is_ra)。
17.根据权利要求15或16所述的系统,其中所述系统的特征进一步在于用于指示经由半字引线(risC_is_hWZ)执行上半字写入、下半字写入、全字写入或是读取的装置。
18.根据权利要求1 5、16或17所述的系统,其中所述半字引线(risc_is_hwz)的特征进一步在于多个半字引线(risc_is_hwz)。
19.根据权利要求15、16、17或18所述的系统,其中所述数据接口引线(110(16_1'叩乙rd)的特征进一步在于多个数据接口引线(node_regf_rd)。
全文摘要
提供了一种用于将数据从计算单元(4308-1到4308-M,7607-1到7607-M)中的第一寄存器文件(4358-1到4358-8,7902)移动至处理器(4322,7614)中的第二寄存器文件(5206)的方法。改变数据移动引线(risc_is_mtwr)上的信号状态以指示从计算单元(4308-1到4308-M,7607-1到7607-M)中的第一寄存器文件(4358-1到4358-8,7902)到处理器(4322,7614)中的第二寄存器文件(5206)的数据移动指令。经由第一地址引线(risc_is_ra)提供从处理器(4322,7614)到计算单元(4308-1到4308-M,7607-1到7607-M)的通道地址。经由第二地址引线(risc_is_ra)提供从处理器(4322,7614)到计算单元(4308-1到4308-M,7607-1到7607-M)的读取地址,并且经由数据接口引线(node_regf_rd)将数据从计算单元(4308-1到4308-M,7607-1到7607-M)中的第一寄存器文件(4358-1到4358-8,7902)传递至处理器(4322,7614)中的第二寄存器文件(5206)。
文档编号G06F13/14GK103221939SQ201180055828
公开日2013年7月24日 申请日期2011年11月18日 优先权日2010年11月18日
发明者W·约翰森, J·W·戈楼茨巴茨, H·谢赫, A·甲雅拉, S·布什, M·琴纳坤达, J·L·奈, T·纳加塔, S·古普塔, R·J·尼茨卡, D·H·巴特莱, G·孙达拉拉彦 申请人:德克萨斯仪器股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1