元素选择单元及其中的方法

文档序号:8435819阅读:408来源:国知局
元素选择单元及其中的方法
【技术领域】
[0001] 本文的实施例涉及用于向量元素选择的元素选择以及其中的方法。另外的实施例 涉及包括元素选择单元的加载存储单元、包括元素选择单元的内存到内存传输系统、包括 元素选择单元的向量处理器以及包括向量处理器的集成电路。
【背景技术】
[0002] 对于一些数字信号处理算法,在计算可开始之前必须聚集或组织输入数据。例如, 当从线性输入向量中选择数据元素的分散集合时,所选择的数据元素可在计算能开始之前 聚集成后续数据元素的新线性输出向量。这种类型的数据聚集或组织例如在3GPP长期演 进(LTE)通信系统中的数据副载波的均衡处理中需要。LTE是使用正交频分复用(OFDM)的 无线通信标准。基于OFDM的通信系统通过施加(逆)傅里叶变换有效地解调(或调制)某 个数量的射频副载波。对于LTE,根据该模式,每秒存在12000或14000个OFDM符号。对于 20MHz带宽载波,每个OFDM符号的1200个副载波中的每个副载波都包括调制符号。调制符 号例如可以是用于信道估计的用户数据符号或导频符号。将各种类型信息信道和信号映射 在这些副载波上可能相当复杂并且分散。在进行数据信道的均衡处理之前,从输入OFDM符 号中提取一些接收器系统中的数据符号,并将数据符号级联成新向量。示例接收器系统包 括在其上映射均衡处理的向量处理器。
[0003] 动态存储器分配(DMA)经常用于将数据元素拷贝到嵌入系统中。通常,DMA单元传 输数据元素的较粗粒度块。表述"数据的较粗粒度块"是指具有大小在范围从数十字节到 数百万字节的数据块。数据块越小,即,数据突发越短,控制和配置数据传输的开销将越大。 DMA单元经常具有对于分散收集操作的支持,即,对于按顺序执行DMA配置的链接列表的支 持。选择LTE中的资源元素,即,选择例如32位的复杂字,对于DMA单元将是太细粒度。
[0004] 经典数字信号处理器OSP)操作在标量样本粒度上。因此,它们在从存储器加载 和向存储器存储上可能是非常有选择的。进一步说,在执行计算处理时可进行数据元素的 选择。从而,不需要执行将数据元素拷贝到临时数据向量。然而,应该指出,经典DSP的可 选择性,即标量样本粒度,可在信号处理软件中增加复杂控制结构。
[0005] 进一步说,装置一次加载和存储一个选择的标量元素需要相当长时间来聚集所有 选择的数据元素。
[0006] 作为示例,假定LTE类别5接收器可用。LTE类别5接收器是在20MHz频带中支持 300兆位/秒的下行链路数据速率并具有多输入多输出(MIM0)接收器配置(并且因此具有 4个接收天线)的接收器。进一步说,假定数据元素提取被映射到具有一个数据存储器接 口的标量DSP上。此类DSP然后为了此任务对于高达每秒134百万指令进行加载。对于加 载和存储操作,处理器负载被计算为4接收天线*1200数据符号/OFDM符号/天线*14000 OFDM符号/秒*2流线型处理器周期/数据元素选择。
[0007] 此外,为了选择4接收器天线流的数据元素,还必须执行从16信道估计流中选择 数据元素。选择模式具有与接收的符号流的数据元素选择相同的选择网格,并将导致高达 670 MIPS的处理器负载,这是相当大的开销,并且具有相当长的等待时间。对于加载和存 储操作,处理器负载被计算为16信道估计流*1200估计/OFDM符号/信道估计流*14000 OFDM符号/秒*2流线型处理器周期/数据元素选择。
[0008] 向量DSP执行数据元素向量上的运算。重要种类的运算是所谓的单指令多数据 (SMD)运算,该运算借助于相同并行处理单元的阵列执行多个输入向量上的相同算术运 算。SIMD运算要求算法是可向量化的,意味着输入数据元素应该能够作为相邻数据元素的 向量进行处理。通过可用硬件并行性,即并行处理单元,向量DSP能够执行SIMD运算,其相 比由经典非向量DSP提供的计算吞吐量提供了更高计算吞吐量。
[0009] 通常,向量DSP具有向量存储器。从而,向量DSP可在一个指令中访问后续数据元 素的向量。进一步说,向量DSP经常具有在其中存储中间结果的向量寄存器文件,由此可减 少到向量存储器的通信。而且,向量DSP要求向量存储器可提供的高存储器带宽,使得加载 和/或存储吞吐量可跟上计算吞吐量。
[0010] 向量DSP可具有对于向量内的数据元素重新组织的一些支持。例如,混洗单元可 能是可用的,该混洗单元可用于按输出数据元素选择特定输入数据元素。混洗运算函数可 基于具有绝对索引或相对距离的配置模式。
[0011] 能够从向量存储器加载和/或存储P数据元素向量的向量处理器或类似装置比具 有标量加载接口和/或标量存储接口的装置具有更高存储器带宽。对于以与存储器系统相 同的吞吐量的数据元素选择,向量处理器必须能够执行输入数据元素的混洗,并将选择的 数据元素聚集成一个或多个输出向量。具有混洗单元、向量寄存器文件和对于基于掩码的 元素选择的支持的向量处理器可执行这个任务。然而,因为选择模式可以是动态的,例如, 如在LTE元素提取情况下,因此这些混洗和掩码模式必须动态选择或计算。
[0012] 在飞行中的混洗模式和掩码模式计算给出了信号处理上的计算开销。布尔数据类 型和混洗模式数据类型上的运算必须由处理器支持。
[0013] 并不是所有处理器都支持模式计算。在一些向量处理器中,在编译时必须定义混 洗模式。将所有可能模式硬编码是不可能的。模式可被预先存储并且查找。要指出,可能 模式的总数在一般情况下是向量中数据元素的数量的函数。可能模式的总数可被计算为 P*2 p,即,计算为旋转偏移位置的数量(等于P)乘以可能掩码向量的数量(等于2P),其中P 是向量中数据元素的数量。模式数量,因此还有所需的存储内存,随着不断增长的向量大小 而激增。模式表因此必须是使用情况相关的,以使它更加成本有效。这使模式表和查找过 程更复杂。
[0014] 从表中计算或加载混洗和掩码模式给出了运行时间开销,其在某种程度上可在多 个流之间共享。此开销例如与均衡任务的计算运算不能是软件流线型的。
[0015] W02006/033056描述了用于混洗运算的微处理器装置和方法。微处理器装置包括 向量处理器架构,向量处理器架构具有功能向量处理器单元,功能向量处理器单元包括用 于存储多个索引向量的第一内存部件和处理部件。功能向量处理器单元布置成接收要处理 的处理指令和至少一个输入向量。第一内存部件布置成按照处理指令给处理部件提供所述 多个索引向量之一,并且处理部件布置成响应于所述指令生成至少一个输出向量,至少一 个输出向量按照所提供的一个索引向量将至少一个输入向量的元素重新布置。功能向量处 理器单元进一步包括预先处理部件,该预先处理部件布置成接收参数,并根据所述参数处 理一个索引向量的元素,之后按照所处理的索引向量生成所述至少一个输出向量。
[0016] 给向量处理器增加混洗电路以便支持数据元素选择,在所需的区域和功率方面是 代价高的。进一步说,混洗电路是昂贵电路,因为在混洗电路中包括的两输入复用器的数量 随着数据元素的数量P平方地缩放为(p-l)*p。然而要指出,完整混洗电路的区域受布线支 配,而在当前的互补金属氧化物半导体(CMOS)技术中受标准单元支配不是那么多。

【发明内容】

[0017] 本文实施例的目的是提供一种改进数据处理系统中的性能的办法。
[0018] 根据本文实施例的第一方面,所述目的通过在元素选择单元中用于向量元素选择 的方法实现。元素选择单元包括选择器控制电路和选择器数据路径电路,该选择器数据路 径电路包括多层,每层包括多个复用器。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1