减小的并行和流水线化的高阶mimolmmse接收器架构的制作方法

文档序号:7950319阅读:257来源:国知局
专利名称:减小的并行和流水线化的高阶mimo lmmse接收器架构的制作方法
技术领域
本发明主要地涉及用于使用多个发射天线和/或多个接收天线的扩频通信系统的接收器和有关方法,并且特别地涉及使用比如基于线性最小均方误差(LMMSE)的均衡器这样的均衡器的接收器。
背景技术
在发射器侧和接收器侧都使用多个天线的MIMO(多输入多输出)技术近来已经作为现代通信中最重要的技术突破之一而出现。原先的MIMO称为D-BLAST(见G.J.Foschini,″Layered space-timearchitecture for wireless communication in a fadingenvironment when using multielement antennas″,Bell Labs Tech.J.,pp.41-59,1996),以及一种通过复杂度与性能之间的合理权衡来进行无效和消除的更现实的策略称为V-BLAST(见G.D.Golden,J.G.Foschini,R.A.Valenzuela和P.W.Wolniansky,″DETECTIONALGORITHM AND INITIAL LABORATORY RESULTS USING V-BLASTSPACE-TIME COMMUNICATION ARCHITECTURE″,Electron.Lett,Vol35,pp.14-15,Jan.1999)。
原先的MIMO空间多路复用是针对窄带和平坦衰落信道而提出的。在多径衰落信道中,扩频码的正交性将被破坏并且引入了多址干扰(MAI)以及符号间干扰。利用很短的扩频增益,常规瑞克接收器不能提供可接受的性能。基于LMMSE(线性最小均方误差)的码片均衡器有希望恢复扩频码的正交性以便抑制ISI和MAI。然而,LMMSE均衡器涉及到一般复杂度为0((NF)3)的大型相关矩阵的求逆,其中N是Rx天线的数目而F是信道长度。这对于硬件实施而言非常昂贵。
早先用任一如下框架来解决码片均衡器问题
(i)自适应随机梯度算法如LMS;(ii)共轭梯度算法;以及(iii)基于FFT的MIMO码片均衡器。
选项(i)的算法受制于稳定性问题,因为收敛依赖于良好步长大小的选择(见M.J.Heikkila,K.Ruotsalainen和J.Lilleberg,″SPACE-TIME EQUALIZATION USING CONJUGATE-GRADIENT ALGORITHMIN WCDMA DOWNLINK″,IEEE Proceeding in PIMRC,pp.673-677,2002)。选项(ii)的算法根据Levinson和Shur表现出O((NF)2)阶的复杂度。对于选项(iii),基于FFT的均衡器将(NF×NF)矩阵求逆减少到大小为(N×N)的LF个子矩阵求逆(见J.Zhang,T.Bhatt,G.Mandyam,″EFFICENT L1NEAR EQUALIZATION FOR H1GHDATA RATE DOWNLINK CDMA SIGNALING″,Proceeding of IEEEAsilomar Conference on Signals,systems and Computers,2003)。
Zhang,Bhatt,Mandyam提出的上述基于FFT的快速算法使用了相关矩阵的带状托普利茨结构。虽然此基于FFT的算法避免了对维度为NF×NF的原相关矩阵的求逆,但是发明人认为一些矩阵求逆对于MIMO接收器在所难免。对于具有高维度的MIMO接收器,MIMO接收器的复杂度随着天线的数目显著地增加。感兴趣的主要运算是针对过采样因子为2的1×4、2×4和4×4MIMO配置或者1×2、2×2接收器的在频域中的多个4×4矩阵求逆这一架构。这是因为这些有望最有可能在不远的将来加以部署。接收器必须嵌入到便携设备中这一事实使得低复杂度移动接收器的设计对于低成本产品的普遍商业部署而言至关重要。出于实践考虑,有必要确定哪一矩阵求逆架构的范围最适合于VLSI实施。
本领域中所需的是一种用于在保持于便携无线设备、移动台如移动电话、具有双向通信的PDA、个人因特网接入设备和其它此类装置所施加的约束内的同时减少MIMO系统中接收器复杂度的接收器架构和相应的方法。

发明内容
本发明是一种用于恢复多径信道信号中扩频码正交性的方法和LMMSE接收器。通过对大小为N×N的数个子矩阵求逆来避免现有技术的整个NF×NF矩阵的求逆,其中N是接收天线的数目而F是信道长度参数。以厄密优化和树修剪来减少常规FFT设计模块的数目和复杂度,并且进一步简化子矩阵的求逆。
本发明在一个方面为包括从一连串子矩阵E的求逆中生成滤波器系数w集的装置的均衡器。子矩阵各自的大小不大于2×2,并且各自代表用于通过多径信道接收的扩频信号的近似相关矩阵Crr的元素。
在另一方面中,本发明是一种具有基于线性最小均方误差LMMSE的码片级均衡器的扩频接收器。该均衡器包括有限冲激响应FIR滤波器,该滤波器耦合到协方差估计器和抽头求解器的输出,该协方差估计器和抽头求解器可操作用以将块循环矩阵Crr的经傅立叶变换和求逆的子矩阵元素与经傅立叶变换的信道矩阵H进行组合。该块循环矩阵Crr是相关矩阵Rrr的近似。
在另一方面中,本发明是一种具有协方差估计器和抽头求解器装置的均衡器。这些装置具有耦合到有限冲激响应滤波器装置的输出,并且用于对块循环矩阵Crr的子矩阵元素执行快速傅立叶变换FFT和求逆而对信道矩阵H执行傅立叶变换。同上,块循环矩阵Crr是相关矩阵Rrr的近似。协方差估计器和抽头求解器装置还用于将经傅立叶变换和求逆的子矩阵与经傅立叶变换的信道矩阵进行组合。这些装置对不大于2×2的矩阵求逆。
在另一方面中,本发明是一种用以从多径信道接收信号的方法。该方法包括以至少两个接收天线来接收所述信号;以及通过将经傅立叶变换的信道矩阵与块循环矩阵Crr的经傅立叶变换和求逆的子矩阵元素进行组合来均衡所接收的信号,该块循环矩阵Crr是相关矩阵Rrr的近似。
本发明的其它方面包括使计算处理流线化(streamline)、使用于各种滤波器系数的计算并行化以及使各种参数在时间上流水线化以减少数据路径长度和消除重复计算。
参照与附图相结合的如下描述,本发明的实施例的这些及其它特征、方面和优点将变得明显。然而将理解到附图仅仅是为了对本发明进行说明的目的而设计的,不应理解为对本发明进行限制的限定。


下文更具体地参照除有规定之外未按比例绘制的以下附图来描述本发明。
图1是MIMO多码CDMA下行链路的系统模型。
图2是LMMSE码片均衡器的框图。
图3是基于FFT的MIMO均衡器抽头求解器的VLSI架构的框图。
图4是合并式2×2矩阵求逆和信道乘法的经厄密优化的数据路径。
图5(a)是分割式4×4矩阵求逆的数据依赖路径。
图5(b)是经厄密优化的4×4矩阵求逆的数据依赖。
图6是使用通用设计模块T、M和HINV的VLSI设计架构。
图7是M(A,B)处理单元的并行VLSIRTL架构布局。
图8是T(A11,A21,A22)设计块的RTL架构布局。
具体实施例方式
这里使用如下缩写词LMMSE线性最小均方误差;CDMA码分多址;SIMO单输入多输出;MIMO多输入多输出;FPGA现场可编程门阵列;VLSI超大规模集成电路;
ASIC专用集成电路;RTL寄存器传送层;DSP数字信号处理;FFT快速傅立叶变换如这里所用,除非另有具体指明,术语CDMA通指扩频通信系统(例如CDMA 2000)。运算符[]T和[]*指示了转置,而运算符[]H指示了本领域中已知的厄密运算。概括言之,本发明是一种复杂度减少的基于FFT的线性均衡器并且还包括一种用于所提出的MIMO接收器的完整并行VLSI架构。为了进一步减少复杂度,公开了利用相关系数和FFT算法结构的厄密优化。然后在子矩阵的求逆中应用厄密特征。减少状态的FFT模块避免对称系数和零系数的重复计算,由此减少常规FFT设计模块的数目和复杂度。
特别感兴趣的是在基于FFT的码片均衡器抽头求解器中的分割式4×4子矩阵和通用RTL方案。4×4子矩阵被分割成4个2×2子矩阵以便更好地适应于移动设备。然后通过探求分割式4×4求逆中的共性来显著地简化4×4矩阵求逆。根据特殊设计块导出通用架构以消除复数运算中的冗余度。经调节的模型有助于高效并行VLSI模块如“复数-厄密-乘法”、“厄密求逆”和“对角变换”的设计。这促成在复杂度上节省3x的高效架构以及更为并行和流水线化的RTL方案,这在FPGA原型平台中得到验证。此方法的可能应用包括符合1X EV-DV或者MIMO-HSDPA标准的下行链路CDMA移动设备。
在图1中描述了使用空间多路复用的MIMO多码CDMA下行链路系统10。在系统10中应用数目为M的发射(Tx)天线12和数目为N的接收(Rx)天线14,其中通常M≤N。在多码CDMA系统中,多个扩频码被分配给单个用户以实现高的数据速率。首先,在解多路复用器块16中将高数据速率符号解多路复用成K*M个较低速率的子流,其中K是系统中用于数据传输的扩频码的数目。子流被分解成M组,其中组中的各子流在关联扩频器18中以扩频增益为G的扩频码来扩频。子流组然后在求和节点20被组合并且在扰频器22以长扰码来进行扰频而且经由信道26通过第m个Tx天线12被发射到接收器24。在第m个发射天线处的码片级信号给定如下dm(i)=Σk-1Ksmk(j)·cmk[i]+smP(j)·cmP[i],---[1]]]>其中j是符号索引,i是码片索引,而k是复合扩频码的索引。smk[j]是第m个子流处第k个码的第j个符号。在下文中着重于第j个符号索引而省略该索引以求简明。cmk[i]=ck[i]cm(s)[i]]]>是用于第m个子流处第k个码的复合扩频码序列,其中ck[i]是用户特定的(user specific)哈达马扩频码,而cm(s)[i]是天线特定的(antenna specific)扰频长码。smP[j]标示了第m个天线处的导频符号。cmP[i]=cP[i]cm(s)[i]]]>是用于第m个天线处导频符号的复合扩频码。在第n个Rx天线处接收的码片级信号给定如下rn(i)=Σm=1MTΣr=0Lm,nhm,n(l)dm(i-τ1)+z(i),---(2)]]>其中信道通过如下信道矩阵来表征,该信道矩阵具有从第m个Tx天线与第n个Rx天线之间的信道系数中获得的元素hm,n(t)=Σl=0Lm,nhm,n(l)δ(t-τm,n,l).---[3]]]>与符号采样相对照,‘码片’级信号是指扩频码所扩频的码片采样。在扩频系统中,码片均衡器充当前端(其中采样通过扩频码来扩频)或者应对多径信道效应。在典型接收器中,解扩器在码片均衡器之后,用以在解扩之后检测单独符号。通过在向量r‾(i)=[r1(i),...rn(i),...rN(i)]T]]>中封装来自所有接收天线的接收码片并且收集LF=2F+1个连续码片(通常,中心位于所有N个Rx天线的第i个码片处),将信号矩阵形成为r‾A(i)=[r‾(i+F)T,...r‾(i)T,...r‾(i-F)T]T]]>(其中在字母标志符如X上方的字符 用来代表矩阵)。在向量形式下,接收信号可以给定如下r‾‾A‾(i)=Σm=1MH‾md‾m(i)---[4]]]>其中 是根据信道系数构造的块托普利茨矩阵。多个接收天线的信道向量定义为h‾(l)=[hm,l(l),...hm,n(l),...hm,N(l)]T.]]>用于第m个发射天线的发射码片向量给定为d‾M(l)=[dm,l(i+F),...dm,n(i),...dm,N(i-F-L)]T.]]>多个Tx天线的使用显著地增加频谱效率。可实现的数据速率随着Tx天线的数目几乎线性地增加。对于满负荷系统(M+K=G),可实现的比特率取决于Tx天线配置、调制方案和码片速率。表I给出了对于扩频因子(SF)为G=16和码片速率为3.84MHz的不同数目的发射天线而言可实现的聚集未编码数据速率。

表I可实现的未编码数据速率(Mbps)码片级均衡已经是单用户CDMA下行链路中最有前途的接收器之一。如图2中所示,接收器24中的码片级均衡器28以抽头求解器30进行操作并且输出码片级均衡信号到解扰器/解扩器32(表示为一个功能块,但是在实践中可以分解成两个或者更多),该解扰器/解扩器又输出到解交织器/解码器(在非限制性说明中也表示为一个功能块)。码片级均衡器28按照线性FIR滤波器系数集估计发射码片采样如下d‾^m(i)=w-^mHr‾‾A[i]---[5]]]>当前研究包括两种主要的均衡方式,即非自适应线性均衡器和自适应线性均衡器。非自适应线性均衡器通常假设观察窗中信道26的平稳性并且以比如LMMSE或者迫零这样的标准来设计均衡器28。众所周知,LMMSE求解给定如下w‾^mops=argminE[||d←m(i)-w‾^mHr‾‾A[i]||2],---[6]]]>=σd2(i)R‾w(i)-1E[r‾‾A[i]d‾‾mH(i)]]]>其中相关矩阵在遍历性的假设下按照时间平均给定如下R‾rr=E[r‾‾A[i]r‾‾mH(i)]=1NΣi=0N-1r‾‾A(i)r‾‾A(i)---[7]]]>而使用导频符号将信道系数估计为h‾^m=E[r‾‾A[i]d‾‾mH(i)].]]>在HSDPA标准中,总发射功率的约10%专用于公用导频信道(CPICH)。这将提供准确的信道估计。
使用信道的平稳性以及卷积性质,容易表明相关矩阵是带状块托普利茨矩阵 其中 是具有相关系数的N×N块矩阵。表明了在添加两个如下拐角矩阵之后可以通过块循环矩阵来对相关矩阵 进行近似 使用对角化定理的扩展,块循环矩阵可以分解如下C‾rr(D‾H⊗I‾)(Σi=0LF-1W‾t⊗E‾[i])(D‾H⊗I‾),---[8]]]>其中W‾=diag(1,WLF-1,...,WLF-(LF-1))]]>和WLF=ej(2π/LF)]]>是用于DFT计算的相位因子系数。运算符_标示了克罗内克尔积,而 是DFT矩阵。对于MIMO系统,可以表明MIMO均衡器抽头可以以如下等式来计算w‾^mops=(D‾H⊗I‾)·F‾-1·(D‾⊗I‾).---[9]]]>F‾=diag(F‾0,F‾1,...,F‾LF)]]>是块对角矩阵,该矩阵具有从循环矩阵第一列的逐元素FFT获得的元素。对于M×NMIMO系统,这将(NLFxNLF)矩阵的求逆减少到大小为N×N的子块矩阵的求逆。
系统级流水线为了实现实时实施,可以应用DSP处理器或者VLSI架构。移动设备的有限硬件资源和电源通常使硬件设计更具挑战性,尤其对于MIMO系统更是如此。然而,简单的实施在计算上具有多个冗余度。需要多个优化以更适合于实时实施。在架构、系统分割与流水线之间的交互着重于如下目标1)减少的计算复杂度;2)最少的硬件资源;3)用于关键计算部分的并行和流水线架构。
为了探求高效架构,详述任务如下·计算独立相关元素 并且通过添加拐角元素来形成循环 的第一块列为C‾rr(1)=[E‾
,...,E‾[L],0,...,0,E‾H[L],...,E‾H[1]]T.]]>各元素是N×N子块矩阵。
·获得 元素向量F‾n1,n2=FFT{E‾n1,n2(c)}]]>的逐元素FFT,其中E‾n1,n2(c)[i]=C‾rr(1)[(n1-i-1)*N+n2-1],]]>i=
,n1,n2∈[1,N]。
·对于m=[1,M],计算信道估计的逐维度FFT如下Φ‾m=(D‾⊗I‾)h‾^m=FFT(
]>n∈[1,N]·计算N×N子矩阵 的逆,其中F‾[i]-1=diag(F‾
-1,...,F‾[LF-1]-1).]]>·计算信道估计系数的FFT输出与子矩阵的逆的矩阵乘法Ψ‾m=P‾-1Φ‾m.]]>·计算矩阵乘法结果的逐维度IFFTw‾^mopt=(D‾H⊗I‾)Ψ‾m.]]>利用时序和数据依赖分析,在图3的框图中示出了用于接收器24的MIMO均衡器28的顶级设计块,该图还示出了虚线块内的抽头求解器30。系统级流水线是为求更佳模块性而设计的。相关估计块36在一个数据路径40a上从用于各码片的接收天线14获取多个输入采样以计算 第一列的相关系数。通过在 矩阵估计块38中添加拐角以形成矩阵 使之循环。完整系数被写到DPRAM 42(存储介质),而N×N逐元素FFT模块44计算[F‾
,...,F‾[LF]]=FFT{[E‾
,...,E‾[L],o,...o,E‾[L]H,...,E[1]H]}]]>另一并行数据路径40b用于信道估计以及如 中那样的对信道系数向量的M×N逐维度FFT。来自并行数据路径40b的导频符号用来在信道估计块44估计信道。这些在信道矩阵块46中组成对整个信道进行估计的矩阵,在另一FFT模块48获得该矩阵的FFT。子矩阵求逆和乘法块52从DPRAM 42获取信道和相关的FFT系数并且如 中那样进行计算。
最后,M×N逐维度IFFT模块54为均衡器抽头 生成结果并且将它们发射到M×N MIMO FIR块56以供滤波。为了反映正确时序,在前端的相关模块36和信道估计模块46将在吞吐模式下针对流传输输入采样进行工作。虚线块中的FFT/IFFT模块(44,50,54)构造抽头求解器30的后处理。它们适合于使用双点RAM块而在块模式下工作来传送数据。MIMO FIR滤波56也将在吞吐模式下针对缓存的流传输输入数据进行工作。
厄密优化和减少状态的FFT根据相关矩阵的循环特征,可以用如下引理来减少FFT计算的复杂度。定义相关矩阵的逐元素FFT为{E‾[1]⇒FFT[F‾i,j[1:LF]]N=N.]]>对于SIMO和MIMO情况,循环相关系数向量的逐元素FFT结果通过使用FFT计算的特征来允许厄密结构。厄密特征按照如下引理来给出。
引理1F‾i,j=conj(F‾i,j).]]>因此 的计算对于j<i是冗余的。
引理2由于 的虚部等于0,所以 的计算可以减少到全DFT的仅L/LF。与 有关的计算也减少到实数运算,节省了50%的复杂度。由于FFT算法应用了旋转系数的特征,所以引理2中厄密特征的应用并不简单。利用基于标准时间抽选(DIT)FFT算法的修剪运算可以导出针对减少状态的FFT(RS-FFT)的面向硬件的优化。不同类型的蝴蝶单元基于输出系数的特征而有差别,而在蝴蝶树中修剪不必要的计算分支。注意到在标准蝴蝶单元中,各运算涉及到具有四次实数乘法和两次实数加法的完全复数乘法。修剪增加了减少状态FFT架构的效率。虽然当FFT的数目增加到很大数目时使节省有减少,但是对于均衡器应用,FFT的长度保持于64点FFT的范围。RS-FFT节省了实数乘法的大致50%。本发明的某些方面利用厄密特征并且着重于块抽头求解器中逐元素FFT模块之后矩阵求逆和乘法模块的优化。
厄密矩阵求逆架构虽然基于FFT的抽头求解器避免了维度为NF×NF的原相关矩阵的直接矩阵求逆,但是对角矩阵 的求逆在所难免。对于具有高接收维度的MIMO接收器, 中的矩阵求逆和乘法并非微不足道。由于 矩阵的对角特征,所以它可以如F‾-1=diag(F‾0-1,F‾1-1,...,F‾LF-1-1)]]>中那样划分成大小为N×N的LF个子矩阵的逆。使用高斯消除的传统N×N矩阵求逆具有O(N3)复数运算的复杂度。根据第IV部分的厄密引理,不言而喻 的元素也是厄密对称的。关于厄密本征值分解有引理如下如果A‾∈C‾RDT]]>使得A‾=A‾H,]]>则存在酉矩阵U‾∈C‾RDT,]]>使得U‾HA‾U‾=Λ‾,]]>其中 是 的本征值的对角矩阵。Cholesky分解可以用来帮助这些矩阵的求逆。然而,此方法要求由于它们的复杂度而在硬件中优选为加以避免的算数平方根运算。如下具体描述单独地考虑两种特殊情况,即两个Rx天线和四个Rx天线,因为这些是最有可能被广泛采用的。将这些教导适应于不同数目的Rx天线在逻辑上是相符的。示出了基于块分割的探求、适合于VLSI(超大规模)实施的复杂度减少方案和高效架构。提取分割式块矩阵求逆的共性以设计用于可再次使用的模块性的通用RTL模块。通过再次使用2×2块分割来设计4×4接收器。
双天线MIMO/ST接收器根据等式[9],简单的分割在于针对 的矩阵求逆、然后是 和信道系数逐维度FFT的矩阵乘法。在这一分割中,先计算 中整个子块矩阵的求逆,然后是矩阵乘法。然而,此分割涉及到两个单独的循回结构。由于两个步骤具有同一循回结构,所以更希望合并这两个步骤并且减少开销。2×2子矩阵的求逆给定如下F‾-1=f0,0(k)f0,1(k)f1,0(k)f1,1(k)-1---[10]]]>=1f0,0(k)*f1,1(k)-f0,1(k)*f1,0(k)f1,1(k)-f0,1(k)-f1,0(k)f0,0(k).]]>令Γ‾=(D‾⊗I‾)h‾=[Γ‾0Γ‾1...Γ‾LF-1],]]>其中Γ‾k=[γ1(k)γ2(k)]]]>是逐维度FFT系数的第k个元素的组合,然后矩阵求逆和乘法的合并运算给定如下G‾=F‾-1·(D‾⊗I‾)h‾]]>=diag(F‾0-1,F‾1-1,,...,FLF-1-1)Γ‾---[11]]]>=[F‾0-1Γ‾0T,F‾1-1Γ‾1T,...,F‾LF-1-1Γ‾LF-1T]T]]>因此单个合并循回可以用来计算 的最终结果而不是使用单独的循回。然而,利用 的厄密特征,可以减少矩阵求逆和乘法模块中实数运算的次数。这是在实数、半复数和复数乘法/加法的区别之下来自引理1和引理2中特征的直接结果。它也得到如下所示用于矩阵G第k个元素的简化等式W‾(k)=1f0,0(k)·f1,1(k)-|f0,1(k)|2f1,1(k)oγ1(k)-f0,1(k)*γ2(k)f0,0(k)oγ2(k)-f0,1(k)a*γ1(k)---[12]]]>其中“a·b”意味着“实数×实数"乘法;“aob”意味着“实数×复数”乘法,而“a*b”意味着“复数×复数”乘法。复数除法为实数除法所取代。据此导出如图4中所示具有厄密优化的简化数据路径。在这一图中,f0,0(k)和f1,1(k)是实数。单个乘号意味着实数乘法。带圆圈的乘号意味着“实数×复数”乘法,而带矩形的乘号是“复数×复数”乘法。
根据图4不言而喻数据路径与现有技术的完全DMI相比显著地简化。这有助于定点实施中的缩放并且由此增加算法的稳定性。复杂度比较如下。基于所有复数的原矩阵求逆和乘法具有10次复数乘法+2次实数乘法。这对于一次循回就是42次实数乘法。对于FFT长度为32的块,将有42*32=1344次实数乘法。在简化的数据路径中有2次复数乘法+5次半复数乘法+1次实数乘法。这在各循回中等于19次实数乘法或者在一个块中等于608次实数乘法。注意也减少了对于来自逐元素FFT的接口的存储。节省了用于Im(f0,0),Im(f1,1),Re(f0,0)和Re(f1,1)的四个分布DPRAM。
具有4个Rx天线的接收器这包括1×4、2×4、4×4 SIMO和MIMO场合。注意到过采样的接收器分集也具有同一数学格式。因此这也可以是过采样因子为2的2个接收天线的情况。感兴趣的主要运算是4×4矩阵(其在N=2且过采样因子为2时出现)的求逆,所以有必要确定哪一可能矩阵架构的范围最适合于此应用。除最小化所用电路面积之外,该设计需要在短的时间预算内工作。用于此部分的高效计算架构节省了面积和时间资源。从一开始将 中的4×4子矩阵分割成2×2块子矩阵如下
F‾[i]4x4=f11[i]f12[i]f13[i]f14[i]f21[i]f22[i]f23[i]f24[i]f31[i]f32[i]f33[i]f34[i]f41[i]f42[i]f43[i]f44[i]=B‾11[i]B‾12[i]B‾21[i]B‾22[i]i---[13]]]>4×4矩阵的求逆可以通过四个2×2子矩阵的顺序求逆来进行。为求简明,将4×4元素矩阵求逆分割为F‾[i]-1=C‾11[i]C‾12[i]C‾21[i]C‾22[i].]]>可以表明子块按照如下等式来给定C‾22[i]=(B‾22[i]-B‾21[i]B‾11[i]-1B‾12[i])-1C‾12[i]=-B‾11[i]-1B‾12[i]C‾22[i].C‾21[i]=-C‾22[i]B‾21[i]B‾11[i]-1C‾11[i]=B‾11[i]-1-C‾12[i]B‾21[i]B‾11[i]-1---[14]]]>不考虑数据依赖,简单的计算将具有大小都为2×2的八次复数矩阵乘法、两次复数矩阵求逆和两次复数矩阵减法。但是这并不是很有效。考察数据依赖表现了数据路径中的一些重复运算。对于不考虑 矩阵的厄密结构这一普通情况,可以表明顺序计算具有图5a所给定的数据流的依赖路径。原始复杂度给定如下六次矩阵乘法、两次求逆和两次减法。根据数据路径流可以标识关键路径。
现在 矩阵的厄密结构用来导出更为并行和优化的计算架构。由于厄密矩阵的逆是厄密共轭,即F‾-1=[F‾-1]H,]]>可以表明B‾11-1[i]=[B‾11-1]HB‾12-1[i]=[B‾21-1]HB‾22-1[i]=[B‾22-1]H⇒C‾11-1[i]=[C‾11-1]HC‾12-1[i]=[C‾21-1]H.C‾22-1[i]=[C‾22-1]H]]>这通过去除具有厄密关系的重复计算块来得到数据路径。在图5(b)中示出了减少的数据路径,其中HINV意味着2×2厄密矩阵的求逆,而[]H是2×2矩阵的厄密运算。此数据路径可以称为分割式4×4矩阵求逆的简单厄密优化架构。
然而,此简单的处理没有得到最高效的计算架构。数据路径仍然是以很长的依赖路径来构造的。为了完全提取共性并且调节VLSI中的设计块,为不同类型的复数计算来定义对2×2矩阵的如下特殊运算符。这些特殊运算符将映射到VLSI处理单元(PU)以处理厄密矩阵的特殊特征。通过提取数据路径之中的共性来实现高级模块性。
·定义1“pPow(ab)=Re(a).Re(b)+Im(a).Im(b)”定义为两个复数的伪幂函数,而“Re(a,b)=Re(a).Re(b)-Im(a).Im(b)”定义为复数乘法的实部。
·定义2对于一般2×2矩阵 和厄雾2×2矩阵B‾=B‾H,]]>定义运算符CHM(复数-厄密-乘法)为M(A‾,B‾)=A‾B‾=a11a12a21a22b11b21*b21b22.]]>注意到除 之外所有数都是复数。
·定义3对于2×2厄密矩阵B‾=b11b21*b21b22=B‾H,]]>定义厄密求逆(HInv)运算符为HInv(B‾)=1(b11b22-|b21|2b22-b21*-b21b11.]]>此设计可以通过简单的实数乘法和除法而不是复数乘法和除法来实现。
·定义4将划分为四个子块的4×4厄密 给定为A‾=A‾11A‾21*A‾21A‾22=A‾H,]]> 的DT(对角变换)定义如下T(A‾)=T(A‾11,A‾21,A‾22)]]>=A‾22-A‾21A‾13A‾21H---[15]]]>=A‾22-M(A‾21,A‾11)A‾21H]]>利用这些定义,将4×4厄密矩阵F‾=F‾H]]>的求逆调节成对2×2矩阵的简化运算。在一些操纵之后,分割的子块计算等式可以使用所定义的运算符来映射到如下过程。
(1):B‾inv=Hinv(B‾11)=B‾invH;]]>(2):D‾=M(B‾21,B‾inv);]]>(3):C‾22=Hinv(T(B‾inv,B‾21,B‾22);]]>(4):C‾12=-M(D‾H,C‾22);becauseC‾12=C‾21H=-(C‾22D‾)H=-D‾HC‾22]]>(5):C‾11[i]=Binv+D‾HC‾22D‾=T(-C‾22,D‾H,B‾inv)]]>这得到了使用图6中通用处理单元的硬件映射,该图表现了总体计算复杂度是2HInv次运算、2次DT和1个额外的CHM块。由于符号反相符和厄密格式化符[]H完全没有硬件资源,所以计算复杂度取决于三个通用块。计算的数据路径表明不同设计模块之间的时序关系。此调节块图有助于设计高效并行VLSI模块,下文给出其细节。
并行架构模块现在导出用于普通 和 运算的高效设计模块。为了提取共性和减少冗余度,需要探求通用运算中涉及到的基本计算的时序关系。由于在 变换中嵌入了运算 ,所以需要以去除重复计算和再次使用高效计算架构的方式来设计接口。计算的分组和对临时寄存器的巧妙使用将消除冗余度并且赋予到设计模块的简单和通用的接口。对于单个 模块,令D‾=d11d12d21d22=M(A‾,B‾)=a11ob11+a11*b12a11*b21*+a12ob22a21ob11+a22*b21a21*b11*+a22ob22.]]>为了提取 和 运算中的共性,具有用于厄密矩阵的如下引理。引理如果B‾=B‾H]]>是2×2厄密矩阵,则 也是厄密矩阵。关联计算通过6次CM(复数乘法)、4次CRM(复数-实数乘法)、4次pPow(ab)和2次Re(a,b)来给出,其中6次CM是{a12*b21,a11*b21*,a22*b21,a21*b21*,d21*a11*,d22*a12*},4次“CRM”运算是{tmp1=(a11оb11),tmp3=(a12оb22,tmp5=(a21оb11),tmp7=(a22оb22)},而4次“pPow(ab)”运算是pPow(tmp1,a11*),pPow(tmp3,a12*),pPow(tmp5,a21*),pPow(tmp7,a22*)。两次Re(a,b)运算是Re(tmp2,a11*),Re(tmp6,a21*)。
证明对G‾=A‾B‾A‾H]]>的计算进行扩展和分组如下。
G‾=g11g12g21g22=A‾B‾A‾H=M(A‾,B‾)A‾H=a11ob11+a11*b12a11*b21*+a12ob22a21ob11+a22*b21a21*b21*+a22o&ogr;b22a11*a21*a12*a22*]]>这产生如下元素g11=(a11ob11)*a11+[a12*b21*a11*+a11*b21**a12*]+(a12ob22)*a12*;]]>g21=d21*a11*+d22*a12*;]]>g12=d21*a11*+d22*a12;]]>g22=(a21ob21)*a21*+[a22*b21*a21*+a21*b21**a22*]+(a22ob22)*a22*]]>在等式中,a*b意味着“复数×复数”乘法,而“aob”意味着“复数×实数”乘法。定义临时寄存器tmp1=(a11оb11),tmp2=(a12оb21),tmp3=(a12оb22),tmp5=(a21оb11),tmp6=a22*b21,tmp7=(a22оb22)。将这些临时值相加以生成d11,d12,d21,d22。然而,取代了使这些临时值与输入进行普通复数乘法以产生最终结果,可以利用这些变量的关系和使用特殊函数部分。例如,容易验证(a11ob11)*a11*=pPow(tmpL,a11),因为b11是a11的范数的标量。通过改变计算的次序和组合共同计算,可以最终表明 是具有如下给定的元素的厄密矩阵g11=pPow(tmp1,a11*)+2Re(tmp2,a11*)+pPow(tmp3,a12*)g21=d21*a11*+d22*a12*g12=g21*g22=pPow(tmp5,a21*)+2Re(tmp6,a21*)+pPow(tmp7,a22*)]]>因此可以如图7所示设计简化的 RTL模块,以 的实部和虚部以及如{b11(r),b21(r/i),b22(r)}中那样仅厄密矩阵 的必要元素作为输入。输出端口包括{tmp1,tmp2,tmp3,tmp5,tmp6,tmp7}。无需输出tmp4和tmp8。另外,虽然所有这些数具有复数值,但是与输入值的乘积无需是复数乘法。也只需计算d21,d22以获得 元素。从 运算中消除{tmp4,tmp8,d21,d22}中的冗余计算。从简化的 模块加以构建,4×4厄密矩阵的 变换的数据路径RTL模块按照图8来给定,其中定义了简化的函数部分{pPow(a,b)Re(a,b)}。 的输出端口包括独立元素{t11,t21,t22}。
性能和设计根据简化的通用设计模块,如图6中那样设计顶级RTL方案。与图4和图5中的设计相比较,这些架构表现了更佳的并行和减少的冗余度。由于在模块设计中提取 和 的共性,所以可以如下所示通过消除单独 模块进一步优化顶级中的RTL。因此,从第二个 模块中一起生成 和 的结果。此设计不仅将冗余度消除到最佳程度而且有助于多个子载波的流水线化。好得多地平衡数据路径以实现高速VLSI架构。
可以通过改变 模块中复数乘法的数值计算次序来进一步减少实数乘法的次数。传统上,复数乘法按照″c=cr+jci=(ar+jai)*(br+jbi)=(arbr-aibi)+j(arbi+aibr)″来给定。这具有四次独立实数乘法和两次实数加法。通过重排计算次序,可以提取共性并且减少实数乘法的次数如下(1)p1=arbr;p2=aibi;s1=ar+ai;s2=br+bi;(2)cr=p1-p2;d=(p1+p2);s=s1s2;(3)ci=s-d.
这在三个步骤中需要三次RM(实数乘法)和两次RA(实数加法)。考虑到RA比RM廉价得多,该成本是值得的。
通过利用矩阵元素的厄密特征来减少冗余计算从而简化RM和RA的次数。在表II中列举了不同基本计算的量度作为参考。不言而喻,2×2厄密矩阵的求逆需要七次RM和两次RA,而普通2×2矩阵的直接求逆需要二十六次RM。复数2×2矩阵乘法需要三十二次RM。如果使用4×4矩阵求逆的传统计算架构,需要8*8*4+2*6.5*4=308次RM和8*8*4+2*1.5*2+2*4*2=150次RA而无需利用数据依赖优化(DO)。即使利用简单的数据依赖优化,复杂度仍然是244次RM和102次RA。然而,单个

变换就4×4厄密矩阵而言需要共计6*3+4*2+4*2+2*2=38次RM。总而言之,实数乘法的次数是2x(38+7)=90次RM以计算具有厄密结构的

这仅是用以计算逆的传统架构的实数乘法的不到三分之一。注意到在更佳模块性和流水线化时也显著地缩短了关键数据路径。在表III中示出了就实数乘法而言的复杂度减少。

表II用于基本运算的RM和RA的次数

表III针对4×4矩阵求逆的复杂度减少基于上述算法优化,发明人已经展现了RTL设计在NallatechFPGA平台上的VLSI架构和原型。码片速率与3.84MHz的WCDMA码片速率一致,而发明人为Xilinx Virtex-II V6000 FPGA应用了38.4MHz的时钟速率。相关窗口被设置为对于所有4个接收天线都是10个码片。FFT大小是32点。在下文中给出主要设计块的规范吞吐模式相关计算、多个FFT/IFFT模块和4×4子矩阵的LF求逆。利用基于Precision-C(现在是Catapult-C)的设计方法来研究VLSI架构设计的多个面积/时间权衡。例如,对于16-FFT/IFFT模块,从一个极端上说,可以利用以蝴蝶树模式布局的并行蝴蝶单元和复数乘法器来设计完全并行和流水线架构。由于在经济上希望减少物理面积,所以这一点并不实际。将合并的多输入多输出FFT模块设计为利用控制逻辑和相位系数加载中的共性。总而言之,利用仅四个乘法器来为此模块实现面积/时间高效设计。对于4×4厄密矩阵的LF求逆,延迟对于6个乘法器而言是38埃秒。这得益于前述架构优化。

表IV主要FPGA设计模块的面积/时间规范本发明的当前实施是在FPGA平台中原型化的,而最佳模式被认为是实施为ASIC架构并且集成于通信码片中的PHY处理引擎中。当前RTL可以以ASIC技术为目标。速度关键元素包括用于MIMO相关、信道估计、FIR滤波和均衡器抽头求解器的可缩放架构。一种可选方式是将它实施于高端DSP处理器中。然而,DSP可能不能为具有流传输输入数据的时间关键块的实时处理而提供足够的并行和流水线化。
该优化减少了FFT的次数以及上述子矩阵求逆和乘法中实数运算的次数。这有助于算法在减少硬件资源的VLSI架构中的实时实施。它也对定点实施赋予了更佳的稳定性。感兴趣的主要运算是频域中多个4×4矩阵的求逆。这得到高效的架构,其3倍地节省了复杂度并具有更为并行和流水线化的RTL方案,这在FPGA原型平台中得到验证。本发明被认为对于在发射器和接收器都有多个天线的高端CDMA设备最为有利。对于简化分集阶数多达4的接收器设计(即过采样因子为2的4个接收天线或者2个接收天线)尤其有用,不过这些原则可以延及具有不同数目天线的其它接收器。
本领域技术人员应当认识到本发明的一个方面涉及一种数据存储介质,该数据存储介质存储用以指引数据处理器对利用至少两个天线从多径信道接收的信号进行均衡的程序指令。程序指令可操作用以使数据处理器执行如下操作,该操作通过对经傅立叶变换的信道矩阵与块循环矩阵Crr的经傅立叶变换和求逆的子矩阵元素进行组合来均衡所接收的信号,其中块循环矩阵Crr是相关矩阵Rrr的近似。数据存储介质可以包括码分多址多个输入CDMA接收器的一部分。
尽管已经图示和描述了当前被认为是请求保护的本发明的优选和可选实施例的内容,但是将认识到许多变化和改型可能由本领域技术人员想到。本意在于在所附权利要求中覆盖落入于请求保护的本发明的精神和范围内的所有那些变化和改型。
权利要求书(按照条约第19条的修改)1.一种扩频MIMO接收器,其使用并行计算架构和近似的相关矩阵Crr的2×2子矩阵的元素的厄密优化,测量至少2×2子矩阵元素,避免直接计算所述近似相关矩阵的逆傅立叶变换。
2.如权利要求1所述的接收器,其中所述子矩阵各自是具有从所述近似相关矩阵的列的逐元素快速傅立叶变换中获得的元素的块对角矩阵。
3.如权利要求2所述的接收器,其通过对所述子矩阵求逆并且将所述经求逆的子矩阵F-1与信道估计系数h的快速傅立叶变换进行组合来生成滤波器系数集。
4.如权利要求3所述的接收器,其中所述组合包括矩阵乘法F-1H(D)m,以及进一步其中所述装置对所述乘法的结果执行快速逆傅立叶变换以求解其元素w包括所述滤波器系数集的滤波器矩阵W。
5.如权利要求1所述的接收器,其中所述相关矩阵代表以每码片至少两次进行过采样的多于两个的偶数个接收天线或者两个接收天线。
6.如权利要求5所述的接收器,其中所述近似相关矩阵Crr的非零元素被分割成互斥2×2子矩阵B,而各所述分割的子矩阵被求逆。
7.如权利要求6所述的接收器,其中厄密优化包括对各所述分割的子矩阵执行快速傅立叶变换,所述子矩阵被转换和组合形成如下矩阵F‾[i]-1=C‾11[i]C‾12[i]C‾21[i]C‾22[i],]]>其中C‾22[i]=(B‾22[i]-B‾21[i]B‾11[i]-1B‾12[i])-1C‾12[i]=-B‾11[i]-1B‾12[i]C‾22[i]C‾21[i]=-C‾22[i]B‾21[i]B‾11[i]-1C‾11[i]=B‾11[i]-1-C‾12[i]B‾21[i]B‾11[i]-1;]]>所述矩阵与经傅立叶变换的信道矩阵相乘产生F-1H(D)m,并对F-1H(D)m执行快速逆傅立叶变换。
8.如权利要求7所述的接收器,其中对于各2×2子矩阵B,独立地确定和存储仅三个元素,而根据所述存储的三个元素中的至少一个元素来确定第四元素。
9.如权利要求8所述的接收器,通过对所述三个存储的元素的三次单独的计算运算来生成滤波器系数集,所述计算运算包括对输入2×2矩阵 的对角变换T(A‾)=T(A‾11,A‾21,A‾22);]]>对输入2×2厄密矩阵的厄密逆运算HINV;以及对两个输入2×2矩阵的复数-厄密-乘法M(A‾,B‾)=A‾B‾=a11a12a21a22b11b21*b21b22.]]>10.如权利要求9所述的接收器,其设置于接收器内,其中用于各第k个扩频码的所述滤波器系数集如下g11=(a11ob11)*a11+[a12*b21*a11*+a11*b21**a12*]+(a12ob22)*a12*;]]>g21=d21*a11*+d22*a12*;]]>g12=d21*a11*+d22*a12;and]]>g22=(a21ob21)*a21*+[a22*b21*a21*+a21*b21**a22*]+(a22ob22)*a22*.]]>11.如权利要求10所述的接收器,其中在确定各第k个扩频码滤波器系数时存储和再次使用至少一些计算组合。
12.如权利要求11所述的接收器,其中用于各第k个扩频码的所述滤波器系数集如下g11=pPow(tmp1,a11*)+2Re(tmp2,a11*)+pPow(tmp3,a12*)g21=d21*a11*+d22*a12*g12=g21*g22=pPow(tmp5,a21*)+2Re(tmp6,a21*)+pPow(tmp7,a22*);]]>其中tmp1,tmp2,tmp3,tmp5,tmp6和tmp7是存储于存储器中的计算组合的值,d21和d22是从矩阵B和A的复数厄密乘法中获得的2×2矩阵D的元素,而对于两个复数a和b而言pPow(a,b)=Re(a).Re(b)+Im(a).Im(b)。
13.一种用以从多径信道接收信号的方法,包括以至少两个接收天线来接收所述信号;确定至少大小为4×4的块循环矩阵Crr,所述块循环矩阵Crr是相关矩阵Rrr的近似;并行地,利用块循环矩阵的2×2子矩阵元素的厄密优化来解决逆傅立叶变换而不直接计算该逆傅立叶变换;以及通过将经傅立叶变换的信道矩阵与所述块循环矩阵Crr的经傅立叶变换和求逆的子矩阵元素进行组合来均衡所述接收的信号。
14.如权利要求13所述的方法,其中对各所述2×2子矩阵元素执行傅立叶变换,所述子矩阵被转换和组合形成如下矩阵F‾[i]-1=C‾11[i]C‾12[i]C‾21[i]C‾22[i],]]>其中C‾22[i]=(B‾22[i]-B‾21[i]B‾11[i]-1B‾12[i])-1C‾12[i]=-B‾11[i]-1B‾12[i]C‾22[i]C‾21[i]=-C‾22[i]B‾21[i]B‾11[i]-1C‾11[i]=B‾11[i]-1-C‾12[i]B‾21[i]B‾11[i]-1;]]>所述矩阵与经傅立叶变换的信道矩阵相乘产生F-1H(D)m,并对F-1H(D)m执行快速逆傅立叶变换。
15.如权利要求14所述的方法,其中通过三个单独的计算运算的布局来执行所述组合,所述计算运算包括对输入2×2矩阵 的对角变换T(A‾)=T(A‾11,A‾21,A‾22);]]>对输入2×2厄密矩阵的厄密逆运算HINV;以及对两个输入2×2矩阵的复数-厄密-乘法M(A‾,B‾)=A‾B‾=a11a12a21a22b11b21*b21b22.]]>16.如权利要求13所述的方法,还包括根据所述组合来生成滤波器系数集,对于所述接收信号的各第k个扩频码,所述滤波器系数包括g11=(a11ob11)*a11+[a12*b21*a11*+a11*b21**a12*]+(a12ob22)*a12*;]]>g21=d21*a11*+d22*a12*;]]>g12=d21*a11*+d22*a12;and]]>g22=(a21ob21)*a21*+[a22*b21*a21*+a21*b21**a22*]+(a22ob22)*a22*.]]>17.如权利要求13所述的方法,还包括根据所述组合来生成滤波器系数集,对于所述接收信号的各第k个扩频码,所述滤波器系数包括g11=pPow(tmp1,a11*)+2Re(tmp2,a11*)+pPow(tmp3,a12*)g21=d21*a11*+d22*a12*g12=g21*g22=pPow(tmp5,a21*)+2Re(tmp6,a21*)+pPow(tmp7,a22*);]]>
其中tmp1,tmp2,tmp3,tmp5,tmp6和tmp7是所确定的并存储于存储器中的计算组合的值,d21和d22是从矩阵B和A的复数厄密乘法中获得的2×2矩阵D的元素,而对于两个复数a和b而言pPow(a,b)=Re(a).Re(b)+Im(a).Im(b)。
权利要求
1.一种均衡器,包括如下装置,所述装置从对一连串子矩阵E的求逆中生成滤波器系数w集,所述子矩阵各自的大小不大于2×2并且代表用于通过多径信道接收的扩频信号的近似相关矩阵Crr的元素。
2.如权利要求1所述的均衡器,其中所述均衡器是线性最小均方误差LMMSE均衡器。
3.如权利要求1所述的均衡器,其中所述均衡器是线性最小均方误差LMMSE码片级均衡器。
4.如权利要求1所述的均衡器,其中所述子矩阵各自是具有从所述近似相关矩阵的列的逐元素快速傅立叶变换中获得的元素的块对角矩阵。
5.如权利要求4所述的均衡器,其中所述均衡器通过将所述经求逆的子矩阵F-1与信道估计系数h的快速傅立叶变换进行组合来生成所述滤波器系数集。
6.如权利要求5所述的均衡器,其中所述组合包括矩阵乘法F-1H(D)m,以及进一步其中所述装置对所述乘法的结果执行快速逆傅立叶变换以求解其元素w包括所述滤波器系数集的滤波器矩阵W。
7.如权利要求8所述的均衡器,其中对于各第k个滤波器系数,所述经快速傅立叶变换的列元素被求逆F‾-1=f0,0(k)f0,1(k)f1,0(k)f1,1(k)-1]]>并且与所述经傅立叶变换的信道矩阵H中所述信道系数h的所述第k个元素的组合Γ‾k=[γ1(k)γ2(k)]]]>进行矩阵相乘。
8.如权利要求1所述的均衡器,其中所述均衡器形成接收器中的如下部分,所述部分具有以每码片至少两次进行过采样的多于两个的偶数个接收天线或者两个接收天线。
9.如权利要求8所述的均衡器,其中所述近似相关矩阵Crr的非零元素被分割成互斥2×2子矩阵B,而各所述分割的子矩阵被求逆。
10.如权利要求9所述的均衡器,其中对各所述分割的子矩阵执行快速傅立叶变换,所述子矩阵被转换和组合形成如下矩阵F‾[i]-1=C‾11[i]C‾12[i]C‾21[i]C‾22[i],]]>其中C‾22[i]=(B‾22[i]-B‾21[i]B‾11[i]-1B‾12[i])-1C‾12[i]=-B‾11[i]-1B‾12[i]C‾22[i]C‾21[i]=-C‾22[i]B‾21[i]B‾11[i]-1C‾11[i]=B‾11[i]-1-C‾12[i]B‾21[i]B‾11[i]-1;]]>所述矩阵与经傅立叶变换的信道矩阵相乘产生F-1H(D)m,并对F-1H(D)m执行快速逆傅立叶变换。
11.如权利要求10所述的均衡器,其中对于各2×2子矩阵B,独立地确定和存储仅三个元素,而根据所述存储的三个元素中的至少一个元素来确定第四元素。
12.如权利要求11所述的均衡器,通过对所述三个存储的元素的三次单独的计算运算来生成所述滤波器系数集,所述计算运算包括对输入2×2矩阵 的对角变换T(A‾)=T(A‾11,A‾21,A‾22);]]>对输入2×2厄密矩阵的厄密逆运算HINV;以及对两个输入2×2矩阵的复数-厄密-乘法M(A‾,B‾)=A‾B‾=a11a12a21a22b11b21*b21b22.]]>
13.如权利要求12所述的均衡器,其设置于接收器内,其中用于各第k个扩频码的所述滤波器系数集如下g11=(a11·b11)*a11+[a12*b21*a11*+a11*b21**a12*]+(a12·b22)*a12*;]]>g21=d21*a11*+d22*a12*;]]>g12=d21*a11*+d22*a12;and]]>g22=(a21·b21)*a21*+[a22*b21*a21*+a21*b21**a22*]+(a22·b22)*a22*.]]>
14.如权利要求13所述的均衡器,其中在确定各第k个扩频码滤波器系数时存储和再次使用至少一些计算组合。
15.如权利要求14所述的均衡器,其中用于各第k个扩频码的所述滤波器系数集如下g11=pPow(tmp1,a11*)+2Re(tmp2,a11*)+pPow(tmp3,a12*)g21=d21*a11*+d22*a12*g12=g21*g22=pPow(tmp5,a21*)+2Re(tmp6,a21*)+pPow(tmp7,a22*);]]>其中tmp1,tmp2,tmp3,tmp5,tmp6和tmp7是存储于存储器中的计算组合的值,d21和d22是从矩阵B和A的复数厄密乘法中获得的2×2矩阵D的元素,而对于两个复数a和b而言pPow(a,b)=Re(a).Re(b)+Im(a).Im(b)。
16.一种扩频接收器,包括基于线性最小均方误差LMMSE的码片级均衡器,所述均衡器包括有限冲激响应FIR滤波器,所述滤波器耦合到协方差估计器和抽头求解器的输出,所述协方差估计器和抽头求解器可操作用以将块循环矩阵Crr的经傅立叶变换和求逆的子矩阵元素与经傅立叶变换的信道矩阵H进行组合,所述块循环矩阵Crr是相关矩阵Rrr的近似。
17.如权利要求16所述的扩频接收器,其中所述子矩阵元素的维度大于2×2并且被分割成较小矩阵、被求逆和组合形成所述经傅立叶变换和求逆的子矩阵元素。
18.如权利要求16所述的扩频接收器,其中经傅立叶变换和求逆的块循环矩阵Crr的所述子矩阵元素与所述经傅立叶变换的信道矩阵H进行矩阵相乘,并对结果进行逆傅立叶变换。
19.如权利要求16所述的扩频接收器,其中所述均衡器使用电路来实施。
20.如权利要求16所述的扩频接收器,其中所述均衡器使用软件来实施。
21.如权利要求16所述的扩频接收器,其中所述均衡器使用电路和软件的组合来实施。
22.如权利要求16所述的扩频接收器,其中所述接收器包括多输入CDMA接收器。
23.如权利要求16所述的扩频接收器,其中所述接收器包括多输入多输出MIMO CDMA接收器。
24.一种均衡器,包括协方差估计器和抽头求解器装置,所述协方差估计器和抽头求解器装置具有耦合到有限冲激响应滤波器装置的输出,所述协方差估计器和抽头求解器装置对块循环矩阵Crr的子矩阵元素执行快速傅立叶变换FFT和求逆而对信道矩阵H执行傅立叶变换,所述块循环矩阵Crr是相关矩阵Rrr的近似,以及所述协方差估计器和抽头求解器装置将所述经傅立叶变换和求逆的子矩阵与所述经傅立叶变换的信道矩阵进行组合,所述装置对不大于2×2的矩阵求逆。
25.如权利要求24所述的均衡器,其中所述均衡器形成码分多址CDMA下行链路接收器的一部分。
26.如权利要求24所述的均衡器,其中所述均衡器是线性最小均方误差LMMSE均衡器。
27.如权利要求24所述的均衡器,其中所述均衡器是线性最小均方误差LMMSE码片级均衡器。
28.如权利要求24所述的均衡器,其中所述均衡器形成具有多输入多输出MIMO架构的码分多址CDMA接收器的一部分。
29.一种用以从多径信道接收信号的方法,包括以至少两个接收天线来接收所述信号;以及通过将经傅立叶变换的信道矩阵与块循环矩阵Crr的经傅立叶变换和求逆的子矩阵元素进行组合来均衡所述接收的信号,所述块循环矩阵Crr是相关矩阵Rrr的近似。
30.如权利要求29所述的方法,其中所述将经傅立叶变换的信道矩阵与块循环矩阵Crr的经傅立叶变换和求逆的子矩阵元素进行组合通过具有耦合到有限冲激响应滤波器的输出的抽头求解器来实施。
31.如权利要求29所述的方法,其中均衡使用线性最小均方误差LMMSE技术。
32.如权利要求29所述的方法,其中均衡使用线性最小均方误差LMMSE码片级技术。
33.如权利要求29所述的方法,其中接收和均衡在码分多址多输入CDMA接收器内发生。
34.如权利要求29所述的方法,其中所述组合包括矩阵乘法F-1H(D)m,所述方法还包括对所述乘法的结果执行快速逆傅立叶变换以求解其元素w包括FIR滤波器系数集的滤波器矩阵W。
35.如权利要求34所述的方法,其中对于各第k个滤波器系数,所述经傅立叶变换的子矩阵元素被求逆F‾-1=f0,0(k)f0,1(k)f1,0(k)f1,1(k)-1]]>并且与所述经傅立叶变换的信道矩阵H中所述信道系数h的所述第k个元素的组合Γ‾k=[γ1(k)γ2(k)]]]>进行矩阵相乘。
36.如权利要求29所述的方法,其中被求逆以求解滤波器系数集的所有矩阵的维度为2×2。
37.如权利要求29所述的方法,其中所述经求逆的子矩阵元素的维度大于2×2,所述方法还包括将所述子矩阵元素分割成互斥块子矩阵并且对各互斥块子矩阵求逆。
38.如权利要求37所述的方法,其中对各所述分割的子矩阵执行傅立叶变换,所述子矩阵被转换和组合形成如下矩阵F‾[i]-1=C‾11[i]C‾12[i]C‾21[i]C‾22[i],]]>其中C‾22[i]=(B‾22[i]-B‾21[i]B‾11[i]-1B‾12[i])-1C‾12[i]=-B‾11[i]-1B‾12[i]C‾22[i]C‾21[i]=-C‾22[i]B‾21[i]B‾11[i]-1C‾11[i]=B‾11[i]-1-C‾12[i]B‾21[i]B‾11[i]-1;]]>所述矩阵与经傅立叶变换的信道矩阵相乘产生F-1H(D)m,并对F-1H(D)m执行快速逆傅立叶变换。
39.如权利要求29所述的方法,其中通过三个单独的计算运算的布局来执行所述组合,所述计算运算包括对输入2×2矩阵 的对角变换T(A‾)=T(A‾11,A‾21,A‾22);]]>对输入2×2厄密矩阵的厄密逆运算HINV;以及对两个输入2×2矩阵的复数-厄密-乘法M(A‾,B‾)=A‾B‾=a11a12a21a22b11b21*b21b22.]]>
40.如权利要求29所述的方法,还包括根据所述组合来生成滤波器系数集,对于所述接收信号的各第k个扩频码,所述滤波器系数包括g11=(a11·b11)*a11+[a12*b21*a11*+a11*b21**a12*]+(a12·b22)*a12*;]]>g21=d21*a11*+d22*a12*;]]>g12=d21*a11*+d22*a12;and]]>g22=(a21·b21)*a21*+[a22*b21*a21*+a21*b21**a22*]+(a22·b22)*a22*.]]>
41.如权利要求29所述的方法,还包括根据所述组合来生成滤波器系数集,对于所述接收信号的各第k个扩频码,所述滤波器系数包括g11=pPow(tmp1,a11*)+2Re(tmp2,a11*)+pPow(tmp3,a12*)g21=d21*a11*+d22*a12*g12=g21*g22=pPow(tmp5,a21*)+2Re(tmp6,a21*)+pPow(tmp7,a22*);]]>其中tmp1,tmp2,tmp3,tmp5,tmp6和tmp7是所确定的并存储于存储器中的计算组合的值,d21和d22是从矩阵B和A的复数厄密乘法中获得的2×2矩阵D的元素,而对于两个复数a和b而言pPow(a,b)=Re(a).Re(b)+Im(a).Im(b)。
42.一种数据存储介质,存储用以指引数据处理器对利用至少两个天线从多径信道接收的信号进行均衡的程序指令,包括如下操作,该操作通过将经傅立叶变换的信道矩阵与块循环矩阵Crr的经傅立叶变换和求逆的子矩阵元素进行组合来均衡所述接收的信号,其中块循环矩阵Crr是相关矩阵Rrr的近似。
43.如权利要求42所述的数据存储介质,其中所述将所述经傅立叶变换的信道矩阵与所述块循环矩阵Crr的所述经傅立叶变换和求逆的子矩阵元素进行组合的操作包括操作具有耦合到有限冲激响应滤波器的输出的抽头求解器。
44.如权利要求42所述的数据存储介质,其中所述均衡操作使用线性最小均方误差LMMSE技术。
45.如权利要求42所述的数据存储介质,其中所述均衡操作使用线性最小均方误差LMMSE码片级技术。
46.如权利要求42所述的数据存储介质,其中所述数据存储介质包括码分多址多输入CDMA接收器的一部分。
全文摘要
公开了一种为通过N个接收天线接收的扩频信号恢复下行链路信道中扩频码正交性的LMMSE接收器。基于FFT的码片均衡器抽头求解器将现有技术的直接矩阵求逆减少到大小为N×N的一些子矩阵的求逆,N为接收天线的维度,并且最高效地将矩阵逆减少到不大于2×2。还按照厄密优化通过常规快速傅立叶变换方式将复杂度进一步减少到子矩阵求逆和树修剪。对于双重过采样的N=4或者N=2的接收器,所得4×4矩阵被分割成2×2块子矩阵、被求逆并且重建成4×4矩阵。找到共同计算并且消除重复计算以提高效率。从特殊设计块导出通用设计架构以消除复数运算中的冗余度。最优地,该架构是并行和流水线化的。
文档编号H04B1/707GK101091366SQ200580045166
公开日2007年12月19日 申请日期2005年11月4日 优先权日2004年11月24日
发明者郭远斌, 张建中, D·麦凯恩, J·R·卡瓦拉罗 申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1