用于矢量化矩阵的确定的方法和装置与流程

文档序号:15742269发布日期:2018-10-23 22:29阅读:373来源:国知局
用于矢量化矩阵的确定的方法和装置与流程

本发明涉及有线通信系统内的串扰减轻,并且更具体地涉及用于确定矢量化矩阵的方法和装置,所述矢量化矩阵被用于联合处理通过多个用户线进行传输或从多个用户线接收的离散多音调(DMT)通信信号。



背景技术:

串扰(或信道间干扰)是诸如数字用户线(DSL)通信系统等有线通信系统的信道损害的主要来源。

随着对更高数据速率的需求的增加,系统正朝着更高的频带发展,其中相邻传输线(即,在其长度的一部分或全部附近的传输线,诸如在电缆粘合剂中的绞合铜线对)之间的串扰更明显(频率越高,耦合越多)。

例如,在参见G.993.2并且由国际电信联盟(ITU)于2010年4月采用的题为“Very High Speed Digital Subscriber Line Transceivers2”(下文中称为VDSL2)的建议中,发射频谱从2MHz(ADSL2+)扩展到17MHz,发射曲线为17a并且载波间隔为4,3125kHz。在G.9701ITU建议书(下文中为G.fast)中,发射频谱高达106MHz,发射曲线为106a并且载波间隔为51.75kHz。甚至还定义了212MHz的发射曲线以供进一步研究。

已经开发了不同的策略来减轻串扰并且最大化有效吞吐量、范围和线路稳定性。这些技术正逐渐从静态或动态频谱管理技术演变为多用户信号协调,即矢量化。

用于减轻串扰的一种矢量化技术是信号预编码:使用户数据符号在通过相应的通信信道进行传输之前联合传递通过预编码器。预编码器使得预编码器和通信信道的级联在接收器处导致很少或没有导致信道间干扰。

用于减轻串扰的另一种矢量化技术是信号后编码(或后处理):使接收数据符号在被检测之前联合传递通过后编码器。后编码器使得通信信道和后编码器的串联在检测器处导致很少或没有导致信道间干扰。后编码器也称为串扰消除滤波器。

信号矢量化通常在业务聚合点处执行,这是因为需要在协同定位收发器之间的多用户信号协调:信号预编码特别适合于下游通信(即,朝向客户驻地),而信号后编码特别适合于上游通信(即,来自客户驻地)。

更正式地说,N×N多输入多输出(MIMO)信道可以通过以下线性模型来描述:

Yk=HkXk+Zk,

其中N分量复矢量Xk(相应地Yk)是离散频率表示,其是通过N个矢量信道传输(相应地从N个矢量信道接收)的符号的频率索引k的函数,

其中N×N复矩阵Hk是信道矩阵:信道矩阵Hk的第(i,j)分量hij描述通信系统如何响应于信号被馈送到第j信道输入而在第i信道输出上产生信号;信道矩阵的对角元素描述直接信道耦合,并且信道矩阵的非对角元素(也称为串扰系数)描述信道间耦合,以及

其中N分量复矢量Zk表示N个信道上的加性噪声,诸如射频干扰(RFI)或热噪声。

将遵循以下数学符号:粗体大写字母表示矩阵;粗体小写字母表示列矢量;并且常规小写字母表示实或复标量。

信号预编码和后编码有利地借助于矩阵乘法来实现。

在下游,在通过相应通信信道的实际传输之前,线性预编码器在传输矢量Uk的频域中利用预编码矩阵Pk执行矩阵乘积,即,实际传输矢量是Xk=PkUk。

在上游,线性后编码器在接收矢量Yk的频域中利用后编码矩阵Qk执行矩阵乘积以恢复传输矢量Uk(在信道均衡和功率归一化之后),即,对Y'k=QkYk执行检测。

信号矢量化的性能关键取决于预编码和后编码矩阵的分量值,这些分量值将根据实际和变化的信道耦合来计算和更新。

此外,要在完全消除信道间干扰而不考虑在该过程中丢失感兴趣信号的多少能量与以可能面临更高的信道间干扰为代价而尽可能多地保留感兴趣信号的能量含量之间找到权衡。

例如,预编码矩阵Pk或后编码矩阵Qk可以被计算为信道矩阵的矩阵逆,这表示整个信道矩阵HkPk或QkHk的非对角线系数并且因此信道间干扰大多减少为零。这种“对角化”预编码器和后编码器的特征在于迫零(ZF),因为它们试图消除串扰干扰项。ZF对于对角占优势并且因此条件良好的MIMO信道非常有效,VDSL2传输简档通常就是这种情况。可以使用提供出色性能的明确的“一次性”算法来计算或近似信道矩阵的逆矩阵。

因为诸如G.fast和XG-FAST等下一代矢量化系统工作频率高得多,所以信道通常是非对角占优势的,并且有时甚至是条件不良的,并且ZF可能远非最佳:信道逆产生太大的矢量化系数,这些矢量化系数导致发射功率(预编码)或背景噪声(后编码)的显著增加。发射功率的增加直接转化为功率受限系统的较低直接信号增益,这些增益应当将发射功率保持在许可范围内(发射PSD遮罩、每线发射功率、总发射功率),进而导致信道利用率较低并且最终用户的数据速率低。同样,背景噪声的增加严重降低了信噪比(SNR),并且从而降低了可实现的数据速率。

对于大多数下一代矢量化设计,更好的策略是优化给定的成本或效用函数,通常是通信系统的总数据速率或均方差(MSE)。这些优化问题通常是非凸的,并且无法通过分析来解决。相反,它们通常通过迭代更新来处理,迭代更新逐渐趋向于成本或效用函数的局部或全局最优。迭代更新算法以矢量化矩阵(通常是单位矩阵I)的一些初始默认值开始,并且基于一些信道估计,通过连续迭代重复调节矢量化矩阵的系数值,并且直到满足某种收敛标准。

这种迭代算法的一个示例是迭代最小均方差(iMMSE)算法,该算法非常稳健并且不需要任何类型的信道结构(诸如对角占优势)就能获取良好的性能。但是,iMMSE需要每个音调多次迭代。每次迭代都建立在前一迭代上,并且每次迭代都只能提高矢量化处理器的性能。每次迭代都可以被看作是学习相应信道的局部最优性的过程中的一个步骤。然而,在大约10-20次迭代中获得收敛,并且每次iMMSE迭代具有复杂度O(N3)。这在大型系统中是一个显著的缺点,即使单次迭代也可能已经使现有硬件的速度和存储器能力承受压力。

迭代算法也可以用于计算ZF预编码器或后编码器的信道逆。一个示例是Schulz方法,它通过连续迭代收敛于矩阵逆。



技术实现要素:

本发明的一个目的是设计一种集成的硬件和软件模块,该模块能够快速有效地计算高级预编码器和后编码器并且对于非对角占优势的信道尤其有利。

根据本发明的第一方面,一种用于确定矢量化矩阵的矢量化控制器,该矢量化矩阵用于联合处理要通过多个用户线进行传输或从多个用户线接收的离散多音调DMT通信信号,矢量化控制器被配置为通过迭代更新算法借助于第一迭代数目并且基于在第一音调处的第一信道矩阵估计,确定针对矢量化矩阵的、在第一音调处的第一系数值,并且通过迭代更新算法借助于第二迭代数目并且基于在第二相邻音调处的第二信道矩阵估计,确定针对矢量化矩阵的、在第二音调处的第二系数值。矢量化控制器还被配置为使用如此确定的第一系数值作为迭代更新算法中的相应第二系数值的初始值来开始。第二迭代数目小于或等于第一迭代数目。

在本发明的一个实施例中,迭代算法是迭代最小均方差iMMSE更新算法,并且第二迭代数目等于1。

在本发明的一个实施例中,迭代算法是Schulz更新算法,并且第二迭代数目等于1、2或3。

在本发明的一个实施例中,矢量化控制器还被配置为根据在串扰探测信号正在通过用户线被传输之时从用户线接收的信号的原始离散傅立叶变换DFT样本,导出第一信道矩阵估计和第二信道矩阵估计。

在本发明的一个实施例中,矢量化控制器还被配置为根据在串扰探测信号正在通过用户线被传输之时从用户线接收的信号的限幅器误差样本,导出第一信道矩阵估计和第二信道矩阵估计。

在本发明的一个实施例中,矢量化控制器还被配置为通过迭代更新算法借助于第三迭代数目并且基于在第三另外相邻音调处的第三信道矩阵估计,确定针对矢量化矩阵的、在第三音调处的第三系数值。矢量化控制器还被配置为以如此确定的第二系数值作为迭代更新算法中的相应第三系数值的初始值来开始。第三迭代数目小于或等于第一迭代数目。

在本发明的一个实施例中,第一音调、第二音调和第三音调是具有增加或减少的音调索引的音调。

在本发明的一个实施例中,第一音调选自一组参考音调。

在本发明的一个实施例中,矢量化控制器包括处理器、快速存取存储器和较慢存取存储器。较慢存取存储器被配置为保持第一信道矩阵估计。快速存取存储器被配置为加载来自较慢存取存储器的第一信道矩阵估计。处理器被配置为从快速存取存储器读取第一信道矩阵估计,以确定第一系数值,并且向快速存取存储器中写入如此确定的第一系数值。较慢存取存储器被配置为加载来自快速存取存储器的第一系数值,并且保持第一系数值用于矢量化处理器的进一步配置。第一系数值被保留在快速存取存储器中以用于第二系数值的进一步确定。

在本发明的一个实施例中,处理器还被配置为确定第二系数值,并且用第二系数值替换快速存取存储器中的第一系数值。第二系数值被保留在快速存取存储器中用于第三系数值的进一步确定。

在本发明的一个实施例中,处理器被配置为运行多个线程以用于相应音调的矢量化矩阵的系数值的确定。

这种矢量化控制器通常形成接入节点的一部分,诸如数字用户线接入复用器(DSLAM-矢量化的VDSL2)或分配点单元(DPU-G.fast),其被部署在中心局(CO)或作为靠近用户驻地(街道柜、杆柜、建筑物柜等)的光纤馈电远程单元。

根据本发明的另一方面,一种用于确定矢量化矩阵的方法,矢量化矩阵用于联合处理要通过多个用户线进行传输或从多个用户线接收的离散多音调DMT通信信号,该方法包括通过迭代更新算法借助于第一迭代数目并且基于在第一音调处的第一信道矩阵估计,确定针对矢量化矩阵的、在第一音调处的第一系数值,并且通过迭代更新算法借助于第二迭代数目并且基于在第二相邻音调处的第二信道矩阵估计,确定针对矢量化矩阵的、在第二音调处的第二系数值。该方法还包括以如此确定的第一系数值作为迭代更新算法中的相应第二系数值的初始值来开始。第二迭代数目小于或等于第一迭代数目。

根据本发明的方法和接入节点的实施例对应于根据本发明的矢量化控制器的前述实施例。

提出了一种集成的软硬件架构,用于通过复杂的迭代更新算法计算矢量化矩阵。

首先,通过使用先前在给定音调处确定的矢量化系数作为一个或多个相邻音调的迭代的起始点,大大减少了所需要的迭代数目。

该想法利用音调相关性(即,信道相干性),即相邻音调的信道非常相似这一事实。更具体地,用于音调k的计算的输入是在音调k-1或k+1计算的矢量化矩阵。以这种方式,避免了每个音调执行多次迭代的负担,将复杂的迭代更新算法转换为一次性方法(即,一次或两次迭代)。因为来自相邻音调的信道矩阵适度地改变,所以该方法对性能的影响是最小的,并且计算复杂度的降低是10倍。

其次,通过能够快速有效地执行上述迭代算法的自组织硬件架构而减少了每次迭代所需要的时间。

该架构的组件是处理器、快速存取存储器单元和较慢存取存储器单元,其特征如下:

-快速存取存储器单元可以由处理器以其循环速度(例如,L1高速缓存)进行访问。

-快速存取存储器单元由具有每音调信道矩阵估计的另一较慢存取存储器单元(例如,DDR存储器)填充。

-按每个音调顺序地执行矢量化矩阵的计算。

-在一个音调处的矢量化矩阵的计算基于在相邻音调处的矢量化矩阵计算,从而避免了对相同音调的多次迭代并且最大程度地利用了音调相关性。

-快速存取存储器单元被设计为使得在一个音调处的所计算的矢量化矩阵可以直接用于相邻音调的矢量化矩阵的计算,而无需访问较慢存取存储器单元。

可以通过多个线程来组合和操纵上述硬件架构的多个实例,以进一步提高性能。

附图说明

通过参考以下结合附图对实施例的描述,本发明的上述和其他的目的和特征将变得更加明显,并且本发明本身将被最好地理解,在附图中:

-图1表示存取设备的概述;

-图2表示关于接入节点的进一步细节;

-图3是原始iMMSE算法与所提出的iMMSE算法的性能的曲线图。

-图4是原始Schulz方法与所提出的Schulz方法的性能的曲线图;

-图5表示关于矢量化控制器的进一步细节;以及

-图6表示用于矢量化矩阵的确定的来自和进入相应存储器单元的读取和写入。

具体实施方式

在图1中可以看到接入设备1,接入设备1包括在CO处的网络单元10、经由一个或多个光纤耦合到网络单元10并且还经由铜设备在相应用户位置处耦合到用户驻地设备(CPE)30的接入节点20。铜设备的传输介质通常由铜非屏蔽双绞线(UTP)组成。

作为说明性示例,铜设备包括四个用户线L1至L4,其共享公共接入段40并且然后经过专用环路段50分别最终连接到CPE 301至304。

在公共接入段40内,用户线L1至L4紧邻并且因此引起彼此的串扰(参见图1中在各个用户线之间的箭头)。

接入节点20包括矢量化处理单元21(或VPU),用于联合处理通过铜设备进行传输或从铜设备接收的数据符号,以便减轻串扰并且增加可实现的数据速率。

矢量化组(即,其通信信号将被联合处理的通信线路组)的选择是相当关键的。在矢量化组内,每条通信线路被认为是对该组中的其他通信线路引起串扰的干扰线路,并且相同的通信线路被认为是遭受来自该组中的其他通信线路的串扰的受干扰线路。来自不属于矢量化组的线路的串扰被视为外来噪声,并且不会被取消。理想情况下,矢量化组应匹配在物理上明显相互干扰的整组通信线路,否则可以预期有限的矢量化增益。

在图2中可以看到关于接入节点100和相应CPE 200的进一步细节。

接入节点100包括:

-N个收发器110;

-矢量化处理单元(VPU)120;以及

-用于控制VPU 120的操作的矢量化控制单元(VCU)130。

N个收发器110分别耦合到VPU 120和VCU 130。VCU 130进一步耦合到VPU 120。

N个收发器110分别包括:

-数字信号处理器(DSP)111;以及

-模拟前端(AFE)112。

N个收发器110通过N个相应的用户线L1至LN耦合到CPE 200内的相应N个收发器210,为方便起见,假定这些用户线形成相同的矢量化组的一部分。

N个收发器210分别包括:

-数字信号处理器(DSP)211;以及

-模拟前端(AFE)212。

AFE 112和212分别包括数模转换器(DAC)和模数转换器(ADC)、用于将信号能量限制在适当的通信频带内同时拒绝带外干扰的发射滤波器和接收滤波器、用于放大发射信号并且用于驱动传输线的线路驱动器、以及用于以尽可能小的噪声来放大接收信号的低噪声放大器(LNA)。

在其中下游和上游通信在不同且非重叠频带中通过相同传输介质同时操作的频分双工(FDD)操作的情况下,AFE 112和212还包括用于将发射器输出耦合到传输介质并且将传输介质耦合到接收器输入同时实现低发射器接收器耦合比的混合器。AFE可以进一步含有回声消除滤波器以进一步降低耦合比。

在其中下游和上游通信在相同的频带上但在不同的和非重叠时隙中操作的时分双工(TDD)操作的情况下,可以有利地省略混合器,因为发射器和接收器以交替模式操作:当发射电路有效时,接收电路断开(或接收信号被丢弃),并且在接收电路有效时,发射电路断开。

AFE 112和212还包括用于适于传输介质的特征阻抗的阻抗匹配电路、用于削减在传输介质上发生的任何电压或电流浪涌的限幅电路、以及用于将收发器与传输介质DC隔离的隔离电路(通常是变压器)。

DSP 120用于将用户和控制业务编码和调制到下游DMT符号中,并且用于对来自上游DMT符号的用户和控制业务进行解调和解码。

以下发射步骤通常在DSP 111和211内执行:

-数据编码,诸如数据多路复用、成帧、加扰、纠错编码和交织;

-信号调制,包括以下步骤:根据音调排序表对音调进行排序,根据有序音调的相应比特加载来解析编码比特流,以及将每个比特块映射到适当的发射星座点(具有相应的载波幅度和相位)上,可能采用网格编码;

-信号缩放,诸如功率归一化,传输PSD整形和精细增益缩放;

-逆快速傅里叶变换(IFFT);

-循环前缀(CP)插入;以及

-时间加窗。

以下接收步骤通常在DSP 111和211内执行:

-时间加窗和CP移除;

-快速傅里叶变换(FFT);

-频率均衡(FEQ);

-信号解调和检测,包括以下步骤:向每个均衡的频率样本应用其模式取决于相应的比特加载的适当的星座网格,检测期望的发射星座点和相应的发射比特序列,可能使用Trellis解码,并且根据音调排序表重新排序所有检测到的比特块;以及

-数据解码,诸如数据解交织、纠错解码、解扰、帧界定和解复用。

取决于所使用的确切数字通信技术,可以省略这些发射或接收步骤中的一些,或者可以存在一些附加步骤。

DSP 120还被配置为操作用于在用户线上初始化双向通信会话的特殊操作信道(SOC)、以及用于传输诊断、管理或在线重新配置(OLR)命令和响应的嵌入式操作信道(EOC)。DSP 120还被配置为运行用于根据管理信息库(MIB)控制各种协议层的通信参数的相应的管理实体。对于G.fast,DSP 120还被配置为操作用于TDD成帧参数的快速适应的鲁棒管理信道(RMC)。

DSP 111还被配置为在用于联合信号预编码的快速傅里叶逆变换(IFFT)之前向VPU 120提供发射频率样本Uk,并且在用于联合信号后处理的快速傅里叶变换(FFT)之后向VPU 120提供接收频率样本Yk。

DSP 111还被配置为从VPU 120接收预补偿的发射样本Xk以用于进一步发射,并且从VPU 120接收后补偿的接收样本Y'k以用于进一步检测。或者,DSP 111可以在进一步传输或检测之前接收校正样本以添加到初始频率样本。

VPU 120被配置为减轻在用户线L1至LN上引起的串扰。VPU 120包括被配置为将发射频率样本的矢量Uk与预编码矩阵Pk相乘以便对预期串扰的估计进行预补偿的线性预编码器,以及被配置为将接收频率样本的矢量Yk与后编码矩阵Qk相乘以便对所引起的串扰的估计进行后补偿的线性后编码器。

在矩阵Pk或Qk中,行i与特定受干扰线路Li相关联,而列j与特定干扰线路Lj相关联。

VCU 130基本上用于控制VPU 120的操作,并且更具体地用于估计矢量化组的各个用户线之间的信道耦合,以及用于根据如此估计的信道耦合来初始化和更新预编码矩阵Pk和后编码矩阵Qk的系数。

各种信道耦合基于在矢量化线路上传输的导频信号(即,串扰探测信号)来估计。导频信号通常在专用时间段期间传输和/或通过专用音调来传输。

例如,在G.993.5ITU推荐(矢量化的VDSL2)中,收发器单元在所谓的SYNC符号上发送导频信号。SYNC符号在每个超帧之后周期性地出现,并且在所有矢量化线路上同步传输(超帧对齐)。G.fast中采用了类似的技术。

在给定的干扰线路上,SYNC符号的音调(下文中的导频音调)的子集全部用来自给定导频序列的相同导频数字进行4-QAM调制,并且传输两个复星座点中的一个:与“+1”相对应的“1+j”或与“-1”相对应的“-1-j”(矢量化的VDSL2);或者传输三个复星座点中的一个:与“+1”相对应的“1+j”或与“-1”相对应的“-1-j”或与“0”相对应的“0+0j”(G.fast)。

在给定的受干扰线路上,在每个导频音调的基础上测量在均衡之前接收的DFT样本的实部和虚部(G.fast)两者、或者归一化的限幅器误差的实部和虚部(矢量化的VDSL2和G.fast),所述限幅器误差是在所接收的且适当均衡的DFT样本与该DFT样本被解映射到其上的星座点之间的差矢量,并且将其报告给VCU 130以用于各种信道耦合的估计。

接下来,将在给定受干扰线路上收集的连续误差样本与在给定干扰线路上使用的导频序列相关,以便获取从给定干扰线路到给定受干扰线路的信道耦合的估计。为了拒绝来自其他干扰线路的串扰贡献,在各个干扰线路上使用的导频序列是相互正交的(例如,Walsh-Hadamard序列)。

信道估计最终用于初始化或更新预编码矩阵Pk或后编码矩阵Qk的系数。

目前,VCU 130首先开始于为收发器110和210配置相应的导频序列,以用于SYNC符号的导频音调的调制。导频序列包括使用{+1,-1}或{+1,0,-1}作为字母表的T个导频数字。在线路Li上的导频符号位置t期间调制给定音调k的导频数字表示为

SYNC符号并未通过VPU 120处理,以便以信道矩阵本身为目标。

接下来,VCU 130收集由收发器110和210在SYNC符号正被传输之时所测量的测量样本。在导频符号位置t期间收发器110i或210i在音调k处在受干扰线路Li上所测量的测量样本被表示为

VCU 130将在完整采集周期期间在给定受干扰线路Li上测量的T个测量样本与在给定干扰线路Lj上所使用的导频序列的T个导频数字相关,以便获取在频率索引k处的从干扰线路Lj到受干扰线路Li的信道耦合hij,k的估计。由于导频序列是相互正交的,因此在这个相关步骤之后来自其他干扰线路的贡献减小到零。

VCU 130基于这些相关结果来确定相应音调k的信道矩阵或归一化信道矩阵的估计Hk。标称信道矩阵是从均衡之前的原始接收信号的度量导出的,而归一化信道矩阵——归一化是关于直接信道增益的——是从信道均衡之后的限幅器误差的度量导出的。

VCU 130被配置为基于针对信道矩阵的在相应音调k处的估计Hk以及借助于迭代更新算法来确定在相应音调k处的预编码矩阵Pk或后编码矩阵Qk的系数。

VCU 130首先从所有可用音调中选择一组参考音调kREF={k1,k2,...}。参考音调是如下音调:其预编码器或后编码器在没有相邻信道信息的情况下被初始化(例如,用单位矩阵I初始化),并且其中如果需要,则允许通过迭代更新算法的相对大量的迭代。

参考音调可以在整个通信带宽上均匀地间隔开。或者,参考音调之间的间隔可以是信道相干性的函数,例如较大间隔用于低频范围(具有大相干带宽的条件良好的信道)和较近间隔用于高频范围(具有窄相干带宽的条件不良的信道)。

为方便起见,进一步假定1..K是K个可用音调,音调按从1到K的升序被处理,并且音调k=1属于参考音调集合kREF以便启动迭代算法。

对于每个参考音调ki∈kREF,VCU 130将预编码矩阵Pki或后编码矩阵Qki的系数初始化为某个默认值,通常是单位矩阵I,并且然后基于信道矩阵估计Hki并且通过迭代更新算法借助于连续迭代来确定那些系数的一些值,直到满足某个收敛标准。然后,针对预编码矩阵Pki或后编码矩阵Qki的系数而计算的值被重新输入到迭代算法中,并且用作初始起始值来用于下一音调ki+1的预编码矩阵Pki+1或后续编码矩阵Qki+1的系数的确定。然后,VCU 130能够基于信道矩阵估计Hki+1并且通过迭代更新算法最多借助于一次或两次迭代来确定预编码矩阵Pki+1或后编码矩阵Qki+1。进而,针对预编码矩阵Pki+1或后编码矩阵Qki+1的系数而计算的值被重新输入到迭代算法中,并且用作初始起始值来用于下一音调ki+2的预编码矩阵Pki+2和后编码矩阵Qki+2的系数的确定,随后的音调以此类推,直到满足新的参考音调。

VCU 130还可以从参考音调ki开始以降序处理音调,并且使用在音调ki计算的预编码矩阵Pki或后编码矩阵Qki作为音调ki-1的输入,以此类推。

而且,VCU 130不需要在每个音调上运行迭代算法。相反,VCU130可以将所提出的方法用于非连续音调,只要它们彼此相距不太远(即,在信道相干带宽内),并且因此依赖于内插来确定其间的中间音调的矢量化系数。

使用多个参考音调的一个好处是并行化能力:多个线程可以并行执行,每个线程开始于集合kREF的参考音调并且经过所有连续音调直到下一参考音调。也可以使用替代的多线程方案。

使用多个参考音调的另一好处是提高了鲁棒性:通过具有多于一个起始点,避免了迭代算法针对大多数带宽陷入局部最优。

在一个实施例中,VCU 130利用iMMSE算法来确定预编码矩阵Pk或后编码矩阵Qk。对iMMSE算法的良好描述在Christensen等人发表于IEEE无线通信学报杂志,2008年12月第7卷第12期的题为“Weighted Sum-Rate Maximization using Weighted MMSE for MIMO-BC Beamforming Design”的论文中给出。

用于借助于iMMSE算法来计算预编码矩阵Pk的伪码如下:

该伪算法中使用的数学符号如下:AH表示矩阵A的Hermitian(即,共轭转置);trace(A)表示矩阵A的轨迹;diag(A)获取矩阵A的对角线系数并且输出矢量;DIAG(a)输出以矢量a的系数作为对角线系数并且以零作为非对角线系数的对角矩阵;abs(a)表示逐系数复数幅度算子;./表示逐系数除法算子;sum(A,2)表示矩阵A的行元素的总和并且输出矢量;以及sqrt(a)表示标量a的平方根运算符。

在该伪算法中,Ck=HkPk是级联信道矩阵;dk是级联信道的直接信道增益(即,矩阵Ck的对角元素);Kzz,k=E(zkzkH)表示噪声协方差矩阵;Rk是最佳线性MMSE接收滤波器,其在接收侧使用与发送侧的预编码矩阵Pk一起实现最佳的聚合数据速率;mk是要符合的离散发射功率遮罩;i是迭代索引;iMAX是最大许可迭代数目,其与收敛标准是否满足无关;以及Conv_Criteria是确定新近更新的预编码矩阵Pk是否满足收敛标准(真(TRUE)或假(FALSE))的布尔值。

作为收敛标准的示例,可以在两个连续迭代i-1和i之间计算Frobenius范数sqrt(trace((Pk(i)-Pk(i-1))(Pk(i)-Pk(i-1))H)),并且测试该范数是否小于给定阈值ε。如果是,则不能预期附加迭代实质上改变预编码系数的值,并且因而假定实现了朝向最佳值的收敛。

现有技术解决方案使用单位矩阵I(无信道知识)初始化每个音调,并且在收敛之前迭代多达10次。在我们的提议中,仅使用单位矩阵I初始化参考音调。对于后续音调,信道知识已经在针对先前音调计算时在预编码器中被建立。由于音调相关性,使用音调k的预编码器来初始化音调k+1的迭代算法保持了性能,并且与原始算法相比节省了高达10倍的计算成本。

我们甚至可以对在参考音调处的性能进行折衷,并且仍然有望随着信道知识在相邻音调上建立,该算法对于后续音调逐渐收敛到最佳值。然后,对于参考音调,较低迭代数目也可能是足够的,如在上面的伪代码中,其中最多5次迭代用于参考音调。

注意,对于较低音调,VDSL2和G.fast频带重合。对于这些较低的音调,我们可以依赖于信道的结构。特别是对于低频音调,上述iMMSE算法基本上仅在一次迭代中收敛到ZF预编码器。

原始方法和上述算法的性能在图3中示出,图3表示在G.fast212MHz通信系统中的48个用户的数据速率性能。所实现的数据速率是针对原始iMMSE和所提出的算法中的相应最大迭代数目而绘制的。

实现良好性能所需要的参考音调的数目相当小。对于图3的性能,4096个音调中仅有80个等间隔的音调被用作参考音调。在每个音调中,允许最多5次迭代。

我们观察前者在大约10次迭代中收敛特别缓慢。所提出的算法几乎同样表现良好,计算成本降低了10倍。

对于后编码矩阵Qk,iMMSE算法产生线性MMSE接收滤波器,并且可以一次性计算而无需任何迭代。

在另一替代实施例中,VCU 130利用Schulz方法来确定预编码矩阵Pk或后编码矩阵Qk。

Schulz方法被设计用于通过连续迭代来计算矩阵逆,并且因此特别适用于ZF预编码或后编码。

对于ZF预编码,信道逆通过以下迭代更新公式来计算:

Pk=Pk(2I-HkPk)。

当初始Pk足够接近逆时,或者当初始Pk被选择为Pk=αHkH时,该公式保证收敛到Hk的逆,其中α取自区间[0,2/ρ(HkPk-I)],ρ是指限定光谱半径的上限的任何函数。鉴于信道在音调之间没有太大变化,我们利用前一音调的最佳解作为当前音调的初始值。仿真表明,这可以将收敛加速10倍。

用于借助于迭代Schulz方法来计算预编码矩阵Pk的伪算法如下:

其中||A||F=sqrt(trace(AAH))表示矩阵A的Frobenius范数。

对于ZF后编码,信道逆通过以下迭代更新公式来计算:

Qk=(2I-QkHk)Qk。

用于借助于迭代Schulz方法来计算后编码矩阵Qk的伪算法如下:

图4中绘制了完美逆方法与利用音调相关性的所提出的Schulz迭代方法之间的仿真结果。仿真表明,与完美逆相比,每个音调仅需要两次迭代就能收敛到速率准确度的1%以内。在矩阵乘法运算通过直接硬件加速或增加的并行化而被加速到最大的系统中,Schulz迭代特别引人注意。

用于实现上述算法的高级硬件架构在图5中示出,其中示出了关于VPU 120和VCU 130的进一步细节。

VPU 120包括用于联合处理发射用户样本和接收数据样本的矢量化处理器121、以及其中存储有要用于串扰减轻的预编码和后编码系数的工作存储器122(或M3存储器)。

VCU 130被示出为包括通用中央处理单元(CPU)131和慢速存取存储器132(或M1存储器),诸如DDR存储器。VCU 130还包括具有用于有效地计算预编码矩阵Pk或后编码矩阵Qk的硬件加速的专用处理单元133(诸如数字信号处理器(DSP))、以及快速存取存储器134(或M1存储器)(诸如层1(L1)高速缓存存储器)。

处理单元121、131和133通过存储器总线耦合到存储器单元122、132和134。CPU 131还耦合到专用处理器133和矢量化处理器121。

VPU 120的配置是双重的:首先,在VCU的内部存储器132和134内计算预编码矩阵Pk或后编码矩阵Qk的系数。其次,由VCU 130将新计算的矢量化系数推送到VPU的工作存储器122中。为了不干扰VPU操作,新的矢量化系数被写入存储器122的未使用存储区域内。然后,从给定的DMT符号开始,指向要由VPU 120用作有效的预编码矩阵Pk或后编码矩阵Qk的一组活动的矢量化系数的指针被切换到已经被写入新的矢量化系数的存储区域,从而释放其中存储有先前的矢量化系数的存储区域,并且允许在两组矢量化系数之间的平滑过渡。下一VPU更新以此类推。VPU 120可以基于每个音调或基于每组音调进行更新。

图5中进一步示出了耦合到存储器单元122、132和134用于在它们之间进行最佳数据传输的直接存储器存取(DMA)控制器140。每当需要将大块数据从存储器122、132或134的一个地方传送到另一地方而不涉及用于该任务的处理器时,可以故意触发DMA控制器140。DMA控制器140的存在是可选的。

在图6中可以看到,在连续音调确定预编码矩阵Pk或后编码矩阵Qk期间到相应存储器单元中的连续写入和读取。

首先,如上所述估计相应音调的信道矩阵,并且将相应音调k的信道矩阵估计Hk存储在缓慢存取存储器M2中以供进一步使用。

参考音调ki的信道估计Hki从慢速存取存储器M2加载到快速存取存储器M1中。该任务可以由CPU 131直接执行,或者由DMA控制器140在来自CPU 131的触发时执行。

然后,CPU 131以指向存储器M1中的信道矩阵估计Hki的指针作为输入参数来调用专用处理器133。于是,专用处理器133从快速存取存储器M1读取信道估计Hki,并且通过迭代更新算法借助于连续迭代来确定最佳的预编码矩阵Pki或后编码矩阵Qki。出于说明的目的,沿着环回圆圈指示通过迭代更新算法的相应迭代数目。目前,使用最大5次迭代来用于确定参考音调ki的矢量化系数(参见图6中的“n1=5”)。

在计算预编码矩阵Pki或后编码矩阵Qki时,下一音调ki+1的信道矩阵估计Hki+1已经从缓慢存取存储器M2加载到快速存取存储器M1中。

当计算完成时,专用处理器133将所计算的参考音调ki的预编码矩阵Pki或后编码矩阵Qki写入快速存取存储器M1,并且以指向存储器M1中的所计算的预编码矩阵Pki或后编码矩阵Qki的指针作为输出参数来返回来自CPU 131的调用。

然后,将所计算的预编码矩阵Pki或后编码矩阵Qki从快速存取存储器M1加载到慢速存取存储器M2中,以用于进一步配置VPU 120。再次,该任务可以由CPU 131或专用处理器133直接执行,或者由DMA控制器140在来自CPU 131或专用处理器133的触发时执行。

利用所提出的方案,在音调ki处的所计算的预编码矩阵Pki或后编码矩阵Qki被保持在快速存取存储器M1中并且被重新输入到专用处理器133,以用于确定相邻音调ki+1的预编码矩阵Pki+1或后编码矩阵Qki+1。

然后,CPU 131以指向存储器M1中的信道矩阵估计Hki+1的第一指针作为第一输入参数并且以指向存储器M1中的由专用处理器133先前在先前音调ki处确定的预编码矩阵Pki或后编码矩阵Qki的另一指针作为第二输入参数来调用专用处理器133。

后者被用作迭代更新算法中用于确定在音调ki+1处的预编码矩阵Pki+1或后编码矩阵Qki+1的初始起始值,从而显著减少所需要的迭代数目。目前,仅使用一次迭代来确定相邻音调ki+1的矢量化系数(参见图6中的“n2=1”)。

专用处理器133返回所计算的相邻音调ki+1的预编码矩阵Pki+1或后编码矩阵Qki+1,其再次从快速存取存储器M1被传送到慢速存取存储器M2以用于进一步配置VPU 120。再次,所计算的音调ki+1的预编码矩阵Pki+1或后编码矩阵Qki+1被保持在快速存取存储器M1中并且被重新输入到专用处理器133以用于确定在下一音调ki+2处的预编码矩阵Pki+2或后编码矩阵Qki+2。随后的音调以此类推,如图6所示。

对于优化数据传输,慢速存取存储器单元与快速存取存储器单元之间的通信应当是对称的,但是其值受到总线宽度和所使用的存储器技术(例如,单端口、双端口等)的限制。取决于所使用的存储器技术,可以顺序地或并行地或者两者的混合来进行到快速存取存储器单元M1中的读取和写入。

应当注意,术语“包括”不应当被解释为限于此后列出的装置。因此,表达“包括装置A和B的设备”的范围不应当限于仅由组件A和B组成的设备。这表示,对于本发明,设备的相关组件是A和B。

需要进一步注意的是,术语“耦合”不应当被解释为仅限于直接连接。因此,表达“耦合到设备B的设备A”的范围不应当限于其中设备A的输出直接连接到设备B的输入的设备或系统,和/或反之亦然。这表示,在A的输出与B的输入之间存在路径,和/或反之亦然,其可以是包括其他设备或装置的路径。

说明书和附图仅说明了本发明的原理。因此,应当理解,本领域技术人员将能够设计出各种布置,这些布置虽然未在本文中明确描述或示出,但实施了本发明的原理。此外,本文中描述的所有示例主要旨在仅用于教学目的以帮助读者理解本发明的原理和发明人为促进领域进步而提供的概念,并且应当被解释为没有对这些具体叙述的实施例和条件的限制。此外,本文中叙述本发明的原理、方面和实施例以及其具体示例的所有陈述旨在包含其等同物。

图中所示的各种元件的功能可以通过使用专用硬件以及能够与适当软件相关联地执行软件的硬件来提供。当由处理器提供时,功能可以由单个专用处理器、单个共享处理器或多个单独的处理器提供,其中一些处理器可以是共享的。此外,处理器不应当被解释为专指能够执行软件的硬件,并且可以隐含地包括但不限于数字信号处理器(DSP)硬件、网络处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。还可以包括传统的和/或定制的其他硬件,诸如只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储器。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1