一种前向纠错码处理器的制造方法

文档序号:9435788阅读:361来源:国知局
一种前向纠错码处理器的制造方法
【技术领域】
[0001] 本发明涉及通信领域,具体涉及一种前向纠错码处理器。
【背景技术】
[0002] 目前移动通信领域标准众多,更新迭代速度快。除了主流的移动通信标准(例如 GSM,EDGE/GPRS,HSPDA,UMTS, 3GPPLTE, 802.lln, 802. 16e等)需要前向纠错码(FEC)支持 以外,更多的军用和其它非常用商用标准也需要FEC支持。这些标准中的解码算法差异较 大,且有可能在流片时需求和算法并不完全已知。因此这类应用的特殊化和定制化程度较 高,单独芯片流片成本过高,通常需要高灵活度的芯片兼容。同时这类应用对解码速率和功 耗、面积开销等有一定的需要,因此通用处理器也无法满足其指标需求。除此之外,商用标 准本身也在更新和演变,甚至新的标准仍在制定过程中,这些更新可能无法在流片时完全 确定。在较为高端的制程工艺下,基带芯片的一次流片的NRE(不可返还工程投资)可达亿 元人民币左右。如果不有效提升解码器的灵活性和兼容性,那么这些协议或其它协议的需 求将导致重新流片,严重影响芯片的生存期和使用范围。
[0003] 目前前向纠错码码型较多,按照译码处理难度进行区分主要分通用处理器易译码 型(易译码)和通用处理器低效率难译类码型(难译码)。易译码的运算量不大或者吞吐量 需求不高(通常少于2Mbps),此时采用通用处理器核(例如ARM、MIPS、x86系列)或通用数 字信号处理器(例如TIC6000系列)即可实现实时的译码。难译码运算量较大或者吞吐量 需求较高(如3GPPLTE-A需要lGbpsTurbo净吞吐率)或延迟要求严格,采用通用处理器 无法实现译码需要。此时需要针对编解码的算法特点设计专用指令集处理器(Application SpecificInstruction-setProcessors--ASIP)来实现高效率译码。
[0004] 在难译码类型中,目前吞吐率要求较高、解码效率较低的主要为LDPC码、Turbo 码、卷积码及其变种码型。这是本发明的处理器的支持领域。(其它码型也可以被本处理器 支持,但可能效率与通用处理器相比优势有限。)RS(ReedSolomon)码也是一种常用的码 型,采用通用处理器可达到一定的吞吐速率,且其译码计算过程主要为二进制域运算,因此 不在本发明主要的考虑范围之内。
[0005] 目前国际上已知的采用ASIP结构进行FEC译码的方案有FlexiTreP/FlexiChaP、 IMEC、TUDresden等若干方案。
[0006] FlexiTreP[l]是一款可以兼容CC和BTC的可重配置ASIP解码器,此设计采用 了基于专用指令集处理器结构,具有一定的可编程能力。原先的FlexiTreP基础上加入了 LDPC的解码数据通路后的设计被命名为FlexChaP。由于采用了单处理单元,因此解码速率 较低,远远无法满足3GPPLTE-A等4G通信系统中Gbps通信速率的需求。另外,其处理器 为弱可编程模式,指令为宏指令码,数据通路特殊化程度较高,对解码变种和算法变更的兼 容性很低,基本可以认为只能兼容已有的协议标准下的少量参数变更。
[0007] 頂EC于2008年提出了采用多个专用S頂D处理器实现并行LDPC/Turbo解码的设 计。方案采用NslotSM),SM)具有本地内存。另外为了存储所有slot公用的LLR信 息,构建了背景内存(BackgroundMemory)。此内存通过全互联(crossbar)形式的转置网 络与SB?相连接。可以实现对802. 16eLDPC,802.llnLDPC和3GPPLTETurbo的高效解 码。此设计实现了一定程度的软件化,其特点是可以用C进行一定程度的编程。编译器将 C代码映射到一个六核结构上,其中一个核专门用于循环指令的计算和控制,是一个标量处 理器,剩下5个核都为矢量处理器。其中两个核用于计算SHffi局部内存的地址和读写操作, 一个核用于背景内存的读写操作,另外两个96slot的矢量处理核进行解码算法的计算。为 了达到足够的效率,系统设计了大量的专用指令,这些指令可以看作是单时钟的宏指令,无 法对解码细节和算法变更进行修改。但可以对解码流程和内存读写逻辑进行一定程度的编 程。此设计也有一定效率上的不足。比如在800MHz时钟下仅获得了 541Mbit/s的Turbo 单迭代速率,换算6次迭代相当于90Mbps,仍无法满足3GPPLTE系统的大于150MHz的吞吐 率的需要。
[0008] LDPC/Turbo/Viterbi三模解码器,设计架构采用六核结构。六个核与24个内存 片之间通过专用互连线和桶形移位器相连。每个内存片可以支持8个LLR信息的数据存 取。这六个核可以组合起来完成一个解码,也可以分开来并行执行多个解码任务,用以支持 多用户时的快速解码切换。每个核由四个处理单元共享一个指令单元,采用VLIW结构。处 理单元有独立的本地内存。四个处理单元之间通过Trellis结构的互联网络互联。互联 方式上,其采用了双级机制,第一级为交叉互连线,第二级是桶形移位器,这种方案较全桶 形移位的方案节省资源且更容易兼容Turbo模式。一个处理单元(PE)包含Gamma单元, Alpha/Beta单元和Lambda单元几部分。Alpha/Beta单元可以实现对TurboBCJR算法中 的8个Trellis状态的前后向并行处理,或者LDPC最小和算法中的8个节点的并行处理, 以及Viterbi算法中16个Trellis状态的并行处理。四个PE组成一个core,可以处理4 个Turbo的滑窗或者64状态的卷积码,以及32个LDPC的节点。对于Viterbi而言具有专 门的回溯单元。其方案对面积开销的节省分析较多,但对灵活度的分析极少,其编程能力和 兼容未知协议的能力没有谈及,硬件上也没有相应的配置。
[0009] 另外,也有大量的软件无线电方案采用通用GPU、DSP或CPU实现Viterbi、Turbo 和LDPC的译码,其普遍特点是功耗效用低、且解码速率有限,在效率和灵活度双高需求下 目前还没有有效的处理结构,无法在移动终端等功耗敏感的场合使用。

【发明内容】

[0010] 针对现有技术中的缺陷,本发明提供了一种前向纠错码处理器,该处理器提升了 解码的效率和灵活度。
[0011] 第一方面,本发明提供了一种前向纠错码处理器,包括:读线性地址产生器、写线 性地址产生器、读变换地址产生器、写变换地址产生器、内存组、运算执行单元、转置网络和 逆转置网络;
[0012] 所述读线性地址产生器与所述读变换地址产生器相连,所述读变换地址产生器与 所述内存组相连,所述内存组通过所述转置网络与所述运算执行单元相连,所述运算执行 单元通过所述逆转置网络与所述内存组相连,所述内存组与所述写变换地址产生器相连, 所述写变换产生器与所述写线性地址产生器相连;
[0013] 其中,所述内存组和所述运算执行单元为多个,多个内存组之间通过所述转置网 络交换数据,多个运算执行单元通过所述逆转置网络将运算执行单元计算的结果写回至所 述内存组。
[0014] 可选的,所述转置网络为三维转置网络,包括:行转置网络、列转置网络和循环移 位转置网络。
[0015] 可选的,所述读变换地址产生器在一个时钟内提供多个读变换地址、多个写变换 地址和多个写使能信号。
[0016] 可选
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1