采用混合压缩两级流水乘加单元的数字信号处理器的制作方法

文档序号：6388438阅读：240来源：国知局

专利名称：采用混合压缩两级流水乘加单元的数字信号处理器的制作方法
技术领域：
本发明涉及的是一种数字信号处理器，特别是一种采用混合压缩两级流水乘加单元的数字信号处理器，属于数字信号处理技术领域。
背景技术：
乘加单元是各种数字计算芯片，尤其是数字信号处理芯片的关键运算单元。通常分为两个独立的乘法和加法两个部分。在原有的基于3∶2压缩Wallace树乘法器的设计中，由于3∶2压缩器是部分积压缩树的基本构造单元，它的压缩比不够高，所构成的部分积压缩树也不够规则。2003年国际电路与系统会议杂志(Proceedings of the 2003 International Symposium on Circuits and Systems)第五卷中《用于高速乘法的超低电压和低功耗4-2压缩器》(Ultra Low Voltage，Low Power 4-2 Compressor for High Speed Multiplications)一文公开了为Wallace Tree乘法器设计的优化了的4∶2压缩器单元。4∶2压缩器完成了两个3∶2压缩器串联的功能，同时通过电路的优化，通过一个4∶2压缩器的时延要比两个3∶2压缩器的时延小。然而，由于4∶2压缩器的输入端口较多(单个压缩器有5个输入端口)，在一些情况下会造成较多端口的闲置，因此它的效率并不高。此外，它并不保证使部分积压缩树的时延特性达到最佳。传统的乘加单元设计是单周期完成，没有流水线，如美国TI公司的TMS320C54x DSP(参见TMS320C54xDSP CPU和周边设备参考第一卷(Rev.G)(TMS320C54x DSP CPU and PeripheralsReference Set Volume 1))。这种方法在设计高速数字信号处理器时，乘加单元就成了整个数字信号处理器的关键路径，限制了整个芯片频率的提高，同时由于芯片中需要额外的加法器造成了芯片面积的增加。

发明内容
本发明的目的在于克服现有技术的不足，提供一种采用混合压缩两级流水乘加单元的数字信号处理器，使其可以通过两级流水线设计，将乘加单元造成的关键路径上时延大大降低，同时部分积压缩阶段采用3∶2和4∶2混合压缩结构，减少压缩树上的时延，大幅度提高数字信号处理器的频率和性能，降低芯片生产成本。
本发明涉及的数字信号处理器核心部分包括地址产生单元、指令译码单元、程序控制单元、算术运算单元。程序控制单元通过指令总线向指令存储器给出指令地址，并从指令存储器中接收指令将它送到指令译码单元。指令译码单元将译码以后的数据发送到两路并行的数据通道，即算术运算单元和地址产生单元。算术运算单元将其状态信息传给程序控制单元，并将运算结果送给数据存储器或者从数据存储器接收数据。地址产生单元将地址值送给数据存取器，指定相应的存储和读写的位置。本发明在所述的算术运算单元内部特别设计了两级流水线结构的乘加单元，主要包括基4改进的Booth编码单元、3∶2压缩器和4∶2压缩器混合的压缩树单元、72位3∶2压缩器、72位超前进位加法单元，选择器和选择器控制线。采用基4编码改进的Booth编码单元将输入的32位被乘数和乘数变为部分积，然后将部分积输入3∶2压缩器和4∶2压缩器混合的压缩树单元，这是第一级流水线。第二级流水线是将3∶2压缩器和4∶2压缩器混合的压缩树单元输出的2个65位部分积与另一个加数一起输入72位3∶2压缩器，最后将3∶2压缩得到的2个72位部分积在选择器控制线作用下经过选择器后输入72位超前进位加法单元，运算得到最终的乘加结果，完成一个完整的乘加运算。同时选择器也可在选择器控制线作用下选中72位被加数和72位加数完成72位加法运算。
本发明3∶2压缩器和4∶2压缩器混合的压缩树单元采用的混合压缩结构是以一个4∶2压缩器作为整个部分积压缩树的根基，在这个基上可以向上生长两个分枝或者直接接受四个部分积信号和一个进位输入信号。若生长分枝，根据所生长的两个分枝的属性，即采用4∶2压缩器还是3∶2压缩器，在这两个分枝上可最多接受10个(4∶2压缩器)或6个(3∶2压缩器)信号。若该数目仍小于所要压缩的信号数，则在这些分枝上以各自的压缩率继续生长分枝，直到顶部分枝所能接受的信号数达到或超过所要压缩的信号数。同时为了保持部分积压缩树的规则性，规定只有部分积压缩树的最高层才有可能由3∶2压缩器构成，并且除了次高层以外，底下层上生长的分枝是完备的，也就是说，该层上的所有单元都对应两个分枝。按此方法即可确定不同列上压缩树的结构。
在要压缩的部分积数目是16的情况下，考虑到前一级树的进位信号，3∶2压缩器构成的部分积压缩树需要6层，以每个3∶2压缩器2个异或门的时延计算，产生的时延为12个异或门的时延。同样情况下4∶2压缩器构成的部分积压缩树需12个异或门的时延，而由混合结构的部分积压缩树只需11个异或门的时延，这样采用混合结构压缩树要比单纯的压缩树的时延要小，同时压缩树的面积比单纯用4∶2压缩器的压缩树大大减少。另外，本发明所涉及的乘加单元里的加法单元同时能够实现加法功能，这就不需要另外添加72位加法器来实现加法功能，因而减少了数字信号处理器芯片的面积。
由此体现出本发明具有实用性特点和显著的进步。它使得数字信号处理器乘加单元的时延降低的同时减少了芯片面积，这就提高了芯片的频率和性能，增加了芯片的性价比。

图1为本发明的数字信号处理器的整体结构框图。
如图1所示，本发明的数字信号处理器由数字信号处理器内核和指令存储器，数据存储器连接而成，其中内核包括程序控制单元，指令译码单元，算术运算单元和地址产生单元。
图2为本发明数字信号处理器乘加单元的结构框图。
图3本发明数字信号处理器3∶2和4∶2混合压缩结构的部分积压缩树的结构框图。
具体实施例方式
以下结合附图对本发明的技术方案作进一步描述。
图1中描述了本发明的数字信号处理器中各个组成模块之间的关系。如图1所示，数字信号处理器内核的指令译码单元与算术运算单元及地址产生单元相连，并双向连接到程序控制单元；程序控制单元连接到指令存储器，并从指令存储器中获取指令；算术运算单元和程序控制单元单向相连；算术运算单元双向连接到数据存储器，地址产生单元由地址总线连接到数据存储器并能与算术运算单元进行双向数据交换。乘加单元位于算术运算单元内。
本发明所涉及的数字信号处理器乘加单元采用两级流水线结构，如图2所示，它包括基4改进的Booth编码单元、3∶2压缩器和4∶2压缩器混合的压缩树单元、72位3∶2压缩阵列、72位超前进位加法器，选择器，选择器控制线。它们之间的连接关系为基4改进的Booth编码单元的输出连到3∶2压缩器和4∶2压缩器混合的压缩树单元，压缩树单元的输出和72位加数一起连到72位3∶2压缩阵列，阵列的输出和两个加数(72位加数，72位被加数)一起连到选择器的输入端，选择器的输出连接72位超前进位加法器。
32位乘加单元具有基4改进的Booth编码单元将32位被乘数和乘数变为16个33位权值不同的部分积，同时为了防止符号位扩展产生了一个部分积(32位的符号位扩展的和)。然后将这17个部分积输入3∶2压缩器和4∶2压缩器混合的压缩树单元，压缩得到的2个部分积和一个扩展后的72位加数输入到72位3∶2压缩器3中，最后将72位3∶2压缩器压缩得到的2个部分积以及两个加数在选择器控制线作用下，经过数据选择器后输入到72位超前进位加法器中，该超前进位加法器的输出结果就是整个乘加单元的最终结果。基4改进的Booth编码单元以及3∶2压缩器和4∶2压缩器混合的压缩树单元构成了第一级流水线，72位3∶2压缩器和72位超前进位加法器，选择器，选择器控制线构成了第二级流水线，这就是本发明所涉及的数字信号处理器乘加单元的两级流水线结构。
图3是本发明数字信号处理器采用的3∶2和4∶2混合结构的部分积压缩树的框图，它描述了32位乘法器3∶2和4∶2混合结构的部分积压缩树的具体连接方式。它包括部分积，3∶2压缩器，4∶2压缩器以及3∶2压缩器和4∶2压缩器之间的连接关系，即由顶层的3∶2压缩器的输出连到第二层的4∶2压缩器的输入，并由该层的输出连到下一层4∶2压缩器输入，直到最后一层。压缩树的输入端连接基4改进的Booth编码单元，输出作为72位3∶2压缩阵列的输入。图中所示的是混合压缩阵列中时延最长的一棵部分积压缩树，在这列上的部分积经过在顶层的3∶2压缩器压缩后送入到第二层的4∶2压缩器的输入端。由于除次高层以外，其它各层的4∶2压缩器的个数是完备的，因此这一层压缩器的个数为4。这一层压缩后的值又送到第三层的4∶2压缩器的输入端，如此往下，直到最后一个作为根的4∶2压缩器。它所输出的值进入到位于第二个流水级72位3∶2压缩阵列。这就是本发明的混合压缩树的结构实现方式。
权利要求
1.一种采用混合压缩两级流水乘加单元的数字信号处理器，指令译码单元与算术运算单元及地址产生单元相连，并双向连接到程序控制单元，程序控制单元连接到指令存储器，并从指令存储器中获取指令，算术运算单元和程序控制单元单向相连，算术运算单元双向连接到数据存储器，地址产生单元由地址总线连接到数据存储器并能与算术运算单元进行双向数据交换，其特征在于算术运算单元内部的乘加单元采用两级流水线结构，基4改进的Booth编码单元的输出连到3:2压缩器和4:2压缩器混合的压缩树单元，压缩树单元的输出和72位加数一起连到72位3:2压缩阵列，阵列的输出和72位加数、72位被加数一起连到选择器的输入端，选择器的输出连接72位超前进位加法器，基4改进的Booth编码单元将32位被乘数和乘数变为16个33位权值不同的部分积，同时产生一个部分积，即32位的符号位扩展的和，然后将这17个部分积输入3:2压缩器和4:2压缩器混合的压缩树单元，部分积经压缩得到2个部分积和一个扩展后的72位加数输入到72位3:2压缩器中，最后将72位3:2压缩器压缩得到的2个部分积在选择器控制线作用下经过选择器后输入到72位超前进位加法器中，由72位超前进位加法器输出整个乘加单元的最终结果，同时选择器也可在选择器控制线作用下选中72位被加数和72位加数完成72位加法运算，基4改进的Booth编码单元以及3:2压缩器和4:2压缩器混合的压缩树单元构成第一级流水线，72位3:2压缩器和72位超前进位加法器，选择器，选择器控制线构成第二级流水线。
2.如权利要求1的采用混合压缩两级流水乘加单元的数字信号处理器，其特征在于所述的3:2压缩器和4:2压缩器混合的压缩树单元以一个4:2压缩器作为整个部分积压缩树的根基，在这个基上向上生长两个分枝，若这两个分枝上可接受的信号数目小于所要压缩的信号数，则在这些分枝上以各自的压缩率继续生长分枝，直到顶部分枝所能接受的信号数达到或超过所要压缩的信号数，同时规定只有部分积压缩树的最高层才能由3:2压缩器构成，并且除了次高层以外，底下层上生长的分枝是完备的。
全文摘要
一种采用混合压缩两级流水乘加单元的数字信号处理器，在算术运算单元设计了两级流水线结构的乘加单元，基4改进的Booth编码单元以及3∶2压缩器和4∶2压缩器混合的压缩树单元构成第一级流水线，72位3∶2压缩器和72位超前进位加法器，选择器，选择器控制线构成第二级流水线，混合压缩树单元以一个4∶2压缩器作根基，向上生长两个分枝，直到顶部分枝所能接受的信号数达到或超过所要压缩的信号数，同时规定只有最高层才能由3∶2压缩器构成，并且除了次高层外，底下层上生长的分枝是完备的。本发明特别设计的乘加单元在时延降低的同时减少了芯片面积，提高了芯片的频率和性能，增加了芯片的性价比。
文档编号G06F7/52GK1556467SQ20041001573
公开日2004年12月22日申请日期2004年1月9日优先权日2004年1月9日
发明者陈健, 王田, 徐如淏, 陈健申请人:上海汉芯半导体科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈健;王田;徐如淏
技术所有人：上海交通大学;上海交大汉芯科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。