可缩放大规模二维卷积电路的制作方法

文档序号：6560244阅读：380来源：国知局

专利名称：可缩放大规模二维卷积电路的制作方法
技术领域：
本发明属于嵌入式计算机高速协处理部件，涉及一种可缩放大规模二维卷积电路，用于大幅提高嵌入式计算机在进行图像匹配时的计算速度。
背景技术：
现有技术在进行图像匹配计算时，都是用微处理器(包括DSP微处理器)进行的，由于计算量大，单个微处理器(DSP)达不到实时性要求，为加快计算速度，用多个微处理器(DSP)来并行计算，但这增加了体积、功耗，也降低了可靠性，满足不了嵌入式应用要求。

发明内容
针对上述现有技术存在的缺陷与不足，本发明的目的在于，提供一种可缩放大规模二维卷积电路，该电路在嵌入式条件下，能够大幅提高处理速度，既提高了实时性，又确保可靠性，而且具有较广的应用范围。
为了实现上述任务，本发明采取如下的技术解决方案一种可缩放大规模二维卷积电路，其特征在于面向算法设计，充分挖掘算法中的并行性特点，应用资源重复与时间重叠技术，用硬件电路直接完成计算；同时可根据计算环境的变化，缩放计算规模。电路包括一个基准图像素寄存器Y，数据宽度为8位；一个实时图像素寄存器组X，数据宽度为8位，由128个8位寄存器x0～x127构成移位寄存器，其寄存器x0的输出接至片外，以备级连时连接，X值以串行方式移入寄存器组；乘法器组，由128个的阵列乘法器M0，M1，.....M127组成，每一个乘法器Mi的两个输入，来自基准图像素寄存器Y和对应的实时图像素寄存器xi；
乘积寄存器组，由128个寄存器p0，p1，....p127组成，数据宽度为16位，寄存器pi输入接相应乘法器Mi输出；加法器组，由128个加法器A0，A1，......A127构成，每个加法器Ai的两个输入来自相应的乘积寄存器pi和中间结果寄存器Si-1；中间结果寄存器组，由128个寄存器S0，S1，.....S127组成，数据宽度16～26位，每个中间结果寄存器Si用于暂存相应加法器Ai的和；一个输出电路，用于计算结果的三态输出，以便与CPU的总线相连；一个控制电路，用于产生时钟、读写、片选以及清除信号。
本发明的可缩放大规模二维卷积电路，可在一个时钟周期同时实现128对像素值的乘累加，即完成计算R=Σi=07Σj=015xijyij,]]>若用微处理器计算，需要进行128次乘操作和127次加操作，共255次操作，但用本发明的卷积电路计算时，当流水建立后，只要一次操作就可完成。本发明的可缩放大规模二维卷积器电路，在计算时，算法中运算量大、规则性强的计算由卷积电路完成，微处理器负责存储采集的图像数据，并运算其他并行性较差、无规则的计算，把微处理器的灵活性与硬件电路的高速性有机的结合起来，达到灵活、高适应性和高实时性的效果。

图1是本发明的大规模二维卷积器电路结构图；图2是卷积单元电路图；图3是编程控制图；图4是卷积器用于信号处理的信号处理单元结构。
以下结合附图和发明人给出的实施例对本发明作进一步的详细说明。
具体实施例方式
在图像匹配等图像处理算法中，经常要计算如下的公式
R=Σi=0M-1Σj=0N-1xijyij]]>当M和N很大时，计算量很大，但由于图像匹配等图像处理算法具有规则性强、并行性好等特点，可用硬件电路直接实现，省去用微处理器计算时程序执行时间的约束，从而提高处理速度。
卷积电路充分挖掘算法中的流水和并行特性，充分运用时间重叠和资源重复技术，使电路具有流水和并行计算能力，同时为了扩大运用范围，能进行平滑、滤波等计算，使电路可通过编程控制，实现规模可缩放。
(1)、电路结构电路结构如图1所示，其组成为a、一个基准图像素寄存器Y，数据宽度为8位；b、一个实时图像素寄存器组X，数据宽度为8位。由128个8位寄存器x0～x127构成移位寄存器。其寄存器x0的输出接至片外，以备级连时连接。X值以串行方式移入寄存器组；c、乘法器组由128个的阵列乘法器组成M0，M1，.....M127，每一个乘法器Mi的两个输入，来自基准图像素寄存器Y和对应的实时图像素寄存器xid、乘积寄存器组，由128个寄存器组成p0，p1....p127，数据宽度为16位，寄存器pi输入接相应乘法器Mi输出；e、加法器组由128个加法器构成A0，A1......A127，每个加法器Ai的两个输入来自相应的乘积寄存器pi和中间结果寄存器Si-1；f、中间结果寄存器组，由128个寄存器组成S0S1.....S128。数据宽度16～26位，每个中间结果寄存器Si用于暂存相应加法器Ai的和；g、输出电路三态输出；h、控制电路产生时钟(CLK)，读写(R/W)，和片选(CS)以及清除(RESET)信号。
由电路结构可看出，整个电路实质上是由一个个基本卷积单元串连构成的。基本卷积单元由一个实时图寄存器、一个像素对乘法器、一个像素对乘寄存器、一个加法器和一个中间结果寄存器构成。如图2所示，每一基本单元实现Si-1+xiyi，128点卷积电路是由128个基本单元直接串连起来，再连接Y寄存器，控制电路和三态门。整个电路结构规整，简单、易于设计实现。
(2)、电路工作过程1)、将所有寄存器复位；2)、先将128个X值x0～x127串行移入X寄存器组，然后将Y值依次移入Y寄存器；3)、移入第一个Y值后，第130个脉冲将第一个卷积结果置入S127。实现s127=Σi=0127xiyi+u]]>u＝0，1，…，m此后，每移入一个Y值，S127中置入一个卷积结果，即每个时钟周期获得一个128对像素值的乘累加结果，这些结果按顺序分别对应u＝0，1，…，m。
(3)、电路特点1)、结构规整由一个个基本单元串联而成，便于设计和实现；2)、级连方便灵活可根据需要级连，增大计算规模，提高计算速度；3)、卷积规模大，计算速度快；4)、电路采用了多种并行技术
资源重复技术128个相同的乘法器，128个相同的加法器，128个乘积寄存器和128个中间结果寄存器同时工作。
时间重叠技术乘和加及多级加之间采用时间重叠，流水操作。
(4)计算规模可编程性为使电路规模可缩放，从而适应计算环境的变化，可通过级连来扩大计算规模，通过编程来控制计算规模的变化，如在滤波、平滑等的3×3、5×5、7×7模板等，编程控制如图3所示。
编码与计算规模对应关系如下

(5)实现方案设计成IP核，用FPGA实现。
发明带来的技术效果是1、可在一个时钟周期同时实现128对像素值的乘累加，即完成计算R=Σi=07Σj=015xijyij,]]>若用微处理器计算，需要进行128次乘操作和127次加操作，共255次操作，但用本发明的卷积器计算时，当流水建立后，只要一次操作就完成了。
2、用DSP做主处理器，可缩放大规模二维卷积器做快速协助处理部件的信号处理单元处理速度估计信号处理单元由DSPTMS320C6701和算法硬件构成。因为图像匹配的计算量很大。用进行图像匹配计算来估算信号处理单元的处理速度。图像匹配计算中乘累加运算占总计算量的80％以上，可以用乘累加运算来估算。以128对象素值的乘加运算为例来说明。
128对象素值的乘累加运算要进行128次乘操作和127次加操作。共255次操作。用TMS320C6701估算时，每次操作平均要用到四条指令，所以完成全部计算，DSP要执行的指令数为L1＝255×4＝1020条指令。
信号处理单元计算时，在DSP的控制下，由算法硬件卷积器来计算。当流水建立后，由DSP发读信号从基准图存储器中将一个象素值置入Y寄存器，同时，读出一个128对象素值的乘累加结果，并保存起来，如此循环，因此只需要读、写、条件转移三条指令，但在访问存储器时要等待一个周期，所以三条指令要占用6个指令周期，相当于6条单周期指令，用L2表示。
故信号处理单元进行乘累加运算时的处理速度比单用TMS320C6701计算时的处理大大提高了。提高的倍数为M=L1L2=10206=170]]>TMS320C6701的平均处理速度约600MIPS，因此信号处理单元在进行乘累加运算时的处理速度为V1＝170×600MIPS＝102000MIPS。
以乘累加运算占整个匹配计算工作量的80％折算，信号处理单元在进行图像匹配计算时的处理能力为V＝V1×80％＝81600MIPS。
实施例信号处理单元采用DSP+卷积器的结构，如图4所示。在此结构中，用FPGA实现的卷积器挂在DSP总线上，接受DSP的驱动控制，作为DSP的高速协处理部件，减轻DSP的负担，加快运行速度。算法中运算量大，规则性高的计算(如平滑、滤波、匹配计算等)由卷积器完成。DSP负责存储采集的图像数据，并运行其它并行性较差，无规则的计算(如求直方图、校正、拟合等)，并对卷积器的计算结果进行综合判断，输出控制参数，这样就把DSP的灵活性和算法硬件电路的高速、高效性有机结合起来，达到高灵活性、高适应性和高实时性的效果。
为了提高计算速度，充分发挥卷积器的并行计算效率，在进行卷积计算时，当流水建立后，向卷积器的Y寄存器(见图1)写入数据和从卷积器读出结果是同时进行的，这样就会使写入数据和读出数据发生冲突。为了解决此问题，用了一个隔离电路，其作用是当DSP向存储器写入图像数据时隔离器打开，DSP通过数据总线将数据写入基准图存储器。当进行卷积计算时，隔离器关闭，断开DSP数据总线与存储器数据总线的通路，由存储器置入卷积器的数据与由卷积器读出的数据相隔离，从而不会发生冲突，可以做到向Y置入数据与读出计算结果同时进行，充分发挥卷积电路流水和并行计算的特点，提高了计算速度。
权利要求
1.一种可缩放大规模二维卷积电路，其特征在于，该电路包括一个基准图像素寄存器Y，数据宽度为8位；一个实时图像素寄存器组X，数据宽度为8位，由128个8位寄存器x0～x127构成移位寄存器，其寄存器x0的输出接至片外，以备级连时连接，X值以串行方式移入寄存器组；乘法器组，由128个的阵列乘法器M0，M1，.....M127组成，每一个乘法器Mi的两个输入，来自基准图像素寄存器Y和对应的实时图像素寄存器xi；乘积寄存器组，由128个寄存器p0，p1，....p127组成，数据宽度为16位，寄存器pi输入接相应乘法器Mi输出；加法器组，由128个加法器A0，A1，......A127构成，每个加法器Ai的两个输入来自相应的乘积寄存器pi和中间结果寄存器Si-1；中间结果寄存器组，由128个寄存器S0，S1，.....S127组成，数据宽度16～26位，每个中间结果寄存器Si用于暂存相应加法器Ai的和；一个输出电路，用于计算结果的三态输出，以便与CPU的总线相连；一个控制电路，用于产生时钟、读写、片选以及清除信号。
全文摘要
本发明公开了一种可缩放大规模二维卷积电路，该电路包括一个基准图像素寄存器Y，一个实时图像素寄存器组X，由128个的阵列乘法器M
文档编号G06T1/20GK1916959SQ20061010506
公开日2007年2月21日申请日期2006年8月29日优先权日2006年8月29日
发明者黄士坦, 刘红侠申请人:中国航天时代电子公司第七七一研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄士坦;刘红侠
技术所有人：中国航天时代电子公司第七七一研究所
我是此专利的发明人

上一篇：折衷型前导0/1逻辑的电路结构的制作方法
上一篇：一种现场可编程门阵列的快速配置方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。