基于资源共享的低开销多标准8×8一维离散余弦变换电路的制作方法_2

文档序号：8480551阅读：来源：国知局

明目的是提供一种节约电路逻辑资源、提高性能的离散余弦变换电路结构，其能够快速完成离散余弦变换运算。
[0032] b、本发明基于矩阵分解的方法，设计了一款支持多个视频压缩标准的离散余弦变换的硬件电路结构。
[0033] C、本发明通过定PE和蝶形变换网络，实现了用较少逻辑资源来完成矩阵乘法的运算，降低了整个运算所需要的逻辑资源。
[0034] t本发明所提出的整个电路结构形成了一种"阶"流水线结构，能够实现流水处理 8X8尺寸的像素块。
[00巧]e、具有"阶"流的结构对实现整个2维的DCT变换方面也会起到一定优化效果。
【附图说明】
[0036] 图1为常见的2D-DCT硬件结构框图；
[0037] 图2为矩阵分解过程中用到的表达式；
[00測图3为U?Xe和V?X。的详细表达式；
[0039] 图4为本发明所提出的一维DCT的整体结构图；
[0040] 图5为本发明所提出的PE的整体结构图；
[0041]图6为本发明所提出的标准系数的编码格式；
[0042] 图7为本发明所提出的蝶形变换网络的结构；
[0043] 图8为共享计算资源的一维DCT的整体工作过程；
【具体实施方式】
[0044] 表1不同视频编码标准采用的系数；
[0045] 表2肥VC8X8系数的编码格式。
[0046] 为使本发明的目的、技术方案和优点更加清楚明白，W下结合具体实施例，并参照附图，对本发明进一步详细说明。
[0047] 本发明的设计思想为；本发明W文献[1]提出的硬件算法为基础，按照图2所示的方式矩阵进行分解，得到1D-抑CT的计算结果主要取决于U?Xc和V?X。的结论。而且，从矩阵U?Xe和V?X。所需的计算种类和数目上看，U?XE和V?X。属于相类似的矩阵，如图3 所示。因此，本发明通过定制处理单元的硬件电路结构，节省面积开销桐时，通过引入"阶段级"的流水线结构，进一步提升了计算效率，降低了对输入输出数据带宽和I/O数目的需求。
[004引如图4所示，本发明所提出的硬件电路结构包括；四个处理单元02~05 (对应于图中的PE0~PE3)和蝶形变换网络07。控制不同标准系数的01作为输入的控制信号随着不同的视频标准进行相应的改变。输入信号包括待处理的视频像素和经过编码的视频标准系数（cfg_in)。该些信号被分发到各个处理单元中，进行并行的计算，得到的计算结果经过蝶形变换网络的变换之后便完成了 1D抑CT的操作。所得到的结果可W作为下一阶段处理计算的输入信号。整个计算过程是在控制模块06的控制下进行的，保证数据是按照 8-clock进行阶段流水的。
[0049] 为了进一步说明本发明所设计的结构，W下将分别对处理单元和蝶形变换网络进行详细介绍。
[0050] 针对U?Xe和V?X巧有属性，为了尽可能的共享计算资源，定制实现了如图5所示的处理单元结构。该结构是由一个常系数乘法器501和两组累加单元513组成。处理单元整体上的工作流程是一个奇、偶交替计算的过程。像素信号采用串行的方式进入到常系数乘法器中，经过计算，按序产生了奇、偶相间的乘积结果；该些结果被分发到对应的两个累加单元中，再经过累加计算，完成了计算得到U?Xe和V?X。。
[0051] 本发明在对输入信号做乘法运算所采用的是常系数乘法器501。结合表2,常系数乘法器501(ConstantMultiplier,CM)的结构如图5(b)所示，图像的像素串行输入到常系数乘法器中，视频标准的系数cfg_in按照图6示的编码格式进行编码，对移位器50101、 50102、50103、50104(shl,sh2,sh3,sh4)和 2 选 1 的多路选择器 50108、50107、50106、 50105(CM1，CM2,CM3,CM4)进行控制。经过移位和选择出的结果通过加法器50111、50110、 50109完成了最终的乘法运算。对应的表2,作为一个例子，给出了肥VC标准对应系数的编码格式。
[0052] 本发明所提出的处理单元阳，包括有组累加单元，参考图5。二选一多路选择器 503、加法器511和寄存器510构成一组累加单元，二选一多路选择器508、加法器512和寄存器509构成另一组累加单元.。参考图5 (C)，累加单元包括一个加法器、寄存器和一个2 选1的多路选择器。通过多次累加，对常系数乘法器输出的结果进行了累加求和，减少了完成整个计算所需要的加法器的数目，为整个系统实现低开销提供了可能。
[0053] 本发明所提出的蝶形变换网络如图7所示。一维DCT的最终结果是通过蝶形变换网络得到的。输入的信号是各个处理单元产生的计算结果巧ven_i和0dd_i对应于U?而和V?X。)。为了做到整个蝶形变换网络的模块化，先设计实现蝶形变换单元701，它是由一个加法器70102和一个减法器70101组成。四个蝶形变换单元701组成最终的蝶形变换网络 702。
[0054] 本发明所提出的一维DCT结构的整体工作过程如图8所示。4个处理单元中的操作时完全同步的。奇、偶操作交替进行，完成一次运算需要8个时钟周期。采用该种方式，一维DCT能够连续不断的W8个时钟作为周期进行运算。本发明所提出的一维DCT结构基于矩阵U?Xe和V?X。的共性，实现了加法器和乘法器的共享，减小了用于矩阵运算的所需要的逻辑资源，实现了系统的低开销。
[0055] 本发明在常用的矩阵分解方法的基础上总结奇数和偶数部分的共同特点，提出了一种新的DCT结构，在实现常系数乘法时所采用的时采用的是"移位"和"加/减"的操作，采用其他类似方法实现系数乘法的设计都属于本发明的可替代方案。
[0056] 本发明的被处理数据的位宽也不受限制，可W根据实际应用确定该设计的被处理数据的位宽，根据被处理数据位宽变化所产生的结构方面的修饰都属于本发明的替代方案。
[0057] 本法明所提出的定制PE和定制蝶形变换网络结构实现了逻辑资源的共享，采用其他类似的定制方法或者是在本定制方法上任何的修饰和改进都属于本发明的替代方案。
[0058] 表1不同视频编码标准采用的系数
[0059]
【主权项】
1. 一种基于硬件资源共享的低开销多标准8X8 -维离散余弦变换电路，其特征在于，主要包括4个处理单元PE和蝶形变换网络；所述处理单元包括常系数乘法器（501)、数据分发器（502)、两组累加单元（513)、两寄存器（505, 506)以及两个二选一选择器（504, 507);其中输入的数据经过常系数乘法器 (501)相乘得到乘法结果，乘法结果经过数据分发器（502)的分发，将奇、偶部分别传递到两组累加单元，分别经过两组累加单元的累加计算之后输出到存储单元（506, 505)，然后经两个二选一选择器（504, 507)选择后将最终的计算结果传递到蝶形变换网络中；所述乘法器（501)包括四个移位器（50101、50102、50103、50104)、四个二选一多路选择器（50108、50107、50106、50105)及三个加法器（5011U50109和50110)，输入的数据先经过四个移位器对其进行移位，移位后的结果经过四个二选一多路选择器进行选择，选择输出的结果经过加法器的相加得到最终的乘法结果；累加单元（513)包括二选一多路选择器（503)、加法器（511)和寄存器（510)，输入信号经过加法器相加之后将暂时的结果存放在寄存器中，如果还需要进一步和输入的结果进行加法运算，二选一多路选择器就会选择寄存器中的结果和下一次的输入信号在中进一步进行加法运算，当所需要的计算完成之后，将计算结果输出；所述蝶形变换网络由4个蝶形变换单元（701)组成，每一蝶形变换单元由加法器和减法器构成，该蝶形变换单元有4个输入端，两个输出端；将4个PE的输出分别定义为Even_ i和Odd_i，其中i取0~3 ;将Even_i和Odd_(3-i)输入第i个蝶形变换单元到减法器，将Odd_i和Even_(3-i)输入到第i个蝶形变换单元的加法器中。
【专利摘要】本发明提供一种基于硬件资源共享的低开销多标准8×8一维离散余弦变换电路，主要包括4个处理单元PE和蝶形变换网络；所述处理单元包括常系数乘法器、数据分发器、两组累加单元、两寄存器以及两个二选一选择器；其中输入的数据经过常系数乘法器相乘得到乘法结果，乘法结果经过数据分发器的分发，将奇、偶部分别传递到两组累加单元，分别经过两组累加单元的累加计算之后输出到存储单元，然后经两个二选一选择器选择后将最终的计算结果传递到蝶形变换网络中，由蝶形变换网络对接收的信号进行处理，实现一维离散余弦变换电路的设计。本发明目的是提供一种节约电路逻辑资源、提高性能的离散余弦变换电路结构，其能够快速完成离散余弦变换运算。
【IPC分类】H04N19-42, H04N19-625
【公开号】CN104811738
【申请号】CN201510195893
【发明人】杨海钢, 贾瑞, 陈锐, 林郁, 王新刚, 郭珍红
【申请人】中国科学院电子学研究所
【公开日】2015年7月29日
【申请日】2015年4月23日

完整全部详细技术资料下载

当前第2页1 2