基于资源共享的低开销多标准8×8一维离散余弦变换电路的制作方法

文档序号:8480551阅读:297来源:国知局
基于资源共享的低开销多标准8×8一维离散余弦变换电路的制作方法
【技术领域】
[0001] 本发明设及一种基于硬件资源共享的低开销多标准离散余弦变换电路,尤其设 及一种可用于图像视频领域的8X8尺寸的图像数据进行一维离散余弦变换值iscrete CosineTransform,DCT)的电路。
【背景技术】
[0002] 随着高端多媒体应用的增长,业界提出了越来越多的复杂算法和相应的标准。在 视频和图像领域,为了提升编码的效率,也提出了多种视频编码技术,常见的有H. 264/AVC、 VC-UAVS和肥VC。作为关键的转化步骤,离散余弦变换值iscreteCosineTransform, DCT)的工作效率往往决定着整个编码的效率。
[0003] 事实上,随着业界提出的视频标准的增加,需要一种统一的电路结构能够有效的 支持各种现有的标准,同时,也希望能尽可能的减少整个系统的功耗。
[0004] 视频压缩标准中采用的DCT可W分为两类:离散余弦正变换(化rwardDCT,抑CT) 和离散余弦逆变换(InverseDCT,IDCT)。从公式(1)和(2)上可W看出二者在计算方式上 有很大的相似性,二者的硬件设计一般可W实现共用。
[0005]Y=CXCT=C(CXT)T(1)
[0006]X=CTyC=CT(肿)T(2)
[0007]W8X82D-IDCT为例,系数矩阵中的系数摆放位置和符号关系如图2中的Cs所示, 表1列出了不同视频压缩标准的系数比较。公式(1)中的矩阵X是待处理的像素块,矩阵 Y是处理结果。从公式(1)或(2)可W看出,2D-IDCT/抑CT的整个计算过程一般会被拆成 S部分;基于行的1D-IDCT/抑CT、矩阵转置和基于列的1D-IDCT/抑CT。而该S部分的硬件 实现可W划分为两类;流水线结构(如图1 (a)所示)和时分复用结构(如图1化)所示)。 前者可W实现流水执行,因此速度很快,后者速度较慢,但是所需的硬件资源较前者少。该 两种结构的共同之处在于矩阵转置需要借助于存储器或者寄存器阵列。
[0008] 1D-IDCT/抑CT的计算一般不会直接通过矩阵乘法实现,而是先将系数矩阵分解为 尺寸较小的块矩阵。分解方式是基于文献[1]W.-H.化en,C.Smith,andS.化alick.A化st computationalalgorithmforthediscretecosinetransform[J].IEEETransactions onCommunications, 1977, 25 巧):1004-1009.提出的快速DCT算法。
[0009] 对于ID-IDCT/抑CT的优化往往是通过硬件的共享来减低整个系统的开销。矩阵 分解往往是不同硬件共享策略的创新源头。近年来,已有许多研究在文献[1]提出的硬件 算法的基础,致力于降低1D-FDCT/IDCT硬件实现的难度,具有代表性的硬件实现算法有:
[0010] 1)基于常系数(ConstantMultiplication)乘法,相应的公开文献有;
[0011] [2]H.Qi,Q.Huang,andWenGao.Alow-costverylargescaleintegration architectureformaltistandardinversetransform[J].IEEETransactionson CircuitsandSystems-II:ExpressBriefs, 2010, 57(7):551-555.
[0012] [3]F. Qiih-Peng, F. Qiia-Hao, C. Chia-Wei, et al. . I^ast multiple inverse transforms with low-cost hardware sharing design for multistandard video decoding[J]. IEEE Transactions on Circuits and Systems-II:Express 化iefs, 2011,58巧):517-521.
[0013] [4]M. Martuza and K. A. Wahid. Low cost design of a hybrid architecture of integer inverse DCT for H. 264, VC-1, AVS, and HEVC[J]. Journal of Real-Time Image Processing, 2012:1-12.
[0014] 巧]C.-W. Chang, S.-J. Hsu, and C.-P. Fan. Efficient fast transform processor with cost-effective hardware sharing architecture for multi-standard video encoding[C].5th International Congress on Image and Signal Processing(CISFO , 2012:14-18.
[0015] 2)基于分布式值istribute Arithmetic)算法,相应的公开文献为;
[0016] [6]S.Yu and E. Swartziander Jr. DCT implementation with distributed arithmetic[J]. IEEE Transactions on Computers, 2001, 50(9):985-991.
[0017] 3)基于Cordic(coordinateRotationDigitalComputer)算法,相应的公开文献 为:
[0018] [7]H. Huang and L. Xiao. CO畑1C based fast radix_2DCT algorithm[J]. IE邸 Si即al Processing Letters, 2013, 20巧):483-486.
[0019] 其中,常系数乘法主要是通过研究和发掘不同标准系数的共有特性和差异化特 性,通过移位和加法运算来实现多标准的系数乘法,通过乘法运算操作的共享来降低系统 所需要的开销。分布式算法由于需要额外的ROM和控制逻辑,其在面积开销方面的优势较 小。而基于Cordic的算法,通过Cordic迭代执行移位和加法来实现乘法,减低了开销,其 计算的鲜明特点是需要迭代,可能会对最高解码率有影响。
[0020] 目前,现有技术中最主要的技术缺陷:
[0021] 没有充分考虑硬件共享,没有充分考虑矩阵分解之后,奇、偶部分的相似之处,往 往在实现DCT的过程中占用了较多的硬件逻辑资源。

【发明内容】

[0022] 有鉴于此,本发明的目的是为了解决现有DCT电路设计未充分考虑硬件共享,而 占用较多硬件资源的问题,提出一种基于硬件资源共享的低开销多标准8X8-维离散余 弦变换电路,其节约电路逻辑资源,能够快速完成离散余弦变换运算,适用于多种视频编码 压缩标准。
[0023] 实现本发明的技术方案如下;
[0024] -种基于硬件资源共享的低开销多标准8X8 -维离散余弦变换电路,主要包括 W下2部分结构;4个处理单元(ProcessingElement,阳)和蝶形变换网络,通过4个阳 和蝶形变换网络的组合实现了 一种低开销的结构。
[00巧]所述处理单元包括常系数乘法器、数据分发器、两组累加单元、两寄存器W及两个 二选一选择器;其中
[0026] 输入的数据(input)和系数配置信息(cfg_in),所述输入的数据经过常系数乘法 器相乘得到乘法结果,乘法结果经过数据分发器的分发,将奇、偶部分别传递到两组累加单 元,分别经过两组累加单元的累加计算之后输出到存储单元,然后经两二选一选择器选择 后将最终的计算结果传递到蝶形变换网络中;
[0027] 所述乘法器包括四个移位器、四个二选一多路选择器及=个加法器,输入的数据 (input)先经过四个移位器对其进行移位,移位后的结果经过四个二选一多路选择器进行 选择,选择输出的结果经过加法器的相加得到最终的乘法结果;在常系数乘法的整个工作 过程中,乘法器中的移位器和二选一多路选择器所需要的配置信息都来源于系数配置信息 cfg_in,而cfg_in是由视频标准的系数所产生的;
[0028] 累加单元包括二选一多路选择器、加法器和寄存器,输入信号经过加法器相加之 后将暂时的结果存放在寄存器中,如果还需要进一步和输入的结果进行加法运算,二选一 多路选择器就会选择寄存器中的结果和下一次的输入信号在中进一步进行加法运算,当 所需要的计算完成之后,计算结果通过add_result输出;
[0029] 所述蝶形变换网络由4个蝶形变换单元组成,每一蝶形变换单元由加法器和减法 器构成,该蝶形变换网络有4个输入端,两个输出端;将4个PE的输出分别定义为Even_i 和0(M_i,其中i取0~3 ;将Even_i和0(M_(3-i)输入第i个蝶形变换单元到减法器,将 0(M_i和Even_(3-i)输入到第i个蝶形变换单元的加法器中。
[0030] 有益效果
[0031] a、本发
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1