一种基于龙芯3号处理器的fft高效并行实现优化方法

文档序号:6523986阅读:371来源:国知局
一种基于龙芯3号处理器的fft高效并行实现优化方法
【专利摘要】本发明公开了一种基于龙芯3号处理器的FFT高效并行实现优化方法,其特征在于,FFT高效并行实现优化方法是采用基-2蝶形计算并按如下步骤进行:1、设置初始化参数;2、获得所述FFT变换的级数;3、获得各旋转因子;4、划分子向量并判断是否进行分块处理;5、分块处理。本发明能解决现有并行FFT算法在龙芯3号处理器上低加速比的情况,达到在龙芯3号处理器上FFT的高效并行实现。
【专利说明】—种基于龙芯3号处理器的FFT高效并行实现优化方法
【技术领域】
[0001]本发明属于电数字数据处理【技术领域】,具体涉及龙芯3号处理器上FFT高效并行实现优化方法。
【背景技术】
[0002]龙芯3号处理器是由中国科学院计算所研制的一款国产高性能的通用RISC处理器,它是基于MIPS指令级集的,并且具有高集成度、高性能、低功耗以及低成本等优良特性。龙芯3号处理器包含四核龙芯3A处理器和八核龙芯3B处理器,主要是是面向高性能机应用以及高端服务器的。快速傅立叶变换FFT (Fast Fourier Translation),是计算机系统和数字系统应用中最有效的算法之一,并广泛的应用于语音信号处理、图像处理、功率谱估计、雷达信号处理等领域。FFT算法具有计算密集型和存储密集型的特点,通常被用作HPC、NAS的并行测试基准。目前实际应用的并行FFT算法由于并未针对龙芯3号处理器做专门的优化,因而通用的并行FFT算法单纯移植在龙芯3号处理器上并没有获得较好的运行加速比。

【发明内容】

[0003]本发明是为避免上述现有技术所存在的不足之处,提供一种基于龙芯3号处理器的FFT高效并行实现优化方法,解决现有并行FFT算法在龙芯3号处理器上低加速比的情况,达到在龙芯3号处理器上FFT的高效并行实现。
[0004]本发明为解决以上技术问题采用如下方案:
[0005]本发明一种基于龙芯3号处理器的FFT高效并行实现优化方法,是采用基-2蝶形计算并按如下步骤进行:
[0006]步骤1、设置初始化参数,所述初始化参数为:源向量的长度N、龙芯3号处理器的核数P和分块长度NB ;
[0007]步骤2、利用式(I)获得所述FFT变换的级数S:
[0008]S = 1g2N(I)
[0009]步骤3、利用式⑵获得各旋转因子:.^/T k
[0010]
【权利要求】
1.一种基于龙芯3号处理器的FFT高效并行实现优化方法,其特征在于,FFT高效并行实现优化方法是采用基-2蝶形计算并按如下步骤进行: 步骤1、设置初始化参数,所述初始化参数为:源向量的长度N、龙芯3号处理器的核数P和分块长度NB ; 步骤2、利用式(I)获得所述FFT变换的级数S: S = 1g2N(I) 步骤3、利用式(2)获得各旋转因子:
【文档编号】G06F17/14GK103678255SQ201310689271
【公开日】2014年3月26日 申请日期:2013年12月16日 优先权日:2013年12月16日
【发明者】顾乃杰, 江国荐, 任开新 申请人:合肥优软信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1