一种基于OpenCL并行加速的SIFT特征匹配方法_3

文档序号:8412878阅读:来源:国知局
oup_id(0)+tid ;
[0066] const int offset = col_GAUSS_MODELDIM ;
[0067] 步骤2 :剔除边缘点并行计算中工作节点的任务分配及映射,在候选特征点检测 完成后,形成了一个线性数据结构集合,因此可以分配一个工作节点去完成是否剔除一个 边缘点的判断,通过OpenCL在每个工作组中开辟512个工作节点并行判断是否保留该候选 特征点,这里的工作节点地址映射关系如下所示:
[0068] const unsigned int tid = globalfforkSize[0]*get_group_id(0)+get_local_ id(0);
[0069] 步骤3 :欧氏距离并行计算中工作节点的任务分配及映射,关键点的128维描述子 可以看成是一个线性数据结构集合。因此可以分配一个工作节点去完成一对相应维度的差 平方计算。通过OpenCL在每个工作组中开辟128个工作节点并行计算出每一对维度的差 平方值,并将结果保存到本地存储器中。由于在欧氏距离并行中采用并行缩减求和算法计 算距离,因此每个工作节点还将负责一对差平方值的求和。此处的工作节点地址映射关系 如下所示:
[0070] const unsigned int tid = get_local_id(0)
[0071] const unsigned int bid = get_group_id(0);
[0072] 所述的SIFT特征匹配并行计算为SIFT特征匹配GPU并行化处理计算模式。
[0073] 所述的基于OpenCL的棋盘式卷积运算为一个顺序运算的过程。
[0074] 随着影像像幅的降低和滤波窗口的增大,GPU的加速效果十分明显,影像对进行 SIFT特征匹配单GPU运算的总加速比高,具有密集的计算任务和工作量大的特点,并通过 优化达到最佳效果,另外基于OpenCL的SIFT特征匹配算法通过并行性分析,将许多计算分 割在CPU和GPU之间分别计算,发挥了各自的计算优势,充分体现了 CPU+GPU异构计算的强 大能力,实时性高,具有可移植性的Sift特征匹配并行算法实现了平台无关性。
[0075] 实施例3
[0076] 如图1、图2、图3、图4和图5所示,一种基于OpenCL并行加速的SIFT特征匹配方 法,它包括SIFT特征匹配并行计算、基于OpenCL的棋盘式卷积运算和工作节点的任务分配 及映射,以经过预处理的不同像幅大小的影像对滤波窗口为21X21进行SIFT特征匹配对 比实验,分别运行SIFT特征匹配的CPU系统、单GPU系统和多GPUs系统,并记录处理时间, 见表1,以489X561像幅的影像对进行不同滤波窗口大小的SIFT特征匹配对比实验,分别 运行SIFT特征匹配的CPU系统、单GPU系统和多GPUs系统,并记录处理时间,见表2。
[0077] 表1不同像幅SIFT特征匹配串并行性能对比
[0078]
【主权项】
1. 一种基于OpenCL并行加速的SIFT特征匹配方法,它包括SIFT特征匹配并行计算、 基于OpenCL的棋盘式卷积运算和工作节点的任务分配及映射,其特征在于:所述的SIFT特 征匹配并行计算包括如下步骤: 步骤1 :首先读取输入影像到主存,将不同尺度的高斯核数据由主存传入到GPU的常量 存储器中,在GPU中进行分步连续滤波加速高斯尺度空间金字塔的构建,并将高斯金字塔 存储在全局存储器内,然后高斯金字塔影像被回读到CPU,相邻尺度的两个高斯影像相减得 到DOG金字塔多尺度空间表示,当把候选特征点集合信息上传至GPU中后,便可在GPU内对 高斯差分金字塔所有候选特征点进行精确定位,计算关键点周围影像强度的主曲率,通过 一个2X2的Hessian矩阵计算特征值比率,检测关键点主曲率是否超过设定的阈值,通过 去掉多余的点后,确定关键点集合并精确标记关键点的位置和尺度,关键点位置、尺度将在 GPU中恢复; 步骤2 :利用在GPU中计算的关键点集合信息,启动kernel计算在关键点附近像素的 梯度大小和方向,利用已经存储在全局存储器中的高斯权重函数,对关键点邻域窗口内的 各像素的梯度大小进行高斯加权并累加建立方向直方图,检测直方图的峰值,确定关键点 主方向; 步骤3 :计算128维的SIFT描述符,以关键点为中心的16X16影像数据块根据关键点 的尺度、位置和方向构造SIFT描述符的过程,在CPU上实现则可以发挥CPU逻辑分支、判断 能力强的优势,尚效地完成任务; 步骤4 :SIFT特征匹配,确定匹配点位,按照原始点的自然顺序将维度数据读入本地存 储器,优化的重点是距离计算,首先必须保证每个维度差值的平方在同一时刻被计算,而不 是使用内循环方式,其次保证维度数目的中间结果的累加方式高效; 所述的基于OpenCL的棋盘式卷积运算包括如下步骤: 步骤1 :卷积乘计算,在内核gaussConvolution启动后,待处理的影像数据就存放在 全局存储器中,高斯核函数数据存放在常量存储器中,工作组中各个工作节点将对应的全 局存储器和常量存储器的数据取出完成卷积乘运算后存入本地存储器中,根据单指令多线 程执行模型的工作原理可知,活动warp是以时间片分配的,工作节点调度程序定期从一个 warp切换到另一个warp,以最大限度利用多处理器的计算资源,只有指令中全部操作数 就位的warps拥有执行资格,调度协议按照优先级选择其中一个warp执行,各个warp之间 的执行次序是不确定的,可以是任何次序,由于在同一个warp中的这32个工作节点是被绑 定在一起执行同一指令的,这意味着warp中的每个工作节点传递的都是指令库中的相同 指令,指导工作节点执行一些操作或操纵GPU存储器; 步骤2 :积的累加计算,当工作组中所有工作节点卷积乘计算完毕后,采用并行归约求 和算法计算出影像中某个像素点的卷积值,最后将计算结果通过主机端控制从设备端转移 到主机端的内存; 所述的工作节点的任务分配及映射包括如下步骤: 步骤1 :卷积并行中工作节点的任务分配及映射,根据卷积运算中卷积乘相互无关的 特性,卷积并行最自然的想法是每一个卷积乘由一个工作节点计算,即每个工作节点负责 将一个像素值与高斯模板值相乘,由于在卷积并行中采用并行缩减求和算法计算影像中 某个像素点的卷积值,因此每个工作节点还将负责一对卷积乘乘积值的求和,通过get_ group_id二维索引向量和get_local_id-维索引向量来寻址: const unsigned int tid = get_local_id(0); const int baseAddress = get_group_id(I)氺col+get_group_id(0)+tid ; const int offset = col-GAUSS_MODELDIM; 步骤2 :剔除边缘点并行计算中工作节点的任务分配及映射,在候选特征点检测完成 后,形成了一个线性数据结构集合,因此可以分配一个工作节点去完成是否剔除一个边缘 点的判断,通过OpenCL在每个工作组中开辟512个工作节点并行判断是否保留该候选特征 点,工作节点地址映射关系如下所示: const unsigned int tid = globalfforkSize[0]*get_group_id(0)+get_local_ id(0); 步骤3 :欧氏距离并行计算中工作节点的任务分配及映射,关键点的128维描述子可以 看成是一个线性数据结构集合,因此可以分配一个工作节点去完成一对相应维度的差平方 计算,通过OpenCL在每个工作组中开辟128个工作节点并行计算出每一对维度的差平方 值,并将结果保存到本地存储器中,由于在欧氏距离并行中采用并行缩减求和算法计算距 离,因此每个工作节点还将负责一对差平方值的求和,此处的工作节点地址映射关系如下 所示: const unsigned int tid = get_local_id(0) const unsigned int bid = get_group_id(0)〇
2.如权利要求I所述的一种基于OpenCL并行加速的SIFT特征匹配方法,其特征在于: 所述的SIFT特征匹配并行计算为SIFT特征匹配GPU并行化处理计算模式。
3.如权利要求1所述的一种基于OpenCL并行加速的SIFT特征匹配方法,其特征在于: 所述的基于OpenCL的棋盘式卷积运算为一个顺序运算的过程。
【专利摘要】本发明涉及一种基于OpenCL并行加速的SIFT特征匹配方法,它包括SIFT特征匹配并行计算、基于OpenCL的棋盘式卷积运算和工作节点的任务分配及映射,具有将许多计算分割在CPU和GPU之间分别计算,发挥了各自的计算优势,充分体现了CPU+GPU异构计算的强大能力,实时性高,具有可移植性的Sift特征匹配并行算法实现了平台无关性。
【IPC分类】G06K9-46, G06K9-00
【公开号】CN104732221
【申请号】CN201510160089
【发明人】肖汉, 肖诗洋, 周霄云, 肖波, 冯娜
【申请人】郑州师范学院
【公开日】2015年6月24日
【申请日】2015年3月30日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1