一种基于词袋模型的图像描述方法及系统的制作方法

文档序号:6628020阅读:232来源:国知局
一种基于词袋模型的图像描述方法及系统的制作方法
【专利摘要】本发明属于图像处理领域,提供了一种基于词袋模型的图像描述方法及系统。该方法及系统是在现有技术基础上应用模糊理论,在得到距离集合后,利用高斯隶属度函数为每一视觉单词分配不同的隶属度,以将距离集合转换为模糊集合,之后用具有不同隶属度的视觉单词对特征点进行编码,从而有效降低传统方法引起的信息丢失问题,进而提高图像描述的准确度。
【专利说明】一种基于词袋模型的图像描述方法及系统

【技术领域】
[0001] 本发明属于图像处理领域,尤其涉及一种基于词袋模型的图像描述方法及系统。

【背景技术】
[0002] 在图像处理领域,图像描述作为图像标注、检索、分类等的关键技术,已吸引了越 来越多研究者的关注。随着多媒体、互联网技术及可移动设备的发展,需要处理识别的图像 数量呈爆炸式增长,从而对图像处理能力提出了更高要求。基于词袋模型的图像描述方法 作为图像描述的有效方法,通过对图像的底层特征进行编码形成直方图矢量以对图像进行 描述,具有处理效率高、分析准确度高的特点,特别适用于对大规模图像信息的处理。
[0003] 现有技术提供的基于词袋模型的图像描述方法主要包括以下步骤:首先,从训练 图像中提取特征点,对特征点进行聚类,获得码书;之后,从待描述图像中提取特征点,利用 码书将特征点映射为视觉单词;之后,统计每一视觉单词在待描述图像中出现的频率,得到 用以描述待描述图像的直方图矢量。
[0004] 现有技术提供的前述基于词袋模型的图像描述方法在将特征点映射为视觉单词 的步骤中,是选取码书中、与特征点之间的距离最近的视觉单词作为最佳方案。这样,当码 书中有多个单词与特征点之间的距离相似时,有可能与特征点之间的距离稍大的视觉单词 在语义上更接近该特征点,从而使得图像描述不准确。


【发明内容】

[0005] 本发明的目的在于提供一种基于词袋模型的图像描述方法,旨在解决现有技术 提供的基于词袋模型的图像描述方法在将特征点映射为视觉单词时,选取与特征点之间距 离最近的视觉单词作为最佳方案,会使得图像描述不准确的问题。
[0006] 本发明是这样实现的,一种基于词袋模型的图像描述方法,所述方法包括以下步 骤:
[0007] 从待描述图像中提取特征点;
[0008] 计算所述特征点与码书中视觉单词之间的距离集合,并通过高斯隶属度函数、利 用所述距离集合获得所述特征点与所述视觉单词之间的隶属度集合;
[0009] 利用所述隶属度集合,统计用于描述每一特征点的所述视觉单词的隶属度,形成 直方图矢量,所述直方图矢量用以描述所述待描述图像。
[0010] 本发明的另一目的在于提供一种基于词袋模型的图像描述系统,所述系统包括: [0011] 提取模块,用于从待描述图像中提取特征点;
[0012] 隶属度集合生成模块,用于计算所述提取模块提取出的所述特征点与码书中视觉 单词之间的距离集合,并通过高斯隶属度函数、利用所述距离集合获得所述特征点与所述 视觉单词之间的隶属度集合;
[0013]图像描述生成模块,用于利用所述隶属度集合生成模块获得的所述隶属度集合, 统计用于描述每一特征点的所述视觉单词的隶属度,形成直方图矢量,所述直方图矢量用 以描述所述待描述图像。
[0014] 本发明提供的基于词袋模型的图像描述方法及系统是在现有技术基础上应用模 糊理论,在得到距离集合后,利用高斯隶属度函数为每一视觉单词分配不同的隶属度,以将 距离集合转换为模糊集合,之后用具有不同隶属度的视觉单词对特征点进行编码,从而有 效降低传统方法引起的信息丢失问题,进而提高图像描述的准确度。

【专利附图】

【附图说明】
[0015] 图1是本发明提供的基于词袋模型的图像描述方法的流程图;
[0016] 图2是本发明中,从待描述图像中提取特征点的步骤的详细流程图;
[0017] 图3是本发明中,获得隶属度集合的步骤的详细流程图;
[0018] 图4是本发明提供的基于词袋模型的图像描述系统的结构图;
[0019] 图5是图4中提取模块的结构图;
[0020] 图6是图4中隶属度集合生成模块的结构图。

【具体实施方式】
[0021] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0022] 针对现有技术存在的问题,本发明提出一种基于词袋模型的图像描述方法及系 统。该方法及系统是在现有技术基础上应用模糊理论,在得到距离集合后,利用高斯隶属度 函数,将距离集合转换为模糊集合。
[0023] 图1示出了本发明提供的基于词袋模型的图像描述方法的流程,包括以下步骤:
[0024] S1 :从待描述图像中提取特征点。
[0025] 本发明中,可米用尺度不变特征转换(Scale-Invariant Feature Transform, SIFT)算法或任一种SIFT改进算法实现特征点的提取。如图2所示,若采用SIFT算法实现 特征点的提取,则可包括以下步骤:
[0026] S11 :利用高斯核对待描述图像进行尺度变换,获得待描述图像在多尺度下的尺度 空间表示序列,对尺度空间表示序列进行特征提取,以确定待描述图像中特征点的位置和 所在尺度。
[0027] S12 :通过拟合三维二次函数精确确定特征点的位置和尺寸。
[0028] S13 :利用特征点邻域像素的梯度方向分布特性,为每一特征点指定一主方向和多 个辅方向。
[0029] S14:统计特征点所处尺度和区域的图像梯度,并通过转换得到特征点的特征向 量。
[0030] S2 :计算特征点与码书中视觉单词之间的距离集合,并通过高斯隶属度函数、利用 距离集合获得特征点与视觉单词之间的隶属度集合。如图3所示,步骤S2又可包括以下步 骤:
[0031] S21 :计算特征点与码书中视觉单词之间的距离集合。
[0032] 若假设4」是特征点qi和码书中视觉单词Wj之间的欧式距离,D为用以表示距离 集合的矩阵,则步骤S21可表示为:
[0033]

【权利要求】
1. 一种基于词袋模型的图像描述方法,其特征在于,所述方法包括以下步骤: 从待描述图像中提取特征点; 计算所述特征点与码书中视觉单词之间的距离集合,并通过高斯隶属度函数、利用所 述距离集合获得所述特征点与所述视觉单词之间的隶属度集合; 利用所述隶属度集合,统计用于描述每一特征点的所述视觉单词的隶属度,形成直方 图矢量,所述直方图矢量用以描述所述待描述图像。
2. 如权利要求1所述的基于词袋模型的图像描述方法,其特征在于,所述从待描述图 像中提取特征点的步骤包括: 利用高斯核对待描述图像进行尺度变换,获得所述待描述图像在多尺度下的尺度空间 表示序列,对所述尺度空间表示序列进行特征提取,以确定所述待描述图像中特征点的位 置和所在尺度; 通过拟合三维二次函数精确确定所述特征点的位置和尺寸; 利用所述特征点邻域像素的梯度方向分布特性,为每一特征点指定一主方向和多个辅 方向; 统计所述特征点所处尺度和区域的图像梯度,并通过转换得到所述特征点的特征向 量。
3. 如权利要求1所述的基于词袋模型的图像描述方法,其特征在于,所述计算所述特 征点与码书中视觉单词之间的距离集合,并通过高斯隶属度函数、利用所述距离集合获得 所述特征点与所述视觉单词之间的隶属度集合的步骤包括以下步骤: 计算所述特征点与所述视觉单词之间的距离集合; 通过高斯隶属度函数、利用所述距离集合获得每一特征点与各视觉单词之间的隶属 度,得到第一模糊集合。
4. 如权利要求3所述的基于词袋模型的图像描述方法,其特征在于,所述第一模糊集 合作为所述隶属度集合,所述计算所述特征点与所述视觉单词之间的距离集合的步骤表示 为:
其中,所述du是所述特征点和相应的所述视觉单词之间的欧式距离,所述D为用以表 示所述距离集合的矩阵,所述η为所述特征点的数量,所述m为所述视觉单词的个数; 所述通过高斯隶属度函数、利用所述距离集合获得每一特征点与各视觉单词之间的隶 属度,得到第一模糊集合的步骤表示为:
其中,所述%是所述视觉单词的高斯模型的期望值,所述是所述视觉单词的高斯 模型的方差。
5. 如权利要求4所述的基于词袋模型的图像描述方法,其特征在于,在所述得到第一 模糊集合的步骤之后,所述方法还包括以下步骤: 去除所述第一模糊集合中、与所述特征点之间的距离超过相应阈值时的隶属度,得到 第二模糊集合,所述第二模糊集合作为所述隶属度集合。
6. 如权利要求5所述的基于词袋模型的图像描述方法,其特征在于,所述去除所述第 一模糊集合中、与所述特征点之间的距离超过相应阈值时的隶属度,得到第二模糊集合的 步骤表示为:
其中,所述λ为一阈值,所述χΑ,((^.) eA',且0彡χΑ,((^.)彡1,所述A'为所述第 二模糊集合。
7. 如权利要求6所述的基于词袋模型的图像描述方法,其特征在于,所述利用所述隶 属度集合,统计用于描述每一特征点的所述视觉单词的隶属度,形成直方图矢量的步骤表 示为: h = {ψν Ψ2, - , Ψρ - , ΨΜ} 所述h为所述直方图矢量,所述Vj e R,1彡j彡m,所述Vj由下式获得:
8. 如权利要求1所述的基于词袋模型的图像描述方法,其特征在于,在所述从待描述 图像中提取特征点的步骤之前,所述方法还包括以下步骤: 从训练图像中提取特征点,并对提取的特征点进行K-means聚类,得到所述码书。
9. 一种基于词袋模型的图像描述系统,其特征在于,所述系统包括: 提取模块,用于从待描述图像中提取特征点; 隶属度集合生成模块,用于计算所述提取模块提取出的所述特征点与码书中视觉单词 之间的距离集合,并通过高斯隶属度函数、利用所述距离集合获得所述特征点与所述视觉 单词之间的隶属度集合; 图像描述生成模块,用于利用所述隶属度集合生成模块获得的所述隶属度集合,统计 用于描述每一特征点的所述视觉单词的隶属度,形成直方图矢量,所述直方图矢量用以描 述所述待描述图像。
10. 如权利要求9所述的基于词袋模型的图像描述系统,其特征在于,所述隶属度集合 生成模块包括: 距离计算子模块,用于计算所述特征点与所述视觉单词之间的距离集合; 第一隶属度集合生成子模块,用于通过高斯隶属度函数、利用所述距离集合获得每一 特征点与各视觉单词之间的隶属度,得到第一模糊集合; 第二隶属度集合生成子模块,用于去除所述第一模糊集合中、与所述特征点之间的距 离超过相应阈值时的隶属度,得到第二模糊集合,所述第二模糊集合作为所述隶属度集合。
【文档编号】G06K9/66GK104299010SQ201410491596
【公开日】2015年1月21日 申请日期:2014年9月23日 优先权日:2014年9月23日
【发明者】李岩山, 谢维信, 黄庆华, 李晓棠, 高志坚 申请人:深圳大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1