基于多语义码本图像特征表示方法

文档序号:9631814阅读:469来源:国知局
基于多语义码本图像特征表示方法
【技术领域】
[0001] 本发明涉及一种信号处理的计算机视觉技术领域的方法,具体是一种基于多语义 码本图像特征表示方法。
【背景技术】
[0002] 传统的基于词袋模型(Bag-of-WordsModel)的图像分类算法的基本框架主要包 含四个部分:(1)特征提取;(2)特征量化;(3)特征聚合;(4)图像分类。第一步特征提取在 图像的各个位置和尺度密集的计算大量局部特征。常用的局部图像特征包括SIFT,HOG,LBP 等。第二步特征量化根据给定的码本,将各个特征量化为一个离散值,一般是码本中离该特 征向量距离最近的码字序号。码本的获得可以通过样本聚类得到,常用的方法有k-means 和spectralclustering等。第三步特征聚合将图像中局部特征对应的码字标签按照 某种法则聚合成一个固定长度的图像特征向量,常用的方法有空间金字塔匹配(spatial pyramidmatching,SPM)。第四步图像分类将图像特征向量送到分类器中计算判别值,常用 的分类器有支持矢量机(SVM),AdaBoost和卷积神经网络(CNN)。
[0003] 该框架中存在的不足之处主要有两点:(1)在步骤二中所使用的码本,大量方法 是通过对图像局部特征以非监督的方式聚类得到。这样得到的码本反映了图像局部区域的 低层像素分布特性,如颜色、纹理、形状等,缺乏语义层面解释。而近年来计算机视觉领域的 研究表明,中层的语义特征,如ObjectBank和Classemes等,比低层图像特征具有更好的 表示能力和区分性。其原因在于这些中层特征表示的不仅是图像的像素分布特性,而具有 更高层的语义信息,如物体存在的概率,视觉属性的强弱等等。这些语义信息往往与图像分 类的主观标准高度相关,因此具有更强的区分性。(2)在步骤三中,常用的空间金字塔匹配 方法将图像在多个尺度分割成不同大小、不同数量的区块,然后在各区块中统计码字的分 布特征。这种空间聚合方法相比全局聚合在一定程度上保留了局部特征的空间信息。然而 通过人为划分区块的方式得到的对应关系却过于粗糙,不符合图像中各元素的真实空间分 布关系。解决方法之一是将硬性的空间聚合改为语义聚合,对不同语义类型的区域中的局 部特征单独聚合,能够得到更细粒度地图像表示。

【发明内容】

[0004] 本发明针对现有技术的不足,提供了一种针对图像局部特征的基于多语义码本图 像特征表示方法。
[0005] 本发明是通过以下技术方案实现的:利用图像中提取的局部特征及其语义标签, 依据多任务学习的理论框架,联合训练多个语义码本。利用语义码本对图像局部特征进行 全局量化和基于上下文的语义量化,最终结合语义响应加权聚合得到一种新颖的图像表 示,可以用于分类识别、分类、理解等任务。
[0006] 本发明所述的基于多任务语义码本的图像表示方法,所述方法对于输入训练集合 中的图像,做如下处理:
[0007] 第一步:在输入图像上密集计算图像局部特征,并将所有的局部特征按照给定的 语义标注分成若干类别;
[0008] 第二步:根据第一步的多个语义类别的局部特征建立多个语义码本联合学习优化 问题的目标方程,求解得到一个全局码本和多个语义码本;
[0009] 第三步:利用各个语义类别的局部特征,对每个语义类别训练相应的语义分类 器;
[0010] 第四步:利用全局码本和语义码本、语义分类器对图像进行基于上下文的特征量 化和语义聚合,最终表示成图像特征向量,即图像表示。
[0011] 进一步的,所述多个语义码本联合学习优化问题的目标方程,由两项构成:第一项 为聚类误差,刻画了局部图像特征向量和对应的码字的平均距离,该项越小表示码字越符 合样本分布;第二项为各语义码本的码字数量,该项越小则语义码字在全局码本中的表示 更稀疏。
[0012] 优选地,所述联合学习优化问题,通过交替求解两个子问题得到最优解,其中:
[0013] 第一个子问题是一个连续优化问题:给定各语义码本的码字分配,最优化全局码 本,使得聚类误差最小;
[0014] 第二个子问题是一个离散优化问题:给定全局码本,最优化各语义码本的码字分 配,使得各语义类别的目标方程值最小。
[0015] 更优选地,所述第一个子问题,即连续优化问题,其解法为:通过交替优化全局码 字和特征向量的码字标签得到最优的全局码字;给定特征向量的码字标签,最优的全局码 字具有解析解,即分配到该码字的全体特征向量的均值;给定全局码本,某特征向量的最优 码字标签为其语义码本的最近邻。
[0016] 更优选地,所述第二个子问题,即离散优化问题,其解法为:给定全局码本,对每个 语义类别,其目标方程由两项构成:聚类误差和码字数量,变量为全局码字的子集,是一个 离散优化问题,可以证明这两项均具有亚模特性,因此通过最小化亚模函数的优化方法可 以得到最优的语义码字分配。
[0017] 优选地,所述基于上下文的特征量化和语义聚合,最终表示成图像特征向量,具体 为:对于每个局部图像特征,计算其全局码字标签和在各语义环境下的语义码字标签,该特 征为全局码字直方图和各语义码字直方图投票,其中为全局码字直方图投票时权重为1,而 为语义码字直方图投票时权重为语义响应值;最终,将全局码字直方图和语义码字直方图 级联最终构成基于语义上下文的图像表示。
[0018] 进一步的,所述第二步,具体为:基于多种语义类别的局部特征建立多任务码本学 习优化问题的目标方程,将目标问题分解为两个子问题进行迭代求解:
[0019] 第一个子问题固定语义码字分配,优化全局码字,通过凸优化方法求解;
[0020] 第二个子问题固定全局码本,优化语义码字分配,通过亚模优化方法求解得到最 优的语义码本;
[0021] 两个子问题交替求解,直到收敛,即全局码字的变动足够小,最终得到最优的全局 码本和语义码本。
[0022] 进一步的,所述第三步,具体为:对于每一个语义类别,训练该类别的语义分类器, 把该类别的局部特征作为正样本,其它类别的局部特征作为负样本,利用线性支持矢量机 训练得到分类器。
[0023] 进一步的,所述第四步,具体为:
[0024] (1)根据得到的全局码本和语义码本对局部特征进行量化,其中局部特征的全局 码字标签为其在全局码本中的最近邻,其语义码字标签为其在语义码本中的最近邻;
[0025] (2)利用得到的语义分类器计算各局部特征的语义响应,及局部特征和分类器系 数的点积;
[0026] 利用⑴得到的量化结果和(2)得到的语义响应进行局部特征的语义上下文聚 合,得到最终的图像特征向量,即图像表示。
[0027] 进一步的,所述图像特征向量,可以进行图像分类、场景理解、对象识别等多种实 际应用。
[0028] 与现有技术相比,本发明具有以下有益效果:
[0029] 相比传统的全局码本量化方法,本发明提出的语义码本能够更细致的捕捉不同语 义类型的图像区域的视觉特性,具有更强的区分性。与单任务码本学习相比,本发明利用多 任务学习的思想,联合训练一组紧致的语义码本,大大降低了不同语义码本间的冗余性和 存储要求。
[0030] 与传统的空间聚合方法相比,本发明通过图像的语义解析和语义码本,更精细的 表示出了图像的元素结构和语义信息,作为一类中层图像特征,比基于像素本身的低层的 图像特征具有更强的区分能力。在多种实际应用中,如图像分类、场景理解、对象识别中相 比传统方法能够得到更好的效果。
【附图说明】
[0031] 通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、 目的和优点将会变得更明显:
[0032] 图1是本发明一实施例的方法流程图。
【具体实施方式】
[0033] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术 人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术 人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明 的保护范围。
[0034] 本发明的基于多任务语义码本的图像表示方法,利用多任务学习的技术理论共同 训练多个语义码本对图像的局部特征进行编码和量化,并设计了一种基于语义上下文的图 像描述子对整幅图像进行视觉特征的表示。基于从图像中不同语义类型区域中提取的局部 图像特征,训练得到一组致密的语义码本,每个语义码本刻画了该类型区域的颜色、纹理、 形状等视觉特性。此外,各语义码本的码字均是一个全局码本的子集,从而能够得到致密 地、高效地表示。基于语义码本和全局码本的量化结果,提出一种基于语义上下文的图像中 层特征描述子,将各码字的出现频率在不同语义上下文环境下加权统计,最终得到一个既 包含全局信息也包含语义信息的图像特征向量。
[0035] 基于多语义码本图像特征表示方法,具体过程为:
[0036] (1)在图像中多个位置多个尺度密集计算大量局部特征,并从注释获得各特征的 语义类别标签。
[0037] (2)基于多种语义类别的局部特征建立多任务码本学习优化问题的目标方程。
[0038] 将目标问题分解为两个子问题,进行迭代求解:
[0039] 第一个子问题固定语义码字分配,优化全局码字,通过凸优化方法求解。
[0040] 第二个子问题固定全局码字,优化语义码字分配,通过亚模优化方法求解。
[0041] 两个子问题交替求解,直到收敛,即全局码本的码字变化足够小,最终得到最优的 全局码本和语义码本。
[0042] (3)对于每一个语义类别,训练该类别的语义分类器,具体为:把该类别的局部特 征作为正样本,其它类别的局部特征作为负样本,利用线性支持矢量机训练得到分类器。
[0043] (4)根据第六步全局码本和语义码本对局部特征进行量化,其中局部特征的全局 码字标签为其在全局码本中的最近邻,其语义码字标签为其在语义码本中的最近邻。
[0044] (5)利用得到的语义分类器计算各局部特征的语义响应,及局部特征和分类器系 数的点积。
[0045] (6)利用得到的量化结果和得到的语义响应进行局部特征的语义上下文聚合,得 到最终的图像特征向量,即图像表示。
[0046] 进一步的,对上述技术细节详细说明如下:
[0047] (1)在图像中多个位置多个尺度密集计算大量局部特征,如SIFT,HOG,LBP等,记 为{xjfw,其中Xl是第i个图像局部特征向量,维度为D,N是全部局部特征的数量。每个局 部特征都由注释提供一个语义类别标签,如"天空","树木"等。属于第s类语义的局部特 征集合记为A= ,s= 1,.,.,S,Ns是第s类语义的特征数量,S是语义类别数目。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1