基于多语义码本图像特征表示方法

文档序号：9631814阅读：469来源：国知局

基于多语义码本图像特征表示方法
【技术领域】
[0001] 本发明涉及一种信号处理的计算机视觉技术领域的方法，具体是一种基于多语义码本图像特征表示方法。
【背景技术】
[0002] 传统的基于词袋模型（Bag-of-WordsModel)的图像分类算法的基本框架主要包含四个部分：（1)特征提取；（2)特征量化；（3)特征聚合；(4)图像分类。第一步特征提取在图像的各个位置和尺度密集的计算大量局部特征。常用的局部图像特征包括SIFT，HOG，LBP 等。第二步特征量化根据给定的码本，将各个特征量化为一个离散值，一般是码本中离该特征向量距离最近的码字序号。码本的获得可以通过样本聚类得到，常用的方法有k-means 和spectralclustering等。第三步特征聚合将图像中局部特征对应的码字标签按照某种法则聚合成一个固定长度的图像特征向量，常用的方法有空间金字塔匹配（spatial pyramidmatching,SPM)。第四步图像分类将图像特征向量送到分类器中计算判别值，常用的分类器有支持矢量机（SVM)，AdaBoost和卷积神经网络（CNN)。
[0003] 该框架中存在的不足之处主要有两点：（1)在步骤二中所使用的码本，大量方法是通过对图像局部特征以非监督的方式聚类得到。这样得到的码本反映了图像局部区域的低层像素分布特性，如颜色、纹理、形状等，缺乏语义层面解释。而近年来计算机视觉领域的研究表明，中层的语义特征，如ObjectBank和Classemes等，比低层图像特征具有更好的表示能力和区分性。其原因在于这些中层特征表示的不仅是图像的像素分布特性，而具有更高层的语义信息，如物体存在的概率，视觉属性的强弱等等。这些语义信息往往与图像分类的主观标准高度相关，因此具有更强的区分性。（2)在步骤三中，常用的空间金字塔匹配方法将图像在多个尺度分割成不同大小、不同数量的区块，然后在各区块中统计码字的分布特征。这种空间聚合方法相比全局聚合在一定程度上保留了局部特征的空间信息。然而通过人为划分区块的方式得到的对应关系却过于粗糙，不符合图像中各元素的真实空间分布关系。解决方法之一是将硬性的空间聚合改为语义聚合，对不同语义类型的区域中的局部特征单独聚合，能够得到更细粒度地图像表示。

【发明内容】

[0004] 本发明针对现有技术的不足，提供了一种针对图像局部特征的基于多语义码本图像特征表示方法。
[0005] 本发明是通过以下技术方案实现的：利用图像中提取的局部特征及其语义标签，依据多任务学习的理论框架，联合训练多个语义码本。利用语义码本对图像局部特征进行全局量化和基于上下文的语义量化，最终结合语义响应加权聚合得到一种新颖的图像表示，可以用于分类识别、分类、理解等任务。
[0006] 本发明所述的基于多任务语义码本的图像表示方法，所述方法对于输入训练集合中的图像，做如下处理：
[0007] 第一步：在输入图像上密集计算图像局部特征，并将所有的局部特征按照给定的语义标注分成若干类别；
[0008] 第二步：根据第一步的多个语义类别的局部特征建立多个语义码本联合学习优化问题的目标方程，求解得到一个全局码本和多个语义码本；
[0009] 第三步：利用各个语义类别的局部特征，对每个语义类别训练相应的语义分类器；
[0010] 第四步：利用全局码本和语义码本、语义分类器对图像进行基于上下文的特征量化和语义聚合，最终表示成图像特征向量，即图像表示。
[0011] 进一步的，所述多个语义码本联合学习优化问题的目标方程，由两项构成：第一项为聚类误差，刻画了局部图像特征向量和对应的码字的平均距离，该项越小表示码字越符合样本分布；第二项为各语义码本的码字数量，该项越小则语义码字在全局码本中的表示更稀疏。
[0012] 优选地，所述联合学习优化问题，通过交替求解两个子问题得到最优解，其中：
[0013] 第一个子问题是一个连续优化问题：给定各语义码本的码字分配，最优化全局码本，使得聚类误差最小；
[0014] 第二个子问题是一个离散优化问题：给定全局码本，最优化各语义码本的码字分配，使得各语义类别的目标方程值最小。
[0015] 更优选地，所述第一个子问题，即连续优化问题，其解法为：通过交替优化全局码字和特征向量的码字标签得到最优的全局码字；给定特征向量的码字标签，最优的全局码字具有解析解，即分配到该码字的全体特征向量的均值；给定全局码本，某特征向量的最优码字标签为其语义码本的最近邻。
[0016] 更优选地，所述第二个子问题，即离散优化问题，其解法为：给定全局码本，对每个语义类别，其目标方程由两项构成：聚类误差和码字数量，变量为全局码字的子集，是一个离散优化问题，可以证明这两项均具有亚模特性，因此通过最小化亚模函数的优化方法可以得到最优的语义码字分配。
[0017] 优选地，所述基于上下文的特征量化和语义聚合，最终表示成图像特征向量，具体为：对于每个局部图像特征，计算其全局码字标签和在各语义环境下的语义码字标签，该特征为全局码字直方图和各语义码字直方图投票，其中为全局码字直方图投票时权重为1，而为语义码字直方图投票时权重为语义响应值；最终，将全局码字直方图和语义码字直方图级联最终构成基于语义上下文的图像表示。
[0018] 进一步的，所述第二步，具体为：基于多种语义类别的局部特征建立多任务码本学习优化问题的目标方程，将目标问题分解为两个子问题进行迭代求解：
[0019] 第一个子问题固定语义码字分配，优化全局码字，通过凸优化方法求解；
[0020] 第二个子问题固定全局码本，优化语义码字分配，通过亚模优化方法求解得到最优的语义码本；
[0021] 两个子问题交替求解，直到收敛，即全局码字的变动足够小，最终得到最优的全局码本和语义码本。
[0022] 进一步的，所述第三步，具体为：对于每一个语义类别，训练该类别的语义分类器，把该类别的局部特征作为正样本，其它类别的局部特征作为负样本，利用线性支持矢量机训练得到分类器。
[0023] 进一步的，所述第四步，具体为：
[0024] (1)根据得到的全局码本和语义码本对局部特征进行量化，其中局部特征的全局码字标签为其在全局码本中的最近邻，其语义码字标签为其在语义码本中的最近邻；
[0025] (2)利用得到的语义分类器计算各局部特征的语义响应，及局部特征和分类器系数的点积；
[0026] 利用⑴得到的量化结果和（2)得到的语义响应进行局部特征的语义上下文聚合，得到最终的图像特征向量，即图像表示。
[0027] 进一步的，所述图像特征向量，可以进行图像分类、场景理解、对象识别等多种实际应用。
[0028] 与现有技术相比，本发明具有以下有益效果：
[0029] 相比传统的全局码本量化方法，本发明提出的语义码本能够更细致的捕捉不同语义类型的图像区域的视觉特性，具有更强的区分性。与单任务码本学习相比，本发明利用多任务学习的思想，联合训练一组紧致的语义码本，大大降低了不同语义码本间的冗余性和存储要求。
[0030] 与传统的空间聚合方法相比，本发明通过图像的语义解析和语义码本，更精细的表示出了图像的元素结构和语义信息，作为一类中层图像特征，比基于像素本身的低层的图像特征具有更强的区分能力。在多种实际应用中，如图像分类、场景理解、对象识别中相比传统方法能够得到更好的效果。
【附图说明】
[0031] 通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
[0032] 图1是本发明一实施例的方法流程图。
【具体实施方式】
[0033] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0034] 本发明的基于多任务语义码本的图像表示方法，利用多任务学习的技术理论共同训练多个语义码本对图像的局部特征进行编码和量化，并设计了一种基于语义上下文的图像描述子对整幅图像进行视觉特征的表示。基于从图像中不同语义类型区域中提取的局部图像特征，训练得到一组致密的语义码本，每个语义码本刻画了该类型区域的颜色、纹理、形状等视觉特性。此外，各语义码本的码字均是一个全局码本的子集，从而能够得到致密地、高效地表示。基于语义码本和全局码本的量化结果，提出一种基于语义上下文的图像中层特征描述子，将各码字的出现频率在不同语义上下文环境下加权统计，最终得到一个既包含全局信息也包含语义信息的图像特征向量。
[0035] 基于多语义码本图像特征表示方法，具体过程为：
[0036] (1)在图像中多个位置多个尺度密集计算大量局部特征，并从注释获得各特征的语义类别标签。
[0037] (2)基于多种语义类别的局部特征建立多任务码本学习优化问题的目标方程。
[0038] 将目标问题分解为两个子问题，进行迭代求解：
[0039] 第一个子问题固定语义码字分配，优化全局码字，通过凸优化方法求解。
[0040] 第二个子问题固定全局码字，优化语义码字分配，通过亚模优化方法求解。
[0041] 两个子问题交替求解，直到收敛，即全局码本的码字变化足够小，最终得到最优的全局码本和语义码本。
[0042] (3)对于每一个语义类别，训练该类别的语义分类器，具体为：把该类别的局部特征作为正样本，其它类别的局部特征作为负样本，利用线性支持矢量机训练得到分类器。
[0043] (4)根据第六步全局码本和语义码本对局部特征进行量化，其中局部特征的全局码字标签为其在全局码本中的最近邻，其语义码字标签为其在语义码本中的最近邻。
[0044] (5)利用得到的语义分类器计算各局部特征的语义响应，及局部特征和分类器系数的点积。
[0045] (6)利用得到的量化结果和得到的语义响应进行局部特征的语义上下文聚合，得到最终的图像特征向量，即图像表示。
[0046] 进一步的，对上述技术细节详细说明如下：
[0047] (1)在图像中多个位置多个尺度密集计算大量局部特征，如SIFT，HOG，LBP等，记为{xjfw，其中Xl是第i个图像局部特征向量，维度为D，N是全部局部特征的数量。每个局部特征都由注释提供一个语义类别标签，如"天空"，"树木"等。属于第s类语义的局部特征集合记为A= ，s= 1,.,.,S，Ns是第s类语义的特征数量，S是语义类别数目。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊红凯;王博韬;
技术所有人：上海交通大学;
我是此专利的发明人

上一篇：一种基于随机森林回归的胸腔x光片肋骨检测方法
上一篇：一种卡面印刷质量自动化检测设备及其方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。