一种基于秩最小化的多标签图像标注结果融合方法

文档序号：6508890阅读：502来源：国知局

一种基于秩最小化的多标签图像标注结果融合方法
【专利摘要】本发明涉及一种基于秩最小化优化算法的多标签图像标注结果融合方法，包括如下步骤：1)抽取训练集图像的多种特征表示,训练集图像带有事先给定的语义标注词；2）在不同的特征表示下，训练各自的监督学习图像标注模型；3）对于一幅新的没有语义标注词的图像，用同样的方法抽取该图像的多种特征，使用这些特征分别输入到对应的监督学习图像标注模型来预测多标签结果；4）利用秩最小化算法将多个模型输出的多标签结果融合，得到一个更准确的标注结果。本发明充分利用了不同特征表示下的图像标注模型的互补性，利用秩最小化算法减少融合的标注结果中的预测错误，从而使得最终的图像标注结果更准确。
【专利说明】一种基于秩最小化的多标签图像标注结果融合方法
【技术领域】
[0001]本发明涉及一种图像标注结果融合方法，特别涉及一种基于秩最小化的多标签图像标注结果的融合方法。
【背景技术】
[0002]随着数码相机和社交网络应用的普及，人们越来越习惯于将自己拍摄的图像发布在互联网上。为了更方便地管理和检索互联网上的海量图像，自动图像标注是一个有效的工具。图像标注程序的基本任务是建模图像底层视觉特征与高层语义标注词之间的关系。监督学习图像标注模型是以已经带有语义标注词的图像作为训练图像，先抽取训练图像的底层视觉特征，再以这些特征表示和对应的语义标注词为输入训练出监督学习图像标注模型。当对一幅新的没有语义标注词的图像进行自动标注时，首先使用与训练图像特征抽取同样的方式提取新图像的底层视觉特征，然后将提取的新图像的特征表示输入到监督学习图像标注模型来预测新图像的语义标注词。一幅图像通常包含有多种语义，所以监督学习图像标注模型的预测结果中有多个语义标注词，或者说这是一个多标签的结果。
[0003]在图像标注问题中，从图像抽取的底层视觉特征表示多种多样，它们可以用来描述视觉特征的多个方面，例如颜色直方图可以描述图像颜色的统计信息，Gabor变换结果可以来描述灰度图像的纹理信息，局部二元模式可以对灰度图像中局部邻近区域的纹理信息进行度量。不同的特征表示有着不同的表达能力，而且对于图像语义的区分能力也不尽相同，甚至有互补的特性。因此，融合多种互补特征有助于区分图像的高层语义。
[0004]融合多种互补特征通常在两个阶段实现:特征级融合和决策级融合。特征级融合在训练模型的过程中将多种特征融合在一起，然后训练出一个判别模型，例如多核学习算法同时学习多种特征的比例系数和模型参数。决策级融合则是分别使用不同的特征表示训练多个判别模型，最后把多个判别模型的决策结果融合成一个最终的决策结果。决策级融合由于其简单有效性常常在图像标注问题中被采用。
[0005]传统的决策级融合方法是先将多个判别模型的结果归一化到同一个数值范围，然后使用求和、求乘积、取最大或取最小等规则的方式融合成一个最终的结果。考虑到不同模型的结果会在不同的数值范围内，因而归一化方法对于不同模型会不同，增加了决策级融合的复杂性。再者，不同的融合规则的融合效果不尽相同，因而会产生哪些模型融合用何种融合规则效果最好的疑问。另外，由于单个判别模型都有自己的预测误差，盲目地使用规则融合多个模型的结果也会同时引入它们各自的误差。

【发明内容】

[0006]本发明的目的在于提供一种通过利用秩最小化的优化方法建模多个监督学习图像标注模型的多标签结果的融合，得到一个更准确更鲁棒的标注结果的方法。
[0007]本发明为解决其技术问题采用的技术方案如下:
[0008]一种基于秩最小化的多标签图像标注结果的融合方法，包括以下步骤:[0009]I)抽取训练集图像的多种特征表示，训练集中的每幅图像都带有事先给定的语义标注词；
[0010]2)在不同的特征表示下，分别训练各自的监督学习图像标注模型；
[0011]3)对于一幅新的没有语义标注词的图像，用同样的方法抽取该图像的多种特征表示，使用这些特征表示分别输入到对应的监督学习图像标注模型来预测新图像的多标签标注结果；
[0012]4)利用秩最小化优化算法将多个模型输出的多标签结果融合:对于不同特征表示下模型预测的结果向量，先把每一个结果向量转换为一个反对称的秩为2的关系矩阵，然后用这些关系矩阵建模一个秩最小化优化问题，解这个优化问题得到一个融合的关系矩阵，再由融合的关系矩阵构造融合的结果向量，最终由融合的结果向量得到融合的标注结果O
[0013]优选的，抽取训练集图像的多种特征表示的步骤如下:
[0014]I)图像分块:使用滑动窗口的策略，按照给定步长，将图像分成相互重叠的小块；
[0015]2)分别计算每一个小块内图像的特征向量(可以是RGB颜色直方图、HSV颜色直方图、LAB颜色直方图、ΟΡΡΟΝΕΤ颜色直方图、rg颜色直方图、Gabor纹理特征、Haar纹理特征、局部二元模式纹理特征、词包模型表示的SIFT形状特征等多种特征)，整幅图像的特征表示即由这些图像块的特征向量组成；设第i幅训练图像Ii的语义标注向量为Wi= (wn, wi2,...，wiT)T e {O, 1}τ,其中T是数据集的语义标注词的总数,Wij=I表示第i幅图像有第j个标注词，Wij=O表示第i幅图像没有第j个标注词；若将第i幅图像分成M块，每块可计算一个特征向量Xik, k=l, 2，...，Μ,那么第i幅图像的特征表示为Ai=Ixil, Xi2,...，XilI。
[0016]优选的，在不同特征表示下分别训练各自监督学习图像标注模型步骤如下:
[0017]I)对每一幅训练图像，利用高斯混合模型对图像层条件概率密度建模，然后使用期望最大化算法计算模型参数得到该图像的条件概率密度；
[0018]2)对每一个语义标注词，找出训练图像集合中含有该标注词的所有图像，以这些图像在图像层的条件概率密度为基础，利用高斯混合模型对语义层条件概率密度建模，然后使用层次期望最大化算法计算模型参数得到该语义标注词的条件概率密度。
[0019]具体步骤如下:
[0020]I)第i幅图像的某一种特征表示为
【权利要求】
1.一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，包括以下步骤: 1)抽取训练集图像的多种特征表示，训练集中的每幅图像都带有事先给定的语义标注词； 2)在不同的特征表示下，分别训练各自的监督学习图像标注模型； 3)对于一幅新的没有语义标注词的图像，用同样的方法抽取该图像的多种特征表示，使用这些特征表示分别输入到对应的监督学习图像标注模型来预测新图像的多标签标注结果; 4)利用秩最小化优化算法将多个模型输出的多标签结果融合:对于不同特征表示下模型预测的结果向量，先把每一个结果向量转换为一个反对称的秩为2的关系矩阵，然后用这些关系矩阵建模一个秩最小化优化问题，解这个优化问题得到一个融合的关系矩阵，再由融合的关系矩阵构造融合的结果向量，最终由融合的结果向量得到融合的标注结果。
2.根据权利要求1所述的一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，抽取训练集图像的多种特征表示的步骤为: O图像分块:使用滑动窗口的策略，按照给定步长，将图像分成相互重叠的小块； 2)分别计算每一个小块内图像的特征向量，整幅图像的特征表示即由这些图像块的特征向量组成。
3.根据权利要求2所述的一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，所述特征向量是RGB颜色直方图或HSV颜色直方图或LAB颜色直方图或OPPONET颜色直方图或rg颜色直方图或Gabor纹理特征或Haar纹理特征或局部二元模式纹理特征或词包模型表示的SIFT形状特征。
4.根据权利要求1或2或3所述的一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，在不同特征表示下分别训练各自的监督学习图像标注模型的步骤为: 1)对每一幅训练图像，利用高斯混合模型对图像层条件概率密度建模，然后使用期望最大化算法计算模型参数得到该图像的条件概率密度； 2)对每一个语义标注词，找出训练图像集合中含有该标注词的所有图像，以这些图像在图像层的条件概率密度为基础，利用高斯混合模型对语义层条件概率密度建模，然后使用层次期望最大化算法计算模型参数得到该语义标注词的条件概率密度。
5.根据权利要求4所述的一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，对一幅新的没有语义标注词的图像，用同样地方法抽取该图像的多种特征表示，使用这些特征分别输入到对应的监督学习图像标注模型来预测其多标签标注结果，其步骤为: 1)使用与训练图像同样的特征抽取技术计算新输入图像的多种特征表示； 2)使用每一种特征表示对应的监督学习图像标注模型预测输入图像的语义标注词并得到一个结果向量。
6.根据权利要求5所述的一种对多个监督学习图像标注模型的多标签结果的融合方法，其特征在于，利用秩最小化优化算法将不同特征表示下的多个模型输出的多标签结果融合的步骤为: I)将各个结果向量分别转换为反对称的秩为2的关系矩阵的表示形式，这些关系矩阵都分别等于融合的关系矩阵加上一个对应误差矩阵； 2)在I)的约束下，通过最小化融合的关系矩阵的奇异值之和使得融合的关系矩阵的秩逐渐减小到2，通过最小化所有误差矩阵之和使得融合的关系矩阵能充分正确地结合各个模型的预测结果； 3)使用非精确的增广拉格朗日乘子法迭代解出融合的关系矩阵的最优解，迭代过程中使用奇异值截取的方式使得融合的关系矩阵的秩逐渐收敛到2 ； 4)使用融合的关系矩阵反向计算出的融合的结果向量，根据融合的结果向量最终确定输入图像的语义标注词。
【文档编号】G06T7/00GK103440651SQ201310375976
【公开日】2013年12月11日申请日期:2013年8月26日优先权日:2013年8月26日
【发明者】郭平, 姚垚, 辛欣申请人:北京理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭平;姚垚;辛欣
技术所有人：北京理工大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。