专利名称:基于尺度学习和关联标号传播的自动图像语义标注方法
技术领域:
本发明涉及图像检索和自动图像标注技术领域,具体涉及ー种基于尺度学习和关联标号传播的自动图像语义标注方法。
背景技术:
近些年来,随着互联网技术、多媒体影像以及存储设备的飞速发展,用户接触到的图像数量呈爆炸性增长。如何快速有效地从海量数据中搜索到用户所需要的信息是ー个重要的研究课题,这也是图像检索领域的研究内容。最初的图像检索依据的是基于文本的检索方式(text-based image retrieval, 简称TBIR),它首先用人工的方式对每幅图像的内容用一系列的关键词描述,然后根据这些关键词对图像建立索引,这样图像检索问题就转化成了文本信息的匹配问题。这种人工标注的方式既费时费力,而且不能保证给予图像的关键词的客观性。二十世纪八十年代,出现了基于内容的图像标注(content-based image retrieval,简称CBIR)。该项技术首先提取每幅图像的底层特征,然后根据这些特征对图像数据库中的图像建立索引。用户只需要提供一副示例图像,系统便可以搜寻具有相似性特征的图像。语义鸿沟的存在极大地限制了 CB^在图像检索中的应用。自动图像标注,是为了建立起图像内容和关键词之间的联系,自动地将关键词分配给待标注图像。由于人工标注方法的局限性,越来越多的研究转向利用自动图像标注技术来完成图像检索的任务。图像标注的目的是让系统自动地给图像分配可以描述其语义内容的关键词。现有的图像标注技术一般利用机器学习的理论作为指导,从已标注图像集中学习出特征空间和关键词空间之间的关系模型,并利用该模型分配待标注图像的关键词。目前,图像标注技术一般分为三类基于分类的方法;基于概率模型的方法;基于互联网搜索的方法。基于分类的方法是把图像标注看做一种分类问题,对每ー个关键词都从已经标注好的图像库中学习出一个分类器,并利用这些不同的分类器分別对待标注图像进行分类,输出结果是正例则表明该分类器对应的关键词可以用来标注这幅图像。该方法逐个地处理单个关键词,没有考虑关键词之间的内在联系。基于概率模型的方法,致カ于建立起图像的特征和关键词之间的联合概率模型,只需提供待标注图像的特征,便可得出相应的关键字出现的概率。这种方法的局限性在干,模型扩展性较差,新添加进来ー个关键词,所有的模型需要重新训练。 基于互联网搜索的方法,通过挖掘互联网上的广泛资源来完成图像标注,比如利用互联网上图像周围的环绕文字来改善图像标注的结果。这种方法依赖于互联网上图像的周围环境和上下文信息,标注结果的准确性是由环境信息的真实与否決定的,这在一定程度上限制了图像标注结果的稳定性。
发明内容
本发明的目的在于针对现有方法的不足,提出一种基于尺度学习和关联标号传播的自动图像语义标注方法,克服了现有技术中仅仅利用欧式距离等预先定义好的距离来衡量图像间的语义相似性的缺陷,同时充分挖掘了关键词之间的相关性,使得标注的结果更加的准确和有效。为实现上述目的,本发明首先对每幅图像提取其局部和全局特征来充分描述图像的内容,进而用一种基于结构化支持向量机的模型学习图像间的距离尺度ー马氏距离 (Mahalanobis distance),然后对图像的关键词之间的内在联系直接建摸,进行标号传播, 紧接着将已经学习好的马氏距离嵌入到建立好的标号传播模型中,得出每个关键词属于待标注图像的概率,最后设定阈值,获取图像的关键词。本发明基于尺度学习和标号传播的自动图像语义标注方法具体包括以下几个步骤1.提取图像库中图像的颜色矩特征以及小波纹理特征作为其局部特征描述子,提取尺度不变特征(scale-invariant feature transform,简称SIFT)作为图像的全局特征描述子。2.将局部特征和全局特征分别归ー化,并融合成一个长特征向量作为图像特征描 ;tdi 子。3.将图像库的特征向量以及标签信息整合进基于结构化支持向量机的尺度学习算法,得出图像间相似性的马氏尺度度量。4.对图像关键词之间的关系直接进行建摸,充分挖掘概念间的相关性。5.将学习出的尺度函数嵌入到关键词关系建模中,最终得出待标注图像的各个关键词的置信度得分。6.设定阈值,将置信度得分大于阈值的关键词分配给待标注的图像。具体地,根据本发明的ー个方面,提供一种基于尺度学习和关联标号传播的自动图像语义标注方法,包括如下具体步骤步骤1 读取图像库,提取每幅图像的特征描述子;步骤2 通过尺度学习得出图像间相似性度量;步骤3 对图像的关键词之间的内在联系进行关系建模;步骤4 将所述步骤2中学习到的相似性度量嵌入到关键词建模的过程中;步骤5 得出待标注图像的关键词的置信度得分,设定阈值,将置信度得分大于阈值的关键词分配给待标注图像,完成标号传播。优选地,所述步骤1中的特征描述子将全局特征和局部特征融合在了一起,其中, 所述全局特征包括颜色矩和62维基于Gabor滤波器纹理特征;所述局部特征包括SIFT特征;分別将这些特征归一化,再依次连接成一个长向量作为图像的特征描述子。优选地,所述步骤2中的相似性度量通过基于结构化支持向量机的尺度学习实现,该实现过程包括以下步骤步骤201 对图像库中的每幅图像Xi,根据它的关键词信息生成排序ri;并构建图像-序列对 ,ス《作为训练集,利用结构化支持向量机建模;步骤202 依照下列原则给出优化问题的限制条件对于Xi,它的正确样本排序的判別式得分? M,ハU”へ)/和其他任意不正确排序的得分 M,n(x,,ひ满足不等式 ?M,n(x,,r,)/ Γ Μ,η(χ,,り/,其中戌.,り是损失函数,ハ是输入空间到输出空间的映射,巧是图像库中关于Xi的其他任意排序;在上述限制条件下求解使得minか{(Μ『Μ)」μ)σ}成立的M和O,其中,ο是松弛变量,μ是可调參数,用来控制松弛的程度;步骤203 利用切割平面法迭代求解所述步骤202提出的优化模型,该方法循环构建工作集っ,其中,っ为所有的限制条件的集合,〕初值为空集,迭代开始在当前循环下,算法求解当前工作集〕下的M和σ,然后转入步骤204 ;步骤204 找出动荡幅度最大的限制条件う,并把它添加进工作集〕
η argmaxrP7ou ^ri,r) J ?M,n(x,.,r)/, i 1,2,· ,N步骤205 设定阈值,如果ヰ的动荡幅度小于设定好的阈值,则停止算法;否则,返回所述步骤203,开始下ー轮循环。优选地,在尺度学习的开始,充分考虑了图像集的关键词信息,为每幅图像生成图像相关的排序,并构建图像-排序对作为训练样本集合。优选地,所述步骤3中的关键词建模以及标号传播过程是通过将所述步骤2中得到的马氏距离尺度嵌入完成的,具体过程如下步骤301 考虑关键词相互关系的标号传播过程建模为
;pukS(kPQ)};ん(χ ,χ,)δ(ρψρ,)
imm其中,ft"是第k个关键词属于待标注图像的置信度得分,δ (E)是ー个指示函数,当且仅当事件E为真时它的值为1,否则为0 ;步骤302 对于ー个关键词集合Q,给出它的0-1向量表示形式Fe (Stovf^,当且仅当关键词i在集合Q中时ザ值是1,反之为0 ;步骤303 将δ指示函数推广到ー个凹的核函数H,得到一系列的子模函数c,描述如下C(0 ; dM(xu,X1W^Va ),此处,,fc是ー个核函数;
mh (X) (S)I I I步骤304 对于ー副待标注图像、,关键词的置信度得分通过下面的贪婪算法得出·· Pthck) [T(Ckfl) k 1,2, ,/,此处,Q 勿も是ー个关键词集合;步骤305 得到ー个、的关键词的置信度得分向量(ズ,パ,· ,P");步骤306 设置阈值θ 0,当rf l·^。时,将第k个关键词传递给、。优选地,尺度学习结束后,只会将所得到的图像排序的前#幅图像加入到关键词建模和标号传播过程中。与现有方法相比,本发明的优越性体现在(1)既提取了局部特征又提取了全局特征,更全面地刻画了图像的视觉内容,有利于提高标注的准确性。(2)图像间的相似性度量是从图像库中学习出来的,因此是样本相关的,克服了传统方法用预先定义好的距离(如欧式距离)来衡量图像间相似性的局限性。(3)在相似性尺度度量学习的过程中,加入了图像库的关键词信息,使得学习出的尺度能更好地从语义层面度量图像间的相似性。(4)直接对图像关键词之间的内在联系进行建模,并把学习到的尺度函数嵌入到该模型中,在同一个框架下同时解决了相似性度量的学习以及关键词之间关系的挖掘这两个问题。
图1为基于尺度学习和关联标号传播的自动图像语义标注的流程图。图2为实施例所采用图像库的示例图像。图3为本发明在实施例所采用图像库上的标注結果。图4为本发明和经典模型在部分关键词上的标注对比結果。图5为本发明在实施例所采用图像库上的检索結果。
具体实施例方式以下结合具体实施例对本发明的技术方案做更详细的阐述,操作的流程图如图1 所示。本实施例以在CoreBk数据库上的图像标注为例。该数据库的示例图像如图2所示,共包括374个关键词,每幅图像被分配了 1-5个关键词。下面结合附图对本发明的实施方式做更具体的说明,详述如下步骤1、读取图像库,提取每幅图像的特征描述子。对图像库中的图像提取以下三种特征(1)颜色矩特征;(2)62维基于Gabor滤波器纹理特征;C3) SIFT特征。前两种特征用来刻画图像的全局特征,后一种来刻画图像的局部特征。将三种特征分别归ー化,融合成ー个长特征向量。步骤2、基于结构化支持向量机的尺度学习。把尺度学习看作一类信息检索的问题,用结构化支持向量机来建模并求解。这种基于结构化支持向量机的尺度学习算法学习出的尺度使得得到的图像排序最优。以)(input 表示图像库,Y。utput表示图像库中所有图像的图像序列的集合。对于图像库中的任意两幅图
像Xi和Xj,dM Jx1,Xj 1 ^. fXj \ M Jx1 Cxj丨为两者之间的马氏距离(也就是相似性大小),其
中M为尺度函数。对于任意ー副图像,r为其最优图像排序,纟为Y。utput里的其他任意的ー个排序,令玲,り为不同图像排序之间的损失函数。基于结构化支持向量机的尺度学习算法步骤具体如下步骤201 对图像库中的每幅图像Xi,根据它的关键词信息,生成其最优图像排序 ri 并构建图像-序列对咻ス《作为训练集,N为总的图像的数目。利用结构化支持向量机对本问题建模;步骤202 依照下列原则给出优化问题的限制条件对于Xi,它的正确样本排序的判別式得分? M,ハU”へ)/和其他任意不正确排序的得分 M,n(x,,ひ满足不等式 ?M,n(x,,r,)/ Γ Μ,η(χ,,り/,其中戌.,り是损失函数,ハ是输入空间到输出空间的映射,巧是图像库中关于Xi的其他任意排序。在上述限制条件下求解使得minか{(Μ『Μ)」μ)σ}成立的 M和σ。这里,σ是松弛变量,μ是可调參数,用来控制松弛的程度;步骤203 利用切割平面法迭代求解所述步骤202提出的优化模型,该方法循环构建工作集D (所有的限制条件的集合,D初值为空集),迭代开始在当前循环下,基于结构化支持向量机算法求解当前工作集〕下的M和ο,然后转入步骤204 ;
步骤204 找出动荡幅度最大的限制条件う,并把它添加进工作集コ
权利要求
1.一种基于尺度学习和关联标号传播的自动图像语义标注方法,其特征在于,包括如下具体步骤步骤1 读取图像库,提取每幅图像的特征描述子; 步骤2 通过尺度学习得出图像间相似性度量; 步骤3 对图像的关键词之间的内在联系进行关系建模; 步骤4 将所述步骤2中学习到的相似性度量嵌入到关键词建模的过程中; 步骤5:得出待标注图像的关键词的置信度得分,设定阈值,将置信度得分大于阈值的关键词分配给待标注图像,完成标号传播。
2.根据权利要求1所述的基于尺度学习和关联标号传播的自动图像语义标注方法,其特征在于,所述步骤1中的特征描述子将全局特征和局部特征融合在了一起,其中,所述全局特征包括颜色矩和62维基于Gabor滤波器纹理特征;所述局部特征包括SIFT特征;分别将这些特征归一化,再依次连接成一个长向量作为图像的特征描述子。
3.根据权利要求1或2所述的基于尺度学习和关联标号传播的自动图像语义标注方法,其特征在于,所述步骤2中的相似性度量通过基于结构化支持向量机的尺度学习实现, 该实现过程包括以下步骤步骤201 对图像库中的每幅图像Xi,根据它的关键词信息生成排序ri;并构建图像-序列对{(^)}=作为训练集,利用结构化支持向量机建模;步骤202:依照下列原则给出优化问题的限制条件对于Xi,它的正确样本排序的判别式得分<Μ,Ψ (xi 巧)>和其他任意不正确排序的得分氺,^^_,0〉满足不等式 (Μ,Ψ(χ1,φ-(Μ,Ψ(χ1,η))>Α(η,η),其中δ(γ,,幻是损失函数,ψ是输入空间到输出空间的映射, 6是图像库中关于Xi的其他任意排序;在上述限制条件下求解使得mintr { (MtM) + μ * ο }成立的M和O,其中,O是松弛变量,μ是可调参数,用来控制松弛的程度;步骤203 利用切割平面法迭代求解所述步骤202提出的优化模型,该方法循环构建工作集Ω,其中,Ω为所有的限制条件的集合,Ω初值为空集,迭代开始在当前循环下,算法求解当前工作集Ω下的M和σ,然后转入步骤204 ;步骤204:找出动荡幅度最大的限制条件纟,并把它添加进工作集Ω rt = argmaxrej;u_ Δ(γ,,r) + <Μ,Ψ(χ,,r)>, /=1,2,· ,N步骤205 设定阈值,如果纟的动荡幅度小于设定好的阈值,则停止算法;否则,返回所述步骤203,开始下一轮循环。
4.根据权利要求1至3中任一项所述的基于尺度学习和关联标号传播的自动图像语义标注方法,其特征在于,在尺度学习的开始,充分考虑了图像集的关键词信息,为每幅图像生成图像相关的排序,并构建图像-排序对作为训练样本集合。
5.根据权利要求1至4中任一项所述的基于尺度学习和关联标号传播的自动图像语义标注方法,其特征在于,所述步骤3中的关键词建模以及标号传播过程是通过将所述步骤2 中得到的马氏距离尺度嵌入完成的,具体过程如下步骤301 考虑关键词相互关系的标号传播过程建模为
6.根据权利要求1至5中任一项所述的基于尺度学习和关联标号传播的自动图像语义标注方法,其特征在于,尺度学习结束后,只会将所得到的图像排序的前#幅图像加入到关键词建模和标号传播过程中。
全文摘要
本发明涉及一种基于尺度学习和关联标号传播的自动图像语义标注方法。首先读取图像库,对每幅图像提取全局和局部特征描述子;然后将特征描述子送入基于结构化支持向量机的模型中学习图像间的距离尺度—马氏距离,接着对关键词之间的内在联系进行直接建模,并将已经学习好的马氏距离嵌入到建立好的标号传播模型中,求得每个关键词属于待标注图像的置信度得分,最后对关键词的置信度得分设定阈值,将得分高于该阈值的关键词分配给待标注图像,完成标注过程。本发明中的基于结构化支持向量机的学习算法模型可以有效地解决图像间相似性度量的问题,嵌入式关联标号传播模型充分地挖掘了关键词之间的内在联系,有效提高了图像标注和图像检索的准确性。
文档编号G06F17/30GK102542067SQ20121000231
公开日2012年7月4日 申请日期2012年1月6日 优先权日2012年1月6日
发明者刘允才, 王斌, 肖建力 申请人:上海交通大学