面向社会图像的跨模态图像-标签相关度学习方法

文档序号:8922620阅读:227来源:国知局
面向社会图像的跨模态图像-标签相关度学习方法
【技术领域】
[0001] 本发明属于跨媒体相关性学习技术领域,具体涉及面向社会图像的跨模态图 像-标签相关度学习方法。 技术背景
[0002] 随着web 2. 0技术的发展,特别是一些社交网站的流行,例如Flickr。普通用户 更容易也更加愿意在互联网上分享图片资源。如何更好地处理这些海量的社会图像数据, 对其复杂的结构进行有效地组织和管理,进而促进针对这些图像的跨媒体检索已经成为一 个重要的研宄热点[1,2, 3, 4, 5, 6]。通常来说,每一幅社会图像都会被标注为一系列的标 签,而这些标签是由普通的用户所提供的,而这些标签通常会带有用户主观的观点和倾向 [7]。然而,由于语义鸿沟的问题,在图像的视觉内容与相应的标签之间可能存在着巨大的 不确定性,并且由于歧义,不完整以及过分主观性等等问题,标签的质量也不能令人满意, 存在很多的噪音以及拼写错误,而且很多的标签是不相关的。根据现有的调查显示,大概只 有50%左右的标签是与图像内容是相关的。因此,跨模态图像与标签的相关度学习已经成 为支持跨媒体检索等应用的一项十分重要的研宄问题。
[0003] 为了实现跨模态图像与标签之间的相关度学习,应该同时解决三个相互关联的问 题:
[0004] 1、通过对社会标注图像的多模态分析来发现有价值的多模态特征从而对视觉图 像和文本标注来进行更好的描述与刻画。
[0005] 2、针对图像相关度与标签相关度分别进行多模态分析从而得到相应的相关度度 量方法和客观标准。
[0006] 3、通过多模态相关度融合来得到更好的跨模态相关度,衡量图像的视觉内容以及 标注中的语义标签的关系。
[0007] 为了解决第一个问题,充分挖掘和分析社会标注图像的视觉内容以及相关标注所 蕴含的语义信息变得十分重要,通过这样的分析进而得到能够更好地对标注图像进行描述 的多模态特征。针对第二个问题,通过开发健壮的算法,针对图像相关度与标签相关度分别 进行考虑,从而使得得到的相关度准确率高而且有较低的计算成本。最后一个问题,关键在 于开发新的算法来分析多模态的标签相关度与图像相关度之间的关联,进而对两种相关度 进行融合以得到更好的相关度。
[0008] 当前已有一些研宄者针对图像和标签的相关度学习提出了不同的方法,从建模的 角度来看,这些方法大致可以分为两类,第一类是图模型的方法,第二类是优化方法。
[0009] (1)图模型方法
[0010] 所谓的图模型方法即是把整个标注图像数据集看成是一个图,图中的节点可以表 示图像本身,也可以表示标签[8, 9, 10, 11,12, 13, 14, 15]。而图节点之间的连接表示图像之 间的相似度或者标签之间的相似度,进而可以利用一些针对图模型的算法来计算图像与标 签之间的相关度。
[0011] 在此方法基础上,Li通过对目标图像做k近邻后,将近邻图像所包含的所有标签 聚合起来为目标图像中所包含的标签来进行投票,通过投票的数量来计算目标图像与相应 标签之间的相关度,对于一个标签来说,其所得到的票数越多,其与图像的相关性越大。其 中图像与图像之间的相似度是通过计算底层视觉特征向量的相似度来得到的[9]。后来Li 又拓展了他的工作,考虑了不同种类的底层视觉特征的影响[15]。在Liu的工作中,则把标 签看作是图像中的节点,而边的权重则表示标签之间的相似度,通过谷歌距离以及示例距 离来计算[8]。
[0012] ⑵优化方法
[0013] 现有的优化方法通常会把整个标注图像数据集映射为一个二维矩阵的形式,矩阵 的行与列分别表示图像和标签,而矩阵中的值则表示对应的图像和标签的相关度,进而可 以通过构造不同的代价函数来优化此矩阵进而得到最终的相关度[16, 17, 18, 19, 20]。
[0014] 在此方法基础上,Zhu在其工作中把用户提供的矩阵D分解为一个低秩的矩阵A, 和稀疏错误矩阵E [12],而优化的原则主要考虑几个方面,第一,视觉相似的图片对应的标 签向量也比较相似,第二,内容连续性,即两个标签的共现频率需要在矩阵中有所体现,如 果两个标签在图像集中经常共现,相应地在矩阵中的两个标签的共现频率也就比较高,另 外两个约束是矩阵A是低秩而且矩阵E是稀疏的。而在zhuang的工作中,则从两个角度来 约束矩阵的学习[20],第一个是从图像的角度,两个图像越相似,对应矩阵中的两个行向量 也就越相似。第二个是从标签的角度,两个标签也越相似,对应的矩阵中两个列向量也就越 相似,其中图像与图像之间的相似度通过计算视觉向量的相似度来得到,而标签与标签之 间的相似度则通过谷歌距离来计算。另外,在Gao的工作中把整个数据集看作一个超图,而 利用不同的图像在超图上的关系作为一个正则项加入到了优化函数当中[18]。
[0015] 通过以上分析可以看出,当前的方法在计算图像与标签的相关度时都取得了一些 进展,然而,以上所有方法仍未充分考虑以下三个方面所带来的影响:
[0016] (1)多模态特征表示与多模态信息挖掘,大多数现有的图像-标签相关度学习方 法通常只关注于传统的视觉特征表示方法或者只是很简单地融合了有限的标注信息。这些 方法忽视了多模态特征中的丰富信息对计算图像与标签之间的相关度的价值,因此,找到 合适的算法来充分挖掘构建多模态特征表示方法变得十分的必要[21,22, 23]。
[0017] (2)多模态相关度评估,现有的方法在计算相关度的时候通常只考虑了单模态的 信息,要么忽略了图像本身的视觉信息,要么忽略了图像所包含的语义信息。而没有充分利 用多模态的信息来计算图像与标签之间的相关度,而丰富的多模态信息加以利用来计算图 像与标签之间的相关度。
[0018] (3)跨模态相关度融合,现有的方法在计算相关度的时候通常只考虑单向的相关 度,即要么只考虑了图像相对于标签的相关度,要么只考虑了标签相对于图像的相关度。而 忽视了这两种相关度之间的关系,因此,找到合适的融合算法来对这两种相关度进行融合 得到双向跨模态的相关度变得十分的重要。
[0019] 因此,非常有必要借鉴当前已有的相关成熟技术,同时从各方面考虑以上问题,更 加全面地分析与计算图像和标签之间的相关度。本发明就是由此激发,从局部到整体,设计 了一种新颖的技术框架(包括三个主要算法),使用相关的图像/文本特征抽取方法,多模 态特征融合机制,结合具有问题针对性的图模型算法,建立有效的图像-标签学习计算方 法,并且利用排序聚合的方法来进行跨模态的融合,最终为跨媒体图像检索性能进行改进。
【发明内容】

[0020] 本发明的目的在于提出一种针对社会图像的跨模态图像-标签相关度学习方法, 以提高跨媒体社会图像检索性能。
[0021] 本发明提出的针对社会图像的跨模态图像-标签相关度学习方法,可在大规模的 社会标注图像中,更加精确和有效地学习图像及其标注之间的相关度。本发明以超图为基 本模型对整个标注数据集进行描述,并分别将图像和标签映射为超图节点进行处理,此得 到针对图像的相关度和针对标签的相关度,进而通过跨模态融合的方法将两种不同的相关 度进行融合,得到一种更好的相关度。本发明方法主要包括以下三方面:
[0022] (1)多模态特征融合(Multimodal Feature Fusion)--首先针对原始的社会图 像及其标注,分别进行特征的提取。并且为了更好地进行多模态特征的融合,使用类似的方 法来进行特征提取;然后针对图像和文本的原始特征,通过挖掘不同模态之间特征的相关 性,将异构的特征映射到同构子空间中,进行融合,从而得到融合了多模态信息的特征;
[0023] (2)双向相关度度量(Bi-directional Relevance Measurement)--将标注图像 数据集合用超图来进行表示,利用在超图上的随机游走算法来度量图像与标签之间的相关 度,并且分别从图像作为节点和标签作为节点两个角度,对图像相关度和标签相关度分别 进行计算。其中,图像相关度考虑的是给定标签,图像相对于标签的相关度;而标签相关度 则是指给定图像,标签相对于图像的相关度;
[0024] (3)跨模态相关度融合(Cross-modal Relevance Fusion)--挖掘图像相关度与 标签相关度之间的关系,通过构建恰当的融合机制将融合问题转换为优化问题,并对此优 化问题求解,以得到更好的相关度,其融合了不同相关度的特点,可以适应不同的应用(图 像检索,标签精炼)等等。
[0025] 较之于当前已有的相关图像与标签相关度学习方法而言,本发明所提出的方法在 应用中存在着两大优势,即准确性高,适应性强。第一,准确度高,主要体现在:本方法一方 面对图像和文本的特征进行设计并利用算法进行合并从而得到融合了不同信息的多模态 特征来进行处理,另外本方法也考虑了不同相关度之间的关系,通过融合不同的相关度能 够得到效果更好的相关度。第二,适应性强,因为在本方法中对不同的相关度分别进行了考 虑,即图像相关度与标签相关度,通常来说,一种相关度只适用于一种应用,而在本方法中 对两种相关度进行融合,使得最终得到的相关度能够适用于不同的应用场合,比如图像检 索,图像识别等等。
[0026] 本发明提供的面向社会图像的跨模态图像_标签相关度学习方法,具体步骤如 下:
[0027] (1)数据预处理。从多媒体数据集中采集不同模态的数据图像,得到图像和图像标 注数据,整理图像标注数据集中不常出现或者无用的标注词;
[0028] (2)提取多模态主题特征。提取图像的底层视觉特征与图像标注的语义特征,并且 利用主题模型分别对视觉特征与语义特征进行处理,得到背后隐藏的视觉主题特征与语义 主题特征;
[0029] (3)多模态特征融合。采用典型相关性分析算法,分析得到图像视觉主题特征和语 义主题特征的典型相关性,并将这两种主题特征向量映射到同炜度下的同构子空间中,构 建跨模态融合特征,实现媒体数据不同模态信息的统一表示;
[0030] (4)双向相关度度量。利用在超图上的随机游走算法,分别计算图像相对于标签的 相关度(图像相关度)和标签相对于图像的相关度(标签相关度),从两个角度来度量图像 与相关标签之间的关系;
[0031] (5)跨模态相关度融合。将得到的两种相关度用相应的置信度矩阵进行表示,并且 通过跨模态融合优化算法,得到一种新的跨模态的图像-标签相关度;
[0032] (6)图像排序与标签排序。将新的跨模态图像-标签相关度应用到图像排序与标 签排序中,其中,图像排序考虑的是给定标签,根据不同图像相对于该标签的相关度,对所 有图像进行排序;标签排序考虑的是给定图像,根据不同标签相对于该图像的相关度,对所 有标签进彳T排序。
[0033] 下面对以上各步骤进行详细的描述。
[0034] (1)数据预处理
[0035] 该步骤主要对采集不同模态的数据图像进行初步的预处理,具体来说,因为图像 所包含的标注当中包含了一些噪音,
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1