面向社会图像的跨模态图像-标签相关度学习方法_3

文档序号:8922620阅读:来源:国知局
示意图。
[0075]图3为跨模态图像-标签相关度用于标签排序后的效果图。
[0076]图4为跨模态图像-标签相关度用于图像排序后的效果图。
【具体实施方式】
[0077] 下面结合附图,详细介绍本发明针对社会图像的跨模态相关度计算方法。
[0078](一)采集数据对象
[0079]采集数据对象,得到图像和图像标注数据,整理图像标注数据中在整个数据集里 不常出现或者无用的标注词。一般在取得的数据集中,其中带有很多的噪音数据,所以在使 用这些数据进行特征提取之前就应该对其进行适当的处理和过滤。对于图像而言,得到的 图像都是统一的JPG格式,不需要做任何变换。对于图像的文本标注而言,得到的图像标注 含有很多的无意义单词,如单词加数字没有任何含义的单词。有些图像标注多至几十个,为 了让图像标注很好地描述图像的主要信息,应舍弃那些无用的、无意义的标注。因此,所采 取的处理方法步骤如下:
[0080] 步骤1:统计数据集标注中所有单词在数据集中出现的频率;
[0081] 步骤2 :过滤掉那些单词中带有数字的无意义单词;
[0082] 步骤3 :对于每个图像标注中在整个数据集中出现频率较少的单词,将其认为是 图像中比较次要的信息,并允以删除。
[0083] 通过上述步骤,便可得到处理后的图像标注。对于步骤3中去除频率较少的单词, 其理由在于图像聚类里同一类图像的标注还是存在很多相同、意义相近的单词。因此按照 出现频率来对其进行过滤完全合理。另外,对于图像来说,为了第二步的主题特征提取, 需要将每一幅社会图像看作是一个由视觉词汇构建成的视觉文档,而且这些视觉词汇是 用Classeme来提取的[25],相比较传统的视觉词汇(SIFT),Classeme-个明显的优势是 Classeme所提取的视觉词汇考虑了更多的语义信息而不单单是视觉信息,而这在一定程度 上缓解了语义鸿沟问题。基于这样的视觉词汇和视觉文档,便可以利用第二步中的LDA来 抽取图像的视觉特征。同样地,社会图像的文本描述同样可以看作是一个由普通词汇构成 的语义文档,进而可以用LDA来提取相应的语义特征。
[0084](二)多模态特征提取
[0085] 本发明用SMG表示社会图像集合,其中包含了 N个样本,TSV是对于视觉文档的 隐含主题集合,而134是相对于语义标注集的隐含主题集合。对于一幅社会图像simg 1来 说,simg/是其对应的视觉文档,其中所包含的视觉词汇都曾经在simg 现过,simg广是其 对应的文本文档。I?是相应的生成simg /的主题序列,T ^是相应的生成simg广的主题序 列,TPiV是simg ^在TS v上的主题概率分布,TP ^是simg广在TS A上的主题概率分布,因此 对于simgi的图像和标注部分,相应的联合概率分布如公式(5)定义:
[0088] 其中,(a 1,0 1),( a 2, 0 2)是狄利克雷分布的参数,用MCMC方法进行参数估计, 最终TP/和Tp ^将最终用来表示simg i的视觉特征F iv和语义特征S /。我们用LDA方法来 对第1步骤所得到的文本文档和视觉文档进行处理,从而抽取得到相应的主体特征。
[0089](三)多模态特征融合
[0090] 在本文中,对于包含N个样本的数据集合SMG,V G R|FV|W and S G R|FA|W被分别 用来表示此N个样本的视觉和语义特征矩阵,其中|FV|和|F A|是这两个矩阵的维度值,通 常来说|FV|乒|FA|。公式(6)展示了投射的过程:
[0091] CCAVV= VV T, CCASS= SS T,
[0092] CCAVS= VST, CCASV= SVT (6)
[0093] 为了找到能够最大化视觉特征和语义特征相关性的投射关系,公式3被应用来达 到此目标,其中P与q指的是投射方向来将强制将数据从V和S映射到公共空间,因此,将 此问题转化为一个对称特征值问题,由此可以得到投射矩阵的集合P= {Pl,P2,…,PK}和Q ={qi,q 2,…,qK},而其中第i个元素pJPq^以通过公式⑶来进行相应的计算。
[0095]
[0096] 其中,入%和(p\表示第i个特征值。基于矩阵P G R|FV|W和Q G R|FA|?,我们可以 把特征向量V和S投射到相同的子空间中。通过公式(9),可以将图像的视觉特征和语义特 征嵌入到一个子空间中并得到最终的多模态特征MF,其中Y是一个调和参数,介于[0,1] 之间。
[0097] MF = y VT*P+(l-y )St*Q (9)
[0098](四)双向相关度度量与跨模态相关度融合
[0099]图2是针对多模态数据进行超图建模的示意图。其中,一种是以图像为节点,以标 签为超边;另外一种是以标签为节点,以图像为超边。
[0100] 在之前介绍的算法一和算法二中,初始值RM_I (〇)与RM_T(0)设定为相同的值,通 过公式10来计算:
[0102] 其中KNN(SS_I[i],SS_T[t])表示的是对于图像SS_I[i]的k近邻幅图像中包含 标签SS_T[t]的图像数目。IS(SS_T[t])表示的是所有包含标签SS_T[t]的图像集合,对于 公式6的直觉解释是1(剛彼_1[1],55_1'[幻)/^相对于15彼_1'[幻)/味|的提升比例,而 且越高的比例意味着SS_I[i]与SS_T[t]之间更加紧密的关系,反之亦然。
[0103] 在图像超图IHG中,转移概率Pv表示的是在相关的超边SS_T[t]中,从一个图像 节点ih_ Vi$〖到另外一个图像节点ih_v i2的概率,此概率可以通过公式11计算得来。
[0105]其中 Dist(MF(SS_I[il]),MF(SS_I[i2]))表示的是图像 SS_I[il]的多模态特 征向量与图像SS_I[i2]的多模态特征向量之间的欧式距离,而TS(SS_I[il])与TS(SS_ I[i2])则分别是SS_I[il]与SS_I[i2]的标签集合。
[0106] 相似地,在标签超图THG中,对于给定图像SS_I[i]所表示的超边,从标签节点 th_v tl(SS_T[tl])到th_vt2(SS_T[t2])的转移概率可以通过聚合所有包含此标签的图像来 计算得到,如公式12所示。
[0108](五)应用示例
[0109]图3为跨模态图像-标签相关度用于标签排序后的效果图。主要是比较给定图像, 其所包含的标签在未排序前和排序后的效果比较。
[0110]图4为跨模态图像-标签相关度用于图像排序后的效果图。主要是比较给定查 询,未使用相关度排序前的toplO图像列表与使用相关度排序后的toplO图像列表相对比 结果。
[0111] 参考文献
[0112] [1]T. S. Chua, J. H. Tang, R. C. Hong, H. J. Li, Z. P. Luo, and Y. T. Zheng. NUS-ffIDE:A Real-World Web Image Database from National University of Singapore. In Proceedings of CIVR 2009.
[0113] [2]M. J. Huiskes, M. S. Lew. The MIR Flickr Retrieval Evaluation. In Proceedings of MIR 2008, 39-43.
[0114] [3] L. Wu, R. Jin, and A. K. Jain. Tag Completion for Image Retrieval. IEEE Transactions on PAMI 35 (3):716-727, 2013.
[0115] [4]L. Chen,D.Xu, I.W.Tsang, andJ.Luo. Tag-Based Image Retrieval Improved by Augmented Features and Group-Based Refinement. IEEE Transactions on MM14 (4): 1057-1067, 2012.
[0116] [5]A. Popescu, G. Grefenstette. Social Media Driven Image Retrieval. In Proceedings of ICMR 2011.
[0117] [6]E. Horster, R. Lienhart, and M. Slaney. Image Retrieval on Large-Scale Image Databases. In Proceedings of CIVR 2007.
[0118] [7]C. Wang, F. Jing, L. Zhang, and H. j. Zhang. Scalable Search-based image annotation. Multimedia Systems 14 (4):205-220.
[0119] [8]D.Liu, X. S. Hua, L. J. Yang, M. Wang and H. J. Zhang. Tag Ranking. In Proceedings of WWW 2009,351-360.
[0120] [9]X. R. Li, C. G. M. Snoek, and M. Worring. Learning Social Tag Relevance by Neighbor Voting. IEEE Transactions on Multimedia 11 (7):1310-1322.
[0121] [10]T. Lan, G. Mori. A Max-Margin Riffled Independence Model for Image Tag Ranking. In Proceedings of CVPR 2013,3103-3110.
[0122] [11]C. H. Wang, F. Jing, L. Zhang, and H. J. Zhang. Image Annotation Refinement using Random Walk with Restarts. In Proceedings of MM 2006, 647-650.
[0123] [12] X. F. Zhu,W. Nejdl,and M. Georgescu. An Adaptive Teleportation Random Walk Model for Learning Social Tag Relevance. In Proceedings of SIGIR 2014, 223-232.
[0124] [13]M. Li, J. Tang, H. Li,
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1