面向社会图像的跨模态图像-标签相关度学习方法_4

文档序号：8922620阅读：来源：国知局

and C. Zhao. Tag Ranking by Propagating Relevance over Tag and Image Graphs. In Proceedings of ICIMCS 2012, 153-156.
[0125] [14] J. D. Wang, J. Z. Zhou, H. Xu, T. Mei, X. S. Hua, and S. P. Li. Image Tag Refinement by Regularized Latent Dirichlet Allocation. Computer Vision and Image Understanding 124:61-70.
[0126] [15]X. R. Li, C. G. M. Snoek, and M. Worring. Unsupervised multi-feature tag relevance for social image retrieval. In Proceedings of CIVR 2010, 10-17.
[0127] [16] D. Liu, X. S. Hua, M. Wang, and H. J. Zhang. Image Retagging. In Proceedings of MM 2010,491-500.
[0128] [17]Z. C. Li, J. Liu, and H. Q. Lu. Nonlinear matrix factorization with unified embedding for social tag relevance learning.Neurocomputing 105(1) : 38-44.
[0129] [18] Y. Gao, Z. J. Zha, J. L. Shen, X. L. Li, and X.D.Wu. Visual-Textual Joint Relevance Learning for Tag-Based Social Image Retrieval. IEEE Transactions on Image Processing 22(1):363-376.
[0130] [19]G. Zhu, S. Yan, and Y. Ma. Image Tag Refinement Towards Low-Rank,Content-Tag Prior and Error Sparsity.In Proceedings of MM 2010. 461-470.
[0131] [20] J. F. Zhuang, S. C. H. Hoi. A Two-View Learning Approach for Image Tag Ranking. In Proceedings of WSDM 2011,625-634.
[0132] [21]D. Putthividhy, J. La, H. T. Attias, and S. S. Nagarajan. Topic Regression Multi-Modal Latent Dirichlet Allocation for Image Annotation. In Proceedings of CVPR 2010, 3408-3415.
[0133] [22]N. Rasiwasia, N. Vasconcelos.Latent Dirichlet Allocation Models for Image Classification. IEEE Transactions on Pattern Analysis and Machine Intelligence 35 (11):2665-2679.
[0134] [23]L. L. Cao, J. Yu, J. B. Luo, and T. S. Huang. Enhancing Semantic and Geographic Annotation of Web Images via Logistic Canonical Correlation Regression. In Proceedings of MM 2009, 125-134.
[0135] [24]D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research, 3(1):993-1022, 2003.
[0136] [25] L. Torresani, M. Szummer, and A. Fitzgibbon. Efficient Object Category Recognition Using Classemes. In Proceedings of ECCV 2010,776-789,2010。
【主权项】
1. 一种针对社会图像的跨模态相关度学习方法，其特征在于具体步骤如下： (1) 数据预处理：从多媒体数据集中采集不同模态的数据图像，得到图像和图像标注数据，整理图像标注数据集中不常出现或者无用的标注词； (2) 提取多模态主题特征：提取图像的底层视觉特征与图像标注的语义特征，并且利用主题模型分别对视觉特征与语义特征进行处理，得到背后隐藏的视觉主题特征与语义主题特征； (3) 多模态特征融合：采用典型相关性分析算法，分析得到图像视觉主题特征和语义主题特征的典型相关性，并将这两种主题特征向量映射到同炜度下的同构子空间中，构建跨模态融合特征，实现媒体数据不同模态信息的统一表示； (4) 双向相关度度量：利用在超图上的随机游走算法，分别计算图像相对于标签的相关度即图像相关度和标签相对于图像的相关度标签相关度，从两个角度来度量图像与相关标签之间的关系； (5) 跨模态相关度融合：将得到的两种相关度用相应的置信度矩阵进行表示，并且通过跨模态融合优化算法，得到一种新的跨模态的图像-标签相关度； (6) 图像排序与标签排序：将新的跨模态图像-标签相关度应用到图像排序与标签排序中，其中，图像排序考虑的是给定标签，根据不同图像相对于该标签的相关度，对所有图像进行排序；标签排序考虑的是给定图像，根据不同标签相对于该图像的相关度，对所有标签进彳T排序。2. 根据权利要求1所述的方法，其特征在于：步骤（2)中，将图像表示成视觉词袋的形式，其中表示图像的视觉词汇利用Classeme来进行抽取，Classeme是一种图像描述符，该描述符由一组物体类别分类器的结果构成，用Classeme的离散形式来表示图像特征，其中图像特征中的每一维反映的是相应的物体类别是否出现在图像中，出现为1，不出现为〇 ; 在此视觉词袋基础上，利用主题模型LDA抽取得到用来表示图像的主题图像特征，对于图像标注部分，同样利用主题模型LDA抽取得到用来表示标注的语义主题特征。3. 根据权利要求1所述的方法，其特征在于：步骤（3)的具体操作过程为，将步骤（2) 中得到的图像主题特征向量拼成一个视觉主题特征矩阵，将语义特征向量拼成一个语义特征矩阵.Sftxils，其中数据集中共η个样本图像；令x￡V为视觉特征空间的基向量矩阵，为语义特征空间的基向量矩阵，通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间基向量矩阵；空间基向量矩阵最大化地保持图像视觉特征和语义特征的相关性，并提供其映射到同构子空间的映射关系；进而将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态融合特征，实现媒体数据不同模态信息的统一表示；通过典型相关性分析得到两组空间基向量矩阵I=和ρ，然后通过线性加权方式对视觉特征与语义特征组合，并得到最终的跨模态融合特征矩阵。4. 根据权利要求1所述的方法，其特征在于：在步骤（4)中，将整个图像-文本数据集从两个角度来进行建模，构建两个超图模型，分别以图像和文本作为超图上的节点，以这两个超图为基础，之后利用在超图上的随机游走算法来分别计算图像相对于标签的相关度即图像相关度和标签相对于图像的相关度即标签相关度，从不同的应用角度来度量图像与标签之间的关系。5.根据权利要求1所述的方法，其特征在于：步骤（5)中，是将之前得到的两个相关度基矩阵映射到一个共同的框架下，从而得到新的相关度矩阵，结合两种相关度各自的特点，最大化地挖掘在视觉图像与语义标签之间的关联；图像相关度基矩阵RM_I侧重描述不同图像相对于一个确定标签的相关度，将该基矩阵转化为另外一种形式，称其为置信度矩阵CRM_I，如下所示：其中，CRM_I[t][il][i2] e [-1，+1]表示的是对于给定标签SS_T[t]，图像SS_ I[il]比图像SS_[i2]更加相关的置信度，如果置信度为正而且越大的话，说明图像SS_ I[il]与标签SS_T[t]之间有着更高的相关度；同样地，标签相关度基矩阵RM_T意味着对于标签相对于给定图像的相关度，RM_T同样可以转换为相应的置信度矩阵CRM_T:其中，CRM_T[i][tl][t2] e[-l，+1]表示的是对于给定图像SS_I[i]，标签SS_ T[tl]比标签SS_T[t2]更加相关的置信度，而且置信度越高，意味着SS_I[i]与SS_T[tl] 之间的相关度越高；重新构建一个合一的相关度矩阵SRM_IT e R|ss-I|#|ss-T|来集成CRM_I与CRM_T这两个相关度矩阵；此相关度矩阵尽量保持了两个基矩阵的特点，能够更好地表示不同模态数据之间的关系；构建SRM_IT的目标函数如下所示：公式中之前两项是为了使得SRM_IT与CRM_I与CRM_T保持一致，后一项为正则项，而 P是调节参数，介于[〇，1]之间，此目标函数为凸函数，直接进行求偏导得到最优的SRM_ IT，其结果如下所示，因此对于图像SS_I[i]和标签SS_T[t]来说，他们的跨模态相关度通过SRM_IT[i] [t]最终得到；
【专利摘要】本发明属于跨媒体相关性学习技术领域，具体为面向社会图像的跨模态图像-标签相关度学习方法。本发明包括三个主要算法：多模态特征融合、双向相关度度量、跨模态相关度融合；本发明以超图为基本模型对整个社会图像数据集来进行描述，并分别将图像和标签映射为超图节点来进行处理，得到针对图像的相关度和针对标签的相关度，进而通过跨模态融合方法来将两种不同的相关度进行融合得到一种更好的相关度。较之于传统方法，本方法准确性高，适应性强。这对于在大规模弱标注的社会图像基础上，考虑多模态语义信息而进行高效社会图像检索具有重要的意义，能够提高检索相关性，增强用户体验，在跨媒体信息检索领域具有广泛的应用价值。
【IPC分类】G06F17/30
【公开号】CN104899253
【申请号】CN201510243776
【发明人】张玥杰, 程勇, 刘志鑫, 金城, 张滨
【申请人】复旦大学
【公开日】2015年9月9日
【申请日】2015年5月13日

完整全部详细技术资料下载

当前第4页1 2 3 4