一种基于统一关联超图规约的跨媒体检索方法

文档序号：9922108阅读：429来源：国知局

一种基于统一关联超图规约的跨媒体检索方法
【技术领域】
[0001] 本发明涉及多媒体检索领域，具体涉及一种基于统一关联超图规约的跨媒体检索方法。
【背景技术】
[0002] 近年来，互联网上的多媒体数据(如图像、视频、文本、音频等)总量飞速增长，已经成为大数据的主要内容。面对快速增长的媒体数量和丰富多样的媒体种类，用户对多媒体数据的检索需求越来越强烈。然而，现有的搜索引擎系统（如百度等)仍然主要基于文本关键词，通过对用户输入文本进行匹配来实现检索。另一方面，基于内容的多媒体检索能够根据内容的相似性进行检索，但局限在单媒体检索上，即返回的检索结果媒体类型与用户输入的媒体类型必须一致，从而限制了检索的灵活性和全面性。跨媒体检索是指用户以任意一种媒体类型作为输入，系统经过检索后返回所有媒体类型的结果。如用户输入一幅图片，不仅能够返回内容相关的图片，还能够得到相关文本、音频、视频等数据。
[0003] 相比较单媒体检索，跨媒体检索具有两方面的优势：一方面能够返回所有媒体的相关数据，增加了检索的灵活性；另一方面多种媒体相互促进，起到了降低噪声的修正作用。
[0004] 现有的最常见的跨媒体检索方法是基于统计分析的映射学习方法。其代表为典型相关分析(Canonical Correlation Analysis，简称CCA) <XCA通过统计分析，学习得到能够最大化两组异构数据关联性的子空间，从而将两种媒体的特征向量映射到统一空间中。CCA 被广泛应用于如视频音源定位、视频说话人检测等研究中。另一种相关方法是跨模态因子分析（Cross-modal Factor Analysis，简称CFA)，由Li等人在文献"Multimedia content processing through cross-modal association"中提出。该方法直接在映射后的空间中最小化两组数据间的弗罗贝尼乌斯范数(Frobenius Norm)，也取得了较好的效果。
[0005] 为了利用已知的数据标注信息，Rasiwasia等人在其文献"A New Approach to Cross-Modal Multimedia Retrieval"中提出了高层语义映射方法:先对不同媒体数据进行CCA学习关联，再在统一空间中使用逻辑回归得到高层语义表示(相同维度的语义概念向量）。该方法在CCA的基础上取得了一定的效果提升，但只利用了有标注的信息，且无法同时建模两种以上媒体。另外，关联学习和高层语义表示是两个独立的步骤，无法同时考虑。针对这些问题，Zhai等人在文南犬"Learning Cross-Media Joint Representation with Sparse and Semi-Supervised Regularization"中提出了一种基于稀疏和半监督规约的跨媒体检索方法，同时进行关联学习和语义抽象。该方法在一个统一的框架中对不同媒体的数据使用半监督图规约方法，且加入稀疏规约项，从而能够利用无监督的数据取得更好的效果。另外，该方法也能够同时建模两种以上媒体。但是，它对于不同媒体分别建图，不能同时有效考虑所有媒体的关联信息，从而在信息的全面性上有所欠缺。

【发明内容】

[0006] 针对现有技术的不足，本发明提出了一种基于统一关联超图规约的跨媒体检索方法，能够在映射后的统一空间中，同时将所有媒体建模在同一个超图中，从而使得模型具有全面分析跨媒体关联的能力。该方法同时学习不同媒体的统一特征表示映射矩阵，且利用超图表达复杂关联的能力，使得模型的信息更加完整，提高了跨媒体检索的准确率。
[0007] 为达到以上目的，本发明采用的技术方案如下：
[0008] 一种基于统一关联超图规约的跨媒体检索方法，用于同时学习不同媒体的统一空间映射，进而得到不同媒体的统一特征表示，实现跨媒体检索，包括以下步骤：
[0009] (1)建立包含多种媒体类型的跨媒体数据集，提取每种媒体类型数据的特征向量；
[0010] (2)通过跨媒体数据集，同时为所有媒体类型学习得到统一特征表示映射矩阵；
[0011] (3)根据映射矩阵，将不同媒体类型映射到统一空间，在统一空间中计算媒体数据间的相似性；
[0012] (4)进行跨媒体检索时，以任意一种媒体类型作为查询，按照步骤(3)计算其与作为查询目标的媒体类型数据的相似性，并根据相似性从大到小排序，最终输出检索结果。
[0013] 进一步，上述一种基于统一关联超图规约的跨媒体检索方法，所述步骤（1)中的多媒体类型为五种媒体类型，包括:文本、图像、视频、音频和3D模型。
[0014] 进一步，上述一种基于统一关联超图规约的跨媒体检索方法，所述步骤（1)中的特征向量具体为:文本数据是提取隐狄雷克雷分布特征向量;图像数据是提取词袋特征向量；视频数据是提取关键帧后，对关键帧提取词袋特征向量;音频数据是提取其梅尔频率倒谱系数特征向量;3D数据是提取其光场特征向量。
[0015] 进一步，上述一种基于统一关联超图规约的跨媒体检索方法，所述步骤(2)中的映射矩阵学习过程，通过在一个关联超图中建模所有媒体的数据(包括标注数据和未标注数据），能够同时考虑所有媒体之间的关联关系，使得学习得到的映射矩阵能够全面地利用媒体类型之间、媒体类型内部的数据关联关系。另外，该方法考虑到了映射矩阵的稀疏性，对数据噪声有抑制作用。
[0016] 进一步，上述一种基于统一关联超图规约的跨媒体检索方法，所述步骤(3)的相似性定义为两个媒体数据属于同一语义类别的概率。
[0017] 进一步，上述一种基于统一关联超图规约的跨媒体检索方法，所述步骤(4)的跨媒体检索是指，使用一种媒体类型的数据作为查询，返回另一种媒体类型的相关结果。步骤 (2)中的学习过程同时学习对于所有媒体的映射矩阵，但一次检索只在两种媒体间进行。该步骤计算得到所述相似性后，根据相似性从大到小排序，最终输出检索结果。
[0018] 本发明的效果在于:与现有方法相比，本方法能够通过构建跨媒体统一关联超图，充分考虑了媒体类型之间、媒体类型内部的关联关系，同时学习所有媒体的统一特征表示映射矩阵，进而得到多种媒体类型的更加精确的统一特征表示。通过综合考虑不同媒体的信息及其关联，兼顾统一特征表示的稀疏性，进一步提高了统一特征表示的有效性，提高了跨媒体检索的准确率。
[0019]本方法之所以具有上述发明效果，其原因在于:在建模过程中以跨媒体统一关联超图为中心。一方面，将所有媒体类型数据统一建模在一张超图中（而不是对不同媒体类型分别建图），大大提高了建模的统一性与模型信息的全面性。另一方面，相比起普通图，超图表达复杂关联结构的能力更强，能够起到更好地描述跨媒体关联的作用，进一步提高了该方法关联学习及语义抽象的能力。通过上述一种基于统一关联超图规约的跨媒体检索方法学习得到的统一特征表示，具有更高的有效性，从而提高了跨媒体检索的准确率。
【附图说明】
[0020] 图1是本发明的基于统一关联超图规约的跨媒体检索方法的流程示意图。
[0021] 图2是本发明的超图构建过程、统一特征表示学习过程的示意图。
【具体实施方式】
[0022]下面结合附图和具体实施例对本发明作进一步详细的描述。
[0023] 本发明的一种基于统一关联超图规约的跨媒体检索方法，其流程如图1所示，包含以下步骤：
[0024] (1)建立包含多种媒体类型的跨媒体数据集，并将所述数据集分为训练集和测试集，提

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭宇新;黄鑫;
技术所有人：北京大学;
我是此专利的发明人

上一篇：多媒体资源评估方法和装置的制造方法
上一篇：一种基于大数据的证券资讯个性化服务系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。