一种基于统一稀疏表示的跨媒体检索方法

文档序号：6621252阅读：218来源：国知局

一种基于统一稀疏表示的跨媒体检索方法
【专利摘要】本发明涉及一种基于统一稀疏表示的跨媒体检索方法，包括以下步骤：建立包含多种媒体类型的跨媒体数据库，提取每种媒体数据的特征向量；为每种媒体类型学习跨媒体统一稀疏表示的特征映射矩阵，考虑所有不同媒体类型之间的关联关系，同时也考虑跨媒体数据在映射后空间中的稀疏性，并保持映射后的统一特征空间样本分布和映射之前的特征空间样本分布接近；以两个媒体数据属于同一类别的概率作为不同媒体之间的相似性；计算查询样例和查询目标集中媒体数据之间的相似性，输出最相似的跨媒体检索结果，包含所有媒体类型。本发明充分考虑了跨媒体数据之间的关联关系、稀疏性和样本分布，能够提高统一特征表示的有效性，从而提高了跨媒体检索的准确率。
【专利说明】一种基于统一稀疏表示的跨媒体检索方法

【技术领域】
[0001]本发明涉及多媒体检索【技术领域】，具体涉及一种基于统一稀疏表示的跨媒体检索方法。

【背景技术】
[0002]随着大数据时代的来临，互联网上的多媒体数据迅速增长，包括文本、图像、视频、音频等各种媒体数据。然而，现有的搜索引擎如谷歌、百度等仍然依赖于基于关键词的检索，这种检索方式一方面忽略了图像、视频、音频等多媒体数据本身的信息，另一方面当多媒体数据周边没有文本时，便无法进行搜索。尽管有一些研究工作关注基于内容的单媒体检索，如以图搜图等，然而无法支持基于内容的跨媒体检索，例如用一张图像样例，检索出所有相关的媒体数据，不仅包括相关的图像，还包括文本、视频、音频、3D等。这种检索方式比传统的基于关键词的检索和基于内容的单一媒体检索更加符合用户需求，一方面检索结果更加全面，用户可以一次获得所有相关的各种媒体结果，另一方面用户可以提交任意媒体作为查询，而不必限制查询媒体的类型，因此检索方式更加灵活。
[0003]现有的跨媒体检索方法一般可以分为两类。第一类是基于子空间的映射技术，这一类方法以典型相关分析(Canonical Correlat1n Analysis,简称CCA)为代表，CCA是一种类似于主成分分析(Principal Component Analysis,简称PCA)的降维技术,不同的是CCA可以同时分析两组变量之间的相关性，学习出映射子空间使得在子空间中两组变量的相关性最大。除了 CCA 以外,Li 等人在文献“Multimedia content processing throughcross-modal associat1n”中提出了一种新的跨模态因子分析方法(Cross-modal FactorAnalysis，简称CFA)用于学习两组异构数据的映射空间，不同于CCA最大化两组数据之间的相关性，CFA的学习目标是在映射后的空间中，最小化两组数据之间的弗罗贝尼乌斯范数(Frobenius Norm),并且取得了比CCA更好的效果。
[0004]然而，现有方法往往只考虑了数据之间的一一对应关系，例如通过CCA或者CFA学习出映射子空间，使得原始的一一对应的跨媒体数据之间的相关性最大。它们不能挖掘更加丰富的语义信息，例如跨媒体数据的语义类别信息。因此第二类基于语义映射的方法被提出，Rasiwasia等人在其文献“A New Approach to Cross-Modal Multimedia Retrieval”中提出了两个假设:(1)对图像和文本两种媒体之间的关联关系进行建模有利于跨媒体检索；(2)高层抽象表示能够进一步提高跨媒体检索的效果。在Rasiwasia等人的工作中,跨媒体数据之间的关联信息通过CCA进行学习，高层抽象通过逻辑回归将文本或图像表示为具有相同维度的语义概念向量，其中每一维表示该多媒体数据属于对应类别的概率。然而，该方法在学习的过程中只能考虑两种媒体类型之间的关系，并且没有考虑利用稀疏性来降低跨媒体数据中的噪声，并且该方法的两个学习步骤是独立进行的，不能够同时考虑关联信息和语义类别信息，因此误差积累传播至后续的特征学习阶段，从而使得最终的跨媒体检索的准确率下降。

【发明内容】

[0005]针对现有技术的不足，本发明提出了一种基于统一稀疏表示的跨媒体检索方法，能够充分考虑多种媒体类型之间的关联关系，同时学习多种媒体类型的稀疏特征表示，从而有效地过滤特征表示中的噪声，并使得不同媒体数据能够互相校正，进一步提高统一特征表不的有效性，提闻跨媒体检索的准确率。
[0006]为达到以上目的，本发明采用的技术方案如下:
[0007]—种基于统一稀疏表不的跨媒体检索方法，用于统一表不多种不同媒体类型实现跨媒体检索，包括以下步骤:
[0008](I)建立包含多种媒体类型的跨媒体数据库，并将所述数据库分为训练集和测试集，提取每种媒体类型数据的特征向量；
[0009](2)通过训练集的多媒体数据，为每种媒体类型数据学习跨媒体统一稀疏表示的特征映射矩阵；
[0010](3)根据特征映射矩阵，将测试集中的每种媒体类型数据映射到统一的空间中，得到跨媒体数据的统一稀疏表示；
[0011](4)基于统一稀疏表示，计算任意媒体数据之间的跨媒体相似性；
[0012](5)将测试集中的每个数据作为查询样例，整个测试集作为查询目标集进行查询；计算查询样例和查询目标集中媒体数据之间的相似性,进而根据相似性得到跨媒体统一检索结果，检索结果包含所有相关的媒体类型数据。
[0013]进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(I)多种媒体类型为五种媒体类型，包括文本、图像、视频、音频和3D。
[0014]进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(I)中为了提取每种媒体类型数据的特征向量，对于文本数据，提取其隐狄雷克雷分布特征向量；对于图像数据，提取其词袋特征向量；对于视频数据，提取其词袋特征向量；对于音频数据，提取其梅尔频率倒谱系数特征向量；对于3D数据，提取其光场特征向量。
[0015]进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(2)中跨媒体统一稀疏表示学习算法考虑了所有不同媒体类型之间的关联关系，同时也考虑了跨媒体数据在映射后的空间中的稀疏性，并保持映射后的统一特征空间样本分布和映射之前的特征空间样本分布接近。
[0016]进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(4)的跨媒体相似性计算方法以两个媒体数据属于同一类别的概率作为其相似性。
[0017]进一步，上述一种基于统一稀疏表示的跨媒体检索方法，所述步骤(5)的跨媒体统一检索是指提交任意一种媒体类型数据作为查询，检索结果包括测试集中的所有媒体类型数据；该步骤计算得到所述相似性后，根据相似性进行排序，以输出最终的跨媒体检索结果O
[0018]本发明的效果在于:与现有方法相比，本发明能够支持多种媒体类型的统一检索，并充分考虑多种媒体类型之间的关联关系，同时学习多种媒体类型的统一稀疏特征表示，从而有效地过滤特征表示中的噪声，并使得不同媒体类型能够互相校正，进一步提高统一特征表示的有效性，从而能取得更高的跨媒体检索准确率。
[0019]本发明之所以具有上述发明效果，其原因在于:采用了统一稀疏表示。一方面，通过对多种媒体类型数据统一建模，能够充分考虑多种媒体类型之间的关联关系，增强了对跨媒体内容的分析与挖掘的能力；另一方面，能够同时学习多种媒体类型数据的稀疏特征表示，稀疏特征表示能够有效地过滤特征表示中的噪声，更为重要的是对不同媒体类型数据的统一建模学习，能够使得不同媒体类型数据能够互相校正，进一步提高统一特征表示的有效性，从而取得更高的跨媒体检索准确率。

【专利附图】

【附图说明】
[0020]图1是本发明的基于统一稀疏表示的跨媒体检索方法的流程示意图。
[0021]图2是一个跨媒体检索实例的示意图。

【具体实施方式】
[0022]下面结合附图和具体实施例对本发明作进一步详细的描述。
[0023]本发明的一种基于统一稀疏表示的跨媒体检索方法，其流程如图1所示，具体包含以下步骤:
[0024](I)建立包含多种媒体类型的跨媒体数据库，并将所述数据库分为训练集和测试集，提取每种媒体类型数据的特征向量。
[0025]本实施例中，所述多种媒体类型为五种媒体类型，包括文本、图像、视频、音频和3D。
[0026]对于文本数据，提取其隐狄雷克雷分布特征向量；对于图像数据，提取其词袋特征向量；对于视频数据，提取其词袋特征向量；对于音频数据，提取其梅尔频率倒谱系数特征向量；对于3D数据，提取其光场特征向量。本实施例的方法同样支持其他特征种类，例如文本词袋特征，图像纹理特征、颜色特征，视频运动特征，音频均方根、过零率特征，3D形状特征等。
[0027]用Χα)，X(s)表示跨媒体训练集中s种媒体类型的特征向量矩阵，其中上标(i)表示第i种媒体类型，矩阵的维度Sda)Xn(i)，表示共有ηω个训练样本，每个训练样本的特征向量维度是d(i)。
[0028]用Y(1)，Y(s)表示跨媒体训练集中s种媒体类型的类别标签矩阵，其中上标(i)表示第i种媒体类型，矩阵的维度为cXn(i)，表示共有n(i)个训练样本以及对应的c个类别，每个训练样本都来自于其中一类。
[0029]用J:1'，...，表示跨媒体训练集和测试集中s种媒体类型的特征向量矩阵，其中上标⑴表示第i种媒体类型，矩阵的维度为(!(^(^+!!^，表示共有一)个训练样本和!!^)个测试样本，每个样本的特征向量维度是d(i)。
[0030](2)通过训练集的多媒体数据，为每种媒体类型学习跨媒体统一稀疏表示的特征映射矩阵。
[0031]建立的目标函数为:
[0032]

【权利要求】
1.一种基于统一稀疏表示的跨媒体检索方法，包括以下步骤: (1)建立包含多种媒体类型的跨媒体数据库，并将所述数据库分为训练集和测试集，提取每种媒体类型数据的特征向量； (2)通过训练集的多媒体数据，为每种媒体类型学习跨媒体统一稀疏表示的特征映射矩阵； (3)根据特征映射矩阵,将测试集中的每种媒体类型映射到统一的空间中,得到跨媒体数据的统一稀疏表不; (4)基于统一稀疏表示，计算任意媒体数据之间的跨媒体相似性； (5)将测试集中的每个数据作为查询样例，以整个测试集作为查询目标集进行查询；计算查询样例和查询目标集中媒体数据之间的跨媒体相似性,进而根据相似性得到跨媒体统一检索结果，检索结果包含相关的所有媒体类型数据。
2.如权利要求1所述的方法，其特征在于，所述多种媒体类型为五种媒体类型，包括文本、图像、视频、音频和3D数据。
3.如权利要求2所述的方法，其特征在于，对于文本数据，提取其隐狄雷克雷分布特征向量；对于图像数据，提取其词袋特征向量；对于视频数据，提取其词袋特征向量；对于音频数据，提取其梅尔频率倒谱系数特征向量；对于3D数据，提取其光场特征向量。
4.如权利要求1所述的方法，其特征在于，所述步骤(2)中跨媒体统一稀疏表示学习算法考虑了所有不同媒体类型数据之间的关联关系，同时也考虑了跨媒体数据在映射后的空间中的稀疏性，并保持映射后的统一特征空间样本分布和映射之前的特征空间样本分布接近。
5.如权利要求4所述的方法，其特征在于，步骤(2)所述为每种媒体类型学习跨媒体统一稀疏表示的特征映射矩阵，其建立的目标函数为:
其中Ρα)，...，P(s)为跨媒体数据库中所有S种媒体类型的映射矩阵，上标α)表示第i种媒体类型的映射矩阵，矩阵的维度为d(i) Xe，可以将原始的特征向量从d(i)维的空间映射到一个统一的C维的统一空间中；和X=表示一一对应的两个矩阵，这两个矩阵中的对应样本表不来自不同媒体类型，而具有同样类别标签的兀素；| |z| ^表不矩阵z的Frobenius范数，其定义为:
M表示矩阵Z的12，t范数,其定义为:
,最小化I Izl U1能够使得矩阵Z稀疏。
6.如权利要求5所述的方法，其特征在于，第三项目标函数Ω(Pii))表示在映射之后的统一特征空间中的样本分布和在映射之前的特征空间中的样本分布的一致程度，用于挖掘蕴含于不同媒体内部的样本分布结构信息，该信息能够作为类别信息的补充进一步提高效果，其定义为:
其中
-表示矩阵Z的迹范数，I表示单位矩阵，D表示斜对角矩阵，其对

角线上的元素
W⑴为距离矩阵，表示样本的k近邻集合。
7.如权利要求1所述的方法，其特征在于，所述步骤(4)的跨媒体相似性计算方法以两个媒体数据属于同一类别的概率作为其相似性。
8.如权利要求1所述的方法，其特征在于，所述步骤(4)中任意两个媒体数据之间相似性计算方法为:
其中，ο丨表不第i种媒体的数据P的统一稀疏特征表7」、，表不第j种媒体的数据q的统一稀疏特征表不，yp表不0?的类别，y<j表不《的类别，I表不类别集合中的任一种类另U，ο表示任意一种媒体数据，Nk(O)表示媒体数据ο的k近邻，σ (z) = (1+exp (-z))_1为sigmoid 函数。
9.如权利要求1所述的方法，其特征在于，所述步骤(5)的跨媒体统一检索是指提交任意一种媒体类型作为查询，检索结果包括测试集中相关的所有媒体类型数据；该步骤计算得到所述相似性后，根据相似性进行排序，以输出最终的跨媒体检索结果。
【文档编号】G06F17/30GK104166684SQ201410356736
【公开日】2014年11月26日申请日期:2014年7月24日优先权日:2014年7月24日
【发明者】翟晓华, 彭宇新, 肖建国申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：翟晓华;彭宇新;肖建国
技术所有人：北京大学
我是此专利的发明人

上一篇：双曲格子艺术图形的构造方法
上一篇：基于切缝对齐和变形校正的图像缩放方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。