基于同构子空间映射和优化的跨媒体检索方法

文档序号：6549330阅读：213来源：国知局

基于同构子空间映射和优化的跨媒体检索方法
【专利摘要】本发明公开了一种基于同构子空间映射和优化的跨媒体检索方法。首先，从图像数据库和音频数据库中分别提取视觉特征和听觉特征，得到相应的视觉特征矩阵A和听觉特征矩阵B，在此基础上，采用基于高维核空间的典型相关性分析，映射得到同构子空间Z；然后，分析图像样本和音频样本在同构子空间Z中的距离关系，进而构建跨媒体加权近邻图G(V,E)，得到相应的权重矩阵W和拉普拉斯矩阵L；对目标函数进行求解，得出优化后的同构子空间Y的值；最后，根据优化后的同构子空间Y中的余弦距离，计算与查询样本最相近的图像样本和音频样本，作为跨媒体检索结果返回。该方法建立了能够同时容纳图像样本和音频样本的同构子空间，并且进行了优化，得到了较好的跨媒体检索结果。
【专利说明】基于同构子空间映射和优化的跨媒体检索方法
【技术领域】
[0001]本发明涉及多媒体内容分析和语义理解【技术领域】，特别是涉及一种基于同构子空间映射和优化的跨媒体检索方法。
【背景技术】
[0002]随着多媒体技术和网络技术的高速发展，文字已不再是人们接触到的主要多媒体内容。图像、音频和视频等不同类型的多媒体数据已经遍布各种网络终端。这些丰富的多媒体数据表达了大量的语义信息，并且彼此之间存在错综复杂的关联，比如:底层内容特征上的统计关系、网页之间的链接关系等。如何有效的管理大量不同类型的多媒体数据，并且提供灵活、高效的跨媒体检索，是多媒体内容分析和语义理解领域所面临的新挑战。
[0003]多媒体数据在数据类型和数据量上的急速膨胀，使得传统的多媒体检索技术难以对灵活、高效的跨媒体检索方式提供支持。在跨媒体检索模式下，用户可以提交不同类型的多媒体数据作为查询样本，系统会从不同类型的多媒体数据库中，找到与查询样本在语义上相关的数据，作为跨媒体检索结果返回给用户。然而，传统的多媒体检索技术大多是针对单一类型的数据，如:图像检索，这种传统的检索方式难以实现对图像、音频等不同类型多媒体数据的综合检索和灵活跨越。跨媒体检索技术应运而生，并迅速成为多媒体研究领域的前沿热点。
[0004]实际上，人们对多媒体数据的检索需求是要能够灵活跨越不同类型的多媒体数据，以形成对多媒体语义的整体理解。作为一种新兴的研究方向，跨媒体检索源于基于内容的多媒体检索研究，后者在九十年代初期被提出，并一直是计算机视觉领域一个非常活跃的研究方向，综合应用了统计分析、机器学习、模式识别、人机交互和多媒体数据库等多领域的知识，较好地解决了早期基于文本的多媒体检索中存在的标注费时费力、主观差异性大等缺陷。然而，面临当前环境下丰富的、类型各异的多媒体数据，传统基于内容的多媒体检索技术难以解决对不同类型多媒体数据的子空间学习、跨媒体相关性度量等新的问题。跨媒体检索技术主要是为了解决上述问题。
[0005]为了更好地理解跨媒体语义，提高跨媒体检索的效率，需要重点关注对不同类型的、异构的多媒体特征的同构子空间学习。最近几年，越来越多的国内外学者对跨媒体检索中的一系列关键技术问题进行了积极探索，取得了较好的研究成果，其中较有代表性的可归纳为以下几类:深度学习、统计关系模型、非线性流形学习、稀疏特征分析等。然而，目前的这些研究工作大多是借助文本标注、网页链接等直接语义关联，以建立图像、音频、视频等不同类型多媒体样本之间的关联模型，很少从底层内容特征层面上，分析多媒体数据在同构子空间中的潜在语义关系。因此，现有研究大都或多或少地存在一些缺陷和不足，尤其体现在如何从底层的视觉特征和听觉特征来进行同构子空间分析和映射，通过挖掘不同类型多媒体数据在同构子空间中的几何拓扑和距离关系，对同构子空间进行优化这些问题的研究上。
【发明内容】

[0006]本发明旨在克服现有的技术缺陷，目的在于提供一种基于同构子空间映射和优化的跨媒体检索方法，该方法能够构建容纳图像样本和音频样本的同构子空间，并根据图像样本和音频样本之间的距离关系，优化同构子空间，进一步提高跨媒体检索效率。
[0007]为实现上述目的，本发明采用如下技术方案:
[0008]一种基于同构子空间映射和优化的跨媒体检索方法，包括以下步骤:
[0009]第一步、基于视听觉特征分析的同构子空间映射
[0010]从图像数据库和音频数据库中分别提取视觉特征和听觉特征，得到视觉特征矩阵A和听觉特征矩阵B ;通过非线性的核函数，将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间；在高维核空间中进行相关性保持映射，得到同构子空间Z ；
[0011]第二步、构建跨媒体加权近邻图
[0012]分析图像样本和音频样本在同构子空间Z中的距离关系，进而构建跨媒体加权近邻图G (V, E)，进行定量分析，得到相应的权重矩阵W和拉普拉斯矩阵L ；
[0013]第三步、基于目标函数最小化的同构子空间优化
[0014]对目标函数进行求解，得出优化后的同构子空间Y的值；
[0015]第四步、跨媒体距离度量和检索
[0016]当用户提交查询样本进行跨媒体检索时，根据优化后的同构子空间Y中的余弦距离，计算与查询样本最相近的图像样本和音频样本，作为跨媒体检索结果返回。
[0017]进一步的，第一步所述的基于视听觉特征分析的同构子空间映射包括:
[0018](I)从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征，得到视觉特征矩阵A ;
[0019](2)从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种听觉特征，采用模糊聚类的方法对听觉特征进行索引，将每个音频样本的听觉特征都统一到相同的维数，得到听觉特征矩阵B;
[0020](3)通过非线性的核函数，将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间；
[0021](4)在高维核空间中，采用典型相关性分析方法进行相关性保持映射，计算目标函数:
[0022]ηκχ[Φ (Α)ΤΦ (A) Ψ (Β)ΤΨ ⑶ μ ] (I)
[0023]式(I)中μ表示组合系数，
[0024]T表示转置运算，
[0025]max表示最大值，
[0026]Φ (A)表示视觉特征矩阵A的典型相关性因子，
[0027]Ψ (B)表示听觉特征矩阵B的典型相关性因子，
[0028](5)通过拉格朗日乘子法求解式⑴中的目标函数,计算Φ⑷和Ψ⑶的值；
[0029](6)通过矩阵变换Φ㈧tA和Ψ⑶TB，对视觉特征矩阵A和听觉特征矩阵B进行降维，将所有图像样本和音频样本映射到同构子空间Z。
[0030]所述第二步的构建跨媒体加权近邻图包括:
[0031](I)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合；[0032]计算集合S中任意两个样本Si和Sj之间的欧氏距离DiS(Si，Sj)，其中，Si表示集合S中的第i个样本，Sj表示集合S中的第j个样本，Si和可以是图像样本或音频样本，i，j均为大于等于I的自然数；
[0033](2)构建跨媒体加权近邻图G (V，E)，其中V表示跨媒体加权近邻图中的顶点，由集合S中所有图像样本和音频样本构成，E表示顶点之间的边；
[0034](3)如果DiS(Si，Sj)的值小于预定的阈值，则在跨媒体加权近邻图G(V，E)中Si和Sj对应的两个顶点之间连接生成一条边；
[0035](4)计算跨媒体加权近邻图G (V, E)对应的权重矩阵W = [Wij]，其中，i表示权重矩阵W的第i行，j表示权重矩阵W的第j列，Wu表示权重矩阵W的第i行、第j列上的元素值，Wij的计算如下式所示:
【权利要求】
1.一种基于同构子空间映射和优化的跨媒体检索方法，其特征在于包括以下步骤: 第一步、基于视听觉特征分析的同构子空间映射从图像数据库和音频数据库中分别提取视觉特征和听觉特征，得到视觉特征矩阵A和听觉特征矩阵B ;通过非线性的核函数，将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间；在高维核空间中进行相关性保持映射，得到同构子空间Z ；第二步、构建跨媒体加权近邻图分析图像样本和音频样本在同构子空间Z中的距离关系，进而构建跨媒体加权近邻图G (V, E)，进行定量分析，得到相应的权重矩阵W和拉普拉斯矩阵L ；第三步、基于目标函数最小化的同构子空间优化对目标函数进行求解，得出优化后的同构子空间Y的值；第四步、跨媒体距离度量和检索当用户提交查询样本进行跨媒体检索时，根据优化后的同构子空间Y中的余弦距离，计算与查询样本最相近的图像样本和音频样本，作为跨媒体检索结果返回。
2.如权利要求1所述的基于同构子空间映射和优化的跨媒体检索方法，其特征在于，第一步所述的基于视听觉特征分析的同构子空间映射包括: (1)从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征，得到视觉特征矩阵A ; 从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种听觉特征，采用模糊聚类的方法对听觉特征进行索引，将每个音频样本的听觉特征都统一到相同的维数，得到听觉特征矩阵B ； (2)通过非线性的核函数，将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间； (3)在高维核空间中，采用典型相关性分析方法进行相关性保持映射，计算目标函数: max[0 (Α)ΤΦ (A) Ψ (Β)ΤΨ (B) μ ] (I) 式(I)中μ表示组合系数， T表示转置运算， max表示最大值， Φ (A)表示视觉特征矩阵A的典型相关性因子， Ψ (B)表示听觉特征矩阵B的典型相关性因子， (4)通过拉格朗日乘子法求解式(I)中的目标函数，计算Φ㈧和Ψ⑶的值； (5)通过矩阵变换Φ(A) tA和Ψ (B) TB，对视觉特征矩阵A和听觉特征矩阵B进行降维，将所有图像样本和音频样本映射到同构子空间Z。
3.如权利要求1所述的基于同构子空间映射和优化的跨媒体检索方法，其特征在于，第二步的构建跨媒体加权近邻图包括: (1)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合；计算集合S中任意两个样本Si和Sj之间的欧氏距离Dis (Si，Sj)，其中，Si表示集合S中的第i个样本，Sj表示集合S中的第j个样本，Si和Sj可以是图像样本或音频样本，i，j均为大于等于I的自然数； (2)构建跨媒体加权近邻图G(V，E)，其中V表示跨媒体加权近邻图中的顶点，由集合S中所有图像样本和音频样本构成，E表示顶点之间的边；(3)如果Dis(Si，Sj)的值小于预定的阈值，则在跨媒体加权近邻图G (V，E)中Si和Sj对应的两个顶点之间连接生成一条边； (4)计算跨媒体加权近邻图G(V，E)对应的权重矩阵W= [wu]，其中，i表示权重矩阵W的第i行，j表示权重矩阵W的第j列，Wij表示权重矩阵W的第i行、第j列上的元素值，Wij的计算如下式所示:
4.如权利要求1所述的基于同构子空间映射和优化的跨媒体检索方法，其特征在于，第三步的基于目标函数最小化的同构子空间优化，包括: (1)根据跨媒体加权近邻图G(V，E)和权重矩阵W，计算拉普拉斯矩阵如下:
L = 1-『1/2 贩1/2 (3) 式⑶中:I表示单位矩阵， D表示对角矩阵，且对角线上的元素值为权重矩阵W相应行上的元素值之和； (2)用Y表示优化后的同构子空间，建立如下的H标函数:
5.如权利要求1所述的基于同构子空间映射和优化的跨媒体检索方法，其特征在于，第四步的跨媒体距离度量和检索，包括: (1)在优化后的同构子空间Y中，以余弦距离作为跨媒体距离度量标准，余弦距离与跨媒体相似度成反比关系； (2)用r表示用户提交的查询样本，如果查询样本r在集合S中，则按照(3)中的方法进行跨媒体检索，如果查询样本r不在集合S中，且查询样本r是一幅图像，则按照(4)中的方法进行跨媒体检索，如果查询样本r不在集合S中，且查询样本r是一个音频，则按照(5)中的方法进行跨媒体检索； (3)根据优化后的同构子空间Y，计算查询样本r与集合S中的图像样本和音频样本之间的余弦距离，按照余弦距离的升序，返回跨媒体检索结果； (4)提取查询样本r的视觉特征，包括:颜色直方图、颜色聚合矢量和Tamura方向度特征，以视觉特征为依据，计算集合S中与查询样本r最相似的一个图像近邻m，以图像近邻m作为新查询样本，重复第四步(3)中的方法，进行跨媒体检索； (5)提取查询样本r的听觉特征，包括:质心、衰减截止频率、频谱流量和均方根特征，以听觉特征为依据，计算集合S中与查询样本r最相似的一个音频近邻n，以音频近邻η作为新查询样本，重复第四步(3)中的方法，进行跨媒体检索。
【文档编号】G06F17/30GK103995903SQ201410260190
【公开日】2014年8月20日申请日期:2014年6月12日优先权日:2014年6月12日
【发明者】张鸿, 聂加梅, 张延鹏申请人:武汉科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鸿;聂加梅;张延鹏
技术所有人：武汉科技大学
我是此专利的发明人

上一篇：一种通过微信信息进行远程支付的方法和系统的制作方法
上一篇：一种图像亮度和对比度的自动调节方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。