一种跨媒体间信息分析与检索的方法

文档序号：6369526阅读：171来源：国知局

专利名称：一种跨媒体间信息分析与检索的方法
技术领域：
本发明涉及多媒体信息数据检索领域，特别是ー种跨媒体间信息分析与检索的方法。
背景技术：
多媒体是文字、图像、音频和视频等的综合体，这些不同类型的多媒体数据表达了丰富多彩的语义。多媒体文档研究面临的几大难题(1)由于不同模态间的多媒体数据通常是无结构或半结构化的，不同模态间的多媒体数据底层特征因维数不同、属性不同而造成内容异构性和不可比性，使得底层特征与高层语义之间存在语义鸿沟，大大加剧了不同模态间跨模态检索的难度。(2)模态间的相关性弱。不同类型的多媒体数据从视觉、听觉等不同角度共同表达了多种相关信息，多模态数据之间不仅具有相关性，还具有互补性，如何利用这些关系修正不同类型的多媒体数据之间的相关性还是ー个挑战。(3)检索效率低下。(4)在用户标注的过程中，文本标注随着用户的不同而呈现一定的个性，受主观因素影响较大，因而存在不一致和不准确的情况，影响检索效率。随着数字成像、数据存储和互联网等技术的发展，对大規模多媒体数据进行有效的组织、索引和检索成为该领域的重要课题。中国专利“基于多模态信息融合分析的跨媒体检索方法”，专利号CN200610053392. 3提供了一种检索方法。然而现有的多媒体检索系统大都只能检索包含単一模态的多媒体数据库，或虽能处理多模态的媒体数据，大多数是利用一种模态来提高另ー种模态的效率，却不支持跨媒体的检索，即根据一种模态的多媒体对象检索到其他模态的多媒体対象。目前还没有较成熟的跨媒体检索算法和技木，即便是多媒体文本标注随着用户的不同而呈现一定的个性，受主观因素影响较大，因而存在不一致和不准确的情况，影响检索效率。跨媒体检索需要处理不同模态的媒体数据。例如ー个128维的视觉特征向量和ー个21维的听觉特征向量，两者可能都表达了相似的语义概念，如爆炸和画面与爆炸的声音，但是计算机却很难根据两个特征向量度量两者在语义层面上的相关程度。因此，对于图像和音频这种非结构化、难以应用文本描述的多媒体数据，需要研究新的方法以挖掘两者间所蕴涵的相关性。从而使检索多祥化，智能化。

发明内容
发明目的本发明所要解决的技术问题是针对现有技术的不足，提供ー种跨媒体间信息分析与检索的方法。I)对多模态信息进行预处理，即语义融合处理；2)根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型 MC-PLSA (Multilayer-Continuous Probability Latent SemanticAnalysis,简称MC-PLSA)，关联參数间的关系；概率潜在语义分析模型为现有技木。3)采用不对称学习方法学习多层连续概率潜在语义分析模型，计算图像的视觉特征向量分布、音频的听觉特征向量分布及主题概率分布；
4)用户提交测试的媒体对象作为检索例子，计算检索例子中图像、音频的模态内和模态间的初始相似度值；5)构建传播模型，根据传播模型更模态内和模态间的相似度值；6)根据更新后的相似度值进行二次检索；所述的对多模态信息进行预处理，即语义融合处理，其步骤如下a)采集图像库、音频库图像和音频的类别数、每类的个数相同；将音频分割为时间长度为5 10s的片段音频，分割的音频片段长度取决于所采集音频间的空白、规律性噪声等的分布情況；把图像库和音频库整体分为训练集和测试集，例如，其中图像、音频各采用5000幅/片段作为训练集，余下1000幅/片段作为测试集。b)提取所有训练集中图像和音频的特征，并生成多媒体文档D。，包括如下步骤提取训练集中所有图像的SIFT (Scale-Invariant Feature Transform, SIFT)特征，令视觉特征向量个数为N1，用N1个128维的视觉特征向量的集合表示每个图像d1，若图像d1中含该视觉特征向量则该维度值为1，否则为0，即每幅图像都是由ー组O、I值所组成的视觉特征向量组成的；提取训练集中所有音频的MFCC(MelFrequency Cepstrum Coefficient,MFCC)特征，令听觉特征向量个数为Na，用Na个21维的听觉特征向量的集合表示每个音频dA，其中若音频dA中含该听觉特征向量则该维度值为1，否则为0，即每段音频都是由一组0、1值所组成的听觉特征向量向量组成的；对图像库、音频库进行归类处理如果类别数为N，则生成N类由图像与音频共同组成的多媒体文档，则训练集D= (D1,. . .，D。，. . .，DN}，1<C<N,每个多媒体文档D。表示第C类图像和音频的集合。所述的根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型MC-PLSA其步骤如下c)设置主题參数 Zk, k e I, ... ,K, 20〈k〈100 ；d)扩展概率潜在语义分析模型，使之能够建模连续特征，学习多模态数据，该模型关系定义为多层连续概率潜在语义分析模型MC-PLSA。该模型是ー个概率统计模型，模型中的观察对为く化ズ >和< >，其中D。表示多媒体文档，X1i^W <为多媒体单词，λ1表示视觉特征向量，表示听觉特征向量，i e 1，... N1, j e I,..., ；使用主题参数Zk表示多媒体文档D。和多媒体单词Λ/和^之间的关联性；多媒体单词χ/和X/满足多元高斯分布，即在主题參数Zk条件下的视觉特征向量分布PiX1l I Zk)、在主题參数Zk条件下的听觉特征向量分布Pixf Iら)分别服从Dim1维的高斯分布#(内/，1()和011/维的高斯分布#(/^,2彡)，0加1和011/分别为视觉特征向量的维数和音频连续特征向量的维数，//Α7和Σ 分别为Dim1维的均值向量和Dim1XDim1协方差矩阵，//f和Σ/分别为DimA维的均值向量和DimAXDimA协方差矩阵。所述的MC-PLSA模型采用不对称学习方法学习模型參数，计算图像、音频的连续特征分布及主题概率分布，具体步骤如下e)根据训练集D={D1; . . .，D。，. . .，DN}，通过多层连续概率潜在语义分析模型学习图像d1，并用最大期望算法(Expectation-maximization algorithm，简称EM)计算主题概率分布P (Zk)、主题參数Zk条件下的多媒体文档概率分布P (Dc I zk)、图像的均值向量//f和协方差矩阵Σ ，均值向量///和协方差矩阵Σ 的值等价于视觉特征向量的高斯分布；学习音频dA，保持主题概率分布P(Zk)和主题參数Zk条件下的多媒体文档概率分布P (DeI Zk)不变,用部分EM算法(folding-in算法)计算音频的均值向量///和协方差矩阵Σ〖，音频的均值向量和协方差矩阵的值等价于听觉特征向量的高斯分布；根据图像d1的视觉特征向量和音频dA的听觉特征向量服从连续特征向量的高斯分布，学习主题參数Zk条件下图像概率分布P (d11 Zk)和主题參数Zk条件下音频概率分布P (dA| Zk)，保持主题概率分布P (Z k)、图像的均值向量/i/和协方差矩阵Σ的值不变，用部分EM算法计算主题參数Zk条件下的图像概率分布P Wi I zk)的值；保持主题概率分布P(Zk)、音频的均值向量和协方差矩阵Σ〗的值不变，用部分EM算法计算主题參数Zk条件下音频概率分布P (dA I zk)的值；根据主题參数Zk条件下的图像概率分布P (d11 Zk)和主题參数Zk条件下的音频概率分布P(dA|zk)，计算图像对应的主题概率分布pbkld1)和音频对应的主题概率分布P (zk I dA)；f)构建四个关联矩阵，由余弦夹角公式计算两个媒体对象i/f和之间的相似
权利要求
1.一种跨媒体间信息分析与检索的方法，其特征在于，包含如下步骤 (1)对多模态信息进行语义融合处理； (2)根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型； (3)采用不对称学习方法学习多层连续概率潜在语义分析模型，计算图像的视觉特征向量分布、音频的听觉特征向量分布，以及主题概率分布； (4)用户提交测试的媒体对象作为检索例子，计算检索例子中图像、音频的模态内和模态间的初始相似度值； (5)构建传播模型，根据传播模型更新模态内和模态间的相似度值； (6)根据更新后的相似度值进行二次检索。
2.根据权利要求I所述的ー种跨媒体间信息分析与检索的方法，其特征在于，步骤(I)包括如下步骤 a)采集图像库、音频库图像和音频的类别数以及每类的个数相同，令类别数为N;将音频分割为时间长度为5 10s片段的音频；把图像库和音频库的整体分为训练集和测试集; b)提取所有训练集中图像和音频的特征，并生成多媒体文档，包括如下步骤提取训练集中所有图像的SIFT特征，令视觉特征向量个数为N1，用N1个128维的视觉特征向量的集合表示每个图像d1，若图像d1中含该视觉特征向量则该维度值为1，否则为O，即每幅图像都是由ー组0、1值所组成的视觉特征向量组成；提取训练集中所有音频的MFCC特征，令听觉特征向量个数为Na，用Na个21维的听觉特征向量的集合表示每个音频dA，其中若音频dA中含该听觉特征向量则该维度值为1，否则为O，即每段音频都是由ー组O、I值所组成的听觉特征向量组成；对图像库、音频库进行归类处理生成N类由图像与音频共同组成的多媒体文档，则将训练集表示为D= (D1,. . .，D。，. . .，DJ，1〈C〈N，每个多媒体文档D。表示第C类图像和音频的隹A ロ O
3.根据权利要求2所述的ー种跨媒体间信息分析与检索的方法，其特征在于，步骤(2)包括如下步骤 c)设置主题參数Zk，k e I,..., K, 20〈K〈100 ； d)构建多层连续概率潜在语义分析模型，学习多模态信息，模型中的观察对为くDメ >和<从，づ >，其中D。表示多媒体文档，<和づ为多媒体单词，<表示视觉特征向量，4表示听觉特征向量，i e I,... N1, j e 1，...，Na ; 使用主题參数Zk表示多媒体文档D。和多媒体单词 < 和#之间的关联性；多媒体单词<和#满足多元高斯分布，即在主题參数zk条件下的视觉特征向量分布I 和在主题參数Zk条件下的听觉特征向量分布/^;* Iろ)分别服从Dim1维的高斯分布#(沁，Σ )和DimA维的高斯分布#和DimA分别为视觉特征向量的维数和听觉特征向量的维数，/4和分别为Dim1维的均值向量和Dim1XDim1协方差矩阵，和分别为DimA维的均值向量和DimAXDiiZ协方差矩阵。
4.根据权利要求3所述的ー种跨媒体间信息分析与检索的方法，其特征在干，多层连续概率潜在语义分析模型中采用不对称学习方法学习模型參数，具体步骤如下 e)根据训练集D={D1;...，D。，...，DN}，通过多层连续概率潜在语义分析模型学习图像d1，计算主题概率分布P (zk)、主题參数条件下的多媒体文档概率分布P (Dc I zk)、图像的均值向量/^和协方差矩阵Σ _，均值向量/^和协方差矩阵Σ 的值等价于视觉特征向量的高斯分布；学习音频dA，保持主题概率分布p(Zk)和主题參数条件下的多媒体文档概率分布P(Djzk)不变，计算音频的均值向量/^和协方差矩阵1纟，音频的均值向量和协方差矩阵的值等价于听觉特征向量的高斯分布；根据图像d1的视觉特征向量和音频dA的听觉特征向量服从能够模拟连续特征向量分布的高斯分布，学习主题參数zk条件下的图像概率分布P (d11 zk)和主题參数Zk条件下的音频概率分布P (dA I zk)，保持主题概率分布P (zk)、图像的均值向量/4和协方差矩阵Σ 的值不变，计算主题參数Zk条件下的图像概率分布P (d11 zk)；保持主题概率分布P ( )、音频的均值向量/^和协方差矩阵Σ;的值不变，计算主题參数Zk条件下的音频概率分布P (dA I zk)；根据主题參数Zk条件下的图像概率分布P (d11 zk)和主题參数Zk条件下的音频概率分布P (dA I zk)，计算图像对应的主题概率分布P (zk I d1)和音频对应的主题概率分布P (zk I dA)； f)构建四个关联矩阵，由余弦夹角公式计算两个媒体对象和<2之间的相似度Cor{df\d^-)·, 由图像、音频的相似度生成四个关联矩阵图像与音频矩阵Cia，音频与图像矩阵Cai，图像与图像矩阵Cn，音频与音频矩阵CAA。
5.根据权利要求4所述的ー种跨媒体间信息分析与检索的方法，其特征在于，所述的用户提交测试集的媒体对象作为检索例子，计算图像、音频的模态内和模态间的初始相似度值，其步骤如下取待测试图像或者音频cLw，提取待测试图像的视觉特征向量或者音频的听觉特征向量，并计算视觉特征向量或者听觉特征向量的主题概率分布；采用部分EM算法计算待测试图像或者音频与训练集中每个图像、音频的相似度，生成模态内相似度和模态间相关度Cor(C<)，其中标识符(X，X)表示同模态，标识符(X，Y)表示不同模态。
6.根据权利要求5所述的ー种跨媒体间信息分析与检索的方法，其特征在于，所述的根据传播模型更新模态内和模态间的相似度值，其步骤如下构建传播模型，对训练集中任意两个媒体对象间都用一条边连接，边上的权值为边连接的两对象的相似度值，相似度值由所述四个关联矩阵表示；根据多媒体之间关系的传播来更新模态内模态间的相似度值设置ー个阈值，边上的权值大于此阈值称之为强相关，否则称为弱相关，根据待测试的图像或者音频cLw与训练集中图像、音频生成的初始相似度值寻找对象间的强相关路径，所有强相关路径的相似度值累加作为待测试的图像或者音频cLw与训练集中图像、音频的最終相似度值。
7.根据权利要求6所述的ー种跨媒体间信息分析与检索的方法，其特征在于，所述的根据更新后的相似度值进行二次检索，具体步骤如下 g)分别计算待测试的图像或者音频CU与训练集D=^...』。，...，Dn}内各类多媒体文档的平均相似度值，比较N个多媒体文档的平均相似度的值，最大的平均相似度所属的类别就是该测试对象所属类别；若待测试图像或者音频dn 为图像则记为ゴム，多媒体文档的平均相似度值计算公式为:
全文摘要
本发明提供了一种跨媒体间信息分析与检索的方法，包含如下步骤对多模态信息进行语义融合处理；根据概率潜在语义分析模型扩展得到用于处理连续特征向量的多层连续概率潜在语义分析模型；采用不对称学习方法学习多层连续概率潜在语义分析模型，计算图像的视觉特征向量分布、音频的听觉特征向量分布及主题概率分布；用户提交训练集和测试的媒体对象作为检索例子，计算检索例子中图像、音频的模态内和模态间的初始相似度值；构建传播模型，根据传播模型更新模态内和模态间的相似度值；根据更新后的相似度值进行二次检索。
文档编号G06F17/30GK102693321SQ20121018078
公开日2012年9月26日申请日期2012年6月4日优先权日2012年6月4日
发明者林婉霞, 路通申请人:常州南京大学高新技术研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：路通;林婉霞
技术所有人：常州南京大学高新技术研究院
我是此专利的发明人

上一篇：一种碾压混凝土坝层面性态综合评价方法
上一篇：基于cuda架构的针织布料仿真方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。