一种基于实体映射的异构媒体相似性计算方法及检索方法

文档序号:9911196阅读:404来源:国知局
一种基于实体映射的异构媒体相似性计算方法及检索方法
【技术领域】
[0001] 本发明涉及多媒体检索技术领域,具体涉及一种基于实体映射的异构媒体相似性 计算方法,以及相应的异构媒体检索方法。
【背景技术】
[0002] 近年来,随着多媒体技术和互联网技术的迅速发展和普及,互联网上的文本、图 像、视频和音频等不同模态的媒体数据呈快速增长趋势。网络信息已经由传统的单一文本、 图像为主的模式逐渐转变为文本、图像、视频以及音频的异构媒体综合体,并已成为人们传 播知识、获取信息和休闲娱乐的主要方式。面对海量且高速增长的异构媒体数据,如何对之 进行有效的管理,使用户能够迅速检索到想要的信息,成为了一个亟待解决的关键问题。
[0003] 现有的检索方式一般局限于单一媒体检索,如基于关键字的检索和基于内容的图 像检索。基于关键字的检索起源于文本检索领域,随后扩展到其他模态的媒体数据,主要是 通过关键字关联索引数据,用户提供文本查询,检索系统再根据关键字提取准则处理并进 行检索。基于内容的图像检索是指用户提供查询图像,检索系统依据图像内容在图像数据 库中检索出符合查询条件的结果,一般需要对媒体数据提取特征,以此来描述媒体数据的 内容。上述两种检索方式都限制了用户的查询输入,同时返回结果也局限于单一媒体数据, 而用户常常希望能够检索得到所有相关数据,包括文本、图像、视频和音频等不同模态的媒 体数据。因此,异构媒体检索获得了研究者的广泛关注。异构媒体检索提供了灵活的检索方 式,不限制用户提交查询的媒体类型;同时提供了全面的检索结果,能够返回不同模态的媒 体数据。
[0004] 现有的异构媒体相似性计算方法主要有两类:第一类是基于统一图模型的方法; 第二类是基于统一特征子空间的方法。基于统一图模型的方法主要是利用不同模态媒体数 据的共存关系,将不同模态媒体数据作为结点,构建异构媒体的统一图模型,利用图模型来 度量不同模态媒体数据之间的相似度。每个媒体对象对应于统一图模型中的一个结点,结 点之间边的权值表示两个媒体对象之间的相似度。通过标签传递算法,可以计算出用户查 询与所有结点的相似度。这类方法当用户查询在数据库之外时,算法效果会大大降低,需要 依赖人工反馈来提升检索准确率,自动化程度大大降低。基于统一特征子空间的方法将不 同模态的特征显式映射到统一特征子空间,然后在其上进行相似性计算。这类方法一般把 统一特征子空间作为从底层特征到高层特征过渡的统一表示层,但往往没有明确的语义, 将会较大程度地忽视原始媒体数据的语义信息。

【发明内容】

[0005] 针对现有技术的不足,本发明提出了一种基于实体映射的异构媒体相似性计算方 法,以及相应的异构媒体检索方法,在底层特征和高层语义之间构建细粒度实体层来过渡, 一定程度上减少了高层语义概念的歧义性,同时能够充分挖掘具有相同语义的异构媒体数 据之间的关联关系,提高异构媒体检索的准确率。
[0006] 本发明采用的技术方案如下:
[0007] -种基于实体映射的异构媒体相似性计算方法,用于计算不同模态媒体数据之间 的异构媒体相似性,实现异构媒体检索,包括以下步骤:
[0008] (1)建立包含不同模态媒体数据的异构媒体数据库,并标注一定数量的异构媒体 数据作为训练集,提取不同模态媒体数据的特征向量;
[0009] (2)对训练集数据提取并筛选实体,构建实体层,作为从底层特征到高层语义之间 的中间层;
[0010] (3)利用训练集的不同模态媒体数据的特征向量以及对应的标注,考虑单一模态 媒体数据以及不同模态媒体数据之间的关联,学习得到实体映射,进而得到不同模态媒体 数据在实体层的统一表示;
[0011] (4)在实体层的统一表示基础上生成语义抽象,得到高层语义概念的概率向量表 示,最终得到异构媒体相似性计算结果。
[0012] 进一步,上述一种基于实体映射的异构媒体相似性计算方法,所述步骤(1):不同 模态媒体数据为文本和图像,对于文本数据,提取隐狄利克雷分布(Latent Dirichlet Allocation,LDA)特征向量;对于图像数据,提取尺度不变特征变换(Seale-Invariant Feature Transform,SIFT)特征,然后聚类量化得到视觉词袋特征向量。
[0013] 进一步,上述一种基于实体映射的异构媒体相似性计算方法,所述步骤(2):使用 文本领域的实体抽取工具,对文本数据提取得到实体。基于处于同一个异构媒体文档的异 构媒体包含相同实体的共存假设,得到与文本对应的其他模态媒体数据的实体。针对训练 集抽取得到的实体集合,基于工具特性和分类信息筛选出有助于分类的实体,构建得到实 体层。
[0014] 上述一种基于实体映射的异构媒体相似性计算方法,所述步骤(3):通过考虑异构 媒体关联误差,挖掘具有相同语义的不同模态媒体数据之间的关联;通过考虑单一媒体重 构误差,保证媒体数据与所属高层语义概念之间的关联;最终通过迭代优化求解得到实体 映射。
[0015] 上述一种基于实体映射的异构媒体相似性计算方法,所述步骤(4):在实体层的统 一表示基础上,采用逻辑回归算法进行语义抽象,计算每一个高层语义概念的后验概率,从 而得到高层语义概念的概率向量表示,以此来计算不同模态媒体数据在高层语义概念上的 相似性。
[0016] -种采用上述相似性计算方法的基于实体映射的异构媒体检索方法,用于实现异 构媒体检索,包括以下步骤:
[0017] (1)采用上述相似性计算方法,得到不同模态媒体数据在高层语义概念上的相似 性计算结果;
[0018] (2)基于相似性计算结果大小对查询结果进行排序,得到异构媒体检索结果。
[0019] 本发明的效果在于:与现有方法相比,本发明能够更好地实现异构媒体检索,同时 取得更高的异构媒体检索准确率。本发明之所以具有上述效果,其原因在于:本发明在底层 特征和高层语义之间构建了具有明确语义的实体层,以此作为从底层特征到高层语义的过 渡桥梁,减少了高层语义概念的歧义性,同时有效地减小了直接从底层特征到高层语义的 困难;考虑异构媒体关联误差和单一媒体重构误差,使得不同模态媒体数据能够互相促进。 因为实体层的稀疏性,选取线性映射作为实体映射,通过迭代学习得到实体映射,然后采用 逻辑回归学习得到高层语义概念的概率向量表示,这些简洁有效的算法在保证效率的基础 上也能取得较高的准确率。
【附图说明】
[0020] 图1是本发明的技术流程图。
[0021] 图2是本发明的框架示意图。
[0022] 图3是实体层构建流程图。
【具体实施方式】
[0023]下面结合附图和具体实施例对本发明作进一步详细的描述。
[0024] 本发明是一种基于实体映射的异构媒体相似性计算方法,其技术流程如图1所示, 框架示意图如图2所示,具体包含以下步骤:
[0025] (1)建立包含文本和图像的异构媒体数据库,并标注一定数量的异构媒体数据作 为训练集,提取不同模态媒体数据的特征向量。
[0026] 本实施例中,对于文本数据,提取隐狄利克雷分布特征向量;对于图像数据,提取 尺度不变特征变换特征,然后聚类量化得到视觉词袋特征向量。本实施例的方法同样支持 其他特征,例如文本词袋特征、图像颜色特征、纹理特征等。此外,本实施例的方法同样可以 扩展到视频、音频等其他模态的异构媒体数据。
[0027] (2)对训练集数据使用实体抽取工具抽取实体,基于工具特性以及分类信息筛选 出有用实体,构建得到实体层。
[0028] 本实施例中,实体层构建流程图如图3所示,首先采用文本领域的实体抽取工具 Wikifier作为实体抽取工具,对文本数据提取得到初始实体。同时,基于处于同一个异构媒 体文档的异构媒体包含相同实体的共存假设,得到与文本对应的其他模态媒体数据的实 体。
[0029]基于工具特性进行实体筛选,根据Wikifier抽取得到实体的情况,制定了两条启 发式规则:首先选取预测得分大于一定阈值的实体;其次排除含有数字的实体,比如抽取得 到的一些特定年份和时间结点。
[0030] 基于分类信息进行实体筛选,采用互信息特征选择算法计算出每个实体关于每个 高层语义概念的互信息,计算方法如下所示:
[0031]
[0032] 其中,'\^已{61卜=1,2,...,1^}表示实体变量,1^表示实体数量;¥(;已{(^卜=1, 2,. . .,nc}表示高层语义概念变量,nc表示概念数量。当ei = l和ci = l时,可以使用如下公式 计算公式(1)中的概率:
[0033] P(ei=l,Ci = l)=n(ei = l,Ci=l)/N
[0034] P(ei=l)=n(ei = l)/N (2)
[0035] P(ci= 1) =n(ci = 1 )/N
[0036] 其中,11(61=1,(^ = 1)表示既包含实体61又属于概念(^的异构媒体的数目;11(61 = 1)表示包含实体ei的异构媒体的数目;n(Cl = l)属于概念(^的异构媒体的数目,N表示异构 媒体的总数目。
[0037] 根据公式(1)和(2)计算得到每个实体关于每个高层语义概念的互信息,再取平均 得到每个实体的互信息,以此来度量实体包含分类信息的大小,最后排序筛选出合适数目 的实体,构建得到实体层。
[0038] (3)考虑单一模态媒体数据以及不同模态媒体数据之间的关联,学习得到实体映 射,得到不同模态媒体数据在实体层的统一表示。
[0039] 考虑到实体层的稀疏性以及检索效率,本实施例中选取线性映射作为实体映射, 通过考虑异构媒体关联误差,挖掘具有相同语义的不同模态媒体数据之间的关联;通过考 虑单一媒体重构误差,保证媒体数据与所属高层语义概念之间的关联。从而可以得到如下 目标函数:
[0040]
(3)
[0041 ] 其中,||?表示弗罗贝尼乌斯范数(Frobenius norm) Jt和Χι分别表示文本特征和 图像特征,PdPP:分别表示文本特征和图像特征对应的实体映射,Ye表示抽取得到的实体层 标签。||xr4 - f表示异构媒体关联误差,||1力-和
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1