一种基于实体映射的异构媒体相似性计算方法及检索方法

文档序号：9911196阅读：404来源：国知局

一种基于实体映射的异构媒体相似性计算方法及检索方法
【技术领域】
[0001] 本发明涉及多媒体检索技术领域，具体涉及一种基于实体映射的异构媒体相似性计算方法，以及相应的异构媒体检索方法。
【背景技术】
[0002] 近年来，随着多媒体技术和互联网技术的迅速发展和普及，互联网上的文本、图像、视频和音频等不同模态的媒体数据呈快速增长趋势。网络信息已经由传统的单一文本、图像为主的模式逐渐转变为文本、图像、视频以及音频的异构媒体综合体，并已成为人们传播知识、获取信息和休闲娱乐的主要方式。面对海量且高速增长的异构媒体数据，如何对之进行有效的管理，使用户能够迅速检索到想要的信息，成为了一个亟待解决的关键问题。
[0003] 现有的检索方式一般局限于单一媒体检索，如基于关键字的检索和基于内容的图像检索。基于关键字的检索起源于文本检索领域，随后扩展到其他模态的媒体数据，主要是通过关键字关联索引数据，用户提供文本查询，检索系统再根据关键字提取准则处理并进行检索。基于内容的图像检索是指用户提供查询图像，检索系统依据图像内容在图像数据库中检索出符合查询条件的结果，一般需要对媒体数据提取特征，以此来描述媒体数据的内容。上述两种检索方式都限制了用户的查询输入，同时返回结果也局限于单一媒体数据，而用户常常希望能够检索得到所有相关数据，包括文本、图像、视频和音频等不同模态的媒体数据。因此，异构媒体检索获得了研究者的广泛关注。异构媒体检索提供了灵活的检索方式，不限制用户提交查询的媒体类型；同时提供了全面的检索结果，能够返回不同模态的媒体数据。
[0004] 现有的异构媒体相似性计算方法主要有两类:第一类是基于统一图模型的方法；第二类是基于统一特征子空间的方法。基于统一图模型的方法主要是利用不同模态媒体数据的共存关系，将不同模态媒体数据作为结点，构建异构媒体的统一图模型，利用图模型来度量不同模态媒体数据之间的相似度。每个媒体对象对应于统一图模型中的一个结点，结点之间边的权值表示两个媒体对象之间的相似度。通过标签传递算法，可以计算出用户查询与所有结点的相似度。这类方法当用户查询在数据库之外时，算法效果会大大降低，需要依赖人工反馈来提升检索准确率，自动化程度大大降低。基于统一特征子空间的方法将不同模态的特征显式映射到统一特征子空间，然后在其上进行相似性计算。这类方法一般把统一特征子空间作为从底层特征到高层特征过渡的统一表示层，但往往没有明确的语义，将会较大程度地忽视原始媒体数据的语义信息。

【发明内容】

[0005] 针对现有技术的不足，本发明提出了一种基于实体映射的异构媒体相似性计算方法，以及相应的异构媒体检索方法，在底层特征和高层语义之间构建细粒度实体层来过渡，一定程度上减少了高层语义概念的歧义性，同时能够充分挖掘具有相同语义的异构媒体数据之间的关联关系，提高异构媒体检索的准确率。
[0006] 本发明采用的技术方案如下：
[0007] -种基于实体映射的异构媒体相似性计算方法，用于计算不同模态媒体数据之间的异构媒体相似性，实现异构媒体检索，包括以下步骤：
[0008] (1)建立包含不同模态媒体数据的异构媒体数据库，并标注一定数量的异构媒体数据作为训练集，提取不同模态媒体数据的特征向量；
[0009] (2)对训练集数据提取并筛选实体，构建实体层，作为从底层特征到高层语义之间的中间层；
[0010] (3)利用训练集的不同模态媒体数据的特征向量以及对应的标注，考虑单一模态媒体数据以及不同模态媒体数据之间的关联，学习得到实体映射，进而得到不同模态媒体数据在实体层的统一表示；
[0011] (4)在实体层的统一表示基础上生成语义抽象，得到高层语义概念的概率向量表示，最终得到异构媒体相似性计算结果。
[0012] 进一步，上述一种基于实体映射的异构媒体相似性计算方法，所述步骤（1):不同模态媒体数据为文本和图像，对于文本数据，提取隐狄利克雷分布（Latent Dirichlet Allocation，LDA)特征向量；对于图像数据，提取尺度不变特征变换（Seale-Invariant Feature Transform，SIFT)特征，然后聚类量化得到视觉词袋特征向量。
[0013] 进一步，上述一种基于实体映射的异构媒体相似性计算方法，所述步骤(2):使用文本领域的实体抽取工具，对文本数据提取得到实体。基于处于同一个异构媒体文档的异构媒体包含相同实体的共存假设，得到与文本对应的其他模态媒体数据的实体。针对训练集抽取得到的实体集合，基于工具特性和分类信息筛选出有助于分类的实体，构建得到实体层。
[0014] 上述一种基于实体映射的异构媒体相似性计算方法，所述步骤(3):通过考虑异构媒体关联误差，挖掘具有相同语义的不同模态媒体数据之间的关联;通过考虑单一媒体重构误差，保证媒体数据与所属高层语义概念之间的关联;最终通过迭代优化求解得到实体映射。
[0015] 上述一种基于实体映射的异构媒体相似性计算方法，所述步骤(4):在实体层的统一表示基础上，采用逻辑回归算法进行语义抽象，计算每一个高层语义概念的后验概率，从而得到高层语义概念的概率向量表示，以此来计算不同模态媒体数据在高层语义概念上的相似性。
[0016] -种采用上述相似性计算方法的基于实体映射的异构媒体检索方法，用于实现异构媒体检索，包括以下步骤：
[0017] (1)采用上述相似性计算方法，得到不同模态媒体数据在高层语义概念上的相似性计算结果；
[0018] (2)基于相似性计算结果大小对查询结果进行排序，得到异构媒体检索结果。
[0019] 本发明的效果在于:与现有方法相比，本发明能够更好地实现异构媒体检索，同时取得更高的异构媒体检索准确率。本发明之所以具有上述效果，其原因在于:本发明在底层特征和高层语义之间构建了具有明确语义的实体层，以此作为从底层特征到高层语义的过渡桥梁，减少了高层语义概念的歧义性，同时有效地减小了直接从底层特征到高层语义的困难;考虑异构媒体关联误差和单一媒体重构误差，使得不同模态媒体数据能够互相促进。因为实体层的稀疏性，选取线性映射作为实体映射，通过迭代学习得到实体映射，然后采用逻辑回归学习得到高层语义概念的概率向量表示，这些简洁有效的算法在保证效率的基础上也能取得较高的准确率。
【附图说明】
[0020] 图1是本发明的技术流程图。
[0021] 图2是本发明的框架示意图。
[0022] 图3是实体层构建流程图。
【具体实施方式】
[0023]下面结合附图和具体实施例对本发明作进一步详细的描述。
[0024] 本发明是一种基于实体映射的异构媒体相似性计算方法，其技术流程如图1所示，框架示意图如图2所示，具体包含以下步骤：
[0025] (1)建立包含文本和图像的异构媒体数据库，并标注一定数量的异构媒体数据作为训练集，提取不同模态媒体数据的特征向量。
[0026] 本实施例中，对于文本数据，提取隐狄利克雷分布特征向量;对于图像数据，提取尺度不变特征变换特征，然后聚类量化得到视觉词袋特征向量。本实施例的方法同样支持其他特征，例如文本词袋特征、图像颜色特征、纹理特征等。此外，本实施例的方法同样可以扩展到视频、音频等其他模态的异构媒体数据。
[0027] (2)对训练集数据使用实体抽取工具抽取实体，基于工具特性以及分类信息筛选出有用实体，构建得到实体层。
[0028] 本实施例中，实体层构建流程图如图3所示，首先采用文本领域的实体抽取工具 Wikifier作为实体抽取工具，对文本数据提取得到初始实体。同时，基于处于同一个异构媒体文档的异构媒体包含相同实体的共存假设，得到与文本对应的其他模态媒体数据的实体。
[0029]基于工具特性进行实体筛选，根据Wikifier抽取得到实体的情况，制定了两条启发式规则:首先选取预测得分大于一定阈值的实体;其次排除含有数字的实体，比如抽取得到的一些特定年份和时间结点。
[0030] 基于分类信息进行实体筛选，采用互信息特征选择算法计算出每个实体关于每个高层语义概念的互信息，计算方法如下所示：
[0031]
[0032] 其中，'\^已{61卜=1，2，...，1^}表示实体变量，1^表示实体数量;￥(；已{(^卜=1， 2,. . .，nc}表示高层语义概念变量，nc表示概念数量。当ei = l和ci = l时，可以使用如下公式计算公式(1)中的概率：
[0033] P(ei=l,Ci = l)=n(ei = l,Ci=l)/N
[0034] P(ei=l)=n(ei = l)/N (2)
[0035] P(ci= 1) =n(ci = 1 )/N
[0036] 其中，11(61=1，(^ = 1)表示既包含实体61又属于概念(^的异构媒体的数目；11(61 = 1)表示包含实体ei的异构媒体的数目；n(Cl = l)属于概念(^的异构媒体的数目，N表示异构媒体的总数目。
[0037] 根据公式（1)和(2)计算得到每个实体关于每个高层语义概念的互信息，再取平均得到每个实体的互信息，以此来度量实体包含分类信息的大小，最后排序筛选出合适数目的实体，构建得到实体层。
[0038] (3)考虑单一模态媒体数据以及不同模态媒体数据之间的关联，学习得到实体映射，得到不同模态媒体数据在实体层的统一表示。
[0039] 考虑到实体层的稀疏性以及检索效率，本实施例中选取线性映射作为实体映射，通过考虑异构媒体关联误差，挖掘具有相同语义的不同模态媒体数据之间的关联;通过考虑单一媒体重构误差，保证媒体数据与所属高层语义概念之间的关联。从而可以得到如下目标函数：
[0040]
(3)
[0041 ] 其中，||?表示弗罗贝尼乌斯范数(Frobenius norm) Jt和Χι分别表示文本特征和图像特征，PdPP:分别表示文本特征和图像特征对应的实体映射，Ye表示抽取得到的实体层标签。||xr4 - f表示异构媒体关联误差，||1力-和

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄雷;彭宇新;
技术所有人：北京大学;
我是此专利的发明人

上一篇：一种确定推荐商户的方法及装置的制造方法
上一篇：一种检索方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。