一种基于群智感知的多模态数据融合方法

文档序号：9287738阅读：1182来源：国知局

一种基于群智感知的多模态数据融合方法
【技术领域】：
[0001] 本发明属于数据处理技术领域，涉及一种将异构数据进行数据融合的方法，具体涉及一种基于群智感知的多模态数据融合方法。技术背景：
[0002] 随着计算机及数码电子产品的普及，以及互联网的迅速发展，人们每天都可以接触到海量的多媒体信息。这些多媒体信息铺天盖地，不仅数量大而且冗余，哪些信息是人们所需要的呢？是否可以采取相关技术，从海量数据中挖掘出人们感兴趣的相关信息？是否可以使计算机如人的大脑一样，通过观察及学习来自动识别，实现对多模态数据的语义理解？类似需求已成为多媒体研究中急需要解决的问题。
[0003] 在这些问题中，由于多媒体语义可以从视觉、听觉、触觉等综合角度表达，但这些多模态数据的维度、属性、表现形式各不相同，如何建立模态间的对应关系及关联性成为了核心难点之一。因此需要研究一种新的检索方法，使得用户可以提交某种单一模态样例 (如可以是图像、音频、视频、文本等多媒体文档），在对其进行分析并挖掘出其他模态的相关信息后，返回其它模态的相关数据，从而实现跨模态检索。例如：用户提交一幅老虎的图像，系统不仅可以返回与该图像相似的老虎图像，还可以返回该老虎的叫声。这种检索算法可以实现模态间的灵活跨越，从而避免单纯倚重一种模态而造成结果的局限性和不确定性，扩大了人们的检索范围和检索方式。"这种可以实现不同类型的多媒体数据之间灵活跨越的检索方式称为跨模态（跨媒体）检索"。
[0004] 跨模态检索这一问题的提出，正是伴随着多媒体技术的快速发展，媒体数据研究类型已由单一的文档模态发展到包含图像、音频、视频等非结构化或者半结构化的多模态表达方式。为了更好地表示不同类型的多媒体数据所包含的多媒体语义信息，因此需要采用类似于人脑处理信息的方式，先把各种信息整合起来，综合分析而不是单纯地倚重一种模态信息，从而让不同的信息相辅相成，提高结果的准确性。

【发明内容】
：
[0005] 针对以上问题，本发明基于PLSA模型，提出了一种基于群智感知的多模态数据融合方法。
[0006] 本发明所采用的技术方案是：一种基于群智感知的多模态数据融合方法，本方法将获取到的包括图像数据和音频数据的异构数据视为文档，图像特征视为文档中的视觉单词，音频特征视为文档中的听觉单词；其特征在于，包括以下步骤：
[0007] 步骤1 :对异构数据进行预处理，其具体实现包括以下子步骤：
[0008] 步骤1. 1 :对图像数据进行预处理，生成视觉单词；
[0009] 步骤1. 2 :对音频数据进行预处理，生成听觉单词；
[0010] 步骤2 :对异构数据进行分类并根据来源位置与时间特征进行关联；
[0011] 步骤3 :PLSA建模，挖掘文档与视觉单词、听觉单词与关联文档之间不可见主题关系，主题关系即是单词元素（包括视觉单词、听觉单词）按照一定的主题来关联文档，解决了文档"一词多义、一义多词"的问题；
[0012] 步骤4 :基于PLSA模型的异构数据信息融合，采用不对称学习方法和folding-in 方法来融合、学习视觉单词和听觉单词的语义信息，通过模型学习得到相应的主题概率分布后，求得图像-音频的相关度。
[0013] 作为优选，步骤1. 1中所述的视觉单词的生成方法是先提取图像的视觉特征（如 Blobs、HS、SIFT等），然后采用K-means聚类算法量化图像的视觉特征，进而从聚类中心生成视觉单词。
[0014] 作为优选，所述的聚类中心是从标准图像库中选取需要的图片作为特征样本数据，再从这些特征样本数据中任意选择K个特征样本向量作为初始聚类中心，接着根据特征样本向量与聚类中心的欧式距离寻找特征样本向量所属的聚类中心，每一个聚类中心相当于一个离散的视觉单词包。
[0015] 作为优选，步骤1. 2中所述的听觉单词的生成方法是提取音频数据的MFCC特征，并采用K-means聚类算法量化音频的听觉特征，进而从聚类中心生成听觉单词。
[0016] 作为优选，步骤2中所述的将获取到的多模态数据进行分类并根据来源位置与时间特征进行关联，其具体实现过程包括：
[0017] 步骤2. 1 :对多模态数据编号，每个数据集拥有唯一编号；
[0018] 步骤2. 2 :提取多模态数据的时间和位置特征；
[0019] 步骤2. 3 :将时间和位置特征打包形成标签，并和与之相关联的多模态数据的编号绑定，写入数据库，完成多模态数据关联。
[0020] 作为优选，步骤3中所述的PLSA建模涉及到三个概念：文档document，单词word，主题topic，其中文档和单词是可见的，而主题则是引入用来关联文档和单词的不可见变量，文档中的每个单词元素xi是按照某一主题&来关联某一文档di的。
[0021] 本发明的有益效果为：
[0022] 1.可以避免特征在量化过程中丢失信息；
[0023] 2.避免了模型在训练过程中参数随着训练文档数目的增加而线性递增，导致模型过于庞大；
[0024] 3.缓解了高维特征数据带来的空间复杂度过高的问题。
【附图说明】：
[0025] 图1 :本发明实施的流程图；
[0026] 图2 :本发明实施的PLSA模型示意图；
[0027] 图3 :本发明实施的新对象推导示意图。
【具体实施方式】
[0028] 为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。
[0029] 本方法将获取到的包括图像数据和音频数据的异构数据视为文档，图像特征视为文档中的视觉单词，音频特征视为文档中的听觉单词。
[0030] 请见图1，本发明提供的一种基于群智感知的多模态数据融合方法，包括以下步骤：
[0031] 步骤1 :对异构数据进行预处理，其具体实现包括以下子步骤：
[0032] 步骤1. 1 :对图像数据进行预处理，生成视觉单词；
[0033] -幅图像的常用表示方法是在利用文档作标注的基础上，采用视觉单词来描述对图像内容进行刻画。视觉单词的生成一般是先提取图像的视觉特征（如Blobs、HS、SIFT 等），然后采用K-means等聚类算法量化图像的视觉特征，进而从聚类中心生成视觉单词。其中聚类中心是从标准图像库中选取需要的图片作为特征样本数据，再从这些特征样本数据中任意选择个K个Xj维的特征样本向量作为初始聚类中心{Cj|j= 1，…，K};例如可选开始的K个特征样本向量作为初始聚类中心，接着根据特征向量与聚类中心的欧式距离寻找特征向量所属的聚类中心，每一个聚类中心相当于一个离散的视觉单词包。
[0034] 假设量化后的视觉特征向量个数为队（视觉特征聚类中心个数），则图像山被表示成维数为队维数值的集合，如式壹所示，其中n(di,sj)表示图像di中视觉特征向量sj的个数，即每幅图像都是由一系列属于各个聚类中心特征向量的个数所组成的向量，即SWl):
[0035] S(di)= {n(di，sl)，…，n(di，sj)，…，n(di，sNj)}(式壹）；
[0036] 步骤1. 2 :对音频数据进行预处理，生成听觉单词；
[0037] 听觉单词的生成方法是提取音频数据的MFCC特征，并采用K-means聚类算法量化音频的听觉特征，进而从聚类中心生成听觉单词。
[0038] 聚类中心是从标准图像库中选取需要的图片作为特征样本数据，再从这些特征样本数据中任意选择K个特征样本向量作为初始聚类中心，接着根据特征样本向量与聚类中心的欧式距离寻找特征样本向量所属的聚类中心，每一个聚类中心相当于一个离散的视觉单词包。
[0039] 量化后的听觉特征向量个数为凡（听觉特征聚类中心个数），则音频d,被表示成维数为NA维数值的集合，如式威所示，其中n(di，mk)表示图像di中视觉特征向量叫的个数，即每幅图像都是由一系列属于各个聚类中心特征向量的个数所组成的向量，即SWl)。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶登攀;张倬胜;卢玥锟;张浩天;吴荀;
技术所有人：武汉大学;
我是此专利的发明人

上一篇：一种基于主题特征的文档分类方法
上一篇：一种基于依存分析的中文兼类词处理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。