一种基于地点的多模态媒体数据主题提取模型的制作方法

文档序号:10535023阅读:264来源:国知局
一种基于地点的多模态媒体数据主题提取模型的制作方法
【专利摘要】一种基于地点的多模态媒体数据主题提取模型:将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据库;对经过自然语言处理后的文本数据进行三层贝叶斯概率模型的提取,得到初始文本特征向量集;采用颜色特征对每个地点的多媒体图像数据进行处理得到初始图像特征向量集;将所有地点的初始文本特征向量集和初始图像特征向量集进行集合定义为多模态媒体数据特征库;得到多模态媒体数据在同一空间下的特征向量集;得到基于地点的多模态媒体数据主题模型,计算主题模型中图像特征和文本特征之间的欧氏距离,实现对多媒体图像数据的文本标注。本发明避免了多媒体数据的模态单一性,实现了基于地点的多模态媒体数据的主题提取。
【专利说明】
一种基于地点的多模态媒体数据主题提取模型
技术领域
[0001] 本发明涉及一种多模态媒体数据主题提取模型。特别是涉及一种基于地点的多模 态媒体数据主题提取模型。
【背景技术】
[0002] 现如今人类生活已经离不开网络,人们可以通过多种多样的社交软件了解身边发 生的大事小事。随着信息技术的日益发展,多媒体数据的表现形式也由单一的文本逐渐丰 富为视频、音频、动画和图形等,随之而来的就是多媒体数据正呈现海量增长的趋势。如何 对这些媒体类型的信息进行快速准确的检索和分类已经成为人们迫切的需要(如参考文献
[1]),并吸引了众多科研工作者的目光,多媒体数据信息检索顺利成章的成为了当下的研 究热点。
[0003] 多媒体信息检索与分类是基于数字图像处理、计算机视觉和机器学习等技术,借 助于计算机处理技术,对数据库中的多媒体信息进行分析比较的过程。目前,多媒体信息检 索研究主要分为两类:基于文本方式的信息检索、基于内容的多媒体信息检索技术。基于文 本方式的信息检索方法简单快速,但已经无法满足现如今多媒体数据检索的需要(如参考 文献[2])。基于内容的多媒体信息检索方法提取多媒体数据的语义信息形成数据的特征向 量,通过找到最大相似度的特征向量进而完成检索(如参考文献[3])。但是多媒体数据的语 义层次越高,检索所需的计算就越复杂。两类方法各有优劣,但由于基于内容的多媒体信息 检索技术适用于如今多样的多媒体数据的形式,因而得到了广泛应用 [4]。
[0004] 多媒体数据的主题提取目前面临的主要挑战为:多媒体数据具有多模态特性,而 且社交网络的多样性导致了多媒体数据之间的联系也具有多样性,如今大多数方法只能处 理单模态的多媒体数据,限制了实际应用范围。

【发明内容】

[0005] 本发明所要解决的技术问题是,提供一种实现了多媒体数据在不同模态和不同社 交网络上的跨域学习,提高了多模态媒体数据主题提取准确度的基于地点的多模态媒体数 据主题提取模型
[0006] 本发明所采用的技术方案是:一种基于地点的多模态媒体数据主题提取模型,包 括以下步骤:
[0007] 1)采集各个地点的多媒体图像数据和文本数据,得到各地点的初始多模态媒体数 据集,将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据 库;
[0008] 2)在多模态媒体数据库中,对每个地点的文本数据进行自然语言处理后采用词袋 模型得到文本中前1000~1500个单词,对经过自然语言处理后的文本数据进行三层贝叶斯 概率模型的提取,去噪后得到初始文本特征向量集x 2
[0009] 其中N2为初始文本特征向量集中文本数据的数目,m2为特征的维度;
[0010] 3)在多模态媒体数据库中,采用颜色特征对每个地点的多媒体图像数据进行处 理,再经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集4
[0011] 其中见为初始图像特征向量集中图像数据的数目,特征的维度;
[0012] 4)将所有地点的初始文本特征向量集和初始图像特征向量集进行集合,将其定义 为多模态媒体数据特征库;
[0013] 5)以多模态媒体数据特征库作为模型的输入,初始化模型参数,构建多模态媒体 数据图结构,得到多模态媒体数据在同一空间下的特征向量集;
[0014] 6)对得到的特征向量集进行K均值聚类,得到基于地点的多模态媒体数据主题模 型,计算主题模型中图像特征和文本特征之间的欧氏距离,实现对多媒体图像数据的文本 标注。
[0015] 步骤5)包括:
[0016] (1)根据初始图像特征向量集和初始文本特征向量集X_7 ,得到 多模态媒体数据在同一空间下的特征向量集和特征映射之间的误差值关系式:
[0017] 0 = ^1^ -C/,^r|!> +l2j|X2 -C/2nr||>+//Tr((^ -P2V2 f D(PXVX ~P,V2)Ya,Tr(}\T 1^) + a2rr(^2F2) + r(||i71||^+||C/2||^+||^||^+||^||^)
[0018] 其中:
[0019] 设定12?172校,其中Reg-,£72^0_,1] 1是父1转换到¥1的近似 的过渡矩阵,1]2是办转换到V 2的近似的过渡矩阵;
[0020] 巧=^"。、〇"。;^,1为单位矩阵,〇为零矩阵,11()为?11(^图像数 据的数量,m为Foursquare图像数据的数量,n2为Foursquare文本数据的数量,D为对角矩 阵;
代表图像e和图像s的相似度,(V〇A 图像e的跨域特征,(V〇s为图像s的跨域特征,U是拉普拉斯算子;
尼,(A2)es代表文本e和文本S的相似度,(V2)e 为文本e的跨域特征,(V2)s为文本s的跨域特征,L2是拉普拉斯算子;
[0023] ^^、(^、(^和丫为模型参数;
[0024] ,其中要得到的特征映射的维度;
[0025] (2)对误差值关系式中的^^(^、(^、化和乂:^初始化;
[0026] (3)分别固定1]1、1]2、¥1和¥2并求导,不断重复求导过程直到误差值关系式具有设定 的最小值,此时的化和%即为多模态媒体数据的特征映射,即不同模态数据在同一特征空间 下的特征向量集。
[0027] 本发明的一种基于地点的多模态媒体数据主题提取模型,具有的有益效果是:
[0028] 1、避免了多媒体数据的模态单一性,可以应用于多种模态的多媒体数据库,即当 多媒体数据库中既有文本数据又有图像数据时,本方法依然可行;
[0029] 2、采用基于跨域学习的多媒体主题提取模型,通过某一社交网络中多模态媒体数 据之间的联系将其他多模态媒体数据映射到同一特征空间下,实现了基于地点的多模态媒 体数据的主题提取;
[0030] 3、结合使用上述模型对图像数据进行文本标注,建立了图像数据和文本数据的联 系,实现了该模型的应用。
【附图说明】
[0031] 图1是本发明基于地点的多模态媒体数据主题提取模型的流程图;
[0032]图2a是雅虎网站(Flickr)数据样例,其文本标注为"星巴克";
[0033]图2b是四方网站(Foursquare)数据样例,其文本标注为"海湾风景";
[0034]图2c是四方网站(Foursquare)数据样例,其文本标注为"房间浴室";
[0035]图3a是特征维数为10维的主题模型样例,文本标注为"舒服的房间";
[0036]图3b是特征维数为100维的主题模型样例,文本标注为"沙滩";
[0037] 图3c是特征维数为1000维的主题模型样例,文本标注为"周末夜景";
[0038] 图4a是特征维数为10维的图片标注样例,文本标注为"灯光";
[0039] 图4b是特征维数为100维的图片标注样例,文本标注为"聚会";
[0040] 图4c是特征维数为1000维的图片标注样例,文本标注为"海鲜食品";
[0041 ]图5是基于地点的多模态媒体数据主题模型的评估结果;
[0042] 图6是图片标注的评估结果。
【具体实施方式】
[0043] 下面结合实施例和附图对本发明的一种基于地点的多模态媒体数据主题提取模 型做出详细说明。
[0044] 研究表明:多模态媒体数据的特征映射分布情况与其数据本身的故有特征有非常 紧密的联系,可以通过最优化主题模型得到同一特征空间下的多模态媒体数据特征向量进 而计算数据之间的关系。本发明提出了一种基于地点的多模态媒体数据主题提取模型。
[0045] 如图1所示,本发明的一种基于地点的多模态媒体数据主题提取模型,包括以下步 骤:
[0046] 1)采集各个地点的多媒体图像数据和文本数据,得到各地点的初始多模态媒体数 据集,将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据 库;
[0047] 2)在多模态媒体数据库中,对每个地点的文本数据进行自然语言处理后采用词袋 模型(如参考文献[5])得到文本中前1000~1500个单词,对经过自然语言处理后的文本数 据进行三层贝叶斯概率模型(Latent Dirichlet Allocation,LDA(如参考文献[6]))的提 取,去噪后得到初始文本特征向量集;
[0048] 3)在多模态媒体数据库中,采用颜色特征对每个地点的多媒体图像数据进行处 理,再经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集;
[0049] 4)将所有地点的初始文本特征向量集和初始图像特征向量集进行集合,将其定义 为多模态媒体数据特征库;
[0050] 5)以多模态媒体数据特征库作为模型的输入,初始化模型参数,构建多模态媒体 数据图结构,得到多模态媒体数据在同一空间下的特征向量集;包括:
[0051 ] (1)根据初始图像特征向量集;€ 和初始文本特征向量集义e ,得到 多模态媒体数据在同一空间下的特征向量集和特征映射之间的误差值关系式:
[0052] 0 = l.WX.-U^t+X.WX.-U^ ||;. + /iTr((^ -P2F2f Z)(^ -P2F2)) + ?irr(^Z1F1) + tt2rr(F/l2r2) + 7(||[/t||-;+||t/2||-;+||Ft||-;+||F 2||-;)
[0053] 其中:
[0054] 设定,其中(72€0¥/,.1]1是)(1转换到1的近似 的过渡矩阵,1] 2是办转换到V2的近似的过渡矩阵;
-:£.,J图像e的特征映射,(V〇s为图像s的特征映射,U是拉普拉斯算子; ,1为单位矩阵,0为零矩阵,D为对角矩阵; 11],(&^代表图像6和图像8的相似度,(¥1)6为
,(A2)es代表文本e和文本s的相似度,(V2) e 为文本e的特征映射,(V2)s为文本s的特征映射,L2是拉普拉斯算子;
[0058] ^^,^,(^,(^,丫为模型参数;
[0059] V^Q^d , V2^d其中d为要得到的特征映射的维度; .,:
[0060] (2)对误差值关系式中的
[0061] (3)分别固定1]1、1]2、¥1和¥ 2并求导,不断重复求导过程直到误差值关系式具有设定 的最小值,此时的化和%即为多模态媒体数据的特征映射,即不同模态数据在同一特征空间 下的特征向量集。
[0062] 6)对得到的特征向量集进行K均值聚类(如参考文献[7]),得到基于地点的多模态 媒体数据主题模型,计算主题模型中图像特征和文本特征之间的欧氏距离,实现对多媒体 图像数据的文本标注。
[0063] 下面结合具体的计算公式,对实施例1中的方案进行详细的介绍,详见下文描述:
[0064] 1)采集S个地点的多媒体图像数据和文本数据,得到各地点的初始多模态媒体数 据集m,将所有地点的多模态媒体数据集和文本数据总体Milm1,!!!2, ...,ms}定义为基于地 点的多模态媒体数据库MD(Multimedia Database);
[0065] 本发明实施例首先采集来自S个地点的雅虎网站(FI ickr)和四方网站 (Foursquare)媒体数据(本例中S = 41),过程如下:
[0066] 本发明是基于地点的多模态媒体数据主题提取,要收集数据的相关地点要比较热 门,所以我们要选择比较受欢迎的地点。Foursquare中既有图像数据又有文本数据而且它 们在数量和内容上基本没有联系,有的地点主页中用户上传的信息较少不具有代表性,所 以在选择地点时要满足三个条件:(1)拥有的用户数量在1000以上;(2)地点主页中用户上 传的图像数目大于1000; (3)用户对地点的相关评论在200条以上。由此,我们选择了41个比 较受欢迎的地点。每个地点中所有的文本信息看成一个文本文档,所以我们收集到的 Four square数据包含41个文本文档和10631张图像。
[0067]辅助域的数据主要从Flickr中获取,Flickr作为一个专业级图像分享网站,提供 的图像数据包含丰富的信息,包括标注信息和图像的地理信息(如参考文献[8])。在Flickr 数据的收集中,可以通过一些图像标注候选词汇作为搜索关键词在Flickr平台上收集图 像。对这41个地点我们均选择搜集到的前60张图像,共2460张。
[0068] 将S个地点的多模态媒体数据集合并得到总初始视图集M= {m1,!!!2, ...,ms},将其 定义为基于地点的多模态媒体数据库MD;
[0069] 2)在多模态媒体数据库中,采用词袋模型对每个地点的文本数据L1,其中iG{l, 2, ...,S},进行自然语言处理,得到文本中前1000~1500个单词,对经过自然语言处理后的 文本数据进行三层贝叶斯概率模型的提取,去噪后得到初始文本特征向量集;
[0070] Flickr是多模态媒体数据结构图中的桥梁,所以如果Flickr的图像标注信息与主 题相差很大的话会严重影响多模态媒体数据图结构的形成,这就主要需要对Flickr的文本 信息进行去噪。我们将收集到的每个地点的所有文本视为一个文本文件,这些文件经过LDA 处理以后生成了一个文本主题模型. . .,rn},第t个主题rt有j个单词 r, ={?...,〃丨,…0,〃(代表第t个主题的第k个单词。经过计算Flickr的文本和所有的主 题的相似度,去掉相似度较低的Flickr文本噪声。Flickr的图像F和每个文本主题r的相似 度计算公式为:
[0071 ] Sh,t; (r.F) = argmax(/?(//,; .//; }x P(u[ jr))
[0072] 是F1 i ckr的图像F的文本标注的第a个单词,< 是主题t的单词集合中的第k个单 词。是两个单词之间的相似度,是单词4出现在主题r的概率,相似度取两 单词间的最大值。如果相似度很低,就将该文本和对应的图像滤掉,提高Flickr数据对地点 描述的精确性。
[0073] 对Foursquare的文本数据而言,可以通过删除掉文本中的冗杂单词(stopwords) 实现数据的去噪。
[0074] 去噪后的Flickr文本数据为2086条,Foursquare文本数据为3331条,对这些数据 进行LDA处理,得到初始文本特征向量集T= {t1,!:2, . . .,ts},定义为文本特征库TFD(Text Feature Database)〇
[0075] 3)在多模态媒体数据库MD(Multimedia Database)中,采用颜色特征(如参考文献
[9])对每个地点的多媒体图像数据B1,其中iG {1,2, ...,S}进行处理,再经过三层贝叶斯 概率模型处理、去噪后得到初始图像特征向量集P;
[0076]对图像数据进行去噪同样是将与地点相关性小的图像滤掉。针对Flickr和 Foursquare数据的不同,要分别对其进行处理。
[0077] Foursquare : Four square上的图像是根据用户上传照片时所处的地理位置决定 的,所以按道理来说,来自同一地点的图像应该都反映相同的场景。比如同一地点的白天和 黑夜的图像在颜色方面有很大的不同,这两张图像虽然差异很大,但反映的是同一地点的 场景。我们设定来自同一地点的图像在特征空间具有一致性或者类似性,利用上述假设就 可以滤除图像噪声。具体处理过程如下:
[0078]根据地点图像经常出现的几种特征将图像大概分为几类,本算法使用K均值聚类 将图像分为5类;由于每一类的图像特征对地点的描述程度不同、数量不同,所以应该对每 类图像赋予不同的权值。设定每类的初始权重为
,(:=1,2,...,1],1]是生成的类别的 个数,n。是第c个子类包含的图像的数目,N是聚类的所有图像的数目,w。是每个子类所占的 权重。然后采用随机游走算法不断对子类的权重进行更新,收敛后得到的结果即为最终的 子类所占权重。我们选择权重最大的前3个子类作为训练数据,剩余的2个子类被作为噪声 滤除掉。
[0079] FI i ckr: FI i ckr中的图像都有文本标注,所以可以直接计算文本标注和地点主题 的相似度,滤除不相关图像。与Four square的文本预处理相同,需要将FI i ckr的文本标注中 一些与地点无关的单词滤掉,比如'Nikon','Canon'等。在步骤202中已经提取了每个地点 的LDA主题模型后,选择Z个主题用来描述地点0={01,0 2,...,02}。文本标注和主题之间的 相似度S(W,Topic)取所有文本标注单词和主题之间相似度的最大值。
[0080] 去噪后的Fli ckr图像数据为2086条,Foursquare图像数据为5536条,不失一般性 的,对去噪后的图像特征进行LDA处理,得到初始图像特征向量集P= {p^p2, . . .,ps},定义 为图像特征库PFD(Picture Feature Database)。
[0081] 4)将所有地点的初始文本特征向量集T= {t1,!:2, ...,1/,...,ts}和初始图像特征 向量集Pib1,#,... 41,...,PS}进行集合,将其定义为多模态媒体数据特征库;
[0082]去噪后的媒体数据示意图如图2。
[0083] 5)以多模态媒体数据特征库作为模型的输入,初始化模型参数,构建多模态媒体 数据图结构,得到多模态媒体数据在同一空间下的特征向量集巾=.....^ ;
[0084] 下面详细介绍得到构建多模态媒体数据图结构的具体过程:
[0085] 我们将需要处理的数据分为两类:图像数据和文本数据。所以可以先将图像数据 和文本数据分开处理,再进行统一整合。
[0086] ; ,其中XHf表包含no张具有文本标签的Flickr图像数据和m张不包含任 何文本信息的Foursquare图像数据的特征矩阵。在上式中Ni = no+ni,即总的图像数据的数 量,nu代表图像的空间视觉特征维度。
[0087] Flickr的图像数据和文本数据的数量都为no的原因是Flickr这个社交网络的特 点是每张图像都有一条文本标签。
[0088] 将Foursquare和Flickr的图像和文本数据分别结合起来的目的是赋予来自不同 社交网络的相同模式的数据相同的维数以便于计算,然后通过形成的数据特征矩阵的因子 分解得到图像数据的特征映射。和文本数据的特征映射匕,在这两个变量中 d为统一特征空间下的特征维数。具体实现过程如下:
[0089] 设定巧#和X2: ?,其中R ,:£/2 e ,山是心转换到%的近似的 过渡矩阵,同样地,1]2是心转换到V2的近似的过渡矩阵。为了得到图像数据和文本数据的特 征映射,就要将不同特征空间下的图像特征和文本特征转换到相同的特征空间下,通过上 述方法这些数据可以保持一致性和流形特征。内部数据的一致性代表图像和相关文本文档 (比如图像和文本标签)应该具有类似的或者是相同的特征映射,保持原有的特性代表图像 和文本应当具有相同的特征映射。
[0090]如上所述,我们首先对得到no张具有标签的Flickr图像数据和对应的文本数据进 行处理,由这些数据得到的图像数据和文本数据的特征映射的之间应当比较接近。因此我 们定义了两个选择矩阵
[0093] 在上式中I为单位矩阵,0为零矩阵。由于Pi中前no列为单位矩阵,所以对应Flickr 的相关图像数据。由于P2中前no列为单位矩阵,所以对应Flickr的相关文本数据。这些选择 矩阵能够分别WVjPV 2中得至Ijno张图像的特征映射和no条文本的特征映射。PM和Flickr的 no张图像的特征映射相对应,P 2V2和Flickr的no条文本标签的特征映射相对应。Flickr中具 有文本标签的图像可以被当成联系Four square图像和文本文件间语义缺口的桥梁。为了使 内部媒体数据之间具有一致性,不仅需要使用选择矩阵,还需要对下式极小化。
[0094] Tr( (PiVi-P2V2)tD(PiVi-P2V2))
[0095] 上式中,Tr( ?)是矩阵的轨迹,即取对角线上的元素。Deg"%是对角元素为较大 的正数常量的对角矩阵。PiVi-PWs代表具有相关性的Flickr的图像和文本的特征映射之间 的差值。当VdPV 2的值最小时,具有一致性和语义相似性的文本数据和图像数据将会有类似 的特征映射。
[0096] 特征映射可以保护数据的局部结构信息比如流形特征。为了达到上述目的,我们 定义一个图像类同矩阵Vl和文本类同矩阵為代表图像e和图像s的 相似度,(A 2)es代表文本文件e和文本文件s的相似度。
[0097] 根据上述的流形假设,如果两个数据点在固定的数据分布几何学中非常接近,那 么这两个点的特征映射之间也非常接近。就图像而言,我们将其视为一个最小限度问题:
[0099] 上式中(Vde为图像e的特征映射,(Vi)s为图像s的特征映射,U是一个图像拉普拉 斯算子。
[0100] 我们对下面的函数进行最小化来生成特征映射:
[0101] 0 = ^||^ -L/^r|!> + 12||X2-U2V7t ||> +//Tr((^ -F2F2 f D(P^-P2V? )) + ?//-(^1^) + a22>(I^Z,2) + 7(||t/邶+||f/2||》+n+r其)
[0102]上式中4是实际图像数据XjP经过跨域转换后的图像数据Rff之间的误 差,Tr (() TD ())是VjPV2的最小化问题,TV 是图像和图像之间的相 似度误差。
[0103]由于上式中存在四个变量山、U2、VjPV2,所以该方程存在非球面的最优化问题。但 是当固定其他三个矩阵变量时,对另一个矩阵变量来说该方程为球面的最优化问题。因此, 可以通过迭代的方式来解决上式的最优化问题。特别地,通过固定山^和^我们可以通过
时的极小值,我们可以得到山的值的更新,如下式所示:
求导得到 。因此,当-的值等于零时,上式存在山为变量 I.
[0105] U2的值也可以通过相似的方式得到更新。
[0106] 通过固定1]1、1]2和%,我们可以通过求导得到
因此,当_
的值等于零时,特征映射方程存在Vi为变量时的极小值,我们也可以得到 乂:的更新值:
[0107] +yl + P;DP])V] +P"
[0108] 将求导公式简化为西尔维斯特方程AVi+ViB = C,在本式中
[0109] A = + vi + P]T DP,
[0110] B = AlU{Ul
[0111] C = A.XlUl+PlrDP2V 2
[0112] 若要想得到%的更新值,求导公式必须要有唯一解。当且仅当固有值A和B各自满 足:对所有的i和j,Pi+qj辛〇,其中Pi和qj分别代表A和B的固有值。经过计算可以发现A是对 称的半正定矩阵之和,I是一个正定值。同样地,如果Y为足够大的值,A就为一正定矩阵并 且对所有的i来说都有 ?1>〇。我们同样注意到B是半正定的格拉姆矩阵。同样地,对所有的j 来说都有W0。因此,满足上述的Pi+qfO这一条件并且通过解西尔维斯特方程可以 得到特征映射映射最优化的唯一解。
[0113] V2的更新值也可以通过相同的方法得到。
[0114] 数据经过多模态媒体数据图后得到最终的特征向量集合,其中 特征向量的维数分别为1 〇,50和100,示例图如图3;
[0115] 6)对得到的向量集进行K均值聚类,得到1000个基于地点的多模态媒体数据主题 模型〇={ 01,02,. . .,01QQQ},基于该主题模型计算图像特征和文本特征之间的欧氏距离 <.=' j: + (nl .实现对多媒体图像数据的文本标注。
[0116] 将多模态媒体数据映射到同一特征空间后文本数据和图像数据之间就具有一定 的联系,不失一般性的,采用欧氏距离(如参考文献[10])为例,可以得到与图像数据最相似 的文本数据,从而实现多媒体图像数据的文本标注,示例图如图4。
[0117] 实验
[0118] 本实验使用的数据库为由步骤1)构建的多模态媒体数据库MD。这是来自两个社交 网络的多模态媒体数据库,共包含来自41个地点的2086条Flickr图像数据,2086条Flickr 文本数据,5536条Foursquare图像数据,3331条Foursquare文本数据。
[0119] 不失一般性的,采用三个评估标准:每一类中图像和文本的一致性;文本对图像描 述的完整性;用户对分类结果的满意度。为了评估的有效性,选择15人,每人在10维、50维、 100维的文件夹中分别随机抽取20类,对每一类中的内容进行评判,形成用户评判结果的百 分比并求得平均值。
[0120] 用户对图像标注的评判是对算法性能的另一种评估。图像标注的结果中每一张图 像都有其对应的文本描述。通过图像和文本的匹配度作出对标注结果的评判。由于图像标 注中图像来自Foursquare,文本则来自FI i ckr和Foursquare,并且有的文本内容为空,所以 会导致文本标注的不完整性。在评估时,将评估标准分为三个等级,2表示文本基本完整描 述了图像,1表示文本中有些单词与图像相关,〇为其他情况。
[0121] 实验结果
[0122] 多模态媒体数据库MD中主题模型和图片评估的评估结果分别如图5,6所示。评估 结果越高,性能越优良。
[0123] 由图5可知,本方法中最终的特征向量集合维数为100时结果最好,并且由图6可 知,当最终的特征向量为100维时图片标注的效果也是最好的。这是由于特征维数越大能够 描述的图片的信息就越多,分类效果就越好。
[0124] 本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例 序号仅仅为了描述,不代表实施例的优劣。
[0125] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0126] 参考文献:
[0127] [1]庄越挺,潘云鹤,吴飞,等.网上多媒体信息分析与检索[M].北京:清华大学出 版社,2002:4-20.
[0128] [2]Salton G,Fox E A,ffu H.Extended Boolean Information Retrieval[J] .Commun.ACM,1983,26(11):1022-1036.
[0129] [3]张治国.中文文本分类反馈学习研究[D].西安:西安电子科技大学,2009.
[0130] [4]Felzenszwalb P,Girshick R,McAllester D et al.Object Detection with Discriminatively Trained Part-Based Models[J].IEEE Trans Pattern Anal Mach Intell,2010,32(9):1627-1645.
[0131] [5]Belani A . Vandal i sm Detection in Wikipedia : a Bag-〇f-ffords Classifier Approach[J].CoRR,2010,abs/1001.0700.
[0132] [6]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[C].Montreal:NIPS, 2001.32-439.
[0133] [7]Blei D M.Probabilistic topic models[J].Commun.ACM,2012,7(17):922-954.
[0134] [8]郑伯川,彭维,张引,等.3D模型检索技术综述[J].计算机辅助设计与图形学学 报,2004,16(7):873-881.
[0135] [9]Stricker M,0rengo M.Similarity of Color Images[C].Nagova?Japan: 1995.381-392 .[10]Bradley P S,Reina C,Fayyad U M.Clustering Very Large Databases Using EM Mixture Models[C].Barcelona:ICPR,2000.198-208.
【主权项】
1. 一种基于地点的多模态媒体数据主题提取模型,其特征在于,包括以下步骤: 1) 采集各个地点的多媒体图像数据和文本数据,得到各地点的初始多模态媒体数据 集,将所有地点的多模态媒体数据集和文本数据总体定义为基于地点的多模态媒体数据 库; 2) 在多模态媒体数据库中,对每个地点的文本数据进行自然语言处理后采用词袋模型 得到文本中前1000~1500个单词,对经过自然语言处理后的文本数据进行三层贝叶斯概率 模型的提取,去噪后得到初始文本特征向量集I 2 e 0"^ 其中N2为初始文本特征向量集中文本数据的数目,m2为特征的维度; 3) 在多模态媒体数据库中,采用颜色特征对每个地点的多媒体图像数据进行处理,再 经过三层贝叶斯概率模型处理、去噪后得到初始图像特征向量集不 其中见为初始图像特征向量集中图像数据的数目,特征的维度; 4) 将所有地点的初始文本特征向量集和初始图像特征向量集进行集合,将其定义为多 模态媒体数据特征库; 5) 以多模态媒体数据特征库作为模型的输入,初始化模型参数,构建多模态媒体数据 图结构,得到多模态媒体数据在同一空间下的特征向量集; 6) 对得到的特征向量集进行K均值聚类,得到基于地点的多模态媒体数据主题模型,计 算主题模型中图像特征和文本特征之间的欧氏距离,实现对多媒体图像数据的文本标注。2. 根据权利要求1所述的一种基于地点的多模态媒体数据主题提取模型,其特征在于, 步骤5)包括: (1)根据初始图像特征向量集A 和初始文本特征向量集义'得到多模 态媒体数据在同一空间下的特征向量集和特征映射之间的误差值关系式:其中: 设定不X,其中[Z1 ,(/2 e0n-,山是父:转换到V1的近似的过 渡矩阵,1]2是办转换到V2的近似的过渡矩阵;? I为单位矩阵,O为零矩阵,no为Flickr图像数据的 数量,m为Foursquare图像数据的数量,m为Foursquare文本数据的数量,D为对角矩阵;II^(A1)e3s代表图像e和图像s的相似度,(V 1)e3为图像 e的跨域特征,(V1)s为图像s的跨域特征,L1是拉普拉斯算子;H(A2)es代表文本e和文本s的相似度,(V 2)e为文 本e的跨域特征,(V2)s为文本s的跨域特征,L2是拉普拉斯算子;数; 中d为要得到的特征映射的维度; ⑵对误差值关系式中的 (3)分别固定1]1、1]2、¥1和%并求导,不断重复求导过程直到误差值关系式具有设定的最 小值,此时的化和%即为多模态媒体数据的特征映射,即不同模态数据在同一特征空间下的 特征向量集。
【文档编号】G06F17/30GK105893573SQ201610202586
【公开日】2016年8月24日
【申请日】2016年3月31日
【发明人】刘安安, 师阳, 聂为之, 苏育挺
【申请人】天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1