一种二维跨媒体元搜索方法和系统的制作方法

文档序号:6575342阅读:173来源:国知局
专利名称:一种二维跨媒体元搜索方法和系统的制作方法
技术领域
本发明涉及一种跨媒体元搜索方法和系统,特别涉及一种基于查询聚类和结果集 交叠分析的二维跨媒体元搜索方法和系统,属于信息检索领域,具体属于跨媒体检索领域。
背景技术
跨媒体检索的目的在于利用文本、内容等多种特征,从海量数据中检索出匹配的 多媒体文档。基于文本的检索主要是将用户提交的文本查询与数据集中的文本进行比对,然后 使用特定模型返回文档相似度信息给用户。文本检索能够直接获取多媒体文档的高层语 义,并达到较高的查准率(Precision)和查全率(Recall),但其具有一些难以克服的缺陷(1)文本的二义性。词汇的二义性导致查准率降低。如Apple同时可以作为 apple (fruit)禾口 Apple Company。(2)只有被标注或者具有文本描述的多媒体文档才能够被检索到。由于基于文本 的检索方法需要使用文本关键词作为特征向量的维度,在没有文本描述的情况下,多媒体 文档在特征空间中就不能被检索到,因而限制了文本检索方法的应用范围。另一方面,基于内容的多媒体检索从视觉等多种底层特征出发,计算多媒体文档 在底层特征上的相似度,避免了文本检索的大量人为因素和噪声。但是由于难以建立从底 层特征到高层语义的联系,使得基于内容的检索准确率较低。目前的多媒体检索还存在着许多不足,主要面向图像、MP3或视频等单一媒体,多 种媒体源之间跨媒体语义分析和融合则通常被忽略。显然,若用户能以多种媒体的信息描 述方式来输入查询请求,则可检索到更多符合意愿的查询结果。针对这一更具挑战性的需 求,跨媒体搜索(Cross media retrieval)技术通过多种媒体源之间语义关联分析和融合, 允许用多种媒体信息表达用户查询需求,并最终能输出多种媒体类型的查询结果。例如,当 查询请求为某演员的照片时,查询结果可能包括该演员的个人情况网页、有关他的新闻网 页、个人博客、影视剧照以及出演的不同电影视频片断等。与传统的多媒体检索相比,跨媒 体检索的复杂性主要来自需要将多种信息源的异构多媒体信息进行融合与集成。对跨媒体检索来说,关键在于跨媒体融合策略,而跨媒体融合策略可以分为2个 层次特征层融合和结果层融合。特征层融合跨媒体检索的特征层融合首先对跨媒体查询、多媒体文档的原始信 息进行特征提取(特征可以是文本关键词、颜色、纹理、形状、时空特征、人脸等),然后对特 征信息进行综合分析和处理,最后由多媒体信息检索模型生成统一的检索结果集。结果层融合也称为决策层融合,其使用不同检索模型检索同一个多媒体查询,对 各自处理的媒体类型和模态数据进行预处理、特征抽取、索引、识别或检索,并返回该多媒 体查询的初步检索结果集。然后通过关联处理、加权模型等方法进行决策层融合判决,最终 获得多个检索模型的联合检索结果集。

图1示出了现有技术中跨媒体融合的特征层融合和结果层融合的层次结构示意图。现有的跨媒体元搜索研究大致可以分为两个部分关于元搜索的研究和关于跨媒 体检索的研究。元搜索关注对不同检索系统提供的检索结果集进行合并、加权等操作,获 得单一的检索结果集,常见的方法包括Comb融合、Borda融合、逻辑回归融合、线性融合、 Round-Robin 等。在跨媒体融合检索与分析方面,发表于2003年的国际多媒体会议ACM MM的论文 “多模态关联的多媒体内容处理”(D. Li, N. Dimitrova, M. Li, and I. K. Sethi.,Multimedia content processing through cross-modal association, In Proceedings of the 7th ACM International Conference on Multimedia,604-611,Oct. 2003.)、发表于 2006 年 的国际图像处理会议ICIP的论文“面向跨媒体检索的语义关联性学习”(F.Wu,H. Zhang, and Y. Zhuang, Learning semantic correlation for cross-media retrieval, In Proceedings of the 13th International Conference Image Processing,1465—1468, Sep. 2006.)等采用特征子空间分析方法来发现视觉特征与文本特征之间的跨模态相关性。Query-Class的方法近年来被一些学者研究,发表于2004年的国际多媒 体会议ACM匪的论文“自动视频检索中的查询类别权重学习”(R.Yan,J. Yang, and A. G. Hauptmann, Learning query-class dependent weights in automatic video retrieval, In Proceedings of the 12th ACM International Conference on Multimedia, 548-555,Oct. 2004.)将查询划分到预先定义好的类别,论文“多检索源 结合的概率隐性查询分析”(R. Yan and A. Hauptmann, Probabilistic latent query analysis for combining multiple retrieval sources, In Proceedings of the 29th Annual International ACM SIGIR Conference on Research Development Information Retrieval, 324-331, 2006.)则将查询划分到隐性类别,然后对于不同类别的查询分别学习 最优的融合参数,将跨媒体的查询转化为针对不同的query分类学习优化的融合参数,能 够有效地在学习成本和融合效果间达到有利的权衡。对查询分类有如下假设(1)查询(Query)可以被划分为少数的有限类别,对于同一类别的查询,具有相同 或者相似的跨媒体融合策略。例如,查询“Hu Jintao”和查询“Geroge W. Bush”都倾向于 使用命名实体识别、人脸识别等方法,而查询“日出”和查询“日落”则倾向于给基于颜色直 方图的查询方法更高的融合权重。(2)查询(Query)的文本描述或样例可以被用来决定该查询的类别归属。论文“视频搜索的动态多模态融合” (L. Xie, A. Natsev, and J. Tesic,Dynamic multimodal fusion in video search Int. Conf. Multimedia and Expo, 2007)使用了 动态分类的方法,通过将新的查询与已有分类进行比较,可以生成新的查询类别。在多模 态的文本检索领域,论文“查询难度估计应用到丢失内容检索和分布式信息检索”(E. Yom-Tov, S.Fine, D.Carme1, and A. Darlow, Learning to estimate query difficulty Including applications to missing content detection and distributed information retrieval, SIGIR,2005)使用Difficulty Prediction的方法将查询分为若干个文本关 键词的子查询,使用子查询之间返回结果的重叠数量以及文档频率来预测此子查询的重要 性,从而预测每个子查询的检索效果,并进行加权。在申请号为200610053390. 4,名称为“基于内容相关性的跨媒体检索方法”的中国专利申请中,提出一种基于内容相关性的跨媒体检索方法。该方法采用典型相关性分析,同 时分析不同模态媒体数据的内容特征;然后通过子空间映射算法,将图像数据的视觉特征 向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中。本发明与该方法的 不同点在本发明中,多媒体融合不仅仅是在特征层进行融合,还考虑到不同系统对查询响 应的性能,特征层融合不是通过子空间映射,而是通过聚类方法。在申请号为200610053392. 3,名称为“基于多模态信息融合分析的跨媒体检索方 法”的中国专利申请中,提出一种基于多模态信息融合分析的跨媒体检索方法。利用该方 法可以对多模态信息融合分析进行多媒体语义理解,通过提交任意模态的检索例子去检索 任意模态的媒体对象或者多媒体文档。本发明与该方法的不同点在本发明中,不仅可以通 过某一个模态查询检索到其他模态的文档,更侧重于利用不同模态的特征来改善检索的性 能。

发明内容
面对大规模的多媒体文档,如何利用文本、视觉等多种特征,在特征层和决策层进 行跨媒体融合,有效提高查询的准确性是跨媒体元搜索方法的新课题。为了克服现有技术 的不足,本发明提供了一种基于查询聚类和结果集交叠分析的二维跨媒体元搜索方法,其 中,簇是指对多媒体文档进行聚类(或分类)操作后的结果(Cluster,或类别);交叠是指 不同结果集之间的重叠;二维是指在本方法中从簇和交叠两个维度获取了融合权重。本发 明解决其技术问题所采用的技术方案是一种二维跨媒体元搜索方法,该方法基于查询聚类和结果集交叠分析,其包括1)预处理阶段对已有的部分查询数据进行标注,并将已标注的数据样本进行数 据聚类,将相似的数据样本聚类到同一个簇中,学习每个簇中来自不同子检索模型的检索 结果间的融合权重;2)查询分类阶段给定新的查询请求,首先确定该查询与每个簇的距离或相似 度,再计算该查询与每个簇的相关概率;3)检索执行阶段对该查询请求,使用至少2个子检索模型分别进行检索,并分别 获得相应的检索结果集;4)融合阶段首先对各子检索模型的结果集进行交叠分析,计算结果集交叠情况 下的融合权重;然后结合簇的融合权重和结果集的融合权重,获得对应于该查询请求的最 终融合策略,输出融合后的检索结果集。所述预处理阶段包括以下步骤(1)查询标注给定一个已有的部分查询数据集合,由用户对各子检索模型的检 索结果集中的数据样本进行正负例标注;(2)数据聚类利用特征对用户标注的数据样本进行无监督聚类,将相似的样本 聚类到同一个簇中,并记录每个样本对应的簇编号;所述数据聚类依据以下步骤进行用户提交查询请求,并在检索后标注出结果中满足查询要求的样本;选取全部或部分用户已标注的查询数据作为聚类的对象;提取聚类对象的跨媒体特征,包括文本特征以及颜色、纹理、形状和关键点等视觉特征;以及,用聚类方法将数据聚类为有限个簇。优选地,所述聚类方法采用多种聚类方法,可采用k均值聚类算法(K-means)、均 值漂移算法(Mean Shift)或概率潜在语义分析算法(pLSA)。所述权重学习方法依据用户的标注数据进行优化学习得到;所述融合权重依据子 检索模型的结果集交叠在全局或者局部特征的分布情况确定。(3)簇权重计算其使用统计学习方法为每个簇学习得到该簇中来自不同子检索 模型的检索结果间的融合权重。假设有查询集合β = ·^,‘_··,‘···,% ,其中Nq为查询的数 量,如果查询^的标注集合为y5={/(q3,x丨),χ, ex }e {0,1}, 1 为相关,0 为不相关其中,Xi e χ为针对查询☆各检索模型对文档i返回的值构成的m维向量,m为检 索模型个数。例如对于图像1051,使用文本检索查询“blue flower”的得分是0. 53,使用样 例比较出来的得分是0. 24,则该图像的得分向量可以表示为<0. 53,0. 24>。ya(qs,x,)e{0,1} 为根据输入查询和向量,文档被判定为相关或者不相关的结果。所述查询分类阶段包括以下步骤(1)利用已有方法提取输入查询的文本特征和视觉特征;(2)计算该查询与簇的相关概率,其计算方法包括但不限于计算该查询与簇中心 的距离或相似度、计算该查询与簇边缘的距离。所述检索执行阶段包括以下步骤(1)对输入查询进行分析,将查询分解为多个子查询并分别输入各子检索模型;(2)使用各子检索模型分别进行检索。所述融合阶段包括交叠权重计算和二维融合权重计算两个步骤(1)交叠权重计算首先定义一个结果集交叠集合,利用结果集在前N个位置的结 果集交叠情况,为每个子检索模型学习特定的权重;权重的确定方法包括但不限于利用交 叠文档数量衡量系统性能,N为自然数;(2) 二维融合权重计算二维融合模型对查询或样本的每一个簇以及结果集中不 同区段的文档都赋予特定的融合权重,即分别在两个维度进行融合其一,横向融合,针对每个簇进行融合,通过使用了跨媒体特征进行样本聚类和查 询分类,横向融合被看作是特征层的融合;其二,纵向融合,纵向融合被看作是结果层的融合,其利用结果集交叠进行融合, 采用基于局部交叠密度的融合方法进行纵向融合,得到基于结果集局部交叠密度的融合权重。所述二维权重的融合方式包括但不限于将横向和纵向的权重相乘;所述基于结果 集局部交叠密度的融合权重是指定义一个结果集交叠集合,设定一个移动的局部窗口,利用成员检索引擎结果集 在窗口内返回结果中交叠结果的比例确定成员检索引擎的权重。优选地,所述二维跨媒体元搜索方法还包括更新阶段当满足一定更新条件时,重 新收集查询数据并进行标注,通过学习来更新簇及相应的融合权重;具体包括以下步骤
(1)重新收集查询数据,用户对查询数据中的检索结果进行标注或反馈;(2)依据目标优化函数,合并或增加簇的数量。一种二维跨媒体元搜索系统,其包括(1)预处理模块其收集已有的部分多媒体查询数据并进行标注,然后进行数据 聚类并学习得到簇的融合权重,所述多媒体数据包含文本、图像、全景动画、在线视频多种 数据;(2)多媒体查询处理模块其负责对用户输入的查询请求进行分类处理并分解到 子检索引擎模块;(3)子检索引擎模块其使用至少2个检索模型对数据集进行检索,所述检索模型 包括且不限于基于向量空间模型的文本检索模型、基于TF-IDF模型的文本检索模型、基于 内容的图像检索模型、基于概念的图像检索模型、基于视音频特征的视频片段检索模型;(4)跨媒体融合模块对多个子检索引擎模块的检索结果进行融合,输出融合后 的检索结果集;(5)检索结果呈现模块呈现所述融合后的检索结果集,或者以对比方式同时呈 现各子检索引擎模块的检索结果和融合后的检索结果集;所述二维跨媒体元搜索系统各模块之间的联系如下所述预处理模块在系统运行前或在满足更新条件时,将所述簇的融合权重结果输 出到跨媒体融合模块中;多媒体查询处理模块对用户的查询请求进行处理并分发查询命令 到子检索引擎模块;子检索引擎模块接到查询命令后执行相应的检索操作,并将检索结果 发送到跨媒体融合模块;跨媒体融合模块依据预处理模块学习得到的各个簇的融合权重, 对多个子检索引擎模块的检索结果进行融合,并将融合后的检索结果集发送到检索结果呈 现模块;检索结果呈现模块对融合后的检索结果集进行呈现,或者以对比方式同时呈现各 子检索引擎模块的检索结果和融合后的检索结果集。本发明的有益效果本发明所提供的跨媒体元搜索方法在面对多媒体文档的特征 复杂和检索数据量巨大的问题时,能同时利用类似查询在特征上的相似性、在检索结果集 融合模式上的相似性、以及不同子检索模型的检索结果集交叠特性来有效改进检索性能。 表1是本发明的方法(表中用BiDimFusion来指代)与其他方法在WikipediaMM图像数据 集上的实验结果对比。其中,BordEuCombSum和RoundRobin是与目前公认较好的元搜索融 合方法,Cluster是基于聚类学习融合权重的方法,local-cbir-text是仅基于局部交叠密 度的跨媒体融合方法,text和cbir是指仅基于文本或图像内容的检索方法。表1列出了 本发明的方法与其他方法在WikipediaMM数据集上的实验结果对比,由表1可以看出相对 于其它方法,本发明所提供的方法可以在MAP、R-Prec, B-Pref上达到较好的结果;在排序 靠后的结果中,本发明所提供的方法要优于其他系统;相对于单一维度的融合方法,本发明 方法的性能优于仅基于聚类的方法或仅基于局部交叠密度的方法。表1 本发明的方法与其他方法在WikipediaMM数据集上的实验结果对比
权利要求
一种二维跨媒体元搜索方法,其特征在于,所述方法基于查询聚类和结果集交叠分析,包括1)预处理阶段对已有的部分查询数据进行标注,并将已标注的数据样本进行数据聚类,将相似的数据样本聚类到同一个簇中,学习每个簇中来自不同子检索模型的检索结果间的融合权重,得到簇的融合权重;2)查询分类阶段给定新的查询请求,首先确定该查询与每个簇的距离或相似度,再计算该查询与每个簇的相关概率;3)检索执行阶段对该查询请求,使用至少2个子检索模型分别进行检索,并分别获得相应的检索结果集;4)融合阶段首先对各子检索模型的检索结果集进行交叠分析,计算所述检索结果集交叠情况下的融合权重;然后结合所述簇的融合权重和所述检索结果集的融合权重,获得对应于该查询请求的最终融合策略,输出融合后的检索结果集。
2.根据权利要求1所述的一种二维跨媒体元搜索方法,其特征在于,所述预处理阶段 具体包括以下步骤(1)查询标注给定一个已有的部分查询数据集合,由用户对各子检索模型的检索结 果集中的数据样本进行正负例标注;(2)数据聚类利用特征对用户标注的数据样本进行无监督聚类,将相似的样本聚类 到同一个簇中,并记录每个样本对应的簇编号;(3)簇权重学习使用统计学习方法为每个簇学习得到该簇中来自不同子检索模型的 检索结果间的融合权重,进而得到簇的融合权重。
3.根据权利要求2所述的一种二维跨媒体元搜索方法,其特征在于,所述数据聚类依 据以下步骤进行用户提交查询请求,并在检索后标注出结果中满足查询要求的样本;选取全部或部分用户已标注的查询数据作为聚类的对象;提取聚类对象的跨媒体特征,包括文本特征和视觉特征,所述视觉特征包括颜色、纹 理、形状和/或关键点;以及,用聚类方法将数据聚类为有限个簇。
4.根据权利要求2所述的一种二维跨媒体元搜索方法,其特征在于,所述聚类方法 采用k均值聚类算法(K-means)、均值漂移算法(Mean Shift)或概率潜在语义分析算法 (PLSA);所述权重学习方法依据用户的标注数据进行优化学习得到;所述融合权重依据子 检索模型的结果集交叠在全局或者局部特征的分布情况确定。
5.根据权利要求1所述的一种二维跨媒体元搜索方法,其特征在于,所述查询分类阶 段具体包括以下步骤(1)利用已有方法提取输入查询的文本特征和视觉特征;(2)计算该查询与簇的相关概率,其计算方法包括但不限于计算该查询与簇中心的距 离或相似度、计算该查询与簇边缘的距离。
6.根据权利要求1所述的一种二维跨媒体元搜索方法,其特征在于,所述检索执行阶 段包括以下步骤(1)对输入查询进行分析,将查询分解为多个子查询并分别输入各子检索模型;(2)使用各子检索模型分别进行检索。
7.根据权利要求1所述的一种二维跨媒体元搜索方法,其特征在于,所述融合阶段包 括如下两个步骤(1)交叠权重计算首先定义一个结果集交叠集合,利用结果集在前N个位置的结果集 交叠情况,为每个子检索模型学习特定的权重;权重的确定方法包括但不限于利用交叠文 档数量衡量系统性能,N为自然数;(2)二维融合权重计算二维融合模型对查询或样本的每一个簇以及结果集中不同区 段的文档都赋予特定的融合权重,即分别在两个维度进行融合其一,横向融合,针对每个簇进行融合,通过使用跨媒体特征进行样本聚类和查询分 类,横向融合被看作是特征层的融合;其二,纵向融合,纵向融合被看作是结果层的融合,其利用结果集交叠进行融合,采用 基于局部交叠密度的融合方法进行纵向融合,得到基于结果集局部交叠密度的融合权重;所述二维融合权重的融合方式包括但不限于将所述横向融合和所述纵向融合的融合 权重相乘。
8.根据权利要求7所述的一种二维跨媒体元搜索方法,其特征在于,所述基于结果集 局部交叠密度的融合权重是指定义一个结果集交叠集合,设定一个移动的局部窗口,利用所述子检索模型结果集在 窗口内返回结果中交叠结果的比例确定子检索模型的权重。
9.根据权利要求1所述的一种二维跨媒体元搜索方法,其特征在于,还包括更新阶段 当满足一定更新条件时,重新收集查询数据并进行标注,通过学习来更新簇及相应的融合 权重;具体包括以下步骤(1)重新收集查询数据,用户对查询数据中的检索结果进行标注或反馈;(2)依据目标优化函数,合并或增加簇的数量。
10.一种二维跨媒体元搜索系统,其特征在于,包括(1)预处理模块其负责收集已有的部分多媒体查询数据并进行标注,然后进行数据 聚类和学习得到簇的融合权重,所述多媒体数据包含文本、图像、全景动画、在线视频多种 数据;(2)多媒体查询处理模块其负责对用户输入的查询请求进行分类处理并分解到子检 索引擎模块;(3)子检索引擎模块其使用至少2个检索模型对数据集进行检索,所述检索模型包括 且不限于基于向量空间模型的文本检索模型、基于TF-IDF模型的文本检索模型、基于内容 的图像检索模型、基于概念的图像检索模型、基于视音频特征的视频片段检索模型;(4)跨媒体融合模块对多个子检索引擎模块的检索结果进行融合,输出融合后的检 索结果集;(5)检索结果呈现模块负责呈现所述融合后的检索结果集,或者以对比方式同时呈 现各子检索引擎模块的检索结果和融合后的检索结果集;所述二维跨媒体元搜索系统各模块之间的联系如下所述预处理模块在系统运行前或在满足更新条件时,将所述簇的融合权重结果输出到 跨媒体融合模块中;多媒体查询处理模块对用户的查询请求进行处理并分发查询命令到子检索引擎模块;子检索引擎模块接到查询命令后执行相应的检索操作,并将检索结果发送 到跨媒体融合模块;跨媒体融合模块依据预处理模块学习得到的各个簇的融合权重,对多 个子检索引擎模块的检索结果进行融合,并将融合后的检索结果集发送到检索结果呈现模 块;检索结果呈现模块对融合后的检索结果集进行呈现,或者以对比方式同时呈现各子检 索引擎模块的检索结果和融合后的检索结果集。
全文摘要
一种二维跨媒体元搜索方法和系统,属于信息检索领域。本发明的元搜索方法基于查询聚类和结果集交叠分析,通过对不同的子检索模型提供的检索结果集进行合并、加权等融合操作,最终获得单一的检索结果集。该元搜索方法包括预处理阶段;查询分类阶段;检索执行阶段;融合阶段;以及,更新阶段。本发明所提供的跨媒体元搜索方法能同时利用类似查询在特征上的相似性、在检索结果融合模式上的相似性、以及不同子检索模型的检索结果集交叠特性等来有效改进检索性能,其检索性能优于单一维度的跨媒体搜索方法。
文档编号G06F17/30GK101996191SQ20091009090
公开日2011年3月30日 申请日期2009年8月14日 优先权日2009年8月14日
发明者周志, 田永鸿, 高文, 黄铁军 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1