一种结合跨媒体融合的信息摘要提取方法

文档序号:8361595阅读:321来源:国知局
一种结合跨媒体融合的信息摘要提取方法
【技术领域】
[0001] 本发明涉及一种结合跨媒体融合的信息摘要提取方法,属于信息提取领域。
【背景技术】
[0002] 我们生活在一个信息时代,海量信息扩增,互联网每天在新增大量的信息,而信息 的存储方式日渐多样化,文本、图像、音频、视频是多媒体资源的基本存在形式。如今多种类 型媒体数据混合并存,媒体数据组织结构复杂,但不同类型的媒体数据从不同侧面表达同 一语义,信息提取中需要根据媒体之间存在的各种联系,从一种媒体跨越到另一种媒体。因 此,如何跨越媒体之间的界限,如何提取多种媒体之间的潜在关联性,成为目前信息提取所 面临的挑战。
[0003] 对于多种媒体形式混合并存的大数据,现有方法主要是通过同一种媒体的特征辨 识来实现的,难以跨越多媒体之间的语义鸿沟,例如图像的视觉特征与音频的听觉特征之 间的特征维数不同而无法直接度量他们之间的相似性,因此,现有信息提取方法不能很好 为用户提供直观缩略图(或信息摘要),如何将混合的大量多媒体数据分类与提取,成为信 息提取亟需解决的关键技术难题之一,也是目前所研究的热门课题。
[0004] 现有的成熟文本挖掘技术、图像特征提取算法、音频场景识别、语音识别、视频场 景分割、关键帧提取等方法可以提取单一媒体的语义信息,如何将这些算法加以结合,将不 同维数的特征信息提取,形成处理多媒体的信息提取系统,我们通过图像这一中间维数的 媒体来解决此问题。

【发明内容】

[0005] 针对上述问题,本发明提出一种结合跨媒体融合的信息摘要提取方法。通过采用 将异维数据同维化为图像的方法,解决了难以跨越多媒体语义鸿沟的问题。通过图像聚类 方法,从而间接的将多媒体数据分类和提取,生成跨媒体信息摘要。
[0006] 本发明提出了一种结合跨媒体融合的信息摘要提取方法。首先将输入的多媒体数 据(文字、图像、音频、视频等)按数据类型将其分类;再将异维多媒体数据同维化并建立数 据的文本标签,获得同维图像和文本标签;然后将同维图像数据聚类并进行文本标签的关 联性检验;再分类别融合若干张同维图像为一副图像;最后生成跨媒体信息摘要。用户通 过信息摘要可查看每类信息的融合图像,并可快速访问对应的多媒体数据。
[0007] 本发明提出一种结合跨媒体融合的信息摘要提取方法,包括以下步骤: 步骤一:将输入的多媒体数据中(文字、图像、音频、视频)按数据类型分类为原始文本 数据,rt),原始图像数据pfe,P2,P3,....Pp),原始音频数据对4,4為,,原始 视频数据; 步骤二:设置图像数据维数(图像像素)标准值,建立带有文本标签的同维图像样本库, 进行异维多媒体数据同维化处理,根据数据类型的不同采用相对应的处理方法; 步骤三:对已处理的同维图像数据,根据聚类所需要的准确度确定阈值JV,按照图 像聚类算法进行聚类,根据每类数据的文本标签进行文本标签关联性检验,将不满足 条件的数据再次聚类,直到不满足条件的数据数量小于阈值iV,可得m类同维图像数据 CHCsCrJ的地址,即索引…IfrJ; 步骤四:对已聚类的同维图像数据,按照一种融合规则,进行融合,从而得到每一类同 维图像数据的融合图像JrcFe2,Fc3,}; 步骤五:根据每一类同维图像数据的融合图像以及索引,生成信息摘要。
[0008] 与现有方法相比,本发明的优势在于: 1、 将异维的多媒体数据语义用同维图像数据表达,跨越了多种媒体之间的界限,并运 用图像处理的相关算法处理多媒体数据; 2、 图像聚类方法与文本标签关联性检验相结合,保证了分类的准确性和数据之间的 强关联性。
【附图说明】
[0009] 图1是本发明的流程图; 图2是本发明中异维数据同维化方法流程图; 图3是本发明中同维图像数据聚类与文本标签关联性检验示意图。
[0010] 具体实施方法 下面结合附图和【具体实施方式】对本发明进一步详细描述: 步骤一:将输入的多媒体数据中(文字、图像、音频、视频)按数据类型分类为原始文本 数据|'{1'1,1'2,1;,...,1;),原始图像数据1?丨1^ 2,?3,....??;丨,原始音频数据1{4,4為.....,為1},原始 视频数据nm.jg。
[0011]步骤二:参见图2,设置图像数据维数(图像像素)标准值,建立带有文本标签的同 维图像样本库,进行异维多媒体数据同维化处理,根据数据类型的不同的采用相对应的处 理方法; 现有分类结果为t组原始文本数据、]P组原始图像数据、Q组原始音频数据、V组原始视 频数据,将t组原始文本数据《1;,1'2,1...,1;)处理为同维图像数据1^1^^,^,~^},将 P组原始图像数据Pfe,,Ps.....PfJ处理为同维图像数据FpO7pi,匕:,Ffi3,…Fpj,将fl组原始 音频数据44為為…处理为同维图像数据….,4J,将Is组原始视频数据 nm,.,jg处理为同维图像数据详细步骤如下; 1)将原始文本数据Hri,U.,...,J;)处理为同维图像数据Uts.,?}的过程和 相关操作; a) 预处理,利用某种文本挖掘技术(如基于语义理解的文本挖掘),将原始文本数据 1"(1;.^,....1;)中每组文本信息段落的关键词提取为标签4{1^1^1^..,,1^} ; b) 将T组文本数据根据标签关键词和样本库对应到同维图像数据6{FK,FK,FfS, ,其中,一组文本可对应多个标签以及同维图像数据,如rs对应的样本图像可表示为 ftn -Vtm ?^tns??**}〇
[0012] 2)将原始图像数据POLP2J3,.,.,Pj处理为同维图像数据以Fpi,Fpp丨的过 程和相关操作; a) 预处理原始图像数据HPi,p2,ps.,...Pp),利用相关算法增强关键特征(如剔除背景区 域),得到处理后的图像pf[pws-py; b) 对于图像利用某种图像缩放技术(如双三次插值与小波逆向插 值)缩放为同维图像数据FpOrpi為2,Fps., (与样本库同维); C)将同维图像数据F51J采用某种识别方法(如基于视觉信息的图像特 征提取算法)与样本库比对,获得图像的文本标签,结果存放于。
[0013] 3)将原始音频数据i!C4為為,..JJ处理为同维图像数据IUFfli,fa2,Fa3,fM)的 过程和相关操作; a)预处理原始音频数据J2..馬利用相关算法提取音频场景(如基于概率潜 在语义分析的音频场景识别方法),语言语义(如基于神经网络的语音识别)等关键特征,得 至|』提取的文本标签40:£^'2,1^,.~込£1:1 ; b)对于提取的文本标签ia{Ic42,乙文本标签与样本库对应,得到同维图像 数据以心.,4忑3,....4},其中,同组音频可对应多个标签以及同维图像数据,如4对应的 多个样本图像可表示为fas =CFani,Fem^Fttfl3, ..J。
[0014] 4)将原始视频数据Hm.…w处理为同维图像数据wm..,,U的过 程和相关操作; a) 预处理原始视频数据利用某一场景分割算法(如基于语义的视频 场景分割算法),对于每一视频14,得到分割场景后/个视频片段.3?}; b) 对于的每个视频片段%,采用某一关键帧提取方法(如基于聚类算法的多 特征融合关键帧提取),获得关键帧图像5?,每一视频的关键帧图像的集合记为 c) 对于关键帧图像SnSt5^,5Fs_,5lQ,利用相关算法增强关键特征(如剔除背景区 域); d) 对已处理的图像利用某种图像缩放技术(如双三次插值与小波逆向插值)缩放为同 维图像数据ium,...,iu(与样本库同维); e) 将同维图像数据ium,,.,,采用某种识别方法与样本库比对,获得图像的 文本标签,结果存放于U。
[0015]步骤三:参见图3,对已处理的同维图像数据,根据聚类所需要的准确度确定阈值Jf,按照某种图像聚类算法进行聚类(如基于遗传算法的图像聚类),根据每类数据的文本标 签进行文本标签关联性检验,将不满足条件的数据再次聚类,直到不满足条件的数据数量 小于阈值JV,可得索引
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1