基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法

文档序号:6386493阅读:151来源:国知局
专利名称:基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法
技术领域
本发明涉及社会媒体(social media)挖掘和跨媒体检索领域,特别涉及一种基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法。
背景技术
地标(landmark)是一个地区的标志性建筑。而由于其独特的物理、文化和历史特征,它们已经成为旅游者的热点景点。地标同时也是各种重大事件的发生地,这些历史事件可以加深对该地标文化价值和社会功能的理解,从而为旅游者提供相关的指导。互联网上图片的爆炸式增长导致了地标图片数量的迅速增加。有效利用历史事件挖掘这些地标图片,实现地标历史事件的可视化可以在城市挖掘、旅游推荐这些领域中发挥巨大的作用。目前在科研界中针对地标图片挖掘的方法主要集中在总结某一地理区域地标图片。利用图片共享网站的上下文信息,包括标签,标题和用户ID等从共享网站中挖掘地标图片,得到代表性的地标图片集。这些方法忽略了对时间信息的挖掘,因而无法提供与事件相关的地标图片。如果可以为用户提供每个地标在不同事件发生时的相关图片,这可以以图文并茂的方式给用户提供栩栩如生的地标历史,从而增强了用户浏览地标的体验。许多相关的地标介绍的网站以文本和图片的形式为用户提供了对地标相关历史事件的描述,以帮助用户更好的了解该地标,为他们的旅游提供指导。但他们普通存在以下问题(1)他们并不是为每个地标事件提供代表性的图片,即便一些事件提供了图片,但数量太少,缺乏多样性;(2)这些网站大都是人工编辑,而不是自动生成,费时费力。

发明内容
从社会媒体中挖掘出地标不同时刻发生的事件,利用这些事件挖掘相关的图片去实现历史事件的可视化,以图文并茂的方式为用户提供了一种以事件为单位的浏览地标的方式,通过这些栩栩如生的可视化事件加深用户对地标所特有的历史文化价值和社会功能的理解,同时可以让用户足不出户就可以在网上“周游世界”,为此本发明提出基于互联网跨媒体地标历史事件的挖掘与可视化。为实现上述目的,本发明提出了一种基于互联网跨媒体地标历史事件的提取与相关图片的搜索方法,其包括步骤S1:提取地标历史事件,包括从所述地标相关的事件标签集中提取历史事件或从文章中提取与所述地标相关的历史事件;步骤S2 :基于所提取的历史事件,搜索相关的事件图片,对所述相关事件图片进行重排序,以得到与所述历史事件相关的代表性图片集合。其中,步骤SI中所述从事件标签集提取历史事件包括步骤Sll :检测每个事件标签的突发性权重;步骤S12 :对突发性权重高的事件标签进行聚类,每个聚类为一个要提取的历史事件;其中,步骤S2具体包括步骤S21 :根据步骤SI中提取的事件提取关键词,利用所述关键词检索出初始化的图片排序结果;步骤S22 :通过相关图片和非相关图片的视觉模式的不同去掉非相关图片,增强事件相关图片的排序得分;步骤S23:以图片的多样性为约束对去掉非相关图片的图片排序结果进行重排序。本发明的有益效果本发明通过事件提取和基于事件的跨媒体图像检索,最终提出基于互联网跨媒体地标历史事件的挖掘与可视化技术;该发明解决了地标事件可视化问题,其中通过确定每个标签在时间上的最优时间间隔分割,大大提高了事件标签检测的质量,而最后对初始化的图片结果利用图片的相关性和多样性作为约束进行重排序建模,使得每个事件对应的图片集更具有代表性,从而提高了历史事件可视化的质量。


图1是本发明中基于互联网跨媒体地标历史事件的提取及相关图片的搜索方法流程图;图2是本发明中提取地标历史事件的方法流程图;图3是本发明中根据所提取的历史事件搜索相关图片的方法流程图;图4是根据本发明提出的基于历史事件的跨媒体历史事件的提取与相关事件图片的检索方法在地标“大本钟”下的历史事件的检索结果展示图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。如图1所示,本发明提出了一种基于互联网跨媒体地标的历史事件提取与相关事件图片的检索方法,其包含两个部分步骤S1:提取地标历史事件;步骤S2 :基于所提取的历史事件,搜索相关的事件图片。步骤SI具体如下实现图片分享网站的地标事件是大家所关注的热门事件,而有关地标介绍的文章中的事件则从历史的角度涵盖了地标更早期的事件,因此综合以上两个方面,地标相关的事件可以从图片分享网站的标签集合中或地标介绍网站的相关文章中提取。(一 )从图片分享网站的标签集合提取事件从事件标签集合中进行事件标签检测,如图2所示。步骤Sll :检测每个事件标签的突发性权重。首先利用事件标签在时间范围内出现的频率,对于每个事件标签从给定的时间间隔集合中选择所述时间范围内最优时间间隔,利用该最优时间间隔去分割所述事件标签对应的所述时间范围,然后利用年龄理论计算每个事件标签的突发性权重。所谓事件标签的峰值时间段是指以该时间段作为时间间隔的划分,峰值对应的时间段内的标签频率处于稳定状态如果所选的时间间隔大于该峰值时间段,则峰值对应的时间段内标签的频率不会再有太大变化,但如果所选的时间间隔小于该峰值时间段,则峰值对应的时间段内标签的频率会急剧减小。由于每个事件标签的峰值时间段的长度不同,如果对所有的事件标签所选择的最优时间间隔都是一致的,那么会导致某些事件标签在峰值时间段的频率相比于临近的时间段没有太大变化,进而导致突发性权重的降低而无法检测出该事件标签,为此本发明对每个事件标签寻找他们各自的最优时间间隔,这样会提高事件标签检测的准确度。由于当每个事件标签的时间间隔小于峰值时间段长度,标签的频率将会迅速降低;而事件标签的时间间隔大于峰值时间段长度时,标签的频率没有太大变化,因此本发明选择最优时间间隔为峰值时间段的长度。定义时间间隔集合S= {Sjl j = I,. . . , I j|},其中I j I是指时间间隔集合的数量,本发明的一个优选实施例中取S= {I, ... ,30},单位为天,定义第m个时间分割Im = <im,im+Sj>,m = 1,2,. . . , |m|,其中|m|是指划分的时间间隔的数量。定义当时间间隔为Sj时,第m个时间段Im中标签Ck的频率为F(ck,j, Im),简写为F(ck,j,m),则最优的时间间隔应该满足如下条件
权利要求
1.一种基于互联网跨媒体地标历史事件的提取与相关图片的搜索方法,其包括步骤S1:提取地标历史事件,包括从所述地标相关的事件标签集中提取历史事件或从文章中提取与所述地标相关的历史事件;步骤S2:基于所提取的历史事件,搜索相关的事件图片,对所述相关事件图片进行重排序,以得到与所述历史事件相关的代表性图片集合。
2.如权利要求1所述的方法,其特征在于,步骤SI中所述从事件标签集提取历史事件包括步骤Sll :检测每个事件标签的突发性权重;步骤S12 :对突发性权重高的事件标签进行聚类,每个聚类为一个要提取的历史事件。
3.如权利要求2所述的方法,其特征在于,利用每个事件标签在一时间范围内的频率, 确定每个事件标签在该时间范围内的最优时间间隔,并利用所述最优时间间隔对所述时间范围进行分割,然后计算每个事件标签的突发性权重;其中,所述每个事件标签对应的最优时间间隔为每个事件标签的峰值时间段的长度。
4.如权利要求3所述的方法,其特征在于,所述最优时间间隔满足如下条件其中,第m个时间分割
5.如权利要求2所述的方法,其特征在于,对于突发性权重高的事件标签通过计算事件标签之间的相似度进行聚类,获得相关事件标签集合,其中相似度如下计算
6.如权利要求5所述的方法,其特征在于,SI和S3分别如下计算其中,N(Ck)和N(Cq)分别表示含有事件标签Ck和c,的图片的数量,N(ck,Cq)表示同时含有事件标签Ck和c,的图片的数量和分别表示事件标签Ck和c,的突发性时间段。
7.如权利要求1所述的方法,其特征在于,步骤S2具体为步骤S21 :根据步骤SI中提取的事件提取关键词,利用所述关键词检索出初始化的图片排序结果;步骤S22:通过相关图片和非相关图片的视觉模式的不同去掉非相关图片,增强事件 相关图片的排序得分;步骤S23:以图片的多样性为约束对去掉非相关图片的图片排序结果进行重排序。
8.如权利要求7所述的方法,其特征在于,所述步骤S22中通过相关图片和非相关图片 的视觉模式的不同去掉非相关图片具体为通过下式获得二值向量c:
9.如权利要求7所述的方法,其特征在于,所述步骤S23中以图片的多样性为约束对去 掉非相关图片的图片排序结果进行重排序具体为建立重排序模型,如下所示
10.如权利要求9所述的方法,其特征在于,所述相关性得分r(Pp从下式获得
11.如权利要求9所述的方法,其特征在于,所述多样性得分Div(Pp从下式获得 /)/,;(/; ) = min(l-,v(/ ,,/;))。
全文摘要
本发明提出了一种基于互联网跨媒体地标历史事件的提取与图片检索方法。该方法包括历史事件提取和基于历史事件的跨媒体图片检索两部分。事件分别从图片分享网站的标签集合和相关地标介绍网站的文章中进行提取。其中从标签集合中提取事件利用每个标签在时间上的频率选取它们在该时间范围内的最优划分间隔,然后通过年龄理论得到每个标签的突发性权重;对突发性权重高的标签进行事件标签聚类,每个聚类构成一个事件。基于事件的跨媒体图像检索通过时间约束,利用事件的关键词检索图片集,得到初始化的图片排序结果,然后利用相关图片和非相关图片的视觉模式的不同进行建模,去掉检索结果中非相关的图片,最终利用图片的相关性和多样性作为约束,建立重排序模型,为每个事件找到相应的代表性的图片集合,实现地标历史事件的可视化。
文档编号G06F17/30GK103020303SQ20121059295
公开日2013年4月3日 申请日期2012年12月31日 优先权日2012年12月31日
发明者徐常胜, 闵巍庆, 鲍秉坤 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1