一种基于地理信息的层次化视觉特征提取方法

文档序号:6636349阅读:275来源:国知局
一种基于地理信息的层次化视觉特征提取方法
【专利摘要】本发明公开了一种基于地理信息的层次化视觉特征提取方法。包括如下步骤:1)编写爬虫程序下载照片分享网站中的图像及其地理信息;2)利用图像词袋模型表达图像特征;3) 结合地理信息,应用半监督主题建模方法将图像视觉单词按照视觉主题的形式组织起来;4) 挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理位置进行描述的视觉特征;5)利用获取的层次化视觉特征,对图像进行聚类、分类和检索。本发明结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具有代表性的视觉主题,并将地理信息引入主题建模过程中,学习得到一个层次化视觉主题模型,将图像表示成多个视觉主题上的分布,据此获得了更具有语义表达能力的层次化视觉特征。
【专利说明】一种基于地理信息的层次化视觉特征提取方法

【技术领域】
[0001] 本发明涉及图像特征提取和层次化主题建模,尤其涉及一种基于地理信息的层次 化视觉特征提取方法。

【背景技术】
[0002] 近年来,随着互联网、电信网和移动智能终端的飞速发展,越来越多的图像分享网 站涌现出来,从世界各地拍摄的照片正以每天上亿的数量被上传到互联网上。飞速增长的 图像数据除了给互联网用户足不出户游览环球的体验和为图像分析应用提供了更多的样 本以外,也带来了如何对大规模数据进行自动图像聚类和分类的挑战。为了应对这一挑战, 许多研宄把重点放在了如何从图像中提取最具有代表性和区分性,并且能够体现图像语义 信息的图像特征上。早期的工作主要集中在对图像浅层特征的应用上,例如图像的颜色和 纹理特征。这一类特征能够较好地反映图像在像素级别上的特性,但是难以表达图像的高 层语义。随着图像词袋模型的发展,逐渐有研宄人员开始将主题建模的方法应用到图像特 征提取中,以提高图像特征的语义表达能力。
[0003] LDA(隐狄利克雷分配)是一种应用广泛的传统主题模型,从2003年被提出直至今 日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘要、跨数 据集建模和文档主题演化追踪等多种问题和挑战,并且在实际使用中发挥了良好的效果。 和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加 了一个隐含的主题层,并认为文档是包含有一个或多个主题,而每个主题又是不同比例词 的组合。新增加的主题这一隐含层能使用户更好地理解一篇文档所涵盖的内容,而且在应 用处理海量数据时起到了降维的效果。主题模型最初被用于处理文本数据,新闻报道和科 学论文等;由于图像数据和文本数据具有某种程度上的同质性,因此在将图像中的特征点 处理为视觉单词后,也可以使用主题建模方法对图像数据进行归纳整合,主题模型及以其 作为核心算法的各类应用也因此具有处理多种模态数据的能力。
[0004] LDA等经典主题模型的一个核心假设是对文档的词袋模型表达。词袋模型假设每 篇文档中词与词之间没有关联,并且相互之间的位置可互换。该假设在数学上易于推导,为 主题模型带来了计算上的方便和处理数据时的快捷。通过将相似的视觉特征聚类成视觉单 词,并将图像表达成视觉单词的集合,从而获得了图像的降维稀疏表达,能够很好地表达图 像在视觉空间上的特性。然而,因为视觉单词的尺度过小,难以表达图像的高层语义,并且 因为没有引入监督信息,得到的视觉主题往往比较隐晦,难以和现实中的语义形成对应关 系。
[0005] 作为对传统主题建模方法的改进,一些研宄人员提出了层次化的主题模型,如层 次化主题建模(hLDA)等。这一类方法虽然通过层次化的主题结构得到了文档和图像在不 同粒度上的表达,但由于依然是非监督的方法,得到的主题难以和现实语义形成对应。还有 一些研宄人员提出了有监督的主题模型,如有监督主题建模(SupervisedLDA)等,这一类 方法则未能解决多尺度多粒度表达的问题,同时这一类模型的训练需要大量人工标注的数 据,给模型训练带来了困难。因此,根据少量的标注数据和图像本身的特征,对主题模型施 加内容和结构上的限制,从而使整体算法能够更加适应现实需求是图像特征提取与主题建 模领域研宄的重要方向。


【发明内容】

[0006] 本发明的目的是克服现有技术的不足,提供一种基于地理信息的层次化视觉特征 提取方法。
[0007] 一种基于地理信息的层次化视觉特征提取方法包括如下步骤:
[0008] 1)编写爬虫程序下载照片分享网站中的图像及其地理信息;
[0009] 2)利用图像词袋模型表达图像特征;
[0010] 3)结合地理信息,结合层次化主题建模和半监督学习,将图像高维视觉单词凝练 成具有代表性的视觉主题,并挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定 地理位置进行描述的视觉特征;
[0011] 4)利用获取的层次化视觉特征,对图像进行聚类、分类和检索。
[0012] 所述的步骤1)包括:
[0013] (1)编写爬虫程序,根据预定义的地点列表,从Flickr、Panoramio等照片分享网 站上自动下栽在指宙地点柏摄的照片,构成图像集合
[0014]

【权利要求】
1. 一种基于地理信息的层次化视觉特征提取方法,其特征在于包括如下步骤: 1) 编写爬虫程序下载照片分享网站中的图像及其地理信息; 2) 利用图像词袋模型表达图像特征; 3) 结合地理信息,结合层次化主题建模和半监督学习,将图像高维视觉单词凝练成具 有代表性的视觉主题,并挖掘视觉主题的层次化特性,获取在不同尺度和侧面对特定地理 位置进行描述的视觉特征; 4) 利用获取的层次化视觉特征,对图像进行聚类、分类和检索。
2. 根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于 所述的步骤1)包括: (1) 编写爬虫程序,根据预定义的地点列表,从Flickr、Panoramio等照片分享网站上 自动下载在指定地点拍摄的照片,构成图像集合
其中Nm是在第m个地点拍摄的照片总数。 (2) 下载图像集合IMAGE中每个图像所在的网页,利用页面解析程序对每个网页进行 解析,去除HTML标记和标点符号后,保留页面上的GPS信息和地理相关的标签作为图像的 地理信息。
3. 根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于 所述的步骤2)包括: (1)对图像集合IMAGE中的每个图像i,提取尺度不变特征转换特征,最终对每个图像 计算得到128维的SIFT特征描述算子:
⑵对图像集合IMAGE中的每个图像i,选取8X8的滑动窗口大小,提取梯度直方图特 征,最终对每个图像计算得到m维的HOG特征描述算子,其中m的大小根据图像本身的大小 而变化:
(3) 将图像集合IMAGE中的每个图像i对应的SIFT特征描述算子SIFTi放入如下公式 进行优化问题求解:
其中I|w|L表示w向量的1-范数,C是一个预定义的常数,A是稀疏惩罚项系数,w 向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x 向量即是SIFT特征在词袋模型上的表达,记为:
其中BSi是图像i的SIFT特征,N是图像总数。 (4) 将图像集合IMAGE中的每个图像i对应的HOG特征描述算子11(^放入如下公式进 行优化问题求解:
其中I|w|li表示w向量的1-范数,C是一个预定义的常数,A是稀疏惩罚项系数,W向量和x向量是优化问题求解的目标,n是图像特征的总个数。根据此优化问题求解出的x 向量即是HOG特征在词袋模型上的表达,记为:
其中BHi是图像i的HOG特征,N是图像总数。
4. 根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于 所述的步骤3)包括: (1)由系统自动设定,或者由用户指定Dirichlet分布的参数a和|3,以及Beta分布 的参数y,并且设定好迭代次数、收敛条件等参数。 (2) 初始化层次化主题树T (3) 利用如下公式对图像d中的第n个视觉单词的主题zd,n?行采样:
其中Zd,n,Zd_n,C,W,a,0都是LDA模型的变量,k表示第k个主题。 (4) 利用如下公式对图像d所在主题树T上的路径Cd进行采样:
其中Cd,W,C_d,Z,0,〇,y,€%都是LDA模型的变量,k表示第k个主题。 (5) 完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1。 (6) 算法满足收敛条件后,输出所有的视觉单词主题、图像中视觉单词的主题分布以及 层次化主题树。
5. 根据权利要求1所述的一种基于地理信息的层次化视觉特征提取方法,其特征在于 所述的步骤4)包括: (1) 在得到层次化视觉特征后,利用如下公式判断每张图像拍摄的地点:
其中topicT代表某一特定的地点主题,P(topicT)代表该图像属于该地点主题topicT 的概率。根据该公式,P(topicT)正比于图像中每个视觉单词wordi属于地点主题topicja 概率的乘积,即图像所属地点主题的概率由图像内部视觉单词的所属地点主题的概率所确 定。 (2) 利用每张图像的P(topicT),得到每张图像基于地理位置的表示,如下:
即每张图像由它属于各地点主题的概率所表示。 (3)利用图像基于地理位置的表示Image作为图像的一种基本特征,进而对图像进行 聚类、分类和检索。
【文档编号】G06F17/30GK104484347SQ201410706281
【公开日】2015年4月1日 申请日期:2014年11月28日 优先权日:2014年11月28日
【发明者】汤斯亮, 吴飞, 李子健, 邵健, 鲁伟明, 庄越挺 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1