一种基于区域潜在语义特征的自然场景图像分类方法

文档序号:6459039阅读:215来源:国知局
专利名称:一种基于区域潜在语义特征的自然场景图像分类方法
技术领域
本发明涉及多媒体信息处理技术领域里关于图像分类的方法,尤其是一种通过提取 图像的区域潜在语义特征来实现对自然场景图像进行分类的方法,是一种综合考虑了图 像区域所包含的信息以及这些区域信息在图像的空间分布来进行自然场景图像分类的方 法。
背景技术
互联网的快速发展、信息存储与传输技术的发展以及数码设备的普及带来图像数据 的爆炸性增长,这就对如何进行大量图像数据的检索与狡U览提出了新的技术挑战。面对 数量如此巨大的图像数据,传统的依靠人工来对图像进行分类的管理方式因为需要耗费 大量的人力资源而变得不可行。因此,如何利用计算机将图像自动分类到一些预定义的 类别中就成为其中的一个关键问题。由于自然场景图像在人们的曰常生活中十分常见, 数量也十分巨大,因此对于自然场景图像的分类问题的研究就成为了当前计算机视觉和 多媒体信息管理领域的一个热点问题。
传统的自然场景图像分类方法通常使用色彩、纹理和形状等图像底层物理特征来直 接与各种分类方法相结合,从而实现对图像的分类。采用底层物理特征的一个主要问题 在于底层物理特征往往只反映图像在物理感知层次上的特点,而不是人们所关注的认知 层面的内容。近年来,为了克服底层物理特征与人类认知语义之间的鸿沟,使用中间语 义特征来对自然场景建模的方法得到了广泛的关注。Oliva和Torralba使用一组视觉感知 属性来描述场景的主要空间结构,他们定义了自然度、宽阔度、粗糙度、伸展度和险峻 度等视觉感知属性,通过分析底层特征来得到这些视觉感知属性。Vogel等人则首先将局 部图像区域分类到一些预定义的语义概念中,然后根据这些语义概念在图像中出现的频率来描述图像。但在这些方法中,为了得到预定义的语义概念模型,往往需要大量的人 工标注样本。为了减少生成中间语义所需的人工标注工作, 一些采用文本主题模型的方 法被用于图像场景分类,这些方法主要以Lifeifei、 Quelhas以及Bosch提出的方法为代 表。这些方法通常先提取图像中的尺度不变特征(Scale Invariant Feature Transform , SIFT),然后将图像的SIFT特征通过聚类生成一个视觉词汇表来表示聚类中心。在生成 了视觉词汇表后将图像中的SIFT特征映射成一个个的视觉词汇,从而釆用文本中最常见 的词袋特征(Bag of Word, BOW)来表示图像,最后应用文本分类中的概率潜在语义分 析方法(Probabilistic Latent Semantic Analysis, PLSA)和潜在Dirichlet分析方法(Latent Dirichlet Analysis, LDA)等主题分析方法来找出图像最可能属于的主题或者潜在语义, 从而完成图像的场景分类。这类方法能够很大地减少对人工标注的需求,但是它们通常 是根据图像中视觉词汇出现的总体情况来进行场景分类,它们既没有考虑视觉词汇在空 间的分布特点,也无法利用图像中区域语义构成的上下文信息来进行场景分类,因此在 图像视觉词汇总体分布规律不显著的情况下往往不能得到好的分类结果。

发明内容
本发明要解决的技术问题是如何综合利用图像区域所包含的潜在语义信息和这些区 域包含的潜在语义信息在空间的分布规律来进行自然场景图像分类。本发明提供一种基 于区域潜在语义特征的自然场景图像分类方法,首先通过对图像进行空间金字塔分块来 生成图像区域,然后使用概率潜在语义分析方法来得到区域潜在语义特征(即每个分块 区域包含每一个潜在语义的概率值),最后利用区域潜在语义特征来构建相应的分类器模 型,从而将自然场景图像自动分类到预定义的类别。本发明通过综合利用图像的区域语 义信息和区域信息在图像上的空间分布情况,提高了分类的准确性和智能性,减少了人 工参与的程度,能够满足图像管理和检索的需求。
本发明的技术方案如下第一步,建立自然场景图像分类代表集。方法是
1.1、 根据使用需要定义N个自然场景图像类别,类别编号为1 N, N为自然数。
1.2、 对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表。
1.3、 将所有N类的自然场景图像分类代表作为自然场景图像分类代表集。 第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征提取,生成通用
视觉词汇表。方法是:
2.1、 对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样, 得到每幅图像的网格采样点SP,方法是对输入图像Ig按MxM像素大小的网格进行采 样,其中M为2的整数次幂,建议M取8或16;
2.2、 对每幅图像的每一个网格采样点SP,采用SIFT特征提取方法提取SIFT特征 在采样点SP周围PxP (P为自然数,取值范围为8-20,建议P取16)像素大小的区域上 计算梯度方向直方图得到SIFT特征,该SIFT特征是一个128维向量;
2.3、 使用《均值聚类方法对自然场景图像分类代表集上的所有网格采样点的SIFT 特征进行聚类,每个聚类中心的取值对应一个视觉词汇,保存这《个聚类中心的取值和 其对应的视觉词汇编号即构成通用视觉词汇表。/C为自然数, 一般取值为500-1000,建 议〖取为800。
第三步,对自然场景图像分类代表集中的每幅图像进行视觉词汇映射、空间金字塔 分块以提取每个金字塔分块区域的BOW描述,并在自然场景图像分类代表集中所有图 像分块的集合上应用PLSA分析方法生成图像区域潜在语义模型(即潜在语义出现时的 视觉词汇出现的后验概率),具体包括以下步骤
3.1、对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法将采样点的 SIFT特征映射到对应的视觉词汇计算图像Ig中每个网格采样点的SIFT特征与通用视 觉词汇表中的每个视觉词汇所对应特征值之间的欧式距离,找出欧式距离最小的视觉词汇的编号来表示网格采样点,将相应采样点的SIFT特征映射到对应的视觉词汇;
3.2、 对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行Z (1S丄S4)层空间金字塔分块给定任意图像Ig和分层数L,分别在丄个层次上对图
像进行均匀分块,其中第/ U^/S丄)层的图像分块是对图像进行2"x2"'的均匀分块, 这样对一幅图像进行£层空间金字塔分块一共可以得到0 = (^-1)/3个大小和空间位置 各不相同的图像区域。例如采用3层空间金子塔分块, 一幅图像通过3层空间金字塔分 块可以得到21个不同大小和不同空间位置的图像区域。
3.3、 对3.2中得到的每个图像分块区域分别采用BOW (Bag of Word, BOW)描述 生成方法来生成构建分块的词袋描述,即对任意自然场景代表图像Ig上的一个图像分块 区域和Ig上所有的网格采样点及其对应的视觉词汇构建出该分块区域的BOW描述,具 体方法如下
3.3.1根据图像Ig上的所有网格采样点和分块区域大小,找出所有包含在分块区域 中的网格采样点;
3.3.2根据图像分块区域中包含的网格采样点及其对应的视觉词汇,统计视觉词汇表 中每个视觉词汇在图像区域中出现的次数。
3.3.2用向量[,,…,y;,…,人]表示图像区域的bow描述,力表示视觉词汇表中第;t个
视觉词汇在图像区域中出现的次数,1SA《《,《为第二步中生成的通用视觉词汇表的 大小。
3.4、 对自然场景图像分类代表集中所有图像的分块区域所对应的分块BOW描述集 合进行PLSA分析,生成区域潜在语义模型。方法是
自然场景图像分类代表集的所有图像的分块区域集合一共有/个区域,将其中每个 图像区域看作一个单独的文档,第/个图像区域用^;来表示;将第二步中生成的通用视觉 词汇看作文档中的词汇, 一共有《个视觉词汇,第A个视觉词汇用V4来表示;图像所有区域包含的潜在语义的数目为s个(s —般取20-80),第s个潜在语义用z,来表示,且 "(th)表示第it个视觉词汇h在第/个区域/;中出现的次数。生成基于plsa的区域潜在 语义模型的方法如下
在plsa方法中,假设"文档一词"之间是条件独立的,并且潜在语义在文档或词上 分布也是条件独立的。
首先使用下式来表示"文档一词"的条件概率-<formula>formula see original document page 10</formula>) (1)
尸(vjz、.)为潜在语义z、.出现时的视觉词汇^的后验概率,它描述了视觉词汇^对潜 在语义a的贡献度,所有的户(XI&)值就构成了区域潜在语义模型。户(z,^)表示图像 区域r,中包含潜在语义^的后验概率,它描述了图像区域^;中具有相应潜在语义z,的概
率。p(o是图像区域^出现的概率。
然后根据极大似然估计原则,通过概率潜在语义分析,求取如下对数似然函数的极
大值来计算plsa的p(h I z、)以生成区域潜在语义模型<formula>formula see original document page 10</formula> (2)
在有隐含变量的模型中,极大似然估计的标准过程是期望最大(em)算法。 因此采用em算法对尸(n I 、)进行极大似然估计,em算法交替于两个步骤(e步和 m步)直至收敛
3.4.1、在e步,利用当前估计的参数值来计算区域a;中包含视觉词汇、时潜在语义^ 出现的后验概率尸(z, i /;,vj ,其中/>(ZJ为潜在语义^出现的概率<formula>formula see original document page 10</formula>3.4.2、在M步,利用上一步的期望值尸(z,k,v》来最大化当前的参数估计:
<formula>formula see original document page 11</formula>(6)
在分块BOW描述集合上循环E步和M步,迭代公式(3) (4) (5) (6)直到收敛, 收敛条件为迭代次数大于300或者连续两次迭代得到的户(z.、. I /;,^)差值小于0.001,得到 所有P(^U,)。
第四步,对任意一幅图像提取图像区域潜在语义特征,方法是
4.1、 采用2.1所述的网格采样方法对图像进行网格采样,然后采用2.2所述的SIFT 特征提取方法提取出每个采样点的SIFT特征;
4.2、 对于该图像采用第三步所述视觉词汇映射、空间金字塔分块和BOW描述生成 方法来生成每个金字塔分块区域的BOW描述;
4.3、 对于图像的所有图像分块区域,利用第三步得到的图像分块区域潜在语义模型 P(vJ^),用EM算法迭代公式(3) (5) (6)直至收敛,得到每个图像分块区域^具有 潜在语义z,的概率P(^k,)。
4.4、 构建图像区域潜在语义特征,方法是
对一幅图像进行L层空间金字塔分块得到的区域数为2-(41-1)/3个,而潜在语义的个数为S,因此,对于每一个分块区域r,可以得到一个S维的特征向量<formula>formula see original document page 12</formula>]。 由于区域的潜在语义在空间上的分布也有助于图像场景分类,因此,将图像所有分块区 域的S维特征向量连接起来就构成了图像的区域潜在语义特征,其形式为 陶I & 應k),- 《% I 。
第五步,将自然场景图像分类代表集中每幅图像的区域潜在语义特征和该图像对应 的类别编号作为代表数据,运用支持向量机SVM (Support Vector Machine)算法生成自 然场景分类模型。
第六步,根据自然场景分类模型对图像的区域潜在语义特征进行分类。方法是 将第四步提取出的任意图像的区域潜在语义特征提交给自然场景分类模型,在模型
中比较该区域潜在语义特征与模型中各个类别特征的距离,距离最小的类别就是最终的
图像场景类别。
采用本发明图像场景分类方法可以达到以下技术效果-
1、 和Feifei、 Quelhas以及Bosch等人提出的场景分类方法相比,本发明通过在第四 步引入区域潜在语义特征,不仅描述了图像分块的区域信息而且还包含图像分块在空间 的分布信息,因此相比于其他三类方法能得到更高的准确率。
2、 Vogel等人的方法既需要对图像区域进行标注,也需要对整个图像标注来完成图 像的场景分类,而本发明只需要一次指定一组预定义类别的图像(即自然场景分类代表 集)就可以自动生成通用视觉词汇表、区域潜在语义模型和场景分类模型,不需要人工 标注,自动化程度高。


图1为本发明基于区域潜在语义特征的自然场景图像分类方法的流程图。
图2为本发明第二步生成通用视觉词汇表的流程图。
图3为本发明第三步生成图像区域潜在语义模型的流程图。图4为本发明第四步提取图像区域潜在语义特征的流程图。图5为本发明示例中所采用国际标准场景图像类别库中的样例图像。图6为在图5所示国际标准场景图像库中采用本发明进行场景分类的准确率示意图。图7为采用本发明进行场景分类与其它方法的性能比较。
具体实施方式
图1为本发明基于区域潜在语义特征的自然场景图像分类方法的流程图,具体步骤包括第一步,建立自然场景图像分类代表集;第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征提取,生成通 用视觉词汇表;第三步,在自然场景图像分类代表集上生成图像区域潜在语义模型; 第四步,对任意图像提取图像区域潜在语义特征;第五步,将自然场景图像分类代表集中每幅图像的区域潜在语义特征和该图像对应 的类别编号作为代表数据,运用支持向量机SVM算法生成自然场景分类模型;第六步,对任意一幅图像根据图像区域潜在语义特征和自然场景分类模型进行分 类,得到该幅图像所属的类别。图2为本发明第二步生成通用视觉词汇表的流程图。具体步骤包括2.1、 对于自然场景图像分类代表集中的每幅图像采用网格采样方法得到釆样点;2.2、 对图像的每一个网格采样点SP,采用SIFT特征提取方法得到每个网格采样点 的SIFT特征;2.3,对所有提取的SIFT特征进行K均值聚类得到通用视觉词汇表。图3为本发明第三步生成图像区域潜在语义模型的流程图。具体步骤包括3.1,对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法对每个采样点 进行视觉词汇映射;3.2,对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行Z (1SK4)层空间金字塔分块,得到图像区域集合;3.3,对每个图像区域分别采用BOW描述生成方法得到其词袋描述; 3.4,对自然场景图像分类代表集中所有图像的分块区域的BOW描述集合进行 PLSA分析,生成区域潜在语义模型。图4为本发明第四步提取任意图像区域潜在语义的流程图。具体步骤包括 4.1,采用网格采样和SIFT特征提取方法来生成图像的网格采样点及每个采样点的 SIFT特征;4.2,采用视觉词汇映射、空间金字塔分块和BOW描述生成方法来得到图像的每个 金字塔分块的BOW描述;4.3,对于图像的所有图像分块区域,利用第三步得到的图像分块区域潜在语义模型 户(h I z,)^应用PLSA分析,得到每个图像分块区域具有潜在语义z的概率I 。。 4.4,构建图像区域潜在语义特征。图5为使用本发明方法在国际标准场景图像库上进行自然场景图像分类的例子。该 国际标准自然场景图像集定义了 13类自然场景,分别是卧室、海岸、森林、高速公路、 城市、厨房、起居室、山脉、办公室、乡村、街道、郊区别墅、高楼。图5中给出了这 些风景类别的一些样例图像。每类场景大约有200-400幅图像。图6为采用本发明对图5所示13类自然场景得到的每类场景的平均分类准确率示 意图。具体示例过程如下第一步,从每类场景中随机选择100幅图像, 一共1300幅图像作为自然场景分类 代表集,而每类场景中剩余的图像则全部作为待分类的图像。第二步,在自然场景分类代表集上根据本发明第二步来生成通用视觉词汇表并保 存,其中M取8, P取16, K取800。第三步,在自然场景分类代表集上根据本发明第三步来生成图像区域潜在语义模型 并保存,其中L取3, S取20。第四步,导入通用视觉词汇表和图像区域潜在语义模型,对于自然场景分类代表集 中的图像按本发明第四步提取区域潜在语义特征并保存。第五步,导入所有从代表集图像中提取出的区域潜在语义特征,并与每幅图像的类 别序号一起输入SVM算法,得到相应的SVM分类模型并保存。第六步,对于待分类的图像,先用本发明第四步提取出图像的区域潜在语义特征, 然后将该特征和SVM分类模型输入SVM预测程序,得到最终的图像类别序号并保存。对于所有待分类的图像,比较其预测的类别序号和其原所属类别序号,得到场景分 类的准确率。通过重复上面六步的过程十次,得到十次场景分类准确率,对其取平均值 就得到平均场景分类准确率。如图6所示,其中横坐标表示场景类别序号,纵坐标表示 某类的平均分类准确率。例如,当横坐标为1时,对应的纵坐标为70。它表示对于第1 类自然场景——卧室,采用本发明通过10次分类得到平均分类准确率为70%。图7为采用本发明与其它方法的平均分类准确率的比较。图中的平均分类准确性通 过对图5所示13类场景的平均分类准确率取平均值得到。本发明方法的平均分类准确性 即为对图6所示的13个平均场景分类准确率取平均,由于本发明通过综合利用图像的区 域信息和区域信息在图像上的空间分布情况来进行场景分类,因此相比其他只使用图像 整体信息的方法,提高了场景分类的准确性。
权利要求
1.一种基于区域潜在语义特征的自然场景图像分类方法,其特征在于包括以下步骤第一步,建立自然场景图像分类代表集,方法是1.1、根据使用需要定义N个自然场景图像类别,类别编号为1~N,N为自然数;1.2、对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表;1.3、将所有N类的自然场景图像分类代表作为自然场景图像分类代表集;第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征即尺度不变特征提取,生成通用视觉词汇表,方法是2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样,得到每幅图像的网格采样点SP,方法是对输入图像Ig按M×M像素大小的网格进行采样,其中M为2的整数次幂;2.2、对每幅图像的每一个网格采样点SP,采用SIFT特征提取方法提取SIFT特征在采样点SP周围P×P像素大小的区域上计算梯度方向直方图得到SIFT特征,该SIFT特征是一个128维向量,P为自然数,取值范围为8-20;2.3、使用K均值聚类算法对自然场景图像分类代表集上的所有网格采样点的SIFT特征进行聚类,每个聚类中心的取值对应一个视觉词汇,保存这K个聚类中心的取值和其对应的视觉词汇编号即构成通用视觉词汇表,K为自然数,取值为500-1000;第三步,对自然场景图像分类代表集中的每幅图像进行视觉词汇映射、空间金字塔分块以提取每个金字塔分块区域的BOW描述,并在自然场景图像分类代表集中所有图像分块的集合上应用PLSA分析方法生成图像区域潜在语义模型即潜在语义出现时的视觉词汇出现的后验概率,具体包括以下步骤3.1、对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法将采样点的SIFT特征映射到对应的视觉词汇计算图像Ig中每个网格采样点的SIFT特征与通用视觉词汇表中的每个视觉词汇所对应特征值之间的欧式距离,找出欧式距离最小的视觉词汇的编号来表示网格采样点,将相应采样点的SIFT特征映射到对应的视觉词汇;3.2、对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行L层空间金字塔分块给定任意图像Ig和分层数L,分别在L个层次上对图像进行均匀分块,其中第l层的图像分块是对图像进行2l-1×2l-1的均匀分块,对一幅图像进行L层空间金字塔分块一共得到Q=(4L-1)/3个大小和空间位置各不相同的图像区域,1≤L≤4,1≤l≤L;3.3、对每个图像分块区域分别采用BOW描述生成方法来生成构建分块的词袋描述,即对任意自然场景代表图像Ig上的一个图像分块区域和Ig上所有的网格采样点及其对应的视觉词汇构建出该分块区域的BOW描述,具体方法是3.3.1根据图像Ig上的所有网格采样点和分块区域大小,找出所有包含在分块区域中的网格采样点;3.3.2根据图像分块区域中包含的网格采样点及其对应的视觉词汇,统计视觉词汇表中每个视觉词汇在图像区域中出现的次数;3.3.2用向量[f1,...,fk,...,fK]表示图像区域的BOW描述,fk表示视觉词汇表中第k个视觉词汇在图像区域中出现的次数,1≤k≤K,K为通用视觉词汇表的大小;3.4、对自然场景图像分类代表集中所有图像的分块区域所对应的分块BOW描述集合进行PLSA即概率潜在语义分析,生成区域潜在语义模型首先使用下式来表示“文档-词”的条件概率<maths id="math0001" num="0001" ><math><![CDATA[ <mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mi>P</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>)</mo></mrow><munderover> <mi>&Sigma;</mi> <mrow><mi>s</mi><mo>=</mo><mn>1</mn> </mrow> <mi>S</mi></munderover><mi>P</mi><mrow> <mo>(</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>/</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>/</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo></mrow> </mrow>]]></math></maths>P(vk|zs)为第s个区域潜在语义zs出现时的通用视觉词汇表中第k个视觉词汇vk的后验概率,它描述了vk对zs的贡献度,所有的P(vk|zs)值构成区域潜在语义模型,P(zs|ri)表示第i个图像区域ri中包含zs的后验概率,它描述了ri中具有zs的概率,P(ri)是图像区域ri出现的概率,S为图像所有区域包含的潜在语义的数目,S取20-80;然后根据极大似然估计原则,通过概率潜在语义分析,求取如下对数似然函数的极大值来计算P(vk|zs)以生成区域潜在语义模型<maths id="math0002" num="0002" ><math><![CDATA[ <mrow><munderover> <mi>&Sigma;</mi> <mi>i</mi> <mi>I</mi></munderover><munderover> <mi>&Sigma;</mi> <mi>k</mi> <mi>K</mi></munderover><mi>n</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow><mi>log</mi><mi>P</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo></mrow> </mrow>]]></math></maths>n(ri,vk)表示vk在ri中出现的次数;最后,采用期望最大EM算法对P(vk|zs)进行极大似然估计,EM算法交替于E步和M步直至收敛3.4.1、在E步,利用当前估计的参数值来计算区域ri中包含vk时潜在语义zs出现的后验概率P(zs|ri,vk)<maths id="math0003" num="0003" ><math><![CDATA[ <mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>|</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>|</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>|</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><munderover> <mi>&Sigma;</mi> <mrow><mi>c</mi><mo>=</mo><mn>1</mn> </mrow> <mi>S</mi></munderover><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>c</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>c</mi> </msub> <mo>|</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>|</mo> <msub><mi>z</mi><mi>c</mi> </msub> <mo>)</mo></mrow> </mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo></mrow> </mrow>]]></math></maths>P(zs)为潜在语义zs出现的概率;3.4.2、在M步,利用期望值P(zs|ri,vk)来最大化当前的参数估计<maths id="math0004" num="0004" ><math><![CDATA[ <mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>|</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><munderover> <mi>&Sigma;</mi> <mi>i</mi> <mi>I</mi></munderover><mi>n</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>|</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><munderover> <mi>&Sigma;</mi> <mi>i</mi> <mi>I</mi></munderover><munderover> <mi>&Sigma;</mi> <mi>m</mi> <mi>K</mi></munderover><mi>n</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>m</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>|</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>m</mi> </msub> <mo>)</mo></mrow> </mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo></mrow> </mrow>]]></math></maths><maths id="math0005" num="0005" ><math><![CDATA[ <mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>|</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><munderover> <mi>&Sigma;</mi> <mi>k</mi> <mi>K</mi></munderover><mi>n</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>|</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><munderover> <mi>&Sigma;</mi> <mi>k</mi> <mi>K</mi></munderover><munderover> <mi>&Sigma;</mi> <mi>c</mi> <mi>S</mi></munderover><mi>n</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>|</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow> </mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo></mrow> </mrow>]]></math></maths><maths id="math0006" num="0006" ><math><![CDATA[ <mrow><mi>p</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><munderover> <mi>&Sigma;</mi> <mi>i</mi> <mi>I</mi></munderover><munderover> <mi>&Sigma;</mi> <mi>k</mi> <mi>K</mi></munderover><mi>n</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow><mi>P</mi><mrow> <mo>(</mo> <msub><mi>z</mi><mi>s</mi> </msub> <mo>|</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><munderover> <mi>&Sigma;</mi> <mi>i</mi> <mi>I</mi></munderover><munderover> <mi>&Sigma;</mi> <mi>k</mi> <mi>K</mi></munderover><mi>n</mi><mrow> <mo>(</mo> <msub><mi>r</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>v</mi><mi>k</mi> </msub> <mo>)</mo></mrow> </mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo></mrow> </mrow>]]></math></maths>在分块BOW描述集合上循环E步和M步,迭代公式(3)(4)(5)(6)直到收敛,收敛条件为迭代次数大于300或者连续两次迭代得到的P(zs|ri,vk)差值小于0.001,得到所有P(vk|zs);第四步,对任意一幅图像提取图像区域潜在语义特征,方法是4.1、采用网格采样方法对图像进行网格采样,然后采用SIFT特征提取方法提取出每个采样点的SIFT特征;4.2、对于该图像采用视觉词汇映射、空间金字塔分块和BOW描述生成方法来生成每个金字塔分块区域的BOW描述;4.3、对于图像的所有图像分块区域,利用第三步得到的图像分块区域潜在语义模型P(vk|zs),用EM算法迭代公式(3)(5)(6)直至收敛,得到每个图像分块区域ri具有潜在语义zs的概率P(zs|ri);4.4、构建图像区域潜在语义特征对于每一个分块区域ri得到一个S维的特征向量[P(z1|ri),…,P(zS|ri)],将图像所有分块区域的S维特征向量连接起来就构成了图像的区域潜在语义特征,其形式为[P(z1|r1),…,[P(zS|r1),…P(z1|rQ),…P(zS|rQ)];第五步,将自然场景图像分类代表集中每幅图像的区域潜在语义特征和该图像对应的类别编号作为代表数据,运用支持向量机SVM算法生成自然场景分类模型;第六步,根据自然场景分类模型对图像的区域潜在语义特征进行分类,方法是将任意图像的区域潜在语义特征提交给自然场景分类模型,在模型中比较该区域潜在语义特征与模型中各个类别特征的距离,距离最小的类别就是最终的图像场景类别。
2.如权利要求l所述的基于区域潜在语义特征的自然场景图像分类方法,其特征在 于所述M取8或16, P取16,夂取800。
全文摘要
本发明公开了一种基于区域潜在语义特征的自然场景图像分类方法,目的是利用图像的区域潜在语义信息和该信息在空间的分布规律来进行自然场景图像分类。技术方案是先建立自然场景图像分类代表集;然后对自然场景图像分类代表集中的图像进行采样点SIFT特征提取,生成通用视觉词汇表;再在自然场景图像分类代表集上生成图像区域潜在语义模型;接着对任意一幅图像提取图像区域潜在语义特征;最后生成自然场景分类模型,根据自然场景分类模型对图像的区域潜在语义特征进行分类。本发明引入了区域潜在语义特征,不仅描述了图像分块的区域信息而且还包含图像分块在空间的分布信息,相比于其他方法能得到更高的准确率,且不需要人工标注,自动化程度高。
文档编号G06K9/00GK101315663SQ20081003157
公开日2008年12月3日 申请日期2008年6月25日 优先权日2008年6月25日
发明者吴玲达, 军 文, 璞 曾, 征 杨, 栾悉道, 谢毓湘, 陈丹雯 申请人:中国人民解放军国防科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1