基于泛化视觉词典图的物体识别方法

文档序号：6363839阅读：196来源：国知局

专利名称：基于泛化视觉词典图的物体识别方法
技术领域：
本发明涉及模式识别领域，特别涉及一种基于泛化视觉词典图的物体识别方法。
背景技术：
近年来，在物体识别领域中，关于目标特征表达的一个非常重要方法就是采用视觉词典来编码图像特征。这一类方法被统称为“基于视觉词典的物体识别方法”。这类方法在当前几乎所有的物体分类数据库和竞赛中都取得了最好的成绩，是当前物体识别研究中占有统治地位的方法。在基于视觉词典的物体识别方法中，研究得最多的部分就是目标特征编码技术。自从2009年开始，短短的两年时间里，已经有十余种编码技术被公开发表在国际主流会议和期刊上。归纳起来，这些编码方法包括1)基于硬投票的编码方法；2)基于软投票的编码方法。硬投票编码只在每个局部特征的最近单词上有响应，而软投票编码可以在每个局部特征的最近的多个单词上有响应。以上这些编码方法只考虑了特征和词典的关系来表征局部特征。实际上视觉词典中的每个单词并不是独立的，而与其他单词有着密切的联系，这种视觉词典中的单词关系构成视觉词典图。结合上述两种编码方法，利用视觉词典图可以更好的表征局部特征。而现有的视觉词典图技术仅仅适用于硬编码方法，使得视觉词典图技术在应用上受到了很大的限制。

发明内容
为了解决现有技术存在的问题，本发明提供一种基于泛化视觉词典图的物体识别方法。本发明提出一种基于泛化视觉词典图的物体识别方法，其特征在于，该方法包括以下步骤步骤1，采集多个训练图像，对多个训练图像分别进行局部采样并在得到的局部采样块上提取尺度不变特征变换SIFT特征，得到训练图像的SIFT特征集合；步骤2，对得到的SIFT特征集合进行聚类生成多个聚类中心，以聚类中心为视觉单词组成视觉词典；步骤3，根据视觉词典中视觉单词之间的关系构建视觉词典图；步骤4，用视觉词典图对提取出来的SIFT特征进行泛化编码，得到一个维度为视觉词典图大小的泛化编码结果向量；步骤5，对泛化编码结果向量进行最大聚集操作，生成视觉词典图响应，S卩训练图像的最终特征表达；步骤6，将所有训练图像的最终特征表达送入分类器进行训练，生成训练模型；步骤7，输入待识别图像，根据步骤I提取待识别图像的SIFT特征；步骤8，使用步骤3得到的视觉词典图对提取出的SIFT特征进行泛化编码；
步骤9，对步骤8得到的泛化编码结果进行最大聚集操作生成视觉词典图响应；步骤10，将步骤9得到的视觉词典图响应送入步骤6生成的训练模型进行测试，从而得到待识别图像中目标类别的识别结果。根据本发明的方法，图像目标在复杂的情况下，仍然可以鲁棒地达到识别的目的。在智能视觉监控系统中，能够利用本发明帮助监控系统识别场景中目标的类别，使得监控系统能真正理解场景中正在发生什么，而且可以根据不同的目标类别采取不同的安全级别控制。本发明还能够对多媒体数字内容分析中的目标进行分析，判断目标的类别。

图I是基于泛化视觉词典图的物体识别方法的流程图。图2是SIFT特征示意图。图3是根据本发明的视觉词典图示意图。图4是泛化视觉词典图编码示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。图I为基于泛化视觉词典图的物体识别方法的流程图，如图I所示，本发明所提出的基于泛化视觉词典图的物体识别方法包括以下步骤步骤1，采集多个训练图像，对多个训练图像分别进行局部采样并在得到的局部采样块上提取尺度不变特征变换(Scale Invariant Feature Transform, SIFT)特征，得到训练图像的SIFT特征集合；所述步骤I中提取尺度不变特征变化(SIFT)特征进一步包括以下步骤步骤I. 1，对于一训练图像，以多个关键点为中心找到该训练图像的多个局部采样块；关键点可以任选图像中的多个点，本发明中，关键点取为对每一行像素进行 4采样得到的采样点；局部采样块可为小于训练图像尺寸的任意尺寸，本发明中取为 16(4X4)。步骤I. 2，对每个局部采样块进行梯度滤波，得到梯度响应图；本发明中所使用的
梯度滤波函数为其中，O为高斯平滑系数，(x,y)为采样点坐标。 2πσ步骤I. 3，根据梯度响应图统计每个局部采样块内各像素点的梯度方向和幅度，即在各局部采样块内统计各方向梯度的信息，得到该训练图像的SIFT特征；SIFT特征表示形式如图2所示，图2左图表示某个采样点的各个子区域的梯度方向，右图表示在每个4X4的局部采样块进行8个梯度方向的幅值统计。本发明设定取8个梯度方向，取16个(4X4)局部采样块，最终构成128(8X16) 维的特征向量。步骤I. 4，重复步骤I. 1-1. 3，得到所有训练图像的SIFT特征，组成SIFT特征集合
步骤2，对得到的SIFT特征集合进行聚类生成多个聚类中心，以聚类中心为视觉单词组成视觉词典；传统的视觉词典生成主要是通过聚类。聚类，顾名思义就是把相似的数据聚在一起，使得数据类内尽可能相似，类间尽可能不相似。本发明对提取到的128维SIFT特征向量进行聚类，即在128维的特征空间中进行聚类。最常用的聚类算法是K均值算法(K-means)，聚类后形成了多个子空间区域，每个区域的中心就是区域中所有数据点的均值，称为聚类中心,也被称为视觉单词。K均值聚类算法的基本过程如下所描述首先从η个数据样本点中任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度 (距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到新的聚类中心与老的聚类中心之间的差异收敛为止。步骤3，根据视觉词典中视觉单词之间的关系构建视觉词典图；把每个视觉单词视为顶点，而两个视觉单词的连接视为一条边，由此形成的图称为视觉词典图。特别的，对于某个视觉单词，本发明只考虑其与附近几个视觉单词之间的连接，根据本发明所生成的视觉词典图示意图如图3所示。步骤4，用视觉词典图对每个提取出来的SIFT特征进行泛化编码，得到一个维度为视觉词典图大小的泛化编码结果向量，此向量表示为P = ^11... ，…，rMl... 其中的字母含义将在下文给出。所述泛化编码方法示意图如图4所示。本发明采用如下的泛化准则来表征每个SIFT特征，即对SIFT特征进行泛化编码riq = TiX Ψ [g(x, Ci, ciq)](I)其中，i= I, , M, q = I, ... , Qi在公式(I)和图4中，X代表一个SIFT特征；Ci (i = 1，. . .，M)集合代表视觉词典， M为视觉词典中视觉单词的个数，Ci代表视觉词典中的一个视觉单词；ciq(q= 1，...，Qi) 是与视觉单词Ci相关联的视觉单词，Qi是相关联的视觉单词的个数是X在Ci上的编码响应，而ri(1是X在Citl上的编码响应,此处的响应反映了两元素经过编码之后的关系，响应值决定于所采用的编码策略，当前广泛采用的三种编码策略可以分为基于距离的编码，基于重构的编码和基于显著度的编码。例如，当采用基于距离的编码时，对于某个SIFT特征，与它距离最近的视觉单词赋予响应1，而其余视觉单词响应均为O ;g( ·)是度量函数，度量的是两个物理量的相似度，例如在式(I)中，本发明采用的物理量是两个向量之间的角度，
/ xe c c \
度量函数为arcco八iVq Y，其中，〈·>表示两个向量的内积，I · I表示向量的模；Ψ(·)
Fi I'IciqCi I
是任意形式的函数，在本发明中，可以是最小值函数argmin或指数函数exp。此外，图4中的实线代表每对视觉单词之间的关系，而虚线所夹的区域代表每对视觉单词关系的作用区域。
SIFT特征的泛化编码可分为单词投票编码和单词关系投票编码两种方式，即图4 中的层I和层2。而每种编码方式又可进一步分为硬投票和软投票方式，也就是说，存在以下四种编码方式(I)单词硬投票；(2)单词软投票；(3)单词关系硬投票；(4)单词关系软投票，这四种编码方式均为上文提出的泛化模型的特例。下面分别对这四种编码方式进行说明I.单词硬投票当Ψ [g(x, Ci, ciq)] = I, Qi = I, M = I时,公式⑴转换为如下的单词硬投票编riq = T1(2)s. t. i = I, q = I2.单词软投票当Ψ [g(x, Ci, ciq)] = I, Qi = I, I < K彡M时,公式⑴转换为如下的单词软投票编码方法riq = T1(3)s. t. i = I, · · , K, q = I3.单词关系硬投票当W=argmin,g = Θ (Xci, CiqCi), I < K < M时,公式(I)转换为如下的单词关系硬投票编码方法riq = T1s. t. q = argmin Θ (Xci, CiqCi)(4)i = I, . . . , K, q = I, . . . , Qi
权利要求
1.一种基于泛化视觉词典图的物体识别方法，其特征在于，该方法包括以下步骤步骤1，采集多个训练图像，对多个训练图像分别进行局部采样并在得到的局部采样块上提取尺度不变特征变换SIFT特征，得到训练图像的SIFT特征集合；步骤2，对得到的SIFT特征集合进行聚类生成多个聚类中心，以聚类中心为视觉单词组成视觉词典；步骤3，根据视觉词典中视觉单词之间的关系构建视觉词典图；步骤4，用视觉词典图对提取出来的SIFT特征进行泛化编码，得到一个维度为视觉词典图大小的泛化编码结果向量；步骤5，对泛化编码结果向量进行最大聚集操作，生成视觉词典图响应，S卩训练图像的最终特征表达；步骤6，将所有训练图像的最终特征表达送入分类器进行训练，生成训练模型；步骤7，输入待识别图像，根据步骤I提取待识别图像的SIFT特征；步骤8，使用步骤3得到的视觉词典图对提取出的SIFT特征进行泛化编码；步骤9，对步骤8得到的泛化编码结果进行最大聚集操作生成视觉词典图响应；步骤10，将步骤9得到的视觉词典图响应送入步骤6生成的训练模型进行测试，从而得到待识别图像中目标类别的识别结果。
2.根据权利要求I所述的方法，其特征在于，所述步骤I中提取尺度不变特征变化 SIFT特征进一步包括以下步骤步骤I. 1，对于一训练图像，以多个关键点为中心找到该训练图像的多个局部采样块；步骤I. 2，对每个局部采样块进行梯度滤波，得到梯度响应图；步骤I. 3，根据梯度响应图统计每个局部采样块内各像素点的梯度方向和幅度，即在各局部采样块内统计各方向梯度的信息，得到该训练图像的SIFT特征；步骤I. 4，重复步骤I. 1-1. 3，得到所有训练图像的SIFT特征，组成SIFT特征集合。
3.根据权利要求2所述的方法，其特征在于，所述关键点取为对所述训练图像每一行像素进行4采样得到的采样点。
4.根据权利要求2所述的方法，其特征在于，所述步骤I.2中使用的梯度滤波函数为(ι2”2)/2σ2)，其中，σ为高斯平滑系数，(x,y)为采样点坐标。2πσ
5.根据权利要求I所述的方法，其特征在于，所述步骤2中使用K均值算法对得到的 SIFT特征集合进行聚类。
6.根据权利要求I所述的方法，其特征在于，构建所述视觉词典图时，把每个视觉单词视为顶点，把两个视觉单词的连接视为一条边。
7.根据权利要求I所述的方法，其特征在于，所述步骤4中，使用下式对SIFT特征进行泛化编码riq = TiX Ψ [g(x, Ci, ciq)],其中，X代表一个SIFT特征；Ci (i = I, ... ,Μ)集合代表视觉词典，M为视觉词典中视觉单词的个数，Ci代表视觉词典中的一个视觉单词；ciq(q= 1，...，Qi)是与视觉单词Ci相关联的视觉单词，Qi是相关联的视觉单词的个数是X在Ci上的编码响应，而riq是X在 Ciq上的编码响应，所述响应反映了两元素经过编码之后的关系；g( ·)是度量函数；Ψ ( ·)是任意形式的函数。
8.根据权利要求7所述的方法，其特征在于，所述泛化编码分为单词投票编码和单词关系投票编码两种方式。
9.根据权利要求8所述的方法，其特征在于，所述泛化编码进一步为层次化的泛化编码首先，进行单词投票编码，所述单词投票编码包括单词硬投票编码和单词软投票编码；然后，基于单词投票编码结果再进行单词关系编码，所述单词关系编码包括单词关系硬投票和单词关系软投票。
10.根据权利要求9所述的方法，其特征在于，所述单词硬投票编码为ri(i= ri，其中，i= I, q = I ;所述单词软投票为ri(1 = η,其中，i = I, . . . , K, q = I, I < K ^ M ；所述单词关系硬投票为I Ergmin^(XCi9CiqCi) ’其中’ i = I’…’ K’ Q = 1’…’Qi, I < K彡M, XCi和CiqCi分别是X和Ciq到Ci的向量，Θ (XCi, CiqCi)是这两个向量之间的角度；所述单词关系软投票为riq = Γ Χθχρ[-β SEX Θ (xci； CiqCi)2],其中，i = I, . . . , K, q =1，. . .，Qi, I < K彡Μ，β SK是类高斯函数的平滑系数。
11.根据权利要求I所述的方法，其特征在于，所述步骤5进一步包括以下步骤步骤5. 1，使用SIFT特征在视觉词典图上的泛化编码结果对每个SIFT特征进行描述；步骤5. 2，取视觉词典图中每个单词关系上所有SIFT特征响应的最大值，组成一个维度为视觉词典图大小的向量，作为训练图像的最终特征表达。
12.根据权利要求I所述的方法，其特征在于，所述步骤6中的分类器为线型SVM分类器。
13.根据权利要求I所述的方法，其特征在于，所述步骤6中的SVM分类器为f(w)= sgn {(w · x)+b}，其中，sgn是0，I符号函数，x是训练样本，b是偏置项，w是训练得到的模型。
全文摘要
本发明公开了一种基于泛化视觉词典图编码的目标识别方法，包括以下步骤对已经标好类别的目标图像进行特征提取，对提取的特征在视觉词典图上进行泛化编码，对编码结果进行训练并建模；对未知类别的图像进行特征提取，将提取的特征在视觉词典图上进行泛化编码，将编码结果输入到训练得到的模型，获得图像中目标的类别。该方法采用基于泛化视觉词典图的编码技术来提高分类精度，可用于智能视觉监控系统，使得监控系统能真正理解场景；可用于多媒体数字内容分析中的目标分析，判断目标的类别；可用于分析顾客对特定产品或者特定娱乐项目喜好。
文档编号G06K9/66GK102609732SQ20121002181
公开日2012年7月25日申请日期2012年1月31日优先权日2012年1月31日
发明者王冲, 谭铁牛, 黄凯奇, 黄永祯申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄凯奇;谭铁牛;黄永祯;王冲
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。