基于卷积特征和空间视觉词袋模型的场景识别方法与流程

文档序号:12803636阅读:1541来源:国知局
基于卷积特征和空间视觉词袋模型的场景识别方法与流程

本发明涉及深度学习及场景分类识别,尤其涉及一种基于卷积特征和空间视觉词袋模型的场景识别方法及装置。



背景技术:

在信息存储与传输技术的快速发展的今天,人们日常生活中所能接触数字图像信息的方式更加便捷,所能接触到的图像数据呈现爆炸性的增长。图像数量的与日俱增,使得利用计算机来更好的完成日益增多的视觉信息处理任务,成为一项重要的课题。在早期的研究中,是采用人工采集和分类的方式,来获得场景图像中更多的信息,但是这种方法耗时耗力,太过繁琐。因此如何高效合理地处理图像数据,如何实现自动有效地对场景图像进行分类标注,实现图像场景信息的自动提取,己经成为迫切需要解决的难题。

中国互联网络信息中心(cnnic)第39次调查报告显示,截止至2016年12月,中国网络视频用户规模达5.45亿,而用户对多媒体的搜索需求日益旺盛,则搜索引擎用户规模达6.02亿,且网络新闻用户规模为6.14亿,这给大数据的图像检索提出了更高的要求。面对大量的图像数据,人类对图像理解包含多个语义内容,其中场景场景语义主要侧重于对图像整体的认知和分析,而不仅仅是图像内部包含的具体地物目标,还对图像中各种对象,以及区域之间的上下文信息进行了分析,使得对图像的内容有了更深层次的认识。因此,如何对这些数字图像所包含的信息进行识别和处理,使计算机能够快速地、准确地图像的类别,已经成为计算机视觉领域一个亟待解决的问题,图像场景分类技术就是在这个背景下产生的。

场景分类,即基于图像的场景特征来完成场景类别(如高山、森林、卧室、客厅等)的自动识别。场景分类是图像理解领域的一个重要分支,已成为多媒体信息管理,计算机视觉领域的一个热点问题。场景分类对多媒体信息检索的发展具有重要意义,在许多领域有着广泛的应用前景和理论意义。

早在2004年,一些学者首次正式将词包模型用于图像场景分类的研究中,并且提出一个视觉词包模型算法的图像场景分类。即通过对图像中颜色,纹理等低层特征的提取,进而统计图像中各个图像中各种不同特征的分部信息,即把图像中的图像块对应为文本中的单词,实现了图像的视觉词包模型表示。之后,不同的学者从图像块的划分,局部特征提取和视觉单词的构造等多个阶段进行了进一步的广泛研究。然而,当场景种类达到千类以上且数据库容量突破百万张时,传统的基于底层特征和高层语义的方法通常难以处理这些海量数据,而基于深度学习的方法则在这种大数据上有着很好的表现,尤其是深度卷积神经网络在场景分类任务中已经取得了全新的突破。采用卷积特性,模型可以在事实上卷积特征空间的优势视角的场景更完整的表示能够适应变化。卷积神经网络的问题在于需要大量数据来训练,同时训练过程中需要精巧的参数调整。将卷积神经网络提取的特征与传统的局部特征加以组合,可以进一步提高场景分类的效果。

因此本专利的研究目标是针对传统场景分类中特征表达能力不足的问题,提出一种基于图像中层特征的场景分类方法,用深度学习的方法使其特征表达具有一定的缩放,位移等变换的不变性,并结合空间视觉词袋模型探索空间场景图像整体的特征信息和结构,并能较好的应用于复杂的场景图像分类。



技术实现要素:

本发明的目的针对上述技术中存在的问题,提供一种基于卷积特征和空间视觉词袋模型的场景识别方法,利用深度学习的思想,结合了空间视觉词袋模型,更进一步提高了场景图像分类的效果。

为实现上述目的,本发明采用的技术方案是:对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;根据所述第一场景图像构建卷积神经网络模型;将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。

进一步地,根据所述第一场景图像构建卷积神经网络模型之前,还包括:对第一场景图像预处理;所述预处理包括降噪和增强对比度。

进一步地,所述对第一场景图像预处理,包括对第一场景图像采用拉普拉斯滤波算法来降低光照影响,降低光照情况下拍摄图像噪声,以及对第一场景图像采用直方图均衡化增加灰度值的动态范围,增强图像整体对比度。对图像预处理是在保证所构建得到的新的卷积神经网络模型架构对原尺寸图片可训练的情况下,还明显降低光照对卷积神经网络模型架构识别精度的影响,增加了灰度值的动态范围,从而达到增强图像整体对比度的效果。

进一步地,所述对原始数据库中的数据进行扩增,生成第一场景图像包括:对原始数据库中的数据使用仿射变换、水平翻转和弹性裁切的随机组合来进行扩增,生成多个与原数据相似、标签不变的训练数据作为第一场景图像。所述对原始数据库中的数据进行扩增技术,是为了实时地产生大量的、与原数据相似、标签不变的训练数据,减轻模型训练过拟合,使模型获得更好的泛化性能。本方法是使用仿射变换(平移、旋转、缩放、错切)、水平翻转和弹性裁切的随机组合扩增训练数据。

进一步地,所述根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息,包括:

将得到的图像卷积特征图像当做提取的局部特征并利用空间视觉词袋模型,计算所述特征点与码书中视觉单词之间的距离集合,采取软分配编码进行特征编码,形成第一场景图像和待分类图像的直方图矢量。

进一步地,根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类,包括:

提取待分类图像的sift特征;

根据待分类图像的sift特征和图像卷积特征采用预设的分类器对待分类图像进行分类。

本发明还提供了一种基于卷积特征和空间视觉词袋模型的场景识别装置,包括:

扩增模块,用于对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;

卷积神经网络模型构建模块,用于根据所述第一场景图像构建卷积神经网络模型;

卷积特征获取模块,用于将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;

词典生成模块,用于根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;

直方图信息获取模块,用于根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;

分类模块,用于根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。

进一步地,装置还包括:

第一预处理模块,用于对第一场景图像预处理;所述预处理包括降噪和增强对比度。

还包括:

第二预处理模块,用于对待分类图像预处理;所述预处理包括降噪和增强对比度。

进一步地,所述分类模块包括:

sift特征提取单元,用于提取待分类图像的sift特征;

分类单元,用于根据待分类图像的sift特征和图像卷积特征采用预设的分类器对待分类图像进行分类。

进一步地,所述进行图像的卷积特征,是构建卷积神经网络模型,使用多层卷积以增强模型的表达能力,以获得了某种程度的位移、尺度、形变不变性。

更进一步地,获取卷积特征的过程是将标准化输入数据作为卷积神经网络卷积层的输入,通过n个可训练的滤波器和可加偏置对标准化输入数据进行卷积,获得n个不同的特征映射图,n为正整数;每个特征映射图中的每一个神经元与标准化输入数据的一个局部感受野相连,用于提取相应的局部特征,每个特征映射图中的所有神经元获得的相应的局部特征综合后获得一个全局信息,将该全局信息作为一个特征映射图中的数据特征;将每个特征映射图中每组m×m个像素进行求和,加权值,加偏置,通过sigmoid函数得到n个子采样层;m为正整数;将卷积神经网络的每一个卷积层与每一个特征映射图中每个对应的子采样层叠加,获得叠加层,再通过一个全连接层与每一个特征映射图中所有叠加层相连,计算获得全连接层的一个单元中n个子采样层与卷积神经网络权重向量之间的点积,将点积加上一个偏置后,再传递给sigmoid函数,获得一个单元的标准化输入数据状态响应,全连接层的所有单元个数为最终获得的标准化输入数据状态响应个数,将所有标准化输入数据状态响应作为标准化输入数据的提取特征,实现对图像数据的特征提取。

进一步地,将得到的图像卷积特征用空间视觉词袋模型进行特征编码词典生成,对前一步提取的卷积特征进行聚类生成“视觉单词词典”,并计算待分配“视觉单词”的权重,最终结合空间金字塔理论获得每幅图像的最终直方图表示。

进一步地,引入并联的思想融合多种特征,发挥其优势并结合svm分类器实现场景分类。加权融合低层次的sift特征以及经过卷积神经网络模型更多层次抽象化的卷积特征,经实验调节权值,最终得到更好的分类结果。

综上所述,本发明通过对原始数据库中的数据进行扩增技术,产生大量的与原数据相似、标签不变的训练数据;对这些训练数据进行预处理,得到去除噪声的场景图像;将图像输入到构建的卷积神经网络模型并训练调节参数设置,训练得到数据库图像的卷积特征;将得到的图像卷积特征用空间视觉词袋模型进行特征编码词典生成;引入并联的思想融合多种特征,发挥其优势并结合svm分类器实现场景分类。本发明利用深度学习的思想,结合了空间视觉词袋模型,更进一步提高了场景图像分类的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1是本发明提出的基于卷积特征和空间视觉词袋模型的场景识别方法的流程图;

图2是本发明实施例提供的图像预处理的步骤示意图;

图3是本发明提出的一种卷积特征提取方法流程图;

图4是本发明实施例提出的视觉词袋模型结构示意图;

图5是本发明实施例提出的并联分类体系结构示意图;

图6是本发明实施例提供的基于卷积特征和空间视觉词袋模型的场景识别装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例1

针对现有技术存在的问题,本发明提出一种基于卷积特征和空间视觉词袋模型的场景识别方法,如图1所示,其具体实施方式如下:

步骤101,对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据。

原始数据库中包含有多个场景图像,在一个可选的实施例中,为本发明测试采用的原始数据库包括以下三种:

(1)cifar-10是一个类别数为10的物体识别数据库,每个rgb图像的大小为32×32,包含50000个训练图像和10000个测试图像。

(2)十五场景类别由十五场景类:十三是由feifei和perona提供,和两个(工业和存储)是由lazebnik收集。这个数据库包含从200到600每类图像。

(3)indoor67包含67类室内场景数据集,共15620幅图像的图库。

为了实时地产生大量的、与原数据相似、标签不变的训练数据,减轻模型训练过拟合,使模型获得更好的泛化性能。

本发明实验使用仿射变换(平移、旋转、缩放、错切)、水平翻转和弹性裁切的随机组合扩增训练数据。平移像素的范围为[-3,3],缩放比例的范围为[0.8,1.2],弹性裁切的像素范围为[24,28],旋转度数的范围为[-6°,6°],错切度数的范围[-8°,8°]。

在一个可选的实施例中,步骤101后,还包括:对第一场景图像预处理;所述预处理包括降噪和增强对比度。

针对采用扩增技术之后的图像,预处理过程如图2所示,我们分别先后采取拉普拉斯滤波和直方图均衡化进行图像的预处理。

(1)拉普拉斯滤波

拉普拉斯是一种二阶导数算子,是一个与方向无关的各向同性(旋转轴对称)边缘检测算子。若只关心边缘点的位置而不顾其周围的实际灰度差时,一般选择该算子进行检测。当然,还可以采用其他算子进行降噪。

(2)直方图均衡化

直方图均衡化处理的“中心思想”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。直方图均衡化就是对图像进行非线性拉伸,重新分配图像像素值,使一定灰度范围内的像素数量大致相同。直方图均衡化就是把给定图像的直方图分布改变成“均匀”分布的直方图分布。当然,还可以采用其他方法增强图像对比度。

步骤102,根据所述第一场景图像构建卷积神经网络模型。

本发明构建的卷积神经网络模型和参数设置及其具体结构描述如下:

(1)共有7层,其中前4层卷积层,后边3层全连接层,最后的一个全连接层的输出是具有15个输出的softmax层,最后的优化目标是最大化平均的multinomiallogisticregression。

(2)在第一层conv1和conv2之后直接跟的是response-nomalizationlayer,也就是norm1,norm2层。

(3)对于卷积核大小为5×5的卷积层,使用leakyrelu激活函数:f(x)=max(x,0.3x);对卷积核大小为3×3的卷积层使用能模拟任意函数的maxout激活函数。

(4)maxpooling操作是紧跟在第一个norm1,norm2。

(5)dropout操作是在最后两个full-connected层。

具体层数见如下表格1所示:

表1结构及其参数

步骤103,将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征。

卷积神经网络模型构建和卷积特征提取流程图如图3所示,设置模型之后,获取卷积特征的过程是将第一场景图像处理后作为标准化输入数据作为卷积神经网络卷积层的输入,通过n个可训练的滤波器和可加偏置对标准化输入数据进行卷积,获得n个不同的特征映射图,n为正整数;每个特征映射图中的每一个神经元与标准化输入数据的一个局部感受野相连,用于提取相应的局部特征,每个特征映射图中的所有神经元获得的相应的局部特征综合后获得一个全局信息,将该全局信息作为一个特征映射图中的数据特征;将每个特征映射图中每组m×m个像素进行求和,加权值,加偏置,通过sigmoid函数得到n个子采样层;m为正整数;将卷积神经网络的每一个卷积层与每一个特征映射图中每个对应的子采样层叠加,获得叠加层,再通过一个全连接层与每一个特征映射图中所有叠加层相连,计算获得全连接层的一个单元中n个子采样层与卷积神经网络权重向量之间的点积,将点积加上一个偏置后,再传递给sigmoid函数,获得一个单元的标准化输入数据状态响应,全连接层的所有单元个数为最终获得的标准化输入数据状态响应个数,将所有标准化输入数据状态响应作为标准化输入数据的提取特征,实现对图像数据的特征提取。

步骤104,根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典。

需要说明的是,步骤104中的图像卷积特征为第一场景图像的图像卷积特征和/或待分类图像的图像卷积特征。也就是说,根据得到的第一场景图像的图像卷积特征和/或待分类图像的图像卷积特征用空间视觉词袋模型生成特征编码词典。

如图4,本发明实验采取的空间词袋模型分类过程如下:

第一步,特征提取和特征描述:根据空间图像的特点,将刚才训练得到的卷积层每一空间位置(1×1)的卷积向量(长度等于特征图的数量)看成对图像提取的局部特征,则卷积层可表示为卷积向量的集合。

第二步,对获得的特征进行聚类生成“视觉单词词典”:

把第一步获得的特征视为“视觉单词”,采用k-means均值聚类算法对其进行聚类,从而获得“视觉单词”数量为k的“视觉单词词典”,k经测量设置为396,在聚类算法中迭代收敛的阈值设置为0.0089;定义这个可学习的词典称之为卷积词典d=[d1,d2,…,dk]。其编码方式是软分配编码,其公式如下:

其中,编码系数cik表示卷积向量fi与卷积单词dk的隶属程度。在模型训练时,软分配编码系数cik大多趋于零或者饱和状态,导致模型出现梯度消失问题,使得模型无法训练。因此设置cik=[<fi,dk>]+。其中,[]+表示取正值部分,负值部分归为零。

第三步,计算待分配“视觉单词”的权重:

计算上述第二步得到的“视觉单词词典”中的“视觉单词”和待分配的“视觉单词”之间的欧氏距离,取距离最近的前n个“视觉单词词典”中的“视觉单词”,n≤m,按照公式计算这n个“视觉单词”中每个单词所占的权重。

步骤105,根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息。

具体地,上述步骤105包括将得到的图像卷积特征图像当做提取的局部特征并利用空间视觉词袋模型,计算所述特征点与码书中视觉单词之间的距离集合,采取软分配编码进行特征编码,形成第一场景图像和待分类图像的直方图矢量。其中,特征点指局部特征,码书为特征编码词典。

下面具体阐述结合空间金字塔理论获得每幅图像的最终直方图表示:

利用空间金字塔模型对整幅图像进行不同层次的分层处理,统计每层中图像直方图表示信息,然后针对不同层的直方图表示信息分配不同的权值得到该层的最终直方图表示,最后把不同层的直方图表示按照层数顺序连接成该幅图像最终的表示信息,将其作为该幅图像的直方图表示。这里的图像包括第一场景图像和待分类图像。

步骤106,根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。

具体的,步骤106包括分类决策:我们设想如果是相同的两张图像,其得到的多种词袋直方图应该是完全相同,没有差异的;如果是同一种类型的场景,其特征差异也应当在一定的小范围内,且图像间表达的内容越接近,其特征差异就越小。根据这一准则,本专利首先对用户给定的样本场景图像构建其词袋模型,并和待分类图像数据库中的词袋直方图逐一进行相似性匹配,再结合特定的分类器,根据图像间特征差异的大小对待分类图像库进行排序,将落在预设的阈值范围内的图像队列作为和用户给定的样本景图像类似的场景分类结果;

具体的,步骤106包括:

提取待分类图像的sift特征;

根据待分类图像的sift特征和图像卷积特征采用预设的分类器对待分类图像进行分类。

预设的分类器可以是svm分类器。

其中,sift的全称是scaleinvariantfeaturetransform,尺度不变特征变换,由加拿大教授davidg.lowe提出的。

sift特征图像局部特征描述子之一,是在尺度空间寻找极值点,提取位置尺度,旋转不变量。它对旋转、尺度缩放、亮度变化等保持不变性,是一种非常稳定的局部特征。

sift算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。sift所查找到的关键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。

提取图像的sift特征的主要步骤:

(1)尺度空间的生成;这是一个初始化操作,尺度空间理论目的是模拟图像数据的多尺度特征。

(2)检测尺度空间极值点;为了寻找尺度空间的极值点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。

(3)精确定位极值点;这一步本质上要去掉dog局部曲率非常不对称的像素,即除去不好的特征点。

(4)为每个关键点指定方向参数;上一步中确定了每幅图中的特征点,为每个特征点计算一个方向,依照这个方向做进一步的计算,利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数,使算子具备旋转不变性。

(5)关键点描述子的生成。

(6)生成sift特征。最后,利用位置上的尺度和旋转不变性,能够生成一个表示,它能帮助唯一地识别特征。通过这个表示,我们可以很容易识别寻找的特征。

本发明使用的特定的分类器是设计一种并联方式的词袋模型场景分类方法。并联分类体系结构示意图如图5,从空间图像的特点出发,引入并联的思想融合多种特征,发挥其优势并结合svm分类器实现场景分类。

传统的词袋模型分类大多属于“一次分类”,即从特征差异直接得出分类结果,不经过其他中间环节。在词袋模型的基础上,我们尝试借鉴物理学中并联电路的思想,将其延伸到场景分类中来提高空间场景分类的精度。我们将这待分类图像的sift特征和图像卷积特征这两种类型的图像特征看作并列的特征加入分类体系中,sift特征是从图像的原始像素出发得到的,以及图像卷积特征是通过卷积网络模型层数的增加,得到的不断抽象,最终通过实验加权融合进行分类得到的,采用两种特征并联的方案达到能够更准确的表达图像的低层次和深层次特征的效果。

实施例2

如图6所示,本发明还提供了一种基于卷积特征和空间视觉词袋模型的场景识别装置,包括:

扩增模块,用于对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;

卷积神经网络模型构建模块,用于根据所述第一场景图像构建卷积神经网络模型;

卷积特征获取模块,用于将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;

词典生成模块,用于根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;

直方图信息获取模块,用于根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;

分类模块,用于根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。

进一步地,装置还包括:

第一预处理模块,用于对第一场景图像预处理;所述预处理包括降噪和增强对比度。

进一步地,所述分类模块包括:

sift特征提取单元,用于提取待分类图像的sift特征;

分类单元,用于根据待分类图像的sift特征和图像卷积特征采用预设的分类器对待分类图像进行分类。

还包括:

第二预处理模块,用于对待分类图像预处理;所述预处理包括降噪和增强对比度。

综上所述,本发明通过对原始数据库中的数据进行扩增技术,产生大量的与原数据相似、标签不变的训练数据;对这些训练数据进行预处理,得到去除噪声的场景图像;将图像输入到构建的卷积神经网络模型并训练调节参数设置,训练得到数据库图像的卷积特征;将得到的图像卷积特征用空间视觉词袋模型进行特征编码词典生成;引入并联的思想融合多种特征,发挥其优势并结合svm分类器实现场景分类。本发明利用深度学习的思想,结合了空间视觉词袋模型,更进一步提高了场景图像分类的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1