一种基于卷积神经网络和协方差张量矩阵的降维方法与流程

文档序号:15145415发布日期:2018-08-10 20:23阅读:377来源:国知局

本发明涉及模式识别与机器学习领域,更具体地涉及一种基于卷积神经网络和协方差张量矩阵的降维方法,属于数据降维技术领域。



背景技术:

在大数据时代,人们收集和获得数据的能力越来越强。大数据正在以各种形式渗透到当今世界的各个领域,例如生物基因功能组信息,文本分类以及图片多媒体等领域,而这些数据已呈现出数据量大、维数高,异构、分散以及结构复杂等特性,数据的海量性将造成存储开销大、检索速度慢等问题;而数据的高维性将造成维度灾难问题,膨胀的维数导致计算量迅速上升;复杂几何结构造成难于观测的状况。如何处理呈指数爆炸式增长的大数据使其可以以最小的硬件和软件代价存储和管理成为最具有挑战性的课题之一。

数据降维,是把数据从高维的空间映射到低维的空间,最好的保持数据的结构和紧致性,提取出数据中的真正有用信息,同时去除数据的冗余信息,从而获取高维数据低维表示。一方面可以解决“维数灾难”,缓解“噪声丰富”现状,降低复杂度;另一方面可以更好地处理存储数据。

因此,各种降维算法受到研究者的广泛关注,研究者们迫切找到合适的降维方法解决存储量大和运算复杂度高等问题,然而现存的降维方法仍然存在一些问题:(1)在处理图像时,形状是一个确认图像目标的重要线索,而大多数降维方法在处理图像数据时往往忽略图像中目标的形状特征;(2)只着眼于图像的某一类型的特征,而忽略了其它方面的特征,造成无法丰富全面的表述图像,无法将多种视觉特征作为一个整体去表示图像数据。



技术实现要素:

本发明的目的提出了一种基于卷积神经网络和协方差张量矩阵的降维方法,以解决上述提出的问题。

为达到上述目的,本发明提出的具体技术方案为:

一种基于卷积神经网络和协方差张量矩阵的降维方法,该方法包括如下步骤:

(1)首先,将图像i={i1,...ii...,in},i=1,...,n中每一幅图像ii分成大小为32×32的m个重叠小块,对于每一幅图像,定义它的标签为将标签y映射到另一个空间z,既得到每个像素点的值,并求得每对像素点之间的距离值,该距离值是一个dz维的向量;利用分离函数h(xi,θ),xi为像素点的值或者是距离值,输出的值是否大于阈值τ将像素点归到左枝叶或右枝叶来判断此像素点是否为边缘或是否相似;然后将每个重叠小块的结果映射到原图像从而得到原图像i={i1,...ii...,in},i=1,...,n的边缘图像e={e1,...,ei,...en},i=1,...,n;

(2)首先将边缘图像ei通过降采样得到卷积神经网络(cnn-f网络)规定的大小的图像ei′,将ei′输入到网络中,通过卷积、池化等得到第七层全连接层的输出,作为该图像形状特征

(3)然后将原始图像ii经过处理得到卷积神经网络(cnn-f网络)规定的大小的图像ii′,将ii′输入到网络中,通过卷积、池化等得到第七层全连接层特征的输出,作为该图像的细节特征

(4)在原始图像ii上提取全局特征,通过a×a的网格把图像划分成大小相等的子区域,每个子区域用υ个尺度α个方向的gabor滤波器进行滤波处理,所有子区域的特征串接得到整幅图像目标描述子将传统特征提取方法与卷积神经网络特征提取相结合能更丰富全面的表示图像;

(5)对于得到的多种视觉特征t=3,首先求得各种视觉特征的协方差矩阵对同一样本的各种视觉特征进行张量计算,从而得到所有样本的协方差张量矩阵通过多种视觉特征f的协方差张量矩阵t和协方差矩阵v得到多种视觉特征的张量矩阵

(6)通过分解张量矩阵得到转换矩阵将原始的多种视觉特征与该转换矩阵相乘,即得到降维后的结果r是降维的维数。

进一步的,所述步骤(4)中所述传统特征提取方法优选为gist。

进一步的,所述步骤(6)具体为:

对于多种视觉特征矩阵这里t=3,用来计算数据的张量矩阵随后被分解,是降低的维度,表示张量积;向量被堆叠作为转换矩阵unum,被用来将原始的高维特征映射到低维空间,映射后的特征相连接用于图像的低维表示;

a)对于有n个样本的多视觉特征每一种视觉特征为它的协方差矩阵计算为,

多种视觉特征的协方差张量矩阵计算为,

t是一个张量,其维度为

b)接下来,最大化相关变量num=1,...,t之间的相关性,其中被称作相关向量,因此优化问题,

其中corr(z1,...,zt)=(z1⊙...⊙zt)te指相关性运算,⊙是一种逻辑运算成为元素方式积,e∈rn是一个全1向量;

c)对上述的优化问题采用下面的计算方法,

进一步考虑到则上述公式就写成如下形式,

为了控制公式的复杂度,进一步增加一个正则化项,因此上式的附加条件就变成如下,

其中i是一个单位矩阵,ε是一个负平衡参数;定义一个张量矩阵为:

对于上式的计算方法,如此定义:t12...t本身是一个维度为的张量矩阵,定义t12...t是一个维度为的二维矩阵t(t),通过将张量矩阵t12...t中第维度相关的结构映射为t(t)的行,所有其它维度的结构作为列来得到;则以此类推上式可以写成,

另外定义则上诉公式写成如下表示方式,

d)对于上述优化问题定义然后优化问题就变成,

基于上式解决得到r个unum,r是需要降低的维度,让转换矩阵则我们最终获得第num个视觉特征的映射数据,

将不同视觉特征的相连接作为最后的图像数据的降维表示f∈r(t×r)×n

本发明的优点和技术效果:

本发明通过结构树的方法提取图像的边缘图像,利用卷积神经网络提取边缘图像的形状特征,然后利用卷积神经网络对原始图像提取其全局的细节特征,同时结合传统的特征提取方法更丰富全面的表示图像;通过协方差张量矩阵对多种视觉特征在最大化它们之间相关性的基础上进行维度下降处理。

图像目标的形状特征是人眼感知识别目标的重要线索,引入图像目标的形状特征能进一步形象的描述图像,卷积神经网络特征提取方法能更好的描述图像目标的形状和细节特征,将卷积神经网络特征提取方法与传统的特征提取方法相结合能更形象更丰富的描述图像,且最大化多种视觉特征相关性的基础上实现降维过程,能够将同一个样本的多种视觉特征作为一个整体来表示图像,提高降维的性能。

附图说明

图1是本发明的总体示意图。

图2是本发明的整体流程图。

图3是本发明使用的卷积神经网络结构图。

图4是本发明中sport-8数据集的部分图像。

图5是本发明中labelme数据集的部分图像。

图6是本发明中数据集的部分边缘图像。

图7是本发明sport-8数据集的识别率与其它方法的对比图。

图8是本发明labelme数据集的识别率与其它方法的对比图。

图9是本发明评价指标混淆矩阵的评价结果图。

具体实施方式

为使本发明的内容和优点更加清晰,以下通过具体实例,结合附图详细说明本发明的具体实施过程。

其中,以uiuc-sport8数据集与labelme数据集为例进行详细说明,uiuc-sport8数据集共1579幅彩色图像,共包括8种户外运动场景,分别为:羽毛球运动(200幅)、木球(137幅)、槌球(236幅)、马球(182幅)、攀岩(194幅)、划船(250幅)、帆船(190幅)、单板滑雪(190幅),如图4所示。labelme数据集共2688幅彩色图像,共包括8种场景图像,分别为:360幅海岸场景、328幅森林场景、260幅公路场景、308幅城市场景、374幅山峦场景、410幅原野场景、292幅街道场景、356幅高楼建筑场景,如图5所示。

本发明的整体流程如图1、2所示,具体过程如下:

(1)数据集准备

使用uiuc-sport8数据集包括8种户外运动场景,共计n=1579幅彩色图像,使用labelme数据集,包括8种场景图像,共计n=2688幅彩色图像。

(2)基于结构树的快速边缘检测

对数据集中的每一幅图像i={i1,…ii,…in},i=1,…,n进行基于结构树的快速边缘检测,从而得到每一幅图像ii的边缘图像e={e1,…,ei,…,en},i=1,…,n,边缘图像示例图如图6所示,下面是详细步骤说明如何应用结构树来进行边缘检测:

a)输入多通道的彩色图像,任务的目的是用二进制变量标注每一个像素来证明此像素是否是边缘。首先将彩色图像重叠分割成m个32×32大小的图像块pi,0<i≤m,对每个图像块pi计算在cie-luv颜色空间中的3个颜色通道和两个尺度归一化的梯度幅值(原始尺度和二分之一尺度)。另外,将每个梯度幅值通道分成基于方向的4个通道,这样每个图像块p就得到3个颜色通道,2个幅值通道,8个方向通道,总共13个通道。

b)使用半径为2的三角型滤波器对每个图像块pi进行模糊,并且使用因数2对每个图像块pi进行降采样,最后形成32×32×13/4=3328个像素值;另外对每个通道使用半径为8的三角形滤波器进行模糊,并且降采样到5×5大小,则每个通道产生的像素对数为300个,计算每个像素对的欧氏距离,则产生3900个距离值,将像素值和距离值定义为候选特征xi,0<i≤dz=7228。

c)下面将决策树应用于结构输出空间0<j≤32;其中表示相应的第i图像块的图像注释,即像素值,i′,j表示像素的位置,然而直接将决策树应用于图像块上会造成维度较高且复杂的状况。因此定义一个映射函数,

∏:y→z(1)

将结构输出空间y映射到一个中间空间z,在这个空间中距离是容易测量的,其中既上一步所求得的候选特征值xi。我们使用pca量化对候选特征值xi进行聚类,聚成k=2类。

d)一个决策树ft(x)分类一个候选特征值xi∈z通过分支到树的左枝或右枝直到一个叶子节点。树的节点是一个二进制的分离函数,

h(xi,θ)∈{0,1}(2)

其中,θ=(k,τ),并且h(xi,θ)=[xi(k)<τ],如果h(xi,θ)=0就将xi送到左侧节点,反之,就送到右侧节点。进而通过对xi标记为0或者1来判断对应的像素值是否边缘或像素对是否相似,对于θ=(k,τ)的选择,我们进行如下决策树的训练。

e)使用bsd500训练集对决策树进行训练,来选择最合适的θ=(k,τ),训练集其中p={p1,…,pi,…pm},定义以下形式的信息获得标准,

其中sl={(pi,yi)∈s|h(xi,θ)=0},sr=s/sl。θ=(k,τ)的选择就是最大化igc,h(s)=-∑yqylog(qy)表示香农熵,qy是s中的元素。当igc值最大时停止训练,从而得到最优化的θ=(k,τ)。

f)通过决策树将图像块中每个像素点都标记为边缘或非边缘后,将重叠的图像块映射到原图像既可得到边缘图ei,0<i≤n。

图6展示了部分图像的边缘图像,图像的左边为原始图像,右边为采用上述方法得到的边缘图像。

(3)基于卷积神经网络的形状特征提取

本发明中使用cnn-f网络进行特征提取,此卷积神经网络模型的框架类似于krizhevsky等人提出的alex-net模型,它是有8个学习层组成,包括5个卷积层和3个全连接层,第一个卷积层中卷积核的大小为11×11,而下采样层的卷积核大小为3×3,第二层卷积层中卷积核的大小为5×5,下采样层的卷积核大小为3×3,第三、四、五卷积层中卷积核的大小均为3×3,且只有第五卷积层有下采样层大小为3×3,第六、第七全连接层则有4096个神经元,第八层的神经元则有图像的类别决定,图3展示了卷积神经网络的基本结构,包括卷积层和全连接层,由于我们使用的是第七层全连接层的输出作为特征,既目标描述子,图3展示了目标描述子的输出过程。首先将边缘图像ei,0<i≤n变形为适合卷积神经网络的大小224×224,然后输入到卷积神经网络中。

a)对于第一层卷积网络使用大小11×11的卷积核对图像ei,0<i≤n进行卷积,步长为4,对得到的特征图使用relu激活函数进行激活,然后使用大小3×3的卷积核将得到的特征图进行下采样处理后,输入到下一层的卷积层。

b)第二层卷积层的卷积核大小为5×5,下采样层的卷积核大小为3×3;在第二层卷积层中重复与第一层相似的处理,然后输入到第三层卷积层,第三层卷积层的核的大小为3×3,无下采样层,第四层卷积层与第三层类似,第五层卷积层核的大小为3×3,下采样层核的大小为3×3。

c)经过以上处理后得到第五层输出的特征图,将此特征图输入到全连接层,最终得到第七层全连接的输出,作为边缘(形状)特征为

(4)基于原始图像的卷积神经网络的细节特征提取

类似于第(3)步,得到原始图像ii,0<i≤n的卷积神经网络特征向量,得到最后的细节特征为

(5)基于原始图像的传统全局特征提取

a)为了更全面丰富的描述图像,在使用卷积神经网络对原始图像和边缘图像提取细节特征和形状特征后,再一次加入另一种特征,使用传统的全局特征提取方法gist提取全局特征。

b)gist特征描述子是为了在一个更低维的空间中反映原始图像ii,0<i≤n中多个尺度和多个方向的能量的全局描述。定义gist的特征描述子为对于每一幅图像的场景描述f3,i,它的第k个特征元素可以计算,

符号表示场景图像卷积,×表示相乘,fgist(x,y)表示输入的场景图像ii,0<i≤n的亮度通道。gk(x,y)指出来自一系列多尺度方向的gabor中带有α个方向,υ个尺度的第k个滤波器。wk(x,y)是一个空间窗来计算每一个gabor滤波器在不同场景图像位置上的平均输出能量,滑动窗wk(x,y)在原始图像上滑动,将图像划分为a×a大小的网格,是指gist场景描述子f3,i的维度,

(6)协方差张量矩阵的数据处理

对于多种视觉特征矩阵这里t=3,用来计算数据的张量矩阵随后被分解,是降低的维度,表示张量积。向量被堆叠作为转换矩阵unum,被用来将原始的高维特征映射到低维空间,映射后的特征相连接用于图像的低维表示。

e)对于有n个样本的多种视觉特征每一种视觉特征为它的协方差矩阵可以计算为,

多种视觉特征的协方差张量矩阵可以计算为,

t是一个张量,其维度为

f)接下来,我们最大化相关变量num=1,…,t之间的相关性,其中通常被称作相关向量,因此优化问题,

其中指相关性运算,是一种逻辑运算成为元素方式积,e∈rn是一个全1向量。

g)对上述的优化问题采用下面的计算方法,

进一步考虑到则公式(7)就可以写成如下形式,

为了控制公式的复杂度,我们进一步增加一个正则化项,因此上式的附加条件就变成如下,

其中i是一个单位矩阵,ε是一个负平衡参数。定义一个张量矩阵为,

对于上式的计算方法,我们可以这样定义:t12...t本身是一个维度为的张量矩阵,我们可以定义t12...t是一个维度为的二维矩阵t(t),通过将张量矩阵t12...t中第维度相关的结构映射为t(t)的行,所有其它维度的结构作为列来得到。则以此类推上式可以写成,

另外定义则公式(9)就可以写成如下表示方式,

h)对于上述优化问题实如果我们定义然后优化问题就变成,

基于上式解决得到r个unum,r是需要降低的维度,让转换矩阵则我们最终获得第num个视觉特征的映射数据,

将不同视觉特征的相连接作为最后的图像数据的降维表示f∈r(t×r)×n

本发明降维方法性能的检测与验证:

为了验证该降维方法的高效性,根据本发明的降维方法把图像降至15、30、60、90、120、180维度,使用uiuc-sport8数据集和labelme数据集,分别通过以下评价指标来检测和验证该降维方法的有效性,在分类过程中使用elm分类器,此分类器隐藏节点的选择对分类的性能会产生影响,所以我们通过多次隐藏节点的测试,选择最适合的隐藏节点的个数:

识别率:衡量降维后的数据分类精度的评价指标,结果表1,表2所示,表1和表2分别展示了sport-8数据集和labelme数据集的分类结果,本方法与其他方法的分类结果比较,从表中可以看出在不同的维度下,本方法的分类精度总体上均高于其他方法的分类精度,且随着维度的增加呈现上升的趋势。

表1是本发明基于sport-8数据集通过识别率的评价结果

表2是本发明基于labelme数据集通过识别率的评价结果

对比折线图:我们将上述两表中本方法的分类精度与其它方法的分类精度通过折线图的方式展示出来,折线图中横坐标表示的是数据的维度,从左到右维度不断增加,纵坐标表示的是分类精度值,从下到上精度值不断增加,从图中可以看出,随着维度的增加,本发明的分类精度均高于其他方法,且随着维度的增加呈现上升趋势,本发明所提供的降维方法与现有其它降维方法相比,直观的反映本降维方法的识别的优越性,如图7,图8所示。

混淆矩阵:是一种是可视化工具,是精度评价的另一种表示形式,也称误差矩阵。其主要用于比较分类结果,混淆矩阵中每一行代表真实类别,每一列代表实际预测类别,其中的每一个百分比表示所在位置中实际类别预测成正确类别或其他类别的正确率或错误率。进一步清晰的反映不同降维方法在每一类图像中的识别结果,更进一步证明本方法的优越性,如图9所示。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1