一种基于宽度径向基函数网络的图像分类方法与流程

文档序号:18398906发布日期:2019-08-09 23:40阅读:160来源:国知局
一种基于宽度径向基函数网络的图像分类方法与流程

本发明属于人工智能及机器学习技术领域,具体涉及一种基于宽度径向基函数网络的图像分类方法。



背景技术:

近年来,深度学习在图像处理及机器视觉等领域取得了巨大成功,典型的深度网络有卷积神经网络、深度玻尔兹曼机以及深度信念网络等。但是,由于深度结构的网络结构日趋复杂,大量的网络超参数以及网络权重需要设置和调整,需要诸多先验经验;而且随着数据维数及数据集大小日趋增大,如此复杂结构的网络训练所需的时间也日趋增长,因而,限制了其在对时间响应要求较高的诸多场合的成功应用。

现有节省神经网络训练时间的方法是使用径向基函数网络,它具有训练时间短的优点,在诸如医学诊断、非线性系统建模和控制、机器人系统的自适应和自组织控制等领域得到了广泛应用。

如图1所示,现有径向基函数网络由两层组成,第一层为由高斯函数组成的隐藏层,把输入向量转换到另外一个非线性空间;第二层为输出层,把这个非线性空间的向量通过线性连接器连接输出。线性连接器的参数,也就是它的权重由最小均方方法计算,从而节省了径向基函数网络的训练时间。但是现有的径向基函数网络,在输入样本为高维数据时,具有与全连接网络的多层感知机类似的权值数指数增加的问题,使训练时间大大增加,因而限制了径向基函数网络的使用范围,使其难以在大规模图像处理中应用。



技术实现要素:

针对上述缺陷,本发明提供了一种基于宽度径向基函数网络的图像分类方法,能够通过最小均方误差及随机化奇异值分解法实现快速训练学习;通过滑动窗口获取数据的局部特征并减少隐藏神经元个数,通过对输出数据的排序和采样,进一步减少径向基函数的输出个数,从而克服了传统径向基函数网络在数据维数增高时,隐藏神经元呈指数增长的问题,大大扩展了径向基函数网络的应用范围,解决了图像等高维数据的快速学习、分类问题。

为了达到上述目的,本发明采用以下技术方案予以解决。

一种基于宽度径向基函数网络的图像分类方法,包括以下步骤:

步骤1,获取待分类图像集构建径向基函数网络;

其中,m1×m2为待分类图像集中的每个图像的宽×高,其单位为像元;n为待分类图像集中的图像总个数。

步骤2,对所述待分类图像集中的每个待分类图像分别通过滑动窗口进行滑动取样,每滑动一次对应得到一组待分类图像的局部特征图像,滑动k次,得到对应的k组待分类图像的局部特征图像;对每组待分类图像的局部特征图像分别进行拉伸处理,得到k组待分类图像的局部特征矩阵xk(1≤k≤k)。

步骤3,将每组待分类图像的局部特征矩阵xk作为所述径向基函数网络的输入数据,得到k个径向基函数网络即为宽度径向基函数网络;采用宽度径向基函数网络对局部特征矩阵xk进行非线性变换,获得所述宽度径向基函数网络的输出数据φk。

步骤4,对所述宽度径向基函数网络的输出数据φk依次进行排序和下采样,得到对应的采样输出φks,进而获取宽度径向基函数网络的高斯基函数输出φ=[φ1s,φ2s,…,φks]。

步骤5,对宽度径向基函数网络的高斯基函数输出φ进行线性层连接,得到宽度径向基函数网络的最终输出y,即得到分类后的图像。

本发明的进一步改进技术方案为:

(1)步骤1中,所述构建径向基函数网络为:采用高斯基函数作为基函数,采用待分类图像集的一个待分类图像作为径向基函数网络的中心,设定径向基函数网络的标准差为常数。

(2)步骤2中,所述通过滑动窗口进行滑动取样包含以下子步骤:

子步骤2.1,设定滑动窗口大小和滑动步长。

子步骤2.2,将滑动窗口在每个待分类图像样本上按滑动步长进行顺序滑动,每滑动一次对应得到一组待分类图像集的局部特征图像,依次获取每个待分类图像的局部特征图像。

进一步地,所述顺序滑动为自每个待分类图像的左上角从左至右、从上至下依次滑动。

(3)步骤2中,所述拉伸处理为:对每个待分类图像的局部特征图像分别将像元值作为元素组成对应的原始矩阵,将每个原始矩阵的第2至最后一列依次顺序排列至第1列后,得到一个列向量;将n个列向量顺序排列组成一组待分类图像样本的局部特征矩阵xk。

(4)步骤1中,设定所述径向基函数网络模型中包含n0k,(n0k>1)个高斯基函数则所述宽度径向基函数网络的输出数据

其中,(1≤i≤n0k)为包含n个元素的列向量。

(5)步骤4中,所述排序包含以下子步骤:

子步骤4.1,对所述宽度径向基函数网络的输出数据φk进行列求和,得到每个待分类图像的局部特定位置的像元之和,对每个待分类图像的局部特定位置的像元之和进行降序排列,得到降序向量

子步骤4.2,采用索引sk将降序向量ak中每个待分类图像的局部特定位置对应的原始位置进行标记,得到排序的输出数据φ′k=sort(φk,sk)。

(6)步骤4中,所述下采样为设定下采样间隔nks,对排序的输出数据φ′k进行下采样,获取对应的采样输出φks。

(7)所述线性层连接包含以下子步骤:

子步骤5.1,给定期望输出d,通过随机化奇异值分解法获取高斯基函数输出数据φ的伪逆矩阵φ+,进而获取线性层权值的最小均方估计

子步骤5.2,根据线性层权值的最小均方估计和期望输出d,通过最小化平方误差法得到线性层的权值w,进而获得宽度径向基函数网络的最终输出y:

y=φw;

即得到分类后的图像。

(8)子步骤5.1中,所述随机化奇异值分解法包含以下子步骤:

子步骤5.1.1,设定宽度径向基函数网络的高斯基函数输出期望的秩为l,指数为q,根据宽度径向基函数网络的高斯基函数输出φ,生成标准高斯随机分布矩阵使标准高斯随机分布矩阵满足以下公式:

子步骤5.1.2,通过标准高斯随机分布矩阵获得中间矩阵q,进而获得高斯基函数输出φ的近似低秩矩阵ψ=qtφ;通过对近似低秩矩阵ψ进行分解获得高斯基函数输出矩阵φ的分解:φ=u∑vt;进而得到高斯基函数输出矩阵φ的伪逆矩阵φ+=(uσvt)+=v∑+ut

其中,k1×k2为高斯基函数输出矩阵的维数;中间矩阵q的列向量为最终输出y的正交基;u和v为列正交矩阵,∑为非负对角矩阵。

与现有技术相比,本发明的有益效果为:

(1)本发明的宽度径向基函数网络由于采用最小化平方误差法计算权重,并且采用随机化奇异值分解方法计算伪逆矩阵,实现了宽度径向基函数网络的快速训练。

(2)本发明方法采用滑动窗口获取待分类图像的局部特征,减少了隐藏层神经元个数,此外,采用排序和下采样的方式进一步减少了输出个数,解决了图像为尺寸较大时权值数指数增加的问题,从而可实现图像数据的高效分类。

附图说明

下面结合附图和具体实施例对本发明做进一步详细说明。

图1为传统的径向基函数网络结构图。

图2为本发明的一种基于宽度径向基函数网络的图像分类方法中的宽度径向基函数网络结构图。

图3为本发明实施例中的mnist手写数据图像。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述,但是本领域的技术人员将会理解,以下实施例仅用于说明本发明,而不应视为限制本发明的范围。

本发明实施例提供一种基于宽度径向基函数网络的图像分类方法,将mnist手写数据集(如图3所示)作为待分类图像的原始来源,参考图2,利用宽度径向基函数网络对mnist手写数据集进行分类处理,所述分类方法包括如下步骤:

(1)构建径向基函数网络

具体地,获取60000张mnist手写数据的图像作为待分类图像集其中,m1×m2为待分类图像集中的每个待分类图像的宽×高,其单位为像元;待分类图像集包含10000张测试集图像,如图3所示,每幅图像为8位灰度手写数字0~9的图像,包含10类,图像大小为m1×m2=28×28。

构建包括n0k=1000个高斯基函数为的径向基函数网络,该径向基函数网络的中心为随机取自待分类图像集的一个待分类图像,标准差取值为常数。

(2)获得待分类图像的局部特征矩阵

具体地,设定滑动窗口大小为r=m×m,m=13,滑动步长取1个像元,从每组待分类图像的左上角开始,从左到右,从上到下依次滑动,每滑动一次对应得到一组待分类图像的局部特征图像,滑动k次,得到对应的k组待分类图像的局部特征图像。待分类图像集的样本数n=60000,把滑动窗口中的n个图像的3维图像块拉伸成为矩阵xk∈rr×n,即对每个局部特征图像分别将像元作为元素组成对应的原始矩阵,将每个原始矩阵的第2至最后一列依次顺序排列至第1列后形成一个列向量;将n个列向量顺序排列组成一组待分类图像的局部特征矩阵xk(1≤k≤k)。其中,局部特征矩阵xk的每一列代表一个待分类图像。

(3)获得宽度径向基函数网络的输出数据φk

具体地,将步骤2得到的局部特征矩阵xk输入给步骤1中构建的径向基函数网络,得到宽度径向基函数网络;也就是说,滑动窗口每次滑动对应一个径向基函数网络,最终滑动结束后,可得到k=(m1-m+1)(m2-m+1)=(28-13+1)×(28-13+1)=256个径向基函数网络。

通过宽度径向基函数网络对局部特征矩阵xk进行非线性变换,获得所述宽度径向基函数网络的输出数据其中,为包含n个元素的列向量。

(4)获取宽度径向基函数网络的高斯基函数输出φ

具体地,针对每一个径向基函数网络,对其经过非线性变换的高斯基函数输出数据φk依次进行排序和下采样。对所述宽度径向基函数网络的输出数据φk的每一列进行列求和,得到一个行向量;其中,行向量中的每个元素代表待分类图像的某个特定位置处的像元之和。对该行向量进行降序排序,得到降序向量

采用索引sk将降序向量ak中每个元素对应的处于待分类图像中的原始位置进行标记,对应得到排序的输出数据φ′k=sort(φk,sk);对排序的输出数据进行下采样,设定下采样间隔nks=20,经过下采样的输出数据的个数为:

则总的宽度径向基函数网络的输出数据个数为采样输出为φks=subsample(φ′k,nks),则宽度径向基函数网络的高斯基函数输出为φ=[φ1s,φ2s,…,φks]。

(5)获得分类后的图像

具体地,设定期望的输出为d=[d1,d2,…,dc];对宽度径向基函数网络的高斯基函数输出进行线性层连接,则线性层的权重为:

w=[w1,w2,…,wc];

其中,c=10是待分类图像的类别总数。

得到宽度径向基函数网络的最终输出y为:

y=[y1,y2,…,yc]=φw;

具体地,通过最小化平方误差计算线性层的权重的最小均方估计具体公式为:

通过宽度径向基函数网络的高斯基函数输出φ的伪逆矩阵计算线性层的权重的最小均方估计

其中,φ+为宽度径向基函数网络的高斯基函数输出φ的伪逆矩阵。

最终,计算得到宽度径向基函数网络的最终输出为:

进而获得分类后的图像,同时,得到了训练后的宽度径向基函数网络。

上述的伪逆矩阵φ+通过随机化的奇异值分解方法求得。具体地计算过程如下:

假设宽度径向基函数网络的高斯基函数输出的近似低秩表示为:

其中,l为宽度径向基函数网络的高斯基函数输出φ的数值秩,对于宽度径向基函数而言,k1=n=60000,k2=ns=12800。

如果l比k1和k2小,但是足够好去近似φ,由于分解后的矩阵比原矩阵φ小,那么就可以很容易的加快计算过程,并且减少计算过程中的存储需求。

上述随机化奇异值分解方法包括以下步骤:

首先,生k2×2l标准高斯随机分布矩阵使最终输出可表示为:y=(φφt)qφω,其中,q=1或q=2;

其次,构建需要正交的中间矩阵中间矩阵q包括尽可能少的正交列,并且满足:

φ≈qqtφ,

中间矩阵q的列向量为最终输出矩阵y的正交基,进而可计算出高斯基函数输出φ的近似低秩矩阵ψ=qtφ;

最后,对近似低秩矩阵ψ进行奇异值分解:进而获得高斯基函数输出中的矩阵分解φ=u∑vt,进而得到高斯基函数输出φ的伪逆矩阵:

φ+=(u∑vt)+=vσ+ut

其中,k1×k2为高斯基函数输出矩阵的维数;中间矩阵q的列向量为最终输出y的正交基;u和v为列正交矩阵,∑为非负对角矩阵。

由于分解后的矩阵比原矩阵小,因此,在高维数据的学习过程中能够节省学习时间。

对上述实施例得到的训练后的宽度径向基函数网络,在mnist测试集上进行5次测试,得到的平均测试精度为98.76%;现有传统的径向基函数网络在相同测试参数下进行5次测试,得到的平均测试精度为97.41%,因此,本发明的宽度径向基函数网络对图像进行分类处理的结果准确度更高。同时,本发明的宽度径向基函数网络在进行图像处理的过程中采用滑动窗口获取待分类图像的局部特征,减少了隐藏层神经元个数;采用排序和下采样的方式进一步减少了输出数据的个数,解决了图像为高维数据时的权值数指数增加的问题。实现了图像的高效分类,使本方法可应用于图像数据的分类过程,大大扩展了径向基函数网络的应用范围。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些改动和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1