一种基于EchoStateNetwork的图像分类方法

文档序号:26905101发布日期:2021-10-09 13:50阅读:118来源:国知局
一种基于EchoStateNetwork的图像分类方法
一种基于echo state network的图像分类方法
技术领域
1.本发明涉及图像处理技术领域,尤其涉及一种基于echo state network的图像分类方法。


背景技术:

2.传统对图像进行处理大多使用的是卷积神经网络(convolutional neural network,cnn),然而卷积神经网络的结构较复杂,存在3大缺点:1)cnn的生物学基础支持不足,没有记忆功能。神经网络并不是每个神经元唯一关注一个特征,而一组神经元关注一个特征。一组神经元可以输出一个向量,而一个输入只能输出一个数值。2)cnn全连接模式过于冗余而低效,需要大量的数据和大量的调参运算,复杂度高、速度较慢。3)cnn胜在特征检测,但在特征理解上能力不够。
3.回声状态网络(echo state network,esn)具有速度快、结构简单等优点,然而,目前esn的应用主要集中在序列预测问题上,且传统esn是对时间序列的单输入处理。有许多研究者对回声状态网络进行研究学习,他们大多是对echo state network的预测功能的研究。
4.如“a combination approach based on seasonal adjustment method and echo state network for energy consumption forecasting in usa”提出了一种结合回声状态网络(esn)的混合能耗预测模型。建立科学准确的美国能源消耗预测模型,对于制定能源政策和配置能源资源具有重要意义。季节调整法继承了分治思想,将原始时间序列仅分解为季节子序列和剩余子序列两部分,而不是常规的三部分(季节性、趋势和剩余),避免了剩余子序列复杂的建模任务。然后利用模型esn和eemd

goa

esn分别对季节性子序列和剩余子序列进行建模和预测。对两部分进行总结,生成最终的预测结果。对化石燃料、核电和可再生能源消费的实证研究表明,该模型在有效性和可扩展性方面优于其他替代基准。样本外推预测结果表明,该方法可以将月能耗误差控制在3.3%以内。
[0005]“effective energy consumption forecasting using enhanced bagged echo state network”提出了一种基于差分进化算法改进的袋装回声状态网络的改进优化模型来估计能量消耗。能源消费的准确分析和预测不仅影响一个国家的能源安全和环境,而且为决策者提供有用的决策依据。为了减少预测误差,提高网络的泛化程度,采用了bagging算法。利用差分进化算法对回波状态网络的三个参数进行了优化。该模型结合了回声状态网络的优点,通过两个比较实例和一个扩展应用实例验证了该模型的准确性和可靠性。算例对比结果表明,与基本回波状态网络和现有流行模型相比,该模型具有更好的预测性能。一种基于差分进化算法改进的袋装回声状态网络的改进优化模型对我国能源消费预测的平均绝对百分比误差为0.215%,具有较高的精度和稳定性,是一种令人满意的能耗预测工具。
[0006]
中国专利cn111553415a公开了一种基于忆阻器的esn神经网络图像分类处理方法,涉及图像处理技术领域。利用忆阻器的独特的记忆特性和运算能力并结合回声状态网
络,设计基于忆阻器的esn神经网络电路以适于在图像处理过程中对存储能力的要求,以减少训练数据的访存操作,最后达到提高整体神经网络性能和效率的目的。中国专利cn111553415a将基于忆阻器的数据存储与运算进行融合,以图像数据为训练对象,利用图像的卷积操作实现图像的预处理功能,筛选出图像预处理所需要的基本逻辑运算,通过参考蕴含电路来对这些基本逻辑运算进行忆阻器的电路设计,从而完成基于忆阻器的数据存储与运算结构,通过图像数据的存储和运算结合来减少训练数据的访存操作,将提高整体神经网络的性能。其缺点是复杂度高,运算速度有待提高。


技术实现要素:

[0007]
本发明的目的是提供一种基于echo state network的图像分类方法,尝试使用回声状态网络(esn)进行图像的分类问题,解决卷积网络在使用上复杂度高、速度较慢的问题。
[0008]
为了实现上述目的,本发明提供如下技术方案:
[0009]
本发明提供一种基于echo state network的图像分类方法,包括以下步骤:
[0010]
s1、构建网络结构:echo state network由输入层、储备池和输出层三个部分组成,输入层有k个神经元和一个偏置单元,输出层有l个神经元,储备池为n
x
×
n
x
的矩阵,储备池的各个参数设置为:储备池光谱半径λ为1.25,储备池大小nx为2000,储备池输入单元的尺度is为1,储备池的稀疏度sd为1e

8,泄漏率α为0.15,空转图像数量占10%;
[0011]
s2、训练中的数据传输和更新:在刚开始进行训练时,需要进行一定时间的空转,以形成稳定的内部状态,再将输出存入到矩阵中去;
[0012]
s3、输出训练;输出y(n)对于每个类都有一个维度,而y
label
(n)在对应于正确类的维度中等于1,在其他所有地方等于零;
[0013]
s4、图像分类处理:将分类值映射到整数值,每个整数值被表示为二进制向量,除了整数的索引为1之外,其他都是0值。
[0014]
进一步地,esn神经网络的节点状态更新方程为x(t+1)=f(w
in
u(t+1)+wx(t)),其中x(t)为节点状态,u(t)为输入信号,t为时间步数,w
in
为输入连接权。
[0015]
进一步地,储备池中的激活函数f为sigmoid函数。
[0016]
进一步地,图像分类处理的公式为y
j
(m)表示y(m)的第j维,ω表示一段时间区间,ξy表示y在这个区间上的平均值。
[0017]
进一步地,图像分类处理步骤中,对数据进行了归一化处理,将有量纲的表达式经过变换化为无量纲的表达式,成为标量,公式为:a
norm
=(a

a
min
)/(a
max

a
min
),其中,a为要进行标准化的数据,a
norm
为被标准化后a的值。
[0018]
与现有技术相比,本发明的有益效果为:
[0019]
本发明提供的基于echo state network的图像分类方法,通过使用回声状态网络(esn)进行图像的分类处理,解决了卷积网络在使用上复杂度高、速度较慢的问题。
附图说明
[0020]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0021]
图1为本发明实施例提供的esn网络结构图及其参数。
[0022]
图2为本发明实施例提供的储备池的规模对mnist数据集分类的micro

f1 score的影响。
[0023]
图3为本发明实施例提供的回声状态网络对mnist数据集的分类结果,其中tp代表正例分类正确,fp代表正例分类错误而fn代表反例分类错误。
具体实施方式
[0024]
esn是一个简单的三层网络节构,是一种递归神经网络,近年来对cnn、lstm、capsule net等网络构架进研究的学者很多,与此同时,在其领域的优秀成果也是层出不穷。然而在本发明中,我们研究了esn一个未曾被深度挖掘的简单网络,对图像进行处理,它在训练的时间花费上较cnn有优势。
[0025]
在本发明中,我们进行了多次试验以及测试,旨在探索esn的更多性能。首先,我们用esn进行了数据预测,验证了其在序列预测上的优越性,随后是用其对图像进行处理,经过调参、特征提取等过程逐步提高了准确率,且得到了一些规律性的发现。
[0026]
在准确率上,由于esn是简单的三层,在储备池中,神经结点的个数越多,性能越好,但会有一个界值,当n大于临界值d时,准确率提升的速度将变得缓慢。但在准确率上不如卷积网。造成其性能较差的原因我们总结如下:1.esn所用的权重和偏置的参数较多,而卷积层的较少,两个原因:(1)参数共享:一个特征探测器在这个图像中的一部分可以用,那么在另一个图的一部分也可以用;(2)稀疏连接:在每层中,每个输出值只依赖于少量的输入。2.rnn的劣势:在将图片输入到结构中时,图片被按规律拆散并重新排列,整体的特征结构有所破坏,且esn所具有的记忆功能对单一不连续的图片没有优势,而是对与时间相关的序列有优势。
[0027]
下面对于esn做进一步说明。esn由输入层、储备池和输出层三个部分组成,输入层有k个神经元,输出层有l个神经元,它们分别由状态和表示,这里m=1,2,3

,m为离散时间,是训练数据集数据点的数量。中间储备池为n
x
×
n
x
的矩阵,将输入数据e(m)输入esn并更新储层内部状态x(m)的过程可以看作是将数据从低维空间输入到高维空间。
[0028]
esn中最重要的结构是中间的储备池,而它的性能是由不同的参数共同决定的,例如光谱半径λ,储备池大小nx,储备池输入单元的尺度is,储备池的稀疏度sd和泄漏率α。其中:
[0029]
光谱半径λ是保证回声状态网络具有回声状态属性的重要参数。储层的连接矩阵w的光谱半径为w的最大绝对值,为矩阵w或非零元素的宽度。光谱半径的大小影响了状态随时间流逝的速度,即网络的记忆强度和储层的稳定性。λ<1是保证网络稳定的必要条件。
[0030]
储备池大小nx是存储库中神经元的数量,与样本的数量有关,对网络性能有很大影响。大的储备池空间有利于提供线性组合的信号的函数ylabel(t)。在采取适当的标准化
措施防止过拟合的前提下,储层规模越大,给定动态系统的esn描述就越准确,当然也相应增加了计算难度。一般来说,好的参数可以转移到较大的储层,因此在选择储层大小时,选择较小的尺寸便于省时测试和调整参数,然后再扩大它的尺寸。
[0031]
储备池输入单元的尺度is是一个尺度因子,在储备池的输入信号连接到储备池神经元之前,需要乘以这个尺度因子,即输入信号被缩放到一定程度。一般来说,待处理对象的非线性越大,is越大。在均匀分布的w
input
中,缩放值的范围为[

s,s],在正态分布的w
input
中,缩放值由标准差度量。为了减少需要调整的参数数量,w
input
中的所有列都使用单一的缩放值进行缩放。对于第一列,它涉及储备池的偏置输入单元,因此可以将其分离出来进行缩放。
[0032]
储备池的稀疏性sd表明了储层中神经元之间的连接,并不是所有的神经元都是相连的,sd表示储层内互联神经元总数占总神经元n的百分比(sd=m/n,m是相互连接的神经元个数),sd数值越大,接近非线性的能力越强。稀疏性通常对性能影响不大,sd不会被优先优化,但用稀疏矩阵可以快速更新储备池。
[0033]
泄漏率α是一个需要通过试错调整的参数,它在离散时间内的动态更新储层,在连续时间内的更新状态可表示为公式(1)。当它是离散时间时,将它离散化,可以表示为公式(2)。
[0034][0035][0036]
储备池中的参数对输出权重(w
out
)的影响非常大,分别包括三个主要参数:储备池的谱半径λ、储备池的规模和储备池的缩放尺度。储备池谱半径的值为内部矩阵的最大特征值的绝对值,一般来说该值要小于1,但是可以根据实际情况进行调整。储备池的规模是影响性能的主要因素之一,储备池的规模较小时,储备池的性能随着规模的增大而提升,但是,储备池的规模增大也会给计算机增加更多的运算量,使得训练的时间增长。而储备池的规模过大时,其性能不仅会提升缓慢,甚至还会造成性能的下降。储备池的缩放尺度可以用于调整输入权重矩阵的数值大小,以限制输入到储备池内部的数据。
[0037]
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
[0038]
本发明网络结构如图1所示,由输入层、储备池和输出层三个部分组成,输入层有k个神经元和一个偏置单元,偏置单元,将其值设为1,输出层有l个神经元,储备池为n
x
×
n
x
的矩阵,当esn被用在静态分类时,不再像处理时序预测时,输入的连续信号,而是输入离散的图像样本。因此,上一张图片的输入并不会影响到下一张图片的训练,不存在输出神经元到储备池中的反馈输入。
[0039]
本发明的储备池的各个参数设置为:储备池光谱半径λ为1.25,储备池大小nx为2000,储备池输入单元的尺度is为1,储备池的稀疏度sd为1e

8,泄漏率α为0.15,空转图像数量占10%。
[0040]
训练中的数据传输和更新规则如下所示,其中表示更新,为储备池中神经元的激活向量,f和分别表示函数和垂直向量(或矩阵)连接。α表示泄漏速率,该值应介于0到1。公式3和公式4表示储层更新。其中,winput为nx
×
(1+k
e
)的权值矩阵,w是一个nx
×
nx维的矩阵。
[0041][0042][0043]
公式5所示的数学表达式为回声状态网络的线性读出层,从储蓄层到输出层的wout是ly
×
(1+nx+ke)的矩阵,因为输入结构层是一个k维的向量,而储层是一个n维的向量。
[0044]
y(m)=wout[1;e(m);x(m)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0045]
回声状态网络中最重要的部分是输出层的训练。输出层通过对y的训练使y更接近y
label
从而提高网络结构的精度。输出由公式6计算,其中是所有y(m)的集合,q∈r
(1+ke+nx)
×
t
是所有[1;e(m);x(m)]的集合,它们都是由输入单元e(m)经过中间层生成的。在训练中,一般采用线性回归,如公式7中的岭回归算法,q视为一个矩阵,μ为正则化系数,a为单位矩阵。
[0046]
y=woutq
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0047]
wout=y
label
q
t
(qq
t
+μa)
‑1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0048]
在训练过程中,为了评估高质量的训练效果,有必要观察和调整wout。由于训练前对输入数据进行尽可能多的特征提取,结果往往出现过拟合。正则化是解决这一问题的有效方法。另外,如果输出权值太大,则会放大x(m)的细微差别,使训练更加敏感。在esn中,输出将作为下一个输入,这种灵敏度会增加系统的不稳定性,不利于训练。对于这种情况,使用tikhonov正则化的μa来弥补这一缺点(公式8),但岭回归算法的性能更好。
[0049][0050][0051]
其中w
i

out
为wout的第i行,||
·
||为欧几里德范数。μ||w
i

out
||是正则化中所谓的惩罚项,它对wout施加了一些约束,以促进y(t)和ylabel(t)之间的平方误差计数。该表达式包括两个目标的和,即误差和权重的和,它要求它们的综合值的最小。μ的值对这两个目标的比例起着决定性的作用。可以看出,当μ的值为零时,失去了正则化本质,岭回归变为普通线性回归。
[0052]
在本发明中,回声状态网络的储备池权重和输入权重都是随机生成的,在刚开始进行训练时,内部的储备池的初始状态是不断变化的,因此输出也会收到很大的影响,需要进行一定时间的空转,以形成稳定的内部状态,再将输出存入到矩阵中去。
[0053]
x(t+1)=f(w
in
u(t+1)+wx(t))
[0054]
储备池中的激活函数f对储备池的下一个状态有很大的影响,常用的三个激活函数分别是tanh函数、sigmiod函数和softmax函数,本文分别对三个函数在其他条件相同、不同储备池规模的情况下进行了数次实验,结果如表1。
[0055]
表1激活函数对mirco

f1 score的影响
[0056][0057]
由表1可以看出,sigmoid函数的分值均处在最高,tanh函数稍逊于sigmoid函数,而softmax函数的表现最差,故在本发明所选用的激活函数为sigmoid函数。
[0058]
由于esn的输入一般为单一维度的时序信号,所以在做图像分类时,需要对图像数据集做相应的处理。首先,通过归一化对原始图像像素值进行线性变换把数据映射到[0,1]之间,并且通过标准化将图像像素值转化为均值为0,方差为1,使得图像像素值服从标准正态分布。将图像数据集按照水平堆叠,即将图像从左往右排列,形成一个列数量很大矩阵,同时将图像的标签根据onehot编码后的矩阵,经过转置后同样采用水平堆叠,形成新的矩阵。
[0059]
对图像数据集经过处理过后,图像的矩阵和标签的矩阵在列上可以对应起来,在图像列的像素数量中,图像矩阵的每一列都是图像的一部分,标签矩阵的每一列都是对应着该图像的标签onehot值。一次性输入到esn网络中图像行的像素数量,但仍然对应一个标签,即采用多维度的输入对应单一标签,这时就能够满足esn的线性输入的特性,以进行图像的分类操作。
[0060]
本发明在对图像进行分类处理时,输出y(n)对于每个类都有一个维度,而ylabel(n)在对应于正确类的维度中等于1,在其他所有地方等于零。用下述式子表达。在我们的实验中,对手写数字图片分类时,one

hot编码为1位有效编码,采用n位状态寄存器来对n个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有1位有效。首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引为1之外,其他都是0值。
[0061][0062]
y
j
(m)表示y(m)的第j维,ω表示一段时间区间,因此ζy表示y在这个区间上的平均值。因此在实验中可以用ζx和ζy来代替x(m)和y(m)。相应的,ξx表示[1;e(m);x(m)]在一段时间间隔ω中的平均值,这时,y(m)可能会与y
lable
有偏差,我们只需要ξy与y
lable
接近即可。我们使用ξx和y(m)时,只需要与w
out
相乘,且对于ω中的每一个m,找f(ξy,y
label
)比找f(y(m),y
label
(m))更容易。
[0063][0064]
为了保留序列中不同时间的权值,不同的时间段ω1,ω2,

,ω
j
中的平均权值ξ
l
x,ξ2x,

,ξ
j
x可以被连接为ξ*x,在此,ξ*x=[ξ
k
x;

;ξ
j
x]。不同特征向量中的不同特征往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,我们对数据进行了归一化处理,将有量纲的表达式经过变换化为无量纲的表达式,成为标量,公式为:a
norm
=(a

a
min
)/(a
max

a
min
)。
[0065]
在本发明的实施例中,所采用的数据集为mnist手写数字图像数据集,针对该数据集进行归一化,将图像归一化为均值为0,方差为1,再将图像进行标准化,减去均值,再除以方差,可以使网络中的偏置项增大,以提升模型的收敛速度。
[0066]
储备池的谱半径限制在1.25,保持不变,而缩放尺度为1,即不缩放,实验通过不断增大储备池的规模来探索回声状态网络对mnist数据集分类的micro

f1 score的影响,实验结果如图2所示。
[0067]
从图2中可以看出,储备池的规模最初对micro

f1 score的影响很大,随着储备池规模的增大,micro

f1 score增速很大,但是当储备池的规模到达1400之后,micro

f1 score增速明显减慢。
[0068]
由于回声状态网络本身的局限性,网络的输入权重矩阵、储备池内部矩阵和初始状态矩阵均为随机生成,因此,网络训练和分类均会受到影响,从而造成准确率的波动。这种情况无法避免,每一次运行的结果都会有些许的误差,好在误差并不大,不影响参数的选取对网络的贡献。同时,回声状态网络的特性也使得训练的时间减少,快于卷积神经网络,但是最终的micro

f1和卷积神经网络相比,逊色很多。
[0069]
图3为基于回声状态网络的mnist数据集分类数字的数量,可以看出不同数字的分类结果有着很大的区别,相比数字“1”来说,数字“5”的分类准确率过低,这可能是数字“5”被划分为28个列之后,在列之间的特征不是很明显,导致数字“5”被错误分类到其他类别中的数量增多,从而造成低准确率。不过从整体看,正例分类正确(tp)的数量还是远高于正例分类错误(fp)和反例分类错误(fn)的数量,回声状态网络的分类性能虽相比于目前的卷积神经网络(cnn)逊色很多,但是在传统神经网络中,仍有着可观的效果。
[0070]
本发明的图像分类方法,利用esn的结构简单、速度快以及拥有记忆能力的优势,对图像进行分类处理,可实现esn对时间序列的多输入分类处理。与传统的卷积网络和传统esn对时间序列的单输入处理相比,在时间上有优势。
[0071]
此外,long short长短期记忆网络(long short term)简称lstm,是一种rnn特殊的类型,可以学习长期依赖信息。与lstm的图像分类相比,本发明的单层测试的准确率更高(大于85%)。
[0072]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者
替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1