一种改进的极速学习模型及其模式分类方法

文档序号:6541909阅读:162来源:国知局
一种改进的极速学习模型及其模式分类方法
【专利摘要】一种改进的极速学习模型及其模式分类方法。本发明属于模式识别、机器学习领域,公开了一种高效的神经网络快速学习方法,受限极速学习机。它包括:(1)受限参数空间的概念:采用基于样本先验信息的侧抑制机制,具体体现在生成从输入层到隐含层连接权的生成上;(2)受限参数概念中的超球面受限条件:从输入层到隐含层连接权的选取受限在超球面上;(3)输出权学习:在受限参数空间内选取隐含层权值后,采用基于最小二乘的极速学习机模型,进行学习训练,最终得到模型的输出权值。以上方法,能够极大地提高模型的分类和识别效果,以及训练速度。
【专利说明】一种改进的极速学习模型及其模式分类方法
【技术领域】
[0001]本发明涉及图像、语音和各种信号的模式分类,尤其是一种改进的极速学习模型及其模式分类方法。
【背景技术】
[0002]在基于快速、极速学习的模式分类方面,极速学习机(Extreme LearningMachine,ELM)能够快速地进行模式分类。该算法具有学习速度快、在学习过程中对参数不需要太多的人工干预、很强的泛化能力等优点。并且,该算法具有比传统的模式分类算法,如支持向量机(Support Vector Machine, SVM)、BP神经网络、RBF神经网络等更好的泛化性能。由于极速学习机具有非常好的分类和预测性能,以及学习训练速度,极速学习机在工程中获得了广泛大量的运用。但是,隐含层参数的随机选取,使得极速学习机需要使用很多隐节点才能达到理想的性能。很多的隐节点意味着需要更长的测试时间。测试时间在工程应用中,相当于用户响应的等待时间、系统的处理时间。所以,解决极速学习机隐节点使用不高效的问题,对于工程应用至关重要。
[0003]所谓“隐节点”是指神经网络中的隐含层的神经元节点。一般,将神经网络,或者模式识别、机器学习模型分为输入层(输入数据,或者输入特征)、输出层(输出类别,或者预测值)和隐含层。隐含层中的变量统称为隐节点。由于处理任务的复杂性,所以,在实际系统中,需要使用隐含层增加模型的处理能力,使其能够完成复杂问题的模式分类任务。但是,很多的隐含层变量意味着,测试时需要更长的时间来做模式的分类。认为,具有同样的分类能力,使用较少隐节点的系统具有更加高效的隐节点利用方式。受限于系统处理时间,或者用户等待响应时间,实际系统中,需要更加高效的隐节点选取方式。
[0004]极速学习机是一个具有单隐含层的前馈神经网络。其中,隐含层的权值使用随机数生成选取。输出层权值使用最小二乘快速计算。由于极速学习机是一种前馈神经网络,并且随机选取的隐含层权值不需要迭代调节,输出层权值的计算使用最小二乘的方式来解决,所以极速学习机的速度非常快。另外,理论和工程实践表明,极速学习机具有比支持向量机、最小二乘支持向量机、BP神经网络和RBF神经网络更好的分类和预测性能。
[0005]针对该隐含层节点使用不高效的问题,目前主要有三类方法解决。第一类,使用在线增量的方法,动态地加入具有高效的隐节点。首先随机生成很多候选隐节点,然后按照输出层的目标函数,来决定哪些候选隐节点应该加入到隐含层中。第二类,使用修剪的方法。首先使用传统的极速学习机算法生成一个很大的网络,然后使用一些度量方法,比如统计准则、多响应稀疏回归,将这些隐节点排序。最后,删除低相关性的隐节点,构成一个更加紧致的网络结构。第三类,使用基于梯度的方法。使用梯度信息,不断调节隐含节点的参数。但是,上面这些方法都不是直接解决隐节点使用效率不高效问题的方法而且非常耗时。
[0006]发明专利“一种快速的神经网络学习方法(专利号201110319217.5)”公开如下内容:(1)修正代价函数:权衡经验风险和结构风险,并通过参数调节两种风险的比例,最终取得两种风险的最佳折中;(2)修正模型训练:为了降低离群点对模型的干扰,获得一个抗干扰模型,采用对不同样本进行误差加权的方式;(3)输出权计算:首先利用无权模型训练输出权的初始值;采用极速学习机技术得到单隐藏层神经网络模型的各个连接权值以及隐藏层阈值;最终得到加权模型的输出权值;
[0007]发明专利“模式识别器、模式识别方法以及用于模式识别的程序,(专利号201080061441.2)”公开了如下内容:损失计算装置,针对每个类别计算特征向量的损失,特征向量对属于该类别的数据的特征加以指示。损失差计算装置,基于针对每个类别而计算的损失,来计算类别之间损失差的总和。识别字典创建装置,基于损失计算装置针对类别而计算的损失总和以及类别之间损失差的总和,来创建识别字典。识别字典创建装置基于输入特征向量来校正识别字典,以使损失计算装置针对类别而计算的损失总和与损失差计算装置计算的类别之间损失差的总和之和最小化,并且模式分类装置使用校正后的识别字典来对数据的模式进行分类;
[0008]发明专利“结合支持向量机以及近邻法的模式分类方法,(专利号200710098867.5)”公开了一种结合支持向量机以及近邻法的模式分类方法。
[0009]上述专利主要从模式识别模型的理论,如核函数、结构风险、字典学习等方面进行模式分类,还未见将判别性信息加入到模式分类算法中,并进行快速,甚至极速的模式分类。

【发明内容】

[0010]为了解决上述极速学习和模式分类模型泛化能力弱的问题,本发明的目的在于提出一种改进的极速学习模型和基于改进模型的模式分类方法,从而实现对任意图像、语音和各种信号进行高效的模式分类的目的。
[0011]具体地讲,本发明公开了一种改进的极速学习模型,该模型分为输入层、隐含层和输出层,输入层为输入到模型的处理后的样本数据,在学习训练过程,每条样本数据会带有相应的所属类别标签,在测试过程,该模型能够输出预测所属类别标签;在隐含层,模型需要生成受限的权向量,用于隐含层的特征映射;在隐含层中,该模型会依据先前设置的激活函数,以及生成的受限的权向量,对样本做相应的变换;在学习训练过程,模型会计算出输出层的权值;在测试过程,模型会按照训练阶段得出的权值,返回预测类别标签。
[0012]本发明还公开了一种改进的极速学习模型的模式分类方法,包括学习训练过程和测试过程两个过程,其中学习训练过程包括:
[0013]SI数据采集步骤,采集过程中,对数据进行统一化,得到类别向量并存储在样本矩阵中;
[0014]S2预处理步骤,对数据样本进行预处理,提取特征,以及对样本矩阵进行归一化操作。
[0015]S3训练步骤,具体包括:
[0016]步骤S31,模型的初始化,用来初始化模型的参数;
[0017]步骤S32,对类别向量扩展为类别矩阵;
[0018]步骤S33,选取P个受限的权向量;
[0019]步骤S34,利用生成的受限的权向量,计算隐含层输出矩阵H;
[0020]步骤S35,获得模型参数受限的权矩阵和输出连接权值β,输出类别矩阵T=H β。[0021]测试过程包括:
[0022]S4数据采集步骤和S5预处理步骤,与学习训练过程相同,得到归一化测试数据矩阵;
[0023]S6测试步骤,具体包括:
[0024]步骤S61,计算隐含层输出矩阵;
[0025]步骤S62,利用学习训练过程的输出连接权值,得到预测输出类别矩阵;
[0026]步骤S63,由预测输出类别矩阵得到预测输出类别向量;
[0027]S7预测步骤,根据预测输出类别向量,得到预测输出类别。
[0028]上述步骤S3具体包括:
[0029]步骤1,从训练样本库中随机抽取两个样本向量Xil和Xi2,并生成两个[_1,1]之间的随机数wil和wi2 ;随机数wil, wi2可以按照均匀分布,或者高斯分布来生成。
[0030]步骤2,生成一个 随机权向量Wi=wil*Xil+wi2*Xi2,将其归一化为Wi=Wi/ Il Wi Il,Il Wi Il为Wi的范数,作为从输入层到隐含层第i个神经元之间的连接权;
[0031]步骤3,循环步骤I和步骤2 ;
[0032]步骤4,生成P个输入层到隐含层所有神经元的连接权,构成受限的权矩阵W1=DWl, W2,...,Wp],。
[0033]上述步骤S34 中,该隐含层输出矩阵 Η=[Φ (W1,χ?), Φ (W1,χ2),…,Φ (W1,χη)] ’,其中Φ (W1,xi)=l/exp (W1Xi),xi为样本矩阵的一行向量,η为正整数。
[0034]上述步骤4包括通过隐含层作用后矩阵的广义逆和输出类别相乘,获得输出层的权值。
[0035]本发明提出改进的极速学习模型,即采用与训练样本有关的参数作为极速学习模型输入层到隐含层的连接权,即将样本分布的先验加入到改进的模型中。首先,从训练样本库中随机抽取两个样本向量Xil和Xi2,并生成两个[_1,1]之间的随机数wil和wi2 ;然后,生成一个随机权向量Wi=wil*Xil+wi2*Xi2,将其归一化后作为从输入层到隐含层第i个神经元之间的连接权;按照此种方式生成输入层到隐含层所有其它神经元的连接权。此方法可以达到提高极速学习模型泛化性能的技术效果。
[0036]本发明采用改进的极速学习模型用于模式分类。在建立的改进极速学习模型上,输入样本模式并在输出层得到模式分类结果。此方法可以达到提高模式分类正确率的技术效果。
[0037]原来的极速学习机模型的输入层到隐含层的连接权是随机选取的,与训练样本无关。本发明提出采用与样本有关的参数生成输入层到隐含层的连接权,并提出在这一改进的极速学习模型上进行模式分类。该方法能够提高极速学习机的学习泛化能力和模式分类能力。
【专利附图】

【附图说明】
[0038]图1为受限极速学习机神经网络模型的示意图;
[0039]图2为对数据进行识别和分类任务的训练和测试流程图;
[0040]图3为统一化后的图像数据;
[0041]图4为受限极速学习机模块中的训练和测试流程图。【具体实施方式】
[0042]图1为受限极速学习机神经网络模型的示意图;
[0043]因为受限极速学习机神经网络隐含层的权值是从归一化后的样本向量的组合中选取的,所以该神经网络称为受限的极速学习机。由于该神经网络中的隐含层权值是按照样本向量组合分布,从超球面上选取的,所以称隐含层权值为受限权向量。
[0044]该模型分为三层,输入层、隐含层和输出层。输入层为输入到模型的处理后的样本数据。在训练阶段,每条样本数据会带有相应的所属类别标签;在测试阶段,该模型能够输出预测所属类别标签。然后,在隐含层,模型需要生成受限的权向量,用于隐含层的特征映射。在隐含层中,该模型会依据先前设置的激活函数,以及生成的受限的权向量,对样本做相应的变换。在训练阶段,模型会计算出输出层的权值;在测试阶段,模型会按照训练阶段得出的权值,返回预测类别标签。
[0045]图2为具体分别对数据(如图像数据、语音信号取样数据、光纤传感器信号取样数据)进行识别和分类任务的训练和测试流程图。
[0046]下面以彩色图像分类任务为例,介绍本发明的建立模型及利用该模型该流程,自动地给出任意一幅被测试图像中的物体的类别。假设任务中图像物体的类别分别为飞机、汽车、鸟类、猫类、鹿类、犬类、蛙类、马类、船类、货车,共10类。
[0047]本发明主要包括两部分:训练学习过程和测试过程。
[0048]1、训练学习过程:如图2中的训练阶段所示
[0049]步骤SI,数据采集。采集大量关于这10类物体的图像。采集过程中,对图像的大小进行统一化。图像统一化之后的大小为32X32。使用的主要方法为数字图像处理的通用技巧,如裁剪、上采样、下采样和灰度化。图3所示为统一化后的图像数据,图左侧为图像所属类别,右侧每行为对应的图像。
[0050]经过数据采集步骤后,所有的图像数据存储在一个矩阵中,称为样本矩阵。其中,矩阵的每一行代表一幅图像(首先将彩色图像灰度化,然后将二维的图像像素值矩阵,按照行序优先,或者列序优先的原则,组成一维的大向量,如下列所示)。
[0051]二维的像素值矩阵,此处假设使用列序优先原则,图像大小为32X32:
[0052]128 256 O 5 2...[0053]127 254 3 6 1...[0054]110 200 5 9 3...[0055]...[0056]按照行序优先原则,组成的大小为1024的一维向量为:
[0057]128 256 O 5 2— 127 254 3 6 I— 110 200 5 9 3......[0058]在训练阶段,对应每幅图像的类别标签保存在一个向量中,分别用数字1,2,3,…,10表示相应的类别,称该向量为类别向量。
[0059]步骤S2,预处理。对信号数据样本进行预处理。对每幅图像(矩阵的每一行)提取特征,比如图像灰度像素(即直接将上述灰度化后图像的像素值作为特征输入。在这个例子中,灰度像素特征就是就是上述样本矩阵)特征,也可以使用像素特征。
[0060]预处理阶段还需对样本矩阵进行归一化操作。样本归一化的方式很多,分为两类:一类为对每个样本进行归一化;另一类对所有样本的每个维度进行归一化。具体的归一化操作有很多种,常见的有零均值单位方差化(减去均值后,除以方差)、硬归一化为[-1,I]或者[O,I](减去最小值后,除以最大值和最小值的差)。处理后,矩阵的每一行仍然为一幅图像对应的数据。
[0061]上述步骤完毕后,进入本发明的受限极速学习机训练模块S3。具体训练过程如图4中受限极速学习机训练模块。
[0062]下面是具体操作步骤。
[0063]步骤S31,模型的初始化,用来初始化模型的参数。
[0064]初始化过程具体包括模型中需要选取的受限权向量个数P (受限权向量为该网络中隐含层向量。由于使用样本构造隐含层向量,并且归一化到了超球面上,所以叫受限权向量。该处的P是用户选定的数目。),使用的激活函数Φ (激活函数为神经网络中的概念,是为了提高分类正确率而设置的变换函数。初始化的目的在于可以让用户指定这些模型参数。激活函数可以为任意非常数、分段连续函数,常见的激活函数为sigmoid函数、双曲正切函数、RBF函数、RELU函数、阈值函数等。假设这里使用sigmoid函数)。
[0065]步骤S32,对类别向量进行适当的处理,将其扩展为类别矩阵。
[0066]具体做法如下例所示:
[0067]假设共有60000个图像样本,该60000幅图像对应的类别向量为:[1,10,5,8,7,6,2,3,8,9,4,1,3,6,4,…](类别向量中的每个数值对应相应图像的类别标签,分别用数字1,2,3,…,10表示相应的类别),该15个数字只是用来作为举例进行说明情况,真实的样本库可能含有几十万张,甚至几百万张图像。比如手写字体识别库MNIST,以及说明书中的图片的来源库CIFAR,样本数都在6-7万,其他的库甚至百万。下面事实例中的数据,比如受限权矩阵W’和输出层权值Beta,都是真实程序跑出来的。由于数据规模比较大,仅仅使用一些数值来对本发明进行解释。
[0068]按照该规则将类别向量扩展为类别矩阵:类别矩阵中每行对于类别向量中的类别值;在每行中,对于第i类,将该行的第i个元素置1,其余置-1 (由于后面建模计算需要,需要这样设置)。
[0069]扩展后的类别矩阵为:
【权利要求】
1.一种改进的极速学习模型,其特征在于,该模型分为输入层、隐含层和输出层,输入层为输入到模型的处理后的样本数据,在学习训练过程,每条样本数据会带有相应的所属类别标签,在测试过程,该模型能够输出预测所属类别标签;在隐含层,模型需要生成受限的权向量,用于隐含层的特征映射;在隐含层中,该模型会依据先前设置的激活函数,以及生成的受限的权向量,对样本做相应的变换;在学习训练过程,模型会计算出输出层的权值;在测试过程,模型会按照训练阶段得出的权值,返回预测类别标签。
2.一种改进的极速学习模型的模式分类方法,其特征在于,该方法包括学习训练过程和测试过程两个过程,其中学习训练过程包括: SI数据采集步骤,对数据进行统一化,得到类别向量并存储在样本矩阵中; S2预处理步骤,对数据样本进行预处理,对数据提取特征,以及对样本矩阵进行归一化操作; S3训练步骤,具体包括: 步骤S31,模型的初始化,用来初始化模型的参数; 步骤S32,对类别向量扩展为类别矩阵; 步骤S33,选取P个受限的权向量; 步骤S34,利用生成的 受限的权向量,计算隐含层输出矩阵H; 步骤S35,获得模型参数受限的权矩阵和输出连接权值β,输出类别矩阵Τ=Ηβ ; 测试过程包括: S4数据采集步骤和S5预处理步骤,与学习训练过程相同,得到归一化测试数据矩阵; S6测试步骤,具体包括: 步骤S61,计算隐含层输出矩阵; 步骤S62,利用学习训练过程的输出连接权值,得到预测输出类别矩阵; 步骤S63,由预测输出类别矩阵得到预测输出类别向量; S7预测步骤,根据预测输出类别向量,得到预测输出类别。
3.如权利要求2所述改进的极速学习模型的模式分类方法,其特征在于,步骤S3具体包括: 步骤1,从训练样本库中随机抽取两个样本向量Xil和Xi2,并生成两个[_1,1]之间的随机数wil和wi2 ; 步骤2,生成一个随机权向量Wi=wil*Xil+wi2*Xi2,将其归一化为Wi=Wi/ Il Wi Il,Il Wi Il为Wi的范数,作为从输入层到隐含层第i个神经元之间的连接权;步骤3,循环步骤I和步骤2; 步骤4,生成P个输入层到隐含层所有神经元的连接权,构成受限的权矩阵W1=DWl, W2,...,Wp],。
4.如权利要求2或3所述的改进的极速学习模型的模式分类方法,其特征在于,步骤S34 中,该隐含层输出矩阵 Η=[Φ (W11Xl), ΦΦ (W1,?)],,其中 Φ (W11Xi)=I/exp (W1Xi), xi为样本矩阵的一行向量,η为正整数。
5.如权利要求3所述的改进的极速学习模型的模式分类方法,其特征在于,步骤4包括通过隐含层作用后矩阵的广义逆和输出类别相乘,获得输出层的权值。
6.如权利要求2所述的改进的极速学习模型的模式分类方法,其特征在于,随机数wil,wi2可以按照均匀分布,或者高斯分布来生成。
7.如权利要求2所述的改进的极速学习模型的模式分类方法,其特征在于,该数据包括图像信号数据、语音信号数据。
【文档编号】G06N3/12GK103914711SQ201410116579
【公开日】2014年7月9日 申请日期:2014年3月26日 优先权日:2014年3月26日
【发明者】苗军, 朱文涛, 卿来云 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1