基于混沌深度小波网络的数据分类方法与流程

文档序号:11623756阅读:245来源:国知局
基于混沌深度小波网络的数据分类方法与流程
本发明属于数据分类技术领域,特别涉及数据处理分析和分类的方法,具体是一种基于混沌深度小波网络的数据分类方法,可用于数据分类、图像分类、场景分类、目标识别及数据预测分析。

背景技术:
数据分类技术是很多工程和研究工作的基础,将数据较好地按照类别划分可以更好地得到对目标的描述,对后续数据处理的方法有重要的作用。皇家飞利浦电子股份有限公司申请的专利“一种用于对生物分子数据进行分类的分类系统”(专利申请号:CN200980114561,公开号:CN102016881B)中公开了一种用于对生物分子数据进行分类的分类系统。该系统的输入端接收待分类样本的多个特征和多个相应的误差估计。统计模块将概率密度函数与所述特征相关联,其中所述概率密度函数的方差依赖于所述误差估计。复制模块产生所述样本的多个扰动的副本,其中所述特征根据对应的各个概率密度函数被随机扰动。分类器基于所述扰动的特征对所述扰动的副本进行分类。分析器基于对所述分类的副本的统计分析将待分类的样本进行分类以获得样本分类。其仍然存在的不足是,该系统的构建模型较为复杂,而且对于数据特征的提取需要人工参与,容易产生不确定因素,进而会影像分类结果的准确率。哈尔滨工业大学申请的专利“基于深度学习的高光谱遥感数据分类方法”(专利号:201410359935)公开了一种基于深度学习的高光谱遥感数据分类方法,该方法首先对高光谱原始数据进行处理获得高光谱原始数据的光谱特征向量和空间特征信息;再对所述光谱特征向量和空间特征信息进行整合;由高光谱整合数据确定标记样本,并由标记样本中选择训练样本和测试样本;使用训练样本对构成深层网络的多层限制玻尔兹曼机进行预训练;使用训练样本对多层限制玻尔兹曼机构成的网络进行有监督学习;将测试样本输入微调后的多层限制玻尔兹曼机构成的网络,实现高光谱遥感数据的分类。该方法在一定程度上解决了现有对蕴含非线性特征的高光谱数据进行分类的方法存在分类精度低的问题,但是仍然存在的不足是,网络学习时间较长,网络参数寻优的时间复杂度较高。

技术实现要素:
本发明的目的在于克服上述现有技术中在数据分类时对分类数据特征提取方面需要人工参与容易导致不确定性的问题,提出了一种高效的自动提取特征,正确率高,可移植性强的基于混沌深度小波网络的数据分类方法。本发明的目的和思路叙述如下:通过构建混沌深度小波网络,通过网络中小波能量提取层对输入数据小波域能量值的提取,获得输入数据更丰富的特征表述;同时用混沌模拟退火方法对该网络进行训练,这样的训练方式对于网络参数的寻优具有更快速高效的性能。本发明与现有技术中其他数据分类方法相比,能够克服现有技术中对于特征提取过程中由于人工参与过多而导致的不确定性,本发明分类准确度高,自动化程度高,可移植性强。为实现上述目的,本发明的技术方案包括如下方法:本发明是一种基于混沌深度小波网络的数据分类方法,其特征在于,包括有如下步骤:步骤1输入待处理数据,根据该数据建立数据分类所用数据集,包括分别建立训练集U和测试集V;步骤2构建混沌深度小波网络,设定该网络具有1个输入层和1个输出层,在输入层和输出层之间具有1个小波能量提取层和n个自编码特征抽象层,组成小波能量提取层的是小波元,组成自编码特征抽象层的是自编码元;步骤3划分该网络的层次,对小波能量提取层和自编码特征抽象层的参数逐层进行分层主动学习,所用训练数据为训练集U中的样本;在逐层主动学习的过程中,用混沌模拟退火算法对网络的参数进行寻优:3a设定混沌搜索步长C、混沌终止条件Cmin、退火的初始高温T、寻优迭代停止条件设为温度达到最小值Tmin,计算网络的当前能量;3b设定网络评价标准,即损失函数,作为判定网络是否达到稳定的标志:其中,y为有标签数据的类别标签,hw,b(x)为输入x经过网络后的输出,该式代表的是预测标签和类别标签的差别;3c判断当前温度T是否达到温度的最小值Tmin,若已达到,则退出循环,执行步骤5;若没有达到,则转入步骤3d;3d前向运行当前网络,计算损失函数L,记为当前网络的能量E(j);3e按照以下条件为标准,判定当前网络的能量改变能否被接受:若E(j)≤E(i),则接受该状态的改变,将当前的网络的参数记录,作为待应用网络;若E(j)>E(i),则状态改变以概率被接受,将当前的网络参数记录,作为待应用网络;其中E(j)为当前状态网络的能量值,E(i)为前一状态网络的能量值,K是波尔兹曼常数,T是当前网络的温度;3f判断当前损失函数是否满足混沌终止条件Cmin,若满足,则将搜索步长更新为较小的步长;若不满足,则根据Logistic映射对搜索空间进行进一步的搜索;转入步骤3d进行迭代运算,直到网络稳定为止;步骤4将分层主动学习获得的小波能量提取层和自编码特征抽象层的当前最优参数分别赋给混沌深度小波网络的各级对应层,得到初始混沌深度小波网络;步骤5将训练集U中的样本输入到已得到的初始混沌深度小波网络,再次用混沌模拟退火算法对网络的参数进行学习和训练,得到一个用于分类的混沌深度小波网络;步骤6将测试集V中的样本输入混沌深度小波网络,得到该测试集V中各样本的分类结果。本发明的实现还在于:其中步骤1所述的数据集,每个样本的输入向量是原始数据的基本特征构成的M*1维列向量,输出向量为该样本所属的类别标签;所有数据构成测试集V,随机选取有标签数据的3%做为训练集U。本发明的实现还在于:其中步骤2所述的构建混沌深度小波网络,输入层直接与小波能量提取层连接,通过小波能量提取层的作用得到输入数据在小波域的能量值f0;小波能量提取层直接与自编码特征抽象层的第一层相连,将f0输入到自编码特征抽象层的第一层,得到的是中级特征f1,自编码特征抽象层的2~n层得到的结果记为高级特征f2,f3,…,fn,其中fn记为网络中用于分类的终级特征;自编码特征抽象层的第n层直接与输出层相连,将fn输入到输出层的分类器,经过输出层得到对输入数据的分类结果。本发明的实现还在于:其中步骤2所述的小波元,其构成方式为小波和网络神经元直接融合的方式,选用Morlet小波作为激活函数:其中,a和b代表尺度和平移系数。本发明的实现还在于:其中步骤2所述的自编码元,选用Sigmoid函数作为激活函数:本发明的实现还在于:其中步骤3f所述的若损失函数满足混沌终止条件Cmin则将搜索步长更新为较小的步长,是随机产生一个0-1之间的随机数P,计算P*C所得到的即为这个较小的步长,接着对网络进行学习和训练,其中C为步骤3a中设定的混沌搜索步长。本发明提供了一种基于混沌深度小波网络的数据分类方法,在方法的实现过程中,不仅提供了一种混沌深度小波网络,而且提供了对于该网络学习时的一种优秀算法。将所述网络用于数据分类应用,不仅增加了数据分类技术模型选择的多样性,而且实现了数据分类结果的快速获取。本发明与现有的技术相比具有以下优点:1、本发明构建混沌深度小波网络逐层提取输入数据的高级特征,由网络自主学习完成,克服了传统方法中需要人工设定提取特征的复杂性,以及人工参与过多所带来的不确定性,自动化程度更高;2、本发明通过构建小波能量提取层集中提取输入数据的小波能量值做为输入数据的初级特征,克服了自编码器中只对数据空域特征向量分析的局限性,增加了数据表达的多样性,更加易于提高分类结果的精确度;3、本发明运用混沌模拟退火的方法对深度小波网络参数进行寻优,从根本上克服了网络训练中传统方法容易陷入局部最优的问题,并且引入混沌思想加速网络参数的训练,大大降低了网络训练的时间。附图说明图1是本发明的流程框图;图2是本发明的混沌深度小波网络构建图;图3是本发明对极化SAR影像数据进行仿真得到的极化SAR影像地物分类结果;图4是本发明与其它方法对极化SAR影像数据进行仿真得到的极化SAR影像地物分类结果柱状对比图;图5是本发明与其它方法对UCI数据集中7个数据集进行仿真得到的分类正确率柱状对比图。具体实施方式下面结合附图对本发明做进一步的详细说明。实施例1:本发明提出了一种基于混沌深度小波网络的数据分类方法,在下面的描述中,假设待处理数据已经过处理表示为双精度数据,所有数据输入向量已通过归一化处理得到样本的统计分布特性;假设待处理数据的类别标签已按照0/1的方式将其表示,能够实现网络输出层的节点表达;假设已经根据输入数据的特征和规模设定了混沌深度小波网络的深度层数以及各层深度中节点的个数;假设网络构建及学习是在配置为Intel(R)Core(TM)2DuoCPUT5550@1.83GHz、3.00GBRAM的电脑上运行,其缓存空间足够且不被占用;假设所用软件平台为MatlabR2012a,能够运行海量数据的规模;假设Matlab工具包中已安装LibSVM工具包,能够实现LibSVM的扩展应用。在下面的实施例中,仿真所使用的数据为NASA/JPL实验室AIRSAR系统于1989年获取的荷兰中部Flevoland地区真实农田区域的L波段全极化数据,其输入数据来源于该极化SAR影像的相干矩阵T,该相干矩阵T对于每一个像素点的描述为一个3*3的复数矩阵,该复数矩阵中的每一个元素的实部和虚部分别被提取出来作为该像素点输入向量的构成,共15维,同时由于仿真图中包含有6种不同的地物类别,则对该极化SAR影像数据的分类输出为6类的地物分类结果。本发明是一种基于混沌深度小波网络的数据分类方法,参见图1,其数据分类过程包括有如下步骤:步骤1输入待处理数据,根据该数据建立数据分类所用数据集,包括分别建立训练集U和测试集V;通过分类训练集对网络参数进行训练,通过分类测试集对网络性能进行测试,有助于网络的评价和性能。步骤2构建混沌深度小波网络,设定该网络具有1个输入层和1个输出层,在输入层和输出层之间具有1个小波能量提取层和n个自编码特征抽象层,组成小波能量提取层的是小波元,组成自编码特征抽象层的是自编码元。该网络的构建参数是根据待处理数据的特征来确定的,具有针对性,能够更好地实现数据的分类。步骤3划分该网络的层次,对小波能量提取层和自编码特征抽象层的参数逐层进行分层主动学习,分层学习的好处能够通过对每一层逐层训练得到网络的初始参数,能够解决在网络训练过程中不易收敛的问题。所用训练数据为训练集U中的样本,在逐层主动学习的过程中,用混沌模拟退火算法对网络的参数进行寻优:3a设定混沌搜索步长C、混沌终止条件Cmin、退火的初始高温T、寻优迭代停止条件设为温度达到最小值Tmin,计算网络的当前能量;3b设定网络评价标准,即损失函数,作为判定网络是否达到稳定的标志:其中,y为有标签数据的类别标签,hw,b(x)为输入x经过网络后的输出,该式代表的是预测标签和类别标签的差别;3c判断当前温度T是否达到温度的最小值Tmin,若已达到,则退出循环,执行步骤4;若没有达到,则转入步骤3d;3d前向运行当前网络,计算损失函数L,记为当前网络的能量E(j);3e按照以下条件为标准,判定当前网络的能量改变能否被接受:若E(j)≤E(i),则接受该状态的改变,将当前的网络的参数记录,作为待应用网络;若E(j)>E(i),则状态改变以概率被接受,将当前的网络参数记录,作为待应用网络;其中E(j)为当前状态网络的能量值,E(i)为前一状态网络的能量值,K是波尔兹曼常数,T是当前网络的温度;3f判断当前损失函数是否满足混沌终止条件Cmin,若满足,则将搜索步长更新为较小的步长;若不满足,则根据Logistic映射对搜索空间进行进一步的搜索;转入步骤3d进行迭代运算,直到网络稳定为止。步骤4将分层主动学习获得的小波能量提取层和自编码特征抽象层的当前最优参数分别赋给混沌深度小波网络的各级对应层,得到初始混沌深度小波网络。步骤5将训练集U中的样本输入到已得到的初始混沌深度小波网络,再次用混沌模拟退火算法对网络的参数进行学习和训练,得到一个用于分类的混沌深度小波网络。步骤6将测试集V中的样本输入混沌深度小波网络,得到该测试集V中各样本的分类结果。本发明是一种基于混沌深度小波网络的数据分类方法,在该方法实施的过程中,不仅提供了一种混沌深度小波网络,而且提供了对于该网络学习时的一种优秀算法。首先构建混沌深度小波网络,并且运用混沌模拟退火的方法对混沌深度小波网络的参数进行寻优,用模拟退火算法以一定概率的方式接受网络状态的次优变化,从根本上克服了网络训练中传统方法容易陷入局部最优的问题,同时引入混沌的思想在寻优空间中实现全局遍历,加速了网络参数的训练,大大降低了网络训练的时间。本发明同时也解决了现有分类方法人工参与过多、分类正确率较低和可移植性不强的问题。实施例2:基于混沌深度小波网络的数据分类方法同实施例1,步骤1中提及的数据集,每个样本的输入向量是原始数据的基本特征构成的M*1维列向量,输出向量为该样本所属的类别标签;所有数据构成测试集V,随机选取有标签数据的3%做为训练集U。本例中待分类数据共有81000个,其中有标签数据共41659个作为数据分类测试集,随机选取1200个有标签样本作为数据分类训练集,这样选的好处在于用较少的样本训练网络参数以实现对较多样本的分类预测,既降低了网络训练的时间,又能得到较高的分类性能,是一种较好的选择方式。实施例3:基于混沌深度小波网络的数据分类方法同实施例1-2,步骤2中提及的构建混沌深度小波网络,参照附图2,网络具有1个输入层和1个输出层,在输入层和输出层之间具有1个小波能量提取层和n个自编码特征抽象层。输入层直接与小波能量提取层连接,通过小波能量提取层的作用得到输入数据在小波域的能量值f0;小波能量提取层直接与自编码特征抽象层的第一层相连,将f0输入到自编码特征抽象层的第一层,得到的是中级特征f1,自编码特征抽象层的2~n层得到的结果记为高级特征f2,f3,…,fn,其中fn记为网络中用于分类的终级特征;自编码特征抽象层的第n层直接与输出层相连,将fn输入到输出层的分类器,经过输出层得到对输入数据的分类结果。本例中自编码特征抽象层的层数n取值为3。输入层直接与小波能量提取层连接,通过小波能量提取层的作用得到输入数据在小波域的能量值f0;小波能量提取层直接与自编码特征抽象层的第一层相连,自编码特征抽象层的第一层得到的是中级特征f1,自编码特征抽象层的2~3层得到的结果记为高级特征f2,f3,其中f3记为网络中用于分类的终级特征;自编码特征抽象层的第3层直接与输出层相连,输出层得到的输出即为对输入数据的分类结果。网络的输入层节点的设置为输入数据的维数,以仿真中极化SAR影像数据处理为例,输入层节点设置为15,小波能量提取层节点设置为300,提取输入数据的300个不同尺度和位移的小波能量值。之后,小波能量提取层直接与自编码特征抽象层的第一层相连,将300个小波能量值输入自编码特征抽象层,自编码特征抽象层节点数逐层依次设为200、150、80,自编码特征抽象层的最后一层直接与输出层相连,由于仿真图中包含有6种不同的地物类别,因此输出层对应的6个节点得到的结果即为对输入数据的分类结果。实施例4:基于混沌深度小波网络的数据分类方法同实施例1-3,步骤2中提及的小波元,其构成方式为小波和网络神经元直接融合的方式,激活函数可以选用任意一种小波函数作为激活函数,本例中采用Morlet小波作为激活函数:其中,a和b代表尺度和平移系数。本例中对于a和b的初始值通过随机产生,并在参数寻优的过程中通过迭代计算不断更新a和b的值。实施例5:基于混沌深度小波网络的数据分类方法同实施例1-4,步骤2中提及的自编码元,其激活函数为Sigmoid函数:本例中,是将自编码特征抽象层的每一个神经元的激活函数,设置为上述表达式所表示的Sigmoid函数。实施例6:基于混沌深度小波网络的数据分类方法同实施例1-5,步骤3f中提及的若损失函数满足混沌终止条件Cmin则将搜索步长更新为较小的步长,是随机产生一个0-1之间的随机数P,计算P*C所得到的即为这个较小的步长,接着对网络进行学习和训练,其中C为步骤3a中设定的混沌搜索步长。本例中,设定步骤3a中的各参数为混沌搜索步长C为3,温度最小值Tmin为0.001,混沌终止条件Cmin为3*Tmin,因此,在步骤3f中,在产生随机数P之后得到的这个较小的步长值计算为P*C=P*3。实施例7:基于混沌深度小波网络的数据分类方法同实施例1-6,设置两组不同数据的仿真实验和对比算法,通过本发明对极化SAR影像地物分类结果和对UCI数据库中7个不同数据集的分类结果统计,均可以证明本方法分类正确率高、学习时间快、可移植性强等优点。本发明可以通过以下仿真实验来进行验证:1.仿真条件:仿真实验采用数据:数据1:NASA/JPL实验室AIRSAR系统于1989年获取的荷兰中部Flevoland地区真实农田区域的L波段全极化数据,大小为270×300,主要包括6种地物类别,分别为裸土、土豆、甜菜、豌豆、小麦和大麦。数据2:UCI数据库中的7个数据集,分别是ImageSegmentation、WaveformDatabaseGenerator、PageBlocksClassification、Abalone、Pen-BasedRecognitionofHandWritten、Statlog(LandsatSatellite)、Waveformwithnoise。硬件平台:Intel(R)Core(TM)2DuoCPUT5550@1.83GHz、3.00GBRAM;软件平台:MatlabR2012a;2.仿真实验结果与分析:本发明属于数据分类技术应用研究,理论上可以实现多种数据的分类应用,因此,在仿真部分针对目前实际应用性较强的极化SAR图像分类和分类评判标准较权威的UCI数据集分类两个方面进行验证,体现本发明方法的高效和性能。仿真1,用本发明方法对数据1NASA/JPL实验室AIRSAR系统于1989年获取的荷兰中部Flevoland地区真实农田区域的L波段全极化数据进行分类,并与现有H/a-wishart方法、Freeman方法和自编码器进行比较,结果如图3,其定量分析结果对比表如表1所示,柱状对比图如图4。表1极化SAR图像分类结果对比本例中得到的本发明最终评价数据和其他三种方法得到的分类结果列在表1中,对比方法分别为极化SAR影像地物分类中的两种经典方法H/a-wishart方法和Freeman方法,以及深度学习中的经典方法自编码器。表1中由上到下依次为各方法的训练时间、测试时间、各类地物分类正确率和分类总体正确率的对比。由于H/a-wishart方法和Freeman方法属于无监督方法因此没有训练时间和测试时间的含义,因此在时间方面可以对比分方法和自编码器方法,本方法的训练时间仅为1101.50s,相较于自编码器方法的3185.1s来说是一个很有优势的时间,而在测试时间来看,两者时间相差无几。对比各类地物的分类正确率,从每一类的分类精度结果看,对于区分度高的类别,四种方法的分类精度不相上下。对于H/a区分效果好而Freeman区分效果差的第三类甜菜类,以及对于Freeman区分效果好而H/a区分效果差的第六类大麦类,自编码器和本方法均能达到良好的效果。特别的,在传统分类方法无法区分出的第一类裸土类,本方法的分类正确率远远高于其他三种方法。从分类总体正确率来看,本方法较传统两种方法提高近20个百分点,较自编码器方法提高近4个百分点。并将本方法和其他三种方法得到的分类结果的分类正确率画成柱状图在图4中展示,其中柱状图由左到右依次为H/a-wishart方法、Freeman方法、自编码器和本发明方法得到的分类正确率,直观可见本发明在分类总体正确率方面相较于其他三种方法分类正确率高的优点。由图3、图4和表1可见,本方法在极化SAR图像的分类方面正确率远远高于其它方法,而且在时间方面也有很大的优势。其中,图3展示了本发明对于该幅极化SAR影像数据所有待分类数据的分类结果,其中图3(a)为极化SAR影像原始数据地物表示,图3(b)为原始数据标签图,图3(c)为本发明对于该幅极化SAR影像数据所有待分类数据的分类结果的伪彩图表示。可见,对于左上角的裸土区域的分类效果和边界数据的分类效果,本发明具有明显的效果。仿真2,用本发明方法对UCI数据库中7个数据集进行分类,并与现有的SVM方法和自编码器的分类结果进行对比,定量分析对比表如表2所示,柱状对比图如图5。其中,对各数据集的描述如下:数据集1.ImageSegmentation:该数据集由美国Massachusetts大学于1990年采集于7幅户外图像。数据集中每个数据的特征表达为维数19维的向量,所有数据共分为7个类别,分别是砖面、天空、树枝、水泥、窗户、路径和草地。实验用训练集数据个数为210,其中每个类别选用30个样本;测试集数据个数为2100,其中每个类别300个样本。数据集2.WaveformDatabaseGenerator:该数据集由美国加州Wadsworth国际小组于1988年波形数据库产生器。数据集中每个数据的特征表达为维数21维的向量,所有数据共分为3个类别,分别代表三种不同的波形数据。实验用训练集数据个数为1500,测试集数据个数为5000。数据集3.PageBlocksClassification:该数据集由意大利Bari大学于1995年采集的包含文件页面的所有区域的数据。数据集中每个数据的特征表达为维数10维的向量,所有数据共分为5个类别,分别是文本、水平线、图表、垂直线和图片。实验用训练集数据个数为1060,测试集数据个数为5473。数据集4.Abalone:该数据集由澳大利亚Tasmania大学计算机科学系于1995年采集用于根据物理测量预测鲍鱼的年龄,数据集中每个数据的特征表达为维数8维的向量,所有数据共分为3个类别。实验用训练集数据个数为1500,测试集数据个数为4177。数据集5.Pen-BasedRecognitionofHandWritten:该数据集由土耳其Bogazici大学计算机工程系于1998年采集,用于手写体识别。数据集中每个数据的特征表达为维数16维的向量,所有数据共分为10个类别。实验用训练集数据个数为7494,测试集数据个数为3498。数据集6.Statlog(LandsatSatellite):该数据集由Strathclyde大学统计与模型科学系于1993年采集于人造卫星图像,数据集中每个数据的特征表达为维数36维的向量,所有数据共分为7个类别,分别是红土、棉花作物、灰土、潮湿土壤、农作物土地、混合类别和非常潮湿土壤。实验用训练集数据个数为4435,测试集数据个数为2000。数据集7.Waveformwithnoise:该数据集由美国加州Wadsworth国际小组于1988年波形数据库产生器。数据集中每个数据的特征表达为维数40维的向量,为加了噪声的波形数据,所有数据共分为3个类别。实验用训练集数据个数为1500,测试集数据个数为5000。表2UCI数据集分类正确率对比图5和表2列出了本发明和SVM、自编码器两种经典方法对于UCI数据集的分类总体正确率,可以看出,对于多数数据集来说,本发明的分类正确率优于其他两种方法。综上关于对极化SAR数据和对UCI数据集的分类结果,都可以证明本发明在数据分类方面的优秀性能。综上,本发明的基于混沌深度小波网络的数据分类方法,在方法的实现过程中,不仅提供了一种混沌深度小波网络,而且提供了对于该网络学习时的一种优秀算法。主要解决现有分类方法人工参与过多、分类正确率较低和可移植性不强的问题。其实现思路是:构建混沌深度小波网络,逐层提取输入数据在不同深度层次的特征;在网络学习时用混沌模拟退火算法对分层网络和整体网络参数寻优得到分类网络;将待分类数据输入网络得到分类结果。通过构建混沌深度小波网络,通过小波能量提取层提取输入数据的小波域能量值,获得输入数据更丰富的特征表述;同时采用深度小波网络自动对数据进行特征提取,避免了人工参与过多导致的不确定性因素,提高了分类正确率;训练网络时用混沌模拟退火方法,该方法对于网络参数的快速寻优具有更快速高效的性能。本发明可移植性强,普适性强,可用于数据分类、图像分类、场景分类、目标识别及数据预测分析。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1