一种整合经典模型用于样本降维的流形学习系统的制作方法

文档序号:13446881阅读:214来源:国知局
本发明涉及模式识别
技术领域
,尤其涉及预处理过程中对原始样本进行特征提取所采用的流形学习系统。
背景技术
:模式识别是研究利用计算机来模仿或实现人类或其它动物的识别能力,以便对研究对象完成自动识别的任务。近年来,模式识别技术已被广泛应用在人工智能、机器学习、计算机工程、机器人学、神经生物学、医学、侦探学以及考古学、地质勘探、宇航科学和武器技术等许多重要领域。可是,伴随应用领域的拓展,传统的模式识别技术面临新的挑战。其中一个突出的挑战来自数据预处理阶段,在该阶段,原始数据通过专门的特征处理方法将自身的特征处理到适合后续分类器处理的数量及数值。其中,特征提取是这类方法中应用最广,效果优异的方法。特征提取,是指通过映射的方法将原始特征数极大的样本变换到低维特征空间。映射后的特征称为二次特征,是原始特征的某种组合。因此,特征提取可以看作一种变换。使用特征提取对原始数据降维以获取更好的分类效果是模式识别领域一类常见处理方法,广泛应用于图像处理、视频追踪、数据分析、及医疗预测等领域。十年来,流形学习的思想被广泛应用于特征提取的诸多方法。流形学习是一类借鉴了拓扑流形概念的降维方法。“流形”是指在局部与欧式空间同胚的空间,因此在局部具有欧式空间的性质,能用欧氏距离来进行样本的相似度度量计算。降维方法中引入流形思想,是因为在高维空间的原始样本近邻间,仍存在局部的欧式空间性质。通过对样本局部建立映射关系,再推广到全局,就能将原始高维空间的样本关系保留到低维空间,从而实现降维。近年,流形学习存在三个具有代表性的线性方法:其一是局部保留投影算法(localitypreservingprojection),该方法改进自拉普拉斯特征映射方法,基本思想是在特征映射前后保持一个样本与其近邻的两两距离关系,使得全体样本在降维后保持与原始样本相近的拓扑关系;其二是线性判别分析方法(lineardiscriminantanalysis),该方法在特征映射时同时考虑最小化类内样本距离与最大化类间样本距离,以维持映射后样本的空间关系;其三是最大边界准则法(maximummargincriterion),该方法的基本思想与线性判别分析法一致,不过将目标函数的优化准则设为最大化边界准则,而不是局部保留投影法与线性判别分析法采用的广义瑞利商准则。目前,对这三种经典方法出现了多种改进及拓展。现有工作表面,这三种经典流行学习法存在共通点。具体而言,线性判别分析法与最大边界准则法均可视为是局部保留投影法的特例。目前,这三个经典方法在处理实际问题时仍然存在不足。最根本的的缺点是,包含三种原始方法及其推广方法在内的诸多流形学习方法,往往只适用于特殊需求的样本。没有一个方法能胜任所有的降维任务,更没有一个系统能自动根据不用任务提供对应的方法。技术实现要素:针对现存降维方法推广性差,应用面窄,无法自动调整参数或准则的选取策略等明显缺陷,本发明提供了一种能够整合三大经典流行学习降维方法的系统,该系统首先将不同的已知流行学习方法整合在一个框架内,然后对选取的训练样本进行降维处理,再根据处理后的样本在后续分类器中的表现反过来选择出系统框架中最适合的模型作为正式学习过程中的预处理模型。本发明解决其技术问题所采用的技术方案:首先后台根据具体问题描述,将采集到的样本转化成可以供该系统处理的向量模型。其次,将以向量表示的数据集分为训练数据集与测试数据集两部分。在训练步骤中,该系统首先使用基于其开发的不同模型对样本进行降维;其次,经过各方法降维的样本代入后续统一的分类器进行分类;接着,根据分类效果,该系统选择降维效果最好的那个模型。在测试步骤中,选定的模型首先对测试样本进行降维处理;其次,经过处理的模型被代入后续分类器进行识别。本发明解决其技术问题所采用的技术方案还可以进一步细化。所述训练步骤的第一阶段,由该系统构造的模型可以并不限于包含已有的经典模型。另外,每一个模型中用于调整模型各计算项的权重参数也是连续的。实践中,为兼顾计算效率及精确度,模型常用经典模型,而权重参数往往取有典型性的离散值。其次,由于许多流形学习模型在计算中存在共通点,例如都需要计算近邻关联矩阵,因此共通的步骤可以合在一起完成以大幅降低计算复杂度。最后,生成关联矩阵的样本相似度度量步骤,采用的相似度度量方法默认为欧氏距离。但根据不同情况,可以使用任意度量方式,例如余弦距离、马氏距离等。。本发明有益的效果是:通过设计一个完整的系统,统一了现存诸多具有代表性的流形学习模型;通过该系统生成可选择的模型对样本进行训练,能够精确找出适合当前问题的模型;整合不同模型形似的计算步骤,大大缩短调试时间;采用可选的度量方式生成关联矩阵,提高降维效果。附图说明图1是本发明整体流程图。具体实施方式下面结合附图和实例对本发明作进一步介绍:本发明所设计的系统共分四个模块。第一部分:数据采集数据采集过程是将现实样本数据化,生成向量表示的数据集便于后续模块进行处理。在该步骤中,将采集到的样本分为训练样本与测试样本。先处理训练样本。一个训练样本生成一个向量其中,i表示该样本是总训练样本的第i个,c表示该样本属于第c个类。向量的每一元素对应样本的一个属性,向量的维度d为样本的属性数。为方便后续计算,将所有训练样本合成一个训练矩阵x,该矩阵中,每一列是一个样本。第二部分:训练分类模型在这个模块中,上一模块生成的训练样本矩阵将被代入发明的核心算法中进行训练。主要步骤如下:1)计算当前训练样本的基本统计属性:在这个步骤中,后续步骤不同流形学习模型所需要的共同数据将被计算并存储。这些数据包括:第c类样本的质心,其中nc表示该类训练样本个数:各类训练样本质心的均值,其中c表示类别数:类间散度矩阵sb:类内散度矩阵sw:样本相似度关联矩阵a:针对关联矩阵a进行计算的对角阵d:dii=∑jaji样本相似度关联矩阵b:针对关联矩阵b进行计算的对角阵e:样本相似度关联矩阵ab:拉普拉斯矩阵l:l=d-a拉普拉斯矩阵h:h=e-b拉普拉斯矩阵lb,其中的计算方法与对角阵d的计算方法完全一致:lb=db-ab2)利用已经计算得到的项优化基于所提方法构造出的各种流形学习模型:为方便叙述及示例,在此给出一种模型构造思路,基于这种思路构造出的模型具体参考下表:表中列出了所提发明构造出的模型名称,每个模型对应的目标特征方程形式,以及采用的准则。其中,标记为m的准则表示该方法在优化时使用最大边界准则,标记为r的准则表示该方法在优化时使用广义瑞利商准则。为统一计算策略,所有特征方程的优化目标都是对数据进行最大化优化。注意到名称中带有new字样的模型不是现存模型,而是由所提发明首次构造得到的模型。而其余有名字的模型都是现存经典模型,包含lda,dlpp,,mmc,dlpp/mmc等。另外可见方程中有参数α与β用于微调,在实践中,α可经验地从0.5,1,2,10,100的范围内选取,β可经验地固定为1。为精炼,表中所有模型可概括为以下目标方程:方程中,w即为目标投影向量。opt表示选择的优化准则函数。opt=r表示使用广义瑞利商准则,opt=m表示使用最大边界准则。另外,term1与term2即为当前使用模型的类间与类内项,具体见下表:将训练样本代入各模型进行降维:这一步可以并行计算以提高训练速度。将经过降维处理的各数据集代入相同设置的分类器进行处理,以验证模型:这一步可以并行计算以提高训练速度。当每个流形学习模型处理后的样本代入对应的分类器取得预测结果后,通过统计哪一个模型得到的结果最好,便可以选出最适合当前问题的降维模型。选出那个模型用于后续测试环节。实验表明,由上表生成的所有模型中,,名为mnew5的模型取得了最佳验证结果,将作为整个系统的模型代表参与后续测试过程。。第三部分:测试未知数据该模块一共分三步,首先将第一模块中随机划分出的另一半样本作为测试样本构成测试样本矩阵;将这个矩阵代入第二模块中选定的流形学习模型进行降维处理;最后,将处理好的模型代入后续分类器进行分类。实验设计1)实验数据集选取:该实验选择了四个经典图像数据集。选取数据集的类数目、样本维度、规模(样本总数)列在下表中。所有使用的数据集均采用蒙特卡洛十轮交叉迭代方式处理,即将数据集各类分为两份并使样本顺序打乱,一份作为测试数据,另一份为训练数据,重复十次。抽取方式为有放回抽取。在实验中,通过对比两份的不同比例,观察各分类模型在实际应用中的效果。例如用于训练的样本数远小于用于测试的样本数时,不同分类模型的分类精确度是多少。所有使用的数据集均采用十折交叉方式处理,即将数据集分为大致均匀的十份,每一次选择其中一份作为测试数据,另外九份为训练数据。不重复选取测试数据十次。对每一个数据集,设定两个降维目标,将原始维度分别降至81与144维。2)对比模型:该发明所提出的系统命名为gmfllm。另外,我们选择七个经典的降维模型mmc、lda、lpp、nlpp3、dlpp、dlpp/mmc、flpp作为对比,这些模型对应的目标特征方程如下表所示:3)性能度量方法:实验统一使用受试者工作特征曲线线下面积(theareaunderthereceiveroperatingcharacteristiccurve,auc)来记录不同方法对各数据集的分类结果。结果均为对应算法在该数据集上使用最优参数配置时获得的结果,即最优结果。auc的计算公式为:其中tp为真正类率,fp为假正类率,tn为真负类率,fn为假负类率。四个指标的关系如下表:真预测值假预测值正类tpfn负类fptn实验结果所有模型在各图像数据集上降维后进行分类的结果如下表所示。注意表中最后一行的mnew5即为gmfllm中生成的最优模型,其代表gmfllm在当前问题中的最佳性能。表中数据是auc指标度量下的预测结果及其均方差,每一列对应一个数据集,每一行对应一个模型。表中每个结果的最优值以黑体表示。另外,我们为上表中的结果进行排名,并统计每个模型的平均排名结果为下表。其中,得分越高说明由模型降维处理后的样本在最终分类时结果越好。表格中最高分用粗体标出。由得分统计表可知,gmfllm虽然在个别数据集上并未取得最佳效果,但在所有数据集上体现的稳定性使其最终在不同目标维度上都得到最高分数。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1