基于迭代均值聚类的深度样本学习方法与流程

文档序号:16047829发布日期:2018-11-24 11:01阅读:492来源:国知局
本发明涉及人工智能技术,具体涉及到一种基于迭代均值聚类的深度样本学习方法。
背景技术
随着人工智能技术的发展,样本学习的方式也多种多样,样本学习方法的好坏严重影响着后续分类和回归的准确性。现有技术中的人工智能算法,大多数采用单一的样本数据集进行学习和训练,一方面,由于能够直接获取的学习样本数量有限,仅靠增加迭代次数来增强分类器或回归器的性能,效果有限;另一方面,现有学习样本的真伪程度也会对训练模型的性能产生严重的影响,如果将所有的学习样本同等的对待,难以避免伪样本对模型性能造成影响。为了避免伪样本的影响,也有人提出在线学习机制,如中国专利201010166225.6公开的一种基于在线学习的自适应级联分类器训练方法,首先采用少量样本训练初始级联分类器,然后将该分类器用于图像中的目标检测,由于训练样本较少,该分类器初始检测效果不好。但是,通过跟踪自动提取在线学习样本,采用自适应级联分类器算法对初始级联分类器进行在线学习,从而可以逐步提高该分类器在图像中进行目标检测的精度。并且通过跟踪使分类器在线学习的新样本可以自动获取并且自动标注,提高了分类器训练过程的智能化程度,大大减轻了人工标注样本类别的工作量。但是,通过在线学习这种机制,需要逐步的提取新的学习样本,增加了算法复杂度,而且算法性能的提升需要一个相对漫长的过程,初期性能相对较差。技术实现要素:为了解决上述问题,本发明提供一种基于迭代均值聚类的深度样本学习方法,在分类器或回归器的学习过程中,通过迭代均值聚类将原始样本分类为多个层次,每一层单独训练一个分类器或回归器,然后通过验证数据集分别进行验证,得到各个回归器的权重,从而确保最大化的学习和利用样本数据中的特性,提升模式识别或分类的准确性。为实现上述目的,本发明所采用的具体技术方案如下:一种基于迭代均值聚类的深度样本学习方法,其关键在于按照以下步骤进行:s1:选择训练数据,并通过n次迭代均值聚类算法处理得到n+1层训练样本子集,n≥1;s2:将每层训练样本子集独立进行回归训练,得到n+1个回归器;s3:选择验证数据,先将验证样本与每一层的样本空间进行欧氏距离相似性计算,从而将该验证样本转化为该层样本空间与之最相似的样本,并将这些样本分别送入n+1个回归器中得到n+1个验证结果;s4:基于加权融合机制确定每个回归器对应的最佳权重(w0,w1,…,wn);s5:获取测试数据,先将测试样本与每一层的样本空间进行欧氏距离相似性计算,从而将该测试样本转化为该层样本空间与之最相似的样本,再将这些样本分别送入步骤s2所得的n+1个回归器以及步骤s4所得的每个回归器对应的最佳权重得到最终的预测结果。进一步地,确定最佳权重(w0,w1,…,wn)时的约束条件为:可选地,所述迭代均值聚类算法采用k均值聚类。可选地,所述回归器模型采用支持向量机回归模型,核函数使用线性核函数或者径向基核函数。可选地,所述测试数据为待测对象的医疗数据,所述训练数据和验证数据选自uci等公共数据库,每个样本包括多个特征,所述预测结果为待测对象的标签值(整数或浮点数)。可选地,所述测试数据为待测对象的医疗数据,所述训练数据和验证数据选自uci等公共数据库中的糖尿病数据或心脏病数据,每个样本包括多个特征,所述预测结果为待测对象的年龄值。可选地,采用平均绝对误差mae来评价预测算法的性能,具体为:m表示测试数据的样本个数,aj表示第j个测试样本对应的实际值,a’j表示j个测试样本对应的预测值。本发明的显著效果是:本方法将学习样本经过多次迭代均值聚类得到不同的训练样本数据集,然后分别进行训练和学习,在相同样本数量的情况下,通过分层次训练和学习,有效增加了模型的学习能力,提升了分类或回归的准确性。附图说明图1为本发明提出的深度样本学习模型;图2为图1中迭代均值聚类模型;图3为具体实施例中年龄预测效果图。具体实施方式下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。本实施例以年龄预测为目的作详细介绍,选用来自uci数据库(http://archive.ics.uci.edu/)的两个数据集中的部分样本,一个是糖尿病数据集,简称md(mellitusdataset),另一个是心脏病数据集,简称hd(heartdiseasedataset)。心脏病数据集包括137个正常样本,每个样本包括14个特征;糖尿病数据集包括268个正常样本,每个样本包括8个特征。两个数据集详细的信息如表1所示。表1数据集的基本信息数目年龄范围(年)年龄均值(年)年龄标准差hd13734~7152.719.14dm26821~6629.9410.51每种类型的数据样本被随机均分为训练集,验证集,测试集100次,得到100组样本。在本次试验中,计算机操作系统为windows10,64位,8gb内存;实验平台是matlab,2016a。为了便于后续分析和说明,本实施例提出的算法,简称为paem,传统的算法简称为taem。本发明提出的方法可以结合不同的回归模型,特征选择算法,实例优化算法,评估标准,从而转化为其他各种具体的算法。本实施例采用支持向量机回归模型作为回归器,并且使用线性核函数和默认参数。从图1可以看出具体步骤包括(注:图中验证集和测试集为结合了深度样本空间之后的结果):s1:选择训练数据,并通过2次迭代均值聚类算法处理得到3层训练样本子集;s2:将每层训练样本子集独立进行回归训练,得到3个回归器;s3:选择验证数据,先将验证样本与每一层的样本空间进行欧氏距离相似性计算,从而将该验证样本转化为该层样本空间与之最相似的样本,再将这些样本分别送入3个回归器中得到3个验证结果;s4:基于加权融合机制确定每个回归器对应的最佳权重(w0,w1,w2);s5:获取测试数据,先将测试样本与每一层的样本空间进行欧氏距离相似性计算,从而将该测试样本转化为该层样本空间与之最相似的样本,再将这些样本分别送入步骤s2所得的3个回归器以及步骤s4所得的每个回归器对应的最佳权重得到最终的预测结果。具体地,步骤s1中迭代均值聚类算法的聚类过程类似k均值聚类,如图2所示,通过最小数据点和最近邻中心之间的距离来找到每个类的中心。迭代式均值聚类的核心思想:最小化所有样本到所属类别中心的欧氏距离和,采用迭代的方式进行收敛。给定训练样本:{x(1),x(2),...,xm},k均值聚类算法的具体步骤如下:1:选取k个聚类中心点,分别为μ1,μ2,...,μk2:根据下面公式计算每一个样本x的所属类别cj(1≤j≤k):3:根据下面公式更新每一类的中心,将μj更新为μ'j:4:不断重复步骤2,3,直至μj不再变化(收敛)5:针对每一次聚类所得的结果,通过增加一个零均值正态分布的随机噪声进行微调,从而得到下一个样本集合(样本空间)。图中y0是原始得而训练集,通过迭代均值聚类算法,分别得到其他两层样本y1,y2。利用各层的样本集得到三个回归器,基于验证集,可以得到相应的结果(r0,r1,r2),最佳的权重wop=(w0,w1,w2)可以通过公式(3)得到。确定最佳权重(w0,w1,w2)时的约束条件为:当回归器模型训练学习好之后,基于测试集,得到各层回归器的预测年龄a=(a0,a1,a2),通过融合权重(w0,w1,w2)得到最终的年龄af=wopta。测量算法的性能,采用平均绝对误差mae来评价预测算法的性能,具体为:m表示测试数据的样本个数,aj表示第j个测试样本对应的实际值,a’j表示j个测试样本对应的预测值。同时将本发明年龄检测机制好于传统年龄检测机制的次数记为score。详细信息如表2所示,mean表示平均值,std表示标准差。从表2可以看出,对于两个数据集,采用本发明所提方法进行年龄检测得到的mae的均值和标准差都比传统的要小,说明方法年龄预测机制预测的年龄比传统年龄预测机制的要更准确。同时,score值更大,可以从另一个方面,说明本方法的优越性。表2两个数据集预测年龄的结果图3显示的是表2的柱状图。它主要显示了本方法得到的预测年龄的差值和p值。从图3可以看出,两个数据集通过本文机制预测的年龄的mae更小,而且假设检验得到的p值都小于0.05,说明paem的预测年龄的mae在显著性水平上更好。最后需要说明的是,上述描述为本发明的优选实施例,本领域的普通技术人员在本发明的启示下,在不违背本发明宗旨及权利要求的前提下,可以做出多种类似的表示,这样的变换均落入本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1