一种核集成优化分类方法

文档序号:6655071阅读:314来源:国知局
专利名称:一种核集成优化分类方法
技术领域
本发明属于人工智能领域,涉及一种核集成优化分类器及其分类方法,具体地说 是涉及一种基于核函数集成分类器及其整体参数优化方法。
背景技术
机器学习方法在生产、科研和生活中有着广泛应用,而集成学习则是机器学习的 首要热门方向。集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果 进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。支持向量机(SVM) 是一种泛化能力很强的分类器,它在解决小样本分类问题方面表现出许多特有的优点。支 持向量机集成学习算法,克服了单一支持向量机由于样本特征数选择不适当而产生的过学 习和久学习现象,近年来已经成为一个热门的研究课题。核主元分析方法(KPCA)是一种 新的非线性特征提取方法,它基于核函数原理,通过非线性映射将输入空间投影到高维特 征空间,然后在高维特征空间中对映射数据作主元分析,提取数据特征,去除冗余信息。将 KPCA和SVM相结合能充分发挥各自的优势。KPCA和SVM的性能依赖于学习机的参数,且其参数的选取对于经验的依赖性比较 强,到目前为止,还没有指导整体参数选择的统一方法。针对SVM参数调整,专利“数控机床 的热误差最小二乘支持向量机建模方法”(申请号为200810163141. X)LS_SVM选择RBF核, 构建可调参数Y和S的网格搜索,这种方法简单,但是搜索没有方向,另外,在网格搜索范 围内未必获得全局最优参数组合。专利“基于支持向量机的药物分子药代动力学性质和毒 性预测方法”(申请号为200810045708.幻使用共扼梯度法对惩罚函数C和核函数γ进行 SVM参数优化,但这种方法容易陷入局部最优。人工免疫克隆优化算法(ICSA)是模仿生物免疫系统功能的一种智能方法,提 供了类似生物免疫系统的噪声忍耐、无教师学习、自组织、记忆等进化学习机理,为解决 复杂的多目标优化问题提供了新的方案,相比其它智能优化算法具有寻优成功率高、个 体多样性好的特点。本发明设计了免疫克隆算法对KPCA-SVM集成分类器进行整体参数 调整。这项发明不同于以下发明专利专利“免疫克隆智能多用户检测方法”(申请号为 200710018573. 7),针对在多用户检测中远近效应、多址干扰问题,利用免疫克隆算法解决 了第三代移动通信中码分多址系统的多用户检测问题,但本发明中的参数优化算子所用亲 和度、克隆计算、变异等算子完全不同于该专利。专利“一种多核支持向量机分类方法”(申 请号为200710177097.幻,主要通过多个核函数来提高支持向量机处理复杂数据的能力,将 多核支持向量机问题转化为半无限线性规划问题,并通过一种全局收敛的方法进行求解。 该方法强调的是多个核函数引入,提升异构数据的处理能力。本发明与该方法不同,在本 发明中不强调多核的使用,而是分类集成、整体参数调整的问题。专利“使用多个支持向量 机从多个数据组中提升知识发现”(申请号为00808062),强调多个支持向量机在数个数据 组中的使用,而本发明的集成的概念并不是指多个支持向量机的集成,而是指数据的降维 和分类及其优化的集成。专利“结合支持向量机以及近邻法的模式分类方法”(申请号为200710098867.幻,通过SVM的二次优化训练算法获得支持向量;将获得的支持向量设置为 代表点,计算待识别样本和代表点的距离差,判断距离差是否大于预置的分类阈值,如果大 于,则直接用SVM分类算法对待识别样本进行模式分类;否则在全部所述代表点中寻找与 所述待识别样本之间距离最近的k个代表点对待识别样本进行模式分类。此专利是对支持 向量的二次利用,然后集成近邻法进行模式分类,与本发明的整体参数优化,降维分类研究 的目标不一样。

发明内容
本发明的目的提供一种核集成分类优化方法,将数据映射到高维特征空间,利用 核机器降维、分类、参数整体优化实现对数据自动优化分类。本发明一种核集成优化分类方法,依次包括以下步骤数据预处理、核函数选择、 数据序列特征提取、数据分类、优化整体参数和预测。其中数据预处理负责数据的规范化处 理;核函数选择模块负责自动从常用的核函数中选择适应数据的核,包括有线性核、多项式 核、径向基核函数、谱核、Sigmoid核函数;数据特征提取模块采用KPCA算法,在高维特征空 间中去除复共线性与冗余信息,对数据特征抽取;数据分类采用SVM方法;优化整体参数利 用免疫克隆算法;预测模块是对新的输入数据带入模型进行预测,将分类结果显示给用户。 在这六个模块中整体的参数的优化调整是本发明的核心。下面是其依次包括的步骤(1)用户提交分类请求的数据给数据预处理模块;数据预处理模块对数据进行缺 失数据估算填补,识别离群点,剔除不一致性数据,最后数据归一化处理,并将数据随机分 成四份,前三份作为分类训练数据,最后一份作为分类测试数据;(2)用户从核函数库中选择核主分量分析核函数和支持向量的核函数,其中核函 数库有线性核函数、多项式核函数、径向基核函数、谱核函数和Sigmoid核函数,默认选择 核主分量分析核函数为径向基核函数,核函数初值为1 ;默认选择支持向量机的核函数为 线性核函数;(3)将预处理后那三份分类训练数据,借助已经选择的核函数,在高维特征空间 中,给定核函数参数以及主元个数选定个数的初值(主元个数为整数,且1 <主元个数<训 练样本个数),用KPCA方法去除复共线性与冗余信息,获取训练样本在主分量上投影,作为 分类鉴别模型的输入;(4)在高维特征空间中,给定SVM核函数参数初值、惩罚因子C初值,利用 SVM分类器,对训练样本已在KPCA主分量上投影值进行分类训练,获得分类超平面
η
f(x) = sgn(Yja°yi(K(xj,x))-b0)其中sgn是符号函数,。为非零支持向量;K(Xi,χ)为核函
,=1,QT1
数…为输入的原分类值;b。= W0 'X-l/ys,W0 =Z^ylXl,Xs为一个特定的非零支撑向量;
i=l(5)基于免疫克隆优化算法调整整体参数,包括KPCA核参数,KPCA中主元个数m, 以及SVM中核参数和惩罚因子C,获取最佳分类参数组合,输出最优分类超平面;具体过程 随机产生规模为s个A(k) = (νι; v2, v3, v4)的抗体群,其中V1 SKPCA中核参数,V2表示 KPCA中选取的主元个数m,V3表示SVM中核参数,V4表示SVM中惩罚因子C ;定义抗体的适应度函数:
权利要求
1. 一种核集成优化分类方法,其特征是依次包括以下步骤(1)用户提交分类请求的数据给数据预处理模块;数据预处理模块对数据进行缺失数 据估算填补,识别离群点,剔除不一致性数据,最后数据归一化处理,并将数据随机分成四 份,前三份作为分类训练数据,最后一份作为分类测试数据;(2)用户从核函数库中选择核主分量分析核函数和支持向量的核函数,其中核函数库 有线性核函数、多项式核函数、径向基核函数、谱核函数和Sigmoid核函数,默认选择核主 分量分析核函数为径向基核函数,核函数初值为1 ;默认选择支持向量机的核函数为线性 核函数;(3)将预处理后那三份分类训练数据,借助已经选择的核函数,在高维特征空间中,给 定核函数参数以及主元个数选定个数的初值(主元个数为整数,且1 <主元个数<训练样 本个数),用核主分量分析,去除复共线性与冗余信息,获取训练样本在主分量上投影,作为 分类鉴别模型的输入;(4)在高维特征空间中,给定支持向量机核函数参数初值、惩罚因子C初值,利用支持 向量机分类器,对训练样本已在核主分量分析主分量上投影值进行分类训练,获得分类超
全文摘要
本发明公开了一种基于核函数集成整体参数优化分类方法,涉及模式识别分类技术。此方法包括数据预处理、核函数选择、样本特征提取、样本分类、优化分类模型参数、预测六个模块。工作流程是用户将数据的分类请求和分类数据提交给系统,系统经过数据预处理,选择核函数后,自动采用核主分量分析方法对数据特征提取,然后用支持向量机分类器获得初始分类结果,再利用免疫克隆算法优化模型中参数,获取最佳分类参数组合,输出最优分类超平面及分类结果,并预测估计新样本。本发明实现了高维空间中的数据降维分类处理,将免疫克隆算法融入到集成分类器中,获得分类的全局最优解。
文档编号G06K9/62GK102142091SQ201110077910
公开日2011年8月3日 申请日期2011年3月30日 优先权日2011年3月30日
发明者丁永生, 任龙, 沈懿珍, 程丽俊, 胡一帆, 郝矿荣 申请人:东华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1