基于动态规划和K-means聚类的特征选择算法

文档序号:10656167阅读:710来源:国知局
基于动态规划和K-means聚类的特征选择算法
【专利摘要】本发明公开了一种基于动态规划和K?means聚类的特征选择算法,包括步骤:1)数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题;2)借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划决策过程中的性能函数;3)改进原始的K?means聚类算法,并且使用改进后的K?means算法对动态规划阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。本发明能够选择出低噪声、强相关、无冗余的特征子集,实现特征的有效降维,提高机器学习算法的泛化能力和学习效率,降低算法的运行时间,最终生成一个简单高效且易于理解的学习模型。
【专利说明】
基于动态规划和K-means聚类的特征选择算法
技术领域
[0001] 本发明设及特征工程W及机器学习领域,尤其是指一种基于动态规划和K-means 聚类的特征选择算法。
【背景技术】
[0002] 动态规划的核屯、思想为:将复杂的原问题分解为若干个简单子问题,若干个子问 题亦可称之若干个阶段,则原问题的求解过程转变为求解多个阶段的过程,通过运些子问 题(多阶段)的解从而得出原问题的解。各个阶段最开始时所处的客观条件称之为该阶段的 状态,当某一阶段的状态确定后,往往可W做出不同的决定,从而进入下一阶段,运种决定 称之为决策,做出决策的判断依据为相应的性能函数,各个阶段的决策所构成的序列则称 之为策略。目前,有一些研究已经将动态规划和特征选择进行了结合,如使用"赌"函数作为 动态规划的性能函数,从而实现特征选择。采用"赌"函数作为动态规划的性能函数增加了 计算成本,且单独使用动态规划选择出的特征子集之间存在冗余。
[0003] K-means聚类算法又称K-均值聚类算法,它根据对象(样本)之间的相似性将对象 分属到相应类别中,同一类别中的对象具有较高的相似性,不同类别中的对象具有明显的 差异性,因此可W利用它剔除冗余特征。但K-means聚类算法本身存在聚类个数无法确定、 容易陷入局部最优解等缺点,同时,单独使用K-means聚类算法进行特征选择时不能保证选 择出的特征子集具有低噪声、强相关的特点。

【发明内容】

[0004] 本发明的目的在于克服现有技术的不足,提供一种行之有效、综合性能较强的基 于动态规划和K-means聚类的特征选择算法,简称DKFS(Dynamic programming and K- means clustering Feature Selection)算法。
[0005] 为实现上述目的,本发明所提供的技术方案为:基于动态规划和K-means聚类的特 征选择算法,包括W下步骤:
[0006] 1)数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题;
[0007] 2)借助动态规划的核屯、思想预选择出特征子集,并且采用类间类内距离作为动态 规划决策过程中的性能函数;
[000引3)改进原始的K-means聚类算法,重点集中在确定聚类个数及选取初始中屯、点运 两方面对原始的K-means聚类算法进行优化改进,并且引入加权欧氏距离,其改进思想是: 使用迭代法确定聚类个数,利用标准差进行加权欧氏距离的计算,采用加权欧氏距离W及 最大最小距罔的原理进行初始中屯、点的选取;最后使用改进后的K-means算法对动态规划 阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。
[0009]在步骤2)中,首先原始特征空间经过数据归一化处理;其次根据相应准则确定迭 代次数,即动态规划得出的近似最优的特征个数,具体是采用迭代法确定特征个数,即在选 取不同特征个数的情况下运行算法,最终确定最佳的特征个数;接着进入第一阶段,从候选 特征空间中只考虑一个特征,若某个特征使得性能函数取得最优值,则将该特征加入到最 终特征空间中,且从候选特征空间中将其删除,候选特征空间即为原始特征空间;紧接着判 断最终特征空间中的特征个数是否满足要求,若满足,则得到最终的特征空间,否则,进入 第二个阶段;同样的从候选特征空间中只考虑一个特征,该特征和最终特征空间组合成最 新的最终特征空间,若最新的最终特征空间使得性能函数取得最优值,则更新最终特征空 间,将特征加入到最终特征空间中,且从候选特征空间中将其删除;重复上述过程,直至选 择出满足相应要求的特征为止;
[0010]在给出基于类间类内距离的动态规划方法的具体实现过程前定义如下性质,假设 样本个数为n,特征个数为m,类别个数为C;
[00川定义1 :样本数据化化=(;Xl,X2...Xn)T,其中Xi= (Xil,Xi2...Xim),町即样本Xi在第j维 特征上的值;
[001^ 定义2:特征数据Feature=化,F2...Fm),其中Fj = (xij,X2j...Xnj)T,xij即样本Xi在第 j维特征上的值;
[001;3]定义3:样本5日1啡16 = (1)日1:日扣日加"6),其中样本可从形式化如下:
[0014]
[0015]
[0016]
[0017]其中nc为类别C中样本的个数,m为总的特征维数,m'为已选特征子集中的特征维 数,柳样本Xi在已选特征子集中相应第j维特征上的值,苗为指定类别下样本在已 选特征子集中相应第j维特征上的均值;
[001引定义5:类间距焉

[0019] 其中^为所有样本在已选特征子集中相应第j维特征上的均值;
[0020] 定义6:性能函i )
[0021 ]所述动态规划方法的具体实现如下:
[0022] 输入:所有样本数据Sample = (Data Jeature),类别数C,迭代次数t
[0023] 输出:最优特征子集Re suit
[0024] 步骤;
[0025] 2.1)Re'""V = 0 ;
[0026] 2.2)对于任意FiG 化ea1:ure-Re suit),计算J(Fi U Re suit);
[0027] 2.3)选择使得J(Fi U Re suit)最大的Fi;
[0028] 2.4)如果满足迭代次数,则返回Re suit,否则Re SUlt = FiURe suit,跳至步骤 2.2)。
[0029] 在步骤3)中,聚类个数的确定如下:
[0030] 首先确定聚类个数的范围,即特征子集划分成几类,若特征个数为n,则聚类个数 的范围为[2,^/^;|s其次按照相同间隔选择聚类个数,观察该聚类个数下聚类精度或者分类器 的分类性能;最后确定使得聚类精度或者分类器的分类性能达到最优的聚类个数为K- means聚类算法的聚类数目;
[0031] 加权欧氏距离的计算如下:
[0032] 使用各个特征维度下样本的标准差来判断特征的重要性,从而进行特征的加权, 其定义方式如下:
[003;3 ]假设向量Xl = ( Xll, X12... Xlm)和Xn = ( Xnl,Xn2... X皿),则:
[0037] 加权欧氏距离:[00;3 引
[0034]
[0035]
[0036]
[0039] 其中t G (1,表示第t维特征的均值,Y/表示第t维特征的标准差,Wt表示 第t维特征的权重;
[0040] 初始中屯、点的选择如下:
[0041 ]输入:特征信息化ature= (Fi,F2…Fm),聚类个数即初始中屯、点个数k,人为设定的 dl值,d2值,dl > d2,每个特征的密度值初始化为0,即:
[0042] density(Fi) =0
[0043] 输出:初始中屯、点 initialCentoids = (Fi,F2 …Fk)
[0044] 步骤;
[0045] 3.3.1) inilialCentoids = 0 .
[0046] 3.3.2)对于任意FiG!^ature,计算density(Fi),即特征的密度值,计算方式如下:
[0047] 对于任意FjG (Fea1:ure-Fi),执行如下操作:
[004引 densit}KFi) = density(Fi)+lif dis 1:an ce(Fi,Fj)<dl
[0049] 其中dis化n ce(Fi,Fj)为特征Fi和門之间的加权欧式距离,见上式;
[0050] 3.3.3)tFeature = max(density(Fi)),其中Fi GFeature,则tFea1:ure为第一个初 始中屯、点,将tFeaUire加入到initialCentoids集合中;
[0化1] 3.3.4)对于任意。1£化6曰化'6-;[]1;[1:1曰1〔6]11:〇1(13),
[0052] 计算dis tan ce(Fi,initialCentoids) =min(dis tan ce(Fi,Fj)),
[0053] FjG initialCentoids,则:
[0054] tFeature=max(density(Fi))
[0化5]其中 distance 化i, ini tialCentoids) >d2;
[0化6] 3.3.5)tFea1:ure为下一个初始中屯、点,将tFeature加入到initialCentoids集合 中;
[0化7] 3.3.6)重复步骤3.3.4)-3.3.5)的操作,直至满足结束条件为止;
[0058] 首先计算每个样本的密度,密度定义为:若其他样本与自身的距离小于人为设定 的dl值,则密度加1,运样能够减少离群点对聚类结果的影响;接着选择密度最大的样本点 作为第一个初始中屯、点;紧接着计算剩余样本集合中每个样本点与所有初始中屯、点的距 离,则每个样本点与初始中屯、点集合的最终距离为样本点与所有初始中屯、点的距离中最小 的距离,若某样本点与初始中屯、点集合的最终距离大于d2且该样本点的密度最大,则选择 该样本点作为下一个初始中屯、点,运样能够避免初始中屯、点过于密集,导致算法陷入局部 最优;重复上述步骤,直至选择出指定个数的初始中屯、点。
[0059] 本发明与现有技术相比,具有如下优点与有益效果:
[0060] UDWS算法巧妙地结合了动态规划的核屯、思想,利用动态规划预选择出近似最优 的特征子集,确保特征子集具有低噪声、强相关的特点;
[0061] 2、DWS算法采用类间类内距离作为动态规划决策过程中的性能函数,使得预选择 出的特征子集具有更强的类别区分能力;
[0062] 3、DKFS算法从聚类个数的确定和初始中屯、点的选取两方面对原始的K-means聚类 算法进行改进,提高了聚类准确率,一定程度上改善了聚类效果;
[0063] 4、DKFS算法使用改进后的K-means算法对动态规划选择出的特征子集进行聚类, 较大程度地剔除冗余特征,确保特征子集之间的冗余性降到最低。
【附图说明】
[0064] 图1为DKIK算法基本流程图。
[0065] 图2为基于类间类内距离的动态规划方法基本流程图。
[0066] 图3a为聚类个数过大效果演示图。
[0067] 图3b为聚类个数过小效果演示图。
[0068] 图4为初始中屯、点选取不当效果演示图。
【具体实施方式】
[0069] 下面结合具体实施例对本发明作进一步说明。
[0070] 如图1所示,本实施例所述的基于动态规划和K-means聚类的特征选择算法,即 DKFS(DynamiC programming and K-means clustering Feature Selection)算法,包括W 下步骤:
[0071] I)利用相应的数据预处理方法解决特征数据中存在的数据重复、数据属性值缺失 等问题;
[0072] 2)借助动态规划的核屯、思想预选择出特征子集,并且采用类间类内距离作为动态 规划决策过程中的性能函数;
[0073] 3)改进原始的K-means聚类算法,重点集中在确定聚类个数及选取初始中屯、点运 两方面对原始的K-means聚类算法进行优化改进,并且引入加权欧氏距离,其改进思想是: 使用迭代法确定聚类个数,利用标准差进行加权欧氏距离的计算,采用加权欧氏距离W及 最大最小距罔的原理进行初始中屯、点的选取;最后使用改进后的K-means算法对动态规划 阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。
[0074] 如图2所示,描述了基于类间类内距离的动态规划方法的基本过程。首先原始特征 空间经过数据归一化等数据预处理后转换成完整、无噪声、质量较好的特征空间。其次根据 相应准则确定迭代次数,即动态规划得出的近似最优的特征个数,本发明提出的算法采用 迭代法确定特征个数,即在选取不同特征个数的情况下运行算法,最终确定使得实验效果 取得最佳的特征个数。接着进入第一阶段,从候选特征空间中只考虑一个特征,若某个特征 使得性能函数取得最优值,则将该特征加入到最终特征空间中,且从候选特征空间中将其 删除,候选特征空间即为原始特征空间。紧接着判断最终特征空间中的特征个数是否满足 要求,若满足,则得到最终的特征空间,否则,进入第二个阶段。同样的从候选特征空间中只 考虑一个特征,该特征和最终特征空间组合成最新的最终特征空间,若最新的最终特征空 间使得性能函数取得最优值,则更新最终特征空间,将特征加入到最终特征空间中,且从候 选特征空间中将其删除。重复上述过程,直至选择出满足相应要求的特征为止。
[0075] 在给出基于类间类内距离的动态规划方法的具体实现过程前定义如下性质,假设 样本个数为n,特征个数为m,类别个数为C。
[0076] 定义1:样本数据Da1:a= (Xi,X2…Xn)T,其中Xi= (Xii,Xi2..'Xim),町即样本Xi在第j维 特征上的值;
[0077] 定义2:特征数据Feature=(;Fl,F2...Fm),其中Fj = (Xlj,X2j…Xnj)T,xリ即样本Xi在第 j维特征上的值;
[007引定义3:样本Sample = (Data,化ature),其中样本可W形式化如下:
[0079]
[0080]
[0081 ] 定义4:类内距長
[0082] 其中nc为类别C中样本的个数,m为总的特征维数,m'为已选特征子集中的特征维 数,m'《m,Xij即样本Xi在已选特征子集中相应第j维特征上的值,.Tj为指定类别下样本在已 选特征子集中相应第j维特征上的均值;
[0083] 定义5:类间距离
[0084] 其中^为所有样本在已选特征子集中相应第j维特征上的均值;
[0085] 定义6:性能函数

[0086] 动态规划方法的具体实现如下:
[0087] 输入:所有样本数据Sample = (Data Jeature),类别数C,迭代次数t
[0088] 输出:最优特征子集Re suit
[0089] 步骤;
[0090] Stepl
;
[0091] step2:对于任意FiG 化ea1:ure-Re suit),计算J(FiURe suit);
[0092] step3:选择使得J(FiURe suit)最大的Fi;
[0093] step4:如果满足迭代次数,则返回Re suit;
[0094] 否则Re SUlt=FiURe suit,跳至step2;
[00M]本发明提出的DKFS算法采用类间类内距离作为决策过程中的性能函数,利用动态 规划的思想迭代选择特征。由于后一阶段的最优特征仅仅相对于前一阶段的特征空间而 言,忽略了其他的特征组合情况,因此运一阶段产生的特征子集从全局来看只有近似最优 解的性质,但是生成的特征子集仍然能够良好地反映出样本的分布情况,与所要解决的问 题具有强相关性。通常,该阶段产生的结果中可能存在冗余特征,因此需要对特征进行聚 类,最终选择无冗余且区分度高的特征。
[0096] 传统K-means聚类算法的对象通常为样本数据,本发明将K-means聚类对象转换成 特征数据,即对特征进行聚类,而非对样本进行聚类。K-means聚类算法具有原理简单、便于 实现、且能够高效、快速处理大数据等优势,运些优势使其成为经典的聚类算法之一。同样 的K-means聚类算法也存在缺点,如事先需要确定聚类个数、聚类效果依赖于初始中屯、点的 选取、不适用于非球形分布的样本等等,运些缺点导致其应用受到局限,聚类结果存在误 差,如图3曰、图3b和图4所示,因此本发明提出先对K-means聚类算法进行改进,之后再利用 改进后的K-means算法进行特征聚类。本发明重点集中在确定聚类个数及选取初始中屯、点 运两方面对K-means聚类算法进行优化改进,并且引入加权欧氏距离。
[0097] 1)加权欧氏距离
[0098] 传统的K-means聚类算法通常采用欧式距离衡量对象(样本)之间的相似性,欧式 距离计算简单、应用广泛、但其忽略了样本各个特征的量纲单位具有不一致性,W及没有考 虑样本的分布情况给结果带来的影响,运在一定程度上降低了 K-means算法的聚类准确率, 因此,本发明引入加权欧氏距离。加权欧氏距离考虑了样本的分布情况及特征的重要性等 因素将绝对距离转变为相对距离。
[0099] 概率统计中经常使用样本的标准差来体现样本的分布情况,测量样本的离散程 度。因此,本发明使用各个特征维度下样本的标准差来判断特征的重要性,从而进行特征的 加权。其定义方式如下:
[0100] 假设向量Xl = (Xll, X12...Xlm)和Xn = (Xnl,Xn2...X皿),则:
[0101]
[0102]
[0103]
[0104] 加权欧氏距离:
[0105]
[0106] 其中t G (l,2-m),《表示第t维特征的均值,Yt嗦示第t维特征的标准差,W康示 第t维特征的权重。
[0107] 由加权欧氏距离的计算公式能够看出特征权重越大,则特征的标准差越大,表明 该维特征下数据越离散,因此其对聚类的结果越重要,应该对该维特征越加予W重视。
[0108] 2)确定聚类个数
[0109] 本发明提出的算法根据分类性能或者聚类精度的好坏确定聚类个数。首先确定聚 类个数的范围,即特征子集划分成几类,若特征个数为n,则聚类个数的范围为[2, vq。其次 按照相同间隔选择聚类个数,观察该聚类个数下聚类精度或者分类器的分类性能。最后确 定使得聚类精度或者分类器的分类性能达到最优的聚类个数为K-means聚类算法的聚类数 目。
[0110] 3)选择初始中屯、点
[0111] 本发明在上述加权欧氏距离的基础上,利用最大最小距离的原理,W及借鉴袁方 等人的思想,提出如下选择初始中屯、点的算法,由于本发明对特征进行聚类,因此将特征当 作"样本",样本当作"特征",算法描述如下:
[0W]输入:特征信息!^ature =化,F2…Fm),聚类个数即初始中屯、点个数k,人为设
[0113] 定的dl值,d2值,dl >d2,每个特征的密度值初始化为0,即:
[0114] density(Fi) =0
[0115] 输出:初始中屯、点 initialCentoids = (Fi,F2 …Fk)
[0116] 步骤:
[0117] Stepl:病泌泌肢曲献淑=巧;
[011引 step2:对于任意FiG!^ature,计算density(Fi),即特征的密度值,计算方式如下:
[0119]
[0120] 对于任意FjG化ea化re-Fi),执行如下操作:
[0121] densit}KFi) = density(Fi)+lif dis 1:an ce(Fi,Fj)<dl
[0122] 其中dis化n ce(Fi,Fj)为特征Fi和Fj之间的加权欧式距离,见上式;
[0123] step3: tFea1:ure =max(density(Fi)),其中FiG!^ature,则tFea1:ure为第一个初
[0124] 始中屯、点,将tFea1:ure加入到initialCentoids集合中;
[01 巧]step4:对于任意FiG 化ea1:ure-initialCentoids),计算
[0126] dis tan ce(Fi, initialCentoids) = min(dis tan c e (Fi, F j) ),F j G initialCentoids,则:
[0127] tFeature=max(density(Fi))
[01 巧]其中dis 1:an Ce化i,initialCentoids)>d2;
[01 巧]step5: tFea1:ure为下一个初始中屯、点,将tFeature加入到;[]1;[1:1日1〔6]11:〇1(13集合 中;
[0130] step6:重复step4-step5的操作,直至满足结束条件为止;
[0131 ]首先计算每个样本的密度,密度定义为:若其他样本与自身的距离小于人为设定 的dl值,则密度加一,运样能够减少离群点对聚类结果的影响。接着选择密度最大的样本点 作为第一个初始中屯、点。紧接着计算剩余样本集合中每个样本点与所有初始中屯、点的距 离,则每个样本点与初始中屯、点集合的最终距离为样本点与所有初始中屯、点的距离中最小 的距离,若某样本点与初始中屯、点集合的最终距离大于d2且该样本点的密度最大,则选择 该样本点作为下一个初始中屯、点,运样能够避免初始中屯、点过于密集,导致算法陷入局部 最优。重复上述步骤,直至选择出指定个数的初始中屯、点。
[0132] W上所述实施例只为本发明之较佳实施例,并非W此限制本发明的实施范围,故 凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
【主权项】
1. 基于动态规划和κ-means聚类的特征选择算法,其特征在于,包括以下步骤: 1) 数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题; 2) 借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划 决策过程中的性能函数; 3) 改进原始的K-means聚类算法,重点集中在确定聚类个数及选取初始中心点这两方 面对原始的K-means聚类算法进行优化改进,并且引入加权欧氏距离,其改进思想是:使用 迭代法确定聚类个数,利用标准差进行加权欧氏距离的计算,采用加权欧氏距离以及最大 最小距尚的原理进行初始中心点的选取;最后使用改进后的K-means算法对动态规划阶段 生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。2. 根据权利要求1所述的基于动态规划和K-means聚类的特征选择算法,其特征在于: 在步骤2)中,首先原始特征空间经过数据归一化处理;其次根据相应准则确定迭代次数,即 动态规划得出的近似最优的特征个数,具体是采用迭代法确定特征个数,即在选取不同特 征个数的情况下运行算法,最终确定最佳的特征个数;接着进入第一阶段,从候选特征空间 中只考虑一个特征,若某个特征使得性能函数取得最优值,则将该特征加入到最终特征空 间中,且从候选特征空间中将其删除,候选特征空间即为原始特征空间;紧接着判断最终特 征空间中的特征个数是否满足要求,若满足,则得到最终的特征空间,否则,进入第二个阶 段;同样的从候选特征空间中只考虑一个特征,该特征和最终特征空间组合成最新的最终 特征空间,若最新的最终特征空间使得性能函数取得最优值,则更新最终特征空间,将特征 加入到最终特征空间中,且从候选特征空间中将其删除;重复上述过程,直至选择出满足相 应要求的特征为止; 在给出基于类间类内距离的动态规划方法的具体实现过程前定义如下性质,假设样本 个数为η,特征个数为m,类别个数为c; 定义1 :样本数据Data = (Xl,X2…Xn)T,其中Xi= (Xil,Xi2"_Xim),Xij即样本Xi在第j维特征 上的值; 定义2:特征数据Feature = (Fi,F2"_Fm),其中Fj = (11」32』"11^)1'^』即样本乂1在第』_维 特征上的值; 定义3:样本Sample= (Data,Feature),其中样本可以形式化如下:其中η。为类别c中样本的个数,m为总的特征维数,m '为已选特征子集中的特征维数,m ' Sm,Xij即样本Xi在已选特征子集中相应第j维特征上的值,^为指定类别下样本在已选特 征子集中相应第j维特征上的均值; 定义5:类间距其中T;为所有样本在已选特征子集中相应第j维特征上的均值; 定义6:性能函I所述动态规划方法的具体实现如下: 输入:所有样本数据Sampl e = (Data,Feature ),类别数c,迭代次数t 输出:最优特征子集Re su It 步骤: 2. DResiMft = 0 ; 2 · 2)对于任意Fi e (Feature-Result),计算J(Fi U Result); 2.3)选择使得J (Fi U Re su 11)最大的Fi; 2 ·4)如果满足迭代次数,贝丨】返回Result,否则Result = Fi U Result,跳至步骤2 · 2)。3. 根据权利要求1所述的基于动态规划和K-means聚类的特征选择算法,其特征在于, 在步骤3)中,聚类个数的确定如下: 首先确定聚类个数的范围,即特征子集划分成几类,若特征个数为n,则聚类个数的范 围为其次按照相同间隔选择聚类个数,观察该聚类个数下聚类精度或者分类器的分 ., 类性能;最后确定使得聚类精度或者分类器的分类性能达到最优的聚类个数为K-means聚 类算法的聚类数目; 加权欧氏距离的计算如下: 使用各个特征维度下样本的标准差来判断特征的重要性,从而进行特征的加权,其定 义方式如下: 假设向量父1=(叉11,叉12'11111)和父11=(叉111,叉112'11?),贝11:其中氏(1,2-_!11),尤表示第_特征的均值,¥/表示第#隹特征的标准差,^表示第_ 特征的权重; 初始中心点的选择如下: 输入:特征信息Feature = (Fi,F2…Fm),聚类个数即初始中心点个数k,人为设定的dl 值,d2值,dl > d2,每个特征的密度值初始化为O,即: density(Fi) =O 输出:初始中心点initialCentoids= (Fi,F2…Fk) 步骤: 3.3.1) iniiialCcnioids - 0 , 3.3.2) 对于任意FiGFeature,计算density(Fi),即特征的密度值,计算方式如下: 对于任意FjG (Feature-Fi),执行如下操作: density(Fi) =density(Fi)+l if distance(Fi,Fj)<dl 其中distance (Fi, Fj)为特征Fi和Fj之间的加权欧式距离,见上式; 3 · 3 · 3) tFeature=max(density (Fi)),其中Fi e Feature,则tFeature为第一个初始中 心点,将tFeature加入到initialCentoids集合中; 3.3.4)对于任意FiG (Feature-initialCentoids), 计算distance(Fi,initialCentoids) =min(distance(Fi,Fj)), Fj G initialCentoids,则: tFeature=max(density(Fi)) 其中distance (Fi,initialCentoids) >d2; 3 · 3 · 5)tFeature为下一个初始中心点,将tFeature加入到initialCentoids集合中; 3.3.6)重复步骤3.3.4 )-3.3.5)的操作,直至满足结束条件为止; 首先计算每个样本的密度,密度定义为:若其他样本与自身的距离小于人为设定的dl 值,则密度加1,这样能够减少离群点对聚类结果的影响;接着选择密度最大的样本点作为 第一个初始中心点;紧接着计算剩余样本集合中每个样本点与所有初始中心点的距离,则 每个样本点与初始中心点集合的最终距离为样本点与所有初始中心点的距离中最小的距 离,若某样本点与初始中心点集合的最终距离大于d2且该样本点的密度最大,则选择该样 本点作为下一个初始中心点,这样能够避免初始中心点过于密集,导致算法陷入局部最优; 重复上述步骤,直至选择出指定个数的初始中心点。
【文档编号】G06K9/62GK106022385SQ201610363758
【公开日】2016年10月12日
【申请日】2016年5月26日
【发明人】董敏, 曹丹, 刘皓熙, 毕盛
【申请人】华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1