基于模糊竞争粒子群多目标优化的高维数据特征选择方法

文档序号:36477672发布日期:2023-12-25 02:44阅读:52来源:国知局
基于模糊竞争粒子群多目标优化的高维数据特征选择方法

本发明属于特征选择,特别是提出了一种基于模糊竞争粒子群多目标优化的高维数据特征选择方法。


背景技术:

1、特征选择是机器学习和数据挖掘领域的一项核心技术,广泛用于故障预测、疾病诊断、网络入侵检测以及生物情感识别等领域,其主要目的是从原始数据集中选择最佳的特征子集,以便模型更好地进行分类与回归,特征选择可以压缩学习算法的搜索空间,减小特征集的维度,但是特征选择结果直接影响分类结果的准确性。

2、现有的特征选择方法主要分为三类:基于特征子集评价策略的特征选择、基于搜索策略的特征选择、基于监督信息的特征选择。基于搜索策略的特征选择分为:1)基于全局最优搜索的特征选择;从原始特征集中选择最优的特征子集,所选择的特征子集能使给定的评估准则有最优解,目前常用的有穷举法和分支定界法,这两种方法只适用于低维度的特征集,时间复杂度随着特征维度的增加而增加。2)基于随机搜索策略的特征选择;首先,从原始特征集随机选取一个特征子集,然后有两种不同的处理方式,一种是将随机因素注入到序列搜索当中,将顺序性与随机性结合在一起,比如模拟退火算法;另外一种是完全随机的,常被称为完全随机方法,随机搜索的不确定性强,每次选择的特征子集千差万别,但可防止算法陷入局部最优从而找到近似最优解,常用的算法有粒子群优化算法(pso)、蚁群算法(aco)、遗传算法(ga)等。3)基于序列搜索策略的特征选择;序列搜索与全局搜索有所不同,不能保证最终获得的特征子集是最优的。

3、竞争粒子群优化算法常用于解决大规模优化问题,种群进化由成对粒子之间的竞争机制驱动,每次竞争后对失败粒子进行更新,使其向胜利粒子靠近,而获胜粒子则直接进入下一次迭代,该算法具有较强的探索能力,但是没有明确考虑收敛性,失败粒子的单一更新策略在不同搜索阶段缺乏适应性,导致收敛时间长,特征选择效率低。

4、因此,本发明针对高维数据集的特征选择任务,提出一种基于竞争粒子群多目标优化的高维数据特征选择方法,将竞争粒子群优化算法、模糊逻辑和自学习策略相结合,以提高搜索能力和收敛速度,同时提出多目标函数综合衡量模型性能,将模型分类或聚类效果用于驱动特征选择。


技术实现思路

1、针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于模糊竞争粒子群多目标优化的高维数据特征选择方法。

2、本发明解决所述技术问题采用如下的技术方案:

3、一种基于模糊竞争粒子群多目标优化的高维数据特征选择方法,其特征在于,该方法包括以下步骤:

4、步骤一、获取高维数据集,计算特征与标签的互信息,根据互信息对高维数据集进行降维;

5、步骤二、以最小化分类错误率、最小化特征选择率以及最大化特征间差异为目标,构建式(2)~(4)的多目标函数;

6、

7、

8、

9、式中:c为类别数量,tpri为类别i中正确分类特征的比例,s为被选择特征的数量总和,m为特征数量,dw表示同一类别的特征之间的平均欧几里得接近度,db表示不同类别的特征之间的平均欧几里得接近度;

10、步骤三、对竞争粒子群优化算法进行改进,利用改进的竞争粒子群优化算法求解多目标函数,得到最优特征子集;

11、随机生成初始种群,每个粒子代表一个候选特征子集;

12、随机选取两个粒子进行成对竞争,根据式(5)计算粒子的适应度值,适应度值小的粒子为胜利粒子,适应度值大的粒子为失败粒子;

13、

14、式中,fk(x)为第k个目标函数,k为目标函数的个数,λk为第k个目标函数的权重;

15、更新失败粒子的位置,使失败粒子向胜利粒子靠近;

16、对失败粒子进行模糊分类,将所有失败粒子分为一类失败粒子和二类失败粒子;更新二类失败粒子的位置,使二类失败粒子向最优失败粒子靠近;

17、对胜利粒子进行变异,生成子代粒子,并更新种群;

18、重复迭代直至达到最大迭代次数,最优个体对应的候选特征子集即为最优特征子集,完成特征选择。

19、进一步的,步骤三中模糊分类的过程为:计算所有失败粒子的平均适应度值,遍历所有失败粒子,若失败粒子的适应度值小于平均适应度值,则该失败粒子为一类失败粒子;若失败粒子的适应度值大于平均适应度值,则该失败粒子为二类失败粒子。

20、进一步的,步骤三中胜利粒子根据下式进行变异;

21、vk'=vk+δ×(uk-lk)  (8)

22、

23、式中:δ1=(vk-lk)/(uk-lk),δ2=(uk-vk)/(uk-lk),vk表示父代粒子,vk'表示子代粒子,uk、lk分别表示变异的上、下界,u为0到1之间的随机数,ηm为分布指数。

24、与现有技术相比,本发明的有益效果在于:

25、(1)本发明综合考虑模型的分类效果,以最小化分类错误率、最小化特征选择率以及最大化特征间差异为目标,构建多目标函数,进而将高维数据的特征选择问题转化为多目标优化问题,并实现了多目标优化的平衡。由于不同模型的优势不同,可以根据具体模型赋予目标函数不同的权重,使被选择的特征子集取得更好的分类效果。

26、(2)为了提高收敛速度和特征选择效果,采用模糊逻辑分类手段对失败粒子进行分类,不同类别的失败粒子采用不同学习机制更新位置,使失败粒子加速向胜利粒子靠近,相较于传统竞争粒子群优化算法中失败粒子的单一更新策略,本发明的粒子群在搜索过程中对复杂多模态问题具有更强的全局寻优能力,避免陷入局部最优,有利于提升模型的分类性能。



技术特征:

1.一种基于模糊竞争粒子群多目标优化的高维数据特征选择方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于模糊竞争粒子群多目标优化的高维数据特征选择方法,其特征在于,步骤三中模糊分类的过程为:计算所有失败粒子的平均适应度值,遍历所有失败粒子,若失败粒子的适应度值小于平均适应度值,则该失败粒子为一类失败粒子;若失败粒子的适应度值大于平均适应度值,则该失败粒子为二类失败粒子。

3.根据权利要求1所述的基于模糊竞争粒子群多目标优化的高维数据特征选择方法,其特征在于,步骤三中胜利粒子根据下式进行变异;


技术总结
本发明为一种基于模糊竞争粒子群多目标优化的高维数据特征选择方法,首先获取高维数据集,计算特征与标签的互信息,根据互信息对高维数据集进行降维;然后,以最小化分类错误率、最小化特征选择率以及最大化特征间差异为目标,构建多目标函数;最后,利用多目标模糊竞争粒子群优化算法求解多目标函数,在求解过程中对失败粒子进行模糊分类,所有失败粒子被分为一类失败粒子和二类失败粒子;更新二类失败粒子的位置,使二类失败粒子向最优失败粒子靠近;最优个体对应的候选特征子集即为最优特征子集,完成高维数据的特征选择。该方法从特征选择的目的出发,综合考虑模型的分类效果构建多目标函数;利用模糊逻辑对失败粒子进行分类,提高了收敛速度和特征选择效果。

技术研发人员:王云鹤,张平,李晓敏,周泽铭,肖文远,杜正昱,张航
受保护的技术使用者:河北工业大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1