基于聚类的智能集成学习分类方法

文档序号:28599080发布日期:2022-01-22 10:57阅读:来源:国知局

技术特征:
1.一种基于聚类的智能集成学习分类方法,其特征在于,步骤如下:(一)最优聚类算法的确定首先,获取数据集d={(x1,y1),(x2,y2),...,(x
i
,y
i
)},其中i的取值范围为(1,2,...,n),n为样本数目的大小,x
i
为特征向量,y
i
为样本的类别标签;按照式(1.1)对数据进行预处理:其中,x

i
(d)表示样本i的第d个特征处理后的取值,d的取值范围为(1,2,...,dim),x
i
(d)为样本i的第d个特征的原始取值,min
i
x
i
(d)表示所有样本第d个特征取值中的最小值,max
i
x
i
(d)表示所有样本第d个特征取值中的最大值;通过式(1.1)将所有样本每个特征的取值范围限制在[0,1]区间之内;之后,将预处理后的数据集输入至候选聚类算法中,通过运行聚类算法,将数据划分成一个个互不重叠的数据子集,即d=d1∪d2∪...∪d
k
,k表示预先设定的簇数目,即要聚成多少个数据子集;由此,得到当前候选聚类算法对于数据d的簇划分;在进行聚类算法性能评价时,使用的指标有外部度量指标和内部度量指标两大类,二者的区别在于外部度量指标需要使用样本的类别标签y
i
,内部度量不需要;在分类问题的背景下,将使用外部度量指标ari、nmi、v-measure和fms来综合评价候选聚类算法的性能;因为每一个指标都代表着对聚类算法不同方面性能的考量,将对所有候选聚类算法在此指标下的表现按照从优到劣进行排序,从而得到候选聚类算法在四个指标下的排序结果,之后按照式(1.2)计算综合排名情况:计算出各个候选聚类算法的综合排名后,选择出适合当前问题的最优聚类算法;(二)最优分类算法的确定在进行最优分类算法的确定时,需要先按照式(1.1)将数据集d={(x1,y1),(x2,y2),...,(x
i
,y
i
)}进行数据的预处理,之后再按照8∶2或9∶1比例进行划分,其中包含样本多的部分为训练集d
train
,另一部分则为测试集d
test
;在进行样本的抽取时,是按照随机不放回采样的方法进行的;随后,将训练集数据输入进候选分类算法中进行分类模型的构建;在评估分类模型的性能时,将之前划分好的测试集作为输入,得到分类模型对每个测试集样本的预测结果;在分类算法的性能度量时,将采用受试者曲线下面积auc进行性能度量;在确定最优分类算法时,需要将所有候选分类算法的auc取值进行排序,并选择auc取值最大的分类算法作为最优分类算法;(三)基于聚类的分类模型构建在确定最优聚类算法和最优分类算法后,在此基础上构建基于聚类的分类模型,具体过程为:首先,将获取到的数据集进行划分,得到训练集与测试集;之后,将训练集输入到最优聚类算法中进行数据子集的划分,依照既定的簇数目k,得到k个无交集的数据子集;针对每一个形成的数据子集,将其作为输入至最优分类算法中进行训练,从而获得对应的k个训练
好的分类模型,将其称之为基分类器;经过上述步骤,得到k个训练好的基分类器,在进行新样本的预测时,为了充分利用各个基分类器中所包含的信息,提出将待预测样本放入到k个基分类器中都进行预测,而每个基分类器都会给出对待预测样本的预测结果,因此获得k个预测结果然而,预测模型最后需要给出的是当前样本的一个预测结果,使用组合方法将k个预测结果进行集成,形成最终的预测结果;(四)基于动态赋权概率组合策略的基分类器集成针对步骤(三)中所提出的基分类器输出组合问题,提出一种基于动态赋权概率组合策略的基分类器集成方法,该方法的具体细节为:首先,得到各个基分类器对待预测样本的预测结果需要的是一组权重{w1,w2,...,w
k
},通过式(4.1)的计算来得到最终的预测结果;基分类器的输出有两种形式,一种为硬输出,即输出的为具体类别标签;另一种为软输出,即输出的是属于各个类别的概率值;在计算时,软输出可转换为硬输出,但硬输出却不能转换为软输出,因为软输出包含有更多的预测信息;因此,本方法将使用软输出,即概率输出作为各个基分类器的输出形式;其中,w
b
代表第b个基分类器的权重,
·
p
b,j
(x)代表第b个基分类器认为当前样本x属于类别j的概率,p
final,j
即为当前样本最终属于类别j的概率大小;并且各个基分类器的权重需要满足条件:且0≤w
b
≤1,是由于p
b,j
(x)的取值区间为[0,1];如果要确保p
final,j
的取值区间在[0,1]之内,就需要满足权重w
b
的约束;(五)基于改进粒子群优化算法的多参数优化通过步骤(一)至(四),将整个分类模型构建完毕,这一分类模型中要调整的参数包括:聚类算法中的簇数目k、各个基分类器中所蕴含的超参数param
b,l
以及组合策略中各个基分类器的权重w
b
;本方法提出一种基于改进粒子群优化算法的多参数优化方法用来解决多参数组合优化问题,具体如下:步骤1:对粒子群优化算法的参数进行初始化;具体参数包括:种群规模n
p
、最大迭代次数t、均衡全局搜索与局部搜索的初始权重因子ω以及粒子的位置取值区间[l
mtn
,l
max
]和速度取值区间[v
min
,v
max
],每个粒子代表着一种候选解;步骤2:初始化每个粒子的速度和位置;本方法中粒子的位置编码包含有三个重要的部分,即聚类算法中的簇数目k、各个基分类器中所包含的超参数param
b,l
以及组合策略中各个基分类器的权重w
b
;步骤3:计算每个粒子的适应度;将每个粒子生成的候选解输入到基于聚类的分类集成学习方法中,计算其十折交叉验证的auc平均值,将auc平均值作为适应度函数值返回;步骤4:寻找个体最优位置和全局最优位置;根据第t次迭代中每个粒子的位置及其适应度值fit
m
,确定个体极大值及群体极大值,并将其分别与个体历史最优位置和全局最优位置g
t
进行比较,从而可以确定新的个体最优位置和全局最优位置;步骤5:更新粒子的速度和位置;分别根据式(5.1)和式(5.2)更新粒子的速度和位
置置置其中,m=1,2,...,n
p
,,代表第m个粒子在第t次迭代中的速度,代表第m个粒子在第t次迭代中的位置,表示第t次迭代中第m个粒子的历史最优位置,g
t
则是在第t次迭代中所有粒子中的全局最优位置,n
p
是种群规模,ω代表均衡全局搜索与局部搜索的初始权重因子,c1和c2则为加速因子,rand()是区间[0,1]内的随机数;步骤6:随机初始化粒子的速度和位置;在粒子每次更新后以概率pr
o
b重新初始化其速度和位置步骤7:判断是否停止;设置达到最大迭代次数t作为算法的停止准则;若满足停止准则,则寻优过程终止,输出种群中具有全局最优解的候选解,从而就确定了参数的具体取值;否则,返回步骤3重复执行步骤3至步骤6。

技术总结
本发明属于机器学习与数据挖掘技术领域,提供了一种基于聚类的智能集成学习分类方法,该方法融合了聚类算法、分类算法以及智能优化算法等多种算法,解决了已有研究中类重叠下的分类模型构建问题,集成学习中基分类器输出的组合问题,以及模型涉及多参数时如何寻优的问题,从而提高了分类问题的预测精度。因此,采用本发明提出的聚类-分类集成建模方法,可以将数据空间进行有效地切分,从而提升模型整体的预测性能。同时,采取本发明提出的组合策略及参数优化方法能够进一步提升模型的预测性能。本发明的应用范围广泛,只要是涉及分类问题的领域,均可以采用本发明设计的方法进行预测模型的构建。型的构建。型的构建。


技术研发人员:崔少泽 张磊 陈雪龙
受保护的技术使用者:大连理工大学
技术研发日:2021.01.12
技术公布日:2022/1/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1