一种基于属性聚类的邻域粗糙集集成学习方法与流程

文档序号：14722445发布日期：2018-06-17 21:24阅读：来源：国知局

技术特征：

1.一种基于属性聚类的邻域粗糙集集成学习方法，其特征在于，包括以下步骤：

101、从实验数据平台下载数据集，然后对数据集的数据进行预处理，预处理包括归一化步骤和拆分数据集步骤，把数据集拆分成训练集和测试集；

102、对经过步骤101预处理的训练集的数据根据属性进行聚类，聚类分为选择主要属性集和划分属性聚类簇两个步骤；

103、用经过步骤102的训练集集成训练基分类器进行分类，分为确定边界域和集成训练分类器两个步骤，其中集成训练分类器加入了邻域粗糙集来进行分类；

104、最后，利用得到的集成分类器对测试集分类，完成学习。

2.根据权利要求1所述的基于属性聚类的邻域粗糙集集成学习方法，其特征在于，所述步骤101中的归一化步骤指对原始数据线性变换，使结果值映射到[0-1]之间；拆分数据集步骤是通过随机不重复的选择数据集中90％的样本作为训练集，余下的10％作为测试集。

3.根据权利要求1或2所述的基于属性聚类的邻域粗糙集集成学习方法，其特征在于，所述步骤102中选择主要属性集，对于条件属性集，形式为{条件属性1，条件属性2……,条件属性n}，利用信息熵公式计算每个条件属性的信息增益，取信息增益较大的前k个条件属性组成主要属性集即属性聚类的聚点，形式为{主要属性1，主要属性2，……主要属性k}。

4.根据权利要求3所述的基于属性聚类的邻域粗糙集集成学习方法，其特征在于，所述步骤102划分属性聚类簇的步骤为：把得到的主要属性集中的每个属性作为一个聚点，计算其它条件属性与各个聚点的皮尔逊相关系数，把与某聚点的皮尔逊相关系数的绝对值大于阈值的条件属性划分到该聚点的聚类中，如果有不属于任何一个聚点的属性，即与任何一个聚点的皮尔逊相关系数的绝对值都小于阈值，相当于聚类中的离群点，把这样的属性称作离群属性，并将离群属性单独组成一个聚类簇。

5.根据权利要求3所述的基于属性聚类的邻域粗糙集集成学习方法，其特征在于，所述步骤103中确定边界域的步骤具体为：决策属性集，形式为{决策属性1，决策属性2，……决策属性p}中的决策属性把数据集分为p个等价类，决策属性关于属性集的边界域用邻域粗糙集计算出来；

a.对于训练集中的某个样本xi，计算xi的邻域δB(xi)；

b.判断δB(xi)中的样本是否与xi属于同一类别，不是则把xi归入边界域；

c.重复步骤a、步骤b，直到遍历完整个训练集；最终得到训练集的边界域，形式为{边界域样本1，边界域样本2，…，边界域样本x}。

6.根据权利要求5所述的基于属性聚类的邻域粗糙集集成学习方法，其特征在于，步骤103中集成训练分类器的步骤为：根据集成学习的差异性原则选择3个基分类器并初始化每个分类器的权重比例为1，形式为{分类器h1：ω1＝1，分类器h2:ω2＝1，分类器h3:ω3＝1}，ωi表示分类器i的权重比例；

A1.从每个属性聚类集中选择一个属性组成选择属性集后，得到一个新的子属性集，形式为{主要属性集∪选择属性集}，用这个新的子属性集训练每个分类器，得到每个分类器能够正确分类的样本集，形式为{样本集1，样本集2，样本集3}；

B1.判断{样本集1，样本集2，样本集3}中哪个样本集中的样本在边界域的个数最多，给对应的样本集的分类器的权重比例增加1；

C1.重复A1,B1,直到所有的子属性集组合都训练完毕，且a中每次组成的子属性集不能与之前的重复；

D1.完成A1,B1,C1步骤后，得到分类器的权重比例ω1,ω2,ω3，保证其中wi是分类器i的权重，根据分类器的权重比例计算得到分类器的最后权重。

7.根据权利要求6所述的基于属性聚类的邻域粗糙集集成学习方法，其特征在于，步骤104中根据得到的集成分类器对测试集分类具体为：每个分类器对一个样本的分类结果是一个l维的向量其中是分类器hi对类别dj的分类结果，1表示分类器认为该样本属于dj类，0则反之，最后集成分类器对样本的分类结果是：

H ( x ) = d argmax ( j ) Σ i = 1 T w i h i j ( x ) ]]>

其中，wi是分类器hi的权重，T是基分类器的个数。

完整全部详细技术资料下载

当前第2页1 2 3