1.一种面向高维数据的机器学习集成分类方法,其特征在于,包括:
对高维原始数据矩阵进行自适应切片处理,获得一系列二值切片矩阵,其中,二值切片矩阵的行和列分别表示实例和属性;
将自适应切片处理后的原始数据划分为训练集和测试集,在训练集上采用knn作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练出与上述三种距离度量相对应的分类器,并构建候选分类器集合;
计算出候选分类器集合中各分类器在训练数据对应的二值切片矩阵上的第一分类精度、在测试数据对应的二值切片矩阵上的第二分类精度,并根据第一分类精度和第二分类精度,确定每个候选分类器对应的加权精度
基于候选分类器对应的加权精度对所有候选分类器进行排序,并根据排序结果采用局部最优和全局最优两种策略进行分类器集成。
2.如权利要求1所述的方法,其特征在于,对高维矩阵进行自适应切片处理,获得一系列二值切片矩阵,包括:
将高维原始数据矩阵沿着z维拉伸到三维空间;
利用一组预设阈值平面对高维原始数据矩阵进行等距离切片,获得一系列二值切片矩阵。
3.如权利要求1所述的方法,其特征在于,在对高维原始数据矩阵进行自适应切片处理,获得一系列二值切片矩阵之后,所述方法还包括:
采用切片间增量指数表征相邻两个二值切片矩阵间表达状态转换累积信息,切片间增量指数的公式如下:
其中,sk+1(sij)表示第k+1个二值切片矩阵的第i行第j列数据,sk(sij)表示第k个二值切片矩阵的第i行第j列数据,m表示行的最大数目,n表示列的最大数目;
根据切片间增量指数的大小,从一系列二值切片矩阵排筛选出预设个二值切片矩阵。
4.如权利要求3所述的方法,其特征在于,采用knn作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练出与相关系数对应的分类器、与杰卡德相似性相对应的分类器、与余弦相似性对应的分类器,包括:
采用knn作为基础算法,搭配相关系数,在每一个二值切片矩阵上训练分类器,相关系数对应距离度量的公式为:
其中,srow=i和
采用knn作为基础算法,搭配杰卡德相似性,在每一个二值切片矩阵上训练分类器,杰卡德相似性对应距离度量的公式为:
其中,
采用knn作为基础算法,搭配余弦相似性,在每一个二值切片矩阵上训练分类器,余弦相似性对应距离度量的公式为:
其中,
5.如权利要求1所述的方法,其特征在于,根据第一分类精度和第二分类精度,确定每个候选分类器对应的加权精度,具体根据下列公式计算加权精度:
其中,λ表示预定义的权重系数,s表示第s个二值切片矩阵,
其中,
6.如权利要求1所述的方法,其特征在于,基于候选分类器对应的加权精度对所有候选分类器进行排序,并根据排序结果采用局部最优和全局最优两种策略进行分类器集成,包括:
将基于候选分类器对应的加权精度,对候选分类器集合中包含的分类器进行局部最优筛选作为第一种集成模式,具体包括:将三个类别的候选分类器在每一个切片矩阵以加权精度进行降序排列,选出最优和次优分类器作为元分类器,其中,三个类别的候选分类器分别为与相关系数对应的分类器、与杰卡德相似性对应的分类器、与余弦相似性对应的分类器;
将基于候选分类器对应的加权精度,对候选分类器集合中包含的分类器进行全局最优筛选作为第二种集成模式,具体包括:在所有二值切片矩阵对全部候选分类器进行降序排列,选出前n个候选分类器作为元分类器,其中,n为正整数;
按照第一种集成模式筛选出的元分类器和第二集成模式筛选出的元分类器,进行元分类器集成。
7.如权利要求1所述的方法,其特征在于,在根据排序结果采用局部最优和全局最优两种策略进行分类器集成之后,所述方法还包括:
利用集成后的元分类器对待分类的数据进行分类预测。
8.一种面向高维数据的机器学习集成分类软件系统,其特征在于,包括:
自适应切片模块,用于对高维原始数据矩阵进行自适应切片处理,获得一系列二值切片矩阵,其中,二值切片矩阵的行和列分别表示实例和属性;
差异化训练模块,用于将自适应切片处理后的原始数据划分为训练集和测试集,在训练集上采用knn作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练出与上述三种距离度量相对应的分类器,并构建候选分类器集合;
加权精度确定模块,用于计算出候选分类器集合中各分类器在训练数据对应的二值切片矩阵上的第一分类精度、在测试数据对应的二值切片矩阵上的第二分类精度,并根据第一分类精度和第二分类精度,确定每个候选分类器对应的加权精度
集成模块,用于基于候选分类器对应的加权精度对所有候选分类器进行排序,并根据排序结果采用局部最优和全局最优两种策略进行分类器集成。