一种面向高维数据的机器学习集成分类方法及软件系统与流程

文档序号：21644277发布日期：2020-07-29 02:57阅读：来源：国知局

技术特征：

1.一种面向高维数据的机器学习集成分类方法，其特征在于，包括：

对高维原始数据矩阵进行自适应切片处理，获得一系列二值切片矩阵，其中，二值切片矩阵的行和列分别表示实例和属性；

将自适应切片处理后的原始数据划分为训练集和测试集，在训练集上采用knn作为基础算法，搭配相关系数、杰卡德相似性和余弦相似性，分别在每一个二值切片矩阵上训练出与上述三种距离度量相对应的分类器，并构建候选分类器集合；

计算出候选分类器集合中各分类器在训练数据对应的二值切片矩阵上的第一分类精度、在测试数据对应的二值切片矩阵上的第二分类精度，并根据第一分类精度和第二分类精度，确定每个候选分类器对应的加权精度

基于候选分类器对应的加权精度对所有候选分类器进行排序，并根据排序结果采用局部最优和全局最优两种策略进行分类器集成。

2.如权利要求1所述的方法，其特征在于，对高维矩阵进行自适应切片处理，获得一系列二值切片矩阵，包括：

将高维原始数据矩阵沿着z维拉伸到三维空间；

利用一组预设阈值平面对高维原始数据矩阵进行等距离切片，获得一系列二值切片矩阵。

3.如权利要求1所述的方法，其特征在于，在对高维原始数据矩阵进行自适应切片处理，获得一系列二值切片矩阵之后，所述方法还包括：

采用切片间增量指数表征相邻两个二值切片矩阵间表达状态转换累积信息，切片间增量指数的公式如下：

其中，sk+1(sij)表示第k+1个二值切片矩阵的第i行第j列数据，sk(sij)表示第k个二值切片矩阵的第i行第j列数据，m表示行的最大数目，n表示列的最大数目；

根据切片间增量指数的大小，从一系列二值切片矩阵排筛选出预设个二值切片矩阵。

4.如权利要求3所述的方法，其特征在于，采用knn作为基础算法，搭配相关系数、杰卡德相似性和余弦相似性，分别在每一个二值切片矩阵上训练出与相关系数对应的分类器、与杰卡德相似性相对应的分类器、与余弦相似性对应的分类器，包括：

采用knn作为基础算法，搭配相关系数，在每一个二值切片矩阵上训练分类器，相关系数对应距离度量的公式为：

其中，srow＝i和表示二值切片矩阵s的第i行和第i*行，表示两个不同的单元格样本，与的商表示样本实例间属性取值变化趋势的一致性，一致性越高表明相似度较高；

采用knn作为基础算法，搭配杰卡德相似性，在每一个二值切片矩阵上训练分类器，杰卡德相似性对应距离度量的公式为：

其中，除以的商表示样本实例间二值表达模式的重叠程度，重叠越多表示相似度越高；

采用knn作为基础算法，搭配余弦相似性，在每一个二值切片矩阵上训练分类器，余弦相似性对应距离度量的公式为：

其中，与的商表示矢量之间角度的余弦值，矢量表示以属性取值为特征的样本实例，余弦值越接近1，用于比较的样本实例之间越相似。

5.如权利要求1所述的方法，其特征在于，根据第一分类精度和第二分类精度，确定每个候选分类器对应的加权精度，具体根据下列公式计算加权精度：

其中，λ表示预定义的权重系数，s表示第s个二值切片矩阵，表示候选分类器在训练数据对应的二值切片矩阵上的第一分类精度，以及表示候选分类器在测试数据对应的二值切片矩阵上的第二分类精度，强度控制函数和惩罚项的公式为：

其中，是基于对数的分段递减函数，用以控制影响加权精度的惩罚项的强度，惩罚项用于测量和的一致性，其中，每个切片矩阵上分类器的测试精度和训练精度之间的差异映射到相同尺度的比例值，eps表示一个浮点数，用于避免分母为零的情况。

6.如权利要求1所述的方法，其特征在于，基于候选分类器对应的加权精度对所有候选分类器进行排序，并根据排序结果采用局部最优和全局最优两种策略进行分类器集成，包括：

将基于候选分类器对应的加权精度，对候选分类器集合中包含的分类器进行局部最优筛选作为第一种集成模式，具体包括：将三个类别的候选分类器在每一个切片矩阵以加权精度进行降序排列，选出最优和次优分类器作为元分类器，其中，三个类别的候选分类器分别为与相关系数对应的分类器、与杰卡德相似性对应的分类器、与余弦相似性对应的分类器；

将基于候选分类器对应的加权精度，对候选分类器集合中包含的分类器进行全局最优筛选作为第二种集成模式，具体包括：在所有二值切片矩阵对全部候选分类器进行降序排列，选出前n个候选分类器作为元分类器，其中，n为正整数；

按照第一种集成模式筛选出的元分类器和第二集成模式筛选出的元分类器，进行元分类器集成。

7.如权利要求1所述的方法，其特征在于，在根据排序结果采用局部最优和全局最优两种策略进行分类器集成之后，所述方法还包括：

利用集成后的元分类器对待分类的数据进行分类预测。

8.一种面向高维数据的机器学习集成分类软件系统，其特征在于，包括：

自适应切片模块，用于对高维原始数据矩阵进行自适应切片处理，获得一系列二值切片矩阵，其中，二值切片矩阵的行和列分别表示实例和属性；

差异化训练模块，用于将自适应切片处理后的原始数据划分为训练集和测试集，在训练集上采用knn作为基础算法，搭配相关系数、杰卡德相似性和余弦相似性，分别在每一个二值切片矩阵上训练出与上述三种距离度量相对应的分类器，并构建候选分类器集合；

加权精度确定模块，用于计算出候选分类器集合中各分类器在训练数据对应的二值切片矩阵上的第一分类精度、在测试数据对应的二值切片矩阵上的第二分类精度，并根据第一分类精度和第二分类精度，确定每个候选分类器对应的加权精度

集成模块，用于基于候选分类器对应的加权精度对所有候选分类器进行排序，并根据排序结果采用局部最优和全局最优两种策略进行分类器集成。

技术总结
本发明公开了一种通用的面向高维数据的机器学习集成分类方法，首先对高维原始数据矩阵进行自适应切片处理，得到一系列二值切片矩阵，这些有限个切片矩阵包含了尽可能多的可供分类器捕捉的模式信息；然后选用对异常值不敏感的kNN作为基础算法，搭配相关系数、杰卡德相似性和余弦相似性，分别在每一个切片矩阵上训练分类器，构建候选分类器集合；最后将候选分类器集合依据加权精度进行筛选，分别采用局部最优和全局最优两种策略进行分类器集成，本发明的方法可以有效地提升集成分类的精度和可靠性。

技术研发人员：邹秀芬;刘波
受保护的技术使用者：武汉大学
技术研发日：2019.12.24
技术公布日：2020.07.28

完整全部详细技术资料下载

当前第2页1 2