一种面向高维数据的机器学习集成分类方法及软件系统与流程

文档序号:21644277发布日期:2020-07-29 02:57阅读:214来源:国知局
一种面向高维数据的机器学习集成分类方法及软件系统与流程

本发明涉及人工智能及机器学习技术领域,具体涉及一种面向高维数据的机器学习集成分类方法及软件系统。



背景技术:

基于数据的分类算法是机器学习领域的核心内容,现有分类算法在大数据时代同时面临来自数据和方法学的严峻挑战,尤其是处理高维数据(104~106)和稀疏数据(50%~90%为零)时,普遍存在性能下降和精度丢失现象。

本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:

主流的基于矩阵分解的pca或svd降维技术的主要缺点在于:对数据潜在分布有假设,超大规模矩阵奇异值计算自身十分繁杂,得出的主成分缺乏可解释性。传统的分类方法在处理高维稀疏数据时主要缺点在于:大多数低维距离度量不能适应高维空间,泛化能力易受稀疏性影响。虽然集成学习已经被公认为能够在一定程度上减少方差和偏差,但现有集成策略(bagging和boosting)都直接实施在原始数据上,不足以应对衍生数据。

由此可知,现有技术中的方法存在分类精度不高的技术问题。



技术实现要素:

有鉴于此,本发明提供了一种面向高维数据的机器学习集成分类方法及软件系统,用以解决或者至少部分解决现有技术中的方法存在的分类精度不高的技术问题。

为了解决上述技术问题,本发明第一方面提供了一种面向高维数据的机器学习集成分类方法,包括:

对高维原始数据矩阵进行自适应切片处理,获得一系列二值切片矩阵,其中,二值切片矩阵的行和列分别表示实例和属性;

将自适应切片处理后的原始数据划分为训练集和测试集,在训练集上采用knn作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练出与上述三种距离度量相对应的分类器,并构建候选分类器集合;

计算出候选分类器集合中各分类器在训练数据对应的二值切片矩阵上的第一分类精度、在测试数据对应的二值切片矩阵上的第二分类精度,并根据第一分类精度和第二分类精度,确定每个候选分类器对应的加权精度

基于候选分类器对应的加权精度对所有候选分类器进行排序,并根据排序结果采用局部最优和全局最优两种策略进行分类器集成。

在一种实施方式中,对高维矩阵进行自适应切片处理,获得一系列二值切片矩阵,包括:

将高维原始数据矩阵沿着z维拉伸到三维空间;

利用一组预设阈值平面对高维原始数据矩阵进行等距离切片,获得一系列二值切片矩阵。

在一种实施方式中,在对高维原始数据矩阵进行自适应切片处理,获得一系列二值切片矩阵之后,所述方法还包括:

采用切片间增量指数表征相邻两个二值切片矩阵间表达状态转换累积信息,切片间增量指数的公式如下:

其中,sk+1(sij)表示第k+1个二值切片矩阵的第i行第j列数据,sk(sij)表示第k个二值切片矩阵的第i行第j列数据,m表示行的最大数目,n表示列的最大数目;

根据切片间增量指数的大小,从一系列二值切片矩阵排筛选出预设个二值切片矩阵。

在一种实施方式中,采用knn作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练出与相关系数对应的分类器、与杰卡德相似性相对应的分类器、与余弦相似性对应的分类器,包括:

采用knn作为基础算法,搭配相关系数,在每一个二值切片矩阵上训练分类器,相关系数对应距离度量的公式为:

其中,srow=i和srow=i*表示二值切片矩阵s的第i行和第i*行,表示两个不同的单元格样本,cov(srow=i0srow=i*)与std(srow=i)std(srow=i*)的商表示样本实例间属性取值变化趋势的一致性,一致性越高表明相似度较高;

采用knn作为基础算法,搭配杰卡德相似性,在每一个二值切片矩阵上训练分类器,杰卡德相似性对应距离度量的公式为:

其中,srow=i∩srow=i*除以srow=i∪srow=i*的商表示样本实例间二值表达模式的重叠程度,重叠越多表示相似度越高;

采用knn作为基础算法,搭配余弦相似性,在每一个二值切片矩阵上训练分类器,余弦相似性对应距离度量的公式为:

其中,srow=i·srow=i*与||srow=i||||srow=i*||的商表示矢量之间角度的余弦值,矢量表示以属性取值为特征的样本实例,余弦值越接近1,用于比较的样本实例之间越相似。

在一种实施方式中,根据第一分类精度和第二分类精度,确定每个候选分类器对应的加权精度,具体根据下列公式计算加权精度:

其中,λ表示预定义的权重系数,s表示第s个二值切片矩阵,表示候选分类器在训练数据对应的二值切片矩阵上的第一分类精度,以及表示候选分类器在测试数据对应的二值切片矩阵上的第二分类精度,强度控制函数和惩罚项的公式为:

其中,是基于对数的分段递减函数,用以控制影响加权精度的惩罚项的强度,惩罚项用于测量的一致性,其中,每个切片矩阵上分类器的测试精度和训练精度之间的差异映射到相同尺度的比例值,eps表示一个浮点数,用于避免分母为零的情况。

在一种实施方式中,基于候选分类器对应的加权精度对所有候选分类器进行排序,并根据排序结果采用局部最优和全局最优两种策略进行分类器集成,,包括:

将基于候选分类器对应的加权精度,对候选分类器集合中包含的分类器进行局部最优筛选作为第一种集成模式,具体包括:将三个类别的候选分类器在每一个切片矩阵以加权精度进行降序排列,选出最优和次优分类器作为元分类器,其中,三个类别的候选分类器分别为与相关系数对应的分类器、与杰卡德相似性对应的分类器、与余弦相似性对应的分类器;

将基于候选分类器对应的加权精度,对候选分类器集合中包含的分类器进行全局最优筛选作为第二种集成模式,具体包括:在所有二值切片矩阵对全部候选分类器进行降序排列,选出前n个候选分类器作为元分类器,其中,n为正整数;

按照第一种集成模式筛选出的元分类器和第二集成模式筛选出的元分类器,进行元分类器集成。

在一种实施方式中,在根据排序结果采用局部最优和全局最优两种策略进行分类器集成之后,所述方法还包括:

利用集成后的元分类器对待分类的数据进行分类预测。

基于同样的发明构思,本发明第二方面提供了一种面向高维数据的机器学习集成分类软件系统,包括:

自适应切片模块,用于对高维原始数据矩阵进行自适应切片处理,获得一系列二值切片矩阵,其中,二值切片矩阵的行和列分别表示实例和属性;

差异化训练模块,用于将自适应切片处理后的原始数据划分为训练集和测试集,在训练集上采用knn作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练出与上述三种距离度量相对应的分类器,并构建候选分类器集合;

加权精度确定模块,用于计算出候选分类器集合中各分类器在训练数据对应的二值切片矩阵上的第一分类精度、在测试数据对应的二值切片矩阵上的第二分类精度,并根据第一分类精度和第二分类精度,确定每个候选分类器对应的加权精度

集成模块,用于基于候选分类器对应的加权精度对所有候选分类器进行排序,并根据排序结果采用局部最优和全局最优两种策略进行分类器集成。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

由于本发明的方法,首先对高维原始数据矩阵进行自适应切片处理,得到一系列二值切片矩阵,这些有限个切片矩阵包含了尽可能多的可供分类器捕捉的模式信息,这个过程被称为“结构化降维”;然后选用对异常值不敏感的knn(k最近邻k-nearestneighbor)分类算法)作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练分类器,构建候选分类器集合;最后将候选分类器集合依据加权精度进行局部最优和全局最优筛选,这个过程被称为集成学习的切换策略(switching),大量数据实验表明切换策略有效地提升了集成分类器的精度和可靠性。

本方法的主要创新点,体现在上述过程的每一个步骤:第一,提出了一种有别于现有基于矩阵分解的针对x维或y维数据的降维方法,即利用自适应数据切片技术在保有分类模式信息的前提下对z维数据进行分层切片和优化选择,从而达到简化数据的降维目的;第二,二值切片矩阵为相似性度量带来了新的挑战和机遇,相关系数和余弦相似性之间体现出的差异性,杰卡德相似性与前两种度量形成的互补性,都有助于为集成学习构建出“好而不同”的分类器(不同类别的分类器);第三,相对于训练集精度(即第一分类精度)或测试集精度(即第二分类精度),提出了更为合理和稳健的加权精度定义,在此基础上为来自不同切片不同类别的元分类器,分别以局部排序优先和全局排序优先,设计了两种不同的集成切换策略,显著提升了最终集成分类的精度和可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种面向高维数据的机器学习集成分类方法的实现流程图;

图2为本发明实施例中对高维数据矩阵进行自适应切片的具体流程图;

图3为本发明实施例中差异化模型训练的流程图;

图4为本发明实施例中双模式集成切换的流程图;

图5为具体示例中载入原始数据集并进行数据概要和基础统计分析的示意图;

图6为具体示例中通过计算切片间增量指数以此优先切片位点的示意图;

图7为具体示例中选择k近邻算法差异化训练分类模型的示意图;

图8为具体示例中局部排序优先进行分类器集成的示意图;

图9为具体示例中在集成分类器(rws模式)输出预测标签和预测精度的示意图;

图10为具体示例中在集成分类器(rws模式)输出混淆矩阵的示意图;

图11为具体示例中以全局排序优先进行分类器集成的示意图;

图12为具体示例中在集成分类器(abs模式)输出预测标签和预测精度的示意图;

图13为具体示例中在集成分类器(abs模式)输出混淆矩阵的示意图;

图14为具体示例中载入新数据集(无标签),以原始数据集为基准进行数据对齐操作的示意图;

图15为具体示例中利用集成分类器(rws模式)预测新数据集标签,输出分类结果多维标度图像的示意图;

图16为具体示例中利用集成分类器(abs模式)预测新数据集标签,输出分类结果多维标度图像的示意图;

图17为具体示例中软件附加标签页中提供的算法框架图和示例数据集下载地址的示意图。

具体实施方式

本发明的目的在于提供一种面向高维数据的机器学习集成分类方法,用以提高分类的精度以及可靠性。

为了达到上述目的,本发明的主要构思如下:

首先对高维原始数据矩阵进行自适应切片处理,得到一系列二值切片矩阵,得到的一系列切片矩阵包含了尽可能多的可供分类器捕捉的模式信息;然后选用k近邻分类算法作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练分类器,构建候选分类器集合;最后将候选分类器集合依据加权精度进行排序,最后进行局部最优和全局最优筛选,通过这种切换策略有效地提升了集成分类器的精度和可靠性。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例提供了一种面向高维数据的机器学习集成分类方法,该方法包括:

步骤s1:对高维原始数据矩阵进行自适应切片处理,获得一系列二值切片矩阵,其中,二值切片矩阵的行和列分别表示实例和属性。

具体来说,原始数据可以是待分类的各种数据,例如细胞数据、帕金森数据、心脏病数据等。

步骤s2:将自适应切片处理后的原始数据划分为训练集和测试集,在训练集上采用knn作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练出与上述三种距离度量相对应的分类器,并构建候选分类器集合。

具体来说,原始数据划分的比例可以根据需要进行设置,例如8:2、7:3等等。划分数据集后,采用高维原始数据矩阵进行表示,为了得到粒度更细的信息,本发明对高维原始数据矩阵进行自适应切片,并对潜在分类模式信息的捕捉和学习针对切片矩阵展开。

那么对于每一个二值切片矩阵,针对三种相似度度量分别训练处不同的分类器,也就是说,对于一个二值切片矩阵,都对应三种类别的分类器。

步骤s3:计算出候选分类器集合中各分类器在训练数据对应的二值切片矩阵上的第一分类精度、在测试数据对应的二值切片矩阵上的第二分类精度,并根据第一分类精度和第二分类精度,确定每个候选分类器对应的加权精度。

具体来说,为了进一步提高分类精度,本实施例引入了加权精度的思想,即相对于训练集精度或测试集精度,提出了更为合理和稳健的加权精度,用于后续的分类器筛选。

步骤s4:基于候选分类器对应的加权精度对所有候选分类器进行排序,并根据排序结果采用局部最优和全局最优两种策略进行分类器集成。

具体来说,基于在前述步骤得到(每一个)候选分类器的加权精度后,可以根据加权精度的大小对所有候选分类器进行排序,依据加权精度比单纯只依据训练集或测试集精度对分类器排序要更合理。在进行排序后,进一步从排序的结果中,分别采用局部最优和全局最优两种模式进行集成。

在一种实施方式中,步骤s1对对高维矩阵进行自适应切片处理,获得一系列二值切片矩阵,具体包括:

s1.1:将高维原始数据矩阵沿着z维拉伸到三维空间;

s1.2:利用一组预设阈值平面对高维原始数据矩阵进行等距离切片,获得一系列二值切片矩阵。

具体来说,请参见图2,为本发明实施例中对高维数据矩阵进行自适应切片的具体流程图,(a)原始数据矩阵,行代表样本实例,列代表样本属性。(b)根据元素的数值范围将原始数据矩阵沿z轴拉伸到三维空间,然后通过切片间增量指数优选切片位点。(c)通过阈值函数(即预设阈值平面)执行数据自适应切片,得到一系列二值切片矩阵。其中,切片位点是进行原始数据矩阵在三维空间中进行阈值切片的刻度点,距离表示切片的间隔,通过切片位点和距离则可以进行自适应切片。二值切片矩阵中的值为0和1,是将高维原始数据矩阵中包含的数据与设定的阈值进行比较,如果小于阈值,则为0,大于阈值则为1。

其中,为了提取出更有价值(能更好地用于捕捉分类模式信息)的二值切片矩阵,在在对高维原始数据矩阵进行自适应切片处理,获得一系列二值切片矩阵之后,所述方法还包括:

采用切片间增量指数表征相邻两个二值切片矩阵间表达状态转换累积信息,切片间增量指数的公式如下:

其中,sk+1(sij)表示第k+1个二值切片矩阵的第i行第j列数据,sk(sij)表示第k个二值切片矩阵的第i行第j列数据,m表示行的最大数目,n表示列的最大数目;

根据切片间增量指数的大小,从一系列二值切片矩阵排筛选出预设个二值切片矩阵。

具体来说,术语“std”在这里指的是计算所有行增量的标准差的过程。如果从切片位点zk,zk+1,zk+2计算的增量指数scristdk+1>scristdk+2,则表示切片矩阵sk+1包含的表达式状态切换增量信息多于sk+2。计算切片矩阵之间的所有增量指标scristd并按降序排列,然后选择与第一个p增量指标相对应的切片位点,得到候选切片位点集{z(1),z(2),...,z(p)}。在实际应用中,本发明添加了0作的第一个切片位点,那么实际的候选切片位点集是{0,z(1),z(2),...,z(p)}。

在一种实施方式中,采用knn作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练出与相关系数对应的分类器、与杰卡德相似性相对应的分类器、与余弦相似性对应的分类器,包括:

采用knn作为基础算法,搭配相关系数,在每一个二值切片矩阵上训练分类器,相关系数对应距离度量的公式为:

其中,srow=i和srow=i*表示二值切片矩阵s的第i行和第i*行,表示两个不同的单元格样本,cov(srow=i,srow=i*)与std(srow=i)std(srow=i*)的商表示样本实例间属性取值变化趋势的一致性,一致性越高表明相似度较高;

采用knn作为基础算法,搭配杰卡德相似性,在每一个二值切片矩阵上训练分类器,杰卡德相似性对应距离度量的公式为:

其中,srow=i∩srow=i*除以srow=i∪srow=i*的商表示样本实例间二值表达模式的重叠程度,重叠越多表示相似度越高;

采用knn作为基础算法,搭配余弦相似性,在每一个二值切片矩阵上训练分类器,余弦相似性对应距离度量的公式为:

其中,srow=i·srow=i*与||srow=i||||srow=i*||的商表示矢量之间角度的余弦值,矢量表示以属性取值为特征的样本实例,余弦值越接近1,用于比较的样本实例之间越相似。

具体来说,请参见图3,为本发明实施例中差异化模型训练的流程图,首先采用精度高、对异常值不敏感、无数据输入假定的knn作为基础分类算法,然后搭配三种高维空间有效的相似性度量相关系数、杰卡德相似性、余弦相似性,在二值切片矩阵上训练出若干个兼具差异性和互补性的候选分类器,图3的说明如下:

(a)二值切片矩阵序列,(b)采用pearson相关系数、jaccard相似性和cosine相似性作为默认距离度量,这三种距离度量在提取二值切片矩阵的分类特征时既保持了多样性又保持了互补性。(c)在每个切片位点上可以得到三种类型的分类器(在每个切片矩阵上进行训练),三种类型分别为knn+correlation、knn+jaccard以及knn+cosine。

分别通过三种不同的度量,采用机器学习的方法训练出三种类别的分类器。

在一种实施方式中,根据第一分类精度和第二分类精度,确定每个候选分类器对应的加权精度具体为根据下列公式计算加权精度:

其中,λ表示预定义的权重系数,s表示第s个二值切片矩阵,表示候选分类器在训练数据对应的二值切片矩阵上的第一分类精度,以及表示候选分类器在测试数据对应的二值切片矩阵上的第二分类精度,强度控制函数和惩罚项的公式为:

其中,是基于对数的分段递减函数,用以控制影响加权精度的惩罚项的强度,惩罚项用于测量的一致性,其中,每个切片矩阵上分类器的测试精度和训练精度之间的差异映射到相同尺度的比例值,eps表示一个浮点数,用于避免分母为零的情况。

具体来说,在第一分类精度和第二分类精度的基础上,提出了加权精度,的取值范围在-0.01~0之间,根据的取值来确定,而则根据的一致性来确定,当一致性越高时,则越趋近于0,那么也趋近于0,术语“eps”表示一个浮点数,例如在matlab中是2.2204e-16,为了避免分母为零的情况发生。

在一种实施方式中,基于候选分类器对应的加权精度对所有候选分类器进行排序,并根据排序结果采用局部最优和全局最优两种策略进行分类器集成,,包括:

将基于候选分类器对应的加权精度,对候选分类器集合中包含的分类器进行局部最优筛选作为第一种集成模式,具体包括:将三个类别的候选分类器在每一个切片矩阵以加权精度进行降序排列,选出最优和次优分类器作为元分类器,其中,三个类别的候选分类器分别为与相关系数对应的分类器、与杰卡德相似性对应的分类器、与余弦相似性对应的分类器;

将基于候选分类器对应的加权精度,对候选分类器集合中包含的分类器进行全局最优筛选作为第二种集成模式,具体包括:在所有二值切片矩阵对全部候选分类器进行降序排列,选出前n个候选分类器作为元分类器,其中,n为正整数;

按照第一种集成模式筛选出的元分类器和第二集成模式筛选出的元分类器,进行元分类器集成。

具体来说,请参见图4,为本发明实施例中双模式集成切换的流程图;利用自定义带自调节惩罚项的加权精度对候选分类器的性能进行全面评估。第一种集成模式将三个类别的候选分类器在每一个切片矩阵以加权精度进行降序排列,选出最优和次优分类器作为元分类器,第二种集成模式在所有切片矩阵对全部候选分类器进行降序排列,选出前n个候选分类器作为元分类器,最后按照局部和全局两种模式进行元分类器集成。

结合图3,图3中横坐标表示切片矩阵(切片位点),纵坐标表示加权精度,可以看出,对于每一个二值切片矩阵对应三种不同的分类器,局部最优模式是对于每一个二值切片矩阵,从这三种不同类别的分类器中选取其中的两个,即上方的两个。

全局最优模式是,在所有切片矩阵对应的分类器中,选取出符合条件的n个。

排序筛选是一系列的操作,图4中比较清晰地展示该过程:图4的b部分中间矩阵是加权精度矩阵,每一个加权精度都对应一个候选分类器;b部分上方索引图中的1和2标记表示是每一个切片矩阵上最优和次优的分类器;b部分下方索引图中第1到9标记的就是加权精度降序排列的前9个分类器,0标记没有入选的分类器。

在一种实施方式中,在根据排序结果采用局部最优和全局最优两种策略进行分类器集成之后,所述方法还包括:

利用集成后的元分类器对待分类的数据进行分类预测。

利用本方法训练得到的最终集成分类器具备跨数据集分类能力,可以通过原始数据测试集上输出混淆矩阵和在无标签新数据集上输出多维标度图像来进行展示,对于同源或同样实验条件下制备得到的新数据集,只需要在进行数据切片前与原始数据集进行数据对齐操作即可输入最终集成分类器进行类别预测。此外,基于本方法已开发通用分类软件askensorv1.0,大大简化了分析过程和参数调优,在对帕金森病人语音数据、泛癌基因表达数据和肺癌甲基化数据诊断分类结果显示,askensor分别达到97.35%、99.28%和95.70%测试精度,是一种高精度和高可靠性的通用集成分类器。

实施例二

基于与实施例一同样的发明构思,本实施例还提供了一种与面向高维数据的机器学习集成分类方法对应的软件系统,该系统包括:

自适应切片模块,用于对高维原始数据矩阵进行自适应切片处理,获得一系列二值切片矩阵,其中,二值切片矩阵的行和列分别表示实例和属性;

差异化训练模块,用于将自适应切片处理后的原始数据划分为训练集和测试集,在训练集上采用knn作为基础算法,搭配相关系数、杰卡德相似性和余弦相似性,分别在每一个二值切片矩阵上训练出与上述三种距离度量相对应的分类器,并构建候选分类器集合;

加权精度确定模块,用于计算出候选分类器集合中各分类器在训练数据对应的二值切片矩阵上的第一分类精度、在测试数据对应的二值切片矩阵上的第二分类精度,并根据第一分类精度和第二分类精度,确定每个候选分类器对应的加权精度

集成模块,用于基于候选分类器对应的加权精度对所有候选分类器进行排序,并根据排序结果采用局部最优和全局最优两种策略进行分类器集成。

上述系统可以通过计算机软件来实现,具体地本发明开发了一个软件系统来进行集成分类。

下面通过一个具体的示例对本发明提供的方法进行说明,以下以pollen单细胞数据为例,结合图5~图17展示askensor集成分类的全过程:

第1步:载入原始数据集并进行数据概要和基础统计分析;概要分析是导入数据集的实例目249,属性数目14805,类别数目11,零元稀疏性51%,也就是说样本矩阵51%的元素值为0;统计分析就是最基础的描述性统计分析,样本矩阵最小值为0,最大值为5.5185,均值0.9236,中位数0(这些值均保留小数点后4位)。

第2步:指定切片模式并进行切片操作,计算切片间增量指数以此优先切片位点,切片位点是进行原始数据矩阵在三维空间中进行阈值切片的刻度点,一个切片位点对应一个切片矩阵。

第3步:划分原始数据为训练集和测试集,选择k近邻算法差异化训练分类模型,本发明基于knn,采用三种不同的度量进行分类器训练。

第4步:在加权精度基础上,以局部排序优先进行分类器集成;

第5步:载入原始数据测试集,在集成分类器(rws模式即局部最优集成模式)输出预测标签和预测精度;

第6步:载入原始数据测试集,在集成分类器(rws模式)输出混淆矩阵,混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,在人工智能中,混淆矩也是可视化工具,特别用于监督学习。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目。

第7步:在加权精度基础上,以全局排序优先进行分类器集成;

第8步:载入原始数据测试集,在集成分类器(abs模式即全局最优集成模式)输出预测标签和预测精度;

第9步:载入原始数据测试集,在集成分类器(abs模式)输出混淆矩阵;

第10步:载入新数据集(无标签),以原始数据集为基准进行数据对齐操作

第11步:利用集成分类器(rws模式)预测新数据集标签,输出分类结果多维标度图像,附加新数据集真实标签后,进一步计算预测精度;

第12步:利用集成分类器(abs模式)预测新数据集标签,输出分类结果多维标度图像,附加新数据集真实标签后,进一步计算预测精度。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1