分类方法及装置与流程

文档序号:16538957发布日期:2019-01-08 20:10阅读:170来源:国知局
分类方法及装置与流程

本申请涉及计算机技术领域,尤其涉及一种分类方法及装置。



背景技术:

在电商、互联网金融以及医疗等领域中,为了能够向用户提供较精确化的解决方案或服务方案,需要对用户进行群体划分或进行聚类。

现有技术中,在对用户进行群体划分或进行聚类时,会根据随机选择的几个方面的数据对用户进行归类。而这几个方面的数据并不具有代表性,使得现有的归类方法得到的归类结果准确度较低。



技术实现要素:

鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的分类方法及装置。

于是,在本申请的一个实施例中,提供了一种分类方法。该方法,包括:

获取用户的指定数据项对应的特征值;

将所述指定数据项对应的特征值作为输入输入至目标分类器中,得到所述目标分类器的分类结果;

输出所述分类结果;

所述目标分类器的构造过程如下:

获取在第一特征集中遍历到的第一特征项;

结合交叉验证法以及网格搜索法对由所述第一特征项与第二特征集构成的特征项组合进行检验,得到所述特征项组合的最高分类准确率,以及所述特征项组合的最高分类准确率对应的参数结构体;

若所述特征项组合的最高分类准确率高于所述第二特征集的最高分类准确率,则将所述第一特征项加入至所述第二特征集中;

判断所述第一特征集中是否存在未被遍历到的特征项,若存在,则继续遍历所述第一特征集中的下一个特征项,直至遍历结束;

基于遍历结束时的第二特征集及其最高分类准确率对应的参数结构体构建目标分类器;

其中,所述指定数据项包括所述遍历结束时的第二数据集中的全部数据项。

可选地,所述目标分类器为支持向量机分类器;

所述支持向量机中的核函数为rbf核函数;所述rbf核函数包括参数c和参数γ;所述参数c和参数γ数值的网格搜索法的搜索范围定义为:log2c={-5,-4,…,4,5}和log2γ={-5,-4,…,4,5}。

可选地,所述交叉验证法为5折交叉验证法;

上述方法,还可包括:获取n个第一类对象和m个第二类对象中各对象的q个特征项对应的特征值;其中,n、m、q为正整数;所述第一特征集中包括所述q个特征项;

结合交叉验证法以及网格搜索法对由所述第一特征项与第二特征集构成的特征项组合进行检验,得到所述特征项组合的最高分类准确率以及所述特征项组合的最高分类准确率对应的参数结构体,包括:

将所述n个第一类对象和m个第二类对象随机分成五组对象;

对所述五组对象进行排列组合,得到五种对象组合,所述五种对象组合中各对象组合均包括作为测试集的一组对象和作为训练集的四组对象;

根据所述各对象组合中训练集的与所述特征项组合相关的数据、所述各对象组合中训练集的对象数量、所述各对象组合中训练集的所有对象对应的类型标签训练得到所述各对象组合对应的待优化参数结构体;

采用网格搜索法对基于所述各对象组合对应的待优化参数结构体构建的待优化分类器进行检验,得到各对象组合对应的多个分类准确率;

比较所述五种对象组合中各对象组合对应的多个分类准确率,确定所述特征项组合的最高分类准确率;

基于所述特征项组合的最高分类准确率对应的参数c和参数γ数值来优化所述特征项组合的最高分类准确率对应的待优化参数结构体得到所述特征项组合的最高分类准确率对应的参数结构体。

可选地,所述多种对象组合中包括第一对象组合,所述第一对象组合中包括第一测试集和第一训练集;

采用网格搜索法对基于所述第一对象组合对应的待优化参数结构体构建的待优化分类器进行检验,得到所述第一对象组合对应的多个分类准确率,包括:

基于所述参数c和参数γ数值的搜索范围,确定所述参数c和参数γ的多种数值组合;

基于所述多种数值组合中各数值组合以及所述第一对象组合对应的待优化参数结构体,确定所述各数值组合对应的参数结构体;

对基于所述各数值组合对应的参数结构体构建的分类器进行所述第一测试集的测试,得到所述各数值组合对应的分类准确率。

可选地,获取n个第一类对象和m个第二类对象中各对象的q个特征项对应的特征值,包括:

分别获取所述n个第一类对象和m个第二类对象的脑部磁共振图像;

对所述脑部磁共振图像进行数据预处理得到处理后的脑部磁共振图像;

在所述处理后的脑部磁共振图像中提取各对象的q个脑区对应的体积数据;

其中,q个脑区为所述q个特征项,所述q个脑区对应的体积数据为所述q个特征项对应的特征值。

可选地,上述方法,还可包括:

采用f-score对所述第一特征集中所有特征项进行辨识度由高到低排序;

按照所述第一特征集中特征项的排列顺序遍历所述第一数据中各特征项。

可选地,上述方法,还可包括:

在遍历之前,将所述第二特征集初始化为空集。

在本申请的又一个实施例中,提供了一种分类装置。该装置,包括:

获取模块,用于获取用户的指定数据项对应的特征值;

输入模块,用于将所述指定数据项对应的特征值作为输入输入至目标分类器中,得到所述目标分类器的分类结果;

输出模块,用于输出所述分类结果;

构造模块用于构造所述目标分类器;

所述构造模块,包括:

第一获取单元,用于获取在第一特征集中遍历到的第一特征项;

检验单元,用于结合交叉验证法以及网格搜索法对由所述第一特征项与第二特征集构成的特征项组合进行检验,得到所述特征项组合的最高分类准确率,以及所述特征项组合的最高分类准确率对应的参数结构体;

加入单元,用于若所述特征项组合的最高分类准确率高于所述第二特征集的最高分类准确率,则将所述第一特征项加入至所述第二特征集中;

判断单元,用于判断所述第一特征集中是否存在未被遍历到的特征项,若存在,则继续遍历所述第一特征集中的下一个特征项,直至遍历结束;

构建单元,用于基于遍历结束时的第二特征集及其最高分类准确率对应的参数结构体构建目标分类器;

其中,所述指定数据项包括所述遍历结束时的第二数据集中的全部数据项。

可选地,所述目标分类器为支持向量机分类器;

所述支持向量机中的核函数为rbf核函数;所述rbf核函数包括参数c和参数γ;所述参数c和参数γ数值的网格搜索法的搜索范围定义为:log2c={-5,-4,…,4,5}和log2γ={-5,-4,…,4,5}。

可选地,所述交叉验证法为5折交叉验证法;

所述构建模块,还可包括:

第二获取单元,用于获取n个第一类对象和m个第二类对象中各对象的q个特征项对应的特征值;其中,n、m、q为正整数;所述第一特征集中包括所述q个特征项;

所述检验单元,包括:

分组子单元,用于将所述n个第一类对象和m个第二类对象随机分成五组对象;

组合子单元,用于对所述五组对象进行排列组合,得到五种对象组合,所述五种对象组合中各对象组合均包括作为测试集的一组对象和作为训练集的四组对象;

训练子单元,用于根据所述各对象组合中训练集的与所述特征项组合相关的数据、所述各对象组合中训练集的对象数量、所述各对象组合中训练集的所有对象对应的类型标签训练得到所述各对象组合对应的待优化参数结构体;

检验子单元,用于采用网格搜索法对基于所述各对象组合对应的待优化参数结构体构建的待优化分类器进行检验,得到各对象组合对应的多个分类准确率;

比较子单元,用于比较所述五种对象组合中各对象组合对应的多个分类准确率,确定所述特征项组合的最高分类准确率;

优化子单元,用于基于所述特征项组合的最高分类准确率对应的参数c和参数γ数值来优化所述特征项组合的最高分类准确率对应的待优化参数结构体得到所述特征项组合的最高分类准确率对应的参数结构体。

本申请实施例提供的技术方案中,通过遍历和检验从数量较多的特征项中提炼出最具代表性且数量有限的几个特征项;并且,在特征项筛选过程中,还实现了对分类器的核函数参数的优化。基于最具代表性且数量有限的几个特征项以及优化后的核函数参数构建的目标分类器更加科学合理,且其输出的分类结果具有较高的参考价值。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的分类方法的流程示意图;

图2为本申请一实施例提供的目标分类器的roc曲线图;

图3为本申请一实施例提供的分类装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1示出了本申请一实施例提供的分类方法的流程示意图。该方法,包括:

10、获取用户的指定数据项对应的特征值。

11、将所述指定数据项对应的特征值作为输入输入至目标分类器中,得到所述目标分类器的分类结果。

12、输出所述分类结果。

上述10中,可从用户数据库中获取与所述用户对应的指定数据项对应的特征值;或者,获取用户在输入界面输入的指定数据项对应的特征值;或者,通过对用户输入的指定图像进行图像识别得到指定数据项对应的特征值。例如:电商平台会对平台上所有用户的注册信息以及历史行为信息等进行分析得到平台上所有用户对应的指定数据项对应的特征值,并将所有用户对应的指定数据项对应的特征值存储在用户数据库中,这样,后续可直接从用户数据库中获取与所述用户对应的指定数据项对应的特征值即可。

上述11中,直接将所述指定数据项对应的特征值输入至目标分类器中,该目标分类器将会直接输出分类结果。

上述12中,可通过显示屏幕输出分类结果或通过语音播报输出分类结果,本申请实施例对此不作具体限定。

上述目标分类器的构建过程可包括如下步骤:

101、获取在第一特征集中遍历到的第一特征项。

102、结合交叉验证法以及网格搜索法对由所述第一特征项与第二特征集构成的特征项组合进行检验,得到所述特征项组合的最高分类准确率,以及所述特征项组合的最高分类准确率对应的参数结构体。

103、若所述特征项组合的最高分类准确率高于所述第二特征集的最高分类准确率,则将所述第一特征项加入至所述第二特征集中。

104、判断所述第一特征集中是否存在未被遍历到的特征项,若存在,则继续遍历所述第一特征集中的下一个特征项,直至遍历结束。

105、基于遍历结束时的第二特征集及其最高分类准确率对应的参数结构体构建目标分类器。

其中,所述指定数据项包括所述遍历结束时的第二数据集中的全部数据项。

上述101中,在不同的应用场景中,第一特征集中的特征项所指代的内容也会有所不同。例如:在电商这一应用场景下,第一特征集中的特征项所指代的是用户性别、用户年龄段、用户消费水平、用户教育程度、用户体型、用户品牌偏好、用户关系网、兴趣爱好、心理特征等等。再例如:在用户职业分类或耳鸣分类应用场景下,第一特征集中的特征项所指代的是不同的脑区。

需要补充说明的是,通过研究发现:不同职业用户由于其所处工作环境以及思维方式的不同,其脑区的形态(如:脑区体积)也会有所不同;耳鸣状态通常也会伴随着脑区的形态(如:脑区体积)的变化

上述102中,若第二特征集为空集,则特征项组合中仅包括第一特征项;若第二特征集不为空集,则特征项组合中不仅包括第一特征项,还包括第二特征集中的全部特征项。

其中,交叉验证法的基本思想是将原始数据集进行分组,一部分做为训练集(trainset),另一部分做为验证集(validationsetortestset),首先用训练集对构建的分类器进行训练,再利用验证集来测试训练得到的分类器,以此来做为评价分类器的性能指标。网格搜索法是将待搜索核函数参数在一定的空间范围中划分成网格,通过遍历网格中所有的点来寻找最优核函数参数。

结合交叉验证法以及网格搜索法对特征项组合进行检验,也即是,结合交叉验证法以及网格搜索法同时对基于特征项组合构建的分类器进行检验,检验过程包括训练和测试过程。在训练过程中,结合交叉验证法对原始数据集进行分组得到的训练集和测试集,采用训练集对构建的分类器进行训练,得到训练后的分类器;在测试过程中,采用网格搜索法对训练后的分类器进行测试集的测试,得到多个分类准确率以及多个分类准确率对应的核函数参数数值,将多个分类准确率中最大值以及最大值对应的核函数参数数值作为特征组合的最高分类准确率及其对应的核函数参数数值。

举例来说:通过交叉验证法和网格搜索法确定的一参数结构体为参数结构体a,若基于参数结构体a构建的分类器的分类准确率最高,那么,特征组合的最高分类准确率对应的参数结构体即为参数结构体a。

上述103中,获取记录的第二特征集的最高分类准确率,若特征项组合的最高分类准确率高于第二特征集的最高分类准确率,则表明第一特征项的加入有利于提高分类准确率,因此,需要将第一特征项加入至第二特征集中。

需要说明的是,当第二特征集为空集时,第二特征集对应的最高分类准确率可默认为0。在一种可实现的方案中,在遍历之前,可将第二特征集初始化为空集。

上述104中,若第一特征集中还存在有未被遍历到的特征项,则需要继续遍历第一特征集中的下一个特征项,直至遍历结束;若第一特征集中不存在未被遍历到的特征项,即第一特征中的特征项均被遍历到,则遍历结束。

上述105中,遍历结束时,第二特征集中保留了所有有利于提高分类准确率的特征项,第二特征集的最高分类准确率对应的参数结构体也是最优参数结构体。

本申请实施例提供的技术方案中,通过遍历和检验从数量较多的特征项中提炼出最具代表性且数量有限的几个特征项;并且,在特征项筛选过程中,还实现了对分类器的核函数参数的优化。基于最具代表性且数量有限的几个特征项以及优化后的核函数参数构建的目标分类器更加科学合理,且其预测结果具有较高的参考价值。

在一种可实现的方案中,所述目标分类器可为支持向量机(supportvectormachine,svm)分类器。支持向量机中的核函数可根据具体的数据来选择。申请人在研究中发现,在耳鸣这一应用场景下,径向基核(rbf)核函数为最合适的核函数。具体地,所述支持向量机中的核函数为rbf核函数;所述rbf核函数包括参数c和参数γ;所述参数c和参数γ数值的网格搜索法的搜索范围可定义为:log2c={-5,-4,…,4,5}和log2γ={-5,-4,…,4,5}。

上述交叉验证法也称为k折交叉验证法。例如:上述交叉验证法为5折交叉验证法。

通常,分类场景中会涉及至少两种类型对象。为了方便介绍,下面将以两种类型对象进行举例介绍:

上述方法还可包括:

106、获取n个第一类对象和m个第二类对象中各对象的q个特征项对应的特征值。

其中,n、m、q为正整数;所述第一特征集中包括所述q个特征项。

在上述106中可获取到(n+m)*q个数据,根据这(n+m)*q个数据生成一个n+m行、q列的矩阵,每一行对应一个对象的q个特征项的特征值。

在一些涉及脑区形态变化的应用场景中,例如:用户职业分类、耳鸣分类场景,上述步骤106,具体可采用如下步骤来实现:

s1、分别获取所述n个第一类对象和m个第二类对象的脑部磁共振图像。

s2、对所述脑部磁共振图像进行数据预处理得到处理后的脑部磁共振图像。

s3、在所述处理后的脑部磁共振图像中提取各对象的q个脑区对应的体积数据。

其中,q个脑区为q个特征项,q个脑区对应的体积数据为q个特征项对应的特征值。

q个脑区以及各脑区对应的大脑位置可通过文献学习、总结以往已经发表成果,归纳得到。申请人针对特发性耳鸣,归纳得到了61个脑区,表1示出了这61个脑区中的部分脑区名称及其对应的峰值坐标。注:表1中某些脑区对应了多个不同峰值坐标,这是由于有些脑区的范围较大,因此存在多个峰值坐标。

表1:

为了实现对目标分类器的评价,在具体实施时,可获取n+n个第一类对象和m+m个第二类对象中各对象的q各特征项对应的特征值,将其中的n个第一类对象和m个第二类对象作为最终测试集,以对目标分类器的有效性进行评价;或者,采用roc(receiveroperatingcharacteristiccurve)曲线图进行目标分类器有效性的评价,若roc曲线下面积(auc值)越大,则目标分类器的分类准确率越大。通常,若0.5<auc<1,则说明应用此分类器得到的预测结果,优于耳鸣状态的主观猜测。

以耳鸣分类场景举例来说:n+n为46,m+m为56,即包括46个第一类对象(这第一类对象可以为特发性耳鸣患者)和56个年龄、性别匹配的第二类对象(第二类对象可以为正常人),共102个对象。

图像采集:磁共振图像由磁场强度为3.0t的ge磁共振扫描仪采集获得。高分辨率3d全脑t1加权结构像通过3d-bravo序列扫描获得。扫描完成后,每个对象均得到196幅扫描图像。

数据预处理:使用vbm8工具箱完成,包括空间标准化,图像分割,平滑等步骤,后续分析基于预处理后的灰质图像。

选取目标脑区:对已发表的耳鸣形态学研究文献进行概括总结,共提炼出61个目标脑区,用于进一步的特征提取及形态学改变分析。

制作目标脑区:不同研究中对同一个脑区形态学改变的研究结果各不相同,为了便于分析,需制作目标脑区。使用marsbar进行圆形目标脑区的制作,圆心为每个目标脑区的mni峰值坐标,半径为5mm,共得到61个目标脑区。

提取脑区体积:使用matlab自编程序,提取目标脑区体积。对每一个对象,计算并记录61个目标脑区的体积数据。每个目标脑区为一个特征项,即对每一个对象提取61个特征项对应的特征值,最终得到大小为102*61的矩阵。

后续在分组时,可将这102个对象(包括46个特发性耳鸣患者和56个正常人)分为五组,将46个特发性耳鸣患者划分为10,9,9,9,9,将56个正常人划分为12,11,11,11,11;将耳鸣患者和正常人一一对应融合,最终得到样本容量(即对象数量)分别为22,20,20,20和20的五组。可将这五组中的一组作为最终测试集。

当所述交叉验证法为5折交叉验证法时,上述102中“结合交叉验证法以及网格搜索法对由所述第一特征项与第二特征集构成的特征项组合进行检验,得到所述特征项组合的最高分类准确率以及所述特征项组合的最高分类准确率对应的参数结构体”,具体可采用如下步骤来实现:

1021、将所述n个第一类对象和m个第二类对象随机分成五组对象。

1022、对所述五组对象进行排列组合,得到五种对象组合,所述五种对象组合中各对象组合均包括作为测试集的一组对象和作为训练集的四组对象。

1023、根据所述各对象组合中训练集的与所述特征项组合相关的数据、所述各对象组合中训练集的对象数量、所述各对象组合中训练集的所有对象对应的类型标签训练得到各对象组合对应的待优化参数结构体。

1024、采用网格搜索法对基于各对象组合对应的待优化参数结构体构建的待优化分类器进行检验,得到各对象组合对应的多个分类准确率。

1025、比较所述五种对象组合中各对象组合对应的多个分类准确率,确定所述特征项组合对应的最高分类准确率。

1026、基于所述特征项组合的最高分类准确率对应的参数c和参数γ数值来优化所述特征项组合的最高分类准确率对应的待优化参数结构体得到所述特征项组合的最高分类准确率对应的参数结构体。

上述1021和1022中,每组对象的数量可以相同或不同。从这五组对象中任选一组作为训练集(剩余的四组作为测试集),有五种选法。因此,可得到五种对象组合。每组对象组合中作为测试的一组对象均不同。

上述1023中,各对象组合中训练集的与特征项组合相关的数据包括:对应训练集的所有对象的与特征项组合中各特征项对应的特征值。各对象组合对应的待优化参数结构体中包含有:对应训练集的对象数量、对应训练集的所有对象类型标签、对应训练集中所有对象的与特征项组合中各特征项对应的特征值以及待赋值的参数c和参数γ。

需要说明的是,在上述1023中,结构体中的参数c和参数γ无赋值,而是各自具有一个数值搜索范围,例如:所述参数c和参数γ数值的搜索范围分别为:log2c={-5,-4,…,4,5}和log2γ={-5,-4,…,4,5}。

例如:多个对象组合中包括第一对象组合,第一对象组合中包括第一训练集和第一测试集。第一对象组合中第一训练集的与特征项组合相关的数据包括:第一训练集的所有对象的与特征项组合中各特征项对应的特征值。第一对象组合对应的待优化参数结构体包括:第一训练集的对象数量、第一训练集的所有对象类型标签、第一训练集中所有对象的与特征项组合中各特征项对应的特征值以及待赋值的参数c和参数γ。

为了方便理解,下面将以耳鸣为例进行举例介绍:特征项组合中包括左侧下丘脑、左侧额上回。五种对象组合中包括对象组合z,对象组合z包括:训练集(包括对象a和对象b)和测试集(包括对象c和对象d),其中,对象a和对象c为第一类对象,对象b和对象d为第二类对象。那么,第一对象组合对应的待优化参数结构体包括:训练集对象个数为2、对象a的类型标签为第一类、对象b的类型标签为第二类、对象a的左侧下丘脑的特征值及左侧额上回的特征值、对象b的左侧下丘脑的特征值及左侧额上回的特征值以及待赋值的参数c和参数γ。

上述1024中,所述多种对象组合中包括第一对象组合,所述第一对象组合中包括第一测试集和第一训练集。采用网格搜索法对基于第一对象组合对应的待优化参数结构体构建的待优化分类器进行检验,得到第一对象组合对应的多个分类准确率,具体可采用如下步骤来实现:

s1、基于所述参数c和参数γ数值的搜索范围,确定所述参数c和参数γ的多种数值组合。

s2、基于所述多种数值组合中各数值组合以及所述第一对象组合对应的待优化参数结构体,确定所述各数值组合对应的参数结构体。

s3、对基于所述各数值组合对应的参数结构体构建的分类器进行所述第一测试集的测试,得到所述各数值组合对应的分类准确率。

上述s1中,由于参数c和参数γ数值的网格搜索法的搜索范围分别为:log2c={-5,-4,…,4,5}和log2γ={-5,-4,…,4,5},即参数c和参数γ均有11个数值,因此,参数c和参数γ存在121种数值组合。

上述s2中,多个数值组合中包括第一数值组合。第一数值组合对应的参数结构体中包括:第一训练集方对象数量、第一训练集的所有对象的类型标签、第一训练集的所有对象的与特征项组合中各特征项对应的特征值以及第一数值组合对应的参数c和参数γ。即每个数值组合对应的参数结构体中的参数c和参数γ均被赋值。

上述s3中,对基于第一数值组合对应的参数结构体构建的分类器进行第一测试集的测试,得到第一数值组合对应的分类准确率。

例如:第一测试集中包括:对象a:第一类对象;对象b:第二类对象;对象c:第一类对象。将第一测试集输入至基于第一数值组合对应的结构体构建的分类器中,该分类器输出的结果为:对象a为第二类对象;对象b为第二类对象;对象c为第一类对象。可见第一数值组合对应的分类准确率为:2/3。

由于参数c和参数γ的数值组合有121种,故在上述s3中会得到121个分类准确率,即第一对象组合对应121个分类准确率。

上述1025中,由于对象组合包括五种,则最终得到5*121=605个分类准确率,即上述特征项组合对应有605个分类准确率,将这605个分类准确率中最大值作为上述特征项组合的最高分类准确率,并获取上述特征项组合的最高分类准确率对应的参数c和参数γ数值以及上述特征项组合的最高分类准确率对应的待优化参数结构体。

上述1026中,将上述特征项组合的最高分类准确率对应的待优化参数结构体中待赋值的参数c和参数γ的数值分别赋值为上述特征项组合的最高分类准确率对应的参数c和参数γ数值,从而得到上述特征项组合的最高分类准确率对应的参数结构体。

举例来说:特征项组合f对应有五种对象组合,其中包括对象组合z1,对象组合z1的待优化参数结构体为s0,通过网络搜索法确定的参数c和参数γ的一个数值组合d为c=1,γ=2,将待优化参数结构体s0中待赋值的参数c和参数γ分别赋值为c=1,γ=2,得到数值组合d对应的参数结构体s,对基于数值组合d对应的参数结构体s构建的分类器进行测试得到分类准确率。若该分类准确率为特征项组合f的最高分类准确率,则特征项组合f的最高分类准确率对应的参数c和参数γ数值为c=1,γ=2,特征项组合f的最高分类准确率对应的待优化参数结构体为s0。

为了避免在遍历过程中某些重要的或具有代表性的特征项被淘汰(即未被筛选进第二特征集中),在遍历之前,可对第一特征集中的特征项进行辨识度由高到低排序,这样后续遍历时按照第一特征集中特征项的排列顺序来遍历,这样,辨识度越高的特征项就会被靠前检验,可在一定程度上避免某些重要的或具有代表性的特征项被淘汰,可有效提高最终得到的第二特征集的代表性。即,上述方法,还可包括:

107、采用f-score对所述第一特征集中所有特征项进行辨识度由高到低排序。

108、按照所述第一特征集中特征项的排列顺序遍历所述第一数据中各特征项。

f-score是一种简单有效地过滤式混合特征选择算法,能够对被选特征项按照辨识能力和重要性进行排序。对于给定的样本集,样本集可包括n+个第一类对象(可以看成是正类样本)和n-个第二类对象(可以看成是负类样本)。

第i个特征项的f-score计算公式如下:

其中,表示第i个特征项的特征值在整个样本集上的均值,分别表示第i个特征项的特征值在正类和负类样本集上的均值;xk,i(+)和xk,i(-)分别是正类第k个样本和负类第k个样本的第i个特征项的特征值。fi的值越大,表示相对应的第i个特征项的分类辨识能力越强,可能对分类越有贡献。按照计算得出的f-score值,对特征进行重要性降序排列(即辨识度由高到低排列)。需要说明的是,上述f-score计算公式中分子代表的是类间差异,分母代表的是类内的差异,类间差异越大,类内差异越小,表明对应的特征项的辨识度就越大。

需要说明的是,从第一特征集中遍历特征项时可采用浮动顺序前向选择算法进行特征项的搜索(即遍历)。

在耳鸣分类应用场景下,采用本申请实施例提供的技术方案从上述61个脑区中筛选出了具有代表性的8个脑区:双侧下丘脑(bilateralhypothalamus),左侧额上回(leftsuperiorfrontalgyrus,sfg),右侧额中回前部(rightrostalmiddlefrontalgyrus,rmf),右侧岛叶(rightinsula),右侧顶下小叶(rightinferiorparietallobule,ipl)和左侧两个邻近的颞上回(leftsuperiortemporalgyrus,stg)。

图2示出了采用本申请实施例提供的技术方案构建的分类器的roc曲线图,auc值为0.72。可见,本申请实施例提供的技术方案构建的分类器的分类准确率较好,其分类结果具有较高的参考价值。

图3示出了本申请一实施例提供的分类装置的结构框图。如图3所示,该装置,包括:获取模块301、输入模块302、输出模块303以及构造模块304;其中,

所述获取模块301,用于获取用户的指定数据项对应的特征值;

所述输入模块302,用于将所述指定数据项对应的特征值作为输入输入至目标分类器中,得到所述目标分类器的分类结果;

所述输出模块303,用于输出所述分类结果;

所述构造模块304用于构造所述目标分类器;所述构造模块304,包括:第一获取单元,检验单元、加入单元、判断单元以及构造单元,其中,

所述第一获取单元,用于获取在第一特征集中遍历到的第一特征项;

所述检验单元,用于结合交叉验证法以及网格搜索法对由所述第一特征项与第二特征集构成的特征项组合进行检验,得到所述特征项组合的最高分类准确率,以及所述特征项组合的最高分类准确率对应的参数结构体;

所述加入单元,用于若所述特征项组合的最高分类准确率高于所述第二特征集的最高分类准确率,则将所述第一特征项加入至所述第二特征集中;

所述判断单元,用于判断所述第一特征集中是否存在未被遍历到的特征项,若存在,则继续遍历所述第一特征集中的下一个特征项,直至遍历结束;

所述构建单元,用于基于遍历结束时的第二特征集及其最高分类准确率对应的参数结构体构建目标分类器;

其中,所述指定数据项包括所述遍历结束时的第二数据集中的全部数据项。

本申请实施例提供的技术方案中,通过遍历和检验从数量较多的特征项中提炼出最具代表性且数量有限的几个特征项;并且,在特征项筛选过程中,还实现了对分类器的核函数参数的优化。基于最具代表性且数量有限的几个特征项以及优化后的核函数参数构建的目标分类器更加科学合理,且其分类结果具有较高的参考价值。

进一步的,所述目标分类器为支持向量机分类器;

所述支持向量机中的核函数为rbf核函数;所述rbf核函数包括参数c和参数γ;所述参数c和参数γ数值的网格搜索法的搜索范围定义为:log2c={-5,-4,…,4,5}和log2γ={-5,-4,…,4,5}。

进一步的,所述交叉验证法为5折交叉验证法;

上述构建模块304,还可包括:

第二获取单元,用于获取n个第一类对象和m个第二类对象中各对象的q个特征项对应的特征值;其中,n、m、q为正整数;所述第一特征集中包括所述q个特征项;

所述检验单元,包括:

分组子单元,用于将所述n个第一类对象和m个第二类对象随机分成五组对象;

组合子单元,用于对所述五组对象进行排列组合,得到五种对象组合,所述五种对象组合中各对象组合均包括作为测试集的一组对象和作为训练集的四组对象;

训练子单元,用于根据所述各对象组合中训练集的与所述特征项组合相关的数据、所述各对象组合中训练集的对象数量、所述各对象组合中训练集的所有对象对应的类型标签训练得到所述各对象组合对应的待优化参数结构体;

检验子单元,用于采用网格搜索法对基于所述各对象组合对应的待优化参数结构体构建的待优化分类器进行检验,得到各对象组合对应的多个分类准确率;

比较子单元,用于比较所述五种对象组合中各对象组合对应的多个分类准确率,确定所述特征项组合的最高分类准确率;

优化子单元,用于基于所述特征项组合的最高分类准确率对应的参数c和参数γ数值来优化所述特征项组合的最高分类准确率对应的待优化参数结构体得到所述特征项组合的最高分类准确率对应的参数结构体。

进一步的,所述多种对象组合中包括第一对象组合,所述第一对象组合中包括第一测试集和第一训练集;

所述检验子单元,具体用于:

基于所述参数c和参数γ数值的搜索范围,确定所述参数c和参数γ的多种数值组合;

基于所述多种数值组合中各数值组合以及所述第一对象组合对应的待优化参数结构体,确定所述各数值组合对应的参数结构体;

对基于所述各数值组合对应的参数结构体构建的分类器进行所述第一测试集的测试,得到所述各数值组合对应的分类准确率。

进一步的,所述第二获取单元,包括:

获取子单元,用于分别获取所述n个第一类对象和m个第二类对象的脑部磁共振图像;

预处理子单元,用于对所述脑部磁共振图像进行数据预处理得到处理后的脑部磁共振图像;

提取子单元,用于在所述处理后的脑部磁共振图像中提取各对象的q个脑区对应的体积数据;

其中,q个脑区为所述q个特征项,所述q个脑区对应的体积数据为所述q个特征项对应的特征值。

进一步的,所述装置,还可包括:

排序模块,用于采用f-score对所述第一特征集中所有特征项进行辨识度由高到低排序;

遍历模块,用于按照所述第一特征集中特征项的排列顺序遍历所述第一数据中各特征项。

进一步的,所述装置,还可包括:

初始化模块,用于在遍历之前,将所述第二特征集初始化为空集。

需要说明的是,本实施例提供的分类装置可实现上述各分类方法实施例提供的技术方案,具体的实现原理以及有益效果可参见上述各实施例中的相应内容,此处不再赘述。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1