一种针对样本性质提取有效特征的方法

文档序号：10535387阅读：680来源：国知局

一种针对样本性质提取有效特征的方法
【专利摘要】本发明公开一种针对样本性质提取有效特征的方法，包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤；分类时初期设定一个初始的特征集，对于每一个需要分类的样本根据当前已有特征集决定下一步需要提取特征集，然后判断是否停止提取特征，如果还需要提取特征，则重复上一步过程，如果停止提取特征，就输入到合适的分类器进行分类，得到预测结果。与现有技术相比，本发明充分考虑了样本特征提取的时间开销和分类的置信度。
【专利说明】
_种针对样本性质提取有效特征的方法
技术领域
[0001] 本发明涉及模式识别中针对样本的有效特征提取技术，特别适用于同时需要考虑特征提取代价和分类结果可靠性的问题。
【背景技术】
[0002] 随着互联网和各种便携式上网设备的快速发展，网络已经成为人们生活的重要组成部分和人类文明传播发展的重要载体;越来越多的数据通过网络传播。为了满足人们对于信息形式的不同需求，我们通常把文字、声音、图像等信息融为一体;这就导致了网络中数据形式的纷繁复杂。现在，越来越多的复杂媒体数据在网络中大量产生和传播。我们面临着如何在这些大量且复杂的数据上进行高效的检索和分类的问题。因此，人们希望寻求一种高效且有用的特征提取方式来处理这些大量的信息。
[0003] 目前，有很多在线的机器学习方法，比如:在线聚类、在线分类;它们都是通过采样或者优化策略来对学习过程进行加速。然而，这些方法都是建立在特征提出开销没有考虑的基础之上的；也就是说数据从原始数据到有效特征的提取开销是没有考虑的。实际上，在整个分类系统的运转中，从原始数据中提取出有效特征是一个不小的开销；随着数据形式越来越复杂，特征提取开销占整个系统的开销比例也越来越大。如何高效的提取有用特征是我们需要解决的一个问题。
[0004] 在医疗诊断系统中，有一系列的检测，比如:体温测量、血液检查、血压测量。然而，我们在诊断过程不是得到所有检测的结果，然后下诊断，这样做的成本过于高昂；而是先进行初步的检查，然后根据初步检查结果判断是否进行下一步检查，如果需要判断下一步做哪一项检查，如果不需要得出诊断结论。我们受到这个想法的启发，希望针对不同的样本提取对该样本来说最有效的一组特征来进行分类，而不是提取所有特征，从而减少特征提取开销。

【发明内容】
：
[0005] 发明目的：之前的很多机器学习算法都是从采样或者优化的角度来考虑如何提高学习算法的效率，很少有算法考虑到样本的特征提取开销的问题，随着数据形式的越来越复杂，特征提取的开销也越来越大。针对上述问题，本发明提出一种针对样本性质提取有效特征的方法，对于容易分类的样本，只提取简单的特征，也就是一些开销比较小的特征;对于很难分类的样本，不仅仅提取简单特征，还提取一些复杂的特征来帮助样本分类。
[0006] 技术方案:一种针对样本性质提取有效特征的方法，初期设定一个初始的特征集，对于每一个需要分类的样本根据当前已有特征集决定下一步需要提取特征集，然后判断是否停止提取特征。如果还需要提取特征，则重复上一步过程;如果停止提取特征，就输入到合适的分类器进行分类，得到预测结果。本发明方法具体包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤；
[0007] 所述训练样本特征序列化的具体步骤为：
[0008] 步骤100,对训练样本数据进行标注，获取所有特征和相应特征的时间开销；
[0009] 步骤101，根据获取的特征，计算训练样本样本对之间的欧式距离；
[0010] 步骤102,根据样本对之间的距离和设置的近邻个数，寻找训练样本的近邻集合； [0011 ]步骤103，在训练样本的近邻集合中计算每个训练样本各个特征具有的权重，即各组特征对样本分类的有用程度；
[0012] 步骤104,对特征进行排序，权重值越大，说明该特征对分类的贡献越大，应该早一点提取；
[0013] 所述样本特征选择器与对应模型训练的具体步骤为：
[0014] 步骤200,对训练数据进行序列化之后，把数据按照已有特征集和下一步需提取特征集的形式进行拆分，得到一组特征集对；
[0015] 步骤201，根据拆分的特征集对，训练基于当前已有特征的特征选择器G和针对不同的特征组合的分类器；
[0016] 所述的模型分类的具体步骤为：
[0017] 步骤300，对测试样本提取初始特征集；
[0018] 步骤301，根据评价指标，判断是否需要提取下一个特征集，若需要，跳转至步骤 302;否则跳转至步骤303;
[0019]步骤302,根据已有特征集和特征选择器G，决定下一步需要提取的特征集，并把当前提取特征集与已有特征集合并，跳转至步骤301;
[0020] 步骤303,根据当前已有特征集寻找训练好的对应的分类模型进行分类。
[0021] 所述步骤102寻找训练样本近邻集合的具体方法为:将计算出的欧式距离按照升序排序，根据设置的近邻个数k，选择出前k个。
[0022] 所述步骤103训练样本特征的权重的计算方法为:使它与每一个邻居的带权重均方差之和最小，具体公式如下： r00231 argmin ^ !og{ 1 + exp(/;.(D, (xf) - c：))) -f / \\u-^ si. ui > 0 (1) M; j^S,
[0024] 其中，
[0025] D,{X t) = ill {X-t - X ;)〇 (A- X s) (2)
[0026] Xi表示样本的第i个特征，X谦示样本的第j个特征AUJ表示XAh之间的带权重的距离，m表示样本的第i个特征的权重，\是由第i个样本的k个邻居组成的样本集合;yi 和yj分别表示第i和第j个样本的标记，如果yi = yj，则rij = 1，否则rij = -l; Ci和A是设置的参数，(^表示同一个类之间样本距离的上限，A为正则化参数。
[0027]所述步骤201特征选择器G的具体公式如下：
[0028] ') = arg max \v fix',c) (3)
[0029] 其中，x1表示前1次已经提取的特征，1表示第1次提取特征，c表示下一步提取的特征，C表示提取的特征集合，f是关于特征的函数，w表示线性系数；
[0030] 特征的函数f表示为：
[0031] f(x1,c)=x1lTC (4)
[0032] 1T是一个大小为l*m，元素全为1的向量，m为提取特征的组数;C表示对角矩阵，C kk 表示第k行主对角线上的元素，当c = k时，Ckk= 1，否则Ckk=_l。
[0033] 线性系数w表示为： arg min +
[0034] '' " iJ (5) 八 A./+.1 si, wrfiX',cln)> A(c/+1,cM) + wrf{X\,c )-
[0035] 1/表示第i个样本已经提取的1组特征，c1+1表示第i个样本1 + 1步需提取的特征， / , 1 ^表示第1+1步除了需提取特征外的其他候选特征，△定义为A (ci，Ci)=0, A (ci，Cj) = l，这里i乒j，￥为松弛变量，a为正则化参数。
[0036] 所述步骤201中分类器(^的具体公式如下：
[0037] C'(-v')-arg imix F' ./X.v',_r) (6)
[0038] 其中，xs表示已提取的特征，y表示样本的标记，Z表示标记空间，也就是所有标记的集合，f是关于特征的函数，V按照下面的优化公式求解： arg： min
[0039] ' (f) V1 j\x],yl)>Myny) + Vl f{x：,y)~~si
[0040] 祥表示第i个样本已提取的特征，yi表示第i个样本的标记，_y为除样本标记yi外的其他标记，A定义为A ，这里^ # v ,￡i为松弛变量。
[0041] 所述步骤301评价指标包括提取特征的时间上线阈值和分类器的分类准确率要求。
[0042] 有益效果:与现有技术相比本发明充分考虑了样本特征提取的时间开销和分类的置信度。本发明利用每个样本的特点，提取出对该类型样本最具分类作用的特征，针对简单样本，只提取一些基本特征;针对复杂样本，才提取更多的特征。由于对于同一个样本，不同的特征集的作用程度是有差别的，本发明提出最利于分类的特征，有助于提高分类精度。
【附图说明】
[0043] 图1为本发明的训练样本特征序列化阶段的工作流程图；
[0044] 图2为本发明的样本特征选择器与对应模型训练阶段的工作流程图；
[0045] 图3为本发明的针对样本的模型分类阶段的工作流程图。
【具体实施方式】
[0046] 下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0047] 训练样本特征序列化阶段的工作流程如图1所示。在针对训练数据特征序列化这个阶段需要有一定量的带有标记和所有特征的数据。在实际使用中，公司可以对一批数据进行标注，并且获取它的所有特征和相应特征的时间开销(步骤10);然后，根据这些数据的特征计算这些训练样本之间的欧式距离(步骤11);根据设置的近邻个数来选择相应个数的近邻(步骤12);接下来，计算出每个训练样本各个特征具有的权重(步骤13);最后，根据这个权重，对特征进行排序，权重越大的越排在前面。这样就得到了我们序列化后的训练样本。
[0048]样本特征选择器与对应模型训练阶段流程如图2所示。首先对于我们上个过程序列化的训练样本进行拆分，得到一组已有特征集和下一步需提取特征集的特征集合对(步骤15);然后，根据这些特征集合对，训练出特征选择器G。同时，根据这些训练样本的特征组合，训练出相对应的分类模型C s(步骤16)。
[0049]针对样本的模型分类工作流程如图3所示。首先，对测试样本，提取初始特征集合 (步骤18);然后，判断已有的特征是否已经达到停止提取特征的要求，停止提取特征的要求可以是提取特征的时间上线阈值或者是分类器已经可以达到的准确率(可以根据实际情况需求来选择）（步骤19);如果已经到达停止提取特征的要求，就可以直接选择匹配的模型进行分类，得到分类结果(步骤20a);否则，根据特征选择器，选择下一步需要提取的特征，同时回到步骤19 (步骤20b)。
【主权项】
1. 一种针对样本性质提取有效特征的方法，其特征在于:包括训练样本特征序列化步骤、样本特征选择器与对应模型训练步骤和针对样本的模型分类步骤；所述训练样本特征序列化的具体步骤为：步骤100，对训练样本数据进行标注，获取所有特征和相应特征的时间开销；步骤101，根据获取的特征，计算训练样本样本对之间的欧式距离；步骤102，根据样本对之间的距离和设置的近邻个数，寻找训练样本的近邻集合；步骤103,在训练样本的近邻集合中计算每个训练样本各个特征具有的权重，即各组特征对样本分类的有用程度；步骤104,对特征进行排序，权重值越大，说明该特征对分类的贡献越大，应该早一点提取；所述样本特征选择器与对应模型训练的具体步骤为：步骤200,对训练数据进行序列化之后，把数据按照已有特征集和下一步需提取特征集的形式进行拆分，得到一组特征集对；步骤201，根据拆分的特征集对，训练基于当前已有特征的特征选择器G和针对不同的特征组合的分类器；所述的模型分类的具体步骤为：步骤300，对测试样本提取初始特征集；步骤301，根据评价指标，判断是否需要提取下一个特征集，若需要，跳转至步骤302;否则跳转至步骤303; 步骤302,根据已有特征集和特征选择器G，决定下一步需要提取的特征集，并把当前提取特征集与已有特征集合并，跳转至步骤301; 步骤303,根据当前已有特征集寻找训练好的对应的分类模型进行分类。2. 根据权利要求1所述的针对样本性质提取有效特征的方法，其特征在于：所述步骤 102寻找训练样本近邻集合的具体方法为:将计算出的欧式距离按照升序排序，根据设置的近邻个数k，选择出前k个。3. 根据权利要求1所述的针对样本性质提取有效特征的方法，其特征在于：所述步骤 103训练样本特征的权重的计算方法为:使训练样本与每一个邻居的带权重均方差之和最小，具体公式如下：Ai衣不忏斗VtfJ朱ITWIiC，Aj衣不忏斗、tfJ朱JTWIiC，UUAj ；衣不心IKItfJ市仪重的距离，U1表示样本的第i个特征的权重J1是由第i个样本的k个邻居组成的样本集合;yjPyj 分别表示第i和第j个样本的标记，如果yi = ^，则阳=1，否则阳=-1; 是设置的参数， (^表示同一个类之间样本距离的上限，λ为正则化参数。4. 根据权利要求1所述的针对样本性质提取有效特征的方法，其特征在于：所述步骤 201特征选择器G的具体公式如下：p) 其中，X1表示前1次已经提取的特征，1表示第1次提取特征，C表示下一步提取的特征，C 表示提取的特征集合，f是关于特征的函数，w表示线性系数；特征的函数f表示为： f (x1, c) =X1ItC (4) It是一个大小为l*m，元素全为1的向量，m为提取特征的组数;C表示对角矩阵，Ckk表示第k行主对角线上的元素，当c = k时，Ckk=I，否则Ckk=-I。线性系数w衷示为：(5) ./ ,1 T：表示第i个样本已经提取的1组特征，C1+1表示第i个样本1 + 1步需提取的特征，e表示第1+1步除了需提取特征外的其他候选特征，Δ定义为Δ (Ci，Ci) =O，Δ (Ci,Cj) = 1，这里 i乒j，泛为松弛变量，aS正则化参数。5. 根据权利要求1所述的针对样本性质提取有效特征的方法，其特征在于：所述步骤 201中分类器(^的具体公式如下：(6) 其中，Xs表示已提取的特征，y表示样本的标记，Z表示标记空间，也就是所有标记的集合，f是关于特征的函数，V按照下面的优化公式求解：m <表示第i个样本已提取的特征，yi表示第i个样本的标记1为除样本标记71外的其他标记，Δ定义为Δ (yi，yi)=〇, A(卩.v)二1，这里天.在为松弛变量。6. 根据权利要求1所述的针对样本性质提取有效特征的方法，其特征在于：所述步骤 301评价指标包括提取特征的时间上线阈值和分类器的分类准确率要求。
【文档编号】G06K9/62GK105894032SQ201610202600
【公开日】2016年8月24日
【申请日】2016年4月1日
【发明人】詹德川, 姜远, 周志华, 李静
【申请人】南京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：詹德川;姜远;周志华;李静;
技术所有人：南京大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。