一种基于Fisher分类器组的离散型数据预处理方法与流程

文档序号:13760843阅读:491来源:国知局
本发明属于数据处理
技术领域
,尤其涉及一种基于Fisher分类器组的离散型数据预处理方法。
背景技术
:随着人工智能技术的不断发展,模拟人类嗅觉感知过程的人工嗅觉系统应运而生,该系统由“气体传感器阵列”和“模式识别”两大部分构成。其中,“气体传感器阵列”由多种具有广谱响应的气体传感器组成,对各种气体产生不同的“响应图谱”;“模式识别”部分则利用合适的数学模型对“响应图谱”进行判别,为保证识别结果的准确性与鲁棒性,通常需要在图谱数据进入“模式识别”方法之前进行“数据预处理”。当前的人工嗅觉系统“数据预处理”方法主要包括主成分分析(PCA)、独立分量分析(ICA)、时频变换、归一化处理等。PCA以多维信号相关性作为判断准则,在降维过程中尽可能多地保留有用信息;ICA则以信号独立性为判断依据,对信号进行分解与重组,但存在信号分解过程中会损失原始信号中的幅度信息;时频变换则适用于有效信号与干扰信号频率特性明显相异的情况;归一化处理着重于解决信号幅度差异过大对模式识别方法造成的影响。然而,以上数据预处理方法的处理原则并不以最优分类为目标,即预处理过程中可能将有益于分类的信息剔除而保留某些对分类无用的信息,进而导致:对于同一分类器,往往数据经过预处理后的分类准确率弱于预处理前。因此需要一种以分类准确率为导向的数据预处理方法,保证在不增加分类器复杂度的情况下,获得较好的分类准确率。技术实现要素:本发明的目的在于提供一种基于Fisher分类器组的离散型数据预处理方法,旨在解决现有的数据预处理方法导致对于同一分类器,往往数据经过预处理后的分类准确率弱于预处理前,分类准确率低的问题。本发明提供一种基于Fisher分类器组的离散型数据预处理方法,该基于Fisher分类器组的离散型数据预处理方法为:使用Fisher判别准则生成多个Fisher分类器,组成Fisher分类器组:对训练子集选择与生成,依据训练样本类别,由两类样本组成多个训练子集,利用训练子集生成多个Fisher判别模型,并生成对应的多个Fisher分类器,多个Fisher分类形成Fisher分类器组;每个样本原始数据按照Fisher分类器的规则进行映射:利用Fisher分类器组的输出获得一定的样本分类冗余信息,随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响;最后将映射结果的编码作为该样本数据预处理结果。该基于Fisher分类器组的离散型数据预处理方法具体包括以下步骤:步骤一、训练子集选择与生成:通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据,每一条信息称为一个训练样本,若干训练样本组成训练集;若训练样本有k类,k≥2;则依据训练样本类别,由两类样本组成个训练子集,训练子集Xn表示为:Xn={{xi},{xj}};其中i,j∈{1,2,…,n}且i≠j,{xi}和{xj}分别表示训练集中第i和第j类样本的集合;步骤二、Fisher分类器组:利用训练子集Xn生成Fisher判别模型yn=fn(x),主要步骤如下:1)求Xn中i,j两类样本的均值知2)求类内散度矩阵Swn:Swn=Σx∈{xi}(x-xi‾)(x-xi‾)T+Σx∈{xj}(x-xj‾)(x-xj‾)T;]]>其中是的转置矩阵;3)求类间散度矩阵Sbn:Sbn=|xi‾-xj‾|;]]>4)求投影方向Wn:Wn=Swn-1·Sbn;5)求Fisher判别阈值w0n:w0n=Wn·(xi‾+xj‾);]]>则得训练子集Xn对应的判别模型:yn=fn(x)=Wn·x-w0n;6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型,生成个Fisher分类器,形成Fisher分类器组,则分类器组输出可表示为:步骤三、离散型编码:对Fisher分类器组输出yn进行编码,对于第n个分类器,输出1或者-1代表分类器判定出的样本类别,若分类器不能判定,输出为0;则编码后的输出y*的第n维表示为:yn*=-1,(-|w0n|-a)≤yn≤(-|w0n|+a)1,(|w0n|-a)≤yn≤(|w0n|+a)0,otherwise;]]>其中a(a>0)是为增强算法泛化性能而引入的松弛变量;若Fisher分类器组由k个分类器组成,则为数据预处理结果。进一步,使用人工嗅觉系统对测试物质,进行分类识别,人工嗅觉系统由32个气敏传感器组成,每种测试物质进行12次采集,每次采集过程中清洁空气即基线采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟;每次采集完成后,将第i个传感器的响应记为Δri:Δri=rigas-ribase;]]>其中为被测物进样阶段第i个传感器响应的平均值,为基线采集阶段第i个传感器响应的平均值,则每次采集可获得一个32维的样本,对于每种物质的样本,取其中3个作为训练样本,剩余为测试样本,松弛变量取a=1.3·|w0n|。本发明所涉方法优势在于:1、相较于其它数据预处理方法,利用Fisher分类器组将样本的类别信息作为先验知识,使预处理后的数据更易被正确分类;2、利用多个简单的二分类器进行数据映射,为分类器在多分类场景下提供更多有用信息;3、“离散型编码”可减小离散空间中奇异值和野值对后续分类器的影响;综上,本发明所涉方法可提高分类器在多分类识别中的正确率。现有技术中,不采用任何预处理方法正确识别率为92.06%,使用PCA方法预处理结果正确识别率为50.79%;使用归一化方法,将样本矢量x转换正确识别率为92.06%;本发明提出的方法正确识别率为95.24%。附图说明图1是本发明实施例提供的基于Fisher分类器组的离散型数据预处理方法流程图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面结合附图对本发明的应用原理作详细的描述。如图1所示,本发明实施例的基于Fisher分类器组的离散型数据预处理方法包括以下步骤:S101:使用Fisher判别准则生成多个Fisher分类器,组成Fisher分类器组:对训练子集选择与生成,依据训练样本类别,由两类样本组成多个训练子集,利用训练子集生成多个Fisher判别模型,并生成对应的多个Fisher分类器,多个Fisher分类形成Fisher分类器组;S102:每个样本原始数据按照Fisher分类器的规则进行映射:利用Fisher分类器组的输出获得一定的样本分类冗余信息,随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响;S103:最后将映射结果的编码作为该样本数据预处理结果。该基于Fisher分类器组的离散型数据预处理方法具体包括以下步骤:步骤一、训练子集选择与生成:通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据,每一条信息称为一个训练样本,若干训练样本组成训练集;若训练样本有k类,k≥2;则依据训练样本类别,由两类样本组成个训练子集,训练子集Xn表示为:Xn={{xi},{xj}};其中i,j∈{1,2,…,n}且i≠j,{xi}和{xj}分别表示训练集中第i和第j类样本的集合;步骤二、Fisher分类器组:利用训练子集Xn生成Fisher判别模型yn=fn{x),主要步骤如下:1)求Xn中i,j两类样本的均值知2)求类内散度矩阵Swn:Swn=Σx∈{xi}(x-xi‾)(x-xi‾)T+Σx∈{xj}(x-xj‾)(x-xj‾)T;]]>其中是的转置矩阵;3)求类间散度矩阵Sbn:Sbn=|xi‾-xj‾|;]]>4)求投影方向Wn:Wn=Swn-1·Sbn;5)求Fisher判别阈值w0n:w0n=Wn·(xi‾+xj‾);]]>则得训练子集Xn对应的判别模型:yn=fn(x)=Wn·x-w0n;6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型,生成个Fisher分类器,形成Fisher分类器组,则分类器组输出可表示为:y~={y1,y2,...,yn}={f1(x),...,fk(k-1)2(x)};]]>步骤三、离散型编码:对Fisher分类器组输出yn进行编码,对于第n个分类器,输出1或者-1代表分类器判定出的样本类别,若分类器不能判定,输出为0;则编码后的输出y*的第n维表示为:yn*=-1,(-|w0n|-a)≤yn≤(-|w0n|+a)1,(|w0n|-a)≤yn≤(|w0n|+a)0,otherwise;]]>其中a(a>0)是为增强算法泛化性能而引入的松弛变量;若Fisher分类器组由k个分类器组成,则为数据预处理结果。使用人工嗅觉系统对测试物质,进行分类识别,人工嗅觉系统由32个气敏传感器组成,每种测试物质进行12次采集,每次采集过程中清洁空气即基线采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟;每次采集完成后,将第i个传感器的响应记为Δri:Δri=rigas-ribase;]]>其中为被测物进样阶段第i个传感器响应的平均值,为基线采集阶段第i个传感器响应的平均值,则每次采集可获得一个32维的样本,对于每种物质的样本,取其中3个作为训练样本,剩余为测试样本,松弛变量取a=1.3·|w0n|。本发明利用Fisher分类器组的输出获得一定的样本分类冗余信息,随后在“离散型编码”过程中减小奇异值和野值对后续分类器的影响,最终可在不改变分类器性能的情况下,提高分类器的准确度;下面结合具体实施例对本发明的应用原理作进一步描述。实施例1:使用人工嗅觉系统对七种物质,包括:啤酒、白酒、葡萄酒、绿茶、红茶、乌龙茶和普洱茶,进行分类识别。人工嗅觉系统由32个气敏传感器组成,系统对传感器阵列响应的采样速率为1Hz,采样精度为16bit。每种测试物质进行12次采集,共计84次采集。每次采集过程中清洁空气(基线)采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟。每次采集完成后,将第i个传感器的响应记为Δri:Δri=rigas-ribase;]]>其中为被测物进样阶段第i个传感器响应的平均值,为基线采集阶段第i个传感器响应的平均值,则每次采集可获得一个32维的样本,对于每种物质的样本,取其中3个作为训练样本,剩余为测试样本,松弛变量取a=1.3·|w0n|。数据预处理方式有4种:①不采用任何预处理方法;②使用PCA方法并取第1和第2主成分作为预处理结果;③使用归一化方法,将样本矢量x转换为:④本发明提出的方法。模式识别方法:k近邻法(k-NN)。数据预处理方法识别正确率无(原始数据)92.06%PCA方法50.79%归一化方法92.06%本发明方法95.24%以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1