一种基于Fisher分类器组的离散型数据预处理方法与流程

文档序号：13760843阅读：来源：国知局

技术特征：

1.一种基于Fisher分类器组的离散型数据预处理方法，其特征在于，该基于Fisher分类器组的离散型数据预处理方法为：

使用Fisher判别准则生成多个Fisher分类器，组成Fisher分类器组：对训练子集选择与生成，依据训练样本类别，由两类样本组成多个训练子集；

利用训练子集生成多个Fisher判别模型，并生成对应的多个Fisher分类器，多个Fisher分类形成Fisher分类器组；

每个样本原始数据按照Fisher分类器的规则进行映射：利用Fisher分类器组的输出获得一定的样本分类冗余信息，随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响；

最后将映射结果的编码作为该样本数据预处理结果。

2.如权利要求1所述的基于Fisher分类器组的离散型数据预处理方法，其特征在于，该基于Fisher分类器组的离散型数据预处理方法具体包括以下步骤：

步骤一、训练子集选择与生成：通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据，每一条信息称为一个训练样本，若干训练样本组成训练集；若训练样本有k类，k≥2；则依据训练样本类别，由两类样本组成个训练子集，训练子集X_n表示为：

X_n＝{{x_i}，{x_j}}；

其中i，j∈{1，2，…，n}且i≠j，{x_i}和{x_j}分别表示训练集中第i和第j类样本的集合；

步骤二、Fisher分类器组：

利用训练子集X_n生成Fisher判别模型y_n＝f_n(x)，步骤如下：

1)求X_n中i，j两类样本的均值和

2)求类内散度矩阵S_wn：

$<mrow> <msub> <mi>S</mi> <mrow> <mi>w</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <munder> <mo>Σ</mo> <mrow> <mi>x</mi> <mo>&Element;</mo> <mo>{</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>}</mo> </mrow> </munder> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>+</mo> <munder> <mo>Σ</mo> <mrow> <mi>x</mi> <mo>&Element;</mo> <mo>{</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>}</mo> </mrow> </munder> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mover> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mover> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>;</mo> </mrow>$

其中是的转置矩阵；

3)求类间散度矩阵S_bn：

$<mrow> <msub> <mi>S</mi> <mrow> <mi>b</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mo>|</mo> <mover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mover> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>|</mo> <mo>;</mo> </mrow>$

4)求投影方向W_n：

W_n＝S_wn^-1·S_bn；

5)求Fisher判别阈值w_0n：

$<mrow> <msub> <mi>w</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>W</mi> <mi>n</mi> </msub> <mo>·</mo> <mrow> <mo>(</mo> <mover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mover> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

则得训练子集X_n对应的判别模型：y_n＝f_n(x)＝W_n·x-w_0n；

6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型，生成个Fisher分类器，形成Fisher分类器组，则分类器组输出表示为：

$<mrow> <mover> <mi>y</mi> <mo>~</mo> </mover> <mo>=</mo> <mo>{</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>}</mo> <mo>=</mo> <mo>{</mo> <msub> <mi>f</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>f</mi> <mfrac> <mrow> <mi>k</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>}</mo> <mo>;</mo> </mrow>$

步骤三、离散型编码：

对Fisher分类器组输出y_n进行编码，对于第n个分类器，输出1或者-1代表分类器判定出的样本类别，若分类器不能判定，输出为0；则编码后的输出y*的第n维表示为：

$<mrow> <msubsup> <mi>y</mi> <mi>n</mi> <mo>*</mo> </msubsup> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> </msub> <mo>|</mo> <mo>-</mo> <mi>a</mi> <mo>)</mo> <mo>≤</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>≤</mo> <mo>(</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> </msub> <mo>|</mo> <mo>+</mo> <mi>a</mi> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> </msub> <mo>|</mo> <mo>-</mo> <mi>a</mi> <mo>)</mo> <mo>≤</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>≤</mo> <mo>(</mo> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> </msub> <mo>|</mo> <mo>+</mo> <mi>a</mi> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>$

其中a是为增强算法泛化性能而引入的松弛变量，a＞0；若Fisher分类器组由k个分类器组成，则为数据预处理结果。

3.如权利要求1所述的基于Fisher分类器组的离散型数据预处理方法，其特征在于，使用人工嗅觉系统对测试物质，进行分类识别，人工嗅觉系统由32个气敏传感器组成，每种测试物质进行12次采集，每次采集过程中清洁空气即基线采集时间为3分钟，被测物进样时间为3分钟，清洗时间为4分钟；

每次采集完成后，将第i个传感器的响应记为Δr_i：

Δr_i＝r_i^gas-r_i^base；

其中r_i^gas为被测物进样阶段第i个传感器响应的平均值，r_i^base为基线采集阶段第i个传感器响应的平均值，则每次采集获得32维样本，对于每种物质的样本，取其中3个作为训练样本，剩余为测试样本，松弛变量取a＝1.3·|w_0n|。

完整全部详细技术资料下载

当前第2页1 2 3