一种基于AIC的逐步特征变量选择方法与流程

文档序号：12157722阅读：来源：国知局

技术特征：

1.一种基于AIC的逐步特征变量选择方法，其特征在于，包括以下步骤：

步骤1：设全部特征变量集为L，记作L＝{x₁，x₂，…，x_d}，其中d大于等于2；随机选择L中的1个特征变量放入已选特征变量集S，令备选特征变量集U为子集S在L中的绝对补集，记作U＝{x₁，x₂，…，x_k}，全局最小AIC值为AIC_w＝+∞，即初始赋值为无穷大；

步骤2：计算备选特征变量集U中所包含的备选特征变量的个数，记作k；判断k是否为0；若是，则执行步骤11；若否，则执行步骤3；

步骤3：对备选特征变量集U中的每个备选特征变量，作为新变量分别与已选特征变量集S、因变量y建立GWR模型，得到模型GWRu₁，GWRu₂，…，GWRu_k；计算模型GWRu₁，GWRu₂，…，GWRu_k当中每个模型的AIC值，获得{AIC_GWRu1，AIC_GWRu2，...，AIC_GWRuk}，其中AIC_GWRuk表示模型GWRu_k的AIC值；

步骤4：求出{AIC_GWRu1，AIC_GWRu2，…，AIC_GWRuk}当中的最小值，记为当前最小AIC值AIC_c；

步骤5：判断步骤4中所述AIC_c是否比全局最小AIC值AIC_w小3；若是，执行步骤6；若否，随机从U中选择一个变量，删除该变量，执行步骤7；

步骤6：将计算出步骤4中所述AIC_c的GWR模型所对应的备选特征变量加入已选特征变量集S，将加入后的已选特征变量集S记作S＝{x₁，x₂，…，x_m}；并从备选特征变量集U中删除该备选特征变量，将所述AIC_c的值赋值给AIC_w；然后执行步骤7；

步骤7：对已选特征变量集S中的m个变量，每次去除其中一个变量，利用S中的其它变量与因变量y组合建立GWR模型，得到模型GWRs₁，GWRs₂，…，GWRs_m；其中GWRs_m表示将S中的变量x_m去除后，利用其它变量与因变量y组合而建立的GWR模型；并计算模型GWRs₁，GWRs₂，…，GWRs_m当中每个模型的AIC值，获得{AIC_GWRs1，AIC_GWRs2，…，AIC_GWRsm}，其中AIC_GWRsm表示模型GWRs_m的AIC值；

步骤8：求{AIC_GWRs1，AIC_GWRs2，…，AIC_GWRsm}当中的最小值，记为当前最小AIC值AIC_c；

步骤9：判断步骤8中所述AIC_c是否比全局最小AIC值AIC_w小3；若是，执行步骤10；若否，执行步骤2；

步骤10：将计算出步骤8中所述AIC_c的GWR模型对应的特征变量从已选特征变量集S中删除，将步骤8中所述AIC_c赋值给AIC_w，返回执行步骤2；

步骤11：循环结束，此时的已选特征变量集作为最优特征变量组合。

2.根据权利要求1所述的基于AIC的逐步特征变量选择方法，其特征在于，步骤3和步骤7中因变量y表示n个数据观测点的观测值，公式为：

$<mrow> <mi>y</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>y</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>y</mi> <mn>2</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mo>...</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>y</mi> <mi>n</mi> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>$

3.根据权利要求2所述的基于AIC的逐步特征变量选择方法，其特征在于，步骤3中的GWRu₁模型为：

$<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>β</mi> <mrow> <mi>i</mi> <mn>0</mn> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>β</mi> <mrow> <mi>i</mi> <mi>p</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>p</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>β</mi> <mrow> <mi>i</mi> <mi>u</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>u</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>ϵ</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

GWRu₂模型为：

$<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>β</mi> <mrow> <mi>i</mi> <mn>0</mn> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>β</mi> <mrow> <mi>i</mi> <mi>p</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>p</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>β</mi> <mrow> <mi>i</mi> <mi>u</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>u</mi> <mn>2</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>ϵ</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

GWRuk模型为：

$<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>β</mi> <mrow> <mi>i</mi> <mn>0</mn> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>β</mi> <mrow> <mi>i</mi> <mi>p</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>p</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>β</mi> <mrow> <mi>i</mi> <mi>u</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>u</mi> <mi>k</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>ϵ</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

其中x_i1，x_i2，……，x_im表示数据点(u_i，v_i)处已选特征变量集S中的m个变量，x_iu1，x_iu2，……，x_iuk表示数据点(u_i，v_i)处备选特征变量集U中的k个变量；β_ip(u_i，v_i)，(p＝0，1，…，m)是第i个数据点(u_i，v_i)处变量x_ip对应的未知参数，β_iu1(u_i，v_i)、β_iu2(u_i，v_i)……β_iuk(u_i，v_i)是第i个数据点(u_i，v_i)处分别与变量x_iu1，x_iu2，……，x_iuk对应的未知参数，u_i表示第i个数据点的横坐标，v_i表示第i个数据点的纵坐标；(ε₁，ε₂，…ε_n)为独立同分布的误差项，通常假定均值为零，方差为σ²；i的取值范围为1至n，表示所述n个数据观测点。

4.根据权利要求3所述的基于AIC的逐步特征变量选择方法，其特征在于，步骤7中的GWRs₁模型为：

y_i＝β_i0(u_i，v_i)+β_i2(u_i，v_i)x_i2+β_i3(u_i，v_i)x_i3+…+β_im(u_i，v_i)x_im+ε_i (5)

GWRs₂模型为：

y_i＝β_i0(u_i，v_i)+β_i1(u_i，v_i)x_i1+β_i3(u_i，v_i)x_i3+…+β_im(u_i，v_i)x_im+ε_i (6)

GWRs_m模型为：

y_i＝β_i0(u_i，v_i)+β_i1(u_i，v_i)x_i1+β_i2(u_i，v_i)x_i2+…+β_im-l(u_i，v_i)x_i(m-1)+ε_i (7)

其中x_il，x_i2，……，x_i(m-1)，x_im表示第i个数据点(u_i，v_i)处已选特征变量集S中的m个变量；

β_i1(u_i，v_i)，β_i2(u_i，v_i)，…，β_im(u_i，v_i)是第i个数据点(u_i，v_i)处变量x_i1，x_i2，…，x_im对应的未知参数，u_i表示第i个数据点的横坐标，v_i表示第i个数据点的纵坐标；(ε₁，ε₃，…ε_n)为独立同分布的误差项，通常假定均值为零，方差为σ²；i的取值范围为1至n，表示所述n个数据观测点。

5.根据权利要求4所述的基于AIC的逐步特征变量选择方法，其特征在于，步骤3和步骤7中每个模型的AIC值计算公式如下：

$<mrow> <mi>A</mi> <mi>I</mi> <mi>C</mi> <mo>=</mo> <mn>2</mn> <mi>n</mi> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mover> <mi>σ</mi> <mo>^</mo> </mover> <mo>)</mo> </mrow> <mo>+</mo> <mi>n</mi> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mn>2</mn> <mi>π</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>n</mi> <mo>[</mo> <mfrac> <mrow> <mi>n</mi> <mo>+</mo> <mi>t</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>2</mn> <mo>-</mo> <mi>t</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>]</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

其中，n为数据观测点个数，tr(S)为地理加权回归帽子矩阵S的迹，是误差项估计的标准离差：

$<mrow> <mover> <mi>σ</mi> <mo>^</mo> </mover> <mo>=</mo> <munder> <mo>Σ</mo> <mi>i</mi> </munder> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>/</mo> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>2</mn> <mi>t</mi> <mi>r</mi> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>t</mi> <mi>r</mi> <mrow> <mo>(</mo> <msup> <mi>S</mi> <mi>T</mi> </msup> <mi>S</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>$

为n个数据观测点的估计值：

$<mrow> <mover> <mi>y</mi> <mo>^</mo> </mover> <mo>=</mo> <mi>S</mi> <mi>y</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>S</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>S</mi> <mn>2</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mo>...</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>S</mi> <mi>n</mi> </msub> </mtd> </mtr> </mtable> </mfenced> <mi>y</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <msub> <mi>X</mi> <mn>1</mn> </msub> <msup> <mrow> <mo>(</mo> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mn>1</mn> </msub> <mi>X</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>X</mi> <mn>2</mn> </msub> <msup> <mrow> <mo>(</mo> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mn>2</mn> </msub> <mi>X</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mn>2</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>X</mi> <mi>n</mi> </msub> <msup> <mrow> <mo>(</mo> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mi>n</mi> </msub> <mi>X</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mi>n</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mi>y</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>$

其中帽子矩阵S为：

$<mrow> <mi>S</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <msub> <mi>X</mi> <mn>1</mn> </msub> <msup> <mrow> <mo>(</mo> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mn>1</mn> </msub> <mi>X</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>X</mi> <mn>2</mn> </msub> <msup> <mrow> <mo>(</mo> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mn>2</mn> </msub> <mi>X</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mn>2</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>X</mi> <mi>n</mi> </msub> <msup> <mrow> <mo>(</mo> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mi>n</mi> </msub> <mi>X</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>X</mi> <mo>,</mo> </msup> <msub> <mi>W</mi> <mi>n</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>$

X’表示X的转置，X表示GWR模型中所有特征变量的n个数据点的观测值：公式(2)中的X为：

公式(3)中的X为：

公式(4)中的X为：

公式(5)中的X为：

公式(6)中的X为：

公式(7)中的X为：

Wi为权重矩阵：

其中w_ij为数据观测点i与数据观测点j的权重；本专利采用高斯函数法计算权重：

w_ij＝exp(-(d_ij/b)²) (19)

d_ij表示点(u_i，v_i)与点(u_i，v_i)之间的距离；本专利采用欧式距离计算：

$<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>20</mn> <mo>)</mo> </mrow> </mrow>$

b表示最优带宽，本专利采用CV法求最优带宽，

$<mrow> <mi>C</mi> <mi>V</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>[</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>21</mn> <mo>)</mo> </mrow> </mrow>$

表示在回归参数估计时不包含该点本身；设置b取值范围为(0，max(d_ij))，当CV最小时，b对应的值即为最优带宽。

6.根据权利要求5所述的基于AIC的逐步特征变量选择方法，其特征在于，步骤4中的AIC_c为：

AIC_c＝min(AIC_GWRu1，AIC_GWRu2，...，AIC_GWRuk) (22)；

步骤8中的AIC_c为：

AIC_c＝min(AIC_GWRs1，AIC_GWRs2，...，AIC_GWRsm) (23)。

完整全部详细技术资料下载

当前第2页1 2 3