一种基于KNN的改进缺失数据填补算法的制作方法

文档序号：11134194阅读：来源：国知局

技术特征：

1.一种基于KNN的改进缺失数据填补算法，其特征在于包括步骤：

(1)对数据属性进行精简预处理，包括步骤：

设数据集X＝{X₁，X₂，…，X_n}，n为事例的个数；定义数据集中第i条事例X_i的属性j值为x_ij，将x_ij表示为：

x_ij＝k_1jx_i1+k_2jx_i2+…k_tjx_it+…+k_mjx_im，t≠j

式(1)中，m为X_i的属性总数目，k_tj表示属性t对于属性j的权重系数；

定义属性t和属性j之间的相关系数为p_tj，p_tj的表达式为：

$<mrow> <msub> <mi>p</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <msqrt> <mrow> <msubsup> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow>$

计算权重系数k_tj为：

$<mrow> <msub> <mi>k</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msup> <mrow> <mo>|</mo> <msub> <mi>p</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <msubsup> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mrow> <mo>|</mo> <msub> <mi>p</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </mrow> </mfrac> </mrow>$

设置阈值A，当满足k_tj＜A时，删除属性t；

(2)选择缺失事例的邻近样本，包括步骤：

基于步骤(1)精简后的剩余属性数据，分别计算缺失事例各属性之间的马氏距离以及缺失事例与其他事例间的灰色相关系数；根据计算出的马氏距离和灰色相关系数计算邻近样本选择距离：

$<mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mi>R</mi> <mi>G</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>M</mi> <mi>a</mi> <mi>h</mi> <mi>a</mi> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> </mrow>$

a∈[1，2，…，n]且a≠i

式中，CRG(x_a，x_i)表示事例X_a与X_i之间的灰色关联度，Mahal(x_aj，x_ij)表示属性x_a与x_i之间的马氏距离；

从数据集X中挑选出与缺失事例之间的距离d_k满足d_k≤D_ist(x_t，x_i)的K个完整事例，k∈[1，2，…，K]；

(3)计算缺失事例的填补估计值，包括步骤：

将步骤(2)中选出的K个完整事例形成的数据集记为Y＝[y₁，y₂，…，y_k，…，y_K]

$<mrow> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>$

计算事例y_k对应属性的熵权值E_k为：

E_k＝-Mp_klnp_k

$<mrow> <mi>M</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>ln</mi> <mi> </mi> <mi>K</mi> </mrow> </mfrac> </mrow>$

$<mrow> <msub> <mi>p</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>y</mi> <mi>k</mi> </msub> <mrow> <msubsup> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msub> <mi>y</mi> <mi>k</mi> </msub> </mrow> </mfrac> </mrow>$

根据熵权值E_k计算事例y_k的属性权值：

$<mrow> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>E</mi> <mi>k</mi> </msub> </mrow> <mrow> <mi>K</mi> <mo>-</mo> <msubsup> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msub> <mi>E</mi> <mi>k</mi> </msub> </mrow> </mfrac> </mrow>$

其中，0≤w_k≤1，

计算缺失事例的填补估计值为：

$<mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>K</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>w</mi> <mi>K</mi> </msub> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>K</mi> </mrow> </msub> <mo>.</mo> </mrow>$

2.根据权利要求1所述的一种基于KNN的改进缺失数据填补算法，其特征在于，所述步骤(2)中的马氏距离Mahal(x_tj，x_ij)的计算方法为：

$<mrow> <mi>M</mi> <mi>a</mi> <mi>h</mi> <mi>a</mi> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msup> <mo>Σ</mo> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </msqrt> </mrow>$

式中，T代表转置矩阵，Σ代表样本协方差。

3.根据权利要求2所述的一种基于KNN的改进缺失数据填补算法，其特征在于，所述步骤(2)中的灰色相关系数的计算方法为：

将所有属性值均量化到区间[0，1]，计算事例X_a与事例X_i在属性p上灰色相关系数为：

$<mrow> <mi>G</mi> <mi>R</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>p</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>p</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>min</mi> <mrow> <mo>&ForAll;</mo> <mi>i</mi> </mrow> </msub> <msub> <mi>min</mi> <mrow> <mo>&ForAll;</mo> <mi>q</mi> </mrow> </msub> <mrow> <mo>|</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>q</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>q</mi> </mrow> </msub> </mrow> <mo>|</mo> </mrow> <mo>+</mo> <msub> <mi>ρmax</mi> <mrow> <mo>&ForAll;</mo> <mi>i</mi> </mrow> </msub> <msub> <mi>max</mi> <mrow> <mo>&ForAll;</mo> <mi>q</mi> </mrow> </msub> <mrow> <mo>|</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>q</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>q</mi> </mrow> </msub> </mrow> <mo>|</mo> </mrow> </mrow> <mrow> <mrow> <mo>|</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>p</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>p</mi> </mrow> </msub> </mrow> <mo>|</mo> </mrow> <mo>+</mo> <msub> <mi>ρmax</mi> <mrow> <mo>&ForAll;</mo> <mi>i</mi> </mrow> </msub> <msub> <mi>max</mi> <mrow> <mo>&ForAll;</mo> <mi>q</mi> </mrow> </msub> <mrow> <mo>|</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>q</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>q</mi> </mrow> </msub> </mrow> <mo>|</mo> </mrow> </mrow> </mfrac> </mrow>$

式中，ρ为调整参数，ρ∈(0，1)；q∈[1，2，…，m]；

根据GRC(x_ap，x_ip)计算事例X_a与事例X_i之间的灰色相关系数为：

$<mrow> <mi>G</mi> <mi>R</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>w</mi> <mi>q</mi> </msub> <mi>G</mi> <mi>R</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>q</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>q</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>$

完整全部详细技术资料下载

当前第2页1 2 3