空间密度相似性度量K‑means聚类方法与流程

文档序号：12468902阅读：来源：国知局

技术特征：

1.一种空间密度相似性度量K-means聚类方法，其特征在于该方法包括以下步骤：

(1)对数据集样本D进行归一化的数据预处理；

(2)初始化聚类中心：

1)根据样本间的空间密度的相似性距离得出样本空间Space和每一个样本的密集度Density(x_i)；

2)选择最大密集度样本作为初始聚类中心的第一个聚类中心；

3)选择其次大的密集度样本，并且此样本与之前选择的聚类中心的距离大于一定的值，该值记为控制迭代值distrol，添加此样本进入初始聚类中心；

4)循环执行3)，直至选择出K个初始聚类中心C⁰；

步骤3)中所述之前是指：在初次循环时，为步骤2)中第一个聚类中心；在后续循环执行时，为前面循环中选择的所有初始聚类中心；

(3)在第t次循环中，根据聚类中心C^t-1和数据集样本D的空间密度的相似性距离重新划分类得到D^t；

(4)通过类中心迭代模型计算得到新一轮的聚类中心C^t，

(5)循环执行(3)和(4)，直至满足目标函数E的值达到最优即不再变化时结束，

$<mrow> <mi>E</mi> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>$

x_j表示第j个样本，c_i表示第i个聚类中心，DistF(x_j,c_i)表示二者空间密度的相似性距离。

2.根据权利要求1所述的空间密度相似性度量K-means聚类方法，其特征在于步骤(2)中计算的Space和Density(x_i)具体包括以下步骤：

(A).首先计算数据集样本D中任意两个样本距离的伸缩系数A为：

$<mrow> <mi>A</mi> <mo>=</mo> <mfrac> <mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

其中Dist(x_i,x_j)为x_i和x_j的欧式距离；mean为样本集的特征变量，即一个类内的样本均值，在某一样本集中，mean为一定值；

(B).根据A，计算数据集样本D中任意两个样本间的密集度可调节的线段长度L(x_i,x_j)公式为：

$<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>A</mi> </mrow> </msup> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

其中，e为数学中的欧拉数；

(C).根据L(x_i,x_j)计算样本的空间密度相似性距离DistF(x_i,x_j)为：

$<mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>min</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <msub> <mi>P</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> </msub> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mrow> <mo>|</mo> <mi>p</mi> <mo>|</mo> </mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

令数据集样本D为图G＝(V,E)的顶点，P表示长度为|r-1|的连接数据点x₁和x_|r|的路径，(x_k,x_k+1)∈E；P_i,j作为x_i到x_j的所能经过的所有路径；

(D).数据集的样本空间Space为：

Space＝Max{DistF(x_i,x_j)|0<i<n,0<j<n,i≠j} (4)

(E).得某一样本的密集度Density(x_i)为：

$<mrow> <mi>D</mi> <mi>e</mi> <mi>n</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>{</mo> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo><</mo> <mi>r</mi> <mo>,</mo> <mo>&ForAll;</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>D</mi> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>$

其中，Num(x_j)为符合条件的样本个数；r为密度半径。

3.根据权利要求2所述的空间密度相似性度量K-means聚类方法，其特征在于欧拉数e取值为2.718281828。

4.根据权利要求2所述的空间密度相似性度量K-means聚类方法，其特征在于密度半径r取值为Space/(K*2)。

5.根据权利要求1所述的空间密度相似性度量K-means聚类方法，其特征在于步骤(4)中类中心迭代模型通过设定第t次迭代过程中第i个聚类中心的优化公式计算，所述优化公式为：

$<mrow> <msubsup> <mi>C</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>Min</mi> <mrow> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mo>&ForAll;</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>t</mi> </msubsup> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>z</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>Y</mi> <mi>z</mi> </msub> </mrow> <mo>)</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>z</mi> </msub> <mo>&Element;</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mo>}</mo> <mo>:</mo> </mrow>$

其中，表示由第i个聚类中心得到新一轮的样本集，m为中样本的个数，遍历样本集中的每一个x_j，求其与中所有样本的DistF距离之和，最小值的样本作为

6.根据权利要求1所述的空间密度相似性度量K-means聚类方法，其特征在于控制迭代值distrol取值为(1.0/(K))*Space。

完整全部详细技术资料下载

当前第2页1 2 3