空间密度相似性度量K‑means聚类方法与流程

文档序号:12468902阅读:来源:国知局

技术特征:

1.一种空间密度相似性度量K-means聚类方法,其特征在于该方法包括以下步骤:

(1)对数据集样本D进行归一化的数据预处理;

(2)初始化聚类中心:

1)根据样本间的空间密度的相似性距离得出样本空间Space和每一个样本的密集度Density(xi);

2)选择最大密集度样本作为初始聚类中心的第一个聚类中心;

3)选择其次大的密集度样本,并且此样本与之前选择的聚类中心的距离大于一定的值,该值记为控制迭代值distrol,添加此样本进入初始聚类中心;

4)循环执行3),直至选择出K个初始聚类中心C0

步骤3)中所述之前是指:在初次循环时,为步骤2)中第一个聚类中心;在后续循环执行时,为前面循环中选择的所有初始聚类中心;

(3)在第t次循环中,根据聚类中心Ct-1和数据集样本D的空间密度的相似性距离重新划分类得到Dt

(4)通过类中心迭代模型计算得到新一轮的聚类中心Ct

(5)循环执行(3)和(4),直至满足目标函数E的值达到最优即不再变化时结束,

<mrow> <mi>E</mi> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

xj表示第j个样本,ci表示第i个聚类中心,DistF(xj,ci)表示二者空间密度的相似性距离。

2.根据权利要求1所述的空间密度相似性度量K-means聚类方法,其特征在于步骤(2)中计算的Space和Density(xi)具体包括以下步骤:

(A).首先计算数据集样本D中任意两个样本距离的伸缩系数A为:

<mrow> <mi>A</mi> <mo>=</mo> <mfrac> <mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中Dist(xi,xj)为xi和xj的欧式距离;mean为样本集的特征变量,即一个类内的样本均值,在某一样本集中,mean为一定值;

(B).根据A,计算数据集样本D中任意两个样本间的密集度可调节的线段长度L(xi,xj)公式为:

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>A</mi> </mrow> </msup> <mo>-</mo> <mn>1</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中,e为数学中的欧拉数;

(C).根据L(xi,xj)计算样本的空间密度相似性距离DistF(xi,xj)为:

<mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>min</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <msub> <mi>P</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> </msub> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mrow> <mo>|</mo> <mi>p</mi> <mo>|</mo> </mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

令数据集样本D为图G=(V,E)的顶点,P表示长度为|r-1|的连接数据点x1和x|r|的路径,(xk,xk+1)∈E;Pi,j作为xi到xj的所能经过的所有路径;

(D).数据集的样本空间Space为:

Space=Max{DistF(xi,xj)|0<i<n,0<j<n,i≠j} (4)

(E).得某一样本的密集度Density(xi)为:

<mrow> <mi>D</mi> <mi>e</mi> <mi>n</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>{</mo> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&lt;</mo> <mi>r</mi> <mo>,</mo> <mo>&ForAll;</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>D</mi> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,Num(xj)为符合条件的样本个数;r为密度半径。

3.根据权利要求2所述的空间密度相似性度量K-means聚类方法,其特征在于欧拉数e取值为2.718281828。

4.根据权利要求2所述的空间密度相似性度量K-means聚类方法,其特征在于密度半径r取值为Space/(K*2)。

5.根据权利要求1所述的空间密度相似性度量K-means聚类方法,其特征在于步骤(4)中类中心迭代模型通过设定第t次迭代过程中第i个聚类中心的优化公式计算,所述优化公式为:

<mrow> <msubsup> <mi>C</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>Min</mi> <mrow> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mo>&ForAll;</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>t</mi> </msubsup> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>z</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>Y</mi> <mi>z</mi> </msub> </mrow> <mo>)</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>z</mi> </msub> <mo>&Element;</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mo>}</mo> <mo>:</mo> </mrow>

其中,表示由第i个聚类中心得到新一轮的样本集,m为中样本的个数,遍历样本集中的每一个xj,求其与中所有样本的DistF距离之和,最小值的样本作为

6.根据权利要求1所述的空间密度相似性度量K-means聚类方法,其特征在于控制迭代值distrol取值为(1.0/(K))*Space。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1