一种面向大数据中任意形状数据簇的快速聚类方法与流程

文档序号：12667314阅读：来源：国知局

技术特征：

1.一种面向大数据的快速聚类方法，其特征在于，对于含有N个数据样本的大数据集D＝{d₁,d₂,…,d_N}，给定采样比例r，具体包括：

步骤1：设定迭代次数t与常数c；从原始数据集中随机采样M＝N*r个样本作为初始代表点集合X＝{x₁,x₂,…,x_M}；并迭代地在更新每个样本的位置，在每一次迭代中，对于代表点样本x_i，其新的坐标为：

$<mrow> <msub> <mi>x</mi> <msup> <mi>i</mi> <mo>′</mo> </msup> </msub> <mo>=</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>+</mo> <msubsup> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> <mrow> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>*</mo> <mfrac> <mi>c</mi> <mrow> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>$

循环本步骤，迭代t次，转至下一步骤；

步骤2：给定阈值τ，将每个原始数据样本划分给与其距离最近的代表点；对于任意代表点x_i，都对应着一个属于该代表点的原始样本集合，令该集合为其中包含k_i个原始样本；对于每个代表点样本，更新其位置信息；具体来说，对于代表点样本x_i，其新位置为：

$<mrow> <msub> <mi>x</mi> <msup> <mi>i</mi> <mo>′</mo> </msup> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>k</mi> <mi>i</mi> </msub> </mfrac> <msubsup> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>k</mi> <mi>i</mi> </msub> </msubsup> <msub> <mi>c</mi> <mi>j</mi> </msub> </mrow>$

迭代执行本步骤将直到所有代表点的位移量总和小于τ，转至下一步骤；

步骤3：使用现有的任意形状聚类算法在采样数据集上进行聚类，并将对代表点数据集的聚类结果映射回原始数据集；具体来说，对于每个代表点x_i及其对应的原始样本集合对每一个原始样本都贴上与代表点相同的类别标签。

2.根据权利要求1所述的一种面向大数据的快速聚类方法，其特征在于，步骤1中迭代更新代表点位置的方法，迭代次数t≤10。

3.根据权利要求1所述的一种面向大数据的快速聚类方法，其特征在于，步骤2中根据原始数据样本分布更新代表点位置的方法，对于标准化在[0,1]区间的数据集，阈值τ≤0.01。

完整全部详细技术资料下载

当前第2页1 2 3