一种互联网数据聚类方法及系统与流程

文档序号：12733702阅读：来源：国知局

技术特征：

1.一种互联网数据聚类方法，包括以下步骤：

步骤a：在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数，形成新的目标函数；

步骤b：对新的目标函数的参数进行优化求解；

步骤c：根据优化的参数结果计算样本与聚类中心的距离，根据样本与聚类中心的距离对样本进行聚类簇分配。

2.根据权利要求1所述的互联网数据聚类方法，其特征在于，在所述步骤a中，所述新的目标函数为：

满足条件：

在上述公式中：

U是一个n×k的矩阵，u_i，l＝1表示第i个实例属于第l个聚类中心；

Z＝{Z₁，Z₂，Z_k}表示k个聚类中心；

H是一个k×m的权重矩阵，H_l，j表示第j个关键词在第l个聚类中心的权重；

S是一个k×T的权重矩阵，S_l，j表示第t个组在第l个聚类中心的权重；

p_l表示聚类簇l中的样本数量占所有样本数量的百分比；

λ＞0和η＞0分别用来控制权重的分布均匀程度；

σ用来调整聚类簇间样本数量的平衡程度；

是新加入的对聚类簇样本数量进行惩罚的惩罚系数。

3.根据权利要求2所述的互联网数据聚类方法，其特征在于，在所述步骤b中，所述对新的目标函数的参数进行优化求解具体包括以下步骤：

步骤b1：固定变量求解优化问题

步骤b2：固定变量求解优化问题

步骤b3：固定变量求解优化问题

步骤b4：固定变量求解优化问题

4.根据权利要求3所述的互联网数据聚类方法，其特征在于，在所述步骤b1中，所述固定变量求解优化问题的求解依据为：

在所述步骤b2中，所述固定变量求解优化问题的求解依据为：

5.根据权利要求4所述的互联网数据聚类方法，其特征在于，在所述步骤b3中，所述固定变量求解优化问题的求解公式为：

6.根据权利要求5所述的互联网数据聚类方法，其特征在于，在所述步骤b4中，所述固定变量求解优化问题的求解公式为：

7.根据权利要求1所述的互联网数据聚类方法，其特征在于，在所述步骤c中，所述根据优化的参数结果计算样本与聚类中心的距离，根据样本与聚类中心的距离对样本进行聚类簇分配具体为：p_l表示聚类簇l中的样本数量占所有样本数量的百分比，当聚类簇中的样本数量百分比p_l过大时，相应聚类簇中的惩罚系数会更接近于1，大于其他聚类簇；当样本x计算距离时，到每个聚类中心的距离乘以该惩罚系数后会进行放缩，聚类簇l上的缩放比率较小，其他聚类簇的缩放比例较大；如果一个样本x与聚类簇l和另一聚类簇r的聚类中心距离相近，由于r的惩罚系数较小，距离缩小比例较大，x与r之间的距离经过缩放后小于其与l的距离，则样本x会被分配到聚类簇r中。

8.一种互联网数据聚类系统，其特征在于，包括目标函数更新模块和目标函数计算模块；所述目标函数更新模块用于在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数，形成新的目标函数；所述目标函数计算模块用于对新的目标函数的参数进行优化求解，根据优化的参数结果计算样本与聚类中心的距离，根据样本与聚类中心的距离对样本进行聚类簇分配。

9.根据权利要求8所述的互联网数据聚类系统，其特征在于，所述目标函数更新模块形成的新的目标函数新为：

满足条件：

在上述公式和公式中：

U是一个n×k的矩阵，u_i，l＝1表示第i个实例属于第l个聚类中心；

Z＝{Z₁，Z₂，Z_k}表示k个聚类中心；

H是一个k×m的权重矩阵，H_l，j表示第j个关键词在第l个聚类中心的权重；

S是一个k×T的权重矩阵，S_l，j表示第t个组在第l个聚类中心的权重；

p_l表示聚类簇l中的样本数量占所有样本数量的百分比；

λ＞0和η＞0分别用来控制权重的分布均匀程度；

σ用来调整聚类簇间样本数量的平衡程度；

是新加入的对聚类簇样本数量进行惩罚的惩罚系数。

10.根据权利要求9所述的互联网数据聚类系统，其特征在于，所述目标函数计算模块包括第一求解单元、第二求解单元、第三求解单元和第一求解单元；

所述第一求解单元用于在固定变量时，求解优化问题

所述第二求解单元用于在固定变量时，求解优化问题

所述第三求解单元用于在固定变量求解优化问题

所述第四求解单元用于在固定变量时，求解优化问题

完整全部详细技术资料下载

当前第2页1 2 3