1.一种互联网数据聚类方法,包括以下步骤:
步骤a:在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数,形成新的目标函数;
步骤b:对新的目标函数的参数进行优化求解;
步骤c:根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配。
2.根据权利要求1所述的互联网数据聚类方法,其特征在于,在所述步骤a中,所述新的目标函数为:
满足条件:
在上述公式中:
U是一个n×k的矩阵,ui,l=1表示第i个实例属于第l个聚类中心;
Z={Z1,Z2,Zk}表示k个聚类中心;
H是一个k×m的权重矩阵,Hl,j表示第j个关键词在第l个聚类中心的权重;
S是一个k×T的权重矩阵,Sl,j表示第t个组在第l个聚类中心的权重;
pl表示聚类簇l中的样本数量占所有样本数量的百分比;
λ>0和η>0分别用来控制权重的分布均匀程度;
σ用来调整聚类簇间样本数量的平衡程度;
是新加入的对聚类簇样本数量进行惩罚的惩罚系数。
3.根据权利要求2所述的互联网数据聚类方法,其特征在于,在所述步骤b中,所述对新的目标函数的参数进行优化求解具体包括以下步骤:
步骤b1:固定变量求解优化问题
步骤b2:固定变量求解优化问题
步骤b3:固定变量求解优化问题
步骤b4:固定变量求解优化问题
4.根据权利要求3所述的互联网数据聚类方法,其特征在于,在所述步骤b1中,所述固定变量求解优化问题
的求解依据为:
在所述步骤b2中,所述固定变量求解优化问题
的求解依据为:
5.根据权利要求4所述的互联网数据聚类方法,其特征在于,在所述步骤b3中,所述固定变量求解优化问题
的求解公式为:
6.根据权利要求5所述的互联网数据聚类方法,其特征在于,在所述步骤b4中,所述固定变量求解优化问题
的求解公式为:
7.根据权利要求1所述的互联网数据聚类方法,其特征在于,在所述步骤c中,所述根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配具体为:pl表示聚类簇l中的样本数量占所有样本数量的百分比,当聚类簇中的样本数量百分比pl过大时,相应聚类簇中的惩罚系数会更接近于1,大于其他聚类簇;当样本x计算距离时,到每个聚类中心的距离乘以该惩罚系数后会进行放缩,聚类簇l上的缩放比率较小,其他聚类簇的缩放比例较大;如果一个样本x与聚类簇l和另一聚类簇r的聚类中心距离相近,由于r的惩罚系数
较小,距离缩小比例较大,x与r之间的距离经过缩放后小于其与l的距离,则样本x会被分配到聚类簇r中。
8.一种互联网数据聚类系统,其特征在于,包括目标函数更新模块和目标函数计算模块;所述目标函数更新模块用于在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数,形成新的目标函数;所述目标函数计算模块用于对新的目标函数的参数进行优化求解,根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配。
9.根据权利要求8所述的互联网数据聚类系统,其特征在于,所述目标函数更新模块形成的新的目标函数新为:
满足条件:
在上述公式和公式中:
U是一个n×k的矩阵,ui,l=1表示第i个实例属于第l个聚类中心;
Z={Z1,Z2,Zk}表示k个聚类中心;
H是一个k×m的权重矩阵,Hl,j表示第j个关键词在第l个聚类中心的权重;
S是一个k×T的权重矩阵,Sl,j表示第t个组在第l个聚类中心的权重;
pl表示聚类簇l中的样本数量占所有样本数量的百分比;
λ>0和η>0分别用来控制权重的分布均匀程度;
σ用来调整聚类簇间样本数量的平衡程度;
是新加入的对聚类簇样本数量进行惩罚的惩罚系数。
10.根据权利要求9所述的互联网数据聚类系统,其特征在于,所述目标函数计算模块包括第一求解单元、第二求解单元、第三求解单元和第一求解单元;
所述第一求解单元用于在固定变量时,求解优化问题
所述第二求解单元用于在固定变量时,求解优化问题
所述第三求解单元用于在固定变量求解优化问题
所述第四求解单元用于在固定变量时,求解优化问题