一种互联网数据聚类方法及系统与流程

文档序号:12733702阅读:来源:国知局

技术特征:

1.一种互联网数据聚类方法,包括以下步骤:

步骤a:在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数,形成新的目标函数;

步骤b:对新的目标函数的参数进行优化求解;

步骤c:根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配。

2.根据权利要求1所述的互联网数据聚类方法,其特征在于,在所述步骤a中,所述新的目标函数为:

满足条件:

在上述公式中:

U是一个n×k的矩阵,ui,l=1表示第i个实例属于第l个聚类中心;

Z={Z1,Z2,Zk}表示k个聚类中心;

H是一个k×m的权重矩阵,Hl,j表示第j个关键词在第l个聚类中心的权重;

S是一个k×T的权重矩阵,Sl,j表示第t个组在第l个聚类中心的权重;

pl表示聚类簇l中的样本数量占所有样本数量的百分比;

λ>0和η>0分别用来控制权重的分布均匀程度;

σ用来调整聚类簇间样本数量的平衡程度;

是新加入的对聚类簇样本数量进行惩罚的惩罚系数。

3.根据权利要求2所述的互联网数据聚类方法,其特征在于,在所述步骤b中,所述对新的目标函数的参数进行优化求解具体包括以下步骤:

步骤b1:固定变量求解优化问题

步骤b2:固定变量求解优化问题

步骤b3:固定变量求解优化问题

步骤b4:固定变量求解优化问题

4.根据权利要求3所述的互联网数据聚类方法,其特征在于,在所述步骤b1中,所述固定变量求解优化问题的求解依据为:

在所述步骤b2中,所述固定变量求解优化问题 的求解依据为:

5.根据权利要求4所述的互联网数据聚类方法,其特征在于,在所述步骤b3中,所述固定变量求解优化问题的求解公式为:

6.根据权利要求5所述的互联网数据聚类方法,其特征在于,在所述步骤b4中,所述固定变量求解优化问题的求解公式为:

7.根据权利要求1所述的互联网数据聚类方法,其特征在于,在所述步骤c中,所述根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配具体为:pl表示聚类簇l中的样本数量占所有样本数量的百分比,当聚类簇中的样本数量百分比pl过大时,相应聚类簇中的惩罚系数会更接近于1,大于其他聚类簇;当样本x计算距离时,到每个聚类中心的距离乘以该惩罚系数后会进行放缩,聚类簇l上的缩放比率较小,其他聚类簇的缩放比例较大;如果一个样本x与聚类簇l和另一聚类簇r的聚类中心距离相近,由于r的惩罚系数较小,距离缩小比例较大,x与r之间的距离经过缩放后小于其与l的距离,则样本x会被分配到聚类簇r中。

8.一种互联网数据聚类系统,其特征在于,包括目标函数更新模块和目标函数计算模块;所述目标函数更新模块用于在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数,形成新的目标函数;所述目标函数计算模块用于对新的目标函数的参数进行优化求解,根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配。

9.根据权利要求8所述的互联网数据聚类系统,其特征在于,所述目标函数更新模块形成的新的目标函数新为:

满足条件:

在上述公式和公式中:

U是一个n×k的矩阵,ui,l=1表示第i个实例属于第l个聚类中心;

Z={Z1,Z2,Zk}表示k个聚类中心;

H是一个k×m的权重矩阵,Hl,j表示第j个关键词在第l个聚类中心的权重;

S是一个k×T的权重矩阵,Sl,j表示第t个组在第l个聚类中心的权重;

pl表示聚类簇l中的样本数量占所有样本数量的百分比;

λ>0和η>0分别用来控制权重的分布均匀程度;

σ用来调整聚类簇间样本数量的平衡程度;

是新加入的对聚类簇样本数量进行惩罚的惩罚系数。

10.根据权利要求9所述的互联网数据聚类系统,其特征在于,所述目标函数计算模块包括第一求解单元、第二求解单元、第三求解单元和第一求解单元;

所述第一求解单元用于在固定变量时,求解优化问题

所述第二求解单元用于在固定变量时,求解优化问题

所述第三求解单元用于在固定变量求解优化问题

所述第四求解单元用于在固定变量时,求解优化问题

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1