一种互联网数据聚类方法及系统与流程

文档序号:12733702阅读:204来源:国知局
一种互联网数据聚类方法及系统与流程

本发明属于聚类算法技术领域,尤其涉及一种互联网数据聚类方法及系统。



背景技术:

随着大数据时代的到来,数据挖掘领域中面临的数据变得越来越复杂。尤其是互联网文本数据,除了数量巨大之外,由矢量空间模型(Vector Space Model)构建的文本数据还具有超高的维度和稀疏度,现有的数据挖掘聚类算法,如k-means、层次聚类及普聚类等算法应用于文本聚类时,普遍存在不足和局限性。

针对高维稀疏数据的子空间聚类问题,学术界提出了许多相关的子空间聚类算法(Subspace Clustering),软子空间聚类算法是其中的一类,依据加权的层数不同,软子空间聚类算法可以分为单层软子空间聚类算法和双层软子空间聚类算法。FG-k-means算法是由陈小军等人在2012年提出来的一种双层软子空间聚类算法,引入了特征组的概念,在组与特征上同时加权,在对超高维稀疏数据进行聚类时,效果明显优于单层软子空间聚类算法。FG-k-means算法针对特征空间包含分组信息的数据进行聚类,具体如图1所示,是FG-k-means算法模拟数据集。FG-k-means算法特征空间定义如下:

1)设训练数据集为X={x1,x2,…,xN},其中xi∈Ra(1≤i≤N)表示数据集中第i个样本;

2)X上的特征集为V={v1,v2,…,vd},V中的特征包含于组集合G={G1,G2,…,Gk}中且G满足

FG-k-means算法需在以上形式的数据集上找出K个聚类簇,同时寻找每个聚类簇在组以及特征上对应子空间。如图1所示,定义了一个包含组信息的数据集示例,在数据集X={x1,x2,…,xN}上,特征集为v={v1,v2,…,v12},特征数量d=12,组集合为G={G1,G2,G3},且组与组之间的特征互不相交。

为求解上述包含组信息数据集的聚类问题,FG-k-means假设每个聚类簇l在V和G上各有一组权重Hl和Sl。当聚类簇中的所有样本在某一特征或祖上一致性高,则赋予该特征或组较大的权重。其目标函数如下:

满足条件:

●U是一个n×k的矩阵,ui,l=1表示第i个实例属于第l个聚类中心;

●Z={Z1,Z2,…,Zk}表示k个聚类中心;

●H为k×m的权重矩阵,Hi,j表示第j个关键词在第l个聚类中心的权重;

●S是一个k×T的权重矩阵,Sl,j表示第j个组在第l个聚类中心的权重;

●λ>0和η>0分别用来控制权重的分布均匀程度。

目标函数(1)的参数通过迭代优化方法可以求解。

综上所述,现有的FG-k-means算法存在的缺点在于:在聚类过程中通过对特征进行加权,忽略无用特征对聚类簇形成的影响。当遇到某一个样本在这些维度上与聚类中心有显著差异,而在该聚类簇中权重较大的特征上极其相似时,算法则无法将该样本与聚类簇进行有效拆分。大量无关样本的存在,导致该聚类簇样本数量增加,从而导致聚类簇之间的不均衡现象,降低了FG-k-means算法的鲁棒性。



技术实现要素:

本发明提供了一种互联网数据聚类方法及系统,旨在至少在一定程度上解决现有技术中的上述技术问题之一。

本发明实现方式如下,一种互联网数据聚类方法,包括以下步骤:

步骤a:在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数,形成新的目标函数;

步骤b:对新的目标函数的参数进行优化求解;

步骤c:根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配。

本发明实施例采取的技术方案还包括:在所述步骤a中,所述新的目标函数为:

满足条件:

在上述公式中:

U是一个n×k的矩阵,ui,l=1表示第i个实例属于第l个聚类中心;

Z={Z1,Z2,…,Zk}表示k个聚类中心;

H是一个k×m的权重矩阵,Hl,j表示第j个关键词在第l个聚类中心的权重;

S是一个k×T的权重矩阵,Sl,j表示第t个组在第l个聚类中心的权重;

pl表示聚类簇l中的样本数量占所有样本数量的百分比;

λ>0和η>0分别用来控制权重的分布均匀程度;

σ用来调整聚类簇间样本数量的平衡程度;

是新加入的对聚类簇样本数量进行惩罚的惩罚系数。

本发明实施例采取的技术方案还包括:在所述步骤b中,所述对新的目标函数的参数进行优化求解具体包括以下步骤:

步骤b1:固定变量求解优化问题

步骤b2:固定变量求解优化问题

步骤b3:固定变量求解优化问题

步骤b4:固定变量求解优化问题

本发明实施例采取的技术方案还包括:在所述步骤b1中,所述固定变量求解优化问题的求解依据为:

在所述步骤b2中,所述固定变量求解优化问题的求解依据为:

本发明实施例采取的技术方案还包括:在所述步骤b3中,所述固定变量求解优化问题的求解公式为:

本发明实施例采取的技术方案还包括:在所述步骤b4中,所述固定变量求解优化问题的求解公式为:

本发明实施例采取的技术方案还包括:在所述步骤c中,所述根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配具体为:pl表示聚类簇l中的样本数量占所有样本数量的百分比,当聚类簇中的样本数量百分比pl过大时,相应聚类簇中的惩罚系数会更接近于1,大于其他聚类簇;当样本x计算距离时,到每个聚类中心的距离乘以该惩罚系数后会进行放缩,聚类簇l上的缩放比率较小,其他聚类簇的缩放比例较大;如果一个样本x与聚类簇l和另一聚类簇r的聚类中心距离相近,由于r的惩罚系数较小,距离缩小比例较大,x与r之间的距离经过缩放后小于其与l的距离,则样本x会被分配到聚类簇r中。

本发明实施例采取的另一技术方案为:一种互联网数据聚类系统,包括目标函数更新模块和目标函数计算模块;所述目标函数更新模块用于在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数,形成新的目标函数;所述目标函数计算模块用于对新的目标函数的参数进行优化求解,根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配。

本发明实施例采取的技术方案还包括:所述目标函数更新模块形成的新的目标函数新为:

满足条件:

在上述公式和公式中:

U是一个n×k的矩阵,ui,l=1表示第i个实例属于第l个聚类中心;

Z={Z1,Z2,…,Zk}表示k个聚类中心;

H是一个k×m的权重矩阵,Hl,j表示第j个关键词在第l个聚类中心的权重;

S是一个k×T的权重矩阵,Sl,j表示第t个组在第l个聚类中心的权重;

pl表示聚类簇l中的样本数量占所有样本数量的百分比;

λ>0和η>0分别用来控制权重的分布均匀程度;

σ用来调整聚类簇间样本数量的平衡程度;

是新加入的对聚类簇样本数量进行惩罚的惩罚系数。

本发明实施例采取的技术方案还包括:所述目标函数计算模块包括第一求解单元、第二求解单元、第三求解单元和第一求解单元;

所述第一求解单元用于在固定变量时,求解优化问题

所述第二求解单元用于在固定变量时,求解优化问题

所述第三求解单元用于在固定变量求解优化问题

所述第四求解单元用于在固定变量时,求解优化问题

本发明实施例的互联网数据聚类方法及系统在原有FG-k-means算法的目标函数距离计算项中加入惩罚系数,可以有效地控制原有FG-k-means算法存在的聚类簇样本数量无限增长的问题,同时能够使得各个聚类簇之间样本数量均衡可控,从而获得更高的聚类精度。

附图说明

图1是FG-k-means算法模拟数据集;

图2是本发明实施例的互联网数据聚类方法的流程图;

图3是本发明实施例的目标函数优化求解方法的流程图;

图4是本发明实施例的互联网数据聚类系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请参阅图2,是本发明实施例的互联网数据聚类方法的流程图。本发明实施例的互联网数据聚类方法包括以下步骤:

步骤100:在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数,形成新的目标函数;

在步骤100中,新的目标函数为:

满足条件:

在公式(3)和公式(4)中:

U是一个n×k的矩阵,ui,l=1表示第i个实例属于第l个聚类中心;

Z={Z1,Z2,…,Zk}表示k个聚类中心;

H是一个k×m的权重矩阵,Hl,j表示第j个关键词在第l个聚类中心的权重;

S是一个k×T的权重矩阵,Sl,j表示第t个组在第l个聚类中心的权重;

pl表示聚类簇l中的样本数量占所有样本数量的百分比;

λ>0和η>0分别用来控制权重的分布均匀程度;

σ用来调整聚类簇间样本数量的平衡程度;

是新加入的对聚类簇样本数量进行惩罚的惩罚系数,惩罚系数采用分式的形式表达,由pl和σ这两个参数来控制,并可根据实际应用做出相应调整;通过σ来对聚类簇之间样本的平衡性进行规约,对数据集上的样本总量进行归一化处理,引入pl参数,是为了去除数据集样本数量对σ合理取值范围的影响。在本发明实施例中,惩罚系数中的σ的合理取值范围是[0,0.7]这个区间,即惩罚系数中的参数的取值范围在一个较小的可控区间中,有利于对聚类簇样本数量均衡程度的调控。

步骤200:对新的目标函数的参数进行优化求解,根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配。

在步骤200中,请一并参阅图3,是本发明实施例的目标函数优化求解方法的流程图。本发明实施例的目标函数优化求解方法包括以下步骤:

步骤201:固定变量求解优化问题

在步骤201中,参考FG-k-means的推导过程,可以依据以下规则更新U:

步骤202:固定变量求解优化问题

在步骤202中,可以依据以下规则更新Z中的元素:

步骤203:固定变量求解优化问题

在步骤203中,求解过程由定理1得出:

定理1:假设且η>0,则目标函数取得最小值当且仅当:

定理1证明:

设给定三个变量,需在最小化目标函数(3)的情况下,求解hi,j的值,该值表示第j个特征在第i个聚类簇中的权重,由于存在k×T个限定条件将目标函数(3)取对数并引入拉格朗日程子可得:

公式(8)中,El,j表示当固定时,第l个聚类簇中第j个特征组的常量,可以通过公式(8)求得。

通过对公式(9)分别依据γl,t及hl,j进行求导,并设定倒数值为0,可得:

在公式(11)和公式(12)中,t为特征j所分属的组的编号。

化简公式(12)可得:

将公式(13)代入公式(11)当中,可得:

化简公式(14)可得:

最终将公式(15)反代入公式(13)得:

步骤204:固定变量求解优化问题

在步骤204中,可利用定理2进行求解:

定理2:且λ>0,则目标函数取得最小值当且仅当:

定理2证明:

设给定三个变量,需在最小化目标函数(3)的情况下,求解hl,j的值,该值表示第j个特征在第i个聚类簇中的权重,由于存在k个限定条件将目标函数(3)取对数并引入拉格朗日程子可得:

公式(18)中,Dl,t表示当固定时,第l个聚类簇中第t个特征组的常量,可以通过公式(17)求得。

在公式(18)中,分别对γ及sl,t进行求导并令其倒数为0,可得:

化简公式(20)可得:

将公式(21)代入公式(19)当中,可得:

化简公式(22)可得:

最终将公式(23)反代入公式(21)得:

在上述算法中,可发现σ的取值会影响到算法的整体性能,当σ=0时,算法等价于FG-k-means算法。依据上述的算法更新公式以及FG-k-means算法流程,可得本发明算法伪代码如下:

算法伪代码

pl表示聚类簇l中的样本数量占所有样本数量的百分比,当聚类簇中的样本数量百分比pl过大时,相应聚类簇中的惩罚系数会更接近于1,大于其他聚类簇。当样本x依据(5)计算距离时,到每个聚类中心的距离乘以该惩罚系数后会进行放缩,聚类簇l上的缩放比率较小,其他聚类簇的缩放比例较大。假设某一个样本x与l和另一聚类簇r的聚类中心距离相近,由于r的惩罚系数较小,距离缩小比例较大。x与r之间的距离经过缩放后小于其与l的距离,则样本x会被分配到聚类簇r中。利用这样的方式可限制了聚类簇l样本数量无限制的增长。在样本数量较多的聚类簇中,只有真正靠近聚类中心的样本才留在聚类簇中,把离该聚类簇较远的样本分配到其他样本数量较少的聚类簇在中。

请参阅图4,是本发明实施例的互联网数据聚类系统的结构示意图。本发明实施例的互联网数据聚类系统包括目标函数更新模块和目标函数计算模块;

目标函数更新模块用于在原有的FG-k-means算法的目标函数距离计算项中添加惩罚系数,形成新的目标函数;其中,新的目标函数为:

满足条件:

在公式(3)和公式(4)中:

U是一个n×k的矩阵,ui,l=1表示第i个实例属于第l个聚类中心;

Z={Z1,Z2,…,Zk}表示k个聚类中心;

H是一个k×m的权重矩阵,Hl,j表示第j个关键词在第l个聚类中心的权重;

S是一个k×T的权重矩阵,Sl,j表示第t个组在第l个聚类中心的权重;

pl表示聚类簇l中的样本数量占所有样本数量的百分比;

λ>0和η>0分别用来控制权重的分布均匀程度;

σ用来调整聚类簇间样本数量的平衡程度;

是新加入的对聚类簇样本数量进行惩罚的惩罚系数,惩罚系数采用分式的形式表达,由pl和σ这两个参数来控制,并可根据实际应用做出相应调整;通过σ来对聚类簇之间样本的平衡性进行规约,对数据集上的样本总量进行归一化处理,引入pl参数,是为了去除数据集样本数量对σ合理取值范围的影响。在本发明实施例中,惩罚系数中的σ的合理取值范围是[0,0.7]这个区间,即惩罚系数中的参数的取值范围在一个较小的可控区间中,有利于对聚类簇样本数量均衡程度的调控。

目标函数计算模块用于对新的目标函数的参数进行优化求解,根据优化的参数结果计算样本与聚类中心的距离,根据样本与聚类中心的距离对样本进行聚类簇分配;具体地,目标函数计算模块包括第一求解单元、第二求解单元、第三求解单元和第一求解单元;

第一求解单元用于在固定变量时,求解优化问题其中,参考FG-k-means的推导过程,可以依据以下规则更新U:

第二求解单元用于在固定变量时,求解优化问题其中,可以依据以下规则更新Z中的元素:

第三求解单元用于在固定变量求解优化问题其中,求解过程由定理1得出:

定理1:假设且η>0,则目标函数取得最小值当且仅当:

定理1证明:

设给定三个变量,需在最小化目标函数(3)的情况下,求解hl,j的值,该值表示第j个特征在第i个聚类簇中的权重,由于存在k×T个限定条件,将目标函数(3)取对数并引入拉格朗日程子可得:

公式(8)中,El,j表示当固定时,第l个聚类簇中第j个特征组的常量,可以通过公式(8)求得。

通过对公式(9)分别依据γl,t及hl,j进行求导,并设定倒数值为0,可得:

在公式(11)和公式(12),t为特征j所分属的组的编号。

化简公式(12)可得:

将公式(13)代入公式(11)当中,可得:

化简公式(14)可得:

最终将公式(15)反代入公式(13)得:

第四求解单元用于在固定变量时,求解优化问题其中,可利用定理2进行求解:

定理2:且λ>0,则目标函数取得最小值当且仅当:

定理2证明:

设给定三个变量,需在最小化目标函数(3)的情况下,求解hl,j的值,该值表示第j个特征在第i个聚类簇中的权重,由于存在k个限定条件将目标函数(3)取对数并引入拉格朗日程子可得:

公式(18)中,Dl,t表示当固定时,第l个聚类簇中第t个特征组的常量,可以通过公式(17)求得。

在公式(18)中,分别对γ及sl,t进行求导并令其倒数为0,可得:

化简公式(20)可得:

将公式(21)代入公式(19)当中,可得:

化简公式(22)可得:

最终将公式(23)反代入公式(21)得:

在上述算法中,可发现σ的取值会影响到算法的整体性能,当σ=0时,算法等价于FG-k-means算法;

pl表示聚类簇l中的样本数量占所有样本数量的百分比,当聚类簇中的样本数量百分比pl过大时,相应聚类簇中的惩罚系数会更接近于1,大于其他聚类簇。当样本x依据(5)计算距离时,到每个聚类中心的距离乘以该惩罚系数后会进行放缩,聚类簇l上的缩放比率较小,其他聚类簇的缩放比例较大。假设某一个样本x与l和另一聚类簇r的聚类中心距离相近,由于r的惩罚系数较小,距离缩小比例较大。x与r之间的距离经过缩放后小于其与l的距离,则样本x会被分配到聚类簇r中。利用这样的方式可限制了聚类簇l样本数量无限制的增长。在样本数量较多的聚类簇中,只有真正靠近聚类中心的样本才留在聚类簇中,把离该聚类簇较远的样本分配到其他样本数量较少的聚类簇在中。

本发明实施例的互联网数据聚类方法及系统在原有FG-k-means算法的目标函数距离计算项中加入惩罚系数,可以有效地控制原有FG-k-means算法存在的聚类簇样本数量无限增长的问题,同时能够使得各个聚类簇之间样本数量均衡可控,从而获得更高的聚类精度。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1