网络标签聚类方法和系统的制作方法

文档序号:6401271阅读:487来源:国知局
专利名称:网络标签聚类方法和系统的制作方法
技术领域
本发明涉及互联网领域,尤其涉及一种网络标签聚类方法和系统。
背景技术
随着互联网的发展,网络资源越来越丰富。互联网上的网络资源可以包括:网络上的视频、音乐、图片文件,或者话题、课件等文件;网络标签(Tag)是用户根据自己的需要、理解和偏好,对网络资源进行标注得到的,用于描述网络资源的主题、类型、功能等多种特征。网络标签具有揭示资源的隐含内容或信息、分类的作用,并在此基础上实现网络资源聚合、协同与推荐等功能。通过对网络标签的向量化,得到网络标签向量;现有网络标签向量是由用户数据、网络资源和网络标签三维属性来表征的,现有网络标签向量中每一个元素表示每个用户数据与每个网络资源与网络标签三者之间的总关联度。在对网络标签向量化后,可以针对向量化后网络标签进行聚类算法的计算,实现对网络标签的聚类;对网络标签聚类后,有助于挖掘出范围更广、程度更深的与网络标签相关的网络资源,可以提高以网络标签来搜索、推荐网络资源等互联网应用的效率。所谓对向量化后的网络标签的聚类,就是对于由多个网络标签向量所构成的网络标签向量集,使用某种算法将该网络标签向量集划分成若干网络标签向量子集,使得聚在同一网络标签向量子集中的网络标签向量之间的相似度较高;这样,通过对网络标签向量的聚类,也就实现了网络标签向量所对应的网络标签的聚类;即同一网络标签向量子集中的网络标签向量所对应的网络标签之间具有较高的相似度。通常,将网络标签向量子集定义为一个簇;对簇中的全部网络标签向量求平均后得到一个平均向量,将该簇内与该平均向量距离最小的网络标签向量定义为该簇的质心;计算簇内任意两个网络标签向量之间的距离,将计算出的最大距离定义为该簇的直径;网络标签向量之间的距离与网络标签向量之间的相似度互为倒数关系。常用的网络标签向量聚类算法有层次聚类算法和k-means (k均值)聚类算法等,由于层次聚类算法在网络标签向量数目较大时,计算复杂而耗时较长,因此对于大数目的网络标签向量,一般采用k-means聚类算法。如图1所示,对网络标签向量集的k-means聚类算法的具体步骤如下:SlOl:进行初始化,令迭代次数j=l。具体的,在对网络标签向量集进行k-means聚类之前,先进行初始化:设定网络标签向量集中的簇的数目(即簇数目),和用于判断k-means聚类过程中迭代步骤是否结束的准则函数阈值;从网络标签向量集中随机选择与设定的簇数目相同数目的网络标签向量,分别作为各簇的初始质心,即第I次迭代过程中的各簇的质心。S102:根据第j次迭代过程中的各簇的质心,进行第j次迭代过程中的一次聚类,从而确定第j次迭代过程中的网络标签向量集的各簇所包含的网络标签向量。具体的,根据各簇的第j次迭代过程中的各簇的质心,进行第j次迭代过程中的一次聚类过程为:针对网络标签向量集中每个非质心的网络标签向量,分别计算该非质心的网络标签向量与各簇的第j次迭代过程中的质心之间的距离;确定出与该非质心的网络标签向量之间的距离最小的质心;将该非质心的网络标签向量聚类到(即划分到)确定出的质心所在的簇中;由此,确定出第j次迭代过程中的网络标签向量集的各簇所包含的网络标签向量。其中,非质心的网络标签向量具体指的是,网络标签向量集中除第j次迭代过程中的各簇的质心之外的其它网络标签向量。S103:根据第j次迭代过程中的网络标签向量集的各簇所包含的网络标签向量,计算第j次迭代过程中的准则函数值。具体地,在确定第j次迭代过程中的网络标签向量集的各簇所包含的网络标签向量后,针对第j次迭代过程中的网络标签向量集中的每个簇,确定该簇的距离评估值:k-means聚类算法的准则函数一般 采用平方误差准则函数(squared-error crkterkon)进行距离评估值的计算,具体可以用如下公式I来表示:F= Σ Pec|P-m|2 (公式 I)公式I中,簇C为网络标签向量集中的任一个簇,F为第j次迭代过程中簇C的距离评估值,P表示簇C中的任一个非质心网络标签向量,m表示簇C的质心,p-m表示P与m的差值,即P到m之间的距离。将第j次迭代过程中的各簇的距离评估值进行累加,得到第j次迭代过程中的准则函数值。S104:将第j次迭代过程中的准则函数值与设定的准则函数阈值进行比较;若第j次迭代过程中的准则函数值大于准则函数阈值,则执行步骤S105;否则,结束迭代,执行步骤 S106。S105:计算各簇的新质心,分别作为第j+Ι次迭代过程中的各簇的质心后,令j=j+l,跳转到步骤S102。具体的,对于步骤S102中第j次迭代过程中的一次聚类后得到的网络标签向量集的各簇,针对每簇,计算该簇中全部网络标签向量的平均向量,选择该簇中与计算出的平均向量距离最小的网络标签向量作为该簇的新质心,即第j+Ι次迭代过程中的该簇的质心。在确定出第j+Ι次迭代过程中的各簇的质心后,令j=j+l,跳转到步骤S102。S106:将第j次迭代过程中的一次聚类后得到的网络标签向量集的各簇,作为此次k-means聚类所得到的最终的聚类结果,结束此次k-means聚类过程。具体的,将第j次迭代过程中的一次聚类后得到的网络标签向量集的各簇,亦即将第j次迭代过程中确定的网络标签向量集的各簇所包含的网络标签向量,作为此次k-means聚类所得到的最终的聚类结果,并结束此次k-means聚类过程。事实上,上述的每一次迭代过程,完成了对网络标签向量集的一次聚类;其中后一次迭代过程的准则函数值会小于前一次迭代过程的准则函数值,即后一次对网络标签集的聚类精度要高于或等于前一次的聚类精度。多次迭代过程,实际上是对网络标签向量集的多次聚类,且聚类精度是逐次提高的,当聚类精度恒定时,完成本次k-means聚类。然而,本发明的发明人发现,现有的网络标签聚类方法即使采用多次迭代的聚类算法,达到聚类精度恒定时,其精度仍然不高。其原因有两个:其一,在对网络标签向量集运用聚类算法时,簇数目是固定的;如果设定的簇数目过多,则互相之间距离较小(相似度较大)的网络标签向量也有可能被聚类到不同的簇中,造成簇间精度降低和簇冗余;如果设定的簇数目过少,则互相之间距离较大(相似度较小)的网络标签向量也有可能被聚类到同一个簇中,造成簇内精度降低。总之,不合适的簇数目,会造成聚类结果的精度降低。另一个原因则是,由于在对网络标签向量集运用聚类算法前,每个簇的初始质心为随机选取,如果个别的,如介词、助词等组成的无意义的网络标签向量化后的网络标签向量、不常用词汇组成的网络标签向量化后的网络标签向量等噪声性质的网络标签向量被选取为初始质心,则导致初始质心所在的簇将没有聚类的意义或者簇内聚类精度降低,总体上降低了聚类的精度。综上所述,现有技术的网络标签聚类方法所得到的聚类结果精度低,有必要提供一种聚类结果精度更高的网络标签聚类方法。

发明内容
针对上述现有技术存在的缺陷,本发明提供了一种网络标签聚类方法和系统,用以提高聚类结果的精度。本发明的技术方案公开了一种网络标签聚类方法,包括:计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类 的簇的数目;根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。其中,所述簇数目为预先设定的;或者所述簇数目根据如下方法确定:对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目。其中,所述一组参考簇数目为预先设定的一组数目;或者所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对I η的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,η为所述网络标签向量集中的网络标签向量个数。较优的,所述根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目,具体包括:以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目;以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目;选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目。较优的,所述选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目,具体包括:将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素,构成所述待选簇数目集合;判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则:将所述一组参考簇数目作为第I次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第I次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代:将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+1次迭代过程中的一组参考簇数目;针对第i+ι次迭代过程中的一组参考簇数目,确定第i+1次迭代过程中的待选簇数目集合;若判断第i+ι次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代;其中,I为自然数。较优的,所述根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,具体包括:
针对所述网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到确定出的初始质心所在的簇中;以及所述聚类算法具体为k均值聚类算法。本发明的技术方案还公开了一种网络标签聚类方法,包括:对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考族数目的参考族最大直径;根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目;根据确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的。其中,所述网络标签向量集中各簇的初始质心是从所述网络标签向量集中随机选取的;或者所述网络标签向量集中各簇的初始质心根据如下方法确定:计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与簇数目相一致的、排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心。其中,所述一组参考簇数目为预先设定的一组数目;或者所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对I η的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,η为所述网络标签向量集中的网络标签向量个数。较优的,所述根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目,具体包括:以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目;以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目;选取所述上限参 考簇数目和所述下限参考簇数目之间的数目作为所述簇数目。较优的,所述选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目,具体包括:将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素,构成所述待选簇数目集合;判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则:将所述一组参考簇数目作为第I次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第I次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代:将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+1次迭代过程中的一组参考簇数目;针对第i+ι次迭代过程中的一组参考簇数目,确定第i+1次迭代过程中的待选簇数目集合;若判断第i+ι次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代;其中,I为自然数。较优的,所述根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,具体包括:针对所述网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到确定出的初始质心所在的簇中;以及所述聚类算法具体为k均值聚类算法。本发明的技术方案还公开了一种网络标签聚类系统,包括:模值确定模块,用于计算网络标签向量集中各网络标签向量的模值;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;模值排序模块,用于根据所述模值确定模块计算出的各网络标签向量的模值的大小,对所述网络标签向量集中的网络标签向量进行排序;初始质心确定模块,用于根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;聚类模块,用于根据所述簇数目,以及所述初始质心确定模块确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。较优的,所述网络标签聚类系统还包括:簇数目确定模块,用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目;以及所述聚类模块具体用于根据所述簇数目确定模块确定出的簇数目,以及所述初始质心确定模块确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。本发明的技术方案还公开了一种网络标签聚类系统,包括:簇数目确定模块和聚类模块;其中,所述簇数目确定模块包括:参考性聚类单元用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;参考簇最大直径确定单元用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据所述参考性聚类单元确定出的对应于该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;直径差值确定单元用于根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;簇数目确定单元用于将所述直径差值确定单元计算出的直径差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目;
所述聚类模块用于根据所述簇数目确定单元确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。较优的,所述簇数目确定模块还包括:初始质心确定单元,用于对于一组参考簇数目,分别针对其中每个参考簇数目执行如下操作:计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与该参考簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各参考簇的初始质心;以及所述参考性聚类单元具体用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述初始质心确定单元针对该参考簇数目确定出的所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果。本发明的技术方案中,由于根据网络标签向量的模值优先出初始质心,相比于现有技术采用随机方法选取的初始质心,其与网络资源关联更多,为重要网络标签向量,采用重要网络标签向量作为初始质心,可以提高网络标签向量集的簇内、簇间聚类精度。本发明的技术方案中,由于根据多次参考性聚类后得到的簇的最大直径来选择合适的簇数目,可以同时得到该网络标签向量集的较高的簇内和簇间聚类精度,有效达到提高聚类结果精度的目的。


图1为现有技术的对网络标签进行k-means聚类的方法流程图;图2a为本发明的进行参考性聚类后的网络标签向量集的簇最大直径与簇数目关系曲线图;图2b为本发明实施例一的网络标签聚类方法的流程图;图2c为本发明实施例一的网络标签聚类的内部结构框图;图3a为本发明实施例二的网络标签聚类方法的流程图;图3b、3c为本发明实施例二的采用参考性聚类方法优选簇数目的方法流程图;图4为本发明实施例二的网络标签聚类的内部结构框图。
具体实施例方式为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、网络标签、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
本发明的发明人,在对现有技术的网络标签聚类方法所得到的聚类结果精度低的原因进行分析后,分别针对这两个原因,采用如下技术手段来达到提高聚类结果精度的目的:其一,优选初始质心;其二,优选簇数目。为采用上述技术手段,本发明的技术方案中,对现有技术的三维网络标签向量进行改进,改进后,使用二维网络标签向量来表征网络标签:本发明的网络标签向量是对网络标签进行二维向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;也就是说,本发明的网络标签向量中的各元素分别表示各网络资源与该网络标签的关联度。例如,网络标签向量具体表征为D=W1,…屯,..,dN],其中Cli表示第i个网络资源与该网络标签的关联度;一种简单向量化后得到的二维网络标签向量中,Cli的取值为I或者0,取I表示第i个网络资源与该网络标签相关联,取O表示第i个网络资源与该网络标签不相关;其中,i为I N的自然数,N为网络资源的总数。采用二维网络标签向量后,呈现出网络标签向量的模值与网络标签向量的重要程度相关联的特点;依据这个特点,可以根据网络标签向量的模值来选择初始质心,达到优选初始质心的目的;从而提高聚类结果的精度。与网络资源关联数多的网络标签对应的网络标签向量(以下简称重要网络标签向量)比与网络资源关联数少的网络标签对应的网络标签向量(以下简称非重要网络标签向量)更重要,重要网络标签向量是噪声性质的网络标签向量的概率,小于非重要网络标签向量是噪声性质的网络标签向量的概率,因此选择若干个重要网络标签向量来作为网络标签向量集中簇的初始质心,可以提高网络标签向量集的簇内聚类精度升高的概率。另一方面,由于网络资源集的资源数目通常都很大,而网络标签向量的维数在数值上等于网络资源数目,导致网络标签向量的维数也很大,使得重要网络标签向量之间被同一个资源都关联的概率很小,从而重要网络标签向量之间的距离较小(相似度较大)的概率很小,进而选择确定个数的重要网络标签向量来作为网络标签向量集的族的初始质心,可以提闻族间聚类精度。采用二维网络标签向量后,网络标签向量集的簇的最大直径呈现出随该网络标签向量集中簇数目变化而变化的规律特点;依据这个特点,可以对网络标签向量集进行多次参考性聚类,计算参考性聚类后得到的簇的最大直径,根据多次参考性聚类后得到的簇的最大直径来选择合适的簇数目,达到优选簇数目的目的;从而提高最终聚类后得到的聚类结果的精度。图2a示出了多次参考性聚类后网络标签向量集的簇的最大直径随簇数目(k)的变化曲线:横向方向为网络标签向量集的簇数目(k)的变化趋势,从左到右逐渐增大,纵向方向为网络标签向量集的簇的最大直径的变化趋势,从上到下逐渐减小;从图2a可以看出,随网络标签向量集的簇数目的增加,网络标签向量集的簇的最大直径逐渐减少而且减少的幅度也越来越小。图2a所示曲线中存在一个拐点,大于该拐点的网络标签向量集的簇数目再增加,网络标签向量集的簇的最大直径变化量也很小,此时说明,拐点附近的网络标签向量集的簇内的聚类精度基本已经达到最高程度,同时网络标签向量集的簇冗余现象还没有出现,网络标签向量集的簇间聚类精度降低的概率还很小。因此,参考拐点选取合适的簇数目作为该网络标签向量集运用聚类算法时所采用的簇数目,可以同时得到该网络标签向量集的较高的簇内和簇间聚类精度,有效达到提高聚类结果精度的目的。
基于上述的分析,本发明提供了两个具体实施例来说明本发明的技术方案。实施例一是以优化初始质心为主要技术手段的网络标签聚类技术方案;实施例二是以优化簇数目为主要技术手段的网络标签聚类技术方案。下面结合附图详细说明本发明的技术方案。实施例一本发明实施例一提供的网络标签聚类方法,具体流程图如图2b所示,具体包括如下步骤:S201:计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序。具体的,对于本发明的二维网络标签向量所构成的网络标签向量集,针对其中每个网络标签向量取模;网络标签向量的模值越大,表示与该网络标签向量对应的网络标签相关联的网络资源越多,即为该网络标签向量对应的网络标签出现频次越多;反之,网络标签向量的模值越小,即为该网络标签向量对应网络标签出现频次越少。在对网络标签向量集中每个网络标签向量取模,得到每个网络标签向量的模值后,将网络标签向量集中各网络标签向量,根据各网络标签向量的模值从大到小进行排序;排序后得到一个根据模值大小排序的网络标签向量序列。S202:根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心。具体的,根据步骤S201得到的根据模值大小排序的网络标签向量序列,选择该序列中模值较大的网络标签向量,即选择排序在前的网络标签向量,分别作为该网络标签向量集待聚类过程中的各簇的初始质心;其中,选取的网络标签向量的数目与簇数目相一致,该簇数目为所述网络标签向量集中待聚类的簇的数目;该簇数目为预先设定的,或者是采用参考性聚类方法优选出来的。如何采用参考性聚类方法优选簇数目的方法将在后面的实施例二中详细介绍。S203:根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。具体地,可以根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用现有的聚类算法得到所述网络标签向量集中聚类后的各簇;例如,可以运用k-means聚类算法得到所述网络标签向量集中聚类后的各簇。本发明实施例一提供的一种网络标签聚类系统,内部结构框图如图2c所示,包括:模值确定模块211、模值排序模块212、初始质心确定模块213、聚类模块214。模值确定模块211用于计算网络标签向量集中各网络标签向量的模值;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;模值排序模块212用于根据所述模值确定模块211计算出的各网络标签向量的模值的大小,对所述网络标签向量集中的网络标签向量进行排序;初始质心确定模块213用于根据模值排序模块212的排序结果,选取数目与簇数目相应的、所述网络标签向量集中模值较大的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;聚类模块214用于根据所述簇数目,以及初始质心确定模块213确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。进一步,图2c所示的网络标签聚类系统中还可包括:簇数目确定模块215。簇数目确定模块,用于采用参考性聚类方法优选出簇数目,其具体方法将在后续进行详细介绍。由此,上述的聚类模块214具体用于根据簇数目确定模块215确定出的簇数目,以及初始质心确定模块213确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。本发明实施例一的技术方案中,由于根据网络标签向量的模值优先出初始质心,相比于现有技术采用随机方法选取的初始质心,其与网络资源关联更多,为重要网络标签向量,采用重要网络标签向量作为初始质心,可以提高网络标签向量集的簇内、簇间聚类精度。进一步,采用参考性聚类方法优选簇数目,也可达到提高最终聚类后得到的聚类结果的精度的目的。实施例二本发明实施例二提供的网络标签聚类方法,具体流程图如图3a所示,具体包括如下步骤:S331:采用参考性聚类方法优选簇数目。S332:根据上述步骤S331优选确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;所述的数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心具体可以是随机选取的,或者是优先得到的:计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与簇数目相应的、模值较大的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心。上述实施例一中的步骤S202,以及本实施例二中的步骤S331所提到的采用参考性聚类方法优选簇数目的方法,主要流程步骤可以如图3b所示,包括如下步骤:S361:对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类。其中,网络标签向量集中的网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的。具体地,本步骤中对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及数目与该参考簇数目相应的、网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类的具体过程为:针对网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到(即划分到)确定出的初始质心所在的簇中。
上述的数目与该参考簇数目相应的、网络标签向量集中各参考簇的初始质心既可以是随机选取的,也可以是采用与上述实施例一的步骤S201-S202中相同的方法优化得到的:计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与该参考簇数目相应的、所述网络标签向量集中模值较大的网络标签向量,分别作为所述网络标签向量集中各参考簇的初始质心。S362:分别针对每个参考簇数目,确定出对应于该参考簇数目的参考簇最大直径。具体地,将分别针对每个参考簇数目,对所述网络标签向量集进行参考性聚类后,得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径。其中,所述一组参考簇数目可以是预先设定一组自然数,或者是根据所述网络标签向量集中的网络标签向量个数确定的:对I η的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,η为所述网络标签向量集中的网络标签向量个数。S363:根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值。具体地,对各参考簇数目进行排序后,根据对各参 考簇数目的排序结果,计算相邻的两个参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的两个参考簇数目的直径差值。S364:将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最
大差值。其中,差值阈值由技术人员根据经验设置,例如可以设置差值阈值为4.6。S365:根据步骤S364中找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目(所述簇数目为所述网络标签向量集中待聚类的簇的数目)。具体地,以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目;以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目;选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为优选出的所述簇数目。事实上,一种较优地选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目的方法,可以是多次迭代后,从上限参考簇数目和下限参考簇数目之间优选出簇数目:将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素,构成所述待选簇数目集合后,判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则:将所述一组参考簇数目作为第I次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第I次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代:将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i + 1次迭代过程中的一组参考簇数目;其中,i为自然数。针对第i+Ι次迭代过程中的一组参考簇数目,确定第i+ι次迭代过程中的待选簇数目集合;若判断第i+ι次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代。其中,元素数目阈值由技术人员根据经验预先设置,比如可以设置元素数目阈值为10。图3c示出了采用参考性聚类方法的多次迭代优选簇数目的具体流程,包括如下步骤:S301:进行初始化,令迭代次数i=l。具体的,在初始化过程中,选取一组参考簇数目作为第I次迭代过程中的一组参考簇数目;具体地,预先设定一组自然数作为第I次迭代过程中的一组参考簇数目,或者根据所述网络标签向量集中的网络标签向量个数确定第I次迭代过程中的一组参考簇数目:对I η的自然数,从 中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以设定间隔选取数字作为所述一组参考簇数目;其中,η为所述网络标签向量集中的网络标签向量个数。 之后,令迭代次数i=l。S302:对于第i次迭代过程中的一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,得到对应于该参考簇数目的参考性聚类结果。具体地,本步骤中对于第i次迭代过程中的一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及数目与该参考簇数目相应的、网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类的具体过程为:针对网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到(即划分到)确定出的初始质心所在的簇中;在将网络标签向量中的各网络标签向量聚类到簇中之后,得到对应于该参考簇数目的参考性聚类结果。S303:对于第i次迭代过程中的一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目的参考性聚类结果,计算该参考性聚类结果中每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径。S304:根据对第i次迭代过程中的一组参考簇数目的排序结果,针对排序后两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的两个参考簇数目的直径差值。S305:在第i次迭代过程中,将步骤S304中计算出的直径差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大的差值。S306:确定第i次迭代过程中的待选簇数目集合。具体的,在第i次迭代过程中,确定出步骤S305中找出的差值所对应的两个相邻的参考簇数目;以所述两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目,以所述两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目,选取所述上限参考簇数目和所述下限参考簇数目之间的自然数作为第i次迭代过程中的待选簇数目集合中的各元素,从而构成第i次迭代过程中的待选簇数目集合。S307:判定第i次迭代过程中的待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若是,结束迭代,执行步骤S309 ;否则,执行步骤S308。S308:从第i次迭代过程中的待选簇数目集合中选取一组参考簇数目,作为第i+1次迭代过程中的一组参考簇数目后,令迭代次数i=i+l,跳转到步骤S302。具体地,从第i次迭代过程中的待选簇数目集合中,间隔选取设定个数的数字作为第i+ι次迭代过程中的一组参考簇数目;或者从第i次迭代过程中的待选簇数目集合中以设定间隔选取数字作为第i+ι次迭代过程中的一组参考簇数目。S309:从第i次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目。在本发明中,任意两个网络标签向量之间的距离被定义为任意两个网络标签向量之间相似度的倒数。因此,只要计算两个网络标签向量之间的相似度,即可确定两个网络标签向量之间的距离。

进一步的,可以根据两个网络标签向量之间的夹角,来计算两个网络标签向量之间的相似度,具体根据如下公式2计算两个网络标签向量之间的相似度:
权利要求
1.一种网络标签聚类方法,其特征在于,包括: 计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的; 根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目; 根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
2.如权利要求1所述的方法,其中,所述簇数目为预先设定的;或者 所述簇数目根据如下方法确定: 对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考族数目的参考族最大直径; 根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值; 将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值; 根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目。
3.如权利要求2所述的方法,其特征在于,所述一组参考簇数目为预先设定的一组数目;或者 所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对I η的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,η为所述网络标签向量集中的网络标签向量个数。
4.如权利要求3所述的方法,其特征在于,所述根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目,具体包括: 以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目; 以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目; 选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目。
5.如权利要求4所述的方法,其特征在于,所述选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目,具体包括: 将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素, 构成所述待选簇数目集合;判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则: 将所述一组参考簇数目作为第I次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第I次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代: 将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+ι次迭代过程中的一组参考簇数目; 针对第i+ι次迭代过程中的一组参考簇数目,确定第i+ι次迭代过程中的待选簇数目集合; 若判断第i+ι次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代; 其中,i为自然数。
6.如权利要求2-5任一所述的方法,其特征在于,所述根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,具体包括: 针对所述网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到确定出的初始质心所在的簇中;以及 所述聚类算法具体为 k均值聚类算法。
7.—种网络标签聚类方法,其特征在于,包括: 对于一组参考簇数目,分别针对其中每个参考簇数目执行如下操作:根据该参考簇数目,以及网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径; 根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值; 将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值; 根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目; 根据确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇; 其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的。
8.如权利要求7所述的方法,其特征在于,所述网络标签向量集中各簇的初始质心是从所述网络标签向量集中随机选取的;或者所述网络标签向量集中各簇的初始质心根据如下方法确定: 计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序; 根据排序结果,选取数目与簇数目相一致的、排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心。
9.如权利要求8所述的方法,其特征在于,所述一组参考簇数目为预先设定的一组数目;或者 所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对I η的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,η为所述网络标签向量集中的网络标签向量个数。
10.如权利要求9所述的方法,其特征在于,所述根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目,具体包括: 以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目; 以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目; 选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目。
11.如权利要求10所述的方法,其特征在于,所述选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目,具体包括: 将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素,构成所述待选簇数目集合; 判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则: 将所述一组参考簇数目作为第I次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第I次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代: 将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+ι次迭代过程中的一组参考簇数目; 针对第i+ι次迭代过程中的一组参考簇数目,确定第i+ι次迭代过程中的待选簇数目集合; 若判断第i+ι次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代; 其中,i为自然数。
12.如权利要求7-11任一所述的方法,其特征在于,所述根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,具体包括: 针对所述网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到确定出的初始质心所在的簇中;以及 所述聚类算法具体为k均值聚类算法。
13.一种网络标签聚类系统,其特征在于,包括: 模值确定模块,用于计算网络标签向量集中各网络标签向量的模值;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的; 模值排序模块,用于根据所述模值确定模块计算出的各网络标签向量的模值的大小,对所述网络标签向量集中的网络标签向量进行排序; 初始质心确定模块,用于根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目; 聚类模块,用于根据所述簇数目,以及所述初始质心确定模块确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
14.如权利要求13所述的系统,其特征在于,还包括: 簇数目确定模块,用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径;根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值;将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目;以及 所述聚类模块具体用于根据所述簇数目确定模块确定出的簇数目,以及所述初始质心确定模块确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
15.一种网络标签聚类系统,其特征在于,包括:簇数目确定模块和聚类模块;其中,所述簇数目确定模块包括: 参考性聚类单元用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果; 参考簇最大直径确定单元用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据所述参考性聚类单元确定出的对应于该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径; 直径差值确定单元用于根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值; 簇数目确定单元用于将所述直径差值确定单元计算出的直径差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值;根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目; 所述聚类模块用于根据所述簇数目确定单元确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
16.如权利要求15所述的系统,其特征在于,所述簇数目确定模块还包括: 初始质心确定单元,用于对于一组参考簇数目,分别针对其中每个参考簇数目执行如下操作:计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;根据排序结果,选取数目与该参考簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各参考簇的初始质心;以及 所述参考性聚类单元具体用于对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目 ,以及所述初始质心确定单元针对该参考簇数目确定出的所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果。
全文摘要
本发明公开了一种网络标签聚类方法和系统,所述方法包括根据网络标签向量集中各网络标签向量的模值大小对二维化的网络标签向量进行排序;根据排序结果,选取数目与簇数目相一致的、网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;根据簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。本发明将网络标签向量二维化,从而可以采用优化初始质心和或优化簇数目的技术手段,来提高网络标签向量进行聚类的精度,即提高了网络标签向量对应的网络标签的聚类精度。
文档编号G06F17/30GK103218419SQ20131010937
公开日2013年7月24日 申请日期2013年3月29日 优先权日2013年3月29日
发明者陈玉焓 申请人:新浪网技术(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1