基于带权重联合非负矩阵分解的属性图聚类方法及系统与流程

文档序号:12366777阅读:197来源:国知局
本发明涉及基于社交网络的数据处理方法及系统,尤其涉及基于带权重联合非负矩阵分解的属性图聚类方法及系统。
背景技术
:随着互联网技术的不断发展以及人们对社交需求的日益增长,微博、人人和QQ等网络社交媒体应用已经普遍流行于人们日常生活中,从而形成了大规模的网络社区。图挖掘是从海量社会网络数据获取有用信息的一个重要手段,而如何为用户返回对用户有实用价值的结果,是图挖掘发展和吸引用户的一个重要决定因素。图挖掘的目的是把具有较强联系的节点划分到同一个簇中,而把联系较弱的节点划分到不同的簇中。在现实社会网络中,节点间除了具有拓扑关系,大部分情况下节点自身也带有属性特征。针对该类社会网络的挖掘,通常称为属性图聚类,因此可以将社会网络挖掘问题转化为属性图聚类问题。属性图聚类是一种机器学习任务:图的节点之间的拓扑关系与节点自身属性作为输入,生成一个同时考虑这两部分特征的聚类结果作为输出。属性图聚类的提出在广告投放、社区探测和个性化推荐等领域都引起研究工作者的兴趣与深入研究。研究人员在研究社会网络中发掘各种新问题新技术并在历届的数据挖掘相关会议上发表探讨,近些年来,属性图聚类成为一个热门的研究问题。但是,目前技术在属性图聚类中缺乏基于非负矩阵分解的相关聚类方法。技术实现要素:为了解决现有技术中的问题,本发明提供了一种带权重联合非负矩阵分解的属性图聚类方法及系统。本发明提供了一种带权重联合非负矩阵分解的属性图聚类方法,包括如下步骤:构建目标函数:给定一个属性图,根据属性图的拓扑关系与节点属性特征设计一个统一的目标函数,使用对称非负矩阵去逼近拓扑关系的邻接矩阵,对节点属性矩阵进行加权,并使用传统非负矩阵分解去逼近加权后的节点属性矩阵,然后将这两部分融合在统一的目标函数中;目标函数求解:根据构建的目标函数,对函数进行迭代求解,直至收敛,其中能够分解出一个包含拓扑关系与节点属性等信息的矩阵;矩阵聚类:根据目标函数求解得到的包含拓扑关系与节点属性等信息的矩阵,对其进行聚类,把聚类结果提供给系统用户。作为本发明的进一步改进,在所述构建目标函数步骤中,首先给定一个具有n个节点与m个属性特征的单属性图G=(V,E,A),假设这n个节点之间拓扑关系的邻接矩阵为它们的m个不同的属性特征组成的属性矩阵为其中表示非负实数集。然后给定两个矩阵分解因子其中k表示聚类簇的数目。与此同时,为了对这m个不同的属性赋予不同的权重,这里提供一个对角矩阵来对不同的属性进行加权。接着就可以得到两个近似函数,S≈VVT和AΛ≈VUT,其中第一个近似函数表示对邻接矩阵进行逼近,第二个近似函数表示对加权的属性矩阵进行逼近。最后提供一个平衡因子来对这两个特征维度进行融合,就得到了一个新的目标函数:minU,V,Λ≥012(||S-VVT||F2+λ·||AΛ-VUT||F2).]]>作为本发明的进一步改进,在所述目标函数求解步骤中,首先将目标函数表示成矩阵迹函数的形式:J=12Tr[(S-VVT)(S-VVT)T]+λ2·Tr[(AΛ-VUT)(AΛ-VUT)T]=12[Tr(SST)+Tr(VVTVVT)-2·Tr(SVVT)]+λ2·[Tr(AΛ2AT)+Tr(VUTUVT)-2·Tr(AΛUVT)]]]>其中Tr(·)表示矩阵的迹函数。为了上述的目标函数进行优化,这里采用拉格朗日乘子法对它进行优化。首先引入三个拉格朗日乘子矩阵:α、β和γ,它们分别对应矩阵分解因子V、矩阵分解因子U以及权重对角阵Λ的非负约束。然后就可以构造形式如下的拉格朗日函数:L=J+Tr(αV)+Tr(βU)+Tr(γΛ)对上述拉格朗日函数分别求对矩阵分解因子V、矩阵分解因子U以及权重对角阵Λ的导数,推导出这几个矩阵的迭代公式。根据迭代公式,对目标函数进行迭代,直至收敛,其中矩阵分解因子V包含了拓扑关系与节点属性特征等信息。作为本发明的进一步改进,在所述矩阵聚类步骤中,针对通过联合矩阵分解而得到的包含拓扑关系与节点属性特征信息的矩阵V进行聚类,并将聚类后的结果返回给系统用户。本发明还公开了一种基于带权重联合非负矩阵分解的属性图聚类系统,包括:构建目标函数模块:用于给定一个属性图,根据属性图的拓扑关系与节点属性特征设计一个统一的目标函数,使用对称非负矩阵去逼近拓扑关系的邻接矩阵,对节点属性矩阵进行加权,并使用传统非负矩阵分解去逼近加权后的节点属性矩阵,然后将这两部分融合在统一的目标函数中;目标函数求解模块:用于根据构建的目标函数,对函数进行迭代求解,直至收敛,其中能够分解出一个包含拓扑关系与节点属性等信息的矩阵;矩阵聚类模块:用于根据目标函数求解得到的包含拓扑关系与节点属性等信息的矩阵,对其进行聚类,把聚类结果提供给系统用户。作为本发明的进一步改进,在所述构建目标函数模块中,首先给定一个具有n个节点与m个属性特征的单属性图G=(V,E,A),假设这n个节点之间拓扑关系的邻接矩阵为它们的m个不同的属性特征组成的属性矩阵为其中表示非负实数集。然后给定两个矩阵分解因子其中k表示聚类簇的数目。与此同时,为了对这m个不同的属性赋予不同的权重,这里提供一个对角矩阵来对不同的属性进行加权。接着就可以得到两个近似函数,S≈VVT和AΛ≈VUT,其中第一个近似函数表示对邻接矩阵进行逼近,第二个近似函数表示对加权的属性矩阵进行逼近。最后提供一个平衡因子来对这两个特征维度进行融合,就得到了一个新的目标函数:minU,V,Λ≥012(||S-VVT||F2+λ·||AΛ-VUT||F2).]]>作为本发明的进一步改进,在所述目标函数求解模块中,首先将目标函数表示成矩阵迹函数的形式:J=12Tr[(S-VVT)(S-VVT)T]+λ2·Tr[(AΛ-VUT)(AΛ-VUT)T]=12[Tr(SST)+Tr(VVTVVT)-2·Tr(SVVT)]+λ2·[Tr(AΛ2AT)+Tr(VUTUVT)-2·Tr(AΛUVT)]]]>其中Tr(·)表示矩阵的迹函数。为了上述的目标函数进行优化,这里采用拉格朗日乘子法对它进行优化。首先引入三个拉格朗日乘子矩阵:α、β和γ,它们分别对应矩阵分解因子V、矩阵分解因子U以及权重对角阵Λ的非负约束。然后就可以构造形式如下的拉格朗日函数:L=J+Tr(αV)+Tr(βU)+Tr(γΛ)对上述拉格朗日函数分别求对矩阵分解因子V、矩阵分解因子U以及权重对角阵Λ的导数,推导出这几个矩阵的迭代公式。根据迭代公式,对目标函数进行迭代,直至收敛,其中矩阵分解因子V包含了拓扑关系与节点属性特征等信息。作为本发明的进一步改进,在所述矩阵聚类模块中,针对通过联合矩阵分解而得到的包含拓扑关系与节点属性特征信息的矩阵V进行聚类,并将聚类后的结果返回给系统用户。作为本发明的进一步改进,该属性图聚类系统采用联合非负矩阵分解框架设计,采用对称非负矩阵分解对邻接矩阵进行逼近,采用传统非负矩阵分解对加权后的属性矩阵进行逼近,然后对包含拓扑关系和节点属性特征信息的矩阵进行聚类。作为本发明的进一步改进,分解出包含拓扑关系和节点属性特征信息的矩阵,对其进行聚类,返回聚类结果。本发明的有益效果是:本发明的基于带权重联合非负矩阵分解的属性图聚类方法及系统,使用基于非负矩阵分解的相关聚类方法对属性图进行聚类,有效地融合了拓扑关系和节点属性等特征,并产生了更高的聚类性能。附图说明图1是本发明的属性图聚类方法的流程图。图2是本发明的原始数据示意图。图3是本发明的构建目标函数示意图。图4为本发明的模块图。图5为本发明的构建目标函数流程图。图6为本发明的目标函数求解流程图。具体实施方式如图1所示,本发明公开了一种基于带权重联合非负矩阵分解的属性图聚类方法,包括如下步骤:100构建目标函数:针对输入的属性图,根据图中节点之间拓扑关系与节点属性构建相应的矩阵,对每个矩阵进行矩阵分解,并将它们融合在统一的目标函数中。具体实施过程如下:基于带权重联合非负矩阵分解的属性图算法的主要思想是,对于给定的属性图,根据邻接矩阵与属性矩阵,可以得到一个使用非负矩阵分解融合这两部分的统一目标函数。在属性图聚类时,要同时考虑拓扑结构与属性特征,即子图的紧密度较高并且节点属性相似度较高。在一个属性图中,节点之间的拓扑关系组成一个邻接矩阵,节点自身属性特征组成一个属性矩阵,如图2,其中sij表示在第i个节点与j个节点之间是否存在连接关系,表示第i个节点的低j个属性的取值,n为节点数目,m为属性数目。图3为根据邻接矩阵和属性矩阵,构建目标函数的示意图。图中表示对属性矩阵进行加权的对角阵,矩阵是用来对邻接矩阵属性矩阵进行分解的因子,其中S≈VVT和AΛ≈VUT,k表示聚类簇数目,n为节点数目,m为属性数目。然后构建统一目标函数为调节两个矩阵分解部分的参数。由于用户需要考虑拓扑关系和节点属性两方面信息的聚类结果,目标优化是使得上述目标函数达到逼近误差最小。本文发明实施过程,为了统一拓扑关系与节点属性的量纲,需要对邻接矩阵与属性矩阵进行归一化处理,归一化方法可表示为:S=SΣa=1nΣb=1nSa,b]]>A=AΣa=1nΣb=1nAa,b]]>公式中,n为节点数目,m为属性数目。101目标函数求解:目标函数求解是本发明中最重要的一步.目标函数求解的目的是对图3中描述的目标函数进行求解,解出相关矩阵的迭代公式,本发明采用的是拉格朗日乘子法对目标函数进行求解。具体实施过程如下:目标函数求解的目的是对目标函数进行迭代以达到逼近误差最小,拉格朗日乘子法和随机梯度下降法是常用的办法。拉格朗日乘子法有计算方便,简单易用等优点。因此,本发明实施中采用拉格朗日乘子法对目标函数进行求解。首先将目标函数表示成矩阵迹函数的形式,就得到了如下迹函数表示的目标函数:J=12Tr[(S-VVT)(S-VVT)T]+λ2·Tr[(AΛ-VUT)(AΛ-VUT)T]=12[Tr(SST)+Tr(VVTVVT)-2·Tr(SVVT)]+λ2·[Tr(AΛ2AT)+Tr(VUTUVT)-2·Tr(AΛUVT)]]]>其中Tr(·)表示矩阵的迹函数。为了上述公式的目标函数进行优化,这里采用拉格朗日乘子法对它进行优化。首先引入三个拉格朗日乘子矩阵:α、β和γ,它们分别对应矩阵分解因子V、矩阵分解因子U以及权重对角阵Λ的非负约束。然后就可以构造形式如下的拉格朗日函数:L=J+Tr(αTV)+Tr(βTU)+Tr(γTΛ)接下来,分别求函数L对矩阵分解因子V、矩阵分解因子U以及权重对角阵Λ的偏导数:∂L∂V=-(SV+STV+λ·AΛU)+(2VVTV+λ·VUTU+α)]]>∂L∂U=-λ·VTAΛ+λ·VTVUT+β]]>∂L∂Λ=-λ·ATVUT+λ·ATAΛ+γ]]>根据Karush-Kuhn-Tucker(KKT)条件,很明显可以得出如下结果:对于有和αi,jVi,j=0。类似地,也可以得到有和βi,jUi,j=0,以及有和γi,jΛi,j=0。根据这些条件,就可以推导出如下关于矩阵分解因子V、矩阵分解因子U以及权重对角阵Λ的迭代公式:Vi,j→Vi,j(SV+STV+λ·AΛU)i,j(2VVTV+λ·VUTU)i,j]]>Ui,j←Ui,j(VTAΛ)i,j(VTVUT)i,j]]>Λi,j←Λi,j(ATVUT)i,j(ATAΛ)i,j]]>很明显,通过上述的迭代方式,这几个矩阵仍然是非负的。另外,在每次迭代过程中,都对属性权重对角阵Λ进行归一化,归一化方法如下:Λ=ΛΣi=1mΛi,i]]>经拉格朗日乘子法求解与经梯度下降法求解具有相同的效力,每次迭代的前进方向是由其梯度相反方向决定,使得每次迭代都能使目标函数逐步收敛,直到满足算法结束条件,算法终止。102矩阵聚类:即根据101步骤中迭代生成的包含拓扑关系与节点属性特征信息的矩阵V进行聚类,然后把聚类结果返回给系统用户。具体实施过程如下:在矩阵聚类步骤中,本发明采用K-Means或其他聚类方法,对矩阵进行聚类,然后返回聚类结果C1,K,Ck,其中n表示节点数目,k表示聚类簇数目。在本发明中还构建一种基于带权重联合非负矩阵分解的属性图聚类系统,包括三个模块,包括构建目标函数模块,目标函数求解模块,矩阵聚类模块三部分。所述构建目标函数模块是根据输入的属性图的拓扑关系与节点属性,分别用相应的非负矩阵分解方法对其进行逼近,然后将两部分非负矩阵分解内容融合到一个统一的目标函数中。所述目标函数求解模块是根据目标函数,采用拉格朗日乘子法或随机梯度下降法,解出相关矩阵的迭代公式。所述矩阵聚类模块是根据目标函数求解得到的包含拓扑关系与节点属性特征信息的矩阵,对其进行聚类,然后把聚类结果返回给系统用户。具体实施过程如下:该属性图聚类系统采用联合非负矩阵分解框架设计,图4为系统模块框图,系统分为三个模块,包括包括构建目标函数模块,目标函数求解模块和矩阵聚类模块。在构建目标函数模块中,系统为该模块设计了一个能够对节点属性部分进行加权,并且能够融合拓扑关系和节点属性特征信息的联合非负矩阵分解模型。如图5,系统为将该模块涉及的非负矩阵分解部分融合在一起,提供了一个调节参数λ,并对节点属性部分进行加权。在目标函数求解模块中,系统为该模块设计了一个迭代的流程,如图6。系统为参与联合非负矩阵分解的各个待求解矩阵提供一个迭代方式,该迭代方式是并行执行的。每一轮迭代过程中,都将对所需求解的矩阵进行更新。在图6中,如下公式的含义为:更新权重对角阵(推导过程见101目标函数求解);公式含义为:对节点的各个属性的权重作归一化处理,使其始终落在同一区间内。V、U两个矩阵的迭代方法也是类似的,只不过不需要归一化。在矩阵聚类模块中,系统采用常见的聚类算法如K-Means等,对包含拓扑关系与节点属性特征信息的矩阵进行聚类。本发明的提出了一种基于带权重联合非负矩阵分解的属性图聚类方法及系统。系统设计部分可分为三个模块:目标函数模块,目标函数求解模块,矩阵聚类模块。本发明的基于带权重联合非负矩阵分解的属性图聚类方法及系统,将属性图聚类问题转化为非负矩阵分解求解问题和一般矩阵聚类问题,可以有效地提高属性图聚类的质量。以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属
技术领域
的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1