一种基于图卷积神经网络的属性图文献聚类方法

文档序号:26005423发布日期:2021-07-23 21:23阅读:285来源:国知局
本发明属于图数据挖掘领域,具体地说,是涉及一种基于图卷积神经网络的属性图文献聚类方法。
背景技术
:属性图聚类是图数据挖掘领域中的一项基本任务,其目的是根据节点属性和图结构信息将图中的节点划分为互不相交的簇。与只使用图结构信息的传统图聚类方法相比,属性图聚类更适用于节点具有丰富内容信息的场景。属性图聚类在社区发现,蛋白质功能模块检测、金融网络欺诈检测等领域有着广泛的现实应用。目前已经提出了大量基于深度模型的图聚类工作。与浅层图聚类方法相比,深层方法更善于捕获图中的非线性和复杂的节点关系,有助于提高聚类性能。目前,大多数现有的深图聚类方法都采用两步式框架来完成聚类任务:特征学习步骤使用深度模型学习低维节点特征;聚类步骤执行传统的聚类方法完成图聚类任务,例如k均值和谱聚类等。特征学习步骤能否学习到属性图的真实特征对图聚类任务至关重要,早期的深度模型方法通常使用各种图自编码器(graphautoencoders,gae)来捕获图结构信息,但gaes仅利用图的结构特征完成神经网络的训练,忽略了属性图中的节点属性信息,这限制了该类方法在属性图聚类任务中的性能。近年来,属性图聚类方法通常利用图神经网络(graphneuralnetworks,gnns)实现图节点的特征学习。gnns通过加权聚合相邻节点属性信息,并迭代地更新节点特征,其前向传播模式融合了属性图的结构特征与节点属性,提高了数据利用率,并且可以自然地应用于属性图聚类任务,提高聚类性能。此外,图聚类的目标是检测具有密集簇内连接和稀疏簇间连接的局部子结构,而gnns所学习的节点特征保留了图的局部相似性,这对于图聚类任务是有利的。但是,目前的方法存在以下两个限制:首先,特征学习过程缺少聚类的任务导向性,难以学习到对聚类友好的节点特征,特征空间内的节点分布易出现重叠问题,不利于进一步的聚类。其次,这类方法需要预先人为设置簇的数目,在真实应用中,网络数据规模大、复杂度高,聚类簇数目通常难以人为估计。另外,实际簇数与具体任务高度相关,最优的聚类数目应由节点特征本身确定。因此,设计一种基于图卷积神经网络的无参数属性图聚类方法对图数据挖掘有重要的意义。文献聚类旨在将内容相似的文献划分为不同的组。现有的文献聚类方法采用基于层次、划分、密度等的聚类方法,其主要思想在于将特征相似的文献聚类为同一个簇。然而,目前的方法在聚类过程中仅考虑文献内容之间的相似性,而忽略了文献之间存在的引用关系。通常相互引用的文献也具有较高的相似度,文献的引用关系也能够为聚类提供有价值的信息。技术实现要素:本发明针对上述现有技术存在的问题,提出了一种基于图卷积神经网络的属性图文献聚类方法,用于解决文献聚类过程中缺乏对文献引用关系的利用的问题,它可以应对真实图数据中不平衡的簇结构,从中学习到对聚类任务友好的节点特征,并根据节点特征对图数据的聚类簇数目做出估计,实现无参数的属性图聚类。一个无向属性图可以表示为g=(v,e,x).其中v={v1,v2,…,vn}是节点集,e是边集。图的邻接矩阵可以表示为a,若节点vi和vj之间存在连接,则aij=1,否则表示图g的节点属性矩阵,其中n表示节点的数量,m表示节点属性的维数。属性图聚类的目的在于将属性图g中的节点划分为互不相交的k个簇,在本发明中,k的数目由聚类估计模块根据节点特征估算。本发明为了实现上述目的,采用的技术方案是:提出一种新的图特征学习方法,该方法提出一种跨层链接的图卷积神经网络,该网络能够应对现实图数据中不平衡的簇结构,并从中学习到有价值的节点特征,具有较强的鲁棒性;然后提出一种鼓励节点特征自分离的正则化项,实现特征学习与图聚类的共同优化;最后提出一种聚类估计模块实现数据驱动的聚类簇数目估计。具体技术方案如下:首先,利用属性图数据训练跨层链接的图卷积神经网络,在训练过程中鼓励节点特征的自分离,输出图节点的特征;然后,利用图节点的特征训练聚类估计模块,输出最佳的聚类簇数目;交替执行上述两个步骤,直到达到最大迭代数目;最后,利用k均值算法对图节点的特征进行聚类;步骤(1)属性图特征学习:步骤(1.1)属性图数据编码:本方法利用跨层链接的图卷积神经网络对属性图数据进行编码操作。对图数据进行编码显著降低了聚类的计算复杂度,并且避免了图数据稀疏性可能导致的过拟合现象。图神经网络从第l-1到第l层的传播规则如下:其中n(vi|a)表示在以邻接矩阵a表示的引文网络中,包括文献vi以及与文献vi有引用关系的文献,即邻居文献,i=1,...,n,即共有n篇文献。w(l)是第l层的参数矩阵。deg(v)表示节点v的度。当l=1时,式(1)中即第一层图卷积神经网络聚合了邻居文献的原始特征。relu(·)是非线性激活函数。跨层链接的图卷积神经网络将每层图卷积的输出向量拼接起来:以表示图中节点vi第l层图卷积的输出,图中节点vi跨层链接的图卷积神经网络的编码结果di为每层图卷积神经网络对图中节点vi的输出的拼接向量,表达如下:编码结果di为每层图卷积神经网络输出的拼接向量,将编码结果经过线性映射操作,输出图卷积神经网络学习到的节点特征zi。在编码步骤,本方法使用6层跨链图卷积神经网络。步骤(1.2)节点特征数据解码:本方法使用多层感知机实现属性矩阵的解码:其中,表示节点特征zi的解码输出,de表示编码向量的维度,mlps表示s层的多层感知机,本方法使用2层的多层感知机。wd是解码器的参数。为了使节点表示特征zi保留真实的原始图信息,确保聚类的准确性,解码器的输出应尽可能保留原始图属性信息xi,因此本方法使用均方误差损失(mse)作为图卷积神经网络的优化目标:均方误差损失能够衡量xi与的差异,本方法在训练中优化该目标函数,使节点特征zi能够解码为原始图属性信息xi,从而保障zi包含图属性信息的特征。步骤(1.3)聚类友好的图特征学习:本方法提出一种正则化项鼓励在特征空间中节点自然簇结构的分离,该正则化项有效缓解了图聚类中的重叠问题,进一步提升聚类性能。具体地说,首先使用学生t分布q对图节点特征的成对相似度建模:其中zi表示节点vi的特征向量,qij可以看作节点vi和vj在特征空间中具有相似特征的概率。由于学生t分布具有重尾特性,因此相似度较低的节点在特征空间中距离更远,宏观上将图中的自然聚结构分隔增大,减轻了聚类中的拥挤问题。为了增大簇间分离的趋势,使特征空间中的节点进一步分离,本模型鼓励分布q逼近另一个自由度更高的学生t分布p来实现聚类友好的特征学习:其中参数θ控制学生t分布的自由度,设置为de-1,de是特征z的维度。较高的自由度使目标分布p比q更加集中,因此p为特征空间中相似的节点分配较高的概率,使其更加紧密;为不相似的节点分配较低的概率,使其更加分散,从而实现自分离的正则化。自分离正则化项定义如下:其中kl是kullback-leibler散度,用于测量分布p和q之间的不对称距离,pij和qij表示节点特征的成对相似度。通过优化p和q之间的kl散度,编码器能够增加簇间距离并减小簇内距离。该过程有利于模型学习聚类友好特征,从而提高图聚类性能。综上所述,图卷积神经网络的特征学习优化目标如下:其中表示输入节点属性xi经编码解码过程的输出,α=0.01为超参数。优化上述目标函数,能够使图卷积神经网络学习图节点特征的同时,实现以聚类为目的的节点分布优化。步骤(2):聚类簇数目估计:大多数传统的聚类方法需要用户指定聚类簇数目,为了将模型扩展到无参数情况,本方法提出一个深层聚类估计模型。该模型旨在从节点特征z中估计最优的聚类簇数目。模型使用softmax自编码器进行聚类估计。softmax自编码器对步骤(1)中的节点特征z进行编码与解码操作,并在编码器的输出层中使用softmax非线性函数,非线性函数将节点的特征转化为软聚类的概率分布。隐层神经元的数量表示聚类簇数的上限。softmax编码器的输出为其中dc是隐藏单位的数量。由于使用softmax激活,聚类分配yi的总和等于1,本方法将dc设置为节点的总数目,从而使聚类估计完全不依赖于参数,实现完全无参的聚类估计。softmax自编码器通过计算聚类标签的数量来估计聚类的数量,但其本身易生成均匀分布的聚类分配,这对于聚类估计是不利的。因此本模型通过引入额外的gini-index正则化来学习集中的软聚类分配,可以将其表示为:忽略常数1后,上式可以表示为:优化基尼系数损失能够促进聚类分配的低熵分布。将重构损失与基尼系数正则化相结合,softmax自编码器的整体损失函数可以表示为:其中zi和表示softmax自编码器的输入与输出,β=0.1为超参数。用该目标函数训练softmax自编码器后,获得聚类分布结果y。yi表示将节点划分到第i个簇的概率。最终,模型通过计算所有节点不同标签的数量作为聚类簇数k的估计。k的计算可描述为:其中card函数计算集合中出现不同元素的个数。步骤(3):交替训练图卷积与聚类估计模块:上述特征学习与聚类估计通过交替训练的方式同时优化,在每次迭代中,我们首先固定softmax自编码器的参数,然后使用式(8)优化特征学习。然后固定特征学习模型的参数,使用式(11)优化softmax自编码器的参数。然后,通过式(12)从聚类分布y计算出聚类簇数k。步骤(4):聚类结果输出:设置模型的最大优化次数为200,达到该次数后输出节点特征z与聚类簇估计数目ke,最后,以z和ke作为输入,运行k均值聚类算法获得图聚类结果。有益效果本发明有效提高了聚类准确性。附图说明图1:一种基于图卷积神经网络的属性图聚类方法的流程图。图2:一种基于图卷积神经网络的属性图聚类模型结构图。图3:cora数据集聚类结果可视化展示。具体实施方式本文以cora、citeseer和pubmed三个文献数据库为例,验证方法的有效性。首先以上述三个数据库构建文献属性图数据。文献属性图可以表示为g=(a,x),其中a为邻接矩阵,若文献vi与vj之间有引用关系,则aij=1,否则aij=0。x是文献属性矩阵,x中第i行向量xi包含对文献vi内容的描述。x的构建方法为:(1)消除文献文档中的虚词,即副词、介词、连词、助词等。(2)消除频率小于10的词汇。(3)以剩余词汇构建每篇文献的词向量特征,若第j个词汇在文献vi中出现,则xij=1,否则xij=0.构建完成的文献属性图参数如下:表1数据集节点数边数真实簇数特征维数cora2708542971433citeseer3327473263703pubmed19717443383500wiki240517981174973下面在上述四个属性图数据集上说明本发明的具体实施步骤:步骤(1)属性图特征学习:步骤(1.1)属性图数据编码:如图2编码器部分所示,本发明使用6层的图卷积神经网络对表1中的四个数据集进行编码操作,每层图卷积神经网络的输出作为下一层图卷积神经网络的输入,第l-1层到第l层的前向传播过程可以表示为:以cora属性图为例,对于该属性图中的文献vi,n(vi|a)表示包括文献vi以及与文献vi有引用关系的文献,即邻居文献,i=1,2,…,2708,即共有2708篇文献。w(l)是第l层的参数矩阵。deg(vi)表示节点vi的度。当l=1时,式(1)中即第一层图卷积神经网络聚合了vi的邻居文献的原始特征。relu(·)是非线性激活函数,relu(x)=max(0,x)。如图2所示,除了前向传播外,每层图卷积神经网络的输出还被传递到一个层间聚合模块,该模块对来自不同层的节点特征进行拼接操作:拼接后的向量进行线性映射操作进一步降维,得到节点特征向量z.对于cora数据集,本方法通过线性映射得到16维的节点特征向量,对于较大的数据集pubmed,本方法通过线性映射得到32维的节点特征向量。步骤(1.2)节点特征数据解码:如图2的解码器部分所示,本发明使用两层的多层感知机对上述四个数据集的编码特征zi进行解码:其中,表示节点特征zi的解码输出,de表示编码向量的维度,对于cora、citeseer、wiki和pubmed数据集,de分别为16、16、16、32.mlp2表示两层的多层感知机,wd是解码器的参数。解码器试图由特征zi重构节属性信息,因此本方法将多层感知机的隐层结构设置为de-500-1000-m,m表示节点属性的维数,在上述四个数据集中,m的具体设置由表1第五列给出。步骤(1.3)聚类友好的图特征学习:如图2中间部分所示,首先使用学生t分布q对上述四个数据集图节点特征zi的成对相似度建模:分布q以矩阵的形式表示,其第i行第j列元素由qij构成。对于不同的数据集,其中n表示数据集的节点数目,cora、citeseer、wiki和pubmed数据集的节点数目n由表1第二列给出。然后以同样的方法计算更高自由度的学生t分布p:其中参数θ控制学生t分布的自由度,设置为de-1,de是特征z的维度。cora、citeseer、wiki和pubmed数据集的参数θ分别设置为:1432、3702、499、4972.较高的自由度使目标分布p比q更加集中,因此p为特征空间中相似的节点分配较高的概率,使其更加紧密;为不相似的节点分配较低的概率,使其更加分散,从而实现自分离的正则化。本方法使用如下的正则化项优化图卷积神经网络:其中kl是kullback-leibler散度,用于测量分布p和q之间的不对称距离,pij和qij表示节点特征的成对相似度。综上所述,图卷积神经网络的特征学习优化目标如下:其中表示输入节点属性xi经编码解码过程的输出,α=0.01为超参数。步骤(2):聚类簇数目估计:如图2聚类估计模块所示:本发明使用softmax自编码器进行聚类估计。softmax自编码器对步骤(1)中的节点特征z进行编码解码操作,并在编码器的输出层中使用softmax非线性函数,非线性函数将节点的特征转化为软聚类的概率分布。softmax编码器的输出为其中dc是隐藏单位的数量。针对不同的数据集:cora、citeseer、wiki和pubmed,本发明将dc设置为节点的总数目n。聚类估计模块的gini-index正则化可以将其表示为:忽略常数1后,上式可以表示为:以式(10)作为正则化项,mse损失作为主要优化目标,计算softmax自编码器的整体损失函数可以:其中zi和表示softmax自编码器的输入与输出,对于四个数据集,统一设置β=0.1。用该目标函数训练softmax自编码器后,获得聚类分布结果y。yi表示将节点划分到第i个簇的概率。最终,模型通过计算所有节点不同标签的数量作为聚类簇数k的估计。以下式计算k值:其中card函数计算集合中出现不同元素的个数。步骤(3):交替训练图卷积与聚类估计模块:上述特征学习与聚类估计通过交替训练的方式同时优化,在每次迭代中,首先固定softmax自编码器的参数,然后使用式(8)优化特征学习。然后固定特征学习模型的参数,使用式(11)优化softmax自编码器的参数。然后,通过式(12)从聚类分布y计算出聚类簇数k。各模块中的神经网络采用adam优化器进行优化,设置固定的学习率为10-3,dropoutrate设置为0.2.步骤(4):聚类结果输出:设置模型的最大优化次数为200,达到该次数后输出节点特征z与聚类簇估计数目ke,最后,以z和ke作为输入,运行k均值聚类算法获得图聚类结果。为了说明本发明所述方法的有益效果,在具体实施过程中,我们在多种不同算法上进行对比试验:k均值算法是一种基于距离的传统聚类方法,其主要思想是将样本分配给它们最近的聚类中心。deepwalk对图进行截断的随机游走,生成一组节点序列,并采用skip-gram模型学习节点表示,最后使用k均值算法聚类。graphencoder通过训练堆叠的稀疏自编码器来学习节点表示,并应用谱聚类以获得聚类结果。mgae采用一种无监督映射损失来训练图卷积神经网络,并对节点特征执行谱聚类。上述对比算法在cora、citeseer、wiki、pubmed四个数据集的实验结果如表2所示:表2如表2所示,本发明所述方法在真实属性图数据集上取得了最好的结果,在acc、f1、nmi和ari聚类指标上有更好的表现。说明本发明所述的方法合理可靠。本发明提出的自分离正则化项能够改善节点特征在高维空间中的分布,下面通过特征向量可视化来验证,对cora数据集的特征向量z运行t-sne算法,其可视化结果如图3所示。从图3中可以看出,比较第一行(a)-(e)和第二行(f)-(j),我们可以观察到使用和不使用自分离正则项之间的强烈对比。第二行中的群集结构更密集,不同群集之间的间隙更明显,这表明自分离正则化对增加簇间距离和减小簇内距离有很大作用。本发明基于图卷积神经网络,首先对属性图进行编码与解码操作,提出一种跨层链接地图卷积神经网络,无监督地学习图节点的特征,在此过程中以自分离正则化项优化节点的特征分布,使其具有更明显的聚类结构。然后提出一种聚类估计模块,基于节点特征估计最优的聚类簇数目。在真实数据集上的实验结果和可视化实验表明,本发明所述方法合理可靠,可为属性图聚类任务提供可靠的帮助。当前第1页12
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!