本发明涉及图半监督分类,尤其是涉及一种可信的图神经网络节点分类方法。
背景技术:
1、图在日常现实中广泛存在,且作为一种灵活的数据形式可以表示不同特征对象之间复杂的连接关系。例如交通网络、社交网络、生物化学网络等。由于图可以包含较多的数据信息,例如节点的属性信息和链接信息,导致图数据相对复杂,因此对图数据进行分析具有一定的挑战。近年来,图神经网络在数据分析方面受到了极大的关注,逐渐成为学术界的一个热点研究领域。图数据的分析任务包括了节点分类、图分类以及链接预测等。在图节点分类任务中,输入一个图,目的是根据学习输入节点和类别标签的对应关系,预测未知节点的类别标签。
2、尽管图神经网络在半监督节点分类方面表现优异,但图神经网络分类器不仅需要准确的预测值,更需要得到可信的预测值。可信性指的是模型能够检测出分布外样本的数据的能力,对于测试数据中未训练类别的样本输入给出一个越高置信的预测值意味着模型是越不可信的,但现有模型往往对未训练样本给出较高的置信度,意味着现有模型不确定的模型,具有较高的不确定性。
技术实现思路
1、本发明的目的是提供一种可信的图神经网络节点分类方法,在获得较高节点分类准确率的同时,有效提高图节点数据分类模型的可信性。
2、为实现上述目的,本发明提供了一种可信的图神经网络节点分类方法,具体步骤如下:
3、步骤s1:输入图数据,图数据包括特征矩阵、邻接矩阵以及部分节点的标签;
4、步骤s2:采用图卷积神经网络对图数据进行特征学习和特征提取,再通过softmax函数获取最终图节点数据的嵌入表示;
5、步骤s3:将图卷积神经网络学习到的嵌入表示输入到质心模块进行处理,利用有标签节点的嵌入表示获取不同类别的质心;
6、步骤s4:通过将无标签节点的嵌入表示与各类别的质心输入到rbf模块,得到无标签节点与质心的距离,并预测无标签节点所属类别;
7、步骤s5:通过rbf模块加入不确定性损失和梯度惩罚损失,联合交叉熵损失共同作为目标函数,通过参数优化最小化损失函数,迭代更新用于提高图节点数据分类模型的可靠性。
8、优选的,在步骤s1中,特征矩阵表示节点的特征信息,邻接矩阵表示节点之间所连接边的信息,将二者以及部分节点的标签信息共同作为输入的图数据。
9、优选的,在步骤s2中,所述图卷积神经网络采用两层图卷积神经网络逐层提取节点的特征,利用relu函数作为激活函数,softmax函数作为分类器,整体正向传播得到节点的嵌入表示,节点的嵌入表示的计算公式如下:
10、
11、其中,a表示邻接矩阵,x表示特征向量矩阵,i表示单位矩阵;x表示特征向量矩阵,θ(0)表示第一层图卷积层所学习的权重矩阵,θ(1)表示第二层图卷积层所学习的权重矩阵。
12、优选的,在步骤s3中,将嵌入表示输入到质心模块,通过计算出有标签节点在嵌入空间中所得嵌入表示的平均值获取每类质心,质心计算公式如下:
13、
14、其中,vl是有标签节点的索引,是有标签节点xl的嵌入向量,yl为节点xl的标签。
15、优选的,在步骤s4中,rbf模块输出包括未标记节点和每个类别质心的距离度量,通过softmax函数输出层给每个未标记节点分配空间中距离其最近的类别质心的标签,计算公式如下:
16、
17、其中,uk是rbf模块的输出,是无标签节点xu的嵌入向量,n表示质心的数量即节点类别数量,wk是一个可学习的权重矩阵,σ是超参数。
18、优选的,通过rbf模块所预测得未标记节点的类别标签,得到无标签节点得类别,同时获取模型每个未标记节点的可信性,可信度为无标签节点与质心间的距离。
19、优选的,在步骤s5中,在交叉熵损失的基础之上,引入梯度惩罚损失和不确定性损失,通过反向传播算法最小化各项损失,
20、交叉熵损失计算公式如下:
21、
22、vl是有标签节点的索引,k表示节点的类别数量,yik表示第i个有标签节点的标签集合,zik表示第i个有标签节点的嵌入向量;
23、不确定性损失计算公式如下:
24、
25、其中,uk表示不确定性,表示有标签节点所求得的质心,v是图数据的节点集合;
26、梯度惩罚损失计算公式如下:
27、
28、其中||·||2是l2范数。
29、优选的,模型总损失如下:
30、l=lce+λ1lun+λ2lgp
31、其中,用λ1和λ2分别表示不确定性损失和梯度惩罚损失重要程度。
32、因此,本发明采用上述一种可信的图神经网络节点分类方法,将分类阶段与不确定性估计相结合,在模型能够得到较高分类准确率的同时,还能够增强模型的可信性。本发明可用于图半监督分类等场景,能够帮助更好地分析图数据。
33、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种可信的图神经网络节点分类方法,其特征在于,具体步骤如下:
2.根据权利要求1所述的一种可信的图神经网络节点分类方法,其特征在于:在步骤s1中,特征矩阵表示节点的特征信息,邻接矩阵表示节点之间所连接边的信息,将二者以及部分节点的标签信息共同作为输入的图数据。
3.根据权利要求1所述的一种可信的图神经网络节点分类方法,其特征在于:在步骤s2中,所述图卷积神经网络采用两层图卷积神经网络逐层提取节点的特征,利用relu函数作为激活函数,softmax函数作为分类器,整体正向传播得到节点的嵌入表示,节点的嵌入表示的计算公式如下:
4.根据权利要求1所述的一种可信的图神经网络节点分类方法,其特征在于:在步骤s3中,将嵌入表示输入到质心模块,通过计算出有标签节点在嵌入空间中所得嵌入表示的平均值获取每类质心,质心计算公式如下:
5.根据权利要求1所述的一种可信的图神经网络节点分类方法,其特征在于:在步骤s4中,rbf模块输出包括未标记节点和每个类别质心的距离度量,通过softmax函数输出层给每个未标记节点分配空间中距离其最近的类别质心的标签,计算公式如下:
6.根据权利要求1所述的一种可信的图神经网络节点分类方法,其特征在于:通过rbf模块所预测得未标记节点的类别标签,得到无标签节点得类别,同时获取模型每个未标记节点的可信性,可信度为无标签节点与质心间的距离。
7.根据权利要求1所述的一种可信的图神经网络节点分类方法,其特征在于:在步骤s5中,在交叉熵损失的基础之上,引入梯度惩罚损失和不确定性损失,通过反向传播算法最小化各项损失,
8.根据权利要求7所述的一种可信的图神经网络节点分类方法,其特征在于:模型总损失如下: