本发明涉及图数据挖掘技术领域,具体而言涉及一种基于子结构组装网络的图分类方法和系统。
背景技术:
图结构的数据可以描述事物之间复杂的相互关系,现实世界中如生物蛋白质-蛋白质相互作用网络、化合物、社交网络等这些图数据的激增,导致了图挖掘研究的兴起。
图分类在生物化学、计算机科学、社交网络等诸多领域都有重要的研究和应用价值。图分类是社会网络和生物数据分析的重要工具,旨在从训练数据中训练分类器以预测测试数据的类标签,其中训练和测试样本均为图结构。例如,在蛋白质或酶的数据中,我们可以发现疾病或有缺陷的化合物的表象;在生物学中,用图结构表示蛋白质结构,其中每个顶点代表氨基酸,每条边代表该边所连接的不同氨基酸之间的接触残基,通过实验观察,对变异的蛋白质结构图进行分析,提取病变蛋白质的结构特征并构建分类模型,可用于预测未知蛋白质的病变属性;在社交网络中,我们可以根据其内部结构特征对社会群体进行分类或预测协作关系等。
现有的图分类方法主要分为两类:核方法和深度学习。典型的核方法主要wl子树核、随机游走核和最短路径核等,这些方法在考虑可扩展性时通常涉及高计算复杂性,同时相似度矩阵计算和分类学习是两个独立的步骤,因此训练阶段提取的特征图不能优化后续分类任务(shortest-pathkernelsongraphs.borgwardtandkriegel)。而深度学习是端到端的,特征提取和分类一步到位,能够从原始数据自动提取特征,现有的基于深度学习的图分类方法分为两大类:谱方法和空间方法。谱方法主要从谱图理论中得到启发,谱方法的一些变体试图解决谱卷积过程中的一些问题(例如降低计算复杂度)。由于拉普拉斯矩阵的分解需求,谱方法经常承担昂贵的计算负担,同时该方法很难学习局部子结构特征限制了分类性能(spectralnetworksandlocallyconnectednetworksongraphs.brunaetal.)。空间方法通常利用相邻顶点来定义局部空间结构,然后对这些结构化的子图进行深度编码,或根据空间边的连接对局部邻域排序或聚合以适应局部卷积滤波。niepertm等人提出pscn(learningconvolutionalneuralnetworksforgraphs.niepertetal.),这种方法能够自动学习局部子结构特征,提高了分类精度,但该技术的性能在很大程度上取决于第一步中的节点对齐结果,而节点对齐问题是np难的,难以保证有效的节点对齐。
技术实现要素:
本发明目的在于提供一种基于子结构组装网络的图分类方法和系统,不需要节点对齐步骤,利用类似rnn(recurrentneuralnetworks)的网络结构子结构组装单元层通过一系列的边选择决策(同时考虑边标签和邻居节点状态信息)组装子结构特征,多个子结构组装单元层级联最终组装成较大的判别性子结构,利用最后一个子结构组装单元层得到的以每个节点为中心节点的各种子结构通过池化层聚合成固定长度的特征向量,然后采用全连接层预测该特征向量的类标签。本发明在构建判别性子结构时分层提取,提高了子结构特征的精度,有助于为后续分类任务减少分类误差。
为达成上述目的,结合图1,本发明提出一种基于子结构组装网络的图分类方法,所述方法包括:
s1:创建子结构组装网络,所述子结构组装网络包括依次连接的l个子结构组装单元层、池化层和全连接层,所述l个子结构组装单元层依次级联,每个子结构组装单元层均具有至少一个输入端和至少一个输出端,其中,距离池化层最远的子结构组装单元层的输入端为所述l个子结构组装单元层的总输入端,与池化层连接的子结构组装单元层的输出端为所述l个子结构组装单元层的总输出端,所述l为大于等于1的正整数;
s2:将接收到的输入图结构导入所述l个子结构组装单元层,每层子结构组装单元层通过概率方法对输入图结构上的每个节点选择与其相连的边组成判别局部子结构,通过多个子结构组装单元层级联以提取输入图结构的总判别图特征;
s3:将步骤s2中得到的输入图结构的总判别图特征通过池化层聚合成固定长度的特征向量;
s4:对于步骤s3中得到的特征向量,采用全连接层进行预测以获取池化层输出的特征向量的类标签。
进一步的实施例中,所述方法还包括:
设输入图结构的表达式为g=(v,e,r),其中v是节点属性集的特征向量,e是边属性集的特征向量,r是边残余概率集,ri,j∈r表示边ei,j的残余概率,范围为[0,1];
设gl-1=(v(l-1),e,r(l-1))为第l个子结构组装单元层的输入,其中,v(l-1)表示组装的子结构的特征向量,r(l-1)表示第(l-1)个子结构组装单元层后更新的边残余概率,l=1,2,…,l;
所述子结构组装单元层提取判别图特征包括以下两个步骤:
s101:对于输入图gl-1中每个节点i,将以节点i为中心的子结构表示为
s102:选择节点i的邻居序列ni=<j|ei,j∈e>;
对于节点i的第k个邻居节点ni(k)=j,将
将第(k-1)个邻居后组装的子结构隐向量
根据公式
根据公式
根据公式
将第l个子结构组装单元层完成边选择后节点i的输出
进一步的实施例中,步骤s3中,所述将步骤s2中得到的输入图结构的总判别图特征通过池化层聚合成固定长度的特征向量是指,
将最后一个子结构组装单元层得到的以每个节点为中心节点的各种子结构输入池化层,根据公式
进一步的实施例中,步骤s4中,所述对于步骤s3中得到的特征向量,采用全连接层进行预测以获取池化层输出的特征向量的类标签是指,
利用公式
基于前述方法,本发明还提及一种基于子结构组装网络的图分类系统,所述系统包括子结构组装网络,所述子结构组装网络包括依次连接的l个子结构组装单元层、池化层和全连接层,所述l个子结构组装单元层依次级联,每个子结构组装单元层均具有至少一个输入端和至少一个输出端,其中,距离池化层最远的子结构组装单元层的输入端为所述l个子结构组装单元层的总输入端,与池化层连接的子结构组装单元层的输出端为所述l个子结构组装单元层的总输出端,所述l为大于等于1的正整数;
所述每层子结构组装单元层通过概率方法对输入图结构上的每个节点选择与其相连的边组成判别局部子结构,通过多个子结构组装单元层级联以提取输入图结构的总判别图特征;
所述池化层用于将得到的输入图结构的总判别图特征聚合成固定长度的特征向量;
所述全连接层用于对得到的特征向量进行预测以获取池化层输出的特征向量的类标签。
以上本发明的技术方案,与现有相比,其显著的有益效果在于:
1)不需要节点对齐步骤。
2)充分结合了模式搜索和深度学习分层提取判别性子结构,提高了子结构特征的精度,有助于为后续分类任务减少分类误差。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明的一种基于子结构组装网络的图分类方法的流程图。
图2是本发明的一个有两层子结构组装单元的子结构组装网络的示意图。
图3是本发明的计算在第l个子结构组装单元层选择边ei,j的概率的两层边选择网络。
图4是本发明的对于输入图结构中节点i的第k个邻居节点j子结构组装单元的计算过程。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
本实施案例将模式搜索和深度学习相结合,分层提取判别性子结构,能有效减少分类误差。如图1所示,本方法包含如下步骤:
步骤1,子结构组装单元层通过概率方法对图上的每个节点选择与其相连的边组成判别局部子结构,多个子结构组装单元层级联最终组装成较大的判别图特征,本发明采用l(l≥1)个子结构组装单元层,每个子结构组装单元层对前一个子结构组装单元层的输出起过滤作用。
例如图2即采用了2个子结构组装单元层。
步骤101,对于输入图g=(v,e,r),r是边残余概率集,ri,j∈r表示边ei,j的残余概率,限制边在子结构组装网络中不会被重复选择。
对于第l个子结构组装单元层的输入图gl-1中每个节点i进行初始化,首先将以节点i为中心的子结构表示
步骤102,对于节点i的第k个邻居节点ni(k)=j,将
步骤103,将第(k-1)个邻居后组装的子结构隐向量
步骤104,根据公式
步骤105,根据公式
步骤106,根据公式
节点i的第k个邻居节点j子结构组装单元的整个计算过程如图4所示。
步骤2,根据上一步中最后一个子结构组装单元层得到的以每个节点为中心节点的各种子结构通过池化层聚合成固定长度的特征向量。
步骤201,从最后一个子结构组装单元层得到的各种子结构根据公式
步骤202,利用上一步得到的zp根据公式g=softsign(wp·zp+bp)表示成固定长度的特征向量g。
步骤3,对于步骤2中得到的特征向量g,利用公式
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定义在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。