一种基于可解释维度图神经网络的蛋白质分类方法

文档序号:30583221发布日期:2022-06-29 13:37阅读:238来源:国知局
一种基于可解释维度图神经网络的蛋白质分类方法

1.本发明属于蛋白质分类技术领域,特别是涉及一种基于可解释维度图神经网络的蛋白质分类方法。


背景技术:

2.图数据是由节点和边组成的非线性数据,为现实世界中的各种系统提供了统一的建模方式。为了解决以向量为输入的机器学习算法难以直接应用于图数据的问题,出现了将图数据映射为矢量化表示(又名嵌入向量)的图表示学习技术(又名图表征学习)。近年来,图神经网络(gnn)成为了图表示学习的主流方法。
3.蛋白质分子由氨基酸以“脱水缩合”的方式组成,可以自然地用图数据表示。
4.现有的蛋白质分类方法,虽然有采用图神经网络来判断,均没有考虑维度问题。其既没有将蛋白质图结构嵌入到统一的维度中,也没有对拓扑结构不同的蛋白质分子采用不同的图表示维度,导致嵌入结果欠佳。而表示维度作为超参数,对gnn模型的性能有显著影响:过少的维数会降低模型的表现能力,过大的维数会导致过拟合,还会导致模型参数和复杂度的增加。
5.对于维度估计问题,目前的图神经网络训练方案普遍是将维度作为超参数,根据领域知识或经验进行调参,一般使用基于网格搜索(grid search)或穷举的方法,训练多个不同维度的gnn模型来确定最佳嵌入维度。基于网格搜索这类启发式维度选择的方法需要花费巨大的时间和计算资源,而且通常无法得到最优表示维度,导致gnn的训练结果欠佳。比如网格搜索以n为间隔枚举维数,无法精确找到枚举间隔内的最优维数;通过穷举可以得到准确的最优维度,但这种方法缺乏理论依据,得到的最优维度没有可解释性。


技术实现要素:

6.为了解决上述问题,本发明提出了一种基于可解释维度图神经网络的蛋白质分类方法,用于解决现有方法忽略维度估计,导致蛋白质分类准确率欠佳,效率不高的问题。
7.为达到上述目的,本发明采用的技术方案是:一种基于可解释维度图神经网络的蛋白质分类方法,包括步骤:
8.s10,从蛋白质分子的图数据中获取邻接对称矩阵;
9.s20,基于邻接矩阵估计蛋白质图结构的节点表示向量维度,作为最优估计维度;
10.s30,基于最优估计维度得到最优估计维度的候选集;
11.s40,基于最优估计维度的候选集,对可解释维度图神经网络模型进行训练,训练中蛋白质图结构被嵌入到最佳拟合维度;
12.s50,基于训练好的图神经网络模型进行蛋白质分类任务,得到蛋白质的预测类型。
13.进一步的是,在所述步骤s10中,图数据中图结构的节点代表氨基酸,图结构的边代表氨基酸间的化学键;从蛋白质分子的图数据中获取氨基酸间化学键对应的邻接矩阵;
14.其中,邻接矩阵a是一个用于表示蛋白质图结构的n*n的二维数组,n为蛋白质中氨基酸的数量。
15.进一步的是,在所述s20中,基于邻接矩阵估计蛋白质图结构的节点表示向量维度,作为估计维度,包括步骤:
16.s21,定义衡量蛋白质图结构节点属性不确定性的属性熵,属性熵由氨基酸数量和氨基酸的向量维度计算得到;
17.s22,求蛋白质邻接矩阵的多阶邻接矩阵;
18.s23,对多阶邻接矩阵做图拉普拉斯正规化处理;
19.s24,计算衡量氨基酸图结构全局和局部不确定性的结构熵;
20.s25,根据结构熵,求相对概率pi,作为融合各阶邻接矩阵时的加权系数;
21.s26,融合蛋白质图结构的各阶邻接矩阵和度对角矩阵;
22.s27,利用融合后的邻接矩阵,计算蛋白质图结构的高阶结构熵;
23.s28,根据高阶结构熵和属性熵获取估计维度。
24.进一步的是,在步骤s22中,求蛋白质邻接矩阵的多阶邻接矩阵包括
[0025][0026]
分别度量了图结构的一阶、二阶、三阶邻接矩阵结构,分别表示氨基酸两两之间能否通过长度为一个、二个、三个化学键的路径相连;
[0027]
a+i在表示原图结构中增加了氨基酸到自身化学键。
[0028]
进一步的是,在步骤s23中,对多阶邻接矩阵做图拉普拉斯正规化处理;
[0029]
得到:
[0030]
其中,为各阶邻接矩阵的度对角矩阵,di为正规化的各阶邻接矩阵的度对角矩阵所定义的di[u][v]代表在gnn模型中,氨基酸u到氨基酸v传递的信息。
[0031]
进一步的是,在步骤s24中,计算衡量氨基酸图结构全局和局部不确定性的结构熵;
[0032]
结构熵为:
[0033]
其中,是编码树,g
α
定义为对di[u][v]求和,其中u取不在以α为根的子树中的节点,v取在子树中的节点;vol(α)代表以α为根节点的子树中所有节点的度数之和,γ是根节点。
[0034]
进一步的是,在步骤s25中,相对概率pi为:
[0035][0036]
在步骤s26中,融合蛋白质图结构的各阶邻接矩阵和度对角矩阵,得到
[0037]
其中
[0038]
进一步的是,计算蛋白质图结构的高阶结构熵:
[0039]
根据高阶结构熵和属性熵获取估计维度:估计氨基酸表示向量维度d,d由不等式确定,该公式是属性熵h
att
≈logn
2-0.24d和结构熵之和小于等于图固有熵的充分条件。
[0040]
进一步的是,在步骤s30中,基于最优估计维度维度进行聚类,不同簇中的图在gnn的最后一个图卷积层嵌入到不同维度,得到最优估计维度的候选集,包括步骤:
[0041]
对所有蛋白质图结构的最优维度进行聚类数k=1的k-mean聚类,得到簇中心值c0;
[0042]
对所有蛋白质图结构的最优维度进行聚类数k=k的k-mean聚类,得到簇中心值c1,c2,

,ck,这些中心值构成最优估计维度的候选集;
[0043]
给每个蛋白质图结构gi分配其所在簇的ci值。
[0044]
进一步的是,在所述步骤s40中,基于最优估计维度的候选集,对可解释维度图神经网络模型进行训练,训练中蛋白质图结构被嵌入到最佳拟合维度,包括步骤:
[0045]
基于最优估计维度的候选集训练可解释维度图神经网络模型;
[0046]
所述可解释维度图神经网络模型中除了最后一个图卷积层,所有其他图卷积层都拥有统一的隐藏表示维度c0;最后一个图卷积层实际由k个图卷积层组成,k个图卷积层的输出维度分别为c1,c2,

,ck;
[0047]
训练策略是所有蛋白质图结构依次输入该可解释维度图神经网络模型,在最后一个图卷积层,将图按照其所在簇的ci值分配到输出维度为ci的卷积层。
[0048]
采用本技术方案的有益效果:
[0049]
本发明提出的蛋白质分类方法,基于从蛋白质分子的图数据中获取邻接对称矩阵;利用邻接矩阵估计蛋白质图结构的节点表示向量维度,作为最优估计维度,并构建最优估计维度的候选集;基于最优估计维度的候选集,对可解释维度图神经网络模型进行训练,训练中蛋白质图结构被嵌入到最佳拟合维度;基于训练好的图神经网络模型进行蛋白质分类任务,得到蛋白质的预测类型。从而融入了维度估计,提高了蛋白质分类准确率,提高了计算效率。
[0050]
本发明中提出的可解释维度图神经网络模型提升了传统gnn模型的分类精度:实验表明,在有监督的图分类类任务上,与各种gnn模型相比分类精度都有提升。
[0051]
本发明能够有效降低时间复杂度:本发明不仅提升gnn的分类精度,也降低了时间复杂度。具体来说,本发明在两个方面提高了gnn用于图分类任务的时间效率。一方面,与基于网格搜索的启发式方法相比,本发明可以在更短的时间内估计出最佳的图表示维度。另一方面,以本发明估计结果作为图表示维度的gnn模型,和其它表示维度的gnn模型相比具有更高的运行效率。
[0052]
本发明能够提高可解释性:本发明基于最小熵原理,用计算方法直接求得最优维度,不需要额外训练神经网络,具有较好的可解释性。与基于网格搜索的启发式方法相比有基于信息论的理论支撑。
[0053]
本发明适用范围广:本发明提出的具有可解维度的基于gnn的蛋白质分类方法,在提升原gnn模型性能的同时,能够应用于各种gnn模型。进一步,能应用于蛋白质分类以外的任务。
附图说明
[0054]
图1为本发明的一种基于可解释维度图神经网络的蛋白质分类方法流程示意图;
[0055]
图2为本发明实施例中最优估计维度过程的流程示意图;
[0056]
图3为本发明实施例中对可解释维度图神经网络模型进行训练的流程示意图;
[0057]
图4为本发明实施例中可解释维度图神经网络模型的结构示意图。
具体实施方式
[0058]
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
[0059]
在本实施例中,参见图1所示,本发明提出了一种基于可解释维度图神经网络的蛋白质分类方法,包括步骤:
[0060]
s10,从蛋白质分子的图数据中获取邻接对称矩阵;
[0061]
s20,基于邻接矩阵估计蛋白质图结构的节点表示向量维度,作为最优估计维度;
[0062]
s30,基于最优估计维度得到最优估计维度的候选集;
[0063]
s40,基于最优估计维度的候选集,对可解释维度图神经网络模型进行训练,训练中蛋白质图结构被嵌入到最佳拟合维度;
[0064]
s50,基于训练好的图神经网络模型进行蛋白质分类任务,得到蛋白质的预测类型。
[0065]
作为上述实施例的优化方案1,在所述步骤s10中,图数据中图结构的节点代表氨基酸,图结构的边代表氨基酸间的化学键;从蛋白质分子的图数据中获取氨基酸间化学键对应的邻接矩阵;
[0066]
其中,邻接矩阵a是一个用于表示蛋白质图结构的n*n的二维数组,n为蛋白质中氨基酸的数量;
[0067]
在邻接矩阵a中,如果氨基酸i和氨基酸j之间的距离小于6埃,就认为它们之间存在化学键,有a
ij
=1。
[0068]
作为上述实施例的优化方案2,如图2所示,在所述s20中,基于邻接矩阵估计蛋白质图结构的节点表示向量维度,作为估计维度,包括步骤:
[0069]
s21,定义衡量蛋白质图结构节点属性不确定性的属性熵,属性熵由氨基酸数量和氨基酸的向量维度计算得到;
[0070]
s22,求蛋白质邻接矩阵的多阶邻接矩阵;
[0071]
s23,对多阶邻接矩阵做图拉普拉斯正规化处理;
[0072]
s24,计算衡量氨基酸图结构全局和局部不确定性的结构熵;
[0073]
s25,根据结构熵,求相对概率pi,作为融合各阶邻接矩阵时的加权系数;
[0074]
s26,融合蛋白质图结构的各阶邻接矩阵和度对角矩阵;
[0075]
s27,利用融合后的邻接矩阵,计算蛋白质图结构的高阶结构熵;
[0076]
s28,根据高阶结构熵和属性熵获取估计维度。
[0077]
具体实施过程:
[0078]
s21,定义衡量蛋白质图结构节点属性不确定性的属性熵,属性熵由氨基酸数量和氨基酸的向量维度计算得到;
[0079]
属性熵具体形式是h
att
≈logn
2-0.24d,其中n代表氨基酸数量,d代表氨基酸表示向量维度。
[0080]
s22,求蛋白质邻接矩阵的多阶邻接矩阵包括
[0081][0082]
分别度量了图结构的一阶、二阶、三阶邻接矩阵结构,分别表示氨基酸两两之间能否通过长度为一个、二个、三个化学键的路径相连;
[0083]
a+i在表示原图结构中增加了氨基酸到自身化学键。
[0084]
s23,对多阶邻接矩阵做图拉普拉斯正规化处理,得到:s23,对多阶邻接矩阵做图拉普拉斯正规化处理,得到:
[0085]
其中,为各阶邻接矩阵的度对角矩阵,di为正规化的各阶邻接矩阵的度对角矩阵所定义的di[u][v]代表在gnn模型中,氨基酸u到氨基酸v传递的信息。
[0086]
s24,计算衡量氨基酸图结构全局和局部不确定性的结构熵;
[0087]
结构熵为:
[0088]
其中,是编码树,以三层的编码树为例,根节点γ表示整个图,第二层中的树节点表示图的社区,每个社区中的节点构成树的第三层即叶节点;该定义通过使用社区划分来构建图的层次信息,在传统只考虑全局分布的结构熵中引入了节点的局部分布;为了计算高维结构熵,需要使用社区发现算法构造编码树,比如效率较高的鲁汶算法。g
α
定义为对di[u][v]求和,其中u取不在以α为根的子树中的节点,v取在子树中的节点;vol(α)代表以α为根节点的子树中所有节点的度数之和,γ是根节点。
[0089]
s25,根据结构熵,求相对概率pi,作为融合各阶邻接矩阵时的加权系数;
[0090]
相对概率pi为:
[0091][0092]
s26,融合蛋白质图结构的各阶邻接矩阵和度对角矩阵,得到
[0093]
其中因为表示蛋白质更复杂的结构信息,所以其结构熵比更大。将直接相加会导致冗余和过平滑,因此在融合时给每项赋予一个概率。
[0094]
s27,利用融合后的邻接矩阵,计算蛋白质图结构的高阶结构熵,计算方法与s24一致。
[0095]
s28,根据高阶结构熵和属性熵获取估计维度:估计氨基酸表示向量维度d,d由不等式确定,该公式是属性熵h
att
≈logn
2-0.24d和结构熵之和小于等于图固有熵的充分条件。
[0096]
作为上述实施例的优化方案3,在步骤s30中,如图3所示,基于最优估计维度维度进行聚类,不同簇中的图在gnn的最后一个图卷积层嵌入到不同维度,得到最优估计维度的
候选集。
[0097]
包括步骤:
[0098]
对所有蛋白质图结构的最优维度进行聚类数k=1的k-mean聚类,得到簇中心值c0;
[0099]
对所有蛋白质图结构的最优维度进行聚类数k=k的k-mean聚类,得到簇中心值c1,c2,

,ck,这些中心值构成最优估计维度的候选集;
[0100]
给每个蛋白质图结构gi分配其所在簇的ci值。
[0101]
作为上述实施例的优化方案4,在所述步骤s40中,如图3所示,基于最优估计维度的候选集,对可解释维度图神经网络模型进行训练,训练中蛋白质图结构被嵌入到最佳拟合维度,包括步骤:
[0102]
基于最优估计维度的候选集训练可解释维度图神经网络模型;
[0103]
所述可解释维度图神经网络模型中除了最后一个图卷积层,所有其他图卷积层都拥有统一的隐藏表示维度c0;最后一个图卷积层实际由k个图卷积层组成,k个图卷积层的输出维度分别为c1,c2,

,ck;
[0104]
训练策略是所有蛋白质图结构依次输入该可解释维度图神经网络模型,在最后一个图卷积层,将图按照其所在簇的ci值分配到输出维度为ci的卷积层;
[0105]
可解释维度图神经网络模型形式化表述如下:
[0106][0107][0108][0109][0110]
本发明在传统的gnn训练流程中增加了维度估计的步骤。对于蛋白质分类问题,进一步修改训练流程和gnn模型,将不同的蛋白质图结构嵌入到不同的维度中。
[0111]
为了充分利用图的结构信息,本发明的维度估计方法基于最小熵原理。该度量考虑图中全局和局部的拓扑结构,在图数据上得到了更优的维度估计,该维度估计以信息论为理论基础,具有较好的可解释性。
[0112]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1