基于深度学习的关键蛋白质预测方法

文档序号:37900215发布日期:2024-05-09 21:43阅读:10来源:国知局
基于深度学习的关键蛋白质预测方法

本发明涉及生物信息学,尤其涉及基于深度学习网络的关键蛋白质预测方法。


背景技术:

1、蛋白质是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与,其中有一类蛋白质在生命活动中尤其重要,这一类蛋白质对细胞的生存和发育而言属于必需的蛋白质,这一类蛋白质被认为是关键蛋白质(或称关键蛋白)。

2、作为关键基因的产物,关键蛋白质在控制生物体细胞活动方面发挥着不可替代的作用。例如,酿酒酵母中关键蛋白的缺失会导致蛋白质复合物的功能丧失,最终导致酵母死亡。因此关键蛋白的识别对生物体功能的鉴定非常重要。同时,关键蛋白的识别还可以为分子生物学中了解生物过程和分子功能提供依据,以及为鉴定与疾病相关的基因和寻找新药物靶点提供重要帮助。

3、早期识别关键蛋白质的主要方法是采用实验筛选,例如采用单基因敲除,条件敲除以及rna干扰等试验进行筛选。这类方法的实验过程困难,需花费许多人力和物力,且结果伴随噪声;此外,关键蛋白质的鉴定结果易受实验条件和标准的影响。

4、利用计算手段预测关键蛋白是当前主流的关键蛋白筛选方法;利用计算手段预测关键蛋白是指通过计算评价蛋白重要度的评估参量的方式来识别关键蛋白。评价蛋白重要度的评估参量一般包括拓扑中心度参量、蛋白生物特性参量和蛋白互作关系参量等。

5、拓扑中心度参量最早用于筛选关键蛋白。它的计算需要借助ppi网络中的dc、bc、cc、sc以及nc等拓扑信息。该类参量的提出基于“中心性-致死性”法则,认为ppi网络中蛋白节点的拓扑中心度与它的重要度高度相关。然而,仅仅依靠拓扑中心度参量筛选关键蛋白并不全面。ppi网络作为一种生物网络,不仅含有网络拓扑信息,也蕴含生物信息,这里的生物信息包括蛋白节点本身的生物特性以及蛋白间相互作用关系,它们同样是推断关键蛋白的重要依据,而拓扑中心度参量并不包含这些信息。

6、蛋白生物特性参量即描述蛋白质本身生物特性的参量,包括一系列能够评估蛋白重要度的参数。最常用的是基因序列参数(如gc含量、orf长度等)、蛋白序列参数(如蛋白长度等)、蛋白功能参数(如细胞定位、结构域特性、复合物参数等)、蛋白进化参数(如蛋白保守性等)。这类参数能够从序列层面、功能层面揭示关键蛋白的特性,有效提高关键蛋白预测效率。

7、蛋白互作关系参量即描述蛋白与蛋白之间相互作用关系的参量,由ppi网络中蛋白与其邻居蛋白的共表达(co-expressed)强度及功能相似性来评估。其中基因表达数据的皮尔森相关系数(pearson correlation coefficient,pcc)反映蛋白与邻居蛋白的共表达强度,而蛋白之间go富集的相似性反映蛋白功能的相似性。这类参数可以评估ppi网络中蛋白相互作用的可靠性,有助于建立置信度高的ppi网络。

8、基于以上三类蛋白重要度评估参量,产生了一系列筛选关键蛋白的打分函数和机器学习算法。

9、基于打分函数的关键蛋白预测方法主要依靠蛋白重要度评估参量以线性组合的方式计算蛋白质分数,并根据分数排序评价蛋白质的重要度。这类方法不需要根据已知的关键蛋白质数据集训练分类器,可以直接识别关键蛋白。这类方法的缺点是过于依赖先验知识,且通过简单的线性组合不能有效利用三类蛋白重要度评估参量。过于依赖专家知识和经验参数,无法自适应的学习特征

10、基于机器学习算法的关键蛋白预测方法根据输入的关键蛋白和非关键蛋白数据集建立非线性预测模型。该类方法以数据驱动的方式预测关键蛋白,与打分函数相比具有更强的泛化能力。然而,机器学习算法在利用这三类参量时忽略了ppi网络自身的图结构,并不能有效组织和利用三类参量所表征的生物学意义。尽管ppi拓扑参量能反映蛋白在网络中的位置以及蛋白与周边邻居蛋白的紧密关系,但现有方法仅限于统计候选蛋白在图结构的邻接关系未能实现从图结构中自适应学习融合拓扑信息和生物学意义的描述子。除此之外,参量的选择仍依赖专家知识和经验参数,例如,为评估蛋白在ppi网络中的拓扑中心度,不同的学者提出多种拓扑中心度参数,它们既高度相关又不尽相同,这种特征工程(feature engineering)获得的特征描述并不能全面客观地反映关键蛋白与其他蛋白的区别,因此限制了机器学习预测模型对关键蛋白预测的效果。

11、上述分析可见,当前基于机器学习的预测方法都只是在“组织”层面修正传统打分函数线性叠加的方式,并未在“表达”层面有效利用ppi网络图结构提升参量的表征能力,它们的鲁棒性和泛化能力仍有待提高。

12、综上所述,现有的基于打分函数和机器学习的关键蛋白预测方法的共同缺点如下:

13、(1)用于分类的蛋白质特征过于依赖专家知识和经验参数,无法自适应的学习特征;

14、(2)现有方法忽略了蛋白质互作网络中蛋白间的相互作用,没有聚集邻居蛋白(节点)的信息,

15、(3)现有蛋白质互作网络中存在过多无效蛋白质节点,现有方法没有提取有效蛋白质节点。


技术实现思路

1、本发明提出了基于深度学习的关键蛋白质预测方法,解决了现有关键蛋白预测方法中用于分类的蛋白质特征过于依赖专家知识和经验参数、无法自适应的学习特征的问题,以及现有方法忽略了蛋白质互作网络中蛋白间的相互作用、没有聚集邻居蛋白的信息的问题,以及现有蛋白质互作网络中存在过多无效蛋白质节点、现有方法没有提取有效蛋白质节点的问题。

2、本发明所述的基于深度学习的关键蛋白质预测方法,其技术方案如下:

3、所述方法包括:

4、s1、生成待识别蛋白质物的具有蛋白质节点编码和互作关系边编码的加权蛋白质互相作用网络;

5、s2、获取关键蛋白质预测模型;所述关键蛋白质预测模型包括预训练网络、图神经网络以及分类层;

6、s3、采用自然语言处理中的语言模型对待识别蛋白质物的蛋白质序列进行编码,获得待识别蛋白质物的序列特征;

7、s4、将所述加权蛋白质互相作用网络作为所述预训练网络的输入,获得蛋白质节点特征;

8、s5、在蛋白质节点特征中加入所述序列特征,获得蛋白预训练特征;

9、s6、将所述蛋白预训练特征作为所述图神经网络的输入,获得蛋白质节点的深层表达;

10、s7、将所述蛋白质节点的深层表达作为所述分类层的输入,对蛋白质节点进行分类,获得关键蛋白质预测结果。

11、进一步的,提供一个优选实施方式,所述步骤s1包括:

12、s1.1、获取待识别蛋白质物的原始蛋白质互相作用网络;所述原始蛋白质互相作用网络包括若干个蛋白质节点和边,其中蛋白质节点与其邻居蛋白质节点之间采用边进行连接;

13、s1.2、对进行原始蛋白质互相作用网络加权,加权过程包括获取原始蛋白质互相作用网络中蛋白质节点的特征以及蛋白质节点与其邻居蛋白质节点边的特征;

14、s1.3、采用基于改进遗传算法的特征选择算法对蛋白质节点的特征进行选择,获得代表性特征集合;

15、根据代表性特征集合对蛋白质节点进行量化编码,获得蛋白质节点编码;

16、s1.4、根据蛋白质节点与其邻居蛋白质节点边的特征,提取蛋白质节点和其邻居蛋白质节点对应的不同时期的基因表达数据,以获得蛋白质节点与其邻居蛋白质节点对应的基因的共表达模式和共表达水平;

17、根据蛋白质节点与其邻居蛋白质节点的基因共表达模式和水平,对蛋白质节点与其邻居蛋白质节点的边进行量化编码,获得互作关系边编码;

18、最终生成待识别蛋白质物的具有蛋白质节点编码和互作关系边编码的加权蛋白质互相作用网络。

19、进一步的,提供一个优选实施方式,所述步骤s1.3中,采用基于改进遗传算法的特征选择算法对蛋白质节点的特征进行选择,获得代表性特征集合包括以下步骤:

20、s1.3.1、基因编码操作:

21、对蛋白质节点的特征进行二进制编码,获得与每一个蛋白质节点的特征对应的候选特征:

22、设所有的蛋白质节点的特征为,则所有的候选特征为;其中,为第i个蛋白质节点的特征,为第i个候选特征,与一一对应;,当值为0时表示代表性特征集合中不选择,当值为1时表示代表性特征集合中选择;

23、对惩罚参数c采用二进制编码,根据范围和精度计算所需要的二进制串长度为;

24、对核参数采用二进制编码,根据范围和精度计算所需要的二进制串长度为;

25、s1.3.2、种群初始化:

26、随机生成m个初始候选特征;

27、s1.3.3、选择操作:

28、获取每个候选特征对应的适应值函数:

29、;

30、其中:是一个对已有特征进行分类的算法;为svm分类准确率的权重,设置为75-100%;为svm的分类准确率;为选择特征和惩罚参数乘积和逆的权重,设置为100%;为第i个候选特征的损失;为1代表选择了第i个候选特征,为0代表没有选择第i个候选特征;

31、按照适应值函数的值,从高到低对候选特征进行排序,将排在前20%的候选特征挑选出来直接作为下一代;

32、s1.3.4、交叉操作:

33、在被挑选出前20%的候选特征的当前候选特征挑选出排在前40%的候选特征两两交叉作为下一代;

34、s1.3.5、变异操作:

35、重新随机生成新的候选特征,使经过交叉操作后的当前候选特征的个数恢复到m个;

36、s1.3.6、重复步骤1.3.3至1.3.5直到的改变小于1%为止,获得代表性特征集合。

37、进一步的,提供一个优选实施方式,所述步骤s1.3.4中两两交叉具体如下:

38、对于两个候选特征,在每个候选特征的编码中随机设置两个交叉点,交换两个候选特征的编码中的两个交叉点之间的信息。

39、进一步的,提供一个优选实施方式,所述步骤s1.4中,提取蛋白质节点和其邻居蛋白质节点对应的不同时期的基因表达数据,以获得蛋白质节点与其邻居蛋白质节点对应的基因的共表达模式和共表达水平,具体如下:

40、s1.4.1、设任意一个蛋白质节点所对应的基因为,所述任意一个蛋白质节点的邻居蛋白质节点所对应的基因为,则所述任意一个蛋白质节点和其邻居蛋白质节点对应的不同时期的基因表达数据为和在不同时期的表达谱,其中:

41、在不同时期的表达谱为(,,,,);

42、在不同时期的表达谱为(,,,,);

43、s1.4.2、获取和在不同时期的表达谱的欧氏距离,作为和之间的共表达模式:

44、;

45、==;

46、其中,表示对比函数;

47、s1.4.2、获取和在不同时期的表达谱的皮尔森相关系数,作为和之间的共表达水平:

48、;

49、其中,表示选择的时期个数。

50、进一步的,提供一个优选实施方式,所述预训练网络为卷积神经网络;所述预训练网络包括卷积层、池化层以及全连接层;

51、所述步骤s4具体为:

52、采用预训练网络提取所述加权蛋白质互相作用网络的原始输入特征,所述原始输入特征提取自蛋白质节点编码;

53、将所述原始输入特征依次经过所述预训练网络的卷积层、池化层以及全连接层进行处理,获得蛋白质节点特征。

54、进一步的,提供一个优选实施方式,所述图神经网络包括图卷积层、注意力层和全连接层;

55、所述步骤s6具体为:

56、采用所述图卷积层的卷积操作,将任意一个蛋白质节点的预训练特征与其邻居蛋白质节点的特征聚合,同时采用注意力层屏蔽掉任意一个蛋白质节点的无效的邻居蛋白质节点的特征,获得蛋白质节点的融合了邻居信息的特征;其中,邻居蛋白质节点的特征提取自蛋白质节点的预训练特征;

57、采用全连接层对蛋白质节点的融合了邻居信息的特征进行处理,获得蛋白质节点的深层表达。

58、进一步的,提供一个优选实施方式,所述分类层为多感知层或softmax层。

59、进一步的,提供一个优选实施方式,所述采用注意力层屏蔽掉任意一个蛋白质节点的无效的邻居蛋白质节点的特征具体如下:

60、设预训练特征为:

61、;

62、其中,,是加权蛋白质互相作用网络中蛋白质节点的个数,f是蛋白质节点节点参量的个数;

63、获取第j个蛋白质节点对第i个蛋白质节点的注意力系数;

64、;

65、其中,,为初始权重参数;为矩阵乘法;第j个蛋白质节点是第i个蛋白质节点的邻居节点;

66、使用softmax函数对注意力系数进行归一化,获取归一化后的注意力系数:

67、。

68、本发明还提供了一种计算机程序产品:

69、所述一种计算机程序产品,包括:处理器和存储器,所述存储器用于存储所述处理器的可执行指令,所述处理器配置为经由执行所述可执行指令来执行上述的基于深度学习的关键蛋白质预测方法

70、本发明有以下有益效果:

71、1.本发明所述的基于深度学习的关键蛋白质预测方法,通过基于深度学习网络技术构建关键蛋白质预测模型,可以自适应地学习ppi网络中的特征,解决了现有蛋白质分类方法过于依赖专家知识和经验参数的问题。

72、2.本发明所述的基于深度学习的关键蛋白质预测方法,通过对ppi网络中的蛋白质节点特征和边特征进行编码,获得加权蛋白质互相作用网络,可以有效组织和利用蛋白质的生物特性特征、蛋白质之间的互作关系特征以及ppi网络中的拓扑结构特征。

73、3.本发明所述的基于深度学习的关键蛋白质预测方法,通过注意力层的作用(即注意力机制、)attention mechanisms,有针对性地融合重要度大的邻居节点的特征,一方面可以剔除无效节点,重点关注有效蛋白质节点的特征,提高了关键蛋白质的预测精度;另一方面提高了图神经网络的训练和学习的效率;需要说明的是,现有ppi网络中节点较多且存在假阳性,利用传统的图神经网络处理此类节点分类问题,存在训练时间长、效率低等问题;但是通过引入注意力机制,采用每一个蛋白质节点的邻居节点计算注意力系数来更新节点,不需要依赖完整的图结构信息,不仅可以有针对性的融合信息量大(重要度高)的邻居节点,还可以同时处理多个不同度的节点,以进行高度并行化计算,实现更快速有效的进行特征学习。

74、4.本发明所述的基于深度学习的关键蛋白质预测方法,通过采用基于改进遗传算法的特征选择算法对蛋白质节点的特征进行选择,获得代表性特征集合,对现有的遗传算法进行了改进,重新定义了适应值函数。在新定义的适应值函数中,采用算法返回的分类准确率作为一个参数去求取适应值函数;这样的改进能够获得更准确的代表性特征集合,进而提高关键蛋白质的预测准确率。

75、本发明所述的基于深度学习的关键蛋白质预测方法,适用于预测关键蛋白质。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1