一种用于蛋白质复合物识别的多网络联合聚类方法

文档序号:35866043发布日期:2023-10-27 01:30阅读:52来源:国知局
一种用于蛋白质复合物识别的多网络联合聚类方法

本发明涉及计算生物学,具体涉及生物数据挖掘,更具体的涉及一种用于蛋白质复合物识别的多网络联合聚类方法。


背景技术:

1、蛋白质是细胞和组织的重要组成部分,是生物活动最重要的物质基础。它们很少单独发挥作用,而是通过与其它蛋白质相互作用形成复合物来执行生物功能。因此,对蛋白质复合物的研究有助于解析蛋白质功能以及理解生物活性过程,对生物学、病理学和蛋白质组学研究至关重要。传统的蛋白质复合物识别是通过生物学实验来实现的,如共免疫表达(co-ip)[clancy t,hovig e.from proteomes to complexomes in the era ofsystems biology[j].proteomics,2014,14(1):24-41]和rna干扰[cullen l m,arndt gm.genome-wide screening for gene function using rnai in mammalian cells[j].immunology and cell biology,2005,83(3):217-223]等。然而,这些生物实验既耗时又难以扩大规模。随着亲和纯化质谱(ap-ms[huttlin e l,bruckner r j,navarrete-pereaj,et al.dual proteome-scale networks reveal cell-specific remodeling of thehuman interactome[j].cell,2021,184(11):3022-3040.e28])技术的突飞猛进,产生了越来越多的蛋白质相互作用(ppi)数据,使得基于计算方法识别蛋白质相互作用网络中的蛋白质复合物成为可能。

2、在过去的十年中,涌现了一系列基于计算模型的蛋白质复合物识别方法,这些方法主要利用蛋白质相互作用网络的拓扑信息来识别潜在的蛋白质复合物。现有方法可以大致分为基于子图密度的方法[bader g d,hogue c w v.an automated method forfinding molecular complexes in large protein interaction networks[j].bmcbioinformatics,2003,4(1):1-27]、基于种子扩展的方法[liu x,yang z,sang s,etal.detection of protein complexes from multiple protein interaction networksusing graph embedding[j].artificial intelligence in medicine,2019,96:107-115]和基于核心-附件的方法[leung h c m,xiang q,yiu s m,et al.predicting proteincomplexes from ppi data:a core-attachment approach[j].journal ofcomputational biology,2009,16(2):133-144]等。然而,最近的研究[tan c s h,go k d,bisteau x,et al.thermal proximity coaggregation for system-wide profiling ofprotein complex dynamics in cells[j].science,2018,359(6380):1170-1177]表明,生物体中的蛋白质相互作用网络会随着空间、时间和环境的变化而变化。上述方法主要关注单个蛋白质相互作用网络中的静态复合物识别,无法捕捉复合物的动态变化。虽然一些方法集成了多源数据[ou-yang l,zhang x f,dai d q,et al.protein complex detectionbased on partially shared multi-view clustering[j].bmc bioinformatics,2016,17(1):1-15](如串联亲和纯化和蛋白质结构域)以实现蛋白质复合物识别,但它们仍以提高单个蛋白质相互作用网络的复合体识别精度为目标。近年来,人们提出了一系列动态网络聚类方法[wang j,peng x,li m,et al.construction and application of dynamicprotein interaction network based on time course gene expression data[j].proteomics,2013,13(2):301-312]来识别动态蛋白质相互作用网络中的蛋白质复合物。但这些方法很少考虑不同蛋白质相互作用网络中蛋白质复合物之间的共性与差异。因此,亟需提出一项新的方法来精准地识别不同组织或细胞系中共有与特有的蛋白质复合物。


技术实现思路

1、针对现有技术的局限,本发明提出一种用于蛋白质复合物识别的多网络联合聚类方法,本发明采用的技术方案是:

2、一种用于蛋白质复合物识别的多网络联合聚类方法,包括以下步骤:

3、s1,获取待处理的蛋白质相互作用网络;

4、s2,以所述步骤s1的结果对预设的目标函数进行求解;所述目标函数基于以下划分方式构建而成:对于不同状态下的蛋白质相互作用网络中的复合物,分为共有复合物、部分共有复合物以及特有复合物;所述共有复合物同时存在于两个蛋白质相互作用网络中,所述部分共有复合物共享两个蛋白质相互作用网络的部分蛋白质成员,所述特有复合物为各蛋白质相互作用网络仅在特定状态下形成的功能模块;

5、s3,对所述步骤s2的结果进行离散化计算,获得蛋白质—复合物分配矩阵,以所述蛋白质—复合物分配矩阵作为聚类指示。

6、相较于现有技术,本发明通过联合分析不同状态下的蛋白质相互作用网络,最终得到聚类结果,分别对应网络中的蛋白质复合物,并将来自不同网络的蛋白质复合物划分为共有复合物、部分共有复合物和特有复合物;相比现有的蛋白质复合物识别算法,本发明能够更精准地识别蛋白质复合物且发现蛋白质复合物的空间动态性;实验结果表明,本发明能够联合分析不同状态下的蛋白质相互作用网络,并从中识别出不同的蛋白质复合物,具有更为准确的识别性能。

7、作为一种优选方案,对于任意两个不同状态下的蛋白质相互作用网络,所述目标函数包括以下内容:

8、

9、其中,为蛋白质-复合物关系矩阵,维度为n×k(t),元素值表示蛋白质i属于复合物k的可能性,取值范围为所有正有理数h(t)=[hc,hp(t),hs(t)],t=1,2;矩阵以及分别表示第t个蛋白质相互作用网络中的共有复合物、部分共有复合物以及特有复合物,矩阵hc的元素值表示蛋白质i属于复合物k的可能性,矩阵hp(t)中的元素值表示蛋白质i属于复合物l的可能性,矩阵hs(t)中的元素值表示蛋白质i属于复合物z的可能性;kc=kp=ks=k/5,k为蛋白质相互作用网络中复合物的总数;表示第t个蛋白质相互作用网络中的邻接矩阵,表示蛋白质i与蛋白质j在第t个蛋白质相互作用网络中有相互作用,对于加权网络,表示蛋白质i与蛋白质j存在相互作用的概率;向量θ(t)∈{0,1}n×1,表示a(t)中包含蛋白质i的信息,则表示a(t)中不包含蛋白质i的信息,以此类推。

10、进一步的,所述目标函数包括以下用于使两个蛋白质相互作用网络中的特有复合物具有不同的蛋白质亲和模式的约束项:

11、

12、更进一步的,所述目标函数的最终形式为:

13、

14、其中,β为l2正则化项系数,λ为特有复合物的约束项系数。

15、更进一步的,在所述步骤s2求解获得蛋白质复合物关系矩阵的最优解,在所述步骤s3对所述蛋白质复合物关系矩阵的最优解进行离散化计算获得蛋白质—复合物分配矩阵。

16、更进一步的,在所述步骤s2中,在随机初始化hc、hp(t)以及hs(t)后,通过交替更新所述蛋白质复合物关系矩阵中的变量进行迭代优化。

17、更进一步的,在所述步骤s2中,按以下公式进行交替更新:

18、

19、

20、

21、其中,⊙和分别表示元素级的乘法和除法,下标a、b、d表示复合物。

22、本发明还包括以下内容:

23、一种用于蛋白质复合物识别的多网络联合聚类系统,包括依序连接的网络获取模块、迭代优化模块以及离散化计算模块,其中:

24、所述网络获取模块用于获取待处理的蛋白质相互作用网络;

25、所述迭代优化模块用于以所述网络获取模块的结果对预设的目标函数进行求解;所述目标函数基于以下划分方式构建而成:对于不同状态下的蛋白质相互作用网络中的复合物,分为共有复合物、部分共有复合物以及特有复合物;所述共有复合物同时存在于两个蛋白质相互作用网络中,所述部分共有复合物共享两个蛋白质相互作用网络的部分蛋白质成员,所述特有复合物为各蛋白质相互作用网络仅在特定状态下形成的功能模块;

26、所述离散化计算模块用于对所述迭代优化模块的结果进行离散化计算,获得蛋白质—复合物分配矩阵,以所述蛋白质—复合物分配矩阵作为聚类指示。

27、一种存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现如前述的用于蛋白质复合物识别的多网络联合聚类方法的步骤。

28、一种计算机设备,包括存储介质、处理器以及储存在所述存储介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如前述的用于蛋白质复合物识别的多网络联合聚类方法的步骤。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1